CN110473546A

CN110473546A - 一种媒体文件推荐方法及装置

Info

Publication number: CN110473546A
Application number: CN201910609618.0A
Authority: CN
Inventors: 王家凯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-19
Anticipated expiration: 2039-07-08
Also published as: WO2021004481A1; CN110473546B

Abstract

本申请实施例提供一种媒体文件推荐方法及装置，涉及终端技术领域，可以应用于智能语音设备，可以解决现有技术中基于用户语音情感的推荐方案推荐的准确性较低，用户体验差的问题。具体方案包括：电子设备接收用户的语音信号，将语音信号转换为文本信息；根据文本信息获取用户意图和用户意图中包括的槽位信息；该槽位信息可以包括情感信息和时序信息；根据用户意图和槽位信息查询媒体文件库，得到与用户意图和槽位信息对应的媒体文件。

Description

一种媒体文件推荐方法及装置

技术领域

本申请涉及终端技术领域，尤其涉及一种媒体文件推荐方法及装置。

背景技术

随着智能终端设备的应用和普及，智能语音设备在人机交互中，起到越来越重要的角色，而想要使得智能语音设备识别人类语音信息中所表达的情感，并能基于语音情感为用户推荐数据和服务，是如今人工智能研究的重要方向。

目前的基于用户语音情感的推荐方案，是基于梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)提取情感特征的算法，根据语音信息中的韵律特征和音质特征，提取用户的语音情感特征，根据语音情感特征和情感类型的对应关系查询数据库，为用户推荐相同或相近情感类型的数据或服务。例如，根据用户语音情感为用户推荐一首悲伤的歌曲，一部搞笑的影片等。

但是，这种匹配方法只支持粗粒度的情感匹配，也就是基于多媒体文件级别的数据推荐，但是用户想要了解一个多媒体文件最精彩的部分，例如用户输入语音信息“我想要看XXX影片最搞笑的片段”，“想看惊悚的电影片段”时，并不能为用户进行推荐，或者其推荐的准确性较低，用户体验差。

发明内容

本申请提供一种媒体文件推荐方法及装置，解决了现有技术中基于用户语音情感的推荐方案推荐的准确性较低，用户体验差的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种媒体文件推荐方法，应用于电子设备，该方法包括：接收语音信号，将语音信号转换为文本信息；根据文本信息获取用户意图和用户意图中包括的槽位信息；槽位信息包括情感信息和时序信息；根据用户意图和槽位信息查询媒体文件库，得到与用户意图和槽位信息对应的媒体文件。

本申请实施例中，电子设备根据用户语音信息中包含的用户意图和槽位信息，查询媒体文件库，根据时序信息和情感信息为用户匹配最接近用户需求和情感需求的多媒体文件，从而可以准确识别用户情感需求，智能地为用户推荐细粒度数据，提升用户的使用体验。

在一种可能的设计方式中，媒体文件库中存储有多个用户意图、槽位信息与多个媒体文件标识的第一映射关系；根据用户意图和槽位信息查询媒体文件库，得到与用户意图和槽位信息对应的媒体文件包括：根据第一映射关系，获取与用户意图和槽位信息对应的媒体文件。上述可能的实现方式中，电子设备根据用户意图和槽位信息的映射关系，查询媒体文件库，从而可以根据不同用户的不同情感需求，匹配最适合的媒体文件推荐给用户，从而提高智能推荐的准确性和灵活性，提升用户体验。

在一种可能的设计方式中，在获取文本信息中的用户意图和槽位信息之前，方法还包括：确定文本信息中是否包含用户意图；若确定文本信息未包含用户意图，则通过梅尔频率倒谱系数MFCC算法获取语音信号的情感特征向量；根据情感特征向量查询媒体文件库，得到与情感特征向量对应的媒体文件，其中，媒体文件库中存储有多个情感特征向量与多个情感信息的第二映射关系，每种情感信息对应多个媒体文件。上述可能的实现方式中，如用户语音信息中未包含明确的用户意图，则电子设备可以根据用户语音信息提取到的用户语音情感特征，根据对应的情感信息匹配媒体文件，从而提高智能推荐的灵活性，提升用户体验。

在一种可能的设计方式中，在接收语音信号之前，方法还包括：获取用户评论多个媒体文件的情感信息；确定情感信息为细粒度情感信息或粗粒度情感信息；若情感信息为细粒度情感信息，则获取细粒度情感信息中的槽位，在媒体文件库中建立第一映射关系；若情感信息为粗粒度情感信息，则根据情感信息得到情感特征向量，获得媒体文件的情感信息，建立媒体文件的第二映射关系。上述可能的实现方式中，电子设备可以根据海量的用户多媒体评论信息，提取情感信息和时序信息等建立映射关系，从而生成多媒体文件库，提升智能推荐的准备性。

在一种可能的设计方式中，将语音信号转换为文本信息包括：通过自动语音识别ASR将语音信号转换为文本信息。上述可能的实现方式中，电子设备可以通过自动语音识别技术，识别出用户语音信息中包括的文本信息，从而提高智能推荐的准确性。

在一种可能的设计方式中，获取文本信息中的用户意图包括：通过自然语音理解NLU技术获取文本信息中的用户意图。电子设备可以通过自然语音理解技术，识别出用户语音信息中包括的用户意图，根据用户意图匹配推荐，从而提高智能推荐的准确性。

第二方面，提供一种电子设备，该电子设备包括处理器，以及与处理器连接的存储器，存储器用于存储指令，当指令被处理器执行时，使得电子设备用于执行：接收语音信号，将语音信号转换为文本信息；根据文本信息获取用户意图和用户意图中包括的槽位信息；槽位信息包括情感信息和时序信息；根据用户意图和槽位信息查询媒体文件库，得到与用户意图和槽位信息对应的媒体文件。

在一种可能的设计方式中，媒体文件库中存储有多个用户意图、槽位信息与多个媒体文件标识的第一映射关系；电子设备具体用于执行：根据第一映射关系，获取与用户意图和槽位信息对应的媒体文件。

在一种可能的设计方式中，电子设备还用于执行：确定文本信息中是否包含用户意图；若确定文本信息未包含用户意图，则通过梅尔频率倒谱系数MFCC算法获取语音信号的情感特征向量；根据情感特征向量查询媒体文件库，得到与情感特征向量对应的媒体文件，其中，媒体文件库中存储有多个情感特征向量与多个情感标签的第二映射关系。

在一种可能的设计方式中，电子设备还用于执行：获取用户评论多个媒体文件的情感信息；确定情感信息为细粒度情感信息或粗粒度情感信息；若情感信息为细粒度情感信息，则获取细粒度情感信息中的槽位，在媒体文件库中建立第一映射关系；若情感信息为粗粒度情感信息，则根据情感标签得到情感特征向量，获得媒体文件的情感标签，建立媒体文件的第二映射关系。

在一种可能的设计方式中，将语音信号转换为文本信息包括：通过自动语音识别ASR将语音信号转换为文本信息。

在一种可能的设计方式中，获取文本信息中的用户意图包括：通过自然语音理解NLU技术获取文本信息中的用户意图。

第三方面，提供一种芯片系统，该芯片系统应用于电子设备；芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，电子设备执行第一方面及其任一种可能的设计方式的方法。

第四方面，提供一种可读存储介质，该可读存储介质中存储有指令，当可读存储介质在电子设备上运行时，使得电子设备执行第一方面及其任一种可能的设计方式的方法。

第五方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行第一方面及其任一种可能的设计方式的方法。

可以理解地，上述提供的任一种媒体文件推荐的电子设备、系统、可读存储介质和计算机程序产品，均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种电子设备的硬件结构示意图；

图2为本申请实施例提供的一种电子设备的软件系统架构图；

图3为本申请实施例提供的一种媒体文件推荐方法的流程示意图；

图4为本申请实施例提供的一种提取情感特征向量的流程示意图；

图5为本申请实施例提供的一种媒体文件推荐方法中建立媒体文件库的流程示意图；

图6为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

在介绍本申请的方法实施例之前，先对本申请实施例中涉及到的技术做如下说明：

智能语音设备：是一种能够接收用户语音信息，能够输出语音信息，可以与用户进行语音交互的电子设备。

自动语音识别(Automatic Speech Recognition，ASR)技术：是一种将人类的语音信息转换为文本信息的技术，目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。

自然语言理解(Natural Language Understanding，NLU)技术：是一种识别出人类自然语言中的文本内容和意图的技术，即让计算机“理解”自然语言，从而使用自然语言同计算机进行通讯的技术，实现人机之间的自然语言通信。其涵盖领域非常广泛，包括句子检测，分词，词性标注，句法分析，文本分类/聚类，文字角度，信息抽取/自动摘要，机器翻译，自动问答，文本生成等多个领域。

槽位：人机对话中的一个概念，槽位是针对用户语音信息中，识别到的关键信息的定义。也就是用户意图转化为明确的用户指令所需要的信息，一个槽位与一件事情的处理中所需要获取的一种信息相对应。

本申请实施例提供一种媒体文件推荐方法，该方法可以应用于包括智能语音装置的电子设备，例如语音助手、智能音箱、智能手机、平板电脑、计算机、穿戴性电子设备和智能机器人等。通过该方法，电子设备可以智能地识别出用户语音信息中所表达的情感和推荐需求，为用户推荐细粒度的数据，例如基于片段级的媒体文件，提高数据推荐的准确性，从而提升用户的使用体验。

下面将结合附图对本申请实施例的实施方式进行详细描述。请参考图1，为本申请实施例提供的一种电子设备100的可能的结构示意图。如图1所示，电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中，上述传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L和骨传导传感器180M等传感器。

可以理解的是，本实施例示意的结构并不构成对电子设备100的具体限定。在另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。例如，在本申请实施例中，处理器110可以通过执行存储在内部存储器121中的指令，内部存储器121可以包括存储程序区和存储数据区。

其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2是本发明实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息和语音助手等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

本申请实施例提供一种媒体文件推荐方法，如图3所示，该方法可以包括301-303：

301：电子设备接收语音信号，将所述语音信号转换为文本信息。

即接收用户说话时的语音信号，利用ASR技术，将该语音信号转换为对应的文本信息。

其中，ASR技术将语音信息转换为文本信息的过程可以包括：语音信号预处理与特征提取；声学模型与模式匹配；语言模型与语言处理。首先，选择单词(句)、音节或音素中的一种作为语音识别单元，对语音信息进行语音特征提取；然后，将提取到的语音特征与预先建立好的声学模型(模式)进行匹配与比较，得到最佳的识别结果；再通过语言模型进行匹配，即匹配由识别语音命令构成的语法网络或由统计方法构成的语言模型，并进行语法、语义分析的语言处理，从而生成该语音信息对应的文本信息。

例如，电子设备根据接收到的一段用户语音音频，将其转换为文本信息：“我想要听一首悲伤的歌曲”。

结合前述的电子设备100的架构，上述方法可以为电子设备100通过麦克风170C获取用户的语音信号，将语音信号发送给处理器110进行处理。处理器110中的音频模块170可以对语音信号进行处理。具体的，可以为系统通过命令指示应用程序层的语音助手程序，调用应用程序框架层的相关程序和核心库的相关函数，对语音信号进行处理，将其转换为文本信息。

302：根据文本信息获取用户意图，和用户意图中包括的槽位信息。

其中，用户意图即用户需求，也就是指示用户希望电子设备完成什么样的任务的信息。

用户意图可以为上述文本信息中包含的意图关键词，其中，意图关键词可以用于将用户需求划分为某个类型。具体到本申请相关的实施例，意图关键词可以包括：媒体数据属性、情感意图、媒体数据文件名称、媒体数据相关的关键字等。具体来说，媒体数据属性，如音乐、电影、综艺、戏剧、美术、文学作品和照片等，可以将用户需求进行媒体数据类型的划分。情感意图，例如，快乐的，悲伤的，恐怖的等，可以将用户需求按照媒体数据被预定义的情感类型进行划分。媒体数据文件名称，则能获取到明确的用户需求的媒体数据，例如，《简爱》、《喜剧之王》等。媒体数据相关的关键字，例如，影片中某一个人物的片段，影片中针对具体的某一处剧情的片段，音乐中某种节奏的片段，文学作品中针对某一处情节的描述等等，可以定位用户的需求。

槽位信息可以包括：时序信息和情感信息。其中，时序信息可以为用标签标注媒体文件的部分内容，也可称为时序标签，其对应媒体文件的一部分内容，可以为媒体文件的某一个具体时刻，或者一个时序片段。例如，一部电影的第12：05分钟，或者某音乐的第2分钟至第3分钟。

情感信息可以为用标签标注媒体文件的情感类型，也可称为情感标签。具体可以包括：美好的、快乐的、悲伤的、恐怖的、欢快的和刺激的等等。

该情感标签与时序标签存在对应关系，例如，某电影的第12：05是美好的，某音乐的第2分钟至第3分钟是欢快的。

例如，由301获取到的文本信息为“我想要听一首悲伤的歌曲”，可以提取到的意图关键词为：歌曲，提取到的槽位信息为：悲伤的”。再例如，由301获取到的文本信息为“我想要看夏洛特烦恼中搞笑的一段情节”，可以提取到的意图关键词为：电影《夏洛特烦恼》，提取到的槽位信息中时序标签为：一段情节，提取到的槽位信息中情感标签为：搞笑的。

具体的，可以通过NLU技术获取该文本信息中的用户意图。具体可以为通过深度学习技术和神经网络算法，识别出文本信息中包括的所有字、词，进行文本语义理解，确定出用户意图。本申请实施例对此技术的具体实现过程不做详细的介绍。

进一步的，若根据上述过程没有提取到明确的用户情感需求，例如上述的意图关键词、情感标签、时序信息等的至少一个，则电子设备利用MFCC算法提取用户的语音情感特征，将该情感特征匹配的情感标签作为用户意图情感需求。具体为，将获取到的用户语音信息进行MFCC算法处理，得到表示用户语音情感特征的MFCC特征向量；可以将该MFCC特征向量与预设的MFCC特征向量和情感标签对进行匹配，将匹配到的情感标签作为用户意图，进行下面的步骤。

其中，MFCC算法提取用户语音情感特征的具体过程可以为如图4所示，包括：模数转换、预加重、分帧加窗、傅里叶变换、Mel滤波、倒谱、能量与差分这几个处理过程，从而生成MFCC特征向量。

首先，模数转换，即将输入的模拟信号转换为数字信号。预加重处理是将数字信号通过一个高通滤波器，目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

分帧加窗处理是将N个采样点集合成一个观测单位，称为帧。将每一帧乘以汉明窗(汉明窗指定了一个周期的信号)，以增加帧左端和右端的连续性。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

通过Mel滤波对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。因此一段语音的音调或音高，是不会呈现在MFCC参数内，换句话说，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响。此外，还可以降低运算量。

倒谱处理为信号的傅里叶变换谱，经对数运算后，再进行的傅里叶反变换。此步可得到每个滤波器组输出的对数能量。

能量与差分处理为，标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。实验证明：把动态、静态特征结合起来才能有效提高系统的识别性能。

进一步的在另一种可能的实施例中，上述用户意图还可以包括其他指示用户的推荐需求的关键字，例如，指示某个剧情的信息，指示某段台词的信息，指示某位演员的信息，指示某段情节的文字等等信息。举例来说，语音设备获取到用户的语音信息为“我想要看喜剧之王中女主角哭的片段”，可以提取到用户的需求特征包括关键字：女主角哭的，明确的媒体数据信息为：电影《喜剧之王》，时序信息：片段。则电子设备可以根据将上述关键字作为情感需求进行查询。

结合前述的电子设备的软件架构，上述方法可以为系统通过命令指示应用程序层的语音助手程序，调用应用程序框架层的相关程序和核心库的相关函数，对文本信息进行识别和处理，根据一定的算法提取其包含的意图和槽位信息。

303：电子设备根据用户意图和槽位信息查询媒体文件库，得到与用户意图和槽位信息对应的媒体文件。

根据提取到的用户意图和槽位信息从媒体文件库中查询数据，其中，媒体文件库为电子设备预先建立好的，或者电子设备通过云服务获取的，该云服务可以为能够向电子设备提供数据处理和数据存储业务的云端设备，具体可以为服务器。

其中，媒体文件库存储有多个用户意图、槽位信息与多个媒体文件标识的第一映射关系，具体可以为包含情感标签和时序标签的细粒度的媒体文件库。例如，包括音乐、电影、戏剧、美术、文学作品和照片等海量的媒体文件。每个媒体文件可以包含一个宏观标签，例如音乐、电影、戏剧、美术、文学作品和照片等，也可以包括具体的多媒体文件名称，例如，《喜剧之王》，该宏观标签可以对应于用户的意图关键字。每个多媒体文件还可以包含情感标签，例如，快乐的，悲伤的，恐怖的等。另外，每个多媒体文件还可以包括至少一个时序信息，例如，第三分钟到第四分钟，最后十分钟等。该表示情感意图的槽位信息可以与表示时序的槽位信息组成对应关系，例如，该电影的第三分钟到第四分钟对应的情感标签是伤感的，该电影的最后十分钟对应的情感标签是欢乐的等。

具体的媒体文件库的建立过程将在下文详细介绍，此处不再赘述。

根据意图和槽位查询媒体文件库，得到意图和槽位对应的媒体文件，根据第一映射关系，获取与意图和槽位对应的媒体文件。也就是根据上述步骤获取到的情感标签，时序信息，宏观标签等，在媒体文件库中进行查询，将情感需求匹配度最高的多媒体数据作为匹配数据。

具体匹配过程可以为，首先根据宏观标签查询到对应的数据库，例如电影，或者电影《喜剧之王》；再根据情感标签查询媒体文件库中，关于该电影的情感标签对应的电影片段，匹配到最接近该情感标签对应的时序标签，该时序标签对应的媒体数据片段即为电子设备为用户匹配到的媒体文件。

进一步的，该情感标签还可以包括一个对应的推荐值，该推荐值可以为表示该多媒体数据的该情感标签对应的数据片段被量化的情感数值，可以用于进行匹配度计算。例如可以用标注该情感标签的数据数量、数据搜索量或者用户打分来表示该推荐值，推荐值越高表示情感标签的匹配度越高，推荐值越低表示情感标签的匹配度越低。例如，某一个影片的多个时序片段的情感标签都为搞笑的，为用户匹配最搞笑的时序片段的时候，可以根据多个时序片段的情感标签对应的推荐值来确定，将推荐值最高的对应的时序片段，作为匹配度最高的数据。

媒体文件库可以包括细粒度的多媒体标签的文件库，可以为不只有情感类型相关的标签，也可以包括其他的可能的用户推荐需求的标签。例如，影片中某一个人物的片段，影片中针对具体的某一处剧情的片段，音乐中某种节奏的片段，文学作品中针对某一处情节的描述等等。

根据上述匹配度最高的多媒体数据，向用户推荐，可以发送语音信息或者直接将该多媒体数据发送给用户。

举例来说，电子设备获取到用户语音信息“我想要看喜剧之王中最感人的一段情节”，对该语音信息进行处理，识别到如下情感需求：情感标签为：最感人的；表示时序的槽位信息为：一段情节；提取到的多媒体文件名称为：电影《喜剧之王》。电子设备根据上述情感需求在多媒体文件库中进行查询，查询关于电影《喜剧之王》的情感标签为感人、悲伤或者催泪等的时序片段，在查询结果中选择推荐值最高的数据，例如电影第40分钟到第50分钟的剧情片段，则电子设备将该多媒体数据作为匹配数据，向用户推荐。

在另一种可能的实施例中，电子设备获取到用户语音信息只包含宏观标签，例如，电子设备获取到的用户语音信息为“我想要看一部电影”，宏观标签为电影，则电子设备根据该宏观标签在媒体文件库中进行查询，匹配到电影后将推荐值较高的推荐给用户。

在另一种可能的实施例中，电子设备获取到用户语音信息只包含宏观标签和情感标签，例如，电子设备获取到的用户语音信息为“我想要看一部恐怖电影”，宏观标签为电影，情感标签为恐怖的，则电子设备根据该宏观标签和情感标签在媒体文件库中进行查询，匹配到恐怖电影后选择推荐值较高的推荐给用户。

在另一种可能的实施例中，若电子设备无法通过用户语音中表达的语义进行判断和推荐，也就是确定文本信息未包含用户意图，则通过梅尔频率倒谱系数MFCC算法获取该语音信号对应的情感特征向量。根据情感特征向量查询媒体文件库，在媒体文件库中选择相近的情感特征对应的情感标签下的媒体文件进行推荐。其中，媒体文件库中存储有多个情感特征向量与多个情感标签的第二映射关系，每种情感标签对应至少一个媒体文件，可以将该情感标签所匹配的任一媒体文件作为保底的推荐数据推荐给用户。

结合前述的电子设备的软件架构，上述方法可以为系统通过语音助手程序，调用应用程序框架层的相关程序和核心库的相关函数，根据提取到的用户意图和槽位，通过一定的匹配算法，得到对应的媒体文件。

进一步的，在上述实施例的303中，电子设备建立多媒体文件库的过程可以为如图5，包括：

501：获取多媒体评论信息。

获取海量的关于多媒体数据的评论信息，可以为用户评论多个媒体文件的情感信息。可以通过互联网上的各种渠道，例如，论坛、贴吧、新闻和应用程序等各类网站的用户评论中关于多媒体文件的评论，还可以包括影视频网站的用户评论区、弹幕留言区等。具体可以为利用网络爬虫技术从互联网抓取评论，根据评论提取模型，获取到海量的关于多媒体文件的评论信息，例如关于音乐、电影、戏剧、美术、文学作品或者图像等的评论信息。

确定情感信息为细粒度情感信息或是粗粒度情感信息。其中，粗粒度情感信息表示该评论信息可以为宏观的，例如，“这个音乐很伤感”；也可以为关于时序片段级的评论信息即为细粒度情感信息，例如，“影片基调是喜剧，但是最后15分钟还是很煽情”，“影片整体比较平淡，但是影片30-40分钟的剧情好惊悚啊”。

502：若该情感信息为细粒度情感信息，则根据获取到的槽位信息建立该媒体文件的第一映射关系；若情感信息为粗粒度情感信息，则根据情感标签得到情感特征向量，根据情感标签和情感特征向量建立该媒体文件的第二映射关系。

具体为，将获取到的多媒体评论信息进行标注，可以为人工标注的方法，或是规则匹配的算法，获取该多媒体评论信息中的评论关键字，例如，情感标签，时序标签，宏观标签或其他指示推荐需求的关键字中的对应关系。

首先，确定该多媒体评论信息为细粒度情感评论信息或粗粒度情感评论信息；若该情感信息为细粒度情感评论信息，则获取该细粒度情感评论信息中的槽位，在媒体文件库中建立该多媒体文件与槽位信息的第一映射关系；槽位具体可以包括时序标签、情感标签等。

若该情感信息为粗粒度情感评论信息，则根据情感标签得到情感特征向量，获得媒体文件的情感标签，建立该媒体文件的第二映射关系。

例如，保存某电影的时序标签和情感标签的对应关系，与该多媒体数据对应进行存储。举例来说，某时序信息和情感标签对为，第三分钟到第四分钟对应的情感标签是伤感的，最后十分钟对应的情感标签是欢乐的。

进一步的，若没有捕捉到与时序信息相关联的情感信息，则直接将各个平台上关于多媒体的情感标签或者宏观标签保存至媒体文件库，例如，喜剧、悲剧、快歌、悲情歌等，可以作为保底的数据推荐。

根据多媒体文件及其映射关系，建立多媒体文件库。

根据生成的海量的关于多媒体文件的第一映射关系、第二映射关系，进行数据存储，建立多媒体文件库，以便根据用户语音信息中的情感需求，从该多媒体文件库中进行信息查询、数据匹配。

进一步的，该多媒体文件库可以是持续更新的，不断获取新的关于多媒体文件的评论信息，提取评论信息中包括的关于时序片段的情感标签，从而细粒度化和丰富多媒体文件库的资源，例如，关于某部影片可以细粒度化到建立电影每一帧的情感标签、情节描述等映射关系，从而实现更精准地为用户匹配推荐多媒体文件的时序片段。

本申请另一些实施例提供了一种电子设备，该电子设备可以包括：存储器和一个或多个处理器，该存储器和处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行计算机指令时，电子设备可执行上述方法实施例中的各个功能或者步骤。

本申请实施例还提供一种芯片系统，如图6所示，该芯片系统包括至少一个处理器601和至少一个接口电路602。处理器601和接口电路602可通过线路互联。例如，接口电路602可用于从其它装置(例如电子设备的存储器)接收信号。又例如，接口电路602可用于向其它装置(例如处理器601)发送信号。示例性的，接口电路602可读取存储器中存储的指令，并将该指令发送给处理器601。当所述指令被处理器601执行时，可使得电子设备执行上述实施例中电子设备执行的各个功能或者步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当所述计算机指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述方法实施例中的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种媒体文件推荐方法，其特征在于，应用于电子设备，所述方法包括：

接收语音信号，将所述语音信号转换为文本信息；

根据所述文本信息获取用户意图和所述用户意图中包括的槽位信息；所述槽位信息包括情感信息和时序信息；

根据所述用户意图和所述槽位信息查询媒体文件库，得到与所述用户意图和所述槽位信息对应的媒体文件。

2.根据权利要求1所述的方法，其特征在于，所述媒体文件库中存储有多个用户意图、槽位信息与多个媒体文件标识的第一映射关系；

所述根据所述用户意图和所述槽位信息查询媒体文件库，得到与所述用户意图和所述槽位信息对应的媒体文件包括：

根据所述第一映射关系，获取与所述用户意图和所述槽位信息对应的媒体文件。

3.根据权利要求1或2所述的方法，其特征在于，在获取所述文本信息中的所述用户意图和所述槽位信息之前，所述方法还包括：

确定所述文本信息中是否包含所述用户意图；

若确定所述文本信息未包含所述用户意图，则通过梅尔频率倒谱系数MFCC算法获取所述语音信号的情感特征向量；

根据所述情感特征向量查询所述媒体文件库，得到与所述情感特征向量对应的媒体文件，其中，所述媒体文件库中存储有多个情感特征向量与多个情感信息的第二映射关系，每种情感信息对应多个媒体文件。

4.根据权利要求3所述的方法，其特征在于，在接收语音信号之前，所述方法还包括：

获取用户评论多个媒体文件的情感信息；

确定所述情感信息为细粒度情感信息或粗粒度情感信息；

若所述情感信息为所述细粒度情感信息，则获取所述细粒度情感信息中的槽位，在所述媒体文件库中建立第一映射关系；

若所述情感信息为所述粗粒度情感信息，则根据情感信息得到情感特征向量，获得所述媒体文件的情感信息，建立所述媒体文件的所述第二映射关系。

5.根据权利要求1所述的方法，其特征在于，将所述语音信号转换为文本信息包括：

通过自动语音识别ASR将所述语音信号转换为所述文本信息。

6.根据权利要求1所述的方法，其特征在于，所述获取所述文本信息中的用户意图包括：

通过自然语音理解NLU技术获取所述文本信息中的所述用户意图。

7.一种电子设备，其特征在于，所述电子设备包括处理器，以及与处理器连接的存储器，所述存储器用于存储指令，当所述指令被所述处理器执行时，使得所述电子设备用于执行：

接收语音信号，将所述语音信号转换为文本信息；

8.根据权利要求7所述的电子设备，其特征在于，所述媒体文件库中存储有多个用户意图、槽位信息与多个媒体文件标识的第一映射关系；

所述电子设备具体用于执行：

9.根据权利要求7或8所述的电子设备，其特征在于，所述电子设备还用于执行：

确定所述文本信息中是否包含所述用户意图；

根据所述情感特征向量查询所述媒体文件库，得到与所述情感特征向量对应的媒体文件，其中，所述媒体文件库中存储有多个情感特征向量与多个情感标签的第二映射关系。

10.根据权利要求9所述的电子设备，其特征在于，所述电子设备还用于执行：

获取用户评论多个媒体文件的情感信息；

确定所述情感信息为细粒度情感信息或粗粒度情感信息；

若所述情感信息为所述粗粒度情感信息，则根据情感标签得到情感特征向量，获得所述媒体文件的情感标签，建立所述媒体文件的所述第二映射关系。

11.根据权利要求7所述的电子设备，其特征在于，将所述语音信号转换为文本信息包括：

通过自动语音识别ASR将所述语音信号转换为所述文本信息。

12.根据权利要求7所述的电子设备，其特征在于，所述获取所述文本信息中的用户意图包括：

13.一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路和一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1-6中任一项所述的媒体文件推荐方法。

14.一种可读存储介质，其特征在于，所述可读存储介质中存储有指令，当所述可读存储介质在电子设备上运行时，使得所述电子设备执行权利要求1-6任一项所述的媒体文件推荐方法。

15.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-6任一项所述的媒体文件推荐方法。