CN115129924A

CN115129924A - 基于语音的内容搜索方法、装置、电子设备和存储介质

Info

Publication number: CN115129924A
Application number: CN202110324150.8A
Authority: CN
Inventors: 周伯钰; 梁先华; 李�杰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-09-30

Abstract

本申请公开了一种基于语音的内容搜索方法、装置、电子设备和存储介质。用于解决相关技术中听歌识曲搜索音乐时，操作复杂的问题。本申请中，获取用于内容搜索的音频信号；对音频信号进行意图识别；若意图识别结果为检索音乐类媒体资源，则检索与音频信号匹配的音乐类媒体资源；若意图识别结果为基于文本内容搜索，则将音频信号转换为文本信息；并基于文本信息进行内容搜索。由此，能够基于用户的音频信号识别用户意图，例如用户期望基于哼唱的音乐搜索音乐还是基于音频文本进行搜索，故此可以根据用户意图反馈合适的媒体资源。由此，用户无需在界面中进行多次操作来听歌识曲，简化用户操作的同时，也能够简化对交互页面的处理操作。

Description

基于语音的内容搜索方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种基于语音的内容搜索方法、装置、电子设备和存储介质。

背景技术

语音交互作为比文字更便捷、高效的表达方式，成为人机交互中的一种重要交互方式。例如，一种典型的应用为语音搜索服务。

内容服务商可以基于用户的语音信号为用户推荐内容。例如，用户可以发出语音：“我想听儿童类歌曲”，则会返回儿童类歌曲列表可供用户选择。

在一种重要的应用场景中，如用户听到一首音乐，对其非常感兴趣，则可以通过“听歌识曲”来获取完整的音乐内容和一些音乐介绍。

相关技术中，使用“听歌识曲”功能时，用户需要先进入语音搜索的页面，然后在该页面中选择音乐类型，然后触发语音采集的按钮后，终端设备开始进行语音采集，语音采集到用户哼唱的一段音乐后，终端可以基于这段音乐为用户检索相同或相似的音乐返回给用户。

故此，用户需要多次界面操作才能完成内容搜索，导致用户操作复杂，界面处理复杂。

发明内容

本申请的目的是提供一种基于语音的内容搜索方法、装置、电子设备和存储介质，用于解决相关技术中用户需要多次界面操作才能完成内容搜索，导致用户操作复杂，界面处理复杂的问题。

第一方面，本申请实施例提供了一种基于语音的内容搜索方法，包括：

获取用于内容搜索的音频信号；

对所述音频信号进行意图识别；

若所述意图识别结果为检索音乐类媒体资源，则检索与所述音频信号匹配的音乐类媒体资源；

若所述意图识别结果为基于文本内容搜索，则将所述音频信号转换为文本信息；并基于所述文本信息进行内容搜索。

在一些实施例中，所述方法还包括：

若意图识别失败，则继续采集音频信号并返回执行对所述音频信号进行意图识别的操作。

在一些实施例中，所述方法还包括：

根据以下方法对所述音频信号进行意图识别，包括：

对所述音频信号进行语音活动检测，得到语音检测结果；以及，

将所述音频信号与多个音乐进行匹配操作，得到音乐匹配结果；

基于所述语音检测结果和所述音乐匹配结果，对所述音频信号进行意图识别，得到意图识别结果。

在一些实施例中，所述音频信号为通过周期性采集方式采集得到的，且每个周期对应一段音频信号；

所述基于所述语音检测结果和所述音乐匹配结果，对所述音频信号进行意图识别，得到意图识别结果，包括：

若所述音频信号为在第一周期采集的音频信号，且对所述音频信号的意图识别结果为识别失败，则对之后采集的每一段音频信号循环执行以下操作，直至得到的意图识别结果为识别成功：

基于当前采集到的多段音频信号的各自的所述语音检测结果和所述音乐匹配结果，对所述多段音频信号进行意图识别，所述多段音频信号包括当前采集的一段音频信号。

在一些实施例中，所述基于当前采集到的多段音频信号的各自的所述语音检测结果和所述音乐匹配结果，对所述多段音频信号进行意图识别，包括：

构建所述多段音频信号各自的所述语音检测结果的第一结果序列；以及，

构建所述多段音频信号各自的所述音乐匹配结果的第二结果序列；

对所述第一结果序列、所述第二结果序列以及所述多段音频信号进行特征提取，得到用于意图识别的特征信息；

基于所述特征信息识别操作意图。

对所述多段音频信号各自的所述语音检测结果进行加权处理，得到第一融合结果；以及，

对所述多段音频信号各自的所述音乐匹配结果进行加权处理，得到第二融合结果；

对所述第一融合结果、所述第二融合结果以及所述多段音频信号进行特征提取，得到用于意图识别的特征信息；

基于所述特征信息识别操作意图。

在一些实施例中，所述检索与所述音频信号匹配的音乐类媒体资源，包括：

提取所述音频信号的音频指纹，将所述音频指纹与音乐资源集合中的各音乐资源的音频指纹进行匹配操作，得到与所述音频指纹匹配的所述音乐类媒体资源。

第二方面，本申请还提供一种基于语音的内容搜索装置，所述装置包括：

音频获取模块，被配置为获取用于内容搜索的音频信号；

意图识别模块，被配置为对所述音频信号进行意图识别；

第一处理模块，被配置为若所述意图识别结果为检索音乐类媒体资源，则检索与所述音频信号匹配的音乐类媒体资源；

第二处理模块，被配置为若所述意图识别结果为基于文本内容搜索，则将所述音频信号转换为文本信息；并基于所述文本信息进行内容搜索。

在一些实施例中，所述意图识别模块，还被配置为：

在一些实施例中，所述装置还包括：

分类模块，被配置为根据以下方法对所述音频信号进行意图识别，包括：

执行所述基于所述语音检测结果和所述音乐匹配结果，对所述音频信号进行意图识别，得到意图识别结果，所述意图识别模块，被配置为：

在一些实施例中，执行所述基于当前采集到的多段音频信号的各自的所述语音检测结果和所述音乐匹配结果，对所述多段音频信号进行意图识别，所述意图识别模块，被配置为：

基于所述特征信息识别操作意图。

在一些实施例中，执行所述检索与所述音频信号匹配的音乐类媒体资源，所述第一处理模块，被配置为：

第三方面，本申请另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任一基于语音的内容搜索方法。

第四方面，本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请实施例中的任一基于语音的内容搜索方法。

本申请实施例中，能够基于用户的音频信号识别用户意图，例如用户期望搜索音乐还是其他类型的内容，故此可以根据用户意图反馈合适的媒体资源。由此，用户无需在界面中进行多次操作来听歌识曲，简化用户操作的同时，也能够简化对交互页面的处理操作。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请一个实施例的应用环境的示意图；

图2为根据本申请一个实施例的基于语音的内容搜索的界面示意图；

图3为根据本申请一个实施例的基于语音的内容搜索流程示意图；

图4为根据本申请一个实施例的基于语音的内容搜索的训练阶段示意图；

图5为根据本申请一个实施例的基于语音的内容搜索流程的另一流程示意图；

图6为根据本申请一个实施例的基于语音的内容搜索流程的又一流程示意图；

图7为根据本申请一个实施例的基于语音的内容搜索流程中对音频信号进行分类处理时所采用音频信号序列的示意图；

图8为根据本申请一个实施例的基于语音的内容搜索执行流程示意图；

图9为根据本申请一个实施例的基于语音的内容搜索又一界面示意图；

图10为根据本申请一个实施例的基于语音的内容搜索装置示意图；

图11为根据本申请一个实施例的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

鉴于相关技术中用户需要多次界面操作才能完成内容搜索，导致用户操作复杂且界面处理复杂，本申请提出了一种基于语音的内容搜索方法、装置、电子设备和存储介质，用于解决上述问题。

本申请中基于对用户的语音信号进行意图识别，来识别用户是想通过“听歌识曲”来搜索音乐还是基于文本内容来搜索内容。由此，用户无需通过界面来操作选定音乐类型之后才能进行“听歌识曲”。用户可以直接输入语音信号，本申请实施例中会对该语音信号进行意图识别，即可获知用户是否想基于“听歌识曲”搜索音乐。当确定用户意图为需要搜索音乐时，返回音乐类的媒体资源，若用户意图为其他类别的内容时，可以返回其他类别的媒体资源。故此，本申请实施例能减少用户操作，简化由于用户操作对界面的处理流程。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1为根据本申请一个实施例的应用环境的示意图。

如图1所示，该应用环境中例如可以包括存储系统10、服务器20以及终端设备30。终端设备30可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能手机、平板电脑、智能手表、智能手环或是其它类型的终端。存储系统10能够存储被访问的媒体资源，例如网页、电子书、音视频文件等。服务器20用于实现与终端设备30的交互，从存储系统中获取媒体资源返回给终端设备30。

实施时，终端设备30可以采集用户的语音，可以由终端设备30或服务器20对采集的语音信号进行意图识别，确定用户期望“听歌识曲”，当确认为搜索意图为检索音乐类内容时，返回与语音信号匹配的音乐类内容给用户。当用户期望通过语音信号的具体文本内容进行检索时，基于文本内容进行资源搜索。

需要说明的是，本申请实施例中，对语音信号的意图识别是通过分类识别模型实现的。意图识别的操作可以由终端设备30来执行，也可以由服务器20来执行，本申请对此不作限定。

此外，本申请实施例中搜索音乐类内容时，基于音频信号的音频指纹来搜索。提取音频指纹的操作可以由终端设备30完成，也可以由服务器20完成，本申请对此不作限定。

终端设备30之间(例如，30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

本申请中的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器20、终端设备30和存储系统10旨在表示本申请的技术方案涉及终端设备、服务器以及存储系统的操作。对单个终端设备以及单个服务器和存储系统加以详述至少为了说明方便，而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从存储系统10到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

服务器20可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

如图2所示，用户可以通过点击界面中的“麦克风”图标触发终端设备采集语音信号。其中，图2所示的点击“麦克风”图标，属于一种触发语音检索的操作，该操作用于指示终端设备进行语音检索。当然，实施时，可以采用其他方式触发语音检索，例如通过物理按键，手势操作等均适用于本申请实施例。

终端设备或服务器可执行如图3所示的基于语音的内容搜索方法的流程示意图，包括以下步骤：

在步骤301中，获取用于内容搜索的音频信号。

然后，在步骤302中，可以对语音信号进行意图识别，从而得到用户的操作意图。

本申请实施例中，可以基于预先训练的意图识别模型对语音信号进行处理，得到语音信号的意图识别结果。

例如，可以先采集语音样本，并标注其类别。

在一些实施例中，可分为3种类别供标注。该3种类别可包括：

音乐类音频信号，该类别用于表示用户输出的是一段音乐，用户期限进行“听歌识曲”。

语音类音频信号，该类别用于表示用户输入的是一段自然语言，例如“请放大一些音量”、“请播放某某明星的某某歌曲”，基于该类别，后期可将语言信号转换为文本信息进行内容搜索或控制。

杂音类音频信号，该类别用于表示采集到的音频信号不具有有意义的信息，无法作为内容搜索的依据。

当然，具体实施时，还可以根据实际需求，增加或减少标签类别，均适用于本申请实施例。

基于采集的训练样本，可以训练神经网络模型，实施时任何分类模型均适用于本申请实施例，例如线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)、集成模型(RF/GDBT)、线性回归、支持向量机(SVM)、K近邻(KNN)、回归树(DT)、集成模型(ExtraTrees/RF/GDBT)等均适用于本申请实施例。

在一些实施例中，为了进一步提高意图识别模型的意图识别精度，本申请实施例可采用一些其他辅助信息来帮助进行意图识别。该辅助信息可包括以下中的至少一种：

第1种辅助信息：对语音样本采用语音活动检测(Voice Activity Detection,VAD)得到语音检测结果，该语音检测结果能够表示语音样本中是否含有用户的语音信号，还是仅包含背景噪声。实施时，可以采用二进制数据来标注语音检测结果，例如采用1表述含有用户的语音信号，0表示仅含有背景噪声。

第2种辅助信息：可以基于语音样本在音乐类媒体资源库中进行检索匹配，查找与语音样本匹配的音乐，由此得到音乐匹配结果。实施时，音乐匹配结果可采用实际匹配到的音乐标识来标识，也可以采用是否检索到匹配的音乐来表述。例如，1表示音频信号匹配到音乐，0表示未匹配到音乐。

当包含以上两种辅助信息时，如图4所示，可以将以上两种辅助信息和语音样本一同输入给意图识别模型进行处理，得到意图识别结果。通过以上两种辅助信息进行意图识别可借助更多的信息对用户操作意图识别，从而提高意图识别的准确性。

基于上述的训练方法，本申请实施例中，在训练好意图识别模型之后，可以根据以下方法对用户的音频信号进行意图识别，如图5所示，该方法包括：在步骤501中，对音频信号进行语音活动检测，得到语音检测结果；在步骤502中，将音频信号与多个音乐进行匹配操作，得到音乐匹配结果；然后在步骤503中，基于语音检测结果和所述音乐匹配结果，对音频信号进行意图识别，得到意图识别结果。

其中，需要说明的是，步骤501和步骤502的执行先后顺序不受限。

由此，基于VAD和音乐检索得到的辅助信息能够帮助意图识别模型来进行分类识别，提高分类识别的精度。

在另一个实施例中，为了能够实时地更加快速的识别用户意图，本申请实施例中，可响应于语音检索指示，周期性采集音频信号；其中，每个周期对应一段音频信号。

实施时，可实时的对每段音频信号进行意图识别，来识别用户的操作意图。为了能够采用时间维度的信息来综合判断用户的操作意图，以提高分类识别的准确性，本申请实施例中，可以采用之前采集的音频信号协助对当前采集到的一段语音信号进行分类识别。

例如，若当前采集的音频信号为基于语音检索指示、在第一周期采集的音频信号，则基于该音频信号的前述两种辅助信息(VAD语音检测结果和音乐匹配结果)对该音频信号进行意图识别，确定该音频信号是音乐类音频信号、还是语音类音频信号还是杂音类音频信号，还是不能识别该音频信号的类别。

此外，本申请实施例中，为了提高意图识别的精度，每个周期的信号的意图识别结果可以给出音频信号属于各个操作意图的置信度。例如，属于音乐类音频信号的置信度为A1、属于语音类音频信号的置信度为A2、属于杂音类音频信号的置信度为A3。可以取A1、A2和A3中的最大值，将最大值与预设阈值进行比较，若大于预设阈值，则该最大值对应的意图为语音信号的意图识别结果，否则认为意图识别失败，未能识别到意图。

故此，如图6所示，在步骤601中，当第一段音频信号(即第一周期采集到的音频信号)意图识别成功时，可不对后续采集的音频信号进行意图识别，若第一段音频信号意图识别失败时，可在步骤602中，对之后采集的每一段音频信号循环执行以下操作，直至得到的意图识别结果为意图识别成功：基于当前采集到的多段音频信号的各自的语音检测结果和音乐匹配结果，对多段音频信号进行意图识别，多段音频信号包括当前采集的一段音频信号。

其中，多段音频信号可以包括当前采集的一段音频信号以及当前采集的一段音频信号之前的至少一段音频信号。例如如图7所示，依序采集到的各段音频信号为V₁-V₂-V₃-…-V_N。若当前采集到V₁时，先对V₁进行意图识别，若当前采集到V₂时，可对V₁+V₂进行意图识别，如意图识别失败，继续采集音频信号并进行意图识别，由此可通过周期性采集音频信号持续进行意图识别，可尽可能避免错过有效信息以提高意图识别的精度。若采集到V₃时，可对V₁+V₂+V₃进行意图识别，如意图识别失败，继续采集音频信号。若采集到V₄时，可对V₂+V₃+V₄进行意图识别，以此类推直至意图识别成功为止。

由此，本申请实施例中，能够对音频信号周期性采集，实时高效的识别音频信号的类别，而无需等到采集完整的用户语音才能进行分类识别。

在一些实施例中，为了结合之前采集的音频信号进行分类识别，本申请实施例中可提供如下实施方式，对之前采集的音频信号的辅助信息进行融合处理以便于进行分类识别：

第一种融合方式：

如图6所示，在步骤6021A中，构建多段音频信号各自的语音检测结果的第一结果序列；

如，每段音频信号的语音检测结果用0/1来表示。则第一结果序列是由按时序排列的由0、1构成的向量。例如，第一结果序列{0,0,1}中，前两个0表示前面两段音频信号均未检测到人声，1表示对应的一段音频信号检测到人声。

在步骤6022A中，构建多段音频信号各自的音乐匹配结果的第二结果序列。

和步骤6021A中的第一结果序列类似，例如第二结果序列{0,1,1}中，0表示音频信号段未匹配到音乐，后面两个1表示后面两段音频信号均匹配到音乐。

当然，需要说明的是，步骤6021A和步骤6022A的执行顺序不受限。

在得到第一结果序列和第二结果序列之后，在步骤6023A中，对所述第一结果序列、所述第二结果序列以及所述多段音频信号进行特征提取，得到用于意图识别的特征信息。然后在步骤6024A中，基于特征信息识别操作意图。

由此，本申请中采用结果序列这种简单的处理方式能够融合之前的检测结果，为模型输入简单的信息来辅助进行音频的意图识别，能够提高意图识别的效率。

第二种融合方式：

如图6所示，在步骤6021B中，对多段音频信号各自的语音检测结果进行加权处理，得到第一融合结果；

例如，三段音频信号的语音检测结果分别为0、0、1，则可以对0、0、1进行加权求和，例如当前采集的音频信号的权重较高，距离当前时间越久的音频信号的权重越低。当然，为了简化处理，各段音频信号的权重可以均为1。即加权处理，可以变更为简单的加法运算。通过累积的方式来表达之前周期采集的信号的意图识别结果，能够简化输入，进一步提高意图识别的效率。

在步骤6022B中，对所述第一融合结果、所述第二融合结果以及所述多段音频信号进行特征提取，得到用于意图识别的特征信息；

在步骤6023B中，对第一融合结果、第二融合结果以及多段音频信号进行分类识别。然后在步骤6024B中，基于所述特征信息识别操作意图。

该实施方式中通过加权处理，能够以加权处理的方式对之前的处理结果进行融合，可以体现不同周期采集音频信号的重要性。

基于上述分类识别，能够得到用户的操作意图，由此可基于用户的操作意图来执行后续的操作。例如，在步骤303中，若所述意图识别结果为检索音乐类媒体资源，则检索与所述音频信号匹配的音乐类媒体资源。

在一些实施例中，为了提高检索的准确性，可提取音频信号的音频指纹，将音频指纹与音乐资源集合中的各音乐资源的音频指纹进行匹配操作，得到与音频指纹匹配的音乐类媒体资源。当匹配到多个音频类媒体资源时，可选择匹配度较高的前n个推荐给用户。其中，n为正整数。

在步骤304中，若所述意图识别结果为基于文本内容搜索，则将所述音频信号转换为文本信息；并基于所述文本信息进行内容搜索。

接续前面列举的三种类别的例子，若音频信号为音乐类音频信号，则返回音乐类媒体资源，音乐类媒体资源可以为单纯的音频文件，也可以包括以匹配的引用为背景音乐的多媒体资源(如采用匹配音乐作为背景引用的短视频)。若音频信号为语音类音频信号，则将音频信号转换为文本信息；并基于文本信息进行内容搜索；此外，若音频信号为杂音类音频信号，则可以继续采集音频信号或结束操作。

如图8所示，本申请实施例可提供三个并行的处理模块，包括：语音活动检测模块，音频意图识别模块和音频检测模块，其中：

1、语音活动检测模块，该模块可对实施采集的音频段进行VAD检测，并将检测结果输出给音频分类模块。语音活动检测模块，还可以将音频信号转换为文本信息，以便于后续基于文本信息进行内容搜索。

2、音频意图识别模块，用于对音频信号进行意图识别，确定操作意图的类别是音乐类音频信号对应的意图、还是语音类音频信号对应的意图，还是杂音类音频信号对应的无法有效识别意图。实施时音频意图识别模型获取语音活动检测模块输入的语音检测结果，并获得音频检索模块获得的音乐匹配结果对采集的音频信号进行意图识别。当意图识别结果为语音类音频信号对应的意图时，指示语音获得检测模块，将采集的音频信号转换为文本信息。当分类识别结果为音乐类音频信号对应的意图时，则后续可基于音频检索模块检索到的音乐类媒体资源进行推荐。

3、音频检索模块，即对实时采集的音频进行音频检索。该模块可用于对音频信号提取音频指纹，然后基于音频指纹在媒资库中检索音频。并将检索结果反馈给音频意图识别模块。

如图8所示，在第一阶段采集音频信号，将采集的各段音频信号输入给第二阶段处理。在第二阶段，音频意图识别模块获取语音活动检测结果和音频检索结果(即是否具有匹配的音乐)，对输入的音频信号序列进行意图识别，当识别为音乐类型对应意图时，基于音频检索模块提供音频信号音频指纹提取匹配的音乐，当识别为语音类或杂音类对应的意图时将音频信号转换为文本信息进行检索，第三阶段返回结果。即返回文本检索结果、音乐、或返回无效的音频信号。

由此，本申请实施例中，如图9所示，用户可以在任一可以采集语音的界面中输入语音，例如用户哼唱一段音乐，则终端设备会根据用户的语音识别用户的意图，为用户返回音乐类媒体资源。这样，无需用户在界面中进行多次操作即可实现“听歌识曲”。

如图10所示，基于相同的发明构思，提出一种基于语音的内容搜索装置1000，包括：

音频获取模块1001，被配置为获取用于内容搜索的音频信号；

意图识别模块1002，被配置为对所述音频信号进行意图识别；

第一处理模块1003，被配置为若所述意图识别结果为检索音乐类媒体资源，则检索与所述音频信号匹配的音乐类媒体资源；

第二处理模块1004，被配置为若所述意图识别结果为基于文本内容搜索，则将所述音频信号转换为文本信息；并基于所述文本信息进行内容搜索。

在一些实施例中，所述意图识别模块，还被配置为：

在一些实施例中，所述装置还包括：

基于所述特征信息识别操作意图。

关于基于语音的内容搜索装置中各操作的实施以及有益效果可参见前文方法中的描述，此处不再赘述。

在介绍了本申请示例性实施方式的基于语音的内容搜索方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的图像缩放方法中的步骤。例如，处理器可以执行如基于语音的内容搜索方法中的步骤。

下面参照图11来描述根据本申请的这种实施方式的电子设备130。图11显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种基于语音的内容搜索方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种基于语音的内容搜索方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于图像缩放的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器，使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于语音的内容搜索方法，其特征在于，所述方法包括：

获取用于内容搜索的音频信号；

对所述音频信号进行意图识别；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据以下方法对所述音频信号进行意图识别，包括：

4.根据权利要求3所述的方法，其特征在于，所述音频信号为通过周期性采集方式采集得到的，且每个周期对应一段音频信号；

5.根据权利要求4所述的方法，其特征在于，所述基于当前采集到的多段音频信号的各自的所述语音检测结果和所述音乐匹配结果，对所述多段音频信号进行意图识别，包括：

基于所述特征信息识别操作意图。

6.根据权利要求4所述的方法，其特征在于，所述基于当前采集到的多段音频信号的各自的所述语音检测结果和所述音乐匹配结果，对所述多段音频信号进行意图识别，包括：

基于所述特征信息识别操作意图。

7.根据权利要求1-6中任一所述的方法，其特征在于，所述检索与所述音频信号匹配的音乐类媒体资源，包括：

8.一种基于语音的内容搜索装置，其特征在于，所述装置包括：

音频获取模块，被配置为获取用于内容搜索的音频信号；

意图识别模块，被配置为对所述音频信号进行意图识别；

9.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行权利要求1-7中任一项所述的方法。