CN109189978A

CN109189978A - 基于语音消息进行音频搜索的方法、装置及存储介质

Info

Publication number: CN109189978A
Application number: CN201810980629.5A
Authority: CN
Inventors: 范苑; 黄裕佳; 谢振宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-01-11
Anticipated expiration: 2038-08-27
Also published as: CN109189978B

Abstract

本发明公开了一种基于语音消息进行音频搜索的方法、装置及存储介质，属于人工智能领域。本发明实施例提供的技术方案，在基于语音消息对应的至少一个关键字进行音频搜索的过程中，当在预设的音频内容库中未搜索到该至少一关键字中的任何一个时，则将未搜索到的关键字作为语义标签实时添加到该音频内容库中，上述过程使得该音频内容库实时进行更新，通过对该音频内容库实时进行更新，使得该音频内容库不断得到完善，进而使得终端无需重新下载应用程序，即可实现基于语音消息，搜索到更加精准的音频文件。

Description

基于语音消息进行音频搜索的方法、装置及存储介质

技术领域

本发明涉及人工智能领域，特别涉及一种基于语音消息进行音频搜索的方法、装置及存储介质。

背景技术

随着人工智能技术的发展，越来越多的智能化服务出现，例如，在常见的手动进行音频搜索的基础上，出现了语音式的音频搜索的方法，用户无需通过操作鼠标或键盘实现音频搜索，也无需手动触摸屏幕点击相应的音频链接，只需在终端录入相应的语音，即可实现智能音频搜索。

目前，常见的基于语音消息进行音频搜索的方法是预设维度数据库，该维度数据库用于存储各种音乐资源的不同维度的语义标签，用户通过在终端上相应的应用程序中输入包括相应的歌名或歌手的固定句式的语音消息，该应用程序录入用户的语音消息后，在本地对该语音消息进行识别，得到语音识别结果，并将该语音识别结果与预设的维度数据库中的语义标签进行比对，获取与该语音识别结果对应的语义标签，然后，调用固定的音乐播放程序，根据该语义标签，在该音乐播放程序中搜索并得到对应的音频文件，将该音频文件展示给用户，根据用户的选择，来进行音乐播放。

基于上述搜索方法，当维度数据库更新后，需在终端重新安装以更新相应的应用程序后，终端才能根据新的语音消息进行音频搜索，如果终端的应用程序没有及时进行更新，则用户无法基于更新后的维度数据库实现音频搜索。

发明内容

本发明实施例提供了一种基于语音消息进行音频搜索的方法、装置及存储介质,能够解决终端需重新安装以更新相应的应用程序后，才能根据新的语音消息进行音频搜索的问题。所述技术方案如下：

一方面，提供了一种基于语音消息进行音频搜索的方法，所述方法包括：

接收语音消息，将所述语音消息转换为至少一个关键字，所述至少一个关键字包括第一关键字以及所述第一关键字下的至少一个第二关键字，所述第一关键字用于表示关键字类别；

根据所述至少一个关键字，在音频内容库中进行搜索，所述音频内容库用于存储多个音频文件的音频属性信息和语义标签；

当在所述音频内容库内搜索到所述第一关键字，且未搜索到所述至少一个第二关键字时，根据所述至少一个第二关键字，与所述音频内容库中的音频属性信息进行匹配，将所述至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联；

当在所述音频内容库内搜索到所述至少一个关键字时，根据所述至少一个关键字对应的音频属性信息，获得多个音频文件；

将所述多个音频文件发送至终端。

在一种可能实现方式中，所述将所述语音消息转换为至少一个关键字包括：

将所述语音消息转换为文本消息；

对所述文本消息进行分析，得到所述至少一个关键字。

在一种可能实现方式中，所述根据所述至少一个关键字，在音频内容库中进行搜索包括：

根据所述至少一个关键字，在所述音频内容库中搜索是否存在与所述至少一个关键字相同的语义标签；

当所述音频内容库中存在与所述至少一个关键字中的所述第一关键字相同的语义标签，但不存在与所述至少一个第二关键字相同的语义标签时，确定在所述音频内容库内搜索到所述第一关键字，且未搜索到所述至少一个第二关键字；

当所述音频内容库中存在与所述至少一个关键字中的所述第一关键字和所述至少一个第二关键字相同的语义标签时，确定在所述音频内容库内搜索到所述至少一个关键字。

在一种可能实现方式中，所述方法还包括：

当所述音频内容库中不存在与所述至少一个关键字中的所述第一关键字和所述至少一个第二关键字相同的语义标签时，确定在所述音频内容库内未搜索到所述第一关键字和所述至少一个第二关键字；

根据所述第一关键字和所述至少一个第二关键字，与所述音频内容库中的音频属性信息进行匹配，将所述第一关键字和所述至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联。

在一种可能实现方式中，所述将所述第一关键字和所述至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联之后，所述方法还包括：

在所述音频内容库中建立搜索接口，所述搜索接口与所述第一关键字对应的语义标签关联。

在一种可能实现方式中，所述当在所述音频内容库内搜索到所述至少一个关键字时，根据所述至少一个关键字对应的音频属性信息，获取多个音频文件包括：

调用搜索引擎，通过所述搜索引擎对所述至少一个关键字对应的音频属性信息进行搜索，得到音频存储地址；

基于所述音频存储地址，获得多个音频文件。

在一种可能实现方式中，所述获得多个音频文件之后，所述方法还包括：

根据用户对所述多个音频文件的播放次数从大到小的顺序，对所述多个音频文件进行排序。

根据所述多个音频文件的搜索热度从高到底的顺序，对所述多个音频文件进行排序。

一方面，提供了一种基于语音消息进行音频搜索的装置，所述装置包括：

转换模块，用于接收语音消息，将所述语音消息转换为至少一个关键字，所述至少一个关键字包括第一关键字以及所述第一关键字下的至少一个第二关键字，所述第一关键字用于表示关键字类别；

搜索模块，用于根据所述至少一个关键字，在音频内容库中进行搜索，所述音频内容库用于存储多个音频文件的音频属性信息和语义标签；

关联模块，用于当在所述音频内容库内搜索到所述第一关键字，且未搜索到所述至少一个第二关键字时，根据所述至少一个第二关键字，与所述音频内容库中的音频属性信息进行匹配，将所述至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联；

获取模块，用于当在所述音频内容库内搜索到所述至少一个关键字时，根据所述至少一个关键字对应的音频属性信息，获取多个音频文件；

发送模块，用于将所述多个音频文件发送至终端。

在一种可能实现方式中,所述转换模块用于：

将所述语音消息转换为文本消息；

对所述文本消息进行分析，得到所述至少一个关键字。

在一种可能实现方式中,所述搜索模块用于：

在一种可能实现方式中,所述装置还包括：

确定模块，用于当所述音频内容库中不存在与所述至少一个关键字中的所述第一关键字和所述至少一个第二关键字相同的语义标签时，确定在所述音频内容库内未搜索到所述第一关键字和所述至少一个第二关键字；

所述关联模块，还用于根据所述第一关键字和所述至少一个第二关键字，与所述音频内容库中的音频属性信息进行匹配，将所述第一关键字和所述至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联。

在一种可能实现方式中,所述装置还包括：

建立模块，用于在所述音频内容库中建立搜索接口，所述搜索接口与所述第一关键字对应的语义标签关联。

在一种可能实现方式中,所述获取模块用于：

基于所述音频存储地址，获得多个音频文件。

在一种可能实现方式中,所述装置还包括：

排序模块，用于根据用户对所述多个音频文件的播放次数从大到小的顺序，对所述多个音频文件进行排序。

在一种可能实现方式中,所述装置还包括：

所述排序模块，还用于根据所述多个音频文件的搜索热度从高到底的顺序，对所述多个音频文件进行排序。

一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现所述基于语音消息进行音频搜索的方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述基于语音消息进行音频搜索的方法所执行的操作。

本发明实施例提供的技术方案，在基于语音消息对应的至少一个关键字进行音频搜索的过程中，当在预设的音频内容库中未搜索到该至少一关键字中的任何一个时，则将未搜索到的关键字作为语义标签实时添加到该音频内容库中，上述过程使得该音频内容库实时进行更新，通过对该音频内容库实时进行更新，使得该音频内容库不断得到完善，进而使得终端无需重新下载应用程序，即可实现基于语音消息，搜索到更加精准的音频文件。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于语音消息进行音频搜索的方法的流程图；

图2是本发明实施例提供的一种基于语音消息进行音频搜索的方法的流程图；

图3是本发明实施例提供的一种基于语音消息进行音频搜索的方法的架构图；

图4是本发明实施例提供的一种基于语音消息进行音频搜索的装置的结构示意图；

图5是本发明实施例提供的一种终端的结构框图；

图6是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种基于语音消息进行音频搜索的方法的流程图，参见图1，该实施例具体包括：

101、接收语音消息，将该语音消息转换为至少一个关键字，该至少一个关键字包括第一关键字以及该第一关键字下的至少一个第二关键字，该第一关键字用于表示关键字类别。

102、根据该至少一个关键字，在音频内容库中进行搜索，该音频内容库用于存储多个音频文件的音频属性信息和语义标签。

103、当在该音频内容库内搜索到该第一关键字，且未搜索到该至少一个第二关键字时，根据该至少一个第二关键字，与该音频内容库中的音频属性信息进行匹配，将该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联。

104、当在该音频内容库内搜索到该至少一个关键字时，根据该至少一个关键字对应的音频属性信息，获得多个音频文件。

105、将该多个音频文件发送至终端。

在一些实施例中，上述将该语音消息转换为至少一个关键字包括：

将该语音消息转换为文本消息；

对该文本消息进行分析，得到该至少一个关键字。

在一些实施例中，该根据该至少一个关键字，在音频内容库中进行搜索包括：

根据该至少一个关键字，在该音频内容库中搜索是否存在与该至少一个关键字相同的语义标签；

当该音频内容库中存在与该至少一个关键字中的该第一关键字相同的语义标签，但不存在与该至少一个第二关键字相同的语义标签时，确定在该音频内容库内搜索到该第一关键字，且未搜索到该至少一个第二关键字；

当该音频内容库中存在与该至少一个关键字中的该第一关键字和该至少一个第二关键字相同的语义标签时，确定在该音频内容库内搜索到该至少一个关键字。

在一些实施例中，该方法还包括：

当该音频内容库中不存在与该至少一个关键字中的该第一关键字和该至少一个第二关键字相同的语义标签时，确定在该音频内容库内未搜索到该第一关键字和该至少一个第二关键字；

根据该第一关键字和该至少一个第二关键字，与该音频内容库中的音频属性信息进行匹配，将该第一关键字和该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联。

在一些实施例中，该将该第一关键字和该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联之后，该方法还包括：

在该音频内容库中建立搜索接口，该搜索接口与该第一关键字对应的语义标签关联。

在一些实施例中，该当在该音频内容库内搜索到该至少一个关键字时，根据该至少一个关键字对应的音频属性信息，获取多个音频文件包括：

调用搜索引擎，通过该搜索引擎对该至少一个关键字对应的音频属性信息进行搜索，得到音频存储地址；

基于该音频存储地址，获得多个音频文件。

在一些实施例中，该获得多个音频文件之后，该方法还包括：

根据用户对该多个音频文件的播放次数从大到小的顺序，对该多个音频文件进行排序。

根据该多个音频文件的搜索热度从高到底的顺序，对该多个音频文件进行排序。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种基于语音消息进行音频搜索的方法的流程图，该基于语音消息进行音频搜索的方法可以应用任一种服务器中，参见图2，该实施例具体包括：

201、服务器接收终端发送的语音消息，将该语音消息转换为文本消息。

在本发明实施例中，终端上的应用程序具有将终端所采集到的语音消息进行录制的功能，且能够实现基于录制的语音消息进行音频搜索。此外，该应用程序采集到的语音消息可以为用户想表达的任何语句，对该语音消息的句式没有任何要求，也即是，对于该语音消息对应的语句，不限制该语句中必须包含歌名或歌手，即该语音消息可以为有关音频文件类型的任何语句，例如，该应用程序采集到的语音消息可以为“我想听悲伤的歌曲”。甚至，该应用程序采集到的语音消息可以为模糊化的语音消息，该模糊化的语音消息可以为不包含歌名、歌手以及歌曲类型的语句，例如，该模糊化的语音消息可以为“推荐我喜欢的歌曲”。

在一些实施例中，当终端采集到语音消息后，将该语音消息上传到服务器中，服务器基于接收到的该语音消息，对该语音消息进行语音识别，将该语音消息转换为文本消息。例如，可以通过语音识别功能，将该语音消息对应的音波进行分帧，对分帧后的每一帧波形进行识别得到多个状态，将该多个状态组合成多个音素，然后，该多个音素组合成若干个单词，最后，该若干个单词组成该语音消息对应的文本消息。

202、服务器对该文本消息进行分析，得到至少一个关键字，该至少一个关键字包括第一关键字以及该第一关键字下的至少一个第二关键字，该第一关键字用于表示关键字类别。

在本发明实施例中，该分析过程可以包括对文本消息的分词处理以及基于分词得到的多个词的文本分类处理。具体地，在服务器中预设语料库，该语料库中存储有大量的文本，例如，该语料库中存储有大量的第二关键字及每个第二关键字所对应的第一关键字，该第一关键字也即是其所对应的第二关键字所属的类别。首先，通过算法将该文本消息进行分词，得到该文本消息对应的多个第二关键字；其次，基于该多个第二关键字，遍历该语料库中的文本，得到与每个第二关键字相匹配的第一关键字，实现对该多个第二关键字的文本分类。

需要说明的是，该至少一个关键字包括第一关键字以及每个第一关键字下的至少一个第二关键字，其中，该第一关键字用于表示关键字类别。也即是，将用户输入的语音消息转换成文本消息后，对该文本消息进行分析，会得到多个关键字，其中包括多个类别关键字，即第一关键字，每个第一关键字下又包含属于该第一关键字类别下的多个第二关键字。例如，将用户输入的语音消息转换后得到的文本消息为“我要听周杰伦的忧伤的钢琴曲”，则对该文本消息进行分析后，得到的至少一个关键字为【意图：播放；歌手：周杰伦；心情：忧伤；乐器：钢琴】。其中，该至少一个关键字中的“意图”、“歌手”、“心情”、“乐器”为第一关键字，“播放”、“周杰伦”、“忧伤”、“钢琴”则分别为每个第一关键字下的第二关键字，需要说明的是，在其他实施例中，该每个第一关键字下可以有多个第二关键字。

203、服务器根据该至少一个关键字，在音频内容库中进行搜索是否存在与该至少一个关键字相同的语义标签。

在本发明实施例中，在服务器中预设音频内容库，该音频内容库中存储有大量音频文件的音频属性信息及其语义标签。其中，该音频属性信息用于标识相应的音频文件，具体地，该音频属性信息可以为音频文件对应的歌名、歌手、歌词、版本信息以及热度排行等等，本发明实施例在此不一一限定。此外，该语义标签用于对音频文件进行标注，具体地，每个语义标签通过与其对应的音频文件的存储地址的ID，与该音频文件相关联。其中，每个音频文件可以关联多个语义标签，该多个语义标签可以根据各个音频文件对应的歌名、歌手、心情及演奏乐器等，对各个音频文件进行标注。基于上述音频内容库，服务器可以根据上述经分析后得到的第一关键字和第二关键字，在该音频内容库中进行搜索是否存在与第一关键字相同的语义标签，以及是否存在与第二关键字相同的语义标签。

需要说明的是，上述音频内容库中的多个音频文件的语义标签，可以通过人工进行标注，也即是，在服务器中，通过人工对不同的音频文件进行分析，例如，对各个音频文件的歌词或旋律等进行分析，得到不同的语义标签，并对相应的音频文件进行人工标注。在其他实施例中，也可以通过相关计算机程序，对各个音频文件的歌词等进行识别，分析得到与各个音频文件相关的语义标签，并通过计算机程序对相应的音频文件进行标注，本发明在此对音频内容库中存储的语义标签的标注方法不做一一限定。

204、当该音频内容库内存在与该至少一个关键字中的该第一关键字相同的语义标签，但不存在与该至少一个第二关键字相同的语义标签时，服务器确定在该音频内容库内搜索到该第一关键字，且未搜索到该至少一个第二关键字。

在本发明实施例中，基于将文本消息进行分析后得到的至少一个关键字，在该音频内容库中进行搜索，当在该音频内容库中搜索到与该至少一个关键字中的第一关键字相同的语义标签，但未搜索到与该第一关键字下的至少一个第二关键字相同的语义标签时，服务器就确定在该音频内容库中搜索到了该第一关键字，但未搜索到该至少一个第二关键字。

205、当在该音频内容库内搜索到该第一关键字，且未搜索到该至少一个第二关键字时，服务器根据该至少一个第二关键字，与该音频内容库中的音频属性信息进行匹配，将该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联，结束。

在本发明实施例中，该音频内容库中存储的音频属性信息与各个音频文件一一对应，具体地，每个音频属性信息通过相应的音频文件的存储地址的ID，与各个音频文件相匹配。此外，该音频内容库中的多个语义标签通过与各个音频属性信息中的关键字相匹配，进而实现每个语义标签都与相应的音频属性信息相匹配，其中每个语义标签与至少一个音频属性信息相匹配。也即是，当搜索到了某个语义标签时，也就相应地搜索到了标注有该语义标签的所有音频文件的音频属性信息。

在一些实施例中，基于上述至少一个关键字，当在该音频内容库内搜索到与该至少一个关键字中的第一关键字相同的语义标签，但未搜索到与该第一关键字下的至少一个第二关键字相同的语义标签时，服务器需要基于上述未搜索到的至少一个第二关键字，对该音频内容库中的语义标签进行更新，将该至少一个第二关键字作为语义标签补充到该音频内容库中。具体地，服务器基于该至少一个第二关键字，将该至少一个第二关键字与该音频内容库中存储的音频属性信息进行匹配，可以遍历该音频内容库中的所有音频属性信息，将该至少一个第二关键字与所有音频属性信息中的歌名、歌手及歌词等信息中的每个字进行对比，找到含有与该至少一个第二关键字相同或近义的文字的音频属性信息，并将对应的第二关键字作为语义标签与匹配的音频属性信息所对应的音频文件关联起来，具体地，将该第二关键字添加到该音频内容库中，并通过与其对应的音频文件的存储地址的ID，与相应的音频文件相关联。例如，该至少一个第二关键字为【古筝】，其对应的第一关键字为【乐器】，遍历音频内容库中的所有音频属性信息，找到多个音频属性信息中的歌词或歌名包含【古筝】这两个字，则将包含【古筝】的该多个音频属性信息与该第二关键字，即【古筝】，相匹配，然后，将【古筝】这个第二关键字作为语义标签，与匹配成功的音频属性信息对应的音频文件的存储地址的ID相关联，即将对应的音频文件标注上语义标签【古筝】。

需要说明的是，当在该音频内容库内搜索到与该至少一个关键字相同的语义标签时，则根据该语义标签获取相应的音频文件；当在该音频内容库内未搜索到与该至少一个关键词相同的语义标签时，则代表在预设的该音频内容库中未存储该语义标签，也即是，未对相应的音频文件标注该语义标签，进而根据该语义标签搜索不到相应的音频文件。此时，需要将未搜索到的关键词作为语义标签与相应的音频属性信息相匹配，并与相应的音频文件相关联后，补充到该音频内容库中，通过上述对该音频内容库的更新过程，使得该音频内容库不断完善，进而使得后续终端采集到语音消息后，可以基于该语音消息获取到更加精准的音频文件。

206、当该音频内容库中不存在与该至少一个关键字中的该第一关键字和该至少一个第二关键字相同的语义标签时，服务器确定在该音频内容库内未搜索到该第一关键字和该至少一个第二关键字。

在本发明实施例中，将文本消息进行分析后得到的至少一个关键字，在该音频内容库中进行搜索。当在该音频内容库中搜索到与该至少一个关键字中的至少一个第二关键字相同的语义标签，但未搜索到与该至少一个第二关键字所属的第一关键字相同的语义标签时，服务器就确定在该音频内容库内未搜索到该第一关键字，且未搜索到该第一关键字下的一个或多个第二关键字。

207、当在该音频内容库内未搜索到该第一关键字和该至少一个第二关键字时，服务器根据该第一关键字和该至少一个第二关键字，与该音频内容库中的音频属性信息进行匹配，将该第一关键字和该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联。

在本发明实施例中，与步骤205类似地，当在该音频内容库内未搜索到与该至少一个关键字中的第一关键字相同的语义标签，且未搜索到与该第一关键字下的一个或多个第二关键字相同的语义标签时，需要基于未搜索到的该第一关键字和该至少一个第二关键字，对该音频内容库中的语义标签进行更新，即将未搜索到的该第一关键字和该至少一个第二关键字作为语义标签补充到该音频内容库中。

具体地，基于未搜索到的该至少一个第二关键字，遍历该音频内容库中的所有音频属性信息，将该至少一个第二关键字与所有音频属性信息中的歌名、歌手及歌词等信息中的每个字进行对比，找到含有与该至少一个第二关键字相同或近义的文字的音频属性信息，则将该至少一个第二关键字和该至少一个第二关键字所属的第一关键字共同与对应的音频属性信息相匹配。

此外，将与相应的音频属性信息相匹配的第一关键字和第二关键字作为语义标签与相应的音频文件相关联。具体地，由于在预设的音频内容库中，每个音频属性信息通过相应的音频文件的存储地址的ID与相应的音频文件相匹配，因此，与相应的音频属性信息相匹配的该第一关键字和该第二关键字，可以通过相应的音频文件的存储地址的ID，与相应的音频文件相关联。

例如，在该音频内容库中未搜索到的该第一关键字为【心情】，且在该音频内容库中也未搜索到【心情】下的第二关键字【悲伤】，则将带有“悲伤”这种属性的音频属性信息与该第一关键字【心情】和该第二关键字【悲伤】进行匹配。例如，可以通过相关程序对多个音频文件对应的音频属性信息中的歌词进行识别，当识别到“悲伤”、“伤心”、“阴天”等歌词时，则判定该音频属性信息带有“悲伤”这种属性。然后，将该第一关键字【心情】和该第二关键字【悲伤】分别作为语义标签与匹配成功的音频属性信息对应的音频文件关联，即将对应的音频文件标注上语义标签【心情】和【心情】类别下的语义标签【悲伤】。

208、服务器在该音频内容库中建立搜索接口，该搜索接口与该第一关键字对应的语义标签关联，结束。

在本发明实施例中，当将未在该音频内容库中搜索到的第一关键字作为语义标签增加到该音频内容库中后，则在将该第一关键字作为语义标签与相应的音频文件进行关联之后，还需要在该音频内容库中增加新的搜索接口。该搜索接口与增加的该第一关键字对应的语义标签关联，也即是，基于增加的该第一关键字对应的语义标签，可以调用增加的搜索接口，通过该搜索接口可以搜索该音频内容库中的对应的音频属性信息，进而，可以通过该音频属性信息，获得相应的音频文件。

需要说明的是，对于该音频内容库中的所有语义标签，可以对每个语义标签都分别建立一个搜索接口，也可以对多个语义标签建立同一个搜索接口，通过该搜索接口，可以搜索到该语义标签对应的音频属性信息。类似地，将在该音频内容库中未搜索到的第一关键字作为语义标签补充到该音频内容库中后，可以对增加的每个第一关键字对应的语义标签，都分别建立一个搜索接口，也可以对增加的每多个第一关键字对应的语义标签建立一个搜索接口，即多个语义标签共用同一个搜索接口，建立搜索接口后使得能够基于每个语义标签快速搜索到相应的音频属性信息，本发明实施例对搜索接口的建立方法不进行限定。

基于上述步骤204到步骤208，当在该音频内容库中搜索不到该至少一个关键字中的任何一个关键字时，则对该音频内容库进行更新。也即是，基于在该音频内容库中搜索不到的关键字，与该音频内容库中的音频属性信息对比，找到含有与该搜索不到的关键字相同的字的音频属性信息，并将该搜索不到的关键字作为语义标签与上述音频属性信息相匹配，进而，由于上述音频属性信息与其相对应的音频文件可以通过各个音频文件的存储地址的ID，与该各个音频文件相关联，因此，该搜索不到的关键字作为语义标签可以与该各个音频文件的存储地址的ID相关联。通过上述过程，使得该音频内容库不断得到完善。

209、当该音频内容库中存在与该至少一个关键字中的该第一关键字和该至少一个第二关键字相同的语义标签时，服务器确定在该音频内容库内搜索到该至少一个关键字。

在本发明实施例中，将文本消息进行分析后得到的至少一个关键字，在该音频内容库中进行搜索。当在该音频内容库中搜索到与该至少一个关键字中的第一关键字相同的语义标签，且搜索到与该第一关键字下的至少一个第二关键字相同的语义标签时，服务器就确定在该音频内容库中搜索到了该第一关键字且搜索到该第一关键字下的至少一个第二关键字。

210、当在该音频内容库内搜索到该至少一个关键字时，服务器调用搜索引擎，通过该搜索引擎对该至少一个关键字对应的音频属性信息进行搜索，得到音频存储地址。

在本发明实施例中，当服务器在该音频内容库内搜索到该至少一个关键字中的该第一关键字，且搜索到该第一关键字下的至少一个第二关键字时，也即是，在该音频内容库中匹配到与该第一关键字相同的语义标签和与该第一关键字下的至少一个第二关键字相同的语义标签。此时，根据该至少一个关键字中的该第一关键字和该第二关键字分别对应的语义标签，找到与上述语义标签分别匹配的音频属性信息。然后，在一些实施例中，可以调用相关搜索引擎，基于上述与该至少一个关键字所对应的语义标签相匹配的音频属性信息，在该搜索引擎中搜索该音频属性信息，获得与该音频属性信息相符的音频存储地址。

211、服务器基于该音频存储地址，获取多个音频文件。

在实际应用中，上述获得与相应的音频属性信息相符的音频存储地址之后，服务器可以读取相应的音频存储地址，例如，服务器可以通过读取相应的音频文件的存储位置的链接，来获得该音频文件。

基于上述步骤210和步骤211，需要说明的是，在实际应用中，服务器可以通过调用相关搜索引擎，搜索相应的音频文件的存储地址，然后，通过读取相应的存储地址，来获得相应的音频文件。此外，在其他实施例中，还可以在服务器中预设数据库，在该数据库中预存大量的音频文件，服务器基于上述与该至少一个关键字对应的语义标签相匹配的音频属性信息，在该数据库中进行搜索，得到与上述音频属性信息相符的音频文件，本发明对音频文件的获取方式在此不做一一限定。

212、服务器根据用户对该多个音频文件的播放次数从大到小的顺序，对该多个音频文件进行排序。

在本发明实施例中，由于不同的音频文件可能与相同的语义标签相关联，例如，可能多个不同的音频文件都与【悲伤】这个语义标签相关联。因此，基于一个语义标签，可能获得多个相符的音频文件，服务器基于用户输入的语音消息，获得相应的多个音频文件中之后，可以在服务器中设定不同的排序策略，根据该不同的排序策略在服务器中对上述多个音频文件进行排序。

在一些实施例中，可以在服务器中设定排序策略为：根据用户对该多个音频文件的播放次数，对该多个音频文件进行排序。具体地，用户每次播放各个音频文件，都在服务器的相应的数据库中进行记录，也即是，服务器中记载了该用户对每个音频文件的播放次数。当服务器基于相应的语义标签获得上述多个音频文件之后，服务器基于该多个音频文件的播放次数的记录，根据对该多个音频文件的播放次数从大到小的顺序，对该多个音频文件进行排序。

在另一些实施例中，还可以在服务器中设定排序策略为：根据该多个音频文件的搜索热度，对该多个音频文件进行排序。具体地，所有联网用户每次搜索获得某个音频文件时，在服务器中都会存有该次搜索记录，当对某个音频文件进行搜索的联网用户较多时，该音频文件的搜索热度也会相应较高。当服务器基于相应的语义标签获得上述多个音频文件之后，服务器基于该多个音频文件的搜索热度，根据该多个音频文件的搜索热度从高到低的顺序，对该多个音频文件进行排序。

需要说明的是，在其他实施例中，服务器还可以设定其他排序策略，例如，在服务器中设定根据该多个音频文件发表时间的先后顺序或该多个音频文件被下载的次数等，对该多个音频文件进行排序，本发明实施例对该多个音频文件的排序方法不做限定。

此外，在上述排序策略的基础上，还可以根据不同的筛选策略从上述排序后的多个音频文件中筛选出部分音频文件。例如，可以在服务器上设置基于上述排序策略得到的所有音频文件，仅筛选出排列在前5位的音频文件展示给终端的用户，或，仅向终端的用户展示排列在前10位的音频文件。本发明实施例对多个音频文件的筛选策略在此不做一一限定。

213、服务器将进行排序后的多个音频文件发送至终端，结束。

在本发明实施例中，服务器基于上述至少一个关键字获得相应的音频文件后，基于在服务器上设置的排序策略和筛选策略，最终向终端发送有限个音频文件，在终端的应用程序中展示给用户。

在一些实施例中，上述将语音消息转换为文本消息的过程可以依托语音识别功能，上述将文本消息处理为至少一个关键字的过程可以依托语义识别功能，上述将至少一个关键字与音频内容库中的语义标签和音频属性信息进行匹配的过程可以依托意图搜索匹配功能，上述将根据不同的推荐策略和筛选策略对多个音频文件进行排序和筛选的过程可以依托返回结果策略功能。如图3，设定该语音识别功能及语义识别功能属于第一模块，设定意图搜索匹配功能及返回结果策略功能属于第二模块，设定终端属于第三模块，则上述第一模块、第二模块与第三模块之间存在如下三种架构：综合型架构、V型架构及三角形架构，下面对上述三种架构分别进行介绍：

对于综合型架构，上述第一模块和第二模块中的各功能都可以在同一服务器中实现；

对于V型架构，上述第一模块和第二模块分别部署在不同的服务器中，以分别实现各个模块的功能，且第一模块与第二模块之间不存在直接的连接关系，第一模块与第三模块之间直接连接，第二模块与第三模块之间直接连接；

对于三角形架构，上述第一模块和第二模块分别部署在不同的服务器中，以分别实现各个模块的功能，且第一模块与第二模块之间存在直接的连接关系，第一模块与第三模块之间直接连接，第二模块与第三模块之间直接连接。

本发明实施例的过程可以依托上述三种架构中的任何一种来实现。

图4是本发明实施例提供的一种基于语音消息进行音频搜索的装置的结构示意图。参见图4，该装置包括：转换模块401、搜索模块402、关联模块403、获取模块404、发送模块405。

转换模块401，用于接收语音消息，将该语音消息转换为至少一个关键字，该至少一个关键字包括第一关键字以及该第一关键字下的至少一个第二关键字，该第一关键字用于表示关键字类别；

搜索模块402，用于根据该至少一个关键字，在音频内容库中进行搜索，该音频内容库用于存储多个音频文件的音频属性信息和语义标签；

关联模块403，用于当在该音频内容库内搜索到该第一关键字，且未搜索到该至少一个第二关键字时，根据该至少一个第二关键字，与该音频内容库中的音频属性信息进行匹配，将该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联；

获取模块404，用于当在该音频内容库内搜索到该至少一个关键字时，根据该至少一个关键字对应的音频属性信息，获取多个音频文件；

发送模块405，用于将该多个音频文件发送至终端。

在一些实施例中,该转换模块401用于：

将该语音消息转换为文本消息；

对该文本消息进行分析，得到该至少一个关键字。

在一些实施例中,该搜索模块402用于：

在一些实施例中,该装置还包括：

确定模块，用于当该音频内容库中不存在与该至少一个关键字中的该第一关键字和该至少一个第二关键字相同的语义标签时，确定在该音频内容库内未搜索到该第一关键字和该至少一个第二关键字；

该关联模块403，还用于根据该第一关键字和该至少一个第二关键字，与该音频内容库中的音频属性信息进行匹配，将该第一关键字和该至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联。

在一些实施例中,该装置还包括：

建立模块，用于在该音频内容库中建立搜索接口，该搜索接口与该第一关键字对应的语义标签关联。

在一些实施例中,该获取模块404用于：

基于该音频存储地址，获得多个音频文件。

在一些实施例中,该装置还包括：

排序模块，用于根据用户对该多个音频文件的播放次数从大到小的顺序，对该多个音频文件进行排序。

在一些实施例中,该装置还包括：

该排序模块，还用于根据该多个音频文件的搜索热度从高到底的顺序，对该多个音频文件进行排序。

需要说明的是：上述实施例提供的基于语音消息进行音频搜索的装置在基于语音消息进行音频搜索时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于语音消息进行音频搜索的装置与基于语音消息进行音频搜索的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5示出了本发明一个示例性实施例提供的终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本发明中方法实施例提供的基于语音消息进行音频搜索的方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份功能卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6是本发明实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一条指令，该至少一条指令由该处理器601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中基于语音消息进行音频搜索的方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音消息进行音频搜索的方法，其特征在于，所述方法包括：

当在所述音频内容库内搜索到所述至少一个关键字时，根据所述至少一个关键字对应的音频属性信息，获取多个音频文件；

将所述多个音频文件发送至终端。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音消息转换为至少一个关键字包括：

将所述语音消息转换为文本消息；

对所述文本消息进行分析，得到所述至少一个关键字。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个关键字，在音频内容库中进行搜索包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一关键字和所述至少一个第二关键字作为语义标签与匹配成功的音频属性信息对应的音频文件关联之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述当在所述音频内容库内搜索到所述至少一个关键字时，根据所述至少一个关键字对应的音频属性信息，获取多个音频文件包括：

基于所述音频存储地址，获取所述多个音频文件。

7.根据权利要求1所述的方法，其特征在于，所述获取多个音频文件之后，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述获取多个音频文件之后，所述方法还包括：

9.一种基于语音消息进行音频搜索的装置，其特征在于，所述装置包括：

发送模块，用于将所述多个音频文件发送至终端。

10.根据权利要求9所述的装置，其特征在于，所述转换模块用于：

将所述语音消息转换为文本消息；

对所述文本消息进行分析，得到所述至少一个关键字。

11.根据权利要求9所述的装置，其特征在于，所述搜索模块用于：

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求9所述的装置，其特征在于，所述获取模块用于：

基于所述音频存储地址，获取多个音频文件。

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

17.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的基于语音消息进行音频搜索的方法所执行的操作。

18.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的基于语音消息进行音频搜索的方法所执行的操作。