CN109920409B

CN109920409B - 一种声音检索方法、装置、系统及存储介质

Info

Publication number: CN109920409B
Application number: CN201910124135.1A
Authority: CN
Inventors: 李秀林; 李舒扬
Original assignee: Data Baker Shenzhen Technology Co ltd
Current assignee: Data Baker Shenzhen Technology Co ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2021-07-09
Anticipated expiration: 2039-02-19
Also published as: CN109920409A

Abstract

本发明提供了一种声音检索方法、装置、系统及存储介质。该方法包括：接收需要检索的声音条目的描述特征；根据所述描述特征确定关键字集合；将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配；根据匹配度对所述各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数。上述技术方案根据对声音的描述从声音数据库中检索相匹配的声音条目，获取满足不同需求的声音数据。从而实现了一种友好的声音检索方法，使得根据需求进行对应声音的选择变得更加便捷、快速，同时也极大提升了声音数据的实用性，使得丰富的音源可以按需索引获取。

Description

一种声音检索方法、装置、系统及存储介质

技术领域

本发明涉及声音数据处理领域，更具体地涉及一种声音检索方法、装置、系统及存储介质。

背景技术

随着科技的发展，语音数据处理越来越多地应用于各种应用领域。但目前的语音数据处理通常仅涉及少数几种声音，不能满足用户的多种需求。

例如，语音合成技术是将文本转换成语音的技术。通过让机器发声可以实现人机交互。对于语音合成系统，可以预先对一个特定发音人的声音进行模型训练。利用训练好的模型和音库等数据，可以通过语音合成系统实现语音合成。

随着物联网及人工智能技术的发展，越来越多的设备有了语音交互的需求。为了让不同设备或者产品具有自己的人设特点，往往需要采用不同特色的声音进行信息表达。

目前大部分语音合成解决方案都只能提供少数几个声音，未能提供丰富的声音供用户进行挑选来实现更好的与产品角色匹配的声音效果。即便有了丰富的声音数据可供选择，由于声音无法用类似图片的方式进行展示，用户也难以基于自己的各种需求进行快速有效的选择。

因此，亟需一种新的声音检索技术，以解决上述问题。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种声音检索方法、装置、系统及存储介质。

根据本发明一方面，提供了一种声音检索方法，包括：

接收需要检索的声音条目的描述特征；

根据所述描述特征确定关键字集合；

将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配；

根据匹配度对所述各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数。

示例性地，所述根据所述描述特征确定关键字集合包括：

将所述描述特征作为关键字元素加入所述关键字集合；

针对所述描述特征中的每个描述特征，以该描述特征为知识点对声音标签知识库进行检索，以获取与该声音特征相关联的知识点作为扩展特征，并把所述扩展特征也作为关键字元素加入所述关键字集合。

示例性地，所述接收需要检索的声音条目的描述特征包括：

接收用户对需要检索的声音条目的描述语句；

利用自然语言处理技术从所述描述语句中提取所述描述特征。

示例性地，所述接收用户对需要检索的声音条目的描述语句包括：

接收用户通过文本方式或语音方式输入的描述语句。

示例性地，所述接收需要检索的声音条目的描述特征包括：

接收用户通过图形交互界面方式选择的描述特征。

示例性地，所述将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配包括：

通过余弦相似度匹配算法、词向量距离匹配算法或神经网络匹配算法，将所述关键字集合分别与所述声音数据库中的各个声音条目的声音标签进行匹配。

示例性地，所述方法还包括：

接收用户在所述检索结果中选择声音条目的指令；

接收需要播放的文本内容；

基于所选择的声音条目的声音特征，把所述文本内容合成为语音；

播放所合成的语音。

示例性地，所述方法还包括：

对于匹配度大于匹配阈值的声音条目的个数超过M个的情况，输出用于提示用户输入其他描述特征的信息，其中，M为正整数。

示例性地，所述方法还包括：

按匹配度由高到低播放所述检索结果中的声音条目。

根据本发明另一方面，提供了一种声音检索装置，包括：

接收模块，用于接收需要检索的声音条目的描述特征；

关键字确定模块，用于根据所述描述特征确定关键字集合；

匹配模块，用于将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配；

结果展示模块，用于根据匹配度对所述各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数。

根据本发明又一方面，提供了一种用于声音检索的系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的声音检索方法。

根据本发明再一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述声音检索方法。

根据本发明实施例的声音检索方法、装置、系统及存储介质，根据对声音的描述从声音数据库中检索相匹配的声音条目，获取满足不同需求的声音数据。从而实现了一种友好的声音检索方法，使得根据需求进行对应声音的选择变得更加便捷、快速，同时也极大提升了声音数据的实用性，使得丰富的音源可以按需索引获取。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的声音检索方法的示意性流程图；

图2示出了根据本发明一个实施例的接收需要检索的声音条目的描述特征的示意性流程图；

图3示出了根据本发明一个实施例的声音标签知识库的示意图；

图4示出了根据本发明另一个实施例的声音检索方法的示意性流程图；

图5示出了根据本发明又一个实施例的声音检索方法的示意性流程图；以及

图6示出了根据本发明一个实施例的声音检索装置的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

声音数据是一种特殊的数据。声音数据不像文本数据、图像数据一样，可以让人一览无余。当用户期望获得某种文本数据时，其可以简单浏览或检索就可以获得期望的文本数据。当用户期望获得某种图像数据，例如人脸图像，其可以简单浏览或者识别，即可获得期望的图像数据。而当用户期望从丰富的甚至海量的声音数据里获取所需要的声音数据时，其可能需要一一倾听每个声音，才能判断是否为所期望的声音数据。这会消耗用户大量的时间，不够便捷。另一方面，即使用户通过逐个倾听来判断获取的声音数据，也未必能够从海量的音源中选取最完美满足需求的声音数据，因此，这种方法也不够友好。为此，本发明提出了一种声音检索方法，通过对声音的描述从声音数据库中自动检索相匹配的声音条目，获取满足需求的声音数据。

下面，将参考图1描述根据本发明实施例的声音检索方法。图1示出了根据本发明一个实施例的声音检索方法100的示意性流程图。如图1所示，方法100包括步骤S110、步骤S120、步骤S130以及步骤S140。

步骤S110，接收需要检索的声音条目的描述特征。

声音条目是利用数据库管理技术存储的声音数据，其可以存储在声音数据库中。在声音数据库中，不仅存储了多个声音条目，而且还存储了每个声音条目的声音标签，后者描述了对应的声音条目的特征。

声音条目的声音标签是对该声音条目的描述。声音标签可以描述该声音条目给人的主观感受，例如女明星L的声音能让人产生“温柔”、“比较嗲”等主观感受，可以使用“温柔”、“比较嗲”等作为女明星L的声音条目的声音标签。声音标签还可以描述该声音条目为大众所熟知的音色特征，例如“男明星Z的配音”、“京剧”、“东北话”等。

声音条目可以是真人发音数据。例如，各种影视作品的演员本人的发声或配音演员的配音是真人发音数据，微信中常用的语音消息也是真人发音数据。真人发音数据具有发音人本人的个体音色特征，可以通过相应的声音标签表示发音人的音色特征。

声音条目可以是语音合成数据。语音合成数据是通过机械的、电子的方法产生的人造语音。常见的如医院、银行的语音叫号就多是语音合成数据。现在各种AI智能语音合成技术还支持合成普通男声、女声、童声等典型音色。随着语音合成技术的发展，专业语音合成技术还可以支持基于特定音色的语音合成。例如基于男明星Z、孙悟空的发音进行语音合成，生成的语音听起来神似男明星Z、孙悟空，难辨真假。语音合成数据具有特定音色特征，可以通过相应的声音标签表示其特定音色特征。

接收需要检索的声音条目的描述特征。该描述特征刻画了用户所需要的声音条目，其可以体现用户对需要检索的声音条目的主观感受或根据其知识面对该声音条目的认知描述。例如，需要检索的声音条目的描述特征为“东北男人声音温柔”或“男性、东北话、声音温柔”。

步骤S120，根据步骤S110接收的描述特征确定关键字集合。

根据步骤S110接收的描述特征可以包括一个或多个特征。可以把步骤S110接收的每个描述特征作为一个关键字元素加入关键字集合，以由关键字元素构成关键字集合。例如上述示例中的描述特征“东北男人声音温柔”可以作为一个关键字元素，此时，关键字集合中可以仅包括这一个关键字。描述特征“男性、东北话、声音温柔”包括3个特征：“男性”、“东北话”和“声音温柔”。可以把“男性”、“东北话”和“声音温柔”作为3个关键字元素，关键字集合中包括这3个关键字。

步骤S130，将步骤S120确定的关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配。换言之，对于声音数据库中的每个声音条目，将其声音标签与关键字集合进行匹配。

关键字集合中的每个关键字表示用户对需要检索的声音条目进行描述的描述特征。如前所述，声音数据库中的每个声音条目具有描述该声音条目的特征的声音标签。关键字集合和声音标签都包括针对声音条目的特征进行描述的字、词语或句子，因此，可以基于语义进行匹配，即计算两者的语义相似度。语义相似度，就是形容两个对象(句子、词语或字)的语义是否相似，是不是表达着同样的意思。目前有许多方法可以用来计算语义相似度，例如欧几里得距离(Euclidean Distance)、指数(exponential)、曼哈顿距离(Manhattan Distance)等。可以利用任何现有的或未来开发的技术将需要检索的声音条目的关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配，得到关键字集合与每个声音条目的声音标签的语义相似度。

示例性地，可以通过余弦相似度匹配算法将需要检索的声音条目的关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配。对于多个不同的文本之间的相似度计算，可以将这些文本中的词语映射到向量空间，从而形成文本中文字和向量数据的映射关系。通过计算不同的向量的差异的大小，来计算文本的相似度。余弦相似度是通过计算两个向量夹角的余弦值来评估它们的相似度。余弦值越接近1，就表明夹角越接近0度，也就表示两个向量越相似。通过余弦相似度匹配算法，可高效、准确地计算需要检索的声音条目的关键字集合分别与声音数据库中的各个声音条目的声音标签之间的语义相似度，从而提高声音检索效率。

示例性地，可以通过词向量距离匹配算法将需要检索的声音条目的关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配。词向量具有良好的语义特性，是表示词语特征的常用方式。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征，故可以将词向量的每一维称为一个词语特征。词向量(DistributedRepresentation)表示为一种低维实数向量。词向量距离相近的词语之间的关联度越近，词向量距离较远的词语之间的关联度越远，当距离足够远时，词语之间则没有关联度。通过词向量距离匹配算法，可高效、准确地计算需要检索的声音条目的关键字集合分别与声音数据库中的各个声音条目的声音标签之间的语义相似度，从而提高声音检索效率。

示例性地，可以通过神经网络匹配算法将需要检索的声音条目的关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配。神经网络匹配算法例如可以是基于DSSM(Deep Structured Semantic Models)、CNN-DSSM、LSTM-DSSM等深度学习模型的匹配算法，其可高效、准确地计算需要检索的声音条目的关键字集合分别与声音数据库中的各个声音条目的声音标签之间的语义相似度，从而提高声音检索效率。

步骤S140，根据步骤S130得到的关键字集合与各个声音条目的声音标签之间的匹配度，对声音数据库中的各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数。

对于每个声音条目，关键字集合与其声音标签之间的匹配度表示该声音条目符合需要检索的声音条目的描述特征的程度。根据匹配度对声音数据库中的各个声音条目进行排序，将匹配度最高的N个声音条目作为检索结果展示给用户。N为正整数，表示展示给用户的声音条目的个数。N可以是系统默认设置值，也可以是用户设定的参数。至此，实现了根据对声音的描述从声音数据库中检索相匹配的声音条目，获取满足需求的声音数据。

上述技术方案实现了一种友好的声音检索方法，使得根据需求进行对应声音的选择变得更加便捷、快速，同时也极大提升了声音数据的实用性，使得丰富的音源可以按需索引获取。

图2示出了根据本发明一个实施例的步骤S110接收需要检索的声音条目的描述特征的示意性流程图。如图2所示，步骤S110包括步骤S111和步骤S112。

步骤S111，接收用户对需要检索的声音条目的描述语句。

用户可以根据其对需要检索的声音条目的期望进行描述表达。例如，“我想要检索甜美的带有港台腔的娃娃音”。

示例性地，可以接收用户通过文本方式或语音方式输入的描述语句。例如用户可以利用键盘、虚拟键盘、手写等方式输入文本描述语句。用户也可以通过语音采集设备输入语音方式的描述语句。由此，提高了声音检索的便捷性和友好性。

步骤S112，利用自然语言处理技术从步骤S111接收的描述语句中提取需要检索声音条目的描述特征。

利用自然语言处理技术，例如分词、句子结构分析等技术，可以从步骤S111接收的描述语句中提取需要检索声音条目的描述特征。继续上述示例，通过自然语言处理技术可以提取出“甜美”、“港台腔”、“娃娃音”3个描述特征。

由此，用户可以针对需要检索的声音条目较为随意(不需要非常严谨)地进行描述，从而提高了声音检索的友好性。

在一个实施例中，声音检索系统可以根据声音特征分类设计图形交互界面。例如可以根据发音人属性、声学特征属性、感知属性、人文属性、地域属性等维度设计图形交互界面。发音人属性是从发音人的性别、年龄、籍贯、民族等方面对声音条目的描述。声学特征属性是从声学特征方面，例如音调(高、中、低)、音域(宽、窄)等方面对声音条目的描述。感知属性是从评价者对声音条目的感性认知方面的描述，例如嗓音甜美、浑厚或富有磁性、温暖、邻家女孩等。人文属性是对声音条目的人文背景或人文特色方面的描述，例如艺术作品角色、名人、明星、艺术风格特点等。地域属性是与不同地区的用户感知相关的属性，典型的例如各地方言或发音中带有的地方口音。由此，可以接收用户通过图形交互界面方式选择的描述特征。例如，用户通过图形交互界面方式逐级选择了“人文属性”-＞“明星”-＞“男性”-＞“男明星Z”。通过图形交互界面方式，不需要用户费劲思索如何描述需要检索的声音，从而提高了声音检索的便捷性和友好性。

在一个实施例中，将步骤S110接收的描述特征作为关键字元素加入关键字集合后，可以针对接收到的描述特征中的每个描述特征，以该描述特征为知识点对声音标签知识库进行检索，以获取与该声音特征相关联的知识点作为扩展特征，并把获取到的扩展特征也作为关键字元素加入关键字集合。

声音标签知识库是以声音标签为知识点的知识图谱或图数据库。知识点之间存在结构化的、可复用、可推理的关系。图3示出了根据本发明一个实施例的声音标签知识库的示意图。如图3所示，以“男明星A”为知识点进行检索，可以得到相关联的知识点“东北话”、“男性”、“声音温柔”。由此，如果用户给出了“男明星A”的描述标签。那么可以将“东北话”、“男性”、“声音温柔”这些扩展标签也加入关键字集合。本领域普通技术人员可以理解，上述示例中，仅以与描述标签具有一级关联关系的标签为例来说明该描述标签的扩展标签。在实际应用中，可以根据实际需要将与描述标签具有多级关联关系的标签加入关键字集合。例如，根据图3所示的声音标签知识库，对于描述特征“男明星A”，可以将与“男明星A”具有二级关联关系的标签“男明星B”也加入关键字集合。通过以描述特征为知识点对声音标签知识库进行检索获取相关联的知识点作为扩展特征加入关键字集合，可以针对需要检索的声音条目进行更为全面的描述，从而进一步提高声音检索的精准性，避免检索疏漏。

图4示出了根据本发明又一个实施例的声音检索方法400的示意性流程图。如图4所示，方法400包括步骤S410、步骤S420、步骤S430、步骤S440、步骤S450以及步骤S460。其中，步骤S410、步骤S420、步骤S430以及步骤S450分别与步骤S110、步骤S120、步骤S130以及步骤S140实现的功能、处理过程和方法都类似，在此不再赘述。

步骤S440，判断匹配度大于匹配阈值的声音条目的个数是否超过M个。

匹配阈值为用于判断匹配度是否满足要求的阈值。匹配度大于匹配阈值的声音条目表示满足检索条件。匹配阈值可以是系统默认设置值，也可以是用户设定的参数。M为正整数，表示满足匹配阈值的声音条目的阈值个数。M可以是系统默认设置值，也可以是用户设定的参数。对于匹配度大于匹配阈值的声音条目的个数超过M个的情况，表示当前检索条件可能过于宽松，如此可能检索结果不准确，转步骤S460处理；否则转步骤S450，展示匹配度最高的N个声音条目为检索结果。

步骤S460，输出用于提示用户输入其他描述特征的信息。用户可以根据提示信息，输入进一步精确检索的其他描述特征。可以利用步骤S410所输入的描述特征和该其他描述再次进行声音检索，以获得用户期望的声音条目。

上述技术方案根据检索得到的声音条目满足匹配阈值的情况自动判断是否需要提示用户再次精确检索，由此，提高了声音检索的精确度。

在一个实施例中，可以按匹配度由高到低播放检索结果中的声音条目。在一个示例中，提供一个用户交互界面，在其中按照匹配度降序呈现检索出来的声音条目。可以逐个播放所呈现的声音条目，以供用户进行倾听选取。用户还可以利用人机交互接口选择其中的一个或多个感兴趣的声音条目进行试听。由此，提高了声音检索的友好性。

针对检索出的声音条目，用户还可以试听基于其声音特征的语音合成效果。图5示出了根据本发明另一个实施例的声音检索方法500的示意性流程图。如图5所示，方法500包括步骤S510、步骤S520、步骤S530、步骤S540、步骤S550、步骤S560、步骤S570和步骤S580。其中，步骤S510、步骤S520、步骤S530以及步骤S540分别与步骤S110、步骤S120、步骤S130以及步骤S140实现的功能、处理过程和方法都类似，在此不再赘述。

步骤S550，接收用户在步骤S540得到的检索结果中选择声音条目的指令。该声音条目可以是合成语音。系统可以提供图形交互界面呈现检索结果。利用该图形用户界面接收用户输入的选择指令，例如接收用户对需要试听的声音条目的点击操作，以在步骤S540展示的N个检索结果中选择需要试听的声音条目。

步骤S560，接收需要播放的文本内容。具体地，用户可以利用上述图形用户界面输入任何想要试听的文本内容。

步骤S570，基于通过步骤S550选择的声音条目的声音特征，把通过步骤S560接收的文本内容合成为语音。

步骤S580，播放步骤S570合成的语音。

上述技术方案可以基于用户检索得到的声音条目的声音特征进行语音合成试听，进一步提高了声音检索的友好性。

根据本发明再一个实施例，提供了一种声音检索装置。图6示出了根据本发明一个实施例的声音检索装置600的示意性框图。如图6所示，装置600包括：接收模块610、关键字确定模块620、匹配模块630以及结果展示模块640。

接收模块610，用于接收需要检索的声音条目的描述特征。

关键字确定模块620，用于根据描述特征确定关键字集合。

匹配模块630，用于将关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配。

结果展示模块640，用于根据匹配度对各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数。

总之，声音检索装置600中的各个模块用于具体执行上述声音检索方法中的相应步骤。通过阅读上述关于该方法的描述，本领域普通技术人员可以理解上述声音检索装置600的具体实现和技术效果。

根据本发明又一方面，还提供了一种用于声音检索的系统。包括处理器和存储器，其中，所述存储器中存储用于实现根据本发明实施例的声音检索方法中的各个步骤的计算机程序指令。所述处理器用于运行所述存储器中存储的计算机程序指令，以执行根据本发明实施例的声音检索方法的相应步骤，并且用于实现根据本发明实施例的声音检索装置中的接收模块610、关键字确定模块620、匹配模块630以及结果展示模块640。

根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的声音检索方法的相应步骤，并且用于实现根据本发明实施例的声音检索装置中的相应模块。所述存储介质例如可以包括平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种声音检索方法，包括：

接收需要检索的声音条目的描述特征，其中，所述描述特征包括发音人属性、声学特征属性、感知属性、人文属性、地域属性；

根据所述描述特征确定关键字集合；

将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配，其中，所述声音标签是对声音条目的描述；

根据匹配度对所述各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数，

其中，所述根据所述描述特征确定关键字集合包括：

将所述描述特征作为关键字元素加入所述关键字集合；

针对所述描述特征中的每个描述特征，以该描述特征为知识点对声音标签知识库进行检索，以获取与该声音特征相关联的知识点作为扩展特征，并把所述扩展特征也作为关键字元素加入所述关键字集合，所述声音标签知识库是以声音标签为知识点的知识图谱或图数据库。

2.如权利要求1所述方法，其中，所述接收需要检索的声音条目的描述特征包括：

接收用户对需要检索的声音条目的描述语句；

3.如权利要求2所述方法，其中，所述接收用户对需要检索的声音条目的描述语句包括：

接收用户通过文本方式或语音方式输入的描述语句。

4.如权利要求1所述方法，其中，所述接收需要检索的声音条目的描述特征包括：

接收用户通过图形交互界面方式选择的描述特征。

5.如权利要求1至4任一项所述方法，其中，所述将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配包括：

通过余弦相似度匹配算法、词向量距离匹配算法或神经网络匹配算法，将所述关键字集合与所述声音数据库中的各个声音条目的声音标签分别进行匹配。

6.如权利要求1至4任一项所述方法，其中，所述方法还包括：

接收用户在所述检索结果中选择声音条目的指令；

接收需要播放的文本内容；

播放所合成的语音。

7.如权利要求1至4任一项所述方法，其中，所述方法还包括：

8.如权利要求1至4任一项所述方法，其中，所述方法还包括：

按匹配度由高到低播放所述检索结果中的声音条目。

9.一种声音检索装置，包括：

接收模块，用于接收需要检索的声音条目的描述特征，其中，所述描述特征包括发音人属性、声学特征属性、感知属性、人文属性、地域属性；

关键字确定模块，用于根据所述描述特征确定关键字集合；

匹配模块，用于将所述关键字集合与声音数据库中的各个声音条目的声音标签分别进行匹配，其中，所述声音标签是对声音条目的描述；

结果展示模块，用于根据匹配度对所述各个声音条目进行排序，并将匹配度最高的N个声音条目作为检索结果，其中，N为正整数，

其中，所述关键字确定模块进一步用于：

将所述描述特征作为关键字元素加入所述关键字集合；

10.一种用于声音检索的系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至8任一项所述的声音检索方法。

11.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至8任一项所述的声音检索方法。