CN104731918A

CN104731918A - 一种语音搜索方法及装置

Info

Publication number: CN104731918A
Application number: CN201510133760.4A
Authority: CN
Inventors: 马旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2015-06-24

Abstract

本发明实施例提供了一种语音搜索方法及装置。一方面，本发明实施例通过对输入的语音信号进行语音识别，以获得M个识别结果，M为大于1的整数；从而，根据所述M个识别结果进行搜索，以获得第一搜索结果；进而，输出所述第一搜索结果。因此，本发明实施例提供的技术方案能够提高语音搜索技术中搜索结果的准确性和有效性。

Description

一种语音搜索方法及装置

【技术领域】

本发明涉及互联网应用技术领域，尤其涉及一种语音搜索方法及装置。

【背景技术】

随着语音识别技术的发展，目前出现了许多基于语音识别的应用，如语音搜索、语音导航等。在移动互联网时代，语音搜索可能会替代目前广泛使用的文本搜索，成为主流搜索方式。

现有技术中，利用语音识别技术实现语音搜索的方法是:对用户输入的语音信号进行语音识别，并根据置信度最高的一个识别结果进行搜索，从而获得搜索结果。然而，当用户输入的语音信号较短时，在语音识别时，将没有足够的上下文信息，来判断出最接近的识别结果，如果只根据一个识别结果进行搜索，将导致搜索结果的准确性和有效性比较低。

【发明内容】

有鉴于此，本发明实施例提供了一种语音搜索方法及装置，可以实现提高语音搜索技术中搜索结果的准确性和有效性。

本发明实施例的一方面，提供一种语音搜索方法，包括：

对输入的语音信号进行语音识别，以获得M个识别结果，M为大于1的整数；

根据所述M个识别结果进行搜索，以获得第一搜索结果；

输出所述第一搜索结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述M个识别结果进行搜索，以获得第一搜索结果，包括：

从所述M个识别结果中选择N个识别结果，N为大于1且小于或者等于M的整数；

获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果；

根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述从所述M个识别结果中选择N个识别结果，包括：

获得所述M个识别结果中每个所述识别结果的置信度；

获得所述M个识别结果中置信度大于或者等于预设的第一阈值的P个识别结果，P为大于或者等于N且小于或者等于M的整数；

在所述P个识别结果中，去除与其他识别结果之间的差值大于或者等于预设的第二阈值的识别结果，以获得所述N个识别结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果，包括：

获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果的初始权重值；

根据所述初始权重值以及每个所述识别结果的置信度，获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果的排序权重值；

根据排序权重值由大到小的顺序，对与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果进行排序，以获得排序结果，以作为所述第一搜索结果。

根据初始权重值由大到小的顺序，对与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果进行排序，以获得排序结果，以作为所述第一搜索结果。

本发明实施例的一方面，提供一种语音搜索装置，包括：

语音识别模块，用于对输入的语音信号进行语音识别，以获得M个识别结果，M为大于1的整数；

搜索模块，用于根据所述M个识别结果进行搜索，以获得第一搜索结果；

输出模块，用于输出所述第一搜索结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述搜索模块，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述搜索模块用于从所述M个识别结果中选择N个识别结果时，具体用于：

获得所述M个识别结果中每个所述识别结果的置信度；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述搜索模块用于根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果时，具体用于：

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例中，根据经过语音识别后，获得的M个识别结果进行搜索，以获得第一搜索结果并输出。与现有技术中只根据置信度最高的一个识别结果进行搜索的技术方案相比，本发明实施例提供的技术方案，通过根据多个识别结果进行搜索，可以提高用于搜索的识别结果，能够命中用户真实意图的概率，从而，可以提高语音搜索技术中搜索结果的准确性和有效性，提升用户体验。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的语音搜索方法的流程示意图；

图2是本发明实施例所提供的语音搜索装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述搜索结果，但这些搜索结果不应限于这些术语。这些术语仅用来将搜索结果彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一搜索结果也可以被称为第二搜索结果，类似地，第二搜索结果也可以被称为第一搜索结果。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例一

本发明实施例给出一种语音搜索方法，请参考图1，其为本发明实施例所提供的语音搜索方法的流程示意图，如图所示，该方法包括以下步骤：

S101，对输入的语音信号进行语音识别，以获得M个识别结果，M为大于1的整数。

S102，根据所述M个识别结果进行搜索，以获得第一搜索结果。

S103，输出所述第一搜索结果。

需要说明的是，S101～S103的执行主体可以为语音搜索装置，该装置可以位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者，也可以位于服务器侧，本发明实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

实施例二

基于上述实施例一所提供的语音搜索方法，本发明实施例对S101的方法进行具体描述。该步骤具体可以包括：

本实施例中，可以由所述语音识别模块对输入的语音信号进行语音识别，该语音识别模块可以位于终端，或者，也可以位于服务器，本发明实施例对此不特别限定。

举例说明，本实施例中，语音识别模块对输入的语音信号进行语音识别，以获得M个识别结果的方法可以包括但不限于：首先，利用语音采集模块采集用户输入的语音信号。然后，利用语音识别模型对该用户输入的语音信号进行语音识别处理，以获得M个识别结果。其中，M为大于1的整数。

优选的，所述语音采集模块可以包括但不限于麦克风，如终端的麦克风、与终端连接的耳机中的麦克风。其中，与终端连接的耳机可以包括但不限于蓝牙耳机或者有线耳机。

优选的，语音识别模型可以但不限于根据N-Best算法获得并输出所述M个识别结果，即生成并输出最好的若干识别结果。

例如，利用语音识别模型，并根据N-Best算法，对用户输入的语音信号进行语音识别处理，以获得M个识别结果的方法可以包括但不限于：

语音识别模型对输入的语音信号进行预处理，可以包括滤波处理、采样和量化处理、加窗处理、端点检测处理和预加重处理等。然后，语音识别模型对经过预处理的语音信号进行特征信息的提取操作。最后，语音识别模型将提取的特征信息与发音词典中的特征信息进行匹配，将匹配分数最高的M个特征信息所对应的文本信息作为识别结果，从而获得M个识别结果。可以理解的是，每个识别结果都是一个文本信息，该文本信息将作为关键词，用以实现替代用户手动输入的关键词。

可选的，语音识别模型可以在输出M个识别结果的同时，输出每个识别结果的置信度。

需要说明的是，语音识别结果输出的识别结果的置信度用于表征识别结果与用户真实语义之间的匹配程度。

优选的，每个识别结果的置信度可以用[0,1]区间中的数值表示。

实施例三

基于上述实施例一所提供的语音搜索方法和实施例二，本发明实施例对S102的方法进行具体描述。该步骤具体可以包括：

本实施例中，可以由所述搜索模块根据所述M个识别结果进行搜索，该搜索模块可以位于终端，或者，也可以位于服务器，本发明实施例对此不特别限定。该搜索模块可以包括预处理单元和搜索引擎。

举例说明，本实施例中，根据所述M个识别结果进行搜索，以获得第一搜索结果的方法可以包括但不限于：

首先，搜索模块中的预处理单元需要先从所述M个识别结果中选择N个识别结果，N为大于1且小于或者等于M的整数。然后，搜索模块中的搜索引擎可以根据所述N个识别结果中每个识别结果，在数据库中进行搜索，以获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果。最后，所述搜索引擎根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果。

需要说明的是，文本搜索技术中，直接将用户输入的文本作为关键词(Query)进行搜索。与文本搜索技术不同，语音搜索技术中，将语音识别后得到的识别结果作为关键词(Query)进行搜索。

举例说明，本实施例中，所述预处理单元从所述M个识别结果中选择N个识别结果的方法可以包括但不限于：

首先，获得语音识别模型在输出M个识别结果时，输出的所述M个识别结果中每个所述识别结果的置信度。

然后，将M个识别结果中每个识别结果的置信度，分别与预设的第一阈值T₁进行比较。若识别结果的置信度大于或者等于第一阈值T₁，说明该识别结果的置信度较高，则在M个识别结果中保留该识别结果。反之，若识别结果的置信度小于第一阈值T₁，说明该识别结果的置信度比较低，则在M个识别结果中去除该识别结果。从而，可以获得所述M个识别结果中置信度大于或者等于预设的第一阈值的P个识别结果，P为大于或者等于N且小于或者等于M的整数。

最后，在所述P个识别结果中，去除与其他识别结果之间的差值大于或者等于预设的第二阈值T₂的识别结果，以获得所述N个识别结果。

例如，可以根据置信度由大到小的顺序，对P个识别结果进行排序。然后，依次计算相邻的每两个识别结果之间的差值，并将相邻的每两个识别结果之间的差值与预设的第二阈值T₂进行比较。若相邻的两个识别结果之间的差值的绝对值，小于第二阈值T₂，说明这两个识别结果的置信度的差值较小，识别结果的差距较小，则在P个识别结果中保留这两个识别结果。反之，若相邻的两个识别结果之间的差值的绝对值，大于或者等于第二阈值T₂，则在P个识别结果中，去除相邻的两个识别结果中置信度较小的那个识别结果。最终，可以获得P个识别结果中的N个识别结果。

举例说明，本实施例中，搜索引擎根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果的方法可以包括但不限于以下两种：

第一种：首先，获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果的初始权重值。其中，可以根据识别结果与第二搜索结果的相似度、第二搜索结果的时间等，获得第二搜索结果的初始权重值。需要说明的是，根据关键词进行搜索，以获得与关键词相匹配的搜索结果属于现有技术，本实施例不再赘述。

然后，若所述预处理单元在向搜索引擎提供N个识别结果时，同时提供了每个识别结果的置信度，则搜索引擎可以根据所述初始权重值以及每个所述识别结果的置信度，获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果的排序权重值。

最后，根据排序权重值由大到小的顺序，对与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果进行排序，以获得排序结果，将该排序结果作为所述第一搜索结果。

例如，可以将第二搜索结果的初始权重值与识别结果的置信度相乘，获得与所述识别结果相匹配的第二搜索结果的排序权重值。或者，再例如，也可以将识别结果的权重值乘以一个调权因子后再与第二搜索结果的初始权重值相加，获得与所述识别结果相匹配的第二搜索结果的排序权重值。需要说明的是，本实施例对获得第二搜索结果的排序权重值的方法不进行特别限定。

第二种：首先，获得与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果的初始权重值。若所述预处理单元在向搜索引擎提供N个识别结果时，没有提供每个识别结果的置信度，则根据初始权重值由大到小的顺序，对与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果进行排序，以获得排序结果，以作为所述第一搜索结果。

实施例四

基于上述实施例一所提供的语音搜索方法、实施例二和实施例三，本发明实施例对S103的方法进行具体描述。该步骤具体可以包括：

举例说明，本实施例中，输出所述第一搜索结果的方法可以包括但不限于：

若S101与S102的执行主体位于服务器，则执行主体需要向客户端输出所述第一搜索结果，以使得客户端可以向用户展现该第一搜索结果。

若S101与S102的执行主体位于本地终端的应用，则执行主体可以直接展现该第一搜索结果。

这样，用户在输入语音信号后，就可以看到相应的搜索结果。

实施例五

若用户输入的语音信号为“jieshi”，都是二声，利用语音识别模型对该语音信号进行语音识别处理，获得三个识别结果“结石”、“结识”和“节食”，以及输出每个识别结果的置信度W₁、W₂和W₃。

由于用户输入的语音信号“jieshi”缺乏上下文信息，因为没有足够的上下文信息来辅助判断最接近用户本意的识别结果，因此，本实施例中，将根据上述三个识别结果，去获得最终输出的搜索结果。

例如，将上述三个识别结果的置信度分别与第一阈值T₁进行比较，上述三个识别结果的置信度都大于第一阈值T₁，则按照置信度由大到小的顺序，对三个识别结果进行排序。然后根据排序结果，计算相邻两个识别结果的置信度的差值，发现“结石”与“结识”的置信度的差值大于预设的第二阈值T₂，且识别结果“结石”的置信度较小，则在三个识别结果中，去除识别结果“结石”，最后将识别结果“结识”和“节食”作为搜索引擎的输入。

搜索引擎对于“结识”和“节食”分别进行搜索，获得与“结识”相匹配的搜索结果以及与“节食”相匹配的搜索结果。然后，根据与“结识”相匹配的搜索结果的排序权重值、与“节食”相匹配的搜索结果的排序权重值，将与“结识”相匹配的搜索结果以及“节食”相匹配的搜索结果，一起进行排序，以获得最终用于输出的搜索结果。所以，该最终输出的搜索结果中包含了与“结识”相匹配的搜索结果以及与“节食”相匹配的搜索结果。

可以理解的是，现有技术中，语音识别模型只向搜索引擎提供置信度最高的识别结果，搜索引擎根据置信度最高的识别结果，进行搜索，获得搜索结果并输出，如果该识别结果不是用户的真实意图，那么搜索结果就不是用户所需要的搜索结果，这样，语音搜索中搜索结果就不准确且无效，用户体验较差。

本发明实施例中，可以根据置信度最高的至少两个识别结果进行搜索，输出的搜索结果中，将包含多个识别结果相匹配的搜索结果，如果其中一个识别结果不是用户的真实意图，输出的搜索结果中还会包含与其他识别结果相匹配的搜索结果，从而可以提高搜索结果的准确性和有效性，还可以提高搜索结果的多样性，提升用户体验。

实施例五

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图2，其为本发明实施例所提供的语音搜索装置的功能方块图。如图所示，该装置包括：

语音识别模块201，用于对输入的语音信号进行语音识别，以获得M个识别结果，M为大于1的整数；

搜索模块202，用于根据所述M个识别结果进行搜索，以获得第一搜索结果；

输出模块203，用于输出所述第一搜索结果。

优选的，所述搜索模块202，具体用于：

优选的，所述搜索模块202用于从所述M个识别结果中选择N个识别结果时，具体用于：

获得所述M个识别结果中每个所述识别结果的置信度；

优选的，所述搜索模块202用于根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果时，具体用于：

优选的，所述搜索模块202，具体用于：

由于本实施例中的各单元能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

本发明实施例的技术方案具有以下有益效果：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音搜索方法，其特征在于，所述方法包括：

根据所述M个识别结果进行搜索，以获得第一搜索结果；

输出所述第一搜索结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述M个识别结果进行搜索，以获得第一搜索结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述M个识别结果中选择N个识别结果，包括：

获得所述M个识别结果中每个所述识别结果的置信度；

4.根据权利要求3所述的方法，其特征在于，所述根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果，包括：

6.一种语音搜索装置，其特征在于，所述装置包括：

输出模块，用于输出所述第一搜索结果。

7.根据权利要求6所述的装置，其特征在于，所述搜索模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述搜索模块用于从所述M个识别结果中选择N个识别结果时，具体用于：

获得所述M个识别结果中每个所述识别结果的置信度；

9.根据权利要求8所述的装置，其特征在于，所述搜索模块用于根据与所述N个识别结果中每个所述识别结果相匹配的第二搜索结果，获得所述第一搜索结果时，具体用于：

10.根据权利要求7所述的装置，其特征在于，所述搜索模块，具体用于：