CN108121735B

CN108121735B - 语音搜索方法和装置

Info

Publication number: CN108121735B
Application number: CN201611079422.8A
Authority: CN
Inventors: 高松
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2022-03-11
Anticipated expiration: 2036-11-29
Also published as: CN108121735A

Abstract

本申请提出一种语音搜索方法和装置，该语音搜索方法包括：获取用户输入的语音查询对应的候选语音识别结果；确定所述用户当前所处的环境；在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。该方法能够降低用户操作复杂度和技术实现复杂度，提升用户体验。

Description

语音搜索方法和装置

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种语音搜索方法和装置。

背景技术

随着技术的进步，自然语言越来越广泛的成为一种人与系统之间的交流手段。自然语言作为一种人与人之间的交流手段时，总是受到对话所处的时间、地点、对话上下文等条件的制约，出现歧义的概率较低。即使出现歧义，也能在后续的交流沟通后最终消歧。当对话的主体是人和机器时，则很难做到消歧。

为了解决人与机器交流时的歧义问题，相关技术中，可以引导用户加入上下文信息，或者，采用深度学习根据上下文分析用户意图。但是，引导用户加入上下文信息的方式需要用户加入上下文信息，造成用户操作负担，用户体验较差；深度学习方式的技术实现又比较复杂。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种语音搜索方法，该方法可以降低用户操作复杂度和技术实现复杂度，提升用户体验。

本申请的另一个目的在于提出一种语音搜索装置。

为达到上述目的，本申请第一方面实施例提出的语音搜索方法，包括：获取用户输入的语音查询对应的候选语音识别结果；确定所述用户当前所处的环境；在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。

本申请第一方面实施例提出的语音搜索方法，通过依据用户当前所处的环境进行搜索，可以不需要用户输入上下文信息，从而降低用户操作复杂度，基于用户当前所处的环境进行搜索，不需要采用深度学习分析用户意图，从而降低技术实现复杂度，进而提高用户体验。

为达到上述目的，本申请第二方面实施例提出的语音搜索装置，包括：获取模块，用于获取用户输入的语音查询对应的候选语音识别结果；确定模块，用于确定所述用户当前所处的环境；搜索模块，用于在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。

本申请第二方面实施例提出的语音搜索装置，通过依据用户当前所处的环境进行搜索，可以不需要用户输入上下文信息，从而降低用户操作复杂度，基于用户当前所处的环境进行搜索，不需要采用深度学习分析用户意图，从而降低技术实现复杂度，进而提高用户体验。

本申请实施例还提出了一种设备，包括：一个或多个处理器；用于存储一个或多个程序的存储器；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。

本申请实施例还提出了一种非临时性计算机可读存储介质，当所述存储介质中的一个或多个程序由设备中的一个或多个处理器被执行时，使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。

本申请实施例还提出了一种计算机程序产品，当所述计算机程序产品被设备中的一个或多个处理器执行时，使得所述一个或多个处理器执行如本申请第一方面实施例任一项所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的语音搜索方法的流程示意图；

图2是本申请另一个实施例提出的语音搜索方法的流程示意图；

图3是本申请一个实施例提出的语音搜索装置的结构示意图；

图4是本申请另一个实施例提出的语音搜索装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的语音搜索方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：获取用户输入的语音查询对应的候选语音识别结果。

例如，用户在移动终端侧以语音形式输入查询(query)，移动终端将接收的语音查询发送给服务器，由服务器的语音识别模块对语音进行处理，得到一个或多个候选语音识别结果。比如，语音查询为zang ma，对应的候选语音识别结果可以包括：脏吗、藏马-1(动物)、藏马-2(动漫)。

语音识别模块进行语音识别时，可以采用声学模块和语言模型进行，得到语音对应的文本。

进一步的，对于相同的文本还可以设置标注信息，比如上述的藏马分别标注为藏马-1和藏马-2，标注信息表明相应的适用环境，比如藏马-1是一种动物，藏马-2是一个动漫人物名。

具体的，候选语音识别结果对应的标注信息可以通过对历史数据进行挖掘确定，比如历史用户在语音搜索zang ma时未找到搜索结果，则该用户转换为文本输入“藏马，一种动物”，则会获取到“藏马，一种动物”这种历史数据，相应的，可以藏马对应的一种标注信息是动物。类似的，通过对大量历史数据进行挖掘，则可以得到文本所需的标注信息。

S12：确定所述用户当前所处的环境。

例如，用户在移动终端侧发起语音搜索时，移动终端自动检测用户当前所处的环境信息，并将检测得到的环境信息发送给服务器，由服务器的环境信息处理模块根据接收的环境信息确定用户当前所处的环境。

移动终端检测到的环境信息例如包括：地理位置信息、温度信息、光线信息、背景噪声信息等可收集信息。

环境信息处理模块中可以记录环境信息与环境之间的对应关系，以根据接收的环境信息确定用户当前所处的环境。例如，根据接收的地理位置信息确定用户当前处于动物园，或者，根据接收的光线信息确定用户当前处于室外，或者，在确定用户处于室外时再根据背景噪声确定用户处于菜市场等。

S13：在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。

具体的，可以计算所述候选语音识别结果对应的文本和/或标注信息与所述环境的相似度；选择相似度最高的候选语音识别结果作为与所述环境匹配的一个候选语音识别结果。

例如，在候选语音识别结果没有标注信息时，则可以直接计算候选语音识别结果对应的文本(如脏吗)与环境对应的文本(如动物园)之间的相似度，或者，在候选语音识别结果存在标注信息时，计算候选语音识别结果的标注信息对应的文本(如动物)与环境对应的文本(如动物园)之间的相似度，再根据相似度选择候选语音识别结果。

文本之间的相似度计算时，例如分别确定文本对应的向量，再计算两个向量间的距离(如余弦距离)，将计算得到的距离值作为相似度数值。而将文本转换为向量的流程可以采用已有或将来出现的技术，例如，在文本中提取关键词，采用word2vec技术将关键词转换为词向量，将关键词对应的词向量作为文本对应的向量。

本实施例中，通过依据用户当前所处的环境进行搜索，可以不需要用户输入上下文信息，从而降低用户操作复杂度，基于用户当前所处的环境进行搜索，不需要采用深度学习分析用户意图，从而降低技术实现复杂度，进而提高用户体验。

图2是本申请另一个实施例提出的语音搜索方法的流程示意图。

如图2所示，本实施例的方法包括：

S21：移动终端接收用户输入的语音查询。

例如，用户输入语音zang ma。

S22：移动终端将接收的语音查询发送给服务器，由服务器进行语音识别，得到候选语音识别结果。

例如，由服务器的语音识别模块对接收的语音进行语音识别，得到语音对应的文本，并对相同文本设置不同的标注信息，得到候选语音识别结果。

如，对应语音zang ma，候选语音识别结果包括：脏吗，藏马-1(动物)、藏马-2(动漫)。

将语音转换为文本可以采用已有或将来出现的语音识别技术，为文本设置标注信息可以根据对历史数据的挖掘结果确定，具体内容可以参见上一实施例，在此不再详述。

S23：移动终端自动检测用户当前所处的环境信息并发送给服务器。

例如，移动终端在接收到语音查询后，自动检测并发送环境信息，环境信息例如包括：GPS、背景噪声、光照强度。

S24：服务器根据环境信息确定用户当前处于的环境。

例如，根据GPS与预设的不同场所的GPS数据，确定用户当前处于动物园、商场、电影院、公园或高速公路等场所。

根据光照强度与预设的室外或室内的光照强度，确定用户当前处于室外或室内。

根据背景噪声进一步缩小范围，如确定处于室外场景时，再根据预设的不同室外场景对应的背景噪声，确定用户当前处于菜市场。

S25：服务器在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果。

基于上述例子，假设用户当前处于动物园中，则可以选择藏马-1(动物)这一候选语音识别结果。

S26：服务器获取与选择的候选识别结果对应的搜索结果，并发送给移动终端，由移动终端展示给用户。

例如，服务器在数据库中进行搜索，获取与藏马-1(动物)相关的结果作为搜索结果。相关的结果例如为藏马这种动物的相关知识。

服务器在获取到搜索结果后，可以发送给位于移动终端的客户端，由客户端展示给用户。

本实施例中，通过依据用户当前所处的环境进行搜索，可以不需要用户输入上下文信息，从而降低用户操作复杂度，基于用户当前所处的环境进行搜索，不需要采用深度学习分析用户意图，从而降低技术实现复杂度，进而提高用户体验。通过对历史数据挖掘可以获取到候选语音识别结果的标注信息，从而可以找到与环境匹配的候选语音识别结果。

图3是本申请一个实施例提出的语音搜索装置的结构示意图。

如图3所示，本实施例的装置30包括：获取模块31、确定模块32和搜索模块33。

获取模块31，用于获取用户输入的语音查询对应的候选语音识别结果；

确定模块32，用于确定所述用户当前所处的环境；

搜索模块33，用于在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。

一些实施例中，所述确定模块32具体用于：

接收所述用户使用的移动终端发送的环境信息，所述环境信息由所述移动终端在接收到所述语音查询时自动检测得到；

根据所述环境信息确定所述用户当前所处的环境。

一些实施例中，参见图4，该装置30还包括：

标注模块34，用于获取所述候选语音识别结果的标注信息，所述标注信息用于标注所述候选语音识别结果适用的环境。

一些实施例中，所述搜索模块33用于在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，包括：

计算所述候选语音识别结果对应的文本和/或标注信息与所述环境的相似度；

选择相似度最高的候选语音识别结果作为与所述环境匹配的一个候选语音识别结果。

一些实施例中，所述环境信息包括如下项中的至少一项：

地理位置信息、温度信息、光线信息、背景噪声信息。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

本申请实施例还提出了一种设备，包括：一个或多个处理器；用于存储一个或多个程序的存储器；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行：获取用户输入的语音查询对应的候选语音识别结果；确定所述用户当前所处的环境；在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。本申请实施例还提出了一种非临时性计算机可读存储介质，当所述存储介质中的一个或多个程序由设备中的一个或多个处理器被执行时，使得所述一个或多个处理器执行：获取用户输入的语音查询对应的候选语音识别结果；确定所述用户当前所处的环境；在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。

本申请实施例还提出了一种计算机程序产品，当所述计算机程序产品被设备中的一个或多个处理器执行时，使得所述一个或多个处理器执行：获取用户输入的语音查询对应的候选语音识别结果；确定所述用户当前所处的环境；在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果。

上述的设备可以位于服务器中，或者，也可以位于终端设备中。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音搜索方法，其特征在于，包括：

接收用户输入的语音查询；

对所述语音查询进行语音识别，得到所述语音查询对应的文本，并对相同文本设置不同的标注信息，得到候选语音识别结果，其中，所述标注信息用于标注所述候选语音识别结果适用的环境；

确定所述用户当前所处的环境；

在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果；

其中，所述在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述用户当前所处的环境，包括：

根据所述环境信息确定所述用户当前所处的环境。

3.根据权利要求2所述的方法，其特征在于，所述环境信息包括如下项中的至少一项：

地理位置信息、温度信息、光线信息、背景噪声信息。

4.一种语音搜索装置，其特征在于，包括：

获取模块，用于接收用户输入的语音查询；对所述语音查询进行语音识别，得到所述语音查询对应的文本，并对相同文本设置不同的标注信息，得到候选语音识别结果，其中，所述标注信息用于标注所述候选语音识别结果适用的环境；

确定模块，用于确定所述用户当前所处的环境；

搜索模块，用于在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，并获取与选择的候选语音识别结果对应的搜索结果；

其中，所述搜索模块用于在所述候选语音识别结果中，选择与所述环境匹配的一个候选语音识别结果，包括：

5.根据权利要求4所述的装置，其特征在于，所述确定模块具体用于：

根据所述环境信息确定所述用户当前所处的环境。

6.根据权利要求5所述的装置，其特征在于，所述环境信息包括如下项中的至少一项：

地理位置信息、温度信息、光线信息、背景噪声信息。

7.一种设备，其特征在于，包括：一个或多个处理器；用于存储一个或多个程序的存储器；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1到4中任一所述的方法。