CN109815310B

CN109815310B - 一种语音处理方法、装置、存储介质及终端

Info

Publication number: CN109815310B
Application number: CN201811600383.0A
Authority: CN
Inventors: 韩雪; 张新; 廖海霖; 毛跃辉; 李保水; 郑文成
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-11-17
Anticipated expiration: 2038-12-26
Also published as: CN109815310A

Abstract

本发明实施例提供了一种语音处理方法、装置、存储介质及终端，其中，语音处理方法包括：确定用户输入的语音搜索请求数据对应有多个中间搜索结果；根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息。本发明的方案，可以克服现有技术中，对接收到的用户语音搜索数据需要经过多轮人机交互过程进行澄清，拖延对用户语音搜索请求执行的时间，降低用户体验的缺陷，达到简化人机交互过程的同时，保证语义理解的准确性，提高用户体验的有益效果。

Description

一种语音处理方法、装置、存储介质及终端

技术领域

本发明属于人工智能技术领域，尤其涉及一种语音处理方法、装置、存储介质及终端。

背景技术

随着科技的不断进步，各种智能产品越来越多地出现在人们的日常生活中。为了使人机交互更加便捷，很多智能产品增加了语音功能，如智能音箱、语音导航、手机上的语音助手等，使得人们可以通过自然语言进行人机交流，实现自己的意图。但词汇的歧义性是自然语言的固有特征，而且，现今由于社会文化的丰富，语言的含义也变得越来越广泛，同一句话可以翻译出好几种意思，增加了确定用户语音所涉及领域的难度。

现有语音处理技术中，往往需要通过多轮的人机交互过程来澄清用户语音搜索数据所涉及的领域，拖延了对用户语音搜索请求执行的时间，降低用户体验。

发明内容

针对上述缺陷，本发明实施例提供一种语音处理的方法、装置、存储介质及终端，以解决现有技术中，对接收到的用户语音搜索数据需要经过多轮人机交互过程进行澄清，拖延对用户语音搜索请求执行的时间，降低用户体验的问题，达到简化人机交互过程的同时，保证语义理解的准确性，提高用户体验的有益效果。

根据本发明实施例的第一方面，提供了一种语音处理方法，包括：确定用户输入的语音搜索请求数据对应有多个中间搜索结果；根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息。

根据本发明实施例的第二方面，提供了一种语音处理装置，包括确定模块，用于确定用户输入的语音搜索请求数据对应有多个中间搜索结果；判断模块，用于根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息。

与上述方法相匹配，本发明再一方面提供一种存储介质，包括：所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行以上所述的语音处理方法。

与上述方法相匹配，本发明再一方面提供一种终端，包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行以上所述的语音处理方法。

根据本发明实施例提供的语音处理方案，在人机交互过程中，针对用户输入的语音搜索请求数据，确定对应有多个中间搜索结果的情况下，通过利用结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；解决了当用户语音搜索请求数据存在多种语义解释而难以判断的问题，从而，克服了现有技术中需要进行多轮人机交互来澄清用户语音搜索请求数据涉及的领域的缺陷，实现了在简化人机交互过程的同时，保证了语义理解的准确性，提高了用户体验的有益效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为根据本发明实施例一的一种语音处理方法的步骤流程图；

图2为根据本发明实施例二的一种语音处理方法的步骤流程图；

图3为根据本发明实施例三的一种语音处理装置的结构框图；

图4为根据本发明实施例四的一种语音处理装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种语音处理方法的步骤流程图。

本实施例的语音处理方法包括以下步骤：

步骤S101：确定用户输入的语音搜索请求数据对应有多个中间搜索结果。

由于自然语言固有的歧义性，一个词汇或一句话可以有多种解释，相应的，用户输入的语音搜索请求数据可能对应有多个搜索结果。将其称为中间搜索结果，是因为这些搜索结果还有待进一步选择和确认。例如，用户输入“我要去拉萨”语音搜索请求，对应的中间搜索结果可能包括：“我要去拉萨”歌曲；拉萨旅游攻略；拉萨订票信息等等。

步骤S102：根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果。

其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息。

本步骤主要是通过诸如用户喜好信息、用户历史操作信息、搜索场景信息中的至少一个的辅助判断，确定S101中得出的多个中间搜索结果中最符合用户意图的中间搜索结果作为最后搜索结果。例如，如果用户喜好信息里有音乐爱好，则判断语音搜索请求“我要去拉萨”对应的多个中间搜索结果里与“音乐”匹配的选项为最后搜索结果，即:“我要去拉萨”歌曲；如果用户历史操作信息里有相同的语音搜索请求和最后搜索结果记录，则根据之前的记录判断该搜索请求对应的最后搜索结果；如果用户下达“我要去拉萨”的语音搜索请求的时间是在国庆等节假日，则根据此场景信息判断用户想去拉萨旅游，将有关拉萨旅游攻略确定为最后搜索结果。又如，用户发出搜索请求信息“吃饭”，经过步骤S101得出的中间搜索结果可能包括外出就餐、外卖订餐，食品采购等等，如果发出搜索请求的时间正好是午餐时段，发出搜索请求时的场景信息中的气候类型为下雨，则判断用户搜索请求对应的最后搜索请求结果为：外卖订餐。

可见，通过结果判断辅助信息，可以有效获取用户意图，以确定最终的搜索结果。

可选的，所述用户喜好信息包括至少一个喜好领域信息；和/或，所述用户历史操作信息包括以下至少之一：所述用户的历史操作的操作对象信息、所述用户对历史搜索结果的处理信息；和/或，所述搜索场景信息包括以下至少之一：时间信息、气候信息、地理位置信息。

用户的喜好信息以用户喜好领域信息标识，例如：音乐、旅游、美食、购物、摄影等等；一个用户可以有一个或多个喜好领域。用户历史操作信息可以包括用户的历史操作的操作对象，比如是设备或产品，如：音箱、手机、电视、空调等，也可以是设备或产品的具体功能，如手机订票、手机订餐、手机阅读；智能音箱的播放歌曲、播放天气预报等等；用户对历史搜索结果的处理信息，包括对应于用户曾经发出的语音搜索请求而最终确定的最后搜索结果信息。用户场景信息可以包括时间信息、气候信息和地理信息，其中时间信息包括日期和时刻；气候信息包括气候的类型，如：晴朗、下雨、雾霾等等；地理位置信息主要标识用户所在的地理范围，如：家、办公室、购物场所、外地等等。

可选的，每个所述喜好领域信息对应有相应的权重值；当所述结果判断辅助信息包括所述用户喜好信息时，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：确定多个所述中间搜索结果分别对应的领域信息；将所述领域信息与所述至少一个喜好领域信息进行匹配，根据匹配结果将匹配一致的喜好领域信息中权重值最高的喜好领域信息对应的所述中间搜索结果确定为所述最后搜索结果。

用户的喜好领域可能多于一个，例如，一个用户可以喜爱旅游，也喜爱音乐。在接收用户喜好信息时，可以引导用户对不同的喜好领域进行排序，对应排序靠前的喜好领域赋予高于较后喜好领域的权重值，在利用用户喜好信息进行辅助判断时，对于匹配用户喜好信息的多个中间搜索结果，可以参考不同喜好领域的权重值进行判断。例如，如果用户喜好领域包括旅游和音乐，而旅游的权重值大于音乐，对于用户的语音搜索请求“我要去拉萨”，匹配的中间搜索结果包括“我要去拉萨”歌曲及“拉萨旅游攻略”，由于旅游的权重值大于音乐，确定“拉萨旅游攻略”为最后搜索结果。

可选的，当所述结果判断辅助信息包括所述用户历史操作信息时，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：将多个所述中间搜索结果与所述用户历史操作信息指示的操作对象进行匹配；将匹配成功的所述中间搜索结果确定为所述最后搜索结果；

例如，用户输入“我要去拉萨”，如果用户之前也搜索过同样的信息，记录的操作对象为音箱，则判断语音搜索请求“我要去拉萨”为“我要去拉萨”这首歌曲。

或者，确定多个所述中间搜索结果分别对应的领域信息；获取所述用户历史操作信息指示的操作对象的领域分类，并确定包含所述操作对象的数量最多的最大领域分类；将与所述最大领域分类相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。如所述匹配结果多于一个，则依据所述操作对象的次数信息进行判断，确定与最多所述次数对应的所述匹配的搜索结果为所述语音搜索请求数据所请求的所述最后搜索结果。

举例来说，如果用户历史操作对象里包含：手机音乐、音箱、手机阅读、订票软件、购物软件等，将手机音乐、音箱对应到音乐领域；将手机购物对应到购物领域；手机阅读对应到阅读领域、订票软件对应出游领域等，当收到用户的语音搜索请求信息“我要去拉萨”，判断该语音搜索请求对应旅游和音乐领域，在与用户的历史操作记录匹配后，如果发现历史操作对象的数量最多的最大领域分类为音乐，则判断“我要去拉萨”的搜索请求对应的最后搜索结果为“我要去拉萨”这首歌。

如所述匹配结果多于一个，则依据所述操作对象的次数信息进行判断，确定与最多所述次数对应的所述匹配的搜索结果为所述语音搜索请求数据所请求的所述最后搜索结果。例如，收到用户的语音搜索请求信息“我要去拉萨”，判断该搜索请求可归入旅游和音乐领域，用户的历史操作记录里既有音乐领域的操作记录，也有旅游领域的操作记录，则判断操作对象的次数信息，用户使用音乐领域对应的操作对象的次数超过使用旅游领域对应的操作对象的次数，则判断“我要去拉萨”的搜索请求对应的领域为音乐，从而判断该搜索请求对应的最后搜索结果为“我要去拉萨”这首歌。

可选的，当所述结果判断辅助信息包括所述搜索场景信息时，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：确定多个所述中间搜索结果分别对应的领域信息；当所述搜索场景信息包括所述时间信息时，将所述时间信息指示的时间与预设的至少一个时间范围进行匹配；获取匹配的所述时间范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；或者，当所述搜索场景信息包括气候信息时，将所述气候信息指示的气候类型与预设的至少一个气候类型进行匹配；获取匹配的所述气候类型对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；或者，当所述搜索场景信息包括地理位置信息时，将所述地理位置信息指示的地理位置范围与预设的至少一个地理位置范围进行匹配；获取匹配的所述地理位置范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

包括在结果辅助判断信息里的场景信息中的时间信息，可以包括日期和时刻，例如，将传统假期涵盖的日期范围对应旅游领域，将正常三餐的时间段对应美食领域等。对用户输入搜索请求的时间信息进行辅助判断，例如，接收到用户搜索请求“我要去拉萨”，辅助判断该搜索请求发出的时间，如果正好是国庆节期间，则判断“我要去拉萨”的搜索请求匹配的领域为旅游，将中间搜索结果中对应旅游领域的搜索结果作为最后搜索结果。

包括在辅助判断信息里的场景信息中的气候信息，可以包括气候类型，如：晴朗、下雨、雾霾等等，将所述气候信息指示的气候类型与预设的至少一个气候类型进行匹配；获取匹配的所述气候类型对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。例如：天气为晴朗的类型所对应的领域可以是出游，而下雨和雾霾对应的领域可以是订餐等等。

可选的，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：将所述多个中间搜索结果输入用户喜好模型，其中，所述用户喜好模型根据所述结果判断辅助信息训练生成，每一项结果判断辅助信息对应有相应的领域类型及置信度；根据所述用户喜好模型输出的领域类型及对应的置信度，将置信度最高的领域类型对应的中间搜索结果确定为所述最后搜索结果。此种方式与前述多种辅助判断不同，可以利用训练完成的用户喜好模型来实现辅助判断。

用户喜好模型的结构、使用的算法及训练过程可以参考相关技术实现，在此不再赘述。例如，可以将每一次用户搜索请求数据及对应的最后搜索结果及对应的置信度、用户的喜好与最后搜索结果及对应的置信度、搜索场景与最后搜索结果及对应的置信度等多种参数中的部分或全部参数作为用户喜好模型的输入，通过反复训练，获得最终的用户喜好模型。此后，可以直接利用用户喜好模型进行辅助判断，获得所述最后搜索结果。

当根据以上描述的结果判断辅助信息判断得出的最后搜索结果呈现给用户后，不能满足用户需求时，还可以将步骤S101得出的多个中间搜索结果作为候选结果，并展示所述多个候选结果；根据所述用户对展示的所述多个候选结果的选择操作，确定所述最后搜索结果。

进一步的，在根据所述用户对展示的所述多个候选结果的选择操作，确定所述最后搜索结果之后，还可以记录所述选择操作的操作数据，使用所述操作数据更新所述结果判断辅助信息。该步骤对于完善结果判断辅助信息，训练用户喜好模型有重要作用。经过多次更新、完善，针对用户语音搜索请求的最后搜索结果会越来越接近用户发出的搜索请求的真实意图，越来越准确。

通过本实施例，在人机交互过程中，针对用户输入的语音搜索请求数据确定对应有多个中间搜索结果的情况下，通过利用结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；克服了现有技术中需要进行多轮人机交互来澄清用户语音搜索请求数据涉及的领域的缺陷，实现了在简化人机交互过程的同时，保证了语义理解的准确性，提高了用户体验的有益效果。

实施例二

参照图2，示出了根据本发明实施例二的一种语音处理方法的步骤流程图。本实施例的语音处理方法包括以下步骤：

步骤S201：根据所述用户的语音声纹信息，确定用户身份标识；获取与所述用户身份标识对应的所述结果判断辅助信息。

确定用户身份的方法可以有多种，本实施例给出的一种可选方案为通过用户的语音声纹信息进行识别。声纹识别通过用户声纹信息识别用户身份之后，就可以获取与该用户身份标识对应的结果判断辅助信息，如：用户喜好信息、历史操作信息，场景信息。如果识别出该用户是新用户，可以引导用户输入喜好领域信息作为该用户语音搜索请求的结果判断辅助信息。

步骤S202：确定用户输入的语音搜索请求数据对应有多个中间搜索结果。

本步骤的实现可参照前述实施例一中步骤S101的实现，在此不再赘述。

步骤S203：根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果。

本步骤的实现可参照前述实施例一中步骤S102的实现，在此不再赘述。

基于上述过程的一个使用示例如下：

在解析用户语音输入的搜索请求数据的过程中，将语音数据转化为语音文本，如果遇到语义有歧义的情况，首先将得到的语音文本输入到用户喜好模型中，如果用户喜好模型能够直接输出用户语音领域，则根据该领域确定用户意图，解析用户语音，得到所述最后搜索结果。如果用户喜好模型无法输出用户语音领域，则判断用户声纹，确定用户身份，根据用户身份匹配出用户喜好，根据用户喜好对语音涉及的领域进行确定。如果语音涉及的领域中包含有用户喜好，则率先选择用户喜好的领域，根据该领域确定用户意图，解析用户语音。例如：如果用户说“我要去拉萨”，设备无法确定用户该语音涉及的领域，首先把该语音文本输入到用户喜好模型中，如果用户喜好中恰好包含有旅行这一项，则判断用户是需要订购去拉萨的火车票。

如果以上方式都无法确定用户语音领域，则设备把语音涉及的领域反馈给用户，让用户自行选择，并记录用户选择结果。当下次用户下达同样的指令时，参考上一次的结果确定用户语音领域。

通过本实施例，在人机交互过程中，在收到用户输入的语音搜索请求后，通过用户声纹信息确定用户身份标识，并获取与用户身份标识对应的结果判断辅助信息；针对用户输入的语音搜索请求数据确定对应有多个中间搜索结果的情况下，通过利用结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；克服了现有技术中需要进行多轮人机交互来澄清用户语音搜索请求数据涉及的领域的缺陷，实现了在简化人机交互过程的同时，保证了语义理解的准确性，提高了用户体验的有益效果。

实施例三

参照图3，示出了根据本发明实施例三的一种语音处理装置的结构框图。

本实施例的语音处理装置包括：确定模块301，用于确定用户输入的语音搜索请求数据对应有多个中间搜索结果；判断模块302，用于根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息。

通过本实施例，该语音处理装置的确定模块301在收到用户输入的语音搜索请求数据后，确定对应有多个中间搜索结果的情况下，判断模块302通过利用包括用户喜好信息、用户历史操作信息及场景信息中的一种或多种结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果。该方案实现了在简化人机交互过程的同时，保证了语义理解的准确性，提高了用户体验的有益效果。

实施例四

参照图4，示出了根据本发明实施例四的一种语音处理装置的结构框图。

本实施例的语音处理装置包括：

获取模块403，用于从输入的用户搜索请求信息里提取语音声纹信息，确定用户身份标识；获取与所述用户身份标识对应的所述结果判断辅助信息。

确定模块401，用于确定用户输入的语音搜索请求数据对应有多个中间搜索结果；

判断模块402，用于根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息。

可选的，判断模块402还包括：

第一领域信息子模块4021，用于确定多个所述中间搜索结果分别对应的领域信息；

第一匹配子模块4022，用于将所述领域信息与所述至少一个喜好领域信息进行匹配，根据匹配结果将匹配一致的喜好领域信息中权重值最高的喜好领域信息对应的所述中间搜索结果确定为所述最后搜索结果。

可选的，判断模块402还包括：第二匹配子模块4023，用于将多个所述中间搜索结果与所述用户历史操作信息指示的操作对象进行匹配；将匹配成功的所述中间搜索结果确定为所述最后搜索结果；

可选的，判断模块402还包括：第三匹配子模块4024，用于确定多个所述中间搜索结果分别对应的领域信息；获取所述用户历史操作信息指示的操作对象的领域分类，并确定包含所述操作对象的数量最多的最大领域分类；将与所述最大领域分类相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

可选的，判断模块402还包括：第二领域信息确定子模块4025，用于确定多个所述中间搜索结果分别对应的领域信息；

可选的，判断模块402还包括：第四匹配子模块4026，用于当所述搜索场景信息包括所述时间信息时，将所述时间信息指示的时间与预设的至少一个时间范围进行匹配；获取匹配的所述时间范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；

可选的，判断模块402还包括：第五匹配子模块4027，用于当所述搜索场景信息包括气候信息时，将所述气候信息指示的气候类型与预设的至少一个气候类型进行匹配；获取匹配的所述气候类型对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；

可选的，判断模块402还包括：第六匹配子模块4028，用于当所述搜索场景信息包括地理位置信息时，将所述地理位置信息指示的地理位置范围与预设的至少一个地理位置范围进行匹配；获取匹配的所述地理位置范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

可选的，判断模块402还包括：第七匹配子模块4029，用于将所述多个中间搜索结果输入用户喜好模型，其中，所述用户喜好模型根据所述结果判断辅助信息训练生成，每一项结果判断辅助信息对应有相应的领域类型及置信度；根据所述用户喜好模型输入的领域类型及对应的置信度，将置信度最高的领域类型对应的中间搜索结果确定为所述最后搜索结果。

可选的，判断模块402还包括：第八匹配子模块40210，用于从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的多个候选结果，并展示所述多个候选结果；根据所述用户对展示的所述多个候选结果的选择操作，确定所述最后搜索结果。

可选的，判断模块402还包括：更新子模块40211，用于记录所述选择操作的操作数据，并使用所述操作数据更新所述结果判断辅助信息。

本实施例的语音处理装置用于实现前述多个方法实施例中相应的语音处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

根据本发明的实施例，还提供了对应于语音处理装置的一种终端。该终端可以包括：以上所述的语音处理装置。

由于本实施例的终端所实现的处理及功能基本相应于前述图3及图4所示的装置的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，在人机交互过程中，在收到用户输入的语音搜索请求后，针对用户输入的语音搜索请求数据确定对应有多个中间搜索结果的情况下，通过利用结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；克服了现有技术中需要进行多轮人机交互来澄清用户语音搜索请求数据涉及的领域的缺陷，实现了在简化人机交互过程的同时，保证了语义理解的准确性，提高了用户体验的有益效果。

根据本发明的实施例，还提供了对应于语音处理方法的一种存储介质。该存储介质，可以包括：所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行以上所述的语音处理方法。

由于本实施例的存储介质所实现的处理及功能基本相应于前述图1及图2所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

根据本发明的实施例，还提供了对应于语音处理方法的一种终端。该终端，可以包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行以上所述的语音处理方法。

由于本实施例的终端所实现的处理及功能基本相应于前述图1及图2所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

综上，本领域技术人员容易理解的是，在不冲突的前提下，上述各有利方式可以自由地组合、叠加。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音处理方法，其特征在于，包括以下步骤：

确定用户输入的语音搜索请求数据对应有多个中间搜索结果；

根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；

其中，所述结果判断辅助信息包括以下至少之一：所述用户的用户喜好信息、所述用户的用户历史操作信息、搜索场景信息；

所述用户历史操作信息包括以下至少之一：所述用户的历史操作的操作对象信息、所述用户对历史搜索结果的处理信息；

当所述结果判断辅助信息包括所述用户历史操作信息时，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：

将多个所述中间搜索结果与所述用户历史操作信息指示的操作对象进行匹配；将匹配成功的所述中间搜索结果确定为所述最后搜索结果；

或者，

确定多个所述中间搜索结果分别对应的领域信息；获取所述用户历史操作信息指示的操作对象的领域分类，并确定包含所述操作对象的数量最多的最大领域分类；将与所述最大领域分类相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

2.如权利要求1所述的方法，其特征在于，

所述用户喜好信息包括至少一个喜好领域信息；

和/或，

所述搜索场景信息包括以下至少之一：时间信息、气候信息、地理位置信息。

3.如权利要求2所述的方法，其特征在于，每个所述喜好领域信息对应有相应的权重值；

当所述结果判断辅助信息包括所述用户喜好信息时，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：

确定多个所述中间搜索结果分别对应的领域信息；

将所述领域信息与所述至少一个喜好领域信息进行匹配，根据匹配结果将匹配一致的喜好领域信息中权重值最高的喜好领域信息对应的所述中间搜索结果确定为所述最后搜索结果。

4.如权利要求2所述的方法，其特征在于，当所述结果判断辅助信息包括所述搜索场景信息时，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：

确定多个所述中间搜索结果分别对应的领域信息；

当所述搜索场景信息包括所述时间信息时，将所述时间信息指示的时间与预设的至少一个时间范围进行匹配；获取匹配的所述时间范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；

或者，

当所述搜索场景信息包括气候信息时，将所述气候信息指示的气候类型与预设的至少一个气候类型进行匹配；获取匹配的所述气候类型对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；

或者，

当所述搜索场景信息包括地理位置信息时，将所述地理位置信息指示的地理位置范围与预设的至少一个地理位置范围进行匹配；获取匹配的所述地理位置范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

5.如权利要求2所述的方法，其特征在于，所述根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：

将所述多个中间搜索结果输入用户喜好模型，其中，所述用户喜好模型根据所述结果判断辅助信息训练生成，每一项结果判断辅助信息对应有相应的领域类型及置信度；

根据所述用户喜好模型输出的领域类型及对应的置信度，将置信度最高的领域类型对应的中间搜索结果确定为所述最后搜索结果。

6.如权利要求1至5任一项所述的方法，其特征在于，在所述确定用户输入的语音搜索请求数据对应有多个中间搜索结果之前，所述方法还包括：

根据所述用户的语音声纹信息，确定用户身份标识；

获取与所述用户身份标识对应的所述结果判断辅助信息。

7.如权利要求1至5任一项所述的方法，其特征在于，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果，包括：

从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的多个候选结果，并展示所述多个候选结果；

根据所述用户对展示的所述多个候选结果的选择操作，确定所述最后搜索结果。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

记录所述选择操作的操作数据，并使用所述操作数据更新所述结果判断辅助信息。

9.一种语音处理装置，其特征在于，包括：

确定模块，用于确定用户输入的语音搜索请求数据对应有多个中间搜索结果；

判断模块，用于根据结果判断辅助信息，对所述多个中间搜索结果进行辅助判断，从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的最后搜索结果；

当所述结果判断辅助信息包括所述用户历史操作信息时，所述判断模块包括：

第二匹配子模块，用于将多个所述中间搜索结果与所述用户历史操作信息指示的操作对象进行匹配；将匹配成功的所述中间搜索结果确定为所述最后搜索结果；

或者，

第三匹配子模块，用于确定多个所述中间搜索结果分别对应的领域信息；获取所述用户历史操作信息指示的操作对象的领域分类，并确定包含所述操作对象的数量最多的最大领域分类；将与所述最大领域分类相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

10.如权利要求9所述的装置，其特征在于，

所述用户喜好信息包括至少一个喜好领域信息；

和/或，

11.如权利要求10所述的装置，其特征在于，每个所述喜好领域信息对应有相应的权重值；

当所述结果判断辅助信息包括所述用户喜好信息时，所述判断模块包括：

第一领域信息子模块，用于确定多个所述中间搜索结果分别对应的领域信息；

第一匹配子模块，用于将所述领域信息与所述至少一个喜好领域信息进行匹配，根据匹配结果将匹配一致的喜好领域信息中权重值最高的喜好领域信息对应的所述中间搜索结果确定为所述最后搜索结果。

12.如权利要求10所述的装置，其特征在于，当所述结果判断辅助信息包括所述搜索场景信息时，所述判断模块包括：

第二领域信息确定子模块，用于确定多个所述中间搜索结果分别对应的领域信息；

第四匹配子模块，用于当所述搜索场景信息包括所述时间信息时，将所述时间信息指示的时间与预设的至少一个时间范围进行匹配；获取匹配的所述时间范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；

或者，

第五匹配子模块，用于当所述搜索场景信息包括气候信息时，将所述气候信息指示的气候类型与预设的至少一个气候类型进行匹配；获取匹配的所述气候类型对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果；

或者，

第六匹配子模块，用于当所述搜索场景信息包括地理位置信息时，将所述地理位置信息指示的地理位置范围与预设的至少一个地理位置范围进行匹配；获取匹配的所述地理位置范围对应的领域类型；将与所述领域类型相匹配的领域信息对应的中间搜索结果确定为所述最后搜索结果。

13.如权利要求10所述的装置，其特征在于，所述判断模块包括：

第七匹配子模块，用于将所述多个中间搜索结果输入用户喜好模型，其中，所述用户喜好模型根据所述结果判断辅助信息训练生成，每一项结果判断辅助信息对应有相应的领域类型及置信度；根据所述用户喜好模型输入的领域类型及对应的置信度，将置信度最高的领域类型对应的中间搜索结果确定为所述最后搜索结果。

14.如权利要求9至13任一项所述的装置，其特征在于，所述装置还包括：

获取模块，用于在所述确定模块确定用户输入的语音搜索请求数据对应有多个中间搜索结果之前，根据所述用户语音声纹信息，确定用户身份标识；获取与所述用户身份标识对应的所述结果判断辅助信息。

15.如权利要求9至13任一项所述的装置，其特征在于，所述判断模块包括：

第八匹配子模块，用于从所述多个中间搜索结果中确定所述语音搜索请求数据所请求的多个候选结果，并展示所述多个候选结果；根据所述用户对展示的所述多个候选结果的选择操作，确定所述最后搜索结果。

16.如权利要求15所述的装置，其特征在于，所述判断模块还包括：

更新子模块，用于记录所述选择操作的操作数据，并使用所述操作数据更新所述结果判断辅助信息。

17.一种存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1至8任一项所述的语音处理方法。

18.一种终端，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1至8任一项所述的语音处理方法。