CN114464179A

CN114464179A - 语音交互方法、系统、装置、设备及存储介质

Info

Publication number: CN114464179A
Application number: CN202210108135.4A
Authority: CN
Inventors: 王军锋; 袁国勇; 王伟健
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-10
Anticipated expiration: 2042-01-28
Also published as: CN114464179B; WO2023143439A1

Abstract

本申请实施例提供一种语音交互方法、系统、装置、设备及存储介质。在该语音交互系统中，终端设备可获取用户的语音数据和面部特征数据，云端服务器可根据面部特征数据对备用语音引擎进行排序。云端服务器可在第一语言类型对应的语音识别引擎与语音数据不匹配时，从备用语音识别引擎中选择出目标语音识别引擎，并根据目标语音识别引擎对语音数据的第二语音识别结果，生成语音数据的答复信息。通过这种实施方式，当用户使用的语言类型不同时，终端设备可较为准确地对用户输入的语音数据进行语音识别，进而，可为用户提供与该语音信息较为匹配的答复。

Description

语音交互方法、系统、装置、设备及存储介质

技术领域

本申请实施例涉及智能机器人技术领域，尤其涉及一种语音交互方法、系统、装置、设备及存储介质。

背景技术

随着人工智能科技的不断发展，智能对话越来越普及。诸如在商场、超市、餐厅等场景下，可智能对话的智能设备(例如机器人)被广泛应用。在现有技术中，通常在已知用户语言类型的前提下，预先手动设置与用户语言类型对应的ASR(Automatic SpeechRecognition，自动语音识别)引擎，以对用户输入的语音信息进行识别，将语音信息转换为文字信息，识别该文字信息并根据识别结果进行答复。但是，在诸多未知用户语言类型的使用场景中，无法提前获知用户语言类型，从而无法在与用户进行交互之前对ASR引擎进行设置。进而，导致无法准确地对用户输入的语音信息进行语音识别，从而导致无法为用户提供与该语音信息较为匹配的答复。因此，亟待提出一种解决方案。

发明内容

本申请实施例提供一种语音交互方法、系统、装置、设备及存储介质，用以较为准确地对用户输入的语音数据进行语音识别，进而，可为用户提供与该语音信息较为匹配的答复。

本申请实施例提供一种语音交互方法，包括：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

进一步可选地，根据所述面部特征数据，对至少一种备用语音识别引擎进行排序，包括；根据所述面部特征数据，识别所述用户所属的目标语言类型群体；根据所述用户所属的目标语言类型群体以及语言类型群体和备用语音识别引擎的对应关系，对所述至少一种备用语音识别引擎进行排序；所述面部特征数据包括：皮肤特征数据、头发特征数据、眼睛特征数据、鼻梁特征数据、嘴唇特征数据中的至少一种。

进一步可选地，判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配之前，还包括：获取所述设备当前所处的地理位置；根据所述地理位置的语言分布特征，确定所述第一语言类型，并将所述第一语言类型对应的识别引擎，作为所述第一语音识别引擎。

进一步可选地，判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配，包括：通过预设的第一语言类型对应的第一语音识别引擎，对所述语音数据进行语音识别，得到第一语音识别结果；获取所述第一语音识别结果中的文本信息；计算所述文本信息的识别准确率；若所述识别准确率小于设定准确率阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

进一步可选地，所述方法还包括：若所述识别准确率大于或等于所述设定准确率阈值，则采用问答匹配模型对所述文本信息进行问答匹配，得到答复信息以及所述答复信息的置信度；若所述答复信息的置信度小于预设的置信度阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

进一步可选地，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎，包括：按照所述至少一种备用语音识别引擎的排序，依次对所述至少一种备用语音识别引擎进行选择，得到所述第二语音识别引擎；根据所述第二语音识别结果，判断所述语音数据与所述第二语音识别引擎是否匹配；若所述语音数据与所述第二语音识别引擎匹配，则将所述第二语音识别引擎，作为所述目标语音识别引擎。

本申请实施例还提供一种语音交互系统，包括：终端设备以及云端服务器；其中，所述终端设备主要用于：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；将所述语音数据和所述面部特征数据发送到所述云端服务器；所述云端服务器主要用于：接收所述语音数据和所述面部特征数据；根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

本申请实施例还提供一种语音交互装置，包括：获取模块，用于：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；排序模块，用于：根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；判断模块，用于：判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；选择模块，用于：若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；生成模块，用于：根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

本申请实施例还提供一种云端服务器，包括：存储器、处理器以及通信组件；其中，所述存储器用于：存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令，以用于：执行所述语音交互方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现所述语音交互方法中的步骤。

本申请实施例提供一种语音交互方法、系统、装置、设备及存储介质中，终端设备可获取用户的语音数据和面部特征数据，云端服务器可根据面部特征数据对备用语音引擎进行排序。云端服务器可在第一语言类型对应的语音识别引擎与语音数据不匹配时，从备用语音识别引擎中选择出目标语音识别引擎，并根据目标语音识别引擎对语音数据的第二语音识别结果，生成语音数据的答复信息。通过这种实施方式，当用户使用的语言类型不同时，终端设备可较为准确地对用户输入的语音数据进行语音识别，进而，可为用户提供与该语音信息较为匹配的答复。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一示例性实施例提供的语音交互系统的结构示意图；

图2为本申请一示例性实施例提供的实际场景下语音交互系统的结构示意图；

图3为本申请另一示例性实施例提供的实际场景下语音交互系统的结构示意图；

图4为本申请一示例性实施例提供的语音交互方法的流程示意图；

图5为本申请一示例性实施例提供的语音交互装置的结构示意图；

图6为本申请一示例性实施例提供的云端服务器的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，当用户使用的语言类型不同时，机器人无法准确地对用户输入的语音信息进行语音识别，从而导致无法为用户提供与该语音信息较为匹配的答复。针对此技术问题，在本申请一些实施例中，提供了一种解决方案。以下将结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的语音交互系统的结构示意图，如图1所示，语音交互系统100包含：云端服务器10以及终端设备20。

云端服务器10可实现为云主机、云端的虚拟中心、云端的弹性计算实例等，本实施例对此不做限制。其中，云端服务器10的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似，不再赘述。

终端设备20在不同场景下可实现为多种终端设备，比如，在酒店、宾馆、餐厅等场景下，可实现为提供服务的机器人；在智能驾驶辅助或者自动驾驶场景下，可实现为受控的车辆。在银行场景下，可实现为多功能金融终端；在医院场景下，可实现为挂号缴费终端；在电影院场景下，可实现为取票终端，等等。

在语音交互系统100中，云端服务器10与终端设备20之间，可建立无线通信连接，具体的通信连接方式可视不同应用场景而定。在一些实施例中，该无线通信连接，可基于专用虚拟网络(Virtual Private Network，VPN)实现，以确保通信安全。

在语音交互系统100中，终端设备20主要用于：获取用户针对终端设备20发出的语音数据以及用户的面部特征数据，并将语音数据发送到云端服务器10。其中，面部特征数据用于识别用户所属的语言类型群体，面部特征数据可包括：皮肤特征数据、头发特征数据、眼睛特征数据、鼻梁特征数据、嘴唇特征数据中的至少一种。比如，用户的面部特征数据可包括：眼睛呈淡绿色，较为深邃，且头发呈金黄色。

相应地，云端服务器10主要用于：接收该语音数据和面部特征数据，并根据面部特征数据，对至少一种备用语音识别引擎进行排序。其中，至少一种备用语音识别引擎，分别与至少一个语言类型对应。比如，至少一种备用语音识别引擎包括：阿拉伯语对应的语音识别引擎、德语对应的语音识别引擎以及法语对应的语音识别引擎。

云端服务器10进行排序后，可判断预设的第一语言类型对应的第一语音识别引擎与语音数据是否匹配，若不匹配，则按照至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与语音数据匹配的目标语音识别引擎。其中，采用“第一”对语音识别引擎进行限定，仅用于对语音识别引擎进行区分。其中，目标语音识别引擎指的是与语音数据匹配的语音识别引擎。

比如，用户使用的是法语，而预设的第一语言类型对应的第一语音识别引擎用于识别汉语。云端服务器10判定该语音识别引擎与语音数据不匹配后，可按照“法语对应的语音识别引擎、德语对应的语音识别引擎、阿拉伯语对应的语音识别引擎”的排列顺序，从这些备用语音识别引擎中选择出与语音数据匹配的目标语音识别引擎，即法语对应的语音识别引擎。

基于上述步骤，云端服务器10可根据目标语音识别引擎对语音数据的第二语音识别结果，生成语音数据的答复信息。其中，答复信息可实现为用来为用户提供答复的文本信息或者音频信息。比如，用户对终端设备20说“下午几点提供晚餐”，云端服务器10可生成“下午六点”的答复信息。进一步可选地，云端服务器10可将生成的答复信息以文本或者音频的形式发送至终端设备20，以使终端设备20通过音频组件或者显示组件向用户输出该答复信息。

在本实施例中，终端设备可获取用户的语音数据和面部特征数据，云端服务器可根据面部特征数据对备用语音引擎进行排序。云端服务器可在第一语言类型对应的语音识别引擎与语音数据不匹配时，从备用语音识别引擎中选择出目标语音识别引擎，并根据目标语音识别引擎对语音数据的第二语音识别结果，生成语音数据的答复信息。通过这种实施方式，当用户使用的语言类型不同时，终端设备可较为准确地对用户输入的语音数据进行语音识别，进而，可为用户提供与该语音信息较为匹配的答复。

可选地，前述实施例中记载的“根据面部特征数据，对至少一种备用语音识别引擎进行排序”，可基于以下步骤实现：

云端服务器10可通过对预先采集的用户面部图像进行特征提取来获得面部特征数据，进而，云端服务器10可根据面部特征数据，识别用户所属的目标语言类型群体。其中，目标语言类型群体指的是用户所属的语言类型群体。比如，用户的面部特征数据包括：用户的眼睛呈淡绿色，较为深邃，且头发呈金黄色，由于这种面部特征的人常常出现在法国或德国等欧洲国家，所以云端服务器10可根据该面部特征数据识别出用户所属的目标语言类型群体为法语群体或者德语群体。

以下将对语言类型群体的可选识别过程进行详细说明。

云端服务器10在识别语言类型群体时，可将面部特征数据输入到预设的语言类型群体SVM(Support Vector Machine，支持向量机)分类器。由于该语言类型群体SVM分类器预先经过不断地训练，可将人的面部图像按照语言类型群体划分为韩语群体、汉语群体、法语群体等等，得到多个语言类型群体的类别。所以云端服务器10将面部特征数据输入到该分类器后，分类器可将面部特征数据与多个语言类型群体类别进行匹配，得到与该面部特征数据较为匹配的多个语言类型群体以及对应的匹配度(即概率)，进而，分类器可输出该面部特征数据对应的语言类型群体。比如，云端服务器可将面部特征数据输入到预设的分类器中，得到目标语言类型群体为汉语群体的匹配度为80％、法语群体的匹配度为70％以及英语群体的匹配度为50％。

基于上述步骤，云端服务器10根据用户所属的目标语言类型群体以及语言类型群体和备用语音识别引擎的对应关系，对至少一种备用语音识别引擎进行排序。

比如，语言类型群体和备用语音识别引擎的对应关系可为：法语群体与法语对应的语音识别引擎对应，德语群体与德语对应的语音识别引擎对应。沿用前述例子进行举例，云端服务器10识别出目标语言类型群体为德语群体的匹配度为80％、法语群体的匹配度为70％以及英语群体的匹配度为50％后，可根据该标语言类型群体以及对应关系，将至少一种备用语音识别引擎，按照匹配度从高到低的顺序，排列成“德语对应的语音识别引擎、法语对应的语音识别引擎、英语对应的语音识别引擎”的顺序。

在一些可选的实施例中，云端服务器10在判断预设的第一语言类型对应的第一语音识别引擎与语音数据是否匹配之前，可获取终端设备20当前所处的地理位置，并根据该地理位置的语言分布特征，确定第一语言类型，并将第一语言类型对应的识别引擎，作为第一语音识别引擎。比如，终端设备20当前处在某小区内，由于该小区为韩国人聚居的小区，所以该小区的语言分布特征为使用韩语的人较多，使用汉语的人较少。云端服务器10可根据该语言分布特征，确定第一语言类型为韩语，并将韩语对应的识别引擎作为第一语音识别引擎。

可选地，云端服务器10判断预设的第一语言类型对应的第一语音识别引擎与语音数据是否匹配时，可通过预设的第一语言类型对应的第一语音识别引擎，对语音数据进行语音识别，得到第一语音识别结果。

进而，云端服务器10可获取第一语音识别结果中的文本信息，并计算该文本信息的识别准确率。其中，识别准确率的计算，可通过预设的语音识别模型进行计算，也可通过预设的算法进行计算。比如，可通过预设的模型或算法计算文本信息的句错率(SentenceError Rate，SER)、句正确率(Sentence Correct，S.Corr)或者字错率(Character ErrorRate，CER)等多个评估指标，并根据多个评估指标以及各自的权重，计算得到该文本信息的识别准确率。

若计算得到的识别准确率小于设定准确率阈值，则确定语音数据与第一语音识别引擎不匹配，其中，该阈值可设定为90％、85％或80％等等，本实施例不做限制。

若计算得到的识别准确率大于或等于设定准确率阈值，则可初步判定语音数据与第一语音识别引擎匹配。在此基础上，云端服务器10可进一步根据问答匹配环节生成的答复信息的置信度判断语音数据与第一语音识别引擎是否匹配。以下将进行详细说明。

若第一语音识别结果中的文本信息的识别准确率大于或等于设定准确率阈值，云端服务器10可基于NLP(Natural Language Processing，自然语言处理)技术，采用问答匹配模型对文本信息进行问答匹配。该问答匹配模型经过预先的模型训练后，可根据输入的文本信息，在模型内置的数据集中搜索与该文本信息对应的多个置信度不同的预选信息。进而，问答匹配模型可从多个预选信息中选择置信度最高的预选信息作为答复信息。比如，云端服务器10通过问答匹配模型对“离我最近的银行在哪个街道”的文本信息进行问答匹配，可得到置信度为80％的“在A街道”的预选信息以及置信度为85％的“在B街道”的预选信息，之后，可从这两个预选信息选出置信度为85％的“在B街道”的预选信息作为答复信息。

通过以上问答匹配的方式，云端服务器10可得到答复信息以及答复信息的置信度。若答复信息的置信度小于预设的置信度阈值，则确定语音数据与第一语音识别引擎不匹配。

若确定语音数据与第一语音识别引擎不匹配，则云端服务器10可从至少一种备用语音识别引擎中，选择出与语音数据匹配的目标语音识别引擎。

在一些可选的实施例中，云端服务器10从至少一种备用语音识别引擎中，选择出与语音数据匹配的目标语音识别引擎时，可从至少一种备用语音识别引擎中，选择任一语音识别引擎作为第二语音识别引擎。比如，至少一种备用语音识别引擎包含有汉语对应的语音识别引擎以及法语对应的语音识别引擎，云端服务器可从该至少一种备用语音识别引擎中选择法语对应的语音识别引擎，作为第二语音识别引擎。

云端服务器10选择第二语音识别引擎后，可通过该引擎对语音数据进行语音识别，得到第二语音识别结果。其中，第二语音识别结果指的是通过第二语音识别引擎进行语音识别得到的语音识别结果。其中，采用“第二”对语音识别结果进行限定，仅用于对多次语音识别得到的语音识别结果进行区分。

云端服务器10在语音识别后，可根据第二语音识别结果，判断语音数据与第二语音识别引擎是否匹配。以下将进行详细说明。

云端服务器10可获取第二语音识别结果中的文本信息，并计算该文本信息的识别准确率。其中，识别准确率的计算，可通过预设的语音识别模型进行计算，也可通过预设的算法进行计算。比如，可通过预设的模型或算法计算文本信息的句错率、句正确率或者字错率等多个评估指标，并根据多个评估指标以及各自的权重，计算得到该文本信息的识别准确率。若该识别准确率大于或等于设定准确率阈值，则确定语音数据与第二识别引擎匹配，云端服务器10可将该第二语音识别引擎，作为目标语音识别引擎。若该识别准确率小于设定准确率阈值，则确定语音数据与第二语音识别引擎不匹配，其中，该阈值可设定为90％、85％或80％等等，本实施例不做限制。

以下将结合图2、图3以及实际应用场景，对语音交互系统进行进一步说明。

如图2和图3所示，终端设备可采集用户的面部图像，并进行图像识别，得到用户的面部特征数据。之后，终端设备可根据该面部特征数据识别目标语言类型群体，根据目标语言类型群体对备用语音识别引擎进行设置。基于前述步骤，终端设备可通过麦克风采集用户的初始语音数据，并将该初始语音数据发送到语音端点检测模块。语音端点检测模块可截取出初始语音数据中的有效的语音数据。之后终端设备可通过主模块中的第一语言类型对应的第一语音识别引擎(即主引擎)对该语音数据进行语音识别，可得到与该语音数据对应的文本信息。之后，终端设备可通过第一语言类型对应的问答匹配模型对该文本信息进行问答匹配，得到与该文本信息对应的答复信息。若该答复信息的置信度大于或等于置信度阈值，则通过第一语言类型对应的文字转语音模块将该答复信息转换成语音，并进行语音输出。若该答复信息的置信度小于置信度阈值，则从至少一种备用语音识别引擎中，选择出与该语音数据匹配的目标语音识别引擎，以重新对该语音数据进行语音识别。

以目标语音识别引擎为韩语对应的备用语音识别引擎为例，终端设备通过韩语对应的备用语音识别引擎，对语音数据进行语音识别，得到对应的文本信息。之后，终端设备可通过主模块中的韩语对应的备用问答匹配模型，对该文本信息进行问答匹配，得到对应的答复信息。若该答复信息的置信度大于或等于置信度阈值，则通过韩语对应的文字转语音模块将该答复信息转换成语音，并进行语音输出。若该答复信息的置信度小于置信度阈值，则重新选择备用语音识别引擎，重新对语音数据进行识别。

本申请实施例还提供语音交互方法，以下将结合图4进行详细说明。

步骤401、获取用户针对设备发出的语音数据以及用户的面部特征数据。

步骤402、根据面部特征数据，对至少一种备用语音识别引擎进行排序；至少一种备用语音识别引擎，分别与至少一个语言类型对应。

步骤403、判断预设的第一语言类型对应的第一语音识别引擎与语音数据是否匹配。

步骤404、若为否，则按照至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与语音数据匹配的目标语音识别引擎。

步骤405、根据目标语音识别引擎对语音数据的第二语音识别结果，生成语音数据的答复信息。

进一步可选地，根据面部特征数据，对至少一种备用语音识别引擎进行排序，包括；根据面部特征数据，识别用户所属的目标语言类型群体；根据用户所属的目标语言类型群体以及语言类型群体和备用语音识别引擎的对应关系，对至少一种备用语音识别引擎进行排序；面部特征数据包括：皮肤特征数据、头发特征数据、眼睛特征数据、鼻梁特征数据、嘴唇特征数据中的至少一种。

进一步可选地，判断预设的第一语言类型对应的第一语音识别引擎与语音数据是否匹配之前，还包括：获取设备当前所处的地理位置；根据地理位置的语言分布特征，确定第一语言类型，并将第一语言类型对应的识别引擎，作为第一语音识别引擎。

进一步可选地，判断预设的第一语言类型对应的第一语音识别引擎与语音数据是否匹配，包括：通过预设的第一语言类型对应的第一语音识别引擎，对语音数据进行语音识别，得到第一语音识别结果；获取第一语音识别结果中的文本信息；计算文本信息的识别准确率；若识别准确率小于设定准确率阈值，则确定语音数据与第一语音识别引擎不匹配。

进一步可选地，方法还包括：若识别准确率大于或等于设定准确率阈值，则采用问答匹配模型对文本信息进行问答匹配，得到答复信息以及答复信息的置信度；若答复信息的置信度小于预设的置信度阈值，则确定语音数据与第一语音识别引擎不匹配。

进一步可选地，从至少一种备用语音识别引擎中，选择出与语音数据匹配的目标语音识别引擎，包括：按照至少一种备用语音识别引擎的排序，依次对至少一种备用语音识别引擎进行选择，得到第二语音识别引擎；根据第二语音识别结果，判断语音数据与第二语音识别引擎是否匹配；若语音数据与第二语音识别引擎匹配，则将第二语音识别引擎，作为目标语音识别引擎。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤401至步骤405的执行主体可以为设备A；又比如，步骤401到403的执行主体可以为设备A，步骤404和405的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如401、402等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例提供一种语音交互装置，如图5所示，该语音交互装置包括：获取模块501、排序模块502、判断模块503、选择模块504以及生成模块505。

其中，获取模块501，用于：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；排序模块502，用于：根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；判断模块503，用于：判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；选择模块504，用于：若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；生成模块505，用于：根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

进一步可选地，排序模块502在根据所述面部特征数据，对至少一种备用语音识别引擎进行排序时，具体用于；根据所述面部特征数据，识别所述用户所属的目标语言类型群体；根据所述用户所属的目标语言类型群体以及语言类型群体和备用语音识别引擎的对应关系，对所述至少一种备用语音识别引擎进行排序；所述面部特征数据包括：皮肤特征数据、头发特征数据、眼睛特征数据、鼻梁特征数据、嘴唇特征数据中的至少一种。

进一步可选地，排序模块502在判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配之前，还用于：获取所述设备当前所处的地理位置；根据所述地理位置的语言分布特征，确定所述第一语言类型，并将所述第一语言类型对应的识别引擎，作为所述第一语音识别引擎。

进一步可选地，判断模块503在判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配时，具体用于：通过预设的第一语言类型对应的第一语音识别引擎，对所述语音数据进行语音识别，得到第一语音识别结果；获取所述第一语音识别结果中的文本信息；计算所述文本信息的识别准确率；若所述识别准确率小于设定准确率阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

进一步可选地，判断模块503还用于：若所述识别准确率大于或等于所述设定准确率阈值，则采用问答匹配模型对所述文本信息进行问答匹配，得到答复信息以及所述答复信息的置信度；若所述答复信息的置信度小于预设的置信度阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

进一步可选地，选择模块504在从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎时，具体用于：按照所述至少一种备用语音识别引擎的排序，依次对所述至少一种备用语音识别引擎进行选择，得到所述第二语音识别引擎；根据所述第二语音识别结果，判断所述语音数据与所述第二语音识别引擎是否匹配；若所述语音数据与所述第二语音识别引擎匹配，则将所述第二语音识别引擎，作为所述目标语音识别引擎。

图6是本申请一示例性实施例提供的云端服务器的结构示意图，该服务器适用于前述实施例提供的语音交互系统，如图6所示，该服务器包括：存储器601、处理器602以及通信组件603。

存储器601，用于存储计算机程序，并可被配置为存储其它各种数据以支持在终端设备上的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器602，与存储器601耦合，用于执行存储器601中的计算机程序，以用于：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

进一步可选地，处理器602在根据所述面部特征数据，对至少一种备用语音识别引擎进行排序时，具体用于：根据所述面部特征数据，识别所述用户所属的目标语言类型群体；根据所述用户所属的目标语言类型群体以及语言类型群体和备用语音识别引擎的对应关系，对所述至少一种备用语音识别引擎进行排序；所述面部特征数据包括：皮肤特征数据、头发特征数据、眼睛特征数据、鼻梁特征数据、嘴唇特征数据中的至少一种。

进一步可选地，处理器602在判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配之前，还用于：获取所述设备当前所处的地理位置；根据所述地理位置的语言分布特征，确定所述第一语言类型，并将所述第一语言类型对应的识别引擎，作为所述第一语音识别引擎。

进一步可选地，处理器602在判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配时，具体用于：通过预设的第一语言类型对应的第一语音识别引擎，对所述语音数据进行语音识别，得到第一语音识别结果；获取所述第一语音识别结果中的文本信息；计算所述文本信息的识别准确率；若所述识别准确率小于设定准确率阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

进一步可选地，处理器602还用于：若所述识别准确率大于或等于所述设定准确率阈值，则采用问答匹配模型对所述文本信息进行问答匹配，得到答复信息以及所述答复信息的置信度；若所述答复信息的置信度小于预设的置信度阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

进一步可选地，处理器602在从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎时，具体用于：按照所述至少一种备用语音识别引擎的排序，依次对所述至少一种备用语音识别引擎进行选择，得到所述第二语音识别引擎；根据所述第二语音识别结果，判断所述语音数据与所述第二语音识别引擎是否匹配；若所述语音数据与所述第二语音识别引擎匹配，则将所述第二语音识别引擎，作为所述目标语音识别引擎。

进一步，如图6所示，该云端服务器还包括：电源组件604等其它组件。图6中仅示意性给出部分组件，并不意味着云端服务器只包括图6所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由云端服务器执行的各步骤。

上述图6中的存储器601可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述图6中的通信组件603被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

上述图6中的电源组件604，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于图像的语音交互方法，其特征在于，包括：

获取用户针对设备发出的语音数据以及所述用户的面部特征数据；

根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；

判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；

若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；

根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

2.根据权利要求1所述的方法，其特征在于，根据所述面部特征数据，对至少一种备用语音识别引擎进行排序，包括；

根据所述面部特征数据，识别所述用户所属的目标语言类型群体；

根据所述用户所属的目标语言类型群体以及语言类型群体和备用语音识别引擎的对应关系，对所述至少一种备用语音识别引擎进行排序；所述面部特征数据包括：皮肤特征数据、头发特征数据、眼睛特征数据、鼻梁特征数据、嘴唇特征数据中的至少一种。

3.根据权利要求1所述的方法，其特征在于，判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配之前，还包括：

获取所述设备当前所处的地理位置；

根据所述地理位置的语言分布特征，确定所述第一语言类型，并将所述第一语言类型对应的识别引擎，作为所述第一语音识别引擎。

4.根据权利要求1所述的方法，其特征在于，判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配，包括：

通过预设的第一语言类型对应的第一语音识别引擎，对所述语音数据进行语音识别，得到第一语音识别结果；

获取所述第一语音识别结果中的文本信息；

计算所述文本信息的识别准确率；

若所述识别准确率小于设定准确率阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

5.根据权利要求4所述的方法，其特征在于，还包括：

若所述识别准确率大于或等于所述设定准确率阈值，则采用问答匹配模型对所述文本信息进行问答匹配，得到答复信息以及所述答复信息的置信度；

若所述答复信息的置信度小于预设的置信度阈值，则确定所述语音数据与所述第一语音识别引擎不匹配。

6.根据权利要求1所述的方法，其特征在于，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎，包括：

按照所述至少一种备用语音识别引擎的排序，依次对所述至少一种备用语音识别引擎进行选择，得到所述第二语音识别引擎；

根据所述第二语音识别结果，判断所述语音数据与所述第二语音识别引擎是否匹配；

若所述语音数据与所述第二语音识别引擎匹配，则将所述第二语音识别引擎，作为所述目标语音识别引擎。

7.一种语音交互系统，其特征在于，包括：终端设备以及云端服务器；

其中，所述终端设备主要用于：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；将所述语音数据和所述面部特征数据发送到所述云端服务器；

所述云端服务器主要用于：接收所述语音数据和所述面部特征数据；根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

8.一种语音交互装置，其特征在于，包括：

获取模块，用于：获取用户针对设备发出的语音数据以及所述用户的面部特征数据；

排序模块，用于：根据所述面部特征数据，对至少一种备用语音识别引擎进行排序；所述至少一种备用语音识别引擎，分别与至少一个语言类型对应；

判断模块，用于：判断预设的第一语言类型对应的第一语音识别引擎与所述语音数据是否匹配；

选择模块，用于：若为否，则按照所述至少一种备用语音识别引擎的排序，从至少一种备用语音识别引擎中，选择出与所述语音数据匹配的目标语音识别引擎；

生成模块，用于：根据所述目标语音识别引擎对所述语音数据的第二语音识别结果，生成所述语音数据的答复信息。

9.一种云端服务器，其特征在于，包括：存储器、处理器以及通信组件；

其中，所述存储器用于：存储一条或多条计算机指令；

所述处理器用于执行所述一条或多条计算机指令，以用于：执行权利要求1-6任一项所述的方法中的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，当计算机程序被处理器执行时，致使处理器实现权利要求1-6任一项所述方法中的步骤。