CN115620722A

CN115620722A - 语音交互方法、服务器及计算机可读存储介质

Info

Publication number: CN115620722A
Application number: CN202211611525.XA
Authority: CN
Inventors: 胡璟; 李明洋
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-01-17
Anticipated expiration: 2042-12-15
Also published as: CN115620722B

Abstract

本申请公开了一种语音交互方法，包括：接收车辆转发的非中文的用户语音请求；对用户语音请求进行第一预测处理得到第一标签信息和第一标签信息对应的第一位置信息；对用户语音请求进行第二预测处理得到第二标签信息和第二标签信息对应的第二位置信息；合并第一标签信息、第一位置信息、第二标签信息和第二位置信息，得到用户语音请求的标签预测结果；根据标签预测结果对用户语音请求进行槽位处理得到槽位信息，以完成语音交互。本申请的语音交互方法可完整识别并理解用户发出的非中文语音请求中由多个单词组成的实体词，提高语音交互过程的准确性和效率，改善用户体验。

Description

语音交互方法、服务器及计算机可读存储介质

技术领域

本申请涉及车载语音技术领域，特别涉及一种语音交互方法、服务器及计算机可读存储介质。

背景技术

目前，车载语音技术可以支持用户通过语音在车辆座舱内进行交互，例如控制车辆零部件或与车载系统用户界面中的组件进行交互。在用户发出非中文语音请求的场景中，可能存在多个单词组成的实体词，或组成实体词的单词不连续时，在进行语义理解时可能产生实体词提取不完整的情况，例如，对于英文语音请求“open the window on theleft”，很难提取到“leftwindow”这一完整实体。如此，可能影响语音处理的准确性和语音交互的流畅性，导致用户使用体验不佳。

发明内容

本申请提供了一种语音交互方法、服务器及计算机可读存储介质。

本申请的语音交互方法，包括：

接收车辆转发的非中文的用户语音请求；

对所述用户语音请求进行第一预测处理得到第一标签信息和所述第一标签信息对应的第一位置信息；

对所述用户语音请求进行第二预测处理得到第二标签信息和所述第二标签信息对应的第二位置信息；

合并所述第一标签信息、所述第一位置信息、所述第二标签信息和所述第二位置信息，得到所述用户语音请求的标签预测结果；

根据所述标签预测结果对所述用户语音请求进行槽位处理得到槽位信息，以完成语音交互。

如此，本申请中，在用户发出非中文语音请求的场景下，可分别对语音请求进行非连续实体预测处理和多词组实体预测处理，并将得到的非连续实体标签信息、位置信息，以及多词组实体标签信息、位置信息进行合并，得到语音请求的标签预测结果，以及进行槽位处理得到槽位信息，最终完成语音交互。本申请的语音交互方法可完整识别用户发出的非中文语音请求中的非连续实体和多词组实体，能够完整提取槽位信息，理解其中所有的意图，可保证语音交互过程中槽位提取的准确性，提高语音交互过程的效率，改善用户体验。

所述对所述用户语音请求进行第一预测处理得到第一标签信息和所述第一标签信息对应的第一位置信息，包括：

将所述用户语音请求按预设序列长度分割为多个第一文本段，并记录所述第一文本段的位置；

分别对多个所述第一文本段进行标签预测得到多个第一分段标签信息；

根据所述第一文本段的位置和所述第一分段标签信息确定所述第一标签信息和所述第一位置信息。

如此，可将用户语音请求的分割结果进行标签预测，得到每个分割后文本段位置和各分段的标签信息，以便后续确定用于合并预测标签的标签信息和位置信息。

所述根据所述第一文本段的位置和所述第一分段标签信息确定所述第一标签信息和所述第一位置信息，包括：

确定标签优先级；

将多个所述第一分段标签信息中位置信息相同且所述标签优先级最高的标签，确定为所述用户语音请求对应位置的标签，以得到所述第一标签信息和所述第一位置信息。

如此，可根据优先级列表，确定包含非连续实体的语音请求的多个分段标签信息中位置信息相同的标签，以确定用于合并预测标签的标签信息和位置信息。

所述对所述用户语音请求进行第二预测处理得到第二标签信息和所述第二标签信息对应的第二位置信息，包括：

对所述用户语音请求进行标签预测得到初步预测结果；

确定所述初步预测结果中第一预设标签的位置；

根据所述第一预设标签的位置提取多个第二文本段，并记录所述第二文本段的位置；

分别对多个所述第二文本段进行标签预测得到多个第二分段标签信息；

根据所述初步预测结果、所述第二文本段的位置和所述第二分段标签信息确定所述第二标签信息和所述第二位置信息。

如此，可将用户语音请求中的多词组实体识别完整，以便后续确定用于合并预测标签的标签信息和位置信息。

所述根据所述初步预测结果、所述第二文本段的位置和所述第二分段标签信息确定所述第二标签信息和所述第二位置信息，包括：

确定标签优先级；

将所述初步预测结果和多个所述第二分段标签信息中位置信息相同且所述标签优先级最高的标签，确定为所述用户语音请求对应位置的标签，以得到所述第二标签信息和所述第二位置信息。

如此，可根据优先级列表，确定包含多词组实体的语音请求的多个分段标签信息中位置信息相同的标签，以确定用于合并预测标签的标签信息和位置信息。

所述合并所述第一标签信息、所述第一位置信息、所述第二标签信息和所述第二位置信息，得到所述用户语音请求的标签预测结果，包括：

若第一标签信息和所述第二标签信息中相同位置的标签不同，且所述第二标签信息中对应位置的标签为第二预设标签，则确定所述第二预设标签为所述用户语音请求中对应位置的标签，得到所述标签预测结果。

如此，可在当非连续实体和多词组实体的标签信息序列中相同位置的标签不同时，将多词组实体的标签信息序列中实体标签作为对应位置的标签，得到标签预测结果，以确定用于合并预测标签的标签信息和位置信息。

若第一标签信息和所述第二标签信息中相同位置的标签不同，且所述第二标签信息中对应位置的标签不为第二预设标签，则确定所述第一标签信息中对应位置的标签为所述用户语音请求中对应位置的标签，得到所述标签预测结果。

如此，可在当非连续实体和多词组实体的标签信息序列中相同位置的标签不同，且该多词组实体标签并非实体标签时，将非连续实体的标签信息序列中相应标签作为对应位置的标签，得到标签预测结果，以确定用于合并预测标签的标签信息和位置信息。

若第一标签信息和所述第二标签信息中相同位置的标签相同，则确定相同的标签为所述用户语音请求中对应位置的标签，得到所述标签预测结果。

如此，可在当非连续实体和多词组实体的标签信息序列中相同位置的标签相同时，将相同的标签作为对应位置的标签，得到标签预测结果，以确定用于合并预测标签的标签信息和位置信息。

所述对所述标签预测结果进行槽位处理得到槽位信息，以完成语音交互，包括：

若根据所述标签预测结果中第三预设标签对所述用户语音请求进行槽位提取得到多个实体槽位，则对多个实体槽位进行组合得到多个组合槽位；

分别计算多个所述组合槽位与预设实体的相似度；

若所述相似度大于预设阈值，则根据所述相似度最高的所述组合槽位确定所述槽位信息，以完成语音交互。

如此，可将标签预测结果中提取到的实体槽位组合成多个组合槽位，并计算其与对应的标准化实体的相似度，根据相似度大于一定数值的组合槽位确定槽位信息，以完成语音交互，使多词组实体得到更完整的标记。

所述分别计算多个所述组合槽位与预设实体的相似度，包括：

按所述预设实体的序列长度递减的顺序，依次分别计算多个所述组合槽位与所述预设实体的相似度。

如此，可按序列长度从长到短选取标准化实体词作为预设实体，依次分别计算多个组合槽位与预设实体的相似度，使多词组实体得到更完整的标记。

所述按所述预设实体的序列长度递减的顺序，依次分别计算多个所述组合槽位与所述预设实体的相似度，包括：

若多个所述组合槽位与当前预设实体的相似度均小于所述预设阈值，则分别计算多个所述组合槽位与下一预设实体的相似度。

如此，若多个组合槽位与当前预设实体的相似度均小于预设阈值，则可选取下一标准化实体作为预设实体，分别计算多个组合槽位与最新选取的预设实体之间的相似度，使多词组实体得到更完整的标记。

所述语音交互方法包括：

接收车辆转发的所述非中文的用户语音请求之后，对所述用户语音请求进行预处理，以得到所述语音请求的主干信息。

如此，可对接收到的非中文的用户语音请求进行预处理，得到语音请求的主干信息，便于进行语句中实体的识别。

所述对所述用户语音请求进行预处理，包括：

将所述用户语音请求中的第一类预设符号进行删除处理；

将所述用户语音请求中的第二类预设符号进行归一化处理；和/或

将所述用户语音请求中的预定句子成分进行删除处理。

如此，可将用户语音请求中的符号和部分前后缀进行整理或删除，得到语音请求的主干信息，便于进行语句中实体的识别。

本申请的服务器，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的方法。

本申请的计算机可读存储介质，存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述的方法。

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请语音交互方法的流程示意图之一；

图2是本申请语音交互方法的流程示意图之二；

图3是本申请语音交互方法的流程示意图之三；

图4是本申请语音交互方法的流程示意图之四；

图5是本申请语音交互方法的流程示意图之五；

图6是本申请语音交互方法的流程示意图之六；

图7是本申请语音交互方法的流程示意图之七；

图8是本申请语音交互方法的流程示意图之八；

图9是本申请语音交互方法的流程示意图之九。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

随着车辆电子技术的发展与普及，车辆可与用户进行语音交互，即可识别用户的语音请求并最终完成用户语音请求中的意图。人车语音交互功能满足了驾驶员和乘客行驶过程中的多样体验。相关技术中，对于非中文的语音请求往往无法将用户语音请求中包含的多个单词组成的实体词槽位进行完整提取，例如，在一个示例中，用户发出语音请求"front passenger seat"中，仅能提取"passenger seat"。在其他示例中，当实体词不连续时，例如用户语音请求"open the window on the left"，无法完整提取到"leftwindow"这一实体槽位。上述不完整的实体提取很容易造成语义理解的偏差，导致向车辆下发错误的指令，用户体验不佳。

请参阅图1，本申请提供一种语音交互方法，包括：

01：接收车辆转发的非中文的用户语音请求；

02：对用户语音请求进行第一预测处理得到第一标签信息和第一标签信息对应的第一位置信息；

03：对用户语音请求进行第二预测处理得到第二标签信息和第二标签信息对应的第二位置信息；

04：合并第一标签信息、第一位置信息、第二标签信息和第二位置信息，得到用户语音请求的标签预测结果；

05：根据标签预测结果对用户语音请求进行槽位处理得到槽位信息，以完成语音交互。

本申请还提供了一种服务器，服务器包括存储器和处理器。本申请的语音交互方法可以由本申请的服务器实现。具体地，存储器中存储有计算机程序，处理器用于接收车辆转发的非中文的用户语音请求，并对用户语音请求进行第一预测处理得到第一标签信息和第一标签信息对应的第一位置信息，对用户语音请求进行第二预测处理得到第二标签信息和第二标签信息对应的第二位置信息，以及合并第一标签信息、第一位置信息、第二标签信息和第二位置信息，得到用户语音请求的标签预测结果；根据标签预测结果对用户语音请求进行槽位处理得到槽位信息，以完成语音交互。

相关技术中，设置模板直接对用户语音请求进行强匹配，匹配要求较高，逻辑复杂且高度耦合。当车载系统新增使用方式或优化功能时，为了保证强匹配模板的继续工作，需对强匹配模板进行大量的人工校对，用户体验不佳。

本申请是在用户发出的非中文语音请求时，对其中的非连续实体和多词组实体进行标签预测，并得到完整槽位信息的过程。其中，本申请中对非中文语音请求以英文语音请求为例，也可以是法语，德语等，在此不作限定。第一预测处理例如可以是对语音请求进行非连续实体的预测处理，得到语音请求中每个单词对应的表示单词类型的第一标签信息，以及表示第一标签信息对应单词在语句中位置的第一位置信息。第二预测处理例如可以是对同一语音请求进行多词组实体的预测处理，得到语音请求中每个单词对应的表示单词类型的第二标签信息，以及表示第二标签信息对应单词在语句中位置的第二位置信息。

标签预测过程可使用预训练模型及根据车辆控制领域调整后的BERT模型，可保证最大化识别实体词。得到标签的过程可使用BIESO标注体系，BIESO标注体系中包括起始标签（Begin Tag），中间标签（Intermediate Tag），结束标签（End Tag），单标签（SingleTag），以及非实体标签（Other Tag）。除非实体标签外，可将单词标注为"action"动作词，"entity"实体，"deny"否定词，"parameter"参数四类，全部的标签如下表1所示：

表1

第一预测处理和第二预测处理，均采用上述的标签标注体系，对于同一语音请求采用不同预测处理方式，语音请求中同一单词的标签预测结果可能不同。

服务器在接收到用户的非中文语音请求后，可分别对语音请求进行非连续实体预测处理和多词组实体预测处理，如图2所示，得到语句中非连续实体标签信息及其对应的位置信息，以及语句中多词组实体标签信息及其对应的位置信息。进一步地，可将非连续实体标签信息、位置信息，以及多词组实体标签信息、位置信息进行合并，得到针对用户语音请求更完整的标签预测结果，并根据上述标签预测结果对语音请求进行槽位处理，可得到完整的实体槽位信息，完成语音交互。如在上述示例中，对于语音请求"open the window onthe left"，采用第一预测处理，也即是非连续实体预测处理，可得到的标签预测结果为"window"，而采用第二预测处理，也即是多词组实体预测处理，可得到的标签预测结果为"left"和"window"，两种预测结果合并后经槽位提取可得到完整的槽位值"left window"，从而使提取到的实体槽位信息更准确。

综上，本申请中，在用户发出非中文语音请求的场景下，可分别对语音请求进行非连续实体预测处理和多词组实体预测处理，并将得到的非连续实体标签信息、位置信息，以及多词组实体标签信息、位置信息进行合并，得到语音请求的标签预测结果，以及进行槽位处理得到槽位信息，最终完成语音交互。本申请的语音交互方法可完整识别用户发出的非中文语音请求中的非连续实体和多词组实体，能够完整提取槽位信息，理解其中所有的意图，可保证语音交互过程中槽位提取的准确性，提高语音交互过程的效率，改善用户体验。

请参阅图3，步骤02包括：

021：将用户语音请求按预设序列长度分割为多个第一文本段，并记录第一文本段的位置；

022：分别对多个第一文本段进行标签预测得到多个第一分段标签信息；

023：根据第一文本段的位置和第一分段标签信息确定第一标签信息和第一位置信息。

处理器用于将用户语音请求按预设序列长度分割为多个第一文本段，并记录第一文本段的位置，以及分别对多个第一文本段进行标签预测得到多个第一分段标签信息，并根据第一文本段的位置和第一分段标签信息确定第一标签信息和第一位置信息。

具体地，对于包含非连续实体的用户语音请求，可将其按预设序列长度分割为多个第一文本段，并记录第一文本段在该文本中的位置。其中，预设序列长度取3、4或5为佳，也可根据实际语句文本的特征调整预设序列长度。以用户语音请求“Turn bright of theleft screen”为例，可将预设序列长度设为4，将句子按预设序列长度4分成多组并记录位置，如表2所示：

表2

记录多个第一文本段的位置后，可分别对各第一文本段进行标签预测，得到多个第一分段标签信息。对上述表2中的文本段，经过标签预测可得到多个第一文本段对应的多个第一分段标签信息，如表3所示。以便后续可根据第一文本段和对应的第一分段标签信息确定第一标签信息和第一位置信息。

表3

如此，可将用户语音请求的分割结果进行标签预测，得到每个分割后文本段的位置和各分段的标签信息，以便后续确定用于合并预测标签的标签信息和位置信息。

请参阅图4，步骤023包括：

0231：确定标签优先级；

0232：将多个第一分段标签信息中位置信息相同且标签优先级最高的标签，确定为用户语音请求对应位置的标签，以得到第一标签信息和第一位置信息。

处理器用于确定标签优先级，并将多个第一分段标签信息中位置信息相同且标签优先级最高的标签，确定为用户语音请求对应位置的标签，以得到第一标签信息和第一位置信息。

具体地，为了能够将用户语音请求中的非连续实体提取完整，对于包含非连续实体的用户语音请求，可通过设立优先级列表，如优先级列表[entity, action, deny,parameter, other]，确定标签优先级。在表3中的不同文本段的位置和分段标签之间，若存在位置相同但标签不同的单词，则将优先级最高的标签确定为用户语音请求对应位置的标签，便于后续确定用于合并预测标签的标签信息和位置信息。

在一个示例中，如某个单词在一个文本段中第一分段标签信息为"S-PARAMETER"，在另一文本段中第一分段标签信息为"S-ENTITY"，则根据上述优先级列表规则，确定对应位置的标签为"S-ENTITY"。

请参阅图5，步骤03包括：

031：对用户语音请求进行标签预测得到初步预测结果；

032：确定初步预测结果中第一预设标签的位置；

033：根据第一预设标签的位置提取多个第二文本段，并记录第二文本段的位置；

034：分别对多个第二文本段进行标签预测得到多个第二分段标签信息；

035：根据初步预测结果、第二文本段的位置和第二分段标签信息确定第二标签信息和第二位置信息。

处理器用于对用户语音请求进行标签预测得到初步预测结果，确定初步预测结果中第一预设标签的位置，以及根据第一预设标签的位置提取多个第二文本段，并记录第二文本段的位置，以及分别对多个第二文本段进行标签预测得到多个第二分段标签信息；根据初步预测结果、第二文本段的位置和第二分段标签信息确定第二标签信息和第二位置信息。

具体地，对于包含多词组实体的用户语音请求，可进行标签预测得到初步预测结果，例如在包含多词组实体的用户语音请求"set driver seat hotter"中，可得到初步预测结果"S-ACTION S-PARAMETER S-ENTITY S-PARAMETER"。其中第一预设标签为实体标签，在"set driver seat hotter"语句中，可标记出"seat"为实体词，第一预设标签为与"seat"单词对应的"S-ENTITY"标签。设第一预设标签位置为[m,n]，在本例中第一预设标签"S-ENTITY"的位置为[2,3]。

进一步地，可根据第一预设标签的位置上提取多个第二文本段，具体操作包括定义单词搜索跨度，设为k，则关键第二文本段的位置可表示为[m – k, m], [m – k, n],[m,n + k], [n, n + k]。其中，对于指令型语音请求，k的值可取1或2为最佳，可根据实际语句类型或长短等情况调整k值的选取。在上述示例中，当设k值为1时，可得到多个第二文本段以及它们的位置信息如表4所示：

表4

可分别对表4中的多个第二文本段进行标签预测，得到多个第二分段标签信息，如表5所示：

表5

最终，对于包含多词组实体的用户语音请求，可在实体识别及预测阶段得到的初步预测结果、第二文本段的位置和第二分段标签信息，以便后续确定用于合并预测标签的第二标签信息和第二位置信息。

请参阅图6，步骤035包括：

0351：确定标签优先级；

0352：将初步预测结果和多个第二分段标签信息中位置信息相同且标签优先级最高的标签，确定为用户语音请求对应位置的标签，以得到第二标签信息和第二位置信息。

处理器用于确定标签优先级，并将初步预测结果和多个第二分段标签信息中位置信息相同且标签优先级最高的标签，确定为用户语音请求对应位置的标签，以得到第二标签信息和第二位置信息。

具体地，为了能够将用户语音请求中的多词组实体提取完整，对于包含非连续实体的用户语音请求，可通过设立优先级列表，如优先级列表[entity, action, deny,parameter, other]，确定标签优先级。在表4中的不同文本段的位置和分段标签之间，若存在位置相同但标签不同的单词，则将优先级最高的标签确定为用户语音请求对应位置的标签，便于后续确定用于合并预测标签的标签信息和位置信息。

在一个示例中，如表5所示，单词"driver"在一个文本段中第二分段标签信息为"O"，在另一文本段中第二分段标签为"S-ENTITY"，则根据上述优先级列表规则，确定对应位置的标签为"S-ENTITY"，则多词组实体"driver seat"可被完整识别。

步骤04包括：

若第一标签信息和第二标签信息中相同位置的标签不同，且第二标签信息中对应位置的标签为第二预设标签，则确定第二预设标签为用户语音请求中对应位置的标签，得到标签预测结果。

处理器用于若第一标签信息和第二标签信息中相同位置的标签不同，且第二标签信息中对应位置的标签为第二预设标签，则确定第二预设标签为用户语音请求中对应位置的标签，得到标签预测结果。

具体地，针对用户语音请求中非连续实体和多词组实体的两个实体识别方案，可分别定义条件标签序列存放预测槽位结果，设非连续实体槽位标签序列为P序列，多词组实体槽位标签序列为Q序列，则可将根据优先级顺序得到的第一分段标签信息填入P序列，第二分段标签信息将填入Q序列，如下表6所示：

表6

当P序列中的第一标签信息和Q序列中的第二标签信息之中对应相同位置的标签不同，且第二标签信息为第二预设标签"S-ENTITY"，即实体标签。则可确定第二预设标签的实体标签为用户语音请求中对应位置的标签，最终得到预测结果。如表6所示，Q序列中第三个"S-ENTITY"标签应被保留。最终得到标签预测结果为"O, S-ACTION, S-ENTITY, S-ENTITY, S-PARAMETER, O"。

步骤04包括：

若第一标签信息和第二标签信息中相同位置的标签不同，且第二标签信息中对应位置的标签不为第二预设标签，则确定第一标签信息中对应位置的标签为用户语音请求中对应位置的标签，得到标签预测结果。

处理器用于若第一标签信息和第二标签信息中相同位置的标签不同，且第二标签信息中对应位置的标签不为第二预设标签，则确定第一标签信息中对应位置的标签为用户语音请求中对应位置的标签，得到标签预测结果。

具体地，当P序列中的第一标签信息和Q序列中的第二标签信息之中对应相同位置的标签不同，而第二标签信息不是第二预设标签，即实体标签"S-ENTITY"时，可确定第一标签信息为用户语音请求中对应位置的标签，最终得到预测结果。

在一个示例中，针对语音请求"Turn bright of the left screen please"，得到P序列和Q序列如表7所示：

表7

则对于P序列第二个标签"S-ENTITY"和Q序列第二个标签"S-PARAMETER"，由于Q序列中该位置第二标签信息不是实体标签"S-ENTITY"，则可将P序列中的第一标签信息"S-PARAMETER"确定为用户语音请求中对应位置的标签，最终得到标签预测结果为"S-ACTION,S-ENTITY, O, O, S-PARAMETER, S-ENTITY, O"。

步骤04还包括：

若第一标签信息和第二标签信息中相同位置的标签相同，则确定相同的标签为用户语音请求中对应位置的标签，得到标签预测结果。

处理器用于若第一标签信息和第二标签信息中相同位置的标签相同，则确定相同的标签为用户语音请求中对应位置的标签，得到标签预测结果。

具体地，当P序列中的第一标签信息和Q序列中的第二标签信息之中对应相同位置的标签相同时，可确定该相同的标签为用户语音请求中对应位置的标签，最终得到预测结果。

在一个示例中，针对语音请求"Turn bright of the left screen please"，得到上表7中的P序列和Q序列。则对于P序列第一个标签"S-ACTION"和Q序列第一个标签"S-ACTION"相同，可确定该相同的标签"S-ACTION"确定为用户语音请求中对应位置的标签，最终得到标签预测结果为"S-ACTION, S-ENTITY, O, O, S-PARAMETER, S-ENTITY, O"。

请参阅图7，步骤05包括：

051：若根据标签预测结果中第三预设标签对用户语音请求进行槽位提取得到多个实体槽位，则对多个实体槽位进行组合得到多个组合槽位；

052：分别计算多个组合槽位与预设实体的相似度；

053：若相似度大于预设阈值，则根据相似度最高的组合槽位确定槽位信息，以完成语音交互。

处理器用于若根据标签预测结果中第三预设标签对用户语音请求进行槽位提取得到多个实体槽位，则对多个实体槽位进行组合得到多个组合槽位，并分别计算多个组合槽位与预设实体的相似度，若相似度大于预设阈值，则根据相似度最高的组合槽位确定槽位信息，以完成语音交互。

具体地，可将得到的标签预测结果中的实体标签设为第三预设标签，并根据多个第三预设标签提取用户语音请求的多个实体槽位组成多个组合槽位。在一个示例中，用户语音请求"Turn bright of the left screen please"经过处理得到的标签预测结果可以得到两个对应的实体槽位词"bright"和"screen"。可将两个槽位词组合得到四个组合槽位"screen"，"bright"，"bright screen"，"screen bright"。

进一步地，可设置实体槽位词对应的标准化实体词为预设实体词。在上述示例中，预设实体词为"screen brightness"，并分别计算上述四个组合槽位"screen"，"bright"，"bright screen"，"screen bright"与预设实体之间的相似度，最后在得到的大于阈值的组合槽位中选取与预设实体相似度最高的作为槽位信息，完成语音交互。其中，相似度可使用Jaccard系数来表示，取值范围为[0, 1]，阈值的取值可根据所需准确度和实体识别需求进行调整，具体数值不作限定。

步骤052还包括：

按预设实体的序列长度递减的顺序，依次分别计算多个组合槽位与预设实体的相似度。

处理器用于按预设实体的序列长度递减的顺序，依次分别计算多个组合槽位与预设实体的相似度。

具体地，若用户语音请求得到的标签预测结果的实体槽位词对应的标准化实体词大于一个时，可优先选取序列长度较长的标准化实体词作为预设实体，再考虑其他序列长度更短的标准化实体词作为预设实体，并计算多个组合槽位与预设实体之间的相似度。

在一个示例中，用户语音请求"Turn bright of the left screen please"中的标准化实体词有"screen brightness"、"screen"和"brightness"，则优先选取序列长度较长的"screen brightness"作为预设实体，而长度较短的"screen"或"brightness"在"screen brightness"无法满足作为预设实体条件的情况下，才能被采用做预设实体。

步骤0521包括：

若多个组合槽位与当前预设实体的相似度均小于预设阈值，则分别计算多个组合槽位与下一预设实体的相似度。

处理器用于若多个组合槽位与当前预设实体的相似度均小于预设阈值，则分别计算多个组合槽位与下一预设实体的相似度。

具体地，若用户语音请求得到的标签预测结果的实体槽位词对应的标准化实体词大于一个时，可优先选取序列长度较长的标准化实体词作为预设实体。当较长的标准化实体词匹配结果低于阈值时，再考虑其他序列长度更短的标准化实体词作为预设实体，计算相似度。

在一个示例中，用户语音请求"Turn bright of the left screen please"中的标准化实体词有"screen brightness"、"screen"和"brightness"，则优先选取序列长度较长的"screen brightness"作为预设实体，当较长的标准化实体词匹配结果低于阈值时，再考虑长度较短的"screen"或"brightness"作为预设实体，并计算多个组合槽位与预设实体之间的相似度。

请参阅图8，语音交互方法包括：

06：接收车辆转发的非中文的用户语音请求之后，对用户语音请求进行预处理，以得到语音请求的主干信息。

处理器用于接收车辆转发的非中文的用户语音请求之后，对用户语音请求进行预处理，以得到语音请求的主干信息。

具体地，可在接收到车辆转发的非中文的用户语音请求后，删除用户语音请求中的符号或无实际含义的前后缀，以及可对如表示单位的符号进行归一化，如图2中预处理步骤，最终得到语音请求的主干信息。

请参阅图9，对用户语音请求进行预处理，包括：

061：将用户语音请求中的第一类预设符号进行删除处理；

062：将用户语音请求中的第二类预设符号进行归一化处理；和/或

063：将用户语音请求中的预定句子成分进行删除处理。

处理器用于将用户语音请求中的第一类预设符号进行删除处理，以及将用户语音请求中的第二类预设符号进行归一化处理和/或将用户语音请求中的预定句子成分进行删除处理。

具体地，对语音请求进行预处理可包括，将用户语音请求中的第一类预设符号进行删除处理，第一预设符号是可能干扰后续断句的符号，如","，":"，"!"，";"，"("，")"等。

将用户语音请求中的第二类预设符号进行归一化处理，第二类预设符号包括表示单位的字母，如字母"°C"，"°c"可归一化到"degree"。

将用户语音请求中的预定句子成分进行删除处理，即可对句子特定前后缀进行处理，保留主干部分信息，如可将句子"Pleaseturn bright of the left screen"中的语气前缀"Please"删除，保留句子主干信息。

以下通过一个完整场景示例，分别针对对于用户的非中文语音请求进行非连续实体预测处理和多词组实体预测处理，得到语句中非连续实体和多词组实体的标签信息及其对应的位置信息，并最终对信息进行合并的过程，进行辅助说明。如表8所示，针对非中文语音请求"Turn bright of the left screen please"，构建位置标签表，根据实体识别部分的结果可以得到整合结果如下：

表8

根据表8中整合结果，可得到对应的槽位词"bright"和"screen"，这一方案可以使非连续实体和多词组实体中的每个单词尽可能被提取出来，保证了语音交互过程中槽位提取的完整性。

本申请的计算机可读存储介质，存储有计算机程序，当计算机程序被一个或多个处理器执行时，实现上述的方法。

在本说明书的描述中，参考术语“上述”、“具体地”、“进一步地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

接收车辆转发的非中文的用户语音请求；

2.根据权利要求1所述的方法，其特征在于，所述对所述用户语音请求进行第一预测处理得到第一标签信息和所述第一标签信息对应的第一位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一文本段的位置和所述第一分段标签信息确定所述第一标签信息和所述第一位置信息，包括：

确定标签优先级；

4.根据权利要求1所述的方法，其特征在于，所述对所述用户语音请求进行第二预测处理得到第二标签信息和所述第二标签信息对应的第二位置信息，包括：

对所述用户语音请求进行标签预测得到初步预测结果；

确定所述初步预测结果中第一预设标签的位置；

5.根据权利要求4所述的方法，其特征在于，所述根据所述初步预测结果、所述第二文本段的位置和所述第二分段标签信息确定所述第二标签信息和所述第二位置信息，包括：

确定标签优先级；

6.根据权利要求1所述的方法，其特征在于，所述合并所述第一标签信息、所述第一位置信息、所述第二标签信息和所述第二位置信息，得到所述用户语音请求的标签预测结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述合并所述第一标签信息、所述第一位置信息、所述第二标签信息和所述第二位置信息，得到所述用户语音请求的标签预测结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述合并所述第一标签信息、所述第一位置信息、所述第二标签信息和所述第二位置信息，得到所述用户语音请求的标签预测结果，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述标签预测结果进行槽位处理得到槽位信息，以完成语音交互，包括：

分别计算多个所述组合槽位与预设实体的相似度；

10.根据权利要求9所述的方法，其特征在于，所述分别计算多个所述组合槽位与预设实体的相似度，包括：

11.根据权利要求10所述的方法，其特征在于，所述按所述预设实体的序列长度递减的顺序，依次分别计算多个所述组合槽位与所述预设实体的相似度，包括：

12.根据权利要求1所述的方法，其特征在于，所述语音交互方法包括：

13.根据权利要求12所述的方法，其特征在于，所述对所述用户语音请求进行预处理，包括：

将所述用户语音请求中的第一类预设符号进行删除处理；

将所述用户语音请求中的预定句子成分进行删除处理。

14.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-13任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现如权利要求1-13任意一项所述的方法。