CN110111782B

CN110111782B - 语音交互方法及设备

Info

Publication number: CN110111782B
Application number: CN201910141186.5A
Authority: CN
Inventors: 于盛进; 宋晔; 李明德
Original assignee: 阿波罗智联(北京)科技有限公司
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2022-04-12
Anticipated expiration: 2039-02-26
Also published as: CN110111782A

Abstract

本发明实施例提供一种语音交互方法及设备，该方法包括：接收多人交互请求，其中，所述多人交互请求中包含交互模式标识；获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息；将所述规则信息发送至语音播放设备进行播放，并在所述规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号；识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示。本发明实施例使多位用户在同一时刻能够同时进行语音交互，实现用户之间的互动。

Description

语音交互方法及设备

技术领域

本发明实施例涉及车辆技术领域，尤其涉及一种语音交互方法及设备。

背景技术

随着互联网技术和语音识别技术的不断发展，许多车辆开始配置有车载语音交互系统，能够为用户提供各种语音交互服务。

目前，在用户乘车旅行时，用户主要的语音交互方式是，某一位用户单独通过车载语音交互系统对话，从互联网获取相关信息，例如通过语音交互播放互联网歌曲播放设备或广播等等。

然而，发明人发现，这种语音交互方式比较单一，在同一时刻，只能允许一位用户单独进行语音交互，导致在有多名用户乘车时，难以实现用户之间的互动，用户体验较差。

发明内容

本发明提供一种语音交互方法及设备，以解决现有技术中车载语音交互系统在同一时刻，只能允许一位用户单独进行语音交互，难以实现用户之间的互动的问题。

第一方面，本发明实施例提供一种语音交互方法，包括：接收多人交互请求，其中，所述多人交互请求中包含交互模式标识；

获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息；

将所述规则信息发送至语音播放设备进行播放，并在所述规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号；

识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示。

一种可能的实现方式中，所述语音采集设备为多个，分别设置在车辆的多个音区的预设位置；

所述接收语音采集设备采集的多个用户对应的语音信号，包括：

接收各音区对应的语音采集设备采集的该音区对应的用户的语音信号。

一种可能的实现方式中，所述在所述规则信息播放结束后，接收多个语音采集设备采集的多个用户对应的语音信号，包括：

在所述规则信息播放结束后的设定时间内，接收多个语音采集设备的采集的多个用户对应的语音信号。

一种可能的实现方式中，所述根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，包括：

根据所述目标交互模式获取对应的目标结果信息；

判断目标用户的语义信息与所述目标结果信息是否匹配，其中，所述目标用户为所述多个用户中任一个；

若所述目标用户的语义信息与所述目标结果信息匹配，则确定所述目标用户的识别结果为第一识别结果；

若所述目标用户的语义信息与所述目标结果信息不匹配，则确定所述目标用户的识别结果为第二识别结果。

一种可能的实现方式中，所述将各用户的识别结果发送至显示设备显示，包括：

获取所述第一识别结果的数量；

若所述第一识别结果为一个，则将所述第一识别结果对应的用户的标识信息发送至显示设备显示；

若所述第一识别结果为多个，则获取多个第一识别结果对应的语音信号的采集时间，并将最短采集时间对应的用户的标识信息发送至显示设备显示。

一种可能的实现方式中，所述判断目标用户的语义信息与所述目标结果信息是否匹配，包括：

确定所述目标用户的语义信息对应的第一字符串，以及所述目标结果信息对应的第二字符串；

若所述第一字符串与所述第二字符串一致，则确定所述目标用户的语义信息与所述目标结果信息匹配；

若所述第一字符串与所述第二字符串不一致，则获取所述第一字符串中与所述第二字符串中不同的目标字符；

若所述目标字符的数量与所述第二字符串中字符的数量的比例大于预设比例，则确定所述目标用户的语义信息与所述目标结果信息不匹配。

一种可能的实现方式中，还包括：

若所述目标字符的数量与所述第二字符串中字符的数量的比例小于或等于所述预设比例，则获取所述目标字符对应的音节、所述第二字符串中与所述第一字符串中不同的模式字符，以及所述模式字符对应的音节；

若所述目标字符对应的音节与所述模式字符对应的音节一致，则确定所述目标用户的语义信息与所述目标结果信息匹配。

一种可能的实现方式中，还包括：

若所述目标字符对应的音节与所述模式字符对应的音节不一致，则获取所述目标字符对应的声母韵母和所述模式字符对应的声母韵母；

若所述目标字符对应的声母韵母与所述模式字符对应的声母韵母一致，则确定所述目标用户的语义信息与所述目标结果信息匹配。

一种可能的实现方式中，所述获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息，包括：

获取车辆的行驶速度；

若所述行驶速度未超过预设速度阈值，则获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息。

第二方面，本发明实施例提供一种语音交互装置，包括：

第一接收模块，用于接收多人交互请求，其中，所述多人交互请求中包含交互模式标识；

获取模块，用于获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息；

第二接收模块，用于将所述规则信息发送至语音播放设备进行播放，并在所述规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号；

识别模块，用于识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示。

所述第二接收模块，用于接收各音区对应的语音采集设备采集的该音区对应的用户的语音信号。

一种可能的实现方式中，所述第二接收模块，用于在所述规则信息播放结束后的设定时间内，接收多个语音采集设备的采集的多个用户对应的语音信号。

一种可能的实现方式中，所述识别模块，包括：

第一获取单元，用于根据所述目标交互模式获取对应的目标结果信息；

判断单元，用于判断目标用户的语义信息与所述目标结果信息是否匹配，其中，所述目标用户为所述多个用户中任一个；

确定单元，用于若所述目标用户的语义信息与所述目标结果信息匹配，则确定所述目标用户的识别结果为第一识别结果；若所述目标用户的语义信息与所述目标结果信息不匹配，则确定所述目标用户的识别结果为第二识别结果。

一种可能的实现方式中，所述识别模块，还包括：

第二获取单元，用于获取所述第一识别结果的数量；

发送单元，用于若所述第一识别结果为一个，则将所述第一识别结果对应的用户的标识信息发送至显示设备显示；若所述第一识别结果为多个，则获取多个第一识别结果对应的语音信号的采集时间，并将最短采集时间对应的用户的标识信息发送至显示设备显示。

一种可能的实现方式中，所述确定单元，还用于确定所述目标用户的语义信息对应的第一字符串，以及所述目标结果信息对应的第二字符串；

一种可能的实现方式中，所述确定单元，还用于若所述目标字符的数量与所述第二字符串中字符的数量的比例小于或等于所述预设比例，则获取所述目标字符对应的音节、所述第二字符串中与所述第一字符串中不同的模式字符，以及所述模式字符对应的音节；

一种可能的实现方式中，所述确定单元，还用于若所述目标字符对应的音节与所述模式字符对应的音节不一致，则获取所述目标字符对应的声母韵母和所述模式字符对应的声母韵母；

一种可能的实现方式中，所述获取模块，用于获取车辆的行驶速度；

第三方面，本发明实施例提供一种语音交互设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如本发明实施例第一方面任一项所述的语音交互方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如本发明实施例第一方面任一项所述的语音交互方法。

本发明实施例提供的语音交互方法及设备，该方法通过接收多人交互请求，根据多人交互请求中包含的交互模式标识获取目标交互模式，以及与目标交互模式对应的规则信息，将规则信息发送至语音播放设备进行播放，并在所规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号，识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示，使多位用户在同一时刻能够进行语音交互，实现用户之间的互动。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音交互系统的架构图；

图2为本发明实施例提供的语音交互方法的流程图一；

图3为本发明实施例提供的语音交互方法的流程图二；

图4为本发明实施例提供的语音交互方法的流程图三；

图5为本发明实施例提供的语音交互方法的流程图四；

图6为本发明实施例提供的语音交互方法的流程图五；

图7为本发明实施例提供的语音交互装置的结构示意图一；

图8为本发明实施例提供的语音交互装置的结构示意图二；

图9为本发明实施例提供的语音交互设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的语音交互系统的架构图，如图1所示，本发明实施例中的语音交互系统，包括：服务器101、语音播放设备102、语音采集设备103和显示设备104。服务器器101与语音播放设备102、语音采集设备103和显示设备104通过网络105连接。

服务器101可以是台服务器，也可以是多台服务器组成的服务器集群，或者是一个云计算平台。服务器101还可以为车载语音交互系统的服务器。车载语音交互系统实现用户与车辆之间的语音交互。

语音播放设备102用于播放语音等音频，语音播放设备102可以为设置在车辆上的车载音响，也可以为车载语音交互系统的播放设备。语音播放设备102可以通过网络105实现与服务器101的数据传输。

语音采集设备103用于采集用户的语音。语音采集设备103可以为任何类型的麦克风，包括但不限于动态麦克风、电压式麦克风、光线麦克风和激光麦克风。语音采集设备103可以为一个，例如，语音采集设备103为车载语音交互系统的语音采集设备。语音采集设备103也可以为多个，分别采集不同用户的语音，例如主驾驶位的用户、副驾驶位的用户、后排座位的用户。主驾驶位对应的麦克风可以设置在车辆的仪表板上或主驾驶位的遮阳板上，副驾驶位对应的麦克风可以设置在副驾驶位的遮阳板上，后排座位对应的麦克风可以设置在主驾驶位座椅和副驾驶位座椅的头枕上。语音采集设备103可以通过网络105实现与服务器101的数据传输。

显示设备104可以为车载显示器，车载显示器可以为任何类型的显示器，包括但不限于台式车载显示器、挡板式车载显示器、顶吸式车载显示器和后视镜车载显示器。显示设备104也可以为车载音响，通过车载音响实现语音显示。显示设备104还可以为车载语音交互系统的显示设备。显示设备104可以通过网络105实现与服务器101的数据传输。

应理解的是，图1中的服务器101、语音播放设备102、语音采集设备103和显示设备104仅仅是示意性的，根据需要，设置任意数目的服务器101、语音播放设备102、语音采集设备103和显示设备104。

目前，在用户乘车旅行时，用户主要的语音交互方式是，某一位用户单独通过车载语音交互系统对话，从互联网获取相关信息，例如通过语音交互播放互联网歌曲播放设备或广播等等。然而，这种语音交互方式比较单一，在同一时刻，只能允许一位用户单独进行语音交互，导致在有多名用户乘车时，难以实现用户之间的互动，用户体验较差。本发明实施例提供一种语音交互方法，以解决现有技术中车载语音交互系统在同一时刻，只能允许一位用户单独进行语音交互，难以实现用户之间的互动的问题。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的语音交互方法的流程图一，本实施例的执行主体可以为图1中的服务器。如图2所示，本实施例的方法，可以包括：

步骤S201，接收多人交互请求，其中，所述多人交互请求中包含交互模式标识。

在本发明实施例中，用户通过车载语音交互系统的人机交互模块输入多人交互请求，人机交互模块将多人交互请求发送至车载语音交互系统的服务器，或者，用户终端与服务器建立网络连接，用户通过用户终端输入多人交互请求，用户终端将多人交互请求发送至服务器。用户可以为驾驶员，也可以为其他乘客。多人交互请求包含交互模式标识，交互模式标识包括但不限于交互模式的编号或名称。

一种可能的实现方式中，服务器接收用户发送的触发指令，根据触发指令加载交互模式选择列表，接收用户根据交互模式选择列表发送的交互模式请求。其中，交互模式选择列表中，不同的交互模式对应不同的交互模式标识。

步骤S202，获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息。

服务器中存储交互模式列表，交互模式列表包括交互模式及其对应的交互模式标识和规则信息。服务器根据多人交互请求包含的交互模式标识从交互模式列表中获取对应的目标交互模式，以及与目标交互模式对应的规则信息。

目标交互模式为交互模式的类型，例如，目标交互模式为猜歌名、知识抢答等。不同的目标交互模式对应不同的规则信息，规则信息包括但不限于目标交互模式对应的规则本身和对应的题目。例如，目标交互模式为知识抢答，则对应的规则信息包括知识抢答的规则和对应的题目。

步骤S203，将所述规则信息发送至语音播放设备进行播放，并在所述规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号。

在本发明实施例中，服务器将规则信息发送至语音播放设备，并控制语音播放设备播放该规则信息，使用户了解规则信息。例如，目标交互模式为猜歌名，规则信息包括猜歌名的规则和歌曲片段，服务器控制语音播放设备播放该规则信息，使用户了解猜歌名的规则并给出对应的答案。

规则信息播放结束后，语音采集设备采集多个用户对应的语音信号。语音采集设备可以为一个，也可以为多个。在语音采集设备为一个时，由该语音采集设备采集不同用户的语音信号，在语音采集设备为多个时，不同的语音采集设备采集不同用户的语音信号。语音采集设备采集多个用户对应的语音信号后，将采集的多个用户对应的语音采集信号发送至服务器。

步骤S204，识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示。

在本发明实施例中，服务器对各用户对应的语音信号进行语音识别处理，得到对应的语义信息，再根据各用户的语义信息和目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示，显示方式包括但不限于文本显示、图像显示、图表显示和语音显示。各用户的识别结果指示各用户的回答是否正确。

本发明实施例通过接收多人交互请求，根据多人交互请求中包含的交互模式标识获取目标交互模式，以及与目标交互模式对应的规则信息，将规则信息发送至语音播放设备进行播放，并在所规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号，识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示，使多位用户在同一时刻能够同时进行语音交互，实现用户之间的互动。

作为本发明的一个实施例，所述语音采集设备为多个，分别设置在车辆的多个音区的预设位置；

步骤S203中，所述收多个语音采集设备的采集的多个用户对应的语音信号，包括：

在本发明实施例中，车辆的多个音区的预设位置设置均设置有语音采集设备，例如，多个音区包括但不限于主驾驶位音区、副驾驶位音区、后排座位音区。主驾驶位音区对应的语音采集设备可以设置在车辆的仪表板上或主驾驶位的遮阳板上，副驾驶位音区对应的语音采集设备可以设置在副驾驶位的遮阳板上，后排座位音区对应的语音采集设备可以设置在主驾驶位座椅和副驾驶位座椅的头枕上。

不同音区的语音采集设备采集该音区对应的用户的语音信号，并进行降噪处理后发送至服务器，从而提高语音采集设备的语音采集能力，避免不同音区的用户的语音相互干扰。

作为本发明的一个实施例，步骤S203中，所述在所述规则信息播放结束后，接收多个语音采集设备采集的多个用户对应的语音信号，包括：

一种可能的实现方式中，服务器控制语音采集设备的开启和关闭时间，在规则信息播放结束后，开启语音采集设备，使语音采集设备采集用户的语音，经设定时间后，关闭语音采集设备，使语音采集设备停止采集用户的语音。设定时间可以为预先设置的固定时间段，例如，规则信息播放结束后，立即开启语音采集设备，10秒后，关闭语音采集设备。另一种可能的实现方式中，服务器在规则信息播放结束后，开始与语音采集设备之间进行数据传输，即接收语音采集设备采集的多个用户对应的语音信号，经设定时间后，停止与语音采集设备之间进行数据传输，即停止接收语音采集设备采集的多个用户的对应的语音信号。

本发明实施例通过在规则信息播放结束后的设定时间内，接收多个语音采集设备的采集的多个用户对应的语音信号，缩短语音交互时间。

图3为本发明实施例提供的语音及交互方法的流程图二，本实施例在上述图2所示实施例的基础上，详细描述步骤S204中，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果的一种可能的实现方式，如图3所示，本实施例的方法，可以包括：

步骤S301，根据所述目标交互模式确定对应的目标结果信息。

步骤S302，判断目标用户的语义信息与所述目标结果信息是否匹配，其中，所述目标用户为所述多个用户中任一个，若是，则执行步骤S303，若否，则执行步骤S304。

步骤S303，确定所述目标用户的识别结果为第一识别结果。

步骤S304，确定所述目标用户的识别结果为第二识别结果。

在本发明实施例中，不同的目标交互模式对应不同的目标结果信息，目标结果信息指的是不同题目对应的答案。例如，目标交互模式为猜歌名，规则信息包括猜歌名的规则和歌曲片段，目标结果信息为该歌曲片段对应的歌名。分别判断各用户的语义信息与目标结果信息是否匹配，若是，则该用户的识别结果为第一识别结果，第一识别结果指示用户回答正确，若否，则该用户的识别结果为第二识别结果，第二识别结果指示用户回答错误。

图4为本发明实施例提供的语音交互方法的流程图三，本实施例在上述图3所示的实施例的基础上，详细描述步骤S204中，将各用户的识别结果发送至显示设备显示的一种可能的实现方式，如图4所示，本实施例的方法，可以包括：

步骤S401，获取所述第一识别结果的数量。

步骤S402，若所述第一识别结果为一个，则将所述第一识别结果对应的用户的标识信息发送至显示设备显示。

步骤S403，若所述第一识别结果为多个，则获取多个第一识别结果对应的语音信号的采集时间，并将最短采集时间对应的用户的标识信息发送至显示设备显示。

在本发明实施例中，获取第一识别结果的数量，若第一识别结果的数量为一个，说明只有一个用户回答正确，则将该第一识别结果对应的用户的标识信息发送至显示设备，若第一识别结果的数量为多个，说明有多个用户回答正确，则获取多个第一识别结果对应的语音信号的采集时间，并将最短采集时间对应的用户的标识信息发送至显示设备显示。

本发明实施例对于抢答类的目标交互模式，例如，知识抢答，能够根据语音信号的采集时间确定胜出者。

图5为本发明实施例提供的语音交互方法的流程图四，本实施例在上述图3所示的实施例的基础上，详细描述步骤302中，判断目标用户的语义信息与所述目标结果信息是否匹配的一种可能的实现方式，如图5所示，本实施例的方法，可以包括：

步骤S501，确定所述目标用户的语义信息对应的第一字符串，以及所述目标结果信息对应的第二字符串。

步骤S502，判断所述第一字符串与所述第二字符串是否一致，若是，则执行步骤S503，若否，则执行步骤S504。

步骤S503，确定所述目标用户的语义信息与所述目标结果信息匹配。

步骤S504，获取所述第一字符串中与所述第二字符串中不同的目标字符。

步骤S505，判断所述目标字符的数量与所述第二字符串中字符的数量的比例是否大于预设比例，若是，则执行步骤S506，若否，则执行步骤S507。

步骤S506，确定所述目标用户的语义信息与所述目标结果信息不匹配。

步骤S507，获取所述目标字符对应的音节、所述第二字符串中与所述第一字符串中不同的模式字符，以及所述模式字符对应的音节。

步骤S508，判断所述目标字符对应的音节与所述模式字符对应的音节是否一致，若是，则执行步骤S503，若否，则执行步骤S509。

步骤S509，获取所述目标字符对应的声母韵母和所述模式字符对应的声母韵母。

步骤S510，判断所述目标字符对应的声母韵母与所述模式字符对应的声母韵母是否一致，若是，则执行步骤S503，若否，则执行步骤S506。

在本发明实施例中，首先根据目标用户的语义信息对应的第一字符串和以及所述目标结果信息对应的第二字符串是否一致，判断目标用户的语义信息与所述目标结果信息是否一致，若一致，则目标用户的语义信息与所述目标结果信息匹配。例如，第一字符串和第二字符串均为“ABCD”，则确定目标用户的语义信息与所述目标结果信息匹配。

若不一致，则通过相似算法进行容错判断。容错判断的具体实现方式如下：

获取第一字符串中与第二字符串中不同的目标字符，并根据目标字符的数量与第二字符串中字符的数量的比例，判断目标用户的语义信息与目标结果信息是否匹配，若该比例大于预设比例，则判断不匹配。预设比例由用户预先设定，不同目标结果信息对应预设比例可以相同也可以不同，本发明实施例不做具体限定。

例如，预设比例为50％，第一字符串为“ABCDE”，第二字符串为“ABFGH”，则目标字符为“CDE”，目标字符的数量为3，第二字符串中字符的数量为5，目标字符的数量与第二字符串中字符的数量的比例3/5，大于50％，则判断目标用户的语义信息与目标结果信息不匹配。

若目标字符的数量与第二字符串中字符的数量的比例小于或等于预设比例，则进行音节判断。具体的，获取目标字符对应的音节、第二字符串中与第一字符串中不同的模式字符，以及所模式字符对应的音节，判断目标字符对应的音节与模式字符对应的音节是否一致，若一致，说明目标字符的发音与模式字符的发音相同，则确定目标用户的语义信息与目标结果信息匹配。

例如，第一字符串为“形式问题”，第二字符串为“形势问题”，则目标字符为“式”，模式字符为“势”，目标字符对应的音节与模式字符对应的音节一致，则确定目标用户的语义信息与目标结果信息匹配。

若目标字符对应的音节与模式字符对应的音节不一致，则继续比对声母和韵母。具体的，获取目标字符对应的声母韵母和模式字符对应的声母韵母，并分别将目标字符对应的声母与模式字符对应的声母进行比对，目标字符对应的韵母与模式字符对应的韵母进行比对，若均一致，则确定目标用户的语义信息与所目标结果信息匹配，若存在至少一个不一致，则确定目标用户的语义信息与所目标结果信息不匹配。

本发明实施例中，由于不同用户的发音可能不同，可能导致说相同内容用户的语义信息不同，在第一字符串与第二字符串不一致时，通过比对音节、声母韵母进行容错判断，从而提高容错效果，提升用户体验。

图6为本发明实施例提供的语音交互方法的流程图五，本实施例在上述图2至图5任一个实施例的基础上，详细描述步骤201的一种可能的实现方式，如图6所示，本实施例的方法，可以包括：

步骤S601，获取车辆的行驶速度。

步骤S602，若所述行驶速度未超过预设速度阈值，则获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息。

在本发明实施例中，通过车辆上的车速仪表获取车辆的行驶速度。预设速度阈值由用户预先设定，例如，预设速度阈值为80km/h。若车辆的行驶速度超过预设速度阈值，说明车辆行驶速度较快，这种情况下，不能进行多人交互，防止出现危险，只有在车辆的行驶速度未超过预设速度阈值时，才获取与交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息，实现多人交互。

图7为本发明实施例提供的语音交互装置的结构示意图一，如图7所示，本实施例的装置，包括：

第一接收模块701，用于接收多人交互请求，其中，所述多人交互请求中包含交互模式标识；

获取模块702，用于获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息；

第二接收模块703，用于将所述规则信息发送至语音播放设备进行播放，并在所述规则信息播放结束后，接收语音采集设备采集的多个用户对应的语音信号；

识别模块704，用于识别出各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示。

图8为本发明实施例提供的语音交互装置的结构示意图二，如图8所示，在图7所示实施例的基础上，本实施例的装置，还包括：

所述语音采集设备为多个，分别设置在车辆的多个音区的预设位置；

所述第二接收模块703，用于接收各音区对应的语音采集设备采集的该音区对应的用户的语音信号。

作为本发明的一个实施例，所述第二接收模块703，用于在所述规则信息播放结束后的设定时间内，接收多个语音采集设备的采集的多个用户对应的语音信号。

作为本发明的一个实施例，所述识别模块704，包括：

第一获取单元7041，用于根据所述目标交互模式获取对应的目标结果信息；

判断单元7042，用于判断目标用户的语义信息与所述目标结果信息是否匹配，其中，所述目标用户为所述多个用户中任一个；

确定单元7043，用于若所述目标用户的语义信息与所述目标结果信息匹配，则确定所述目标用户的识别结果为第一识别结果；若所述目标用户的语义信息与所述目标结果信息不匹配，则确定所述目标用户的识别结果为第二识别结果。

作为本发明的一个实施例，所述识别模块，还包括：

第二获取单元7044，用于获取所述第一识别结果的数量；

发送单元7045，用于若所述第一识别结果为一个，则将所述第一识别结果对应的用户的标识信息发送至显示设备显示；若所述第一识别结果为多个，则获取多个第一识别结果对应的语音信号的采集时间，并将最短采集时间对应的用户的标识信息发送至显示设备显示。

作为本发明的一个实施例，所述确定单元7043，还用于确定所述目标用户的语义信息对应的第一字符串，以及所述目标结果信息对应的第二字符串；

作为本发明的一个实施例，所述确定单元7043，还用于若所述目标字符的数量与所述第二字符串中字符的数量的比例小于或等于所述预设比例，则获取所述目标字符对应的音节、所述第二字符串中与所述第一字符串中不同的模式字符，以及所述模式字符对应的音节；

作为本发明的一个实施例，所述确定单元7043，还用于若所述目标字符对应的音节与所述模式字符对应的音节不一致，则获取所述目标字符对应的声母韵母和所述模式字符对应的声母韵母；

作为本发明的一个实施例，所述获取模块701，用于获取车辆的行驶速度；

本实施例的装置，可用于执行如图2至图6所示的方法实施例，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例提供的语音交互设备的硬件结构示意图。如图9所示，本实施例提供的语音交互设备900包括：至少一个处理器901和存储器902。该语音交互设备900还包括通信部件903。其中，处理器901、存储器902以及通信部件903通过总线904连接。

在具体实现过程中，至少一个处理器901执行所述存储器902存储的计算机执行指令，使得至少一个处理器901执行上述任一方法实施例中的语音交互方法。通信部件903用于与终端设备和/或服务器进行通讯。

处理器901的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图9所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方法实施例中的语音交互方法。

上述的计算机可读存储介质，可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音交互方法，其特征在于，包括：

接收多人交互请求，其中，所述多人交互请求中包含交互模式标识；

识别出多个用户中各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示；

所述根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，包括：确定目标用户的语义信息对应的第一字符串，以及所述目标交互模式对应的目标结果信息对应的第二字符串；若所述第一字符串与所述第二字符串一致，确定所述目标用户的语义信息与所述目标结果信息匹配，则确定所述目标用户的识别结果为第一识别结果；若所述第一字符串与所述第二字符串不一致，则获取所述第一字符串中与所述第二字符串中不同的目标字符；若所述目标字符的数量与所述第二字符串中字符的数量的比例大于预设比例，确定所述目标用户的语义信息与所述目标结果信息不匹配，则确定所述目标用户的识别结果为第二识别结果；所述目标用户为所述多个用户中任一个；所述第一识别结果指示所述目标用户回答正确；所述第二识别结果指示所述目标用户回答错误。

2.根据权利要求1所述的方法，其特征在于，所述语音采集设备为多个，分别设置在车辆的多个音区的预设位置；

3.根据权利要求1所述的方法，其特征在于，所述在所述规则信息播放结束后，接收多个语音采集设备采集的多个用户对应的语音信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述将各用户的识别结果发送至显示设备显示，包括：

获取所述第一识别结果的数量；

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息，包括：

获取车辆的行驶速度；

8.一种语音交互装置，其特征在于，包括：

识别模块，用于识别出多个用户中各用户的语音信号对应的语义信息，根据各用户的语义信息和所述目标交互模式确定各用户的识别结果，并将各用户的识别结果发送至显示设备显示；

所述识别模块，还包括：确定单元，用于确定目标用户的语义信息对应的第一字符串，以及所述目标交互模式对应的目标结果信息对应的第二字符串；若所述第一字符串与所述第二字符串一致，确定所述目标用户的语义信息与所述目标结果信息匹配，则确定所述目标用户的识别结果为第一识别结果；若所述第一字符串与所述第二字符串不一致，则获取所述第一字符串中与所述第二字符串中不同的目标字符；若所述目标字符的数量与所述第二字符串中字符的数量的比例大于预设比例，确定所述目标用户的语义信息与所述目标结果信息不匹配，则确定所述目标用户的识别结果为第二识别结果；所述目标用户为所述多个用户中任一个；所述第一识别结果指示所述目标用户回答正确；所述第二识别结果指示所述目标用户回答错误。

9.根据权利要求8所述的装置，其特征在于，所述语音采集设备为多个，分别设置在车辆的多个音区的预设位置；

10.根据权利要求8所述的装置，其特征在于，所述第二接收模块，用于在所述规则信息播放结束后的设定时间内，接收多个语音采集设备的采集的多个用户对应的语音信号。

11.根据权利要求10所述的装置，其特征在于，所述识别模块，还包括：

第二获取单元，用于获取所述第一识别结果的数量；

12.根据权利要求8所述的装置，其特征在于，所述确定单元，还用于若所述目标字符的数量与所述第二字符串中字符的数量的比例小于或等于所述预设比例，则获取所述目标字符对应的音节、所述第二字符串中与所述第一字符串中不同的模式字符，以及所述模式字符对应的音节；

13.根据权利要求12所述的装置，其特征在于，所述确定单元，还用于若所述目标字符对应的音节与所述模式字符对应的音节不一致，则获取所述目标字符对应的声母韵母和所述模式字符对应的声母韵母；

14.根据权利要求8至13任一项所述的装置，其特征在于，所述获取模块，用于获取车辆的行驶速度；若所述行驶速度未超过预设速度阈值，则获取与所述交互模式标识对应的目标交互模式，以及与所述目标交互模式对应的规则信息。

15.一种语音交互设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行根据权利要求1至7任一项所述的语音交互方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现根据权利要求1至7任一项所述的语音交互方法。