CN110111788A

CN110111788A - 语音交互的方法和装置、终端、计算机可读介质

Info

Publication number: CN110111788A
Application number: CN201910372246.4A
Authority: CN
Inventors: 袁鼎; 杜秋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-09
Anticipated expiration: 2039-05-06
Also published as: CN110111788B

Abstract

本公开提供了一种语音交互的方法，该方法包括：对接收到的第一语音指令进行解析，响应于无法将第一语音指令解析得到意图，基于第一语音指令确定第二语音指令，其中，第二语音指令是指能被解析得到意图的语音指令，基于第二语音指令的意图执行第二语音指令。本公开还提供了一种语音交互的装置、终端、计算机可读介质。

Description

语音交互的方法和装置、终端、计算机可读介质

技术领域

本公开实施例涉及互联网技术领域，特别涉及语音交互的方法和装置、终端、计算机可读介质。

背景技术

随着车辆的普及以及人机交互技术的发展，车载终端的语音交互系统被普遍应用于车辆。

在现有技术中，用户通过简单的语音指令发起与车载终端之间的交互，车载终端对应的语音识别引擎设置的尾点检测阈值通常都是几百毫秒。具体地，用户向车载终端发送语音指令，车载终端的语音识别引擎基于用户语音指令的断点(即语音指令停顿的时间)进行召回，并将召回反馈至用户，进而实现用户与车载终端之间的交互。

发明内容

本公开实施例提供一种语音交互的方法和装置、终端、计算机可读介质。

第一方面，本公开实施例提供了一种语音交互的方法，包括：

对接收到的第一语音指令进行解析；

响应于无法将所述第一语音指令解析得到意图，基于所述第一语音指令确定第二语音指令，其中，所述第二语音指令是指能被解析得到意图的语音指令；

基于所述第二语音指令的意图执行所述第二语音指令。

在一些实施例中，所述基于所述第一语音指令确定第二语音指令，包括：

将所述第一语音转换为文本；

根据所述文本确定关键词；

基于所述关键词进行语句预测，得到所述第二语音指令。

在一些实施例中，所述基于所述关键词进行语句预测，得到所述第二语音指令，包括：

将所述关键词作为所述第二语音指令的第一部分；

基于所述第一部分进行语句预测，得到所述第二语音指令的第二部分；

根据所述第一部分和所述第二部分确定所述第二语音指令，其中，所述第一部分位于所述第二部分之前。

在一些实施例中，还包括：

基于所述第二语音指令生成并反馈询问信息；

并在接收到针对所述询问信息的确认信息后，基于所述第二语音指令的意图执行所述第二语音指令。

第二方面，本公开实施例提供了一种语音交互的装置，包括：

解析模块，用于对接收到的第一语音指令进行解析；

确定模块，用于响应于无法将所述第一语音指令解析得到意图，基于所述第一语音指令确定第二语音指令，其中，所述第二语音指令是指能被解析得到意图的语音指令；

执行模块，用于基于所述第二语音指令的意图执行所述第二语音指令。

在一些实施例中，所述确定模块具体用于：

将所述第一语音转换为文本；

根据所述文本确定关键词；

基于所述关键词进行语句预测，得到所述第二语音指令。

在一些实施例中，所述确定模块具体用于：

将所述关键词作为所述第二语音指令的第一部分；

在一些实施例中，还包括：

生成模块，用于基于所述第二语音指令生成并反馈询问信息；

在接收模块接收到针对所述询问信息的确认信息后，所述执行模块用于，基于所述第二语音指令的意图执行所述第二语音指令。

第三方面，本公开实施例提供了一种终端，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一实施例所述的方法。

第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上任一实施例所述的方法。

本公开实施例提供的对接收到的第一语音指令进行解析，响应于无法将第一语音指令解析得到意图，基于第一语音指令确定第二语音指令，其中，第二语音指令是指能被解析得到意图的语音指令，基于第二语音指令的意图执行第二语音指令的方案，避免了现有技术中当语音指令被误截断时人机交互无法进行的技术弊端，实现了提高人机交互的可靠性的技术效果。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为根据本公开实施例的语音交互的方法的流程示意图；

图2为根据本公开实施例的第二语音指令的确定方法的流程图；

图3为根据本公开实施例的基于关键词进行语句预测，得到第二指令的方法的流程图。

图4为根据本公开实施例的语音交互的装置的示意图；

图5为根据本公开另一实施例的语音交互的装置的示意图；

图6为根据本公开实施例的语音交互的装置的框架示意图；

1、解析模块，2、确定模块，3、执行模块，4、生成模块，5、接收模块，11、处理单元(或处理器)，12、存储器，13、总线，14、RAM，15、高速缓存，16、存储系统，17、程序组件，18、实用工具，19、外部设备，20、显示器，21、I/O接口，22、网络适配器。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的语音交互的方法和装置、终端、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

根据本公开实施例的一个方面，本公开实施例提供了语音交互的方法。

请参阅图1，图1为根据本公开实施例的语音交互的方法的流程示意图。

如图1所示，该方法包括：

S1：对接收到的第一语音指令进行解析。

其中，本公开实施例中的语音交互的方法可被应用于各种人机交互的场景中。如，该方法适用于智能设备，进而实现人(即用户)与智能设备之间的人机交互。

在本实施例中，安装在车辆上的车载终端为例进行阐述。

在本实施例中的车载终端中，存储了不同垂类的项目。其中，垂类是指车载终端中存储的对应于用户的不同需求的类别。如，歌曲，导航，百科，天气等。

当用户需要向车载终端发起交互时，通过向车载终端发送语音指令实现。

车载终端对用户发送的第一语音指令进行解析。具体解析方法可参见现有技术，此处不做限定。

响应于无法将第一语音指令解析得到意图，执行S2：基于第一语音指令确定第二语音指令，其中，第二语音指令是指能被解析得到意图的语音指令。

其中，意图是指能够体现用户需求信息的需要。

在一些实施例中，响应于将第一语音指令解析得到意图，则直接根据该意图执行第一语音指令。

在现有技术中，也存在车载终端对第一语音指令进行解析的步骤。但是，在现有技术中，当车载终端无法将第一语音指令解析得到意图。即，车载终端在对第一语音指令进行解析后，无法获知用户的需求信息。则直接向用户反馈指令错误的结果。或者，直接告知用户交互结束。

而在本实施例中，当车载终端无法将第一语音指令解析得到意图时，则基于第一语音指令确定能被解析得到意图的第二语音指令。

为使更清楚的对本实施例的方案与现有技术的方案进行理解，现结合具体示例对本实施例的方案与现有技术的方案进行阐述。如：

用户向车载终端发送“今天的温度是多少”的指令(即为第一语音指令)。但是，由于用户说话速度较慢，在“今天”后出现了停顿。而基于车载终端的尾点检测阈值通常都是几百毫秒，若用户停顿的时间超过了尾点检测阈值，则车载终端会对“今天的温度是多少”进行误截断，截断得到“今天”两个字。

显然地，车载终端在对“今天”进行解析后，无法得到与其对应的意图。在现有技术方案中，车载终端会向用户反馈错误的信息，或者直接终止本轮的人机交互。其中，向用户反馈错误的信息可能为直接通过语音的方式反馈，也可能通过在车载终端的屏幕上进行错误信息的显示。

而在本实施例中，执行基于第一语音指令确定能够被解析得到意图的第二语音指令。如，即基于第一语音指令在本地内存中进行搜索，搜索与“今天”相关的语句，如“今天是礼拜几”等。

当然，也可通过预先构建知识图谱模型。通过将“今天”与知识图谱模型进行匹配，得到第二指令，如“今天什么节日”等。

其中，知识图谱模型实质是一种类似图的数据结构，或者一种树结构，由海量字符串组成。本实施例所记载的“字符串”可以包括文本形式的文字、数字、字母、符号等中的一个或多个的序列。

为方便搜索，知识图谱具体由文本组成。知识图谱模型由节点和边组成，例如知识图谱或其他适当的数据库。在知识图谱模型中，每个节点表示现实世界中存在的“字”(即文本中的字)，每条边表示字与字之间的“关系”。知识图谱模型是关系的有效表示方式。换句话说，知识图谱模型将不同种类的文本连接在一起而得到的一个关系网络，从而提供了从“关系”的角度对问题进行分析的能力。

当然，除了上述列举的基于第一语音指令确定第二语音指令的方法，还可以采用其它的方法，此处不再赘述。

也就是说，可采用上述列举的方法确定第二语音指令，也可采用其它方法确定第二语音指令。本实施例并不对具体的确定方法进行限定。

S3：基于第二语音指令的意图执行第二语音指令。

在本实施例中，在车载终端基于第一语音指令确定出具有意图的第二语音指令后，车载终端直接根据该意图执行第二语音指令。即基于第二语音指令在垂类中进行搜索，得到反馈至用户的信息。

其中，该步骤中基于第二语音指令的意图执行第二语音指令的方法可采用现有技术中的方法。如：车载终端对第二语音指令进行解析，得到意图，基于意图在本地内存中查找与该意图对应的信息，并反馈至用户。

通过上述描述可知，在现有技术中，当车载终端无法将第一语音指令解析得到意图时，直接向用户反馈错误的信息。而在本实施例中，即便当第一语音指令无法被解析得到意图时，通过基于第一语音指令确定具有意图的第二语音指令，进而基于第二语音指令的意图执行第二语音指令。避免了现有技术中当语音指令被误截断时，无法进行人机交互的弊端，实现了即便在语音指令被误截断的情况下，依然能够确保人机交互的正常运行的技术效果。满足了用户的需求和体验。

结合图2可知，在一些实施例中，S2包括：

S2-1：将第一语音转换为文本。

其中，语音与文本之间转换的具体方案可参见现有技术，此处不再赘述。

S2-2：根据文本确定关键词。

在该步骤中，可将全部文本作为关键词，也可将部分文本作为关键词。以上述示例为例，可将“今天”作为关键词，也可将“今”或者“天”作为关键词。

S2-3：基于关键词进行语句预测，得到第二语音指令。

在该步骤中，当以“今天”为关键词进行语句预测时，在正常情况下，由于是进行语句预测(具体语句预测方法可参见现有技术，或者上述示例中所述的方法，此处不再赘述)，预测得到的结果会是完整的语句。而若为完整的语句，则必然能将该完整的语句解析得到意图。即，该完整的语句即为第二语句指令对应的语句。

然而，为了确保人机交互的可靠进行。在一些实施例中，S2-3包括：

S2-3-1：基于关键词进行语句预测，得到至少一条语句；

针对每一条语句，均分别判断是否能将该语句解析得到意图，若是，则执行S2-3-2：将能解析得到意图的语句确定为第二语音指令。

也就是说，在基于关键词进行语句预测后，并不是直接将预测得到的语句确定为第二语音指令，而是对该语句进行判断，只有当该语句能被解析得到意图时，才将该语句确定为第二语音指令。进而确保第二语音指令的可靠性，从而确保人机交互的正常进行。

在一些实施例中，当能被解析得到意图的语句为多条时，则可基于下述方式确定第二语音指令。

方式1：从多条语句中随机抽取一条语句确定为第二语音指令。

方式2：将每一条语句分别与历史交互记录进行匹配，得到历史交互记录中记录次数最多的语句，并将记录次数最多的语句确定为第二语音指令。

结合图3可知，在一些实施例中，S2-3包括：

S2-3-11：将关键词作为第二语音指令的第一部分。

S2-3-12：基于第一部分进行语句预测，得到第二语音指令的第二部分。

S2-3-13：根据第一部分和第二部分确定第二语音指令，其中，第一部分位于第二部分之前。

也就是说，在该实施例中，将关键词“今天”作为前序，并基于该前序预测后序，前序和后序即为语句，将包括前序和后序的语句确定为第二语音指令。本实施例中的前序是指语句的前部分，后续是指语句的后部分。将前部分(即前序)和后部分(即后续)进行组合，得到完整的语句。即，在本实施例中，前序和后续是针对语句的结构而言的。

由于第一语音指令是被误截断的语音指令，因此，第一语音指令必然是完整的语音指令的前序。所以，将第一语音指令对应的关键词作为前序对第二语音指令进行预测，可实现节约时间和成本，且提高预测结果的精确性。

其中，S2-3-13的具体实现可参考S2-3-1和S2-3-2的描述。即，先根据第一部分和第二部分确定完整的语句，在对该完整的语句进行判断，判断其是否能被解析为意图，当为是时，则将该完整的语句确定为第二语音指令。

在一些实施例中，在S2之后，S3之前，即在根据第一语音指令确定第二语音指令之后，该方法包括：

S023：基于第二语音指令生成并反馈询问信息。

基于上述描述可知，第二语音指令可能为一个(当语句为一条时)，也可能为多个(当语句为多条时)。

当第二语音指令为一个时，为节约时间，可直接执行第二语音指令，并向用户反馈执行第二语音指令的结果。

但是，当第二语音指令为多个时，不管是通过上述两种方式中的哪一种方式，都可能出现第二语音指令为与用户真实意图不符的语音指令。所以，为了确保向用户反馈执行第二语音指令的结果的准确性。优选地，基于所有的第二语音指令生成并反馈询问信息。

如：基于第一语音指令共确定三条第二语音指令。则将每一条第二语音指令分别在车载终端的显示屏上进行显示(每条第二指令的显示顺序此处不再限定)，以便用户进行选取。

并在接收到针对询问信息的确认信息后，执行S3。

如：当只有一条第二语音指令，且用户对其进行确认后，则车载终端在接收到该确认信息时，根据第二语音指令的意图执行第二语音指令。并将执行第二语音指令的结果反馈至用户。其中，反馈的表现形式可以是语音，也可以是直接在终端的显示屏上进行显示等。

当为多条第二语音指令，且用户对其中的一条第二语音进行确认后，则车载终端基于该确认信息(具体为其中的一条的第二语音指令的确认信息)向用户反馈执行第二语音指令的结果。同理，反馈的表现形式可以是语音，也可以是直接在终端的显示屏上进行显示等。

根据本公开实施例的另一个方面，本公开实施例还提供了语音交互的装置。

请参阅图4，图4为根据本公开实施例的语音交互的装置的示意图。

如图4所示，该装置包括：

解析模块1，用于对接收到的第一语音指令进行解析；

确定模块2，用于响应于无法将第一语音指令解析得到意图，基于第一语音指令确定第二语音指令，其中，第二语音指令是指能被解析得到意图的语音指令；

执行模块3，用于基于第二语音指令的意图执行第二语音指令。

在一些实施例中，确定模块2具体用于：

将第一语音转换为文本；

根据文本确定关键词；

基于关键词进行语句预测，得到第二语音指令。

在一些实施例中，确定模块2具体用于：

将所述关键词作为所述第二语音指令的第一部分；

基于第一部分进行语句预测，得到第二语音指令的第二部分；

根据第一部分和第二部分确定第二语音指令，其中，第一部分位于第二部分之前。

结合图5可知，在一些实施例中，该装置还包括：

生成模块4，用于基于第二语音指令生成并反馈询问信息；

在接收模块5接收到针对询问信息的确认信息后，执行模块3用于，基于第二语音指令的意图执行第二语音指令。

请参阅图6，图6为根据本公开实施例的语音交互的装置的框架示意图。

图6显示的语音交互的装置仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。图6显示语音交互的装置与设置在车载终端中，用于车载终端与用户的之间的人机交互，也可设置于其它适用于人机交互的终端。

如图6所示，语音交互的装置以通用计算设备的形式表现。语音交互的装置的组件可以包括但不限于：一个或者多个处理器或者处理单元11，存储器12，连接不同组件(包括存储器12和处理单元11)的总线13。

总线13表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

语音交互的装置典型地包括多种计算机系统可读介质。这些介质可以是任何能够被语音交互的装置访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器12可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)14和/或高速缓存15(即高速缓存存储器)。语音交互的装置可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统16可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器12可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序组件17的程序/实用工具18，可以存储在例如存储器12中，这样的程序组件17包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件17通常执行本发明所描述的实施例中的功能和/或方法。

语音交互的装置也可以与一个或多个外部设备19(例如键盘、指向设备、显示器20等)通信，还可与一个或者多个使得用户能与该语音交互的装置交互的设备通信，和/或与使得该语音交互的装置能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口21进行。并且，语音交互的装置还可以通过网络适配器22与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器22通过总线13与语音交互的装置的其它组件通信。应当明白，尽管图中未示出，可以结合语音交互的装置使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元11通过运行存储在存储器12中的多个程序中的至少一个程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种语音交互的方法。

根据本公开实施例的另一个方面，本公开实施例还提供了一种终端，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任一实施例所述的方法。

根据本公开实施例的另一个方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如上任一实施例所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种语音交互的方法，包括：

对接收到的第一语音指令进行解析；

基于所述第二语音指令的意图执行所述第二语音指令。

2.根据权利要求1所述的方法，其中，所述基于所述第一语音指令确定第二语音指令，包括：

将所述第一语音转换为文本；

根据所述文本确定关键词；

基于所述关键词进行语句预测，得到所述第二语音指令。

3.根据权利要求2所述的方法，其中，所述基于所述关键词进行语句预测，得到所述第二语音指令，包括：

将所述关键词作为所述第二语音指令的第一部分；

4.根据权利要求1至3中任一项所述的方法，其中，还包括：

基于所述第二语音指令生成并反馈询问信息；

5.一种语音交互的装置，包括：

解析模块，用于对接收到的第一语音指令进行解析；

6.根据权利要求5所述的装置，其中，所述确定模块具体用于：

将所述第一语音转换为文本；

根据所述文本确定关键词；

基于所述关键词进行语句预测，得到所述第二语音指令。

7.根据权利要求6所述的装置，其中，所述确定模块具体用于：

将所述关键词作为所述第二语音指令的第一部分；

8.根据权利要求5至7中任一项所述的装置，其中，还包括：

9.一种终端，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至4中任一所述的方法。