CN110706707A

CN110706707A - 用于语音交互的方法、装置、设备和计算机可读存储介质

Info

Publication number: CN110706707A
Application number: CN201911108242.1A
Authority: CN
Inventors: 王知践; 白锦峰; 钱胜; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-01-17
Anticipated expiration: 2039-11-13
Also published as: CN110706707B; US11393490B2; JP2021076818A; US20210142819A1; JP7063937B2

Abstract

根据本公开的实施例，提供了用于语音交互的方法、装置、设备和计算机可读存储介质。该方法包括基于接收的语音信号的语音特征确定与语音信号相对应的文本。该方法还包括基于语音特征和文本，确定针对文本中的元素的参考语音特征与元素的目标语音特征之间的匹配程度。该方法还包括基于文本确定语音信号是可执行命令的第一可能性。该方法还包括基于语音特征确定语音信号是可执行命令的第二可能性。该方法还包括基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。通过该方法，可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应，实现了更准确、智能地实现语音交互控制，提升了用户体验。

Description

用于语音交互的方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例主要涉及人工智能领域，并且更具体地，涉及用于语音交互的方法、装置、设备和计算机可读存储介质。

背景技术

语音交互技术是人与机器用语音进行交互的一种技术，实现了类似自然对话的语音交互体验。人机交互从计算机时代的鼠标键盘配合屏幕方式交互，到智能手机时代的触屏直接交互。人机交互的方式越来越简单，交互门槛越来越低。随着人工智能和移动互联网的蓬勃发展，类似人与人之间的自然语音交互逐渐成为人机交互的一种新型的方式。语音交互同时兼备输入带宽大、准确性高、可移动性好、使用门槛低等优点，是人机交互的首选交互方式之一。

通过语音交互实现人机交互，提高了信息的处理效率。同时这种方式也使得用户和机器的交互更简便。然而，在这种交互过程中还存在着许多需要解决的问题。

发明内容

根据本公开的示例实施例，提供了一种用于语音交互的方案。

在本公开的第一方面中，提供了一种用于语音交互的方法。该方法包括基于接收的语音信号的语音特征确定与语音信号相对应的文本；基于语音特征和文本，确定针对文本中的元素的参考语音特征与针对元素的目标语音特征之间的匹配程度；基于文本确定语音信号是可执行命令的第一可能性；基于语音特征确定语音信号是可执行命令的第二可能性；以及基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。

在本公开的第二方面中，提供了一种用于语音交互的装置。该装置包括文本确定模块，被配置为基于接收的语音信号的语音特征确定与语音信号相对应的文本；第一匹配程度确定模块，被配置为基于语音特征和文本，确定针对文本中的元素的参考语音特征与针对元素的目标语音特征之间的匹配程度；第一可能性确定模块，被配置为基于文本确定语音信号是可执行命令的第一可能性；第二可能性确定模块，被配置为基于语音特征确定语音信号是可执行命令的第二可能性；以及第一信息确定模块，被配置为基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的用于语音交互的方法200的流程图；

图3示出了根据本公开的一些实施例的用于语音交互的方法300的流程图；

图4根据本公开的一些实施例的用于语音交互的装置400的框图；以及

图5示出了能够实施本公开的多个实施例的设备500的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在实现语音交互的过程中，基本采用一次唤醒一次交互的方式。该交互方式是唤醒词检测技术和产品策略结合的产物，其主要特点是：每当有用户喊完激活该设备的唤醒词之后，内置的唤醒词检测模块会检测到该唤醒词信号，开始启动识别聆听。当检测到语音尾点或者达到预先设定的时长结束聆听，将过程中收到的语音进行识别，从而达到响应用户需求的过程。

然而，在一次唤醒一次交互的方式中存在许多问题。首先，每次用户跟设备交互都需要唤醒词，导致每次交互都比较复杂。其次，如果用户唤醒完没有与设备说话，可能导致设备误响应。同时在发生误唤醒的时候，如果在不合适的时间误唤醒，如夜间休息时间，导致用户体验非常差。

根据本公开的实施例，提出一种语音交互的改进方案。在该方案中，基于接收的语音信号的语音特征确定与语音信号相对应的文本。然后基于语音特征和文本，确定针对文本中的元素的参考语音特征和针对元素的语音特征之间的匹配程度。该方案还分别基于文本和语音特征确定语音信号是可执行命令的第一可能性和第二可能性。然后，基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。通过该方法，可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应，以及如何对声音信号进行响应，从而实现更准确、智能地实现语音交互控制，提升用户体验。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中，在进行人机交互时，获得的语音信号110被发送给管理设备120。

语音信号110可以通过执行用户交互的任何语音交互设备获得。在一些实施例中，用户向语音交互设备说话，则可以获得语音110。在一些实施例中，如果语音交互设备存在于用户周围，在用户与其他人交互时，语音交互设备可以获得语音信号110。在一些实施例中，语音信号110还可以是由语音交互设备接收的其他声音信号，例如电视机内的说话声。在一些实施例中，语音信号110是通过执行一次唤醒多次交互的语音交互设备获得的。上述示例仅是描述本公开，而非对本公开的具体限定。

语音交互设备可以具有相关联的声音采集器(例如，一个或多个麦克风)来采集用户的语音指令。语音交互设备还可以具有相关联的声音播放器(例如，一个或多个扬声器)来向播放声音。

语音交互设备可以是任何能够通过语音信号进行控制和/或交互的任何电子设备。语音交互设备的一些示例可以包括但不限于：智能音箱、语音交互电视盒、智能家电设备、语音家教机、智能机器人、地图导航设备、智能穿戴设备等。语音交互设备也可以是安装有语音交互应用的任何其他电子设备，语音交互应用诸如是语音助手应用、智能车机系统、信息搜索应用、地图应用、社交平台应用、音视频播放应用、智能助手应用等，可安装这样的语音交互应用的电子设备的示例可以但不限于智能手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电子书设备、游戏设备或者前述各项的任意组合。

例如，在语音交互设备是智能音箱的情况下，语音指令可以是“播放某某歌手的某某歌曲”等，语音交互设备在语音信号被正确识别后可以搜索对应的歌曲并且播放给用户。

在与语音交互设备的交互过程中，通常需要通过唤醒词将语音交互设备唤醒进入交互状态。语音交互设备可以支持一次唤醒多次交互。在一次唤醒多次交互的场景中，在唤醒语音交互设备后，只要设备处于工作状态，例如正在发出声音等，用户就无需要再次发出唤醒词，而是可以直接与语音交互设备进行交互。这降低了交互门槛，提高了用户交互意愿。在一些实施例中，如果交互属于查询类，例如询问天气，在语音交互设备回答完毕之后的一段时间内(例如一天)，用户也无需再次唤醒设备，即可继续进行交互。

语音信号110被传送到管理设备120中进行处理。管理设备120基于接收的语音信号110来确定出该语音信号110是否是用户发出的要用于使语音交互设备执行的命令。如果是，管理设备120将包括执行指令的信息130或包括要获得的内容的信息130发送给语音交互设备进行处理。

在一些实施例中，管理设备120是位于云端的计算设备，其用来处理由语音交互设备上传的语音数据。在一些实施例中，管理设备120与语音交互设备为同一设备。因此，语音信号110也可以由接收语音信号110的语音交互设备进行处理。语音交互设备直接识别语音信号110是否是要执行命令。在一些实施列中，管理设备120包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。

应当理解，图1示出的环境仅是示例性的，而非对本公开的具体限定。

上面图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的用于语音交互的方法200的流程图。方法200可以由图1中的管理设备120或其它任意合适的设备来实现。

在框202处，管理设备120基于接收的语音信号110的语音特征确定与语音信号110相对应的文本。管理设备120利用语音识别器对接收的语音信号110进行语音识别处理。通过语音识别器，可以将接收的语音信号110识别为对与语音信号110相对应的文本。在一些实施例中，语音信号110可以包括多种语音特征，例如但不限于声纹特征、语调特征或其他适当的用于描述语音的特征。应当理解，上述关于语音特征的举例仅是用于描述本公开的实施例，而非对本公开的具体限定。

管理设备120接收语音信号110。在一些实施例中，在管理设备120是处理语音信号110的设备时，管理设备120用于接收由语音交互设备实时上传的语音信号110。在一些实施例中，管理设备120与语音交互设备是相同的设备以直接在语音交互设备进行处理。

管理设备120还通过语音识别器从所接收的语音信号1110提取语音特征。语音识别器在生成与语音信号110相对应的文本时，也需要用于提取的语音特征。在一些实施例中，该语音特征为梅尔倒谱系数MFCC特征。上述示例仅是用于描述本公开，而非对本公开的具体限定。本领域技术人员可以依据需要设置语音特征由任意合适的参数来表示。

在框204处，管理设备120基于语音特征和文本，确定针对文本中的元素的参考语音特征与语音特征中的针对该元素的目标语音特征之间的匹配程度。在一些实施例中，该元素指的是文本中的字。在些实施例中，该元素指的文本中的一个音节。在一些实施例中，元素指的是文本中的一个字母。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，管理设备120从语音特征中确定出与文本中的元素相对应的参考语音特征。管理设备120内的对齐识别器利用识别的文本来确定出与文本中的每个元素相对应语音特征。

在确定与每个元素相对应的语音特征中，对齐识别器获得与每个元素相对应的标准语音特征。然后将获得的参考语音特征与语音特征进行比较，确定出与每个元素相对应的目标语音特征的起始时间和结束时间。因此，对齐识别器可以获得与文本中的元素相对应的由起始时间和结束时间确定的预定时长的目标语音特征。

管理设备120基于针对元素的参考语音特征和目标语音特征，管理设备120来确定参考语音特征和目标语音特征的匹配程度。

管理设备120在获得了针对每个元素的目标语音特征后，将目标语音特征和参考语音特征输入训练好的神经网络模型来确定出参考语音特征和目标语音特征的匹配程度。在一些实施例中，如果目标语音特征与参考语音特征匹配程度较高，则表示识别出的字准确。如是匹配程序较低，则表明识别的字不准确。然后基于针对每个元素的匹配程度，来确定针对获得的文本中所有元素的匹配程度。在一个实施例中，针对所有元素的匹配程度可以将针对每个元素的匹配程度求和，然后再求平均来确定。

在框206处，管理设备120基于文本确定语音信号110是可执行命令的第一可能性。管理设备120基于文本整体来确定接收的语音信号110是不是要与语音交互设备进行交互的语音信号。

通过文本确定语音信号是可执行命令的过程也是通过训练好的神经网络模型来实现的。该神经网络模型可以为神经网络NN，卷积神经网络CNN或递归神经网络RNN等。

在训练该神经网络模型时，以与语音交互设备进行语音交互的语音的文本作为正样本，以不是与语音交互设备进行语音交互的语音的文本作为负样本进行训练。因此，通过将文本输入该经过训练的神经网络可以确定出语音信号是与语音交互设备进行交互的置信度值，也即第一可能性。在一些实施例中，第一可能性的值在0和1之间。

在框208处，管理设备120基于语音特征确定语音信号110是可执行命令的第二可能性。

通过语音特征确定语音信号110是可执行命令的过程也是通过训练好的神经网络模型来实现的。该神经网络模型也可以为神经网络NN，卷积神经网络CNN或递归神经网络RNN等。在一些实施例中，用到的语音特征是梅尔倒谱系数MFCC特征。

在训练该神经网络模型时，以与语音交互设备进行语音交互的语音的语音特征作为正样本，以不是与语音交互设备进行语音交互的语音的语音特征作为负样本进行训练。因此，通过将语音特征输入该经过训练的神经网络可以确定出语音信号是与语音交互设备进行交互的置信度值，也即第二可能性。

在框210处，管理设备120基于匹配程度、第一可能性和第二可能性来确定与对语音信号110的处理有关的信息130。

管理设备120对获得的针对文本元素的匹配程度、第一可能性和第二可能性进行融合处理，来确定该语音信号110是不是与语音交互设备进行交互的语音信号。下面将结合图3详细描述基于匹配程度、第一可能性和第二可能性来确定与对语音信号110的处理有关的信息的过程。

通过该方法，可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应，以及如何对声音信号进行响应，从而实现更准确、智能地实现语音交互控制，提升用户体验。

上面结合图2描述了根据本公开的一些实施例的用于语音交互的方法200的流程图。下面结合图3详细描述图2中的框210处的确定与对语音信号的处理有关的信息的过程。图3示出了根据本公开的一些实施例的用于语音交互的方法300的流程图。图3中的方法300可以图1中的管理设备120或其它任意合适的设备来执行。

在框302处，管理设备120基于匹配程度、第一可能性、第二可能性来确定语音信号110是否是可执行命令。管理设备120在获得匹配程度、第一可能性、第二可能性时，还可以获得针对匹配程度的第一阈值，针对第一可能性的第二阈值，针对第二可能性的第三阈值。在一个实施例中，第一阈值设置为0.5，第二阈值设置为0.3，第三阈值设置为0.8。

在一些实施例中，在匹配程度大于第一阈值、第一可能性大于第二阈值和第二可能性大于第三阈值时，将语音信号110确定为可执行命令，即将语音信号110确定为是与语音交互设备进行交互的。

在一些实施例中，在匹配程度、第一可能性、第二可能性三个中有两个的值大于与其对应的阈值，并且比阈值高出预定比例时(例如比阈值高出20％)时，将该语音信号110确定为可执行命令，即将语音信号110确定为是与语音交互设备进行交互的。

如果确定出语音信号110不是可执行命令，即确定出语音信号110不是与语音交互设备进行交互的，则不再对该语音信号110进行处理。

在确定语音信号110是可执行命令，在框304处，管理设备120对语音信号110执行语义分析。在确定出语音信号110是用于与语音交互设备进行交互时，需要对该语音信号110进行进一步的处理。

在框306处，管理设备120基于语义分析的结果，确定与语音信号110相对应的处理模型。

在一个实施例中，管理设备120基于语义分析的结果，确定与文本相关的领域。在一些实施例中，确定文本相关的领域的过程也是通过训练好的神经网络模型来实现的。在训练该神经网络模型时采用预定的文本及其对应的领域来进行训练。在训练好该神经网络模型后，可以将文本输入神经网络模型，来直接获得与文本相对应的领域。

管理设备120从一组候选模型中选择针对领域的处理模型。在确定好文本的领域后，管理设备120从一组候选模型中选出与该领域相对应模型。在一些实施例中，该模型也是神经网络模型。在训练该模型时，以根据语义确定需要执行命令的文本作为正样本，以根据语义确定不需要执行的命令的文本作为负样本。

在框308处管理设备120通过将文本应用于处理模型，确定与对语音信号110的处理有关的信息130，信息130指示语音信号110是否将被处理。

将文本输入该神经网络模型时，可以从语义确定该文本是不是需要执行的命令的可能性。在一个实施例中，该值在0-1之间。可能性接近1表示是可执行的命令，而接近0表示该命令不是可执行的命令。

可以依据需要设置预定阈值来确定是否是要执行的命令。如果是要处理的命令，则执行相对应的动作。如果不是要执行的命令，则不进行任何操作。

通过上述方法，可以在通过确定是否是语音交互设备进行交互的语音后，再基于语义确定是否是要执行动作。可以提高语音交互过程中语音命令执行的准确性，保证了不会误执行语音命令，改善了用户体验。

图4示出了根据本公开实施例的用于语音交互的装置400的示意性框图。如图4所示，装置400可以包括文本确定模块402，其被配置为基于接收的语音信号的语音特征确定与语音信号相对应的文本。装置400还可以包括第一匹配程度确定模块404，其被配置为基于述语音特征和文本，确定针对文本中的元素的参考语音特征与语音特征中的针对元素的目标语音特征之间的匹配程度。装置400还可以包括第一可能性确定模块406，其被配置为基于文本确定所述语音信号是可执行命令的第一可能性。装置400还可以包括第二可能性确定模块408，其被配置为基于语音特征确定所述语音信号是可执行命令的第二可能性。装置400还可以包括第一信息确定模块410，其被配置为基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。

在一些实施例中，第一匹配程度确定模块404包括参考语音特征确定模块，其被配置为从语音特征中确定出与文本中的所述元素相对应的参考语音特征；以及第二匹配程度确定模块，其被配置为基于针对元素的所述参考语音特征和目标语音特征，来确定参考语音特征和目标语音特征的匹配程度。

在一些实施例中，所述第一信息确定模块410包括第一可执行命令确定模块，其被配置为基于匹配程度、第一可能性、第二可能性来确定语音信号是否是可执行命令；以及语义分析模块，其被配置为响应于确定语音信号是可执行命令，对语音信号执行语义分析；第一处理模型确定模块，其被配置为基于语义分析的结果，确定与述语音信号相对应的处理模型；以及第二信息确定模块，其被配置通过将文本应用于处理模型，确定与对语音信号的处理有关的信息，信息指示语音信号是否将被处理。

在一些实施例中，第一可执行命令确定模块包括第二可执行命令确定模块，其被配置响应于匹配程度大于第一阈值、第一可能性大于第二阈值和第二可能性大于第三阈值，将语音信号确定为所述可执行命令。

在一些实施例中，所述第一处理模型确定模块包括领域确定模块，其被配置为基于语义分析的结果，确定与文本相关的领域；以及第二处理模型确定模块，其被配置从一组候选模型中选择针对领域的处理模型。

在一些实施例中，用于语音交互的装置400还包括接收装置，其被配置为接收语音信号；以及提取装置，其被配置为从所接收的语音信号提取语音特征。

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。设备500可以用于实现图1中的管理设备120。如图所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如方法200和300。例如，在一些实施例中，方法200和300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的方法200和300的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于语音交互的方法，包括：

基于接收的语音信号的语音特征确定与所述语音信号相对应的文本；

基于所述语音特征和所述文本，确定针对所述文本中的元素的参考语音特征与所述语音特征中、针对所述元素的目标语音特征之间的匹配程度；

基于所述文本确定所述语音信号是可执行命令的第一可能性；

基于所述语音特征确定所述语音信号是所述可执行命令的第二可能性；以及

基于所述匹配程度、所述第一可能性和所述第二可能性来确定与对所述语音信号的处理有关的信息。

2.根据权利要求1所述的方法，其中确定所述匹配程度包括：

从所述语音特征中确定出与所述文本中的所述元素相对应的所述参考语音特征；以及

基于针对所述元素的所述参考语音特征和所述目标语音特征，来确定所述匹配程度。

3.根据权利要求1所述的方法，其中确定与对所述语音信号的处理有关的信息包括：

基于所述匹配程度、所述第一可能性、所述第二可能性来确定所述语音信号是否是所述可执行命令；

响应于确定所述语音信号是可执行命令，对所述语音信号执行语义分析；

基于所述语义分析的结果，确定与所述语音信号相对应的处理模型；以及

通过将所述文本应用于所述处理模型，确定与对所述语音信号的处理有关的信息，所述信息指示所述语音信号是否将被处理。

4.根据权利要求3所述的方法，其中确定所述语音信号是否是所述可执行命令包括：

响应于所述匹配程度大于第一阈值、所述第一可能性大于第二阈值和所述第二可能性大于第三阈值，将所述语音信号确定为所述可执行命令。

5.根据权利要求3所述的方法，其中确定与所述语音信号相对应的处理模型包括：

基于所述语义分析的结果，确定与所述文本相关的领域；以及

从一组候选模型中选择针对所述领域的所述处理模型。

6.根据权利要求1所述的方法，还包括：

接收所述语音信号；以及

从所接收的所述语音信号提取所述语音特征。

7.根据权利要求1所述的方法，其中所述语音特征包括声纹特征。

8.一种用于语音交互的装置，包括：

文本确定模块，被配置为基于接收的语音信号的语音特征确定与所述语音信号相对应的文本；

第一匹配程度确定模块，被配置为基于所述语音特征和所述文本，确定针对所述文本中的元素的参考语音特征与所述语音特征中、针对所述元素的目标语音特征之间的匹配程度；

第一可能性确定模块，被配置为基于所述文本确定所述语音信号是可执行命令的第一可能性；

第二可能性确定模块，被配置为基于所述语音特征确定所述语音信号是所述可执行命令的第二可能性；以及

第一信息确定模块，被配置为基于所述匹配程度、所述第一可能性和所述第二可能性来确定与对所述语音信号的处理有关的信息。

9.根据权利要求8所述的装置，其中所述第一匹配程度确定模块包括：

参考语音特征确定模块，被配置为从所述语音特征中确定出与所述文本中的所述元素相对应的所述参考语音特征；

第二匹配程度确定模块，被配置为基于针对所述元素的所述参考语音特征和所述目标语音特征，来确定所述匹配程度。

10.根据权利要求8所述的装置，其中所述第一信息确定模块包括：

第一可执行命令确定模块，被配置为基于所述匹配程度、所述第一可能性、所述第二可能性来确定所述语音信号是否是所述可执行命令；以及

语义分析模块，被配置为响应于确定所述语音信号是可执行命令，对所述语音信号执行语义分析；

第一处理模型确定模块，被配置为基于所述语义分析的结果，确定与所述语音信号相对应的处理模型；以及

第二信息确定模块，被配置通过将所述文本应用于所述处理模型，确定与对所述语音信号的处理有关的信息，所述信息指示所述语音信号是否将被处理。

11.根据权利要求10所述的装置，其中所述第一可执行命令确定模块包括：

第二可执行命令确定模块，被配置响应于所述匹配程度大于第一阈值、所述第一可能性大于第二阈值和所述第二可能性大于第三阈值，将所述语音信号确定为所述可执行命令。

12.根据权利要求10所述的装置，其中所述第一处理模型确定模块包括：

领域确定模块，被配置为基于所述语义分析的结果，确定与所述文本相关的领域；以及

第二处理模型确定模块，被配置从一组候选模型中选择针对所述领域的所述处理模型。

13.根据权利要求8所述的装置，还包括：

接收装置，被配置为接收所述语音信号；以及

提取装置，被配置为从所接收的所述语音信号提取所述语音特征。

14.根据权利要求8所述的装置，其中所述语音特征包括声纹特征。

15.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。