CN103456299B

CN103456299B - 一种控制语音识别的方法和装置

Info

Publication number: CN103456299B
Application number: CN201310332030.8A
Authority: CN
Inventors: 曹立新
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2016-06-15
Anticipated expiration: 2033-08-01
Also published as: CN103456299A

Abstract

本发明提供了一种控制语音识别的方法和装置，其中方法包括：通过图像采集装置获取用户的行为图像；若所述用户的行为图像满足语音识别功能的启动条件，则启动语音识别功能，开始获取用户输入的语音。本发明可以通过非接触的方式实现语音识别功能的启动，无需用户点击指定按钮，实现更加方便。

Description

一种控制语音识别的方法和装置

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种控制语音识别的方法和装置。

【背景技术】

语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一，如今其应用领域已经十分广泛，诸如：语音输入系统，其相对于键盘输入法更符合人的日常习惯，更自然、更高效；也可以应用于诸如工业控制、语音拨号系统、智能家电、声控智能玩具等；近期更出现了智能对话控制系统，根据用户的语音操作，除了进行相应的控制处理之外，为用户提供更自然逼真的语音反馈，诸如最近较热门的siri（苹果智能语音助手）。

现有的语音识别装置，诸如智能家电，需要用户手持遥控器，点击相应的按钮才能启动语音识别功能，很不方便。手机上语音识别功能的app则需要用户点击麦克风，但诸如用户在开车等情况下，并不方便用手对手机进行点击的操作。

【发明内容】

有鉴于此，本发明提供了一种控制语音识别的方法和装置，以便于更方便地启动语音识别功能。

具体技术方案如下：

一种控制语音识别的方法，该方法包括：

通过图像采集装置获取用户的行为图像；

若所述用户的行为图像满足语音识别功能的启动条件，则启动语音识别功能，开始获取用户输入的语音。

根据本发明一优选实施方式，所述用户的行为图像包括：表情图像、手势图像或形体图像。

根据本发明一优选实施方式，该方法还包括：预先根据设置的语音识别启动行为训练分类模型，得到语音识别启动模型；

利用所述语音识别启动模型对所述用户的行为图像进行分类，若分类结果为语音识别启动行为，则确定所述用户的行为图像满足语音识别功能的启动条件。

根据本发明一优选实施方式，所述预先根据设置的语音识别启动行为训练分类模型，得到语音识别启动模型具体包括：

获取训练数据，所述训练数据包括设置的语音识别启动行为图像和其他行为图像；

将语音识别启动行为图像作为正样本数据，所述其他行为图像作为负样本数据，训练分类模型，得到所述语音识别启动模型。

根据本发明一优选实施方式，该方法还包括：

启动语音识别功能之后，通过图像采集装置采集用户的表情图像；

利用情感识别模型对采集的表情图像进行识别，确定用户的情感。

根据本发明一优选实施方式，该方法还包括：

利用情感识别模型对满足语音识别功能的启动条件的用户的表情图像进行识别，确定用户的情感。

根据本发明一优选实施方式，该方法还包括：预先针对不同情感分别训练语音识别模型；

利用确定的所述用户的情感对应的语音识别模型，对所述用户输入的语音进行语音识别，得到语音识别结果。

根据本发明一优选实施方式，该方法还包括：

在针对语音识别结果的进一步处理进行语音反馈时，采用与确定出的所述用户的情感相对应的语音合成方式。

根据本发明一优选实施方式，所述采用与确定出的所述用户的情感相对应的语音合成方式具体包括：

预先针对同一内容分别设置不同情感对应的语音片段；

利用确定出的所述用户的情感对应的语音片段进行语音合成，得到语音反馈。

一种控制语音识别的装置，该装置包括：

获取单元，用于通过图像采集装置获取用户的行为图像；

判断单元，用于判断所述用户的行为图像是否满足语音识别功能的启动条件，如果是，触发启动单元；

启动单元，用于收到所述判断单元的触发后，启动语音识别装置以使语音识别装置开始获取用户输入的语音。

根据本发明一优选实施方式，所述判断单元具体用于，利用语音识别启动模型对所述用户的行为图像进行分类，若分类结果为语音识别启动行为，则确定所述用户的行为图像满足语音识别功能的启动条件；

其中所述语音识别启动模型是预先根据设置的语音识别启动行为训练分类模型所得到的。

根据本发明一优选实施方式，该装置还包括：模型训练单元，用于获取训练数据，所述训练数据包括设置的语音识别启动行为图像和其他行为图像，将语音识别启动行为图像作为正样本数据，所述其他行为图像作为负样本数据，训练分类模型，得到所述语音识别启动模型。

根据本发明一优选实施方式，该装置还包括情感识别单元；

所述获取单元，还用于在所述启动语音识别功能之后，通过图像采集装置采集用户的表情图像；

所述情感识别单元，用于利用情感识别模型对采集的表情图像进行识别，确定用户的情感。

根据本发明一优选实施方式，该装置还包括情感识别单元，用于利用情感识别模型对满足语音识别功能的启动条件的用户的表情图像进行识别，确定用户的情感。

根据本发明一优选实施方式，所述语音识别装置，用于利用所述情感识别单元确定的所述用户的情感对应的语音识别模型，对所述用户输入的语音进行语音识别，得到语音识别结果；

其中预先针对不同情感分别训练了语音识别模型。

根据本发明一优选实施方式，该装置还包括：语音反馈单元，用于在针对语音识别结果的进一步处理进行语音反馈时，采用与确定出的所述用户的情感相对应的语音合成方式。

根据本发明一优选实施方式，所述语音反馈单元具体用于，预先针对同一内容分别设置不同情感对应的语音片段，利用确定出的所述用户的情感对应的语音片段进行语音合成，得到语音反馈。

由以上技术方案可以看出，本发明通过图像采集装置捕捉用户行为，当用户行为满足语音识别功能的启动条件时，启动语音识别功能。即本发明可以通过非接触的方式实现语音识别功能的启动，更加方便。

【附图说明】

图1为本发明实施例一提供的控制语音识别的方法流程图；

图2为本发明实施例二提供的控制语音识别的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供了一种非接触式的语音识别功能启动方式，具体通过图像采集装置获取用户的行为图像，若用户的行为图像满足语音识别功能的启动条件，则启动语音识别功能，即开始获取用户输入的语音并进行语音识别。

本发明涉及的图像采集装置可以是但不限于摄像头，获取的用户的行为图像可以包括但不限于用户的表情图像、手势图像、形体图像等。下面通过实施例一对本发明提供的控制语音识别的方法进行详细描述。

实施例一、

图1为本发明实施例一提供的控制语音识别的方法流程图，在本实施例中仅以表情图像和手势图像作为用户行为图像进行描述，如图1所示，该方法包括以下步骤：

在步骤101中，预先根据设置的语音识别启动表情图像和手势图像训练分类模型，得到语音识别启动模型。

具体地，首先获取训练数据，在该训练数据中包含有设置的用于语音识别启动的表情图像和手势图像，在此称为语音识别启动表情图像和语音识别启动手势图像，例如将剪刀手、ok手势、微笑、眨眼作为语音识别启动手势图像和表情图像，这部分图像作为正样本数据；另外为了提高训练出的语音识别启动模型的识别准确性，在训练数据中还包括负样本数据，即除了语音识别启动表情图像和语音识别启动手势图像之外的其他表情图像和手势图像。

然后利用这些训练数据训练分类模型，分类模型可以是诸如SVM（SupportVectorMachine，支持向量机）、DNN（DeepNeuralNetwork，深度神经网络）等。分类模型的训练过程是已有技术，在此不再赘述，分类模型在训练过程中采用了图像识别技术，从训练数据的各图像中提取图像特征进行分类模型的训练，最终训练得到的分类模型就是语音识别启动模型，对于输入该语音识别启动模型的图像能够被分类为语音识别启动图像或非语音识别启动图像。

在训练好语音识别启动模型后，利用该语音识别启动模型进行语音识别功能的启动时，执行以下步骤，即开始执行步骤102。

在步骤102中，获取用户的行为图像。当语音识别装置所在的设备打开时，图像采集装置可以自动启动，例如摄像头同时启动开始实时捕捉用户行为。

在步骤103中利用语音识别启动模型对获取的用户的行为图像进行识别，判断是否满足语音识别功能的启动条件，如果是，执行步骤104；否则，转至执行步骤102，继续获取用户的行为图像。

实际上本步骤是利用语音识别启动模型对获取的用户的行为图像进行分类，若分类结果是语音识别启动图像，则认为满足语音识别功能的启动条件，例如用户摆出剪刀手，手机摄像头获取到该剪刀手的图像，语音识别启动模型对其进行分类后确定其为语音识别启动手势图像，就认为满足语音识别功能的启动条件。若分类结果非语音识别启动图像，则认为不满足语音识别功能的启动条件，继续进行用户的行为图像的获取。

步骤104，启动语音识别装置，开始获取用户输入的语音。

即开始启动语音识别装置中的麦克风开始获取用户输入的语音。

步骤105：在启动语音识别装置之后，图像采集装置采集用户的表情图像，利用情感识别模型对采集的表情图像进行识别，确定用户的情感。

在本发明实施例中预先获取关于用户情感的训练数据，这部分训练数据是大量用户的表情图像，各表情图像对应有用户的情感，比如用户微笑的表情对应高兴的情感，用户皱眉的表情对应生气的情感、用户流泪的表情对应哭泣的情感等等，利用这些训练数据训练分类模型，得到情感识别模型，通过情感识别模型就能够识别出用户的表情图像对应的情感。类似地，分类模型可以是诸如SVM、DNN等。分类模型的训练过程是已有技术，在此不再赘述，分类模型在训练过程中采用了图像识别技术，从训练数据的各图像中提取图像特征进行分类模型的训练。

除了本步骤中所述的图像采集装置在启动语音识别装置之后采集用户的表情图像来确定用户情感，如果启动语音识别功能的行为图像是表情图像，则也可以利用启动语音识别的表情图像来确定用户情感。这种情况下，可以设置多种启动语音识别的表情图像，例如包含高兴、生气、哭泣的表情图像，这些启动语音识别的表情图像除了能够启动语音识别功能之外，也能够体现出用户当前的情感，以用来在步骤106中辅助进行语音识别。

确定的用户情感可以包括但不限于高兴、生气、哭泣等。当然也可以有更细粒度的用户情感分类，在此不再一一穷举。

步骤106：利用确定的情感所对应的语音识别模型对用户输入的语音进行识别，得到语音识别结果。

由于用户在不同情感状况下语音通常表现出很大的不同，例如声调、表达等的不同，在本发明中可以预先针对不同的情感分别训练语音识别模型，例如高兴对应的语音识别模型、生气对应的语音识别模型、哭泣对应的语音识别模型等。以高兴对应的语音识别模型为例，采集大量用户在高兴时的语音数据，利用这些语音数据来训练语音识别模型，从而得到高兴对应的语音识别模型，对语音识别模型的训练过程与现有技术相同，不同的只是采用的训练数据有差别。

在步骤105确定出当前用户的情感后，对用户输入的语音进行识别时就采用与该情感所对应的语音识别模型，这样得到的识别结果具有更高的准确性。

在获取了语音识别结果之后，具体利用语音识别结果进行如何更进一步地应用本发明并不加以限制，例如可以利用语音识别结果进行搜索、查询、控制（例如控制智能家电的某个功能）等等。若针对语音识别结果存在语音反馈，较典型的应用即siri，会根据语音识别结果进行进一步的处理后，将处理结果进行语音反馈，那么本发明实施例中提供了一种优选地语音反馈方式，即在步骤107中，根据步骤105确定出的情感，在针对语音识别结果的进一步处理进行语音反馈时，采用与确定出的情感相对应的语音合成方式。

语音反馈是将语音片段进行语音合成后得到的，现有技术中各语音片段是单一的，在本发明实施例中，可以针对不同的情感设置不同的语音片段，例如针对同一内容分别设置高兴对应的语音片段，生气对应的语音片段，哭泣对应的语音片段等，利用确定出的情感对应的语音片段进行语音合成，得到的语音反馈就可以是与各情感对应的语气，例如高兴对应的语音反馈的语气比较欢快，生气对应的预期比较缓和，哭泣对应的语音片段比较悲伤等。

在此，举一个实例，假设通过预先训练语音识别启动模型，使得剪刀手和眨左眼为语音识别启动行为。这样，用户对着手机摆出剪刀手的手势或者眨左眼的表情时，手机的摄像头捕捉到用户的该手势或表情图像，经过语音识别启动模型的分类，确定为语音识别启动行为图像，启动语音识别装置，麦克风被开启接收用户输入的语音。

在语音识别装置启动后，摄像头持续捕捉用户的表情图像，经过表情识别模型的识别，假设用户在输入某段语音过程中处于微笑状态，则可以识别出用户的情绪为高兴，在进行语音识别时，利用高兴对应的语音识别模型进行语音识别，这样更能够匹配用户的声调和表达，识别准确率更高。

假设此时用户使用的是诸如siri的智能语音助手，用户输入的语音为“北京天气怎么样？”，进行语音识别后会进一步查询北京天气，将查询结果通过语音反馈给用户。在进行语音反馈时，将反馈结果的各语音片段都采用高兴的情绪所对应的语音片段，在将语音片段进行合成后形成的语音反馈就十分的欢快，从而更符合用户当前的情绪，用户体验更好，也更有趣。

以上是对本发明所提供的方法进行的详细描述，下面通过实施例二对本发明提供的装置进行详细描述。

实施例二、

图2为本发明实施例二提供的控制语音识别的装置结构图，该控制语音识别的装置与被控的语音识别装置存在连接关系，并与图像采集装置存在连接关系，这里的图像采集装置可以采用但不限于摄像头。以手机为例，本发明提供的控制语音识别的装置用于控制手机中的语音识别装置，并与手机的摄像头存在连接关系，能够获取摄像头拍摄的图像。如图2所示，该装置包括：获取单元01、判断单元02和启动单元03。

其中，获取单元01通过图像采集装置获取用户的行为图像。其中用户的行为图像包括：表情图像、手势图像或形体图像。

然后判断单元02判断用户的行为图像是否满足语音识别功能的启动条件，如果是，触发启动单元03。

具体地，判断单元02可以利用语音识别启动模型对用户的行为图像进行分类，若分类结果为语音识别启动行为，则确定用户的行为图像满足语音识别功能的启动条件；其中语音识别启动模型是预先根据设置的语音识别启动行为训练分类模型所得到的。

为了实现语音识别模型的训练，该装置还可以包括模型训练单元04，用于获取训练数据，训练数据包括设置的语音识别启动行为图像和其他行为图像，其中语音识别启动行为图像是用于语音识别启动的行为图像，例如将剪刀手、ok手势、微笑、眨眼等作为语音识别启动手势图像和表情图像；然后将语音识别启动行为图像作为正样本数据，其他行为图像作为负样本数据，训练分类模型，得到语音识别启动模型。这里采用的分类模型可以是诸如SVM、DNN等分类模型，分类模型的训练过程是已有技术，在分类模型的训练过程中采用了图像识别技术，从训练数据的各图像中提取图像特征进行分类模型的训练，最终训练得到的分类模型就是语音识别启动模型，对于输入该语音识别启动模型的图像能够被分类为语音识别启动图像或非语音识别启动图像。

启动单元03收到判断单元02的触发后，启动语音识别装置05以使语音识别装置05开始获取用户输入的语音。例如就可以开启语音识别装置中的麦克风开始获取用户输入的语音。

更进一步地，该控制语音识别的装置还可以包括情感识别单元06。上述的获取单元01在启动语音识别功能之后，可以通过图像采集装置采集用户的表情图像。此时，情感识别单元06利用情感识别模型对采集的表情图像进行识别，确定用户的情感。

或者，情感识别单元06利用情感识别模型对满足语音识别功能的启动条件的用户的表情图像进行识别，确定用户的情感。确定的用户情感可以包括但不限于高兴、生气、哭泣等。当然也可以有更细粒度的用户情感分类，在此不再一一穷举。

由于用户在不同情感状况下语音通常表现出很大的不同，因此，为了提高语音识别的准确性，语音识别装置05可以利用情感识别单元06确定的用户的情感对应的语音识别模型，对用户输入的语音进行语音识别，得到语音识别结果，其中预先针对不同情感分别训练了语音识别模型。例如高兴对应的语音识别模型、生气对应的语音识别模型、哭泣对应的语音识别模型等。以高兴对应的语音识别模型为例，采集大量用户在高兴时的语音数据，利用这些语音数据来训练语音识别模型，从而得到高兴对应的语音识别模型，对语音识别模型的训练过程与现有技术相同，不同的只是采用的训练数据有差别。

在获取了语音识别结果之后，具体利用语音识别结果进行如何更进一步地处理本发明并不加以限制，例如可以利用语音识别结果进行搜索、查询、控制（例如控制智能家电的某个功能）等等。若针对语音识别结果存在语音反馈，较典型的应用即siri，则该控制语音识别的装置还可以包括：语音反馈单元07，用于在针对语音识别结果的进一步处理进行语音反馈时，采用与确定出的用户的情感相对应的语音合成方式。

具体地，可以预先针对同一内容分别设置不同情感对应的语音片段，利用确定出的用户的情感对应的语音片段进行语音合成，得到语音反馈。例如针对同一内容分别设置高兴对应的语音片段，生气对应的语音片段，哭泣对应的语音片段等，利用确定出的情感对应的语音片段进行语音合成，得到的语音反馈就可以是与各情感对应的语气，例如高兴对应的语音反馈的语气比较欢快，生气对应的预期比较缓和，哭泣对应的语音片段比较悲伤等。

通过本发明提供的上述方法和装置，在诸如用户开车过程等不方便准确点击手机的麦克风按钮情况下，可以通过特定表情或者手势来启动语音识别功能，实现更加方便。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种控制语音识别的方法，其特征在于，

获取训练数据，所述训练数据包括语音识别启动行为图像和其他行为图像，其中所述行为图像包括表情图像；

将语音识别启动行为图像作为正样本数据，所述其他行为图像作为负样本数据，训练分类模型，得到语音识别启动模型；

该方法包括：通过图像采集装置获取用户的行为图像；若根据所述语音识别启动模型确定所述用户的行为图像满足语音识别功能的启动条件，则启动语音识别功能，开始获取用户输入的语音。

2.根据权利要求1所述的控制语音识别的方法，其特征在于，根据所述语音识别启动模型确定所述用户的行为图像满足语音识别功能的启动条件包括：

3.根据权利要求1所述的控制语音识别的方法，其特征在于，该方法还包括：

4.根据权利要求1所述的控制语音识别的方法，其特征在于，该方法还包括：

5.根据权利要求3或4所述的控制语音识别的方法，其特征在于，该方法还包括：预先针对不同情感分别训练语音识别模型；

6.根据权利要求5所述的控制语音识别的方法，其特征在于，该方法还包括：

7.根据权利要求6所述的控制语音识别的方法，其特征在于，所述采用与确定出的所述用户的情感相对应的语音合成方式具体包括：

预先针对同一内容分别设置不同情感对应的语音片段；

8.一种控制语音识别的装置，其特征在于，该装置包括：

模型训练单元，用于获取训练数据，所述训练数据包括语音识别启动行为图像和其他行为图像，将语音识别启动行为图像作为正样本数据，所述其他行为图像作为负样本数据，训练分类模型，得到语音识别启动模型，其中所述行为图像包括表情图像；

获取单元，用于通过图像采集装置获取用户的行为图像；

判断单元，根据所述语音识别启动模型判断所述用户的行为图像是否满足语音识别功能的启动条件，如果是，触发启动单元；

9.根据权利要求8所述的控制语音识别的装置，其特征在于，所述判断单元具体用于，利用语音识别启动模型对所述用户的行为图像进行分类，若分类结果为语音识别启动行为，则确定所述用户的行为图像满足语音识别功能的启动条件。

10.根据权利要求8所述的控制语音识别的装置，其特征在于，该装置还包括情感识别单元；

所述获取单元，还用于在所述启动语音识别装置之后，通过图像采集装置采集用户的表情图像；

11.根据权利要求8所述的控制语音识别的装置，其特征在于，该装置还包括情感识别单元，用于利用情感识别模型对满足语音识别功能的启动条件的用户的表情图像进行识别，确定用户的情感。

12.根据权利要求10或11所述的控制语音识别的装置，其特征在于，所述语音识别装置，用于利用所述情感识别单元确定的所述用户的情感对应的语音识别模型，对所述用户输入的语音进行语音识别，得到语音识别结果；

其中预先针对不同情感分别训练了语音识别模型。

13.根据权利要求12所述的控制语音识别的装置，其特征在于，该装置还包括：语音反馈单元，用于在针对语音识别结果的进一步处理进行语音反馈时，采用与确定出的所述用户的情感相对应的语音合成方式。

14.根据权利要求13所述的控制语音识别的装置，其特征在于，所述语音反馈单元具体用于，预先针对同一内容分别设置不同情感对应的语音片段，利用确定出的所述用户的情感对应的语音片段进行语音合成，得到语音反馈。