CN109597883B

CN109597883B - 一种基于视频采集的语音识别装置和方法

Info

Publication number: CN109597883B
Application number: CN201811562097.XA
Authority: CN
Inventors: 廖裕民; 郑柏春
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2021-06-18
Anticipated expiration: 2038-12-20
Also published as: CN109597883A

Abstract

本发明公开一种基于视频采集的语音识别装置和方法，其中方法包括步骤：获取声音信息；对声音信息进行识别得到语义信息；获取图像信息的中人脸图像；根据人脸分类神经网络数据和人脸图像识别人脸图像对应的用户信息；根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放，所述存储的对应关系为存储用户信息、问题和答案的对应关系；播放语音信号的声音。区别于现有技术，上述技术方案通过人脸图像采集和匹配，可以在语音回答时针对不同的用户做出不同的答复内容；以及针对不同用户会进行主动学习和完善。

Description

一种基于视频采集的语音识别装置和方法

技术领域

本发明涉及语音识别领域，尤其涉及一种基于视频采集的语音识别装置和方法。

背景技术

当前技术中,现有的电子设备或者机器人可以实现人机语音交互，如现有的智能音箱设备可以对用户的语音进行响应和回答,但是还有很多的不足：

1.当前技术的智能音箱对不同的用户不会做出不同的回答,回答响应内容不会根据用户的不同而针对性的产生变化,没有用户粘性；

2.只能被动接受问题,而不会主动向用户提出问题,与自然状态下的人与人聊天完全不同。感觉不自然；

3.只能通过声音进行用户判断,信息源过少,容易产生误判；

4.不会针对不同用户去主动学习各个用户的各种习惯。不够人性化。

发明内容

为此，需要提供一种基于视频采集的语音识别方案，解决现有语音识别无法区分不同用户的问题。

为实现上述目的，发明人提供了一种基于视频采集的语音识别装置，包括如下单元：

摄像头、麦克风、人脸检测单元、人脸分类运算单元、神经网络参数单元、问题应答处理单元、扩音器、语音识别单元和用户信息存储单元，其中：

麦克风用于获取声音信息；

语音识别单元用于对声音信息进行识别得到语义信息；

用户信息存储单元用于存储用户信息、问题和答案的对应关系；

人脸检测单元用于获取图像信息的中人脸图像；

神经网络参数单元用于存储人脸分类神经网络数据；

人脸分类运算单元用于根据人脸分类神经网络数据和人脸图像识别人脸图像对应的用户信息；

问题应答处理单元用于根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放；

如果没有匹配到对应的答案则根据识别用户的心情信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放；

扩音器用于播放语音信号的声音。

进一步地，还包括单元：主动问题开启判断单元、主动问题选择单元和主动问题存储单元，其中：

主动问题存储单元用于存储主动问题；

主动问题开启判断单元用于判断是否达到预设的主动问题开启条件；

主动问题选择单元用于选择主动问题；

问题应答处理单元还用于将选择的主动问题转换为语音信号后送到扩音器上播放。

进一步地，还包括单元：提问触发单元、随机数产生单元，其中：

提问触发单元用于判断是否满足触发条件，在满足触发条件后使能随机数产生单元；

随机数产生单元用于根据随机数种子产生随机数；

主动问题开启判断单元用于根据随机数判断是否达到预设的主动问题开启条件；

主动问题选择单元用于根据随机数选择主动问题；

所述触发条件包括超时触发或者敏感词触发。

进一步地，还包括单元：信息提取单元，信息提取单元用于从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。

进一步地，还包括单元：关键字唤醒单元，关键字唤醒单元用于检测麦克风声音是否包含有关键字，并在包含有关键字时使能人脸检测单元和语音识别单元。

进一步地，所述主动问题存储单元用于存储按照树状排列的主动问题，树状排列的主动问题包括多级的多个问题，每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题，以及每个问题与用户信息的关联关系，所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系；

主动问题选择单元用于根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息从主动问题存储单元中查找提问的问题内容，主动问题选择单元用于在主动问题存储单元匹配到的问题已经存在和用户信息相关的关联关系时，在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。

本发明还提供一种基于视频采集的语音识别方法，包括如下步骤：

获取声音信息；

对声音信息进行识别得到语义信息；

获取图像信息的中人脸图像；

根据人脸分类神经网络数据和人脸图像识别人脸图像对应的用户信息；

根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放，所述存储的对应关系为存储用户信息、问题和答案的对应关系；

播放语音信号的声音。

进一步地，还包括步骤：

判断是否达到预设的主动问题开启条件；

在达到主动问题开启条件后选择主动问题；

将选择的主动问题转换为语音信号后送到扩音器上播放。

进一步地，还包括步骤：

判断是否满足触发条件，在满足触发条件后根据随机数种子产生随机数；

根据随机数判断是否达到预设的主动问题开启条件；

在达到预设的主动问题开启条件后根据随机数选择主动问题；

所述触发条件包括超时触发或者敏感词触发。

进一步地，还包括步骤：

从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。

进一步地，获取声音信息后还包括步骤：

检测麦克风声音是否包含有关键字，并在包含有关键字时对声音信息进行识别得到语义信息。

进一步地，主动问题按照树状排列，树状排列的主动问题包括多级的多个问题，每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题，以及每个问题与用户信息的关联关系，所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系；

本方法还包括步骤：根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息查找提问的问题内容，如果在主动问题存储单元匹配到的问题已经存在和用户信息相关的关联关系，则在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。

区别于现有技术，上述技术方案1、通过人脸图像采集和匹配，可以在语音回答时针对不同的用户做出不同的答复内容；2、可以主动发出提问，在提出问题的同时对用户数据库进行学习和完善；3、在通过声音识别用户的同时加入视频图像识别来确认不同的用户,大幅减少误判几率；4、针对不同用户会进行主动学习和完善。

附图说明

图1为具体实施方式所述的方法流程图；

图2为具体实施方式所述的装置结构图。

附图标记说明：

201、摄像头； 202、麦克风；

203、人脸检测单元； 204、人脸分类运算单元；

205、神经网络参数单元； 206、问题应答处理单元；

207、扩音器； 208、语音识别单元；

209、用户信息存储单元； 210、主动问题开启判断单元；

211、主动问题选择单元； 212、主动问题存储单元；

213、提问触发单元； 214、随机数产生单元；

215、敏感词存储单元； 216、信息提取单元；

217、关键字唤醒单元。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1到图2，本实施例提供一种基于视频采集的语音识别方法，可以应用在图2的装置上，包括如下步骤：步骤S101获取声音信息；步骤S102对声音信息进行识别得到语义信息；步骤S103获取图像信息的中人脸图像；步骤S104根据人脸分类神经网络数据和人脸图像识别人脸图像对应的用户信息；步骤S105根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放，所述存储的对应关系为存储用户信息、问题和答案的对应关系；步骤S106如果没有匹配到对应的答案则根据识别用户的心情信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放；步骤S107播放语音信号的声音。本方法通过采集对应的人脸信息，自动匹配对应的用户信息，并根据用户声音信息识别出用户的语义信息，即用户的问题信息；而后根据存储的用户、问题和答案的对应关系，匹配出与用户相关的答案，进行有针对性的回答，提高用户体验。声音识别或者称语音活动检测(Voice Activity Detection)可以采用现有的技术，如可以采用RNN(循环神经网络，Recurrent Neural Network)语音识别的方式。

其中，步骤S104中，人脸分类神经网络数据是预存在装置内的，这个数据可以通过对人脸信息进行神经网络训练得到。训练阶段需要用户对装置中的CNN(ConvolutionalNeural Network,卷积神经网络)人脸分类运算单元进行神经网络参数训练,使其能够正确对经常使用该设备的几个用户人脸图像进行分辨识别。具体训练方法如下：

开启摄像头,可以用语音提示用户对准摄像头开始人脸识别。当人脸检测单元检测到人脸后，先设置当前进行训练的是用户1,然后让用户1继续进行图像采集,摄像头采集图像供人脸检测单元进行人脸检测,人脸检测将检测到的人脸图像送往CNN人脸分类运算单元进行训练。当训练图像达到一定数量,并且识别正确率达到预设值(比如90％)后,完成用户1的训练，此时可以语音提醒用户1已经完成训练。同时可以存储用户1的人脸图像，后续如果采集到的人脸图像与该人脸图像相匹配，则当前采集的人脸对应的用户即为用户1。

而后开始用户2的训练,训练过程一样,当训练图像达到一定数量,并且识别正确率达到预设值(比如90％)后,完成用户2的训练。当所有用户完成训练后,将训练得到的网络参数送往神经网络参数单元。同时将用户信息存储起来，可以存储在装置的存储器上或者是网络数据库上。在识别的时候，人脸信息识别单元还用于在训练阶段负责识别人脸的一些基本信息,比如性别,年龄等。并将这些信息作为用户的基本信息存储到该用户的存储器或者数据库中。而后在进行人脸识别的时候就可以识别到对应的用户信息。本发明中，心情信息可以根据人脸图像识别得到，现有根据图像识别心情有较多现有技术，在此不再赘述。当然，在某些实施例中，如果没有识别到人脸，则不会有心情信息，则可以直接通过网络到服务器上查找语义信息对应的问题的通用答案或者回答，避免出现无响应的情况。

为了实现与用户的交互，本发明方法还包括步骤：判断是否达到预设的主动问题开启条件；在达到主动问题开启条件后选择主动问题；将选择的主动问题转换为语音信号后送到扩音器上播放。这样在满足一定条件时，本发明可以实现对用户的询问，而并非单纯地响应用户的问题。主动问题开启的条件可以有多种，如采集到人脸后就可以发出问题，如确认用户基本信息或者询问用户是否操作等。

在某些实施例中，还可以采用随机数的方式进行随机问题的选择，本发明还包括步骤：判断是否满足触发条件，在满足触发条件后根据随机数种子产生随机数；根据随机数判断是否达到预设的主动问题开启条件；在达到预设的主动问题开启条件后根据随机数选择主动问题；所述触发条件包括超时触发或者敏感词触发。其中，随机数种子可以由随机数种子产生单元产生，用于向随机数产生单元提供随机数产生所需要的种子。一般需要一个随机变化的数字，如高精度的温度或者湿度传感器。由于高精度传感器的特性,决定了其低位的采样数字是一直在随机变化飘动的,可以采用传感器的采样值低位作为随机种子。还可以采用高精度定时器的低位作为随机数种子。随机数产生的方法现有有很多种，在此不再赘述。根据随机数判断是否达到预设的主动问题开启条件具体可以是收到随机数后，根据用户配置的提问比例,判断是否本次问题回答完毕后是否主动对用户进行提问。本发明的可配置的提问比例可选项为1/2的幂次,比如1/2,1/4,1/8,1/16。因为随机数每1bit是0的概率为50％,则如果用户配置提问概率为50％则取随机数1bit为零时打开本次的主动提问；如果用户配置提问概率为25％则取2bit都为零时打开本次的主动提问；如果用户配置提问概率为12.5％则取3bit都为零时打开本次的主动提问。根据随机数选择主动问题可以根据随机数不同的值对应的主动问题列表的顺序选择出主动问题，这样主动问题可以更加多样性。

触发条件用于触发随机数的产生，包含超时触发或者敏感词触发,超时触发即用户停止说话后超过时间后触发，该时间可以根据用户配置，如用户停止说话10秒,触发提问。敏感词触发方法即当用户语音识别结果中包含敏感词表中的词语时,触发提问。比如用户说:"现在好无聊",而"无聊"为敏感词,则触发主动提问。通过主动的触发，可以保持与用户直接的互动，避免出现长时间也用户不存在互动的情况。

主动问题的排序与匹配也会大大影响提问的精准度，本发明为了提高提问精准度，将主动问题按照树状排列，树状排列的主动问题包括多级的多个问题，每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题，以及每个问题与用户信息的关联关系，所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系；本方法还包括步骤：根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息查找提问的问题内容，如果在主动问题存储单元匹配到的问题已经存在和用户信息相关的关联关系，则在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。这样用户的问题每次都根据用户的回答做最相关的匹配，从而实现问题的连贯性。

以一个具体的例子为例，主动问题的第一级树状可以将问题划分为多个类别，每个类别对应有不同的一个问题，本实施例的类别仅仅为了便于理解，由于类别只对应一个问题，类别在实际应用的时候可以不需要。类别关键字用于与用户回答建立起对应关系，从而根据用户的回答或者提问来确定主动提问的问题。比如第一级树状分支下的可以分类为:心情,体育,电影,音乐,家庭,工作,天气。每个分类对应有一个问题，如"音乐"大类的问题为"您喜欢什么类型音乐"，"电影"大类的问题为"您喜欢什么类型电影"等。而后根据用户对话内容来确定对话是属于哪个类别。如用户对话为"请查询这个音乐的作者",则根据该对话的信息内容匹配为"音乐"大类,则可以向用户提问的问题为"您喜欢什么类型音乐"。每一个问题具有对应的不同回答的类别，这些类别也对应有不同的问题，这些问题即作为下一级的问题，即每级的问题都由上一级问题的不同回答来对应。如音乐的下一级分支为古典,现代,摇滚，每个类别又对应一个问题。然后根据用户回答,再决定是哪个类别后就可以提出下一级的问题。

当然，如果匹配不到类别，即匹配不到问题，则可以随机在本级的多个问题里面抽出一个进行提问。提问的时机可以上述的超时触发的时机，即超时后，开始进行提问。在实际应用时，一般是由用户先提问，则应该在回答完用户问题后再进行主动提问，主动提问时，可以根据用户提问确定第一次主动提问的类别和问题。而后语音装置开始提问后可以依照当前树状排列的主动问题的位置进行自动的下一次提问，主动问题可以有很多级，这样可以保证有多次不间断的提问。但如果用户再次主动提问或者用户发出结束的语音时，则跳出当前的主动提问。如用户再次主动提问“最近上映的电影有什么”或者用户发出结束的语音如"我对这个不感兴趣"，则结束当前的主动提问。而后如果又满足主动提问触发条件后，则进行新一轮的主动提问，即从树状主动问题的第一级问题开始提问。如根据用户的电影两个字，提出“你喜欢什么类型电影”的问题。

而后每次用户回答后，在回答的问题建立起用户信息与问题的关联关系，从而记录下该问题已经问过该用户了。如果匹配到已经提过的问题，则可以在主动问题的树状结构中本级问题的其他问题中随机挑选一个进行提问，这样避免对用户提出相同的问题。

为了建立起用户信息、问题和答案的对应关系，本发明还包含主动问题和答案记录过程，具体地，在上述实施例的基础上还包括步骤：从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。其中，从语义信息提取答案信息就是将主动提问的问题的答案进行逻辑抽象,比如问题为:是否喜欢某个地方？用户回答经过语义识别后得到的结果是:“嗯”,或者“是的”,则信息提取单元将该信息抽象为逻辑1,然后将信息存储到用户信息存储单元中该用户数据区域中的该主动问题对应的答案，即建立起主动问题、用户信息和答案三者的对应关系。这样通过对用户主动的询问，可以采集到一个问题不同用户的不同答案，而后在用户进行相关问题提问时，也可以针对不同的用户进行的回答。

为了实现对用户的语音触发，本发明还采用关键字进行触发的方式，则进一步地，获取声音信息后还包括步骤：检测麦克风声音是否包含有关键字，并在包含有关键字时对声音信息进行识别得到语义信息。如果麦克风声音中没有检测到关键字信息，则不进行本发明声音识别、人脸识别的步骤，这样可以节省电力。

如图2所示，本发明还提供一种基于视频采集的语音识别装置，包括如下单元：摄像头201、麦克风202、人脸检测单元203、人脸分类运算单元204、神经网络参数单元205、问题应答处理单元206、扩音器207、语音识别单元208和用户信息存储单元209，除了摄像头201、麦克风202、扩音器207外，其他单元可以放置在芯片中，做成一个语音识别芯片，这样可以便于系统集成。本装置中：麦克风用于获取声音信息；语音识别单元用于对声音信息进行识别得到语义信息；用户信息存储单元用于存储用户信息、问题和答案的对应关系；人脸检测单元用于获取图像信息的中人脸图像；神经网络参数单元用于存储人脸分类神经网络数据；人脸分类运算单元用于根据人脸分类神经网络数据和人脸图像识别人脸图像对应的用户信息；问题应答处理单元用于根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放；如果没有匹配到对应的答案则根据识别用户的心情信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放；扩音器用于播放语音信号的声音。本装置通过采集对应的人脸信息，自动匹配对应的用户信息，并根据用户声音信息识别出用户的语义信息，即用户的问题信息；而后根据存储的用户、问题和答案的对应关系，匹配出与用户相关的答案，进行有针对性的回答，提高用户体验。

本实施例中，如果是人脸信息识别出的用户为已经经过训练并存储的用户,则会先到用户信息存储单元中该用户的数据区域进行问题查询,如果当前语义信息中的问题在该用户的数据区域有记录则直接从用户信息存储单元中读取该问题的答案进行回答。如果当前语义中的问题在该用户的数据区域经过查询无记录,则继续通过控制无线网络连接控制单元，进行网络数据库连接。查询用户当前对应心情状态下数据库中存储的该问题通用对应的答案。而如果是当前识别出的用户为没有经过训练的用户,则直接通过控制无线网络连接控制单元进行网络数据库连接，查询数据库中存储的该问题通用对应的答案。每次网络连接时，无线网络连接控制单元根据问题应答处理单元的控制进行网络数据库连接，查询网络数据库中存储的问题的通用对应的答案,并将答案数据送往问题应答处理单元，最后问题应答处理单元将答案转换为语音信号后送到扩音器上播放。

为了实现与用户交互，本装置还包括主动问题开启判断单元210、主动问题选择单元211和主动问题存储单元212，其中：主动问题存储单元用于存储主动问题；主动问题开启判断单元用于判断是否达到预设的主动问题开启条件；主动问题选择单元用于选择主动问题；问题应答处理单元还用于将选择的主动问题转换为语音信号后送到扩音器上播放。主动提问还可以根据人脸识别的用户信息进行进一步确认，如果当前用户识别结果是已存储的用户,则每次提问时记录用户信息和已经提过的问题，而后再次提问时，排除已经提问过的问题，在剩下的问题中随机抽出一个作为本次主动提问的问题。如果当前用户识别结果并未是已存储的用户,则直接在所有主动问题列表的问题中随机抽出一个作为本次主动提问的问题。这样可以避免重复提问，提高用户体验。

进一步地，为了提高问题与用户回答的关联性，所述主动问题存储单元用于存储按照树状排列的主动问题，树状排列的主动问题包括多级的多个问题，每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题，以及每个问题与用户信息的关联关系，所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系；主动问题选择单元用于根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息从主动问题存储单元中查找提问的问题内容，主动问题选择单元用于在主动问题存储单元匹配到的问题已经存在和用户信息相关的关联关系时，在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。

在某些实施例中，本装置还包括单元：提问触发单元213、随机数产生单元214，其中：提问触发单元用于判断是否满足触发条件，在满足触发条件后使能随机数产生单元；随机数产生单元用于根据随机数种子产生随机数；主动问题开启判断单元用于根据随机数判断是否达到预设的主动问题开启条件；主动问题选择单元用于根据随机数选择主动问题；所述触发条件包括超时触发或者敏感词触发。其中，敏感词可以存储在敏感词存储单元215中，以便于提问触发单元调用。

进一步地，本装置还包括单元：信息提取单元216，信息提取单元用于从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。这样可以建立起答案、问题和用户信息的对应关系。

为了避免误触发和节省电量，本装置还包括单元：关键字唤醒单元217，关键字唤醒单元用于检测麦克风声音是否包含有关键字，并在包含有关键字时使能人脸检测单元和语音识别单元。具体地，可以将本装置分为两个电源域,一个是关键字唤醒单元,除了关键字唤醒单元的其他所有电路处于另一个电源域。关键字唤醒单元是电路里唯一总处于通电状态的电路,该电源域总是处于电源开启状态。而另一个电源域的开关由关键字唤醒单元控制。在整个电路开始工作时,只有关键字唤醒单元所在电源域处于电源开启状态,其他所有电路所处的另一个电源域处于关闭状态。关键字唤醒单元负责接收数字麦克风传来的声音信息,并检测是否有预设关键字的声音出现。如果出现敏感关键字出现,则打开其他所有电路所在另一个电源域,并输出敏感词有效信号给人脸检测单元和语音识别单元,使其开始工作。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于视频采集的语音识别装置，其特征在于，包括如下单元：

麦克风用于获取声音信息；

语音识别单元用于对声音信息进行识别得到语义信息；

人脸检测单元用于获取图像信息的中人脸图像；

神经网络参数单元用于存储人脸分类神经网络数据；

扩音器用于播放语音信号的声音；还包括单元：主动问题开启判断单元、主动问题选择单元和主动问题存储单元，其中：

主动问题存储单元用于存储主动问题；

主动问题选择单元用于选择主动问题；

问题应答处理单元还用于将选择的主动问题转换为语音信号后送到扩音器上播放；

所述主动问题存储单元用于存储按照树状排列的主动问题，树状排列的主动问题包括多级的多个问题，每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题，以及每个问题与用户信息的关联关系，所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系；

主动问题选择单元用于根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息从主动问题存储单元中查找提问的问题内容，主动问题选择单元用于在主动问题存储单元匹配到的问题已经存在和用户信息相关的关联关系时，在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题；

主动问题的第一级树状可以将问题划分为多个类别，每个类别对应有不同的一个问题，类别关键字用于与用户回答建立起对应关系，从而根据用户的回答或者提问来确定主动提问的问题，每一个问题具有对应的不同回答的类别，这些类别也对应有不同的问题，这些问题即作为下一级的问题，即每级的问题都由上一级问题的不同回答来对应。

2.根据权利要求1所述的一种基于视频采集的语音识别装置，其特征在于，还包括单元：提问触发单元、随机数产生单元，其中：

随机数产生单元用于根据随机数种子产生随机数；

主动问题选择单元用于根据随机数选择主动问题；

所述触发条件包括超时触发或者敏感词触发。

3.根据权利要求1所述的一种基于视频采集的语音识别装置，其特征在于，还包括单元：信息提取单元，信息提取单元用于从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。

4.一种基于视频采集的语音识别方法，其特征在于，包括如下步骤：

获取声音信息；

对声音信息进行识别得到语义信息；

获取图像信息的中人脸图像；

播放语音信号的声音；

还包括步骤：

判断是否达到预设的主动问题开启条件；

在达到主动问题开启条件后选择主动问题；

将选择的主动问题转换为语音信号后送到扩音器上播放；

主动问题按照树状排列，树状排列的主动问题包括多级的多个问题，每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题，以及每个问题与用户信息的关联关系，所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系；

本方法还包括步骤：根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息查找提问的问题内容，如果在主动问题存储单元匹配到的问题已经存在和用户信息相关的关联关系，则在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题；

5.根据权利要求4所述的一种基于视频采集的语音识别方法，其特征在于，还包括步骤：

根据随机数判断是否达到预设的主动问题开启条件；

所述触发条件包括超时触发或者敏感词触发。

6.根据权利要求4所述的一种基于视频采集的语音识别方法，其特征在于，还包括步骤：