CN110415689A

CN110415689A - 语音识别装置及方法

Info

Publication number: CN110415689A
Application number: CN201810387233.XA
Authority: CN
Inventors: 林忠亿; 郭锦斌; 陈怡桦
Original assignee: Shenzhen Yuzhan Precision Technology Co ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Shenzhen Yuzhan Precision Technology Co ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2019-11-05
Anticipated expiration: 2038-04-26
Also published as: CN110415689B; US20190333516A1; US10714088B2

Abstract

本发明涉及语音识别领域，尤其涉及一种语音识别装置及语音识别方法。该方法包括步骤：获取一语音采集单元采集的语音；获取一摄像单元采集的影像，并将该影像与采集的语音在时间上进行关联；将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度；判断该匹配语音的信心度是否超过一预设值；当该匹配语音的信心度超过该预设值时通过一语音输出单元输出该匹配语音；及当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势；将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配；及输出匹配处理后的匹配语音。本发明能够提高语音识别的准确度，并增强用户的体验效果。

Description

语音识别装置及方法

技术领域

本发明涉及语音识别领域，尤其涉及一种语音识别装置及语音识别方法。

背景技术

现有技术中，语音识别系统在识别用户的语音时会产生多种相似的语音识别结果供用户选择。造成语音识别的效率低下。然而，目前手势动作一般都有特定的含义，比如摇手的手势动作表示否定的意义，OK的手势动作表示赞成或完成的意义，手往下比一的手势动作表示强调的意义。因而，在语音识别的过程中结合具有特定含义的手持识别能够提高语音识别的准确度，并增强用户的体验效果。

发明内容

鉴于以上内容，有必要提供一种语音识别装置及语音识别方法提高语音识别的准确度，并增强用户的体验效果。

一种语音识别装置，包括语音采集单元、语音输出单元、摄像单元及处理单元，该语音采集单元用于采集语音，该摄像单元用于采集影像，该处理单元用于：

获取该语音采集单元采集的语音；

获取该摄像单元采集的影像，并将该影像与采集的语音在时间上进行关联；

将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度，其中，该信心度指示该匹配语音与该语音采集单元采集的语音相匹配的准确度；

判断该匹配语音的信心度是否超过一预设值；及

当该匹配语音的信心度超过该预设值时通过该语音输出单元输出该匹配语音。

优选地，该处理单元还用于：

当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势；

将识别的手势与该影像所对应的匹配语音进行增强处理以使该匹配语音与该手势的语义相匹配；及

输出匹配处理后的匹配语音。

优选地，该处理单元还用于：

将该语音按照字、词进行分割；将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词；

根据比对结果确定匹配字的信心度与匹配词的信心度；

根据该些匹配字及匹配词确定出匹配语音；及

根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。

优选地，该处理单元用于将获取的语音划分为多个语音片段，将获取的影像信息划分为多个影像片段，并将该些影像片段与语音片段按照时间进行对应关联，其中，该处理单元从获取的语音中提取音位特征，并使用终点算法识别获取的语音中每个句子的终点，并按照句子将获取的语音划分为多个语音片段。

优选地，该处理单元还用于：

根据识别的手势查找一定义多个手势与语义的对应关系的语义关系表确定与该手势对应的语义。

一种语音识别方法，该方法包括步骤：

获取一语音采集单元采集的语音；

获取一摄像单元采集的影像，并将该影像与采集的语音在时间上进行关联；

判断该匹配语音的信心度是否超过一预设值；及

当该匹配语音的信心度超过该预设值时通过一语音输出单元输出该匹配语音。

优选地，该方法还包括步骤：

将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配；及

输出匹配处理后的匹配语音。

优选地，该方法还包括步骤：

根据比对结果确定匹配字的信心度与匹配词的信心度；

根据该些匹配字及匹配词确定出匹配语音；及

优选地，该方法还包括步骤：

将获取的语音划分为多个语音片段，其中，从获取的语音中提取音位特征，并使用终点算法识别获取的语音中每个句子的终点，并按照句子将获取的语音划分为多个语音片段；

将获取的影像信息划分为多个影像片段，并将该些影像片段与语音片段按照时间进行对应关联。

优选地，该方法还包括步骤：

本发明能够提高语音识别的准确度，并增强用户的体验效果。

附图说明

图1为本发明一实施方式中语音识别系统的应用环境图。

图2为本发明一实施方式中语音识别装置的功能模块图。

图3为本发明一实施方式中语音识别系统的功能模块图。

图4为本发明一实施方式中语音识别方法的流程图。

主要元件符号说明

语音识别系统	1
		语音识别装置	2
服务器	3
		摄像单元	21
语音采集单元	22
		语音输出单元	23
通信单元	24
		存储单元	25
处理单元	26
		获取模块	101
语音识别模块	102
		判断模块	103
输出模块	104
		图像识别模块	105
匹配模块	106
		步骤	S401～S408

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

请参考图1，所示为本发明一实施方式中语音识别系统1的应用环境图。该语音识别系统1应用在一语音识别装置2中。该语音识别装置2与一服务器3通信连接。本实施方式中，该服务器3为云端服务器。该语音识别系统1用于获取用户的语音及手势动作，并根据获取的语音及手势动作识别用户的语音及输出该语音。本实施方式中，该语音识别装置2可以为电视、电脑、智能手机等装置。

请参考图2，所示为本发明一实施方式中语音识别装置2的功能模块图。该语音识别装置2包括，但不限于摄像单元21、语音采集单元22、语音输出单元23、通信单元24、存储单元25及处理单元26。本实施方式中，该摄像单元21用于摄取语音识别装置2周围的环境图像并将摄取的图像传送给该处理单元26。例如，该摄像单元21可以摄取位于语音识别装置2周围的用户的手势图像，并将摄取的用户的手势图像发送给该处理单元26。本实施方式中，该摄像单元21可以为一摄像头、3D光场相机等。该语音采集单元22用于采集接语音识别装置2周围的语音信息并将接收的语音信息传送给处理单元26。在本实施方式中，该语音采集单元22可以为麦克风或麦克风阵列等。

该语音输出单元23用于在该处理单元26的控制下输出语音信息。在本实施方式中，该语音输出单元23可以为扬声器。该通信单元24用于供该语音识别装置2与服务器3通信连接。在一实施方式中，该通信单元24可以为WIFI通信模块、3G/4G通信模块、Zigbee通信模块及BlueTooth通信模块。该存储单元25用于存储该语音识别装置2的程序代码及数据资料。例如，该存储单元25可以存储预设人脸图像、预设语音手势图像及语音识别系统1。本实施方式中，该存储单元25可以为该语音识别装置2的内部存储单元，例如该语音识别装置2的硬盘或内存。在另一实施方式中，该存储单元25也可以为该语音识别装置2的外部存储设备，例如该语音识别装置2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。该处理单元26用于获取用户的语音及手势动作，并根据获取的语音及手势动作识别用户的语音及控制输出该语音。本实施方式中，该处理单元26可以为一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，该处理单元26用于执行软件程序代码或运算数据。

请参考图3，所示为本发明一实施方式中语音识别系统1的功能模块图。该语音识别系统1包括一个或多个模块，所述一个或者多个模块被存储于该存储单元25中，并被该处理单元26所执行。本实施方式中，语音识别系统1包括获取模块101、语音识别模块102、判断模块103、输出模块104、图像识别模块105、匹配模块106。在其他实施方式中，该语音识别系统1为内嵌在该语音识别装置2中的程序段或代码。

该获取模块101用于获取该语音采集单元22采集的语音。

该获取模块101还用于获取该摄像单元21采集的影像，并将该影像与采集的语音在时间上进行关联。本实施方式中，该获取模块101将获取的语音划分为多个语音片段，具体的，该获取模块101可以从所述语音中提取音位特征，并使用终点算法识别语音中每个句子的终点，并按照识别的句子终点将获取的语音划分为多个语音片段。该获取模块101还将获取的影像信息划分为多个影像片段，并将该些影像片段与语音片段按照时间进行对应关联，其中每一语音片段与一影像片段在时间上对应关联。

该语音识别模块102用于将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度。其中，该信心度指示该匹配语音与该语音采集单元22采集的语音相匹配的准确度。本实施方式中，该语音识别模块102将该语音按照字、词进行分割，将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词，根据比对结果确定匹配字的信心度与匹配词的信心度，并根据该些匹配字及匹配词确定出匹配语音及根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。本实施方式中，该语音识别模块102根据该些匹配字及匹配词确定出的匹配语音可以是一个或是多个。本实施方式中，该语音库存储在该语音识别装置2的存储单元25中，该语音识别模块102查找存储在该存储单元25中的语音库从而将获取的语音与该语音库进行比对。在其他实施方式中，该语音库存储在该服务器3中，该语音识别模块102通过访问该服务器3查找该语音库从而将获取的语音与该语音库进行比对。

该判断模块103用于判断该匹配语音的信心度是否超过一预设值。本实施方式中，该预设值可以根据实际需要具体设定，例如，可将该预设值设定为0.6。

该输出模块104用于在该匹配语音的信心度超过该预设值时，通过该语音输出单元23输出该匹配语音。在其他实施方式中，当语音识别模块102确定的匹配语音的数量超过1个时，该输出模块104输出信心度最大的匹配语音。

该图像识别模块105用于在匹配语音的信心度小于一预设值时识别与该语音关联的影像并识别该影像中的手势。该匹配模块106用于将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。该输出模块104将匹配模块106匹配处理后的匹配语音输出。

本实施方式中，该匹配模块106根据识别的手势查找语义关系表确定该手势的语义。其中，该语义关系表中定义多个手势与语义的对应关系。该匹配模块106根据手势查找该语义关系表并确定与该手势相对应的语义。该匹配模块106根据该手势的语义对该匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。该输出模块104将匹配模块106匹配处理后的匹配语音输出。在一实施方式中，当识别出的匹配语音有多个时，该匹配模块106确定每一匹配语音相对于该手势的语义的匹配度，依据每一匹配语音相对于该手势的语义的匹配度确定与该手势的语义的匹配度最高的匹配语音，并将与该手势的语义的匹配度最高的匹配语音与该手势进行匹配处理。该输出模块104输出经过匹配处理的匹配语音。

本实施方式中，该获取模块101将获取的语音划分为多个语音片段及将获取的影像信息划分为多个影像片段并将每一语音片段与一影像片段在时间上对应关联后，该语音识别模块102将划分的语音片段与一语音库进行比对确定出与每一语音片段对应的匹配语音及确定出该匹配语音的信心度。该判断模块103判断与每一语音片段对应的匹配语音的信心度是否超过预设值。当与语音片段对应的匹配语音的信心度超过预设值时，该输出模块104通过该语音输出单元23输出该匹配语音；当语音片段所对应的匹配语音信心度没有超过预设值时，该图像识别模块105识别语音片段所对应的影像片段并识别该语音片段所对应的影像片段中的手势。该匹配模块106用于将从影像片段中识别的手势与该影像所对应的语音片段的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。该输出模块104输出匹配处理后的匹配语音。

请参考图4，所示为本发明一实施方式中语音识别方法的流程图。该方法应用在语音识别装置2中。根据不同需求，该流程图中步骤的顺序可以改变，某些步骤可以省略或合并。该方法包括如下步骤。

S401：获取语音采集单元22采集的语音。

S402：获取摄像单元21采集的影像，并将该影像与采集的语音在时间上进行关联。本实施方式中，该语音识别装置2将获取的语音划分为多个语音片段，具体的，该语音识别装置2可以从所述语音中提取音位特征，并使用终点算法识别语音中每个句子的终点，并按照句子将获取的语音划分为多个语音片段。该语音识别装置2将获取的影像信息划分为多个影像片段，并将该些影像片段与语音片段按照时间进行对应关联，其中每一语音片段与一影像片段在时间上对应关联。

S403：将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度。其中，该信心度指示该匹配语音与该语音采集单元22采集的语音相匹配的准确度。

本实施方式中，该语音识别装置2将语音按照字、词进行分割，将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词，根据比对结果确定匹配字的信心度与匹配词的信心度，并根据该些匹配字及匹配词确定出匹配语音及根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。本实施方式中，该语音识别装置2根据该些匹配字及匹配词确定出的匹配语音可以是一个或是多个。本实施方式中，该语音库存储在该语音识别装置2的存储单元25中，该语音识别装置2查找存储在该存储单元25中的语音库从而将获取的语音与该语音库进行比对。在其他实施方式中，该语音库存储在该服务器3中，该语音识别装置2通过访问该服务器3查找该语音库从而将获取的语音与该语音库进行比对。

本实施方式中，在将获取的语音划分为多个语音片段及将获取的影像信息划分为多个影像片段并将每一语音片段与一影像片段在时间上对应关联后，该语音识别装置2还识别每一语音片段并将识别的语音片段与一语音库进行比对确定出与每一语音片段对应的匹配语音及确定出该匹配语音的信心度。

S404：判断该匹配语音的信心度是否超过一预设值。本实施方式中，该预设值可以根据实际需要具体设定，例如，可将该预设值设定为0.6。本实施方式中，该语音识别装置2判断与每一语音片段对应的匹配语音的信心度是否超过预设值。当匹配语音的信心度超过预设值时执行步骤S405，否则执行步骤S406。

S405：通过语音输出单元23输出该匹配语音。在其他实施方式中，当确定的匹配语音的数量超过1个时，该语音识别装置2输出信心度最大的匹配语音。

S406：识别与该语音关联的影像并识别该影像中的手势。本实施方式中，该语音识别装置2根据识别的手势查找语义关系表确定该手势的语义。其中，该语义关系表中定义多个手势与语义的对应关系。该语音识别装置2根据手势查找该语义关系表并确定与该手势相对应的语义。例如，在一实施方式中，当语音片段所对应的匹配语音信心度没有超过预设值时，该语音识别装置2识别语音片段所对应的影像片段并识别该语音片段所对应的影像片段中的手势。

S407：将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。本实施方式中，该语音识别装置2根据该手势的语义对该匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。例如，在一实施方式中，该语音识别装置2将从影像片段中识别的手势与该影像片段所对应的语音片段的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。

在一实施方式中，当识别出的匹配语音有多个时，该语音识别装置2确定每一匹配语音相对于该手势的语义的匹配度，依据每一匹配语音相对于该手势的语义的匹配度确定与该手势的语义的匹配度最高的匹配语音，并将与该手势的语义的匹配度最高的匹配语音与该手势进行匹配处理。

S408：输出匹配处理后的匹配语音。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照以上较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换都不应脱离本发明技术方案的精神和范围。

Claims

1.一种语音识别装置，包括语音采集单元、语音输出单元、摄像单元及处理单元，该语音采集单元用于采集语音，该摄像单元用于采集影像，其特征在于，该处理单元用于：

获取该语音采集单元采集的语音；

判断该匹配语音的信心度是否超过一预设值；及

2.如权利要求1所述的语音识别装置，其特征在于，该处理单元还用于：

输出匹配处理后的匹配语音。

3.如权利要求1所述的语音识别装置，其特征在于，该处理单元还用于：

根据比对结果确定匹配字的信心度与匹配词的信心度；

根据该些匹配字及匹配词确定出匹配语音；及

4.如权利要求1所述的语音识别装置，其特征在于，该处理单元用于将获取的语音划分为多个语音片段，将获取的影像信息划分为多个影像片段，并将该些影像片段与语音片段按照时间进行对应关联，其中，该处理单元从获取的语音中提取音位特征，并使用终点算法识别获取的语音中每个句子的终点，并按照句子将获取的语音划分为多个语音片段。

5.如权利要求2所述的语音识别装置，其特征在于，该处理单元还用于：

6.一种语音识别方法，其特征在于，该方法包括步骤：

获取一语音采集单元采集的语音；

判断该匹配语音的信心度是否超过一预设值；及

7.如权利要求6所述的语音识别方法，其特征在于，该方法还包括步骤：

输出匹配处理后的匹配语音。

8.如权利要求6所述的语音识别方法，其特征在于，该方法还包括步骤：

根据比对结果确定匹配字的信心度与匹配词的信心度；

根据该些匹配字及匹配词确定出匹配语音；及

9.如权利要求6所述的语音识别方法，其特征在于，该方法还包括步骤：

10.如权利要求7所述的语音识别方法，其特征在于，该方法还包括步骤：