CN107507623A

CN107507623A - 基于麦克风阵列语音交互的自助服务终端

Info

Publication number: CN107507623A
Application number: CN201710928860.5A
Authority: CN
Inventors: 杨裔; 贵向泉; 陈磊; 袁建; 谢昌磊; 赵杰; 李国辉
Original assignee: Dimension Intelligent Technology (shenzhen) Co Ltd
Current assignee: Dimension Intelligent Technology (shenzhen) Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2017-12-22

Abstract

本发明公开一种基于麦克风阵列语音交互的自助服务终端，包括用于采集用户语音，并转化为指令的语音交互系统和用于接收所述指令，并根据该指令输出用户所需服务的控制模块，其中语音交互系统包括由至少两个麦克风组成的麦克风阵列。本发明通过设置麦克风阵列来采集用户语音，以削减麦克风侧向收音，从而抑制对环境中的噪声的采集，语音信号再经由语音交互系统分析并转化为操作指令发送给控制模块，因此相对地就增强了语音交互系统对噪声环境中的用户声音的识别度和理解率，从而使得语音交互系统能够对用户语音进行更为准确的理解和判断，提高了自助服务终端与用户之间的交互效率，操作则更为方便和简单，具有良好的使用效果。

Description

基于麦克风阵列语音交互的自助服务终端

技术领域

本发明涉及语音服务终端领域，具体涉及一种基于麦克风阵列语音交互的自助服务终端。

背景技术

自助服务终端广泛应用于通讯、金融、政府、交通、医疗、工商、税务等行业，一般用于缓解传统营业厅人流量过大的问题。

现有的自助服务终端已经实现了通过与用户之间的语音交互输出相应的操作服务。但其中往往涉及一个技术问题：用户输入语音时的环境并不是完全安静的，存在多种噪声，常用的几种自助服务终端，在采集了夹带各种噪声的用户语音进入终端后，无法对用户的语音进行准确理解和判断，所以常不能够达到准确输出正确操作、以及迅速反应的效果。

因此，无形中提高了用户的操作难度，用户与自助服务终端之间的交互效率较差，客户体验效果不理想。

发明内容

本发明的主要目的在于提供一种自助服务终端，旨在解决常用自助服务终端对语音理解差、操作困难的问题。

为解决上述技术问题，本发明提出一种基于麦克风阵列语音交互的自助服务终端，其包括：语音交互系统，用于采集用户语音，并转化为指令；

控制模块，用于接收所述指令，并根据该指令输出用户所需服务；

所述语音交互系统包括由至少两个用于采集用户语音的麦克风所组成的麦克风阵列。

优选地，每两个所述麦克风之间的距离为30-50mm。

优选地，所述语音交互系统还包括语音处理模块，用于对所述麦克风所采集的语音进行提高语音识别度处理。

优选地，所述语音处理模块包括降噪模块，用于对所述语音进行降噪处理。

优选地，所述语音处理模块还包括滤波模块，用于对所述语音进行卡尔曼滤波。

优选地，所述语音处理模块还包括波束成形模块，用于对所述语音进行波束成形，消除麦克风侧边方向语音。

优选地，所述语音处理模块还包括语音增强模块。

优选地，所述语音交互系统还包括语义理解模块，用于接收语音信号，并转换为相应指令。

优选地，所述语义理解模块包括语音转文字模块，用于将语音转换成文字。

优选地，所述语义理解模块还包括匹配度计算模块和指令查询模块，所述匹配度计算模块用于将所述文字转换为相应的指令编号，所述指令查询模块用于将所述指令编号转换为操作指令，并将所述操作指令发送至所述控制模块。

本发明通过设置至少包含两个麦克风所形成的麦克风阵列来采集用户语音，以削减麦克风侧向收音，从而抑制对环境中的噪声的采集；所采集的语音信号再经由语音交互系统分析并转化为操作指令发送给控制模块，因此，相对地就增强了语音交互系统对噪声环境中的用户声音的识别度和理解率。从而使得语音交互系统能够对用户语音进行更为准确的理解和判断，提高了自助服务终端与用户之间的交互效率，操作则更为方便和简单，具有良好的使用效果。

附图说明

图1为本发明基于麦克风阵列语音交互的自助服务终端一实施例的结构示意图；

图2为本发明的用户服务界面的结构示意图；

图3为图2中A区背面的放大图。

附图标号说明：

标号	名称	标号	名称
				1	语音交互系统	132	匹配度计算模块
11	麦克风	133	指令查询模块
				12	语音处理模块	2	控制模块
121	降噪模块	3	显示界面
				122	滤波模块	4	输入框
123	波束成形模块	5	卡槽
				124	增强模块	6	凭条出口
13	语义理解模块	7	麦克风安装孔
				131	语音转文字模块

具体实施方式

为了更清楚地说明本发明的技术方案，下面将结合附图对本发明各实施例的技术方案进行详细介绍。

本发明提出一种基于麦克风11阵列语音交互的自助服务终端，如图1所示，所述自助服务终端包括：语音交互系统1，用于采集用户语音，并转化为指令；

控制模块2，用于接收所述指令，并根据该指令输出用户所需服务；

所述语音交互系统1包括由至少两个用于采集用户语音的麦克风11所组成的麦克风11阵列。

本实施例中，所述自助服务终端指的是应用于通讯、金融、政府、交通、医疗、工商、税务等行业的一种免柜台人员帮助操作的装置，用户可根据界面上的文字、画面或语音等提示自行操作完成所需服务。如，用户向本自助服务终端讲话，说出自己需要的服务内容，或者服务关键字，语音交互系统1经过语音识别后，将语音转化为指令，控制模块2得到该指令后，转化为相应的操作，即客户讲话后，显示界面3上将直接显示对应的服务流程和操作详情，并提示客户进行下一步操作或语音指示，比如，在输入框4中输入密码或其他重要数字、在卡槽5中插入识别卡、从凭条出口6领取凭条等操作，直至用户所需服务全部完成。

本发明主要通过用户与该终端之间的语音交互，来完成用户所需服务。语音交互的方式为：用户根据自助服务终端的提示，向麦克风11说出自己所需要的服务，麦克风阵列采集到用户所发出的语音，即用户的服务要求之后，语音交互系统1将对该语音进行识别和处理，并转化为相应的指令，并将该指令输送至控制模块2，控制模块2根据该指令则可输出对应的操作。

其中，本发明至少包含两个麦克风11按照一定几何结构(如线性、环形等)所组合而成的麦克风11阵列来采集用户语音，由于使用麦克风阵列采集用户语音具有削减侧向收音的效果，因此能够抑制麦克风对环境中的噪声的采集，相对地就增强了语音交互系统1对噪声环境中的用户声音的识别度和理解率。

此外，本发明语音交互系统1可根据麦克风阵列信号处理技术，进一步抑制所采集的声音中的噪声，将噪声环境中的用户声音有效的增强，从而达到消除噪声对用户原始语音的影响，确定信号源的位置、强度和状态等信息。

本发明通过将麦克风11阵列采集用户语音的方式与自助服务终端结合使用，提高了该终端对用户语音的识别度，从而使得语音交互系统1能够对用户语音进行更为准确的理解和判断，即让自助服务终端明白用户的具体要求，并据此进行操作，进而提高了自助服务终端与用户之间的交互效率，使用户操作更为方便和简单，提高了产品的人性化设计，具有良好的使用效果。

在一较佳实施例中，每两个所述麦克风11之间的距离为30-50mm。

所述两个所述麦克风11之间的距离，指的是用于安装麦克风的两个麦克风安装孔7之间的孔中心距。本发明主要针对单一用户声源进行采集和分析，故优选2个麦克风11所组成的阵列，既能形成阵列采集用户语音，支持远场录音、去混响、降噪，同时又降低了生产成本和实现难度。2个麦克风11之间的距离为30-50mm，优选40mm。该距离适用于常用的自助服务终端机体的尺寸，同时满足对用户语音采集的范围。

如图1所示，所述语音交互系统1还包括语音处理模块12，用于对所述麦克风11所采集的语音进行提高语音识别度处理。

如图1所示，所述语音处理模块12包括降噪模块121，用于对所述语音进行降噪处理。

本实施例中，本发明主要针对高斯白噪声进行降噪处理，高斯白噪声指的是幅度分布服从高斯分布，而它的功率谱密度又是均匀分布的一种噪声，包括用户所处环境中易出现的汽车喇叭声、报警器声音等热噪声和散粒噪声，这些频带宽的噪声的存在很容易影响语音处理模块12对主体声源的辨别率。本发明特别设置降噪模块121，针对这些环境噪音进行抑制和过滤，保留出更为单纯的主体声音。

在一较佳实施例中，如图1所示，所述语音处理模块12还包括滤波模块122，用于对所述语音进行卡尔曼滤波。其中，卡尔曼滤波指的是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。即所述滤波模块122根据麦克风11所采集的声波信号，经最优化计算，估算得到最接近实际用户原始语音的声波信号，从而对用户语音做进一步的噪声过滤。

在一较佳实施例中，如图1所示，所述语音处理模块12还包括波束成形模块123，用于对所述语音进行波束成形，消除麦克风11侧边方向语音，增强垂直方向的语音，从而改善声源信号的传输质量。

在一较佳实施例中，如图1所示，所述语音处理模块12还包括语音增强模块124，用于对带噪语音进行分帧处理，保证语音的短时平稳性，再通过加窗处理，最后输出由多个相邻语音帧同步叠加的语音信号，从而得到增强的语音信号。

在一较佳实施例中，如图1所示，所述语音交互系统1还包括语义理解模块13，用于接收语音信号，并转换为相应指令。其中，所述语音信号，优选经过语音处理模块12处理过的语音，则能够提高语义理解模块13对原始语音的理解度。

在一较佳实施例中，如图1所示，所述语义理解模块13包括语音转文字模块131，用于将语音转换成文字。

在一较佳实施例中，如图1所示，所述语义理解模块13还包括匹配度计算模块132和指令查询模块133，所述匹配度计算模块132用于将所述文字转换为相应的指令编号，所述指令查询模块133用于将所述指令编号转换为操作指令，并将所述操作指令发送至所述控制模块2。

本实施例中，语义理解模块13的运行方式为：语音转文字模块131接收增强的语音信号，并将该语音转换成文字，匹配度计算模块132根据转换后的文字转换为相应的指令编号，该转换的具体方式是将所述文字与指令表中预留的指令编号关键字进行交集比对，计算得到比值分数，该比值分数超过系统预设的阈值则认为此次比对成功。匹配度计算模块132则在比对成功后将该指令编号发送给指令查询模块133，指令查询模块133根据指令编号查询实际操作指令，并发送给控制模块2，由控制模块2输出相应的服务。

本发明通过语义理解模块13，理解用户语音，输出用户所需服务的操作指令，降低了用户的操作难度，提升用户体验。

本发明还包括语音输出模块，用于通过语音输出的方式向用户传达服务信息内容和操作要求等，便于不便阅读的用户群体使用本发明。

本发明还包括触摸显示屏和触摸交互模块，使用户能够通过与自助服务终端触摸交互的方式，来实现触控操作。

本发明还设有用于保障用户使用过程安全的视频监控设备；用于提供外部数据交换的4G路由器；用于输出所需信息的打印机；用于输入信息和输出设备状态的IC手动读卡器；用于输出卡片需求操作的三合一读卡器；用于输入信息和输出设备状态的非接读卡器；以及用于输入信息的加密键盘等设备。目的在于向用户准确提供其所需要的服务，达到提升客户体验和提高设备使用率的目的。

需要说明，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求保护的范围之内。

以上所述的仅为本发明的部分或优选实施例，无论是文字还是附图都不能因此限制本发明保护的范围，凡是在与本发明一个整体的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明保护的范围内。

Claims

1.一种基于麦克风阵列语音交互的自助服务终端，其特征在于，包括：语音交互系统，用于采集用户语音，并转化为指令；

2.如权利要求1所述基于麦克风阵列语音交互的自助服务终端，其特征在于，每两个所述麦克风之间的距离为30-50mm。

3.如权利要求1所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语音交互系统还包括语音处理模块，用于对所述麦克风所采集的语音进行提高语音识别度处理。

4.如权利要求3所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语音处理模块包括降噪模块，用于对所述语音进行降噪处理。

5.权利要求3所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语音处理模块还包括滤波模块，用于对所述语音进行卡尔曼滤波。

6.权利要求3所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语音处理模块还包括波束成形模块，用于对所述语音进行波束成形，消除麦克风侧边方向语音。

7.权利要求6所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语音处理模块还包括语音增强模块。

8.权利要求1所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语音交互系统还包括语义理解模块，用于接收语音信号，并转换为相应指令。

9.如权利要求8所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语义理解模块包括语音转文字模块，用于将语音转换成文字。

10.如权利要求9所述基于麦克风阵列语音交互的自助服务终端，其特征在于，所述语义理解模块还包括匹配度计算模块和指令查询模块，所述匹配度计算模块用于将所述文字转换为相应的指令编号，所述指令查询模块用于将所述指令编号转换为操作指令，并将所述操作指令发送至所述控制模块。