CN106328125A

CN106328125A - 一种河南方言语音识别系统

Info

Publication number: CN106328125A
Application number: CN201610968693.2A
Authority: CN
Inventors: 范雪莉; 于海龙
Original assignee: Xuchang University
Current assignee: Xuchang University
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-01-11
Anticipated expiration: 2036-10-28
Also published as: CN106328125B

Abstract

本发明公开了一种河南方言语音识别系统，包括语音获取设备、语音识别设备及语音判定设备，语音获取设备接收用户输入河南方言的语音指令；语音识别设备包括语音提取单元和特征压缩单元，语音提取单元根据收到的语音指令提取河南方言的短时音频特征，特征压缩单元根据提取的过零率、基频和美尔倒谱系数特征从语音指令中找出相互间相似度满足预设条件的音频帧特征，语音判定设备包括语音判定部分和语音输出部分，语音判定部分利用隐马尔科夫模型从音频帧特征中选择一个或多个最优候选识别特征，并输至语音输出部分，采用上述方案，本发明提出的河南方言语音识别系统提高了运行效率和识别效果，具有很好的市场应用价值。

Description

一种河南方言语音识别系统

技术领域

本发明涉及语音识别领域，尤其涉及的是，一种河南方言语音识别系统。

背景技术

语音是人人交互中最常见的方式，也是最直接和最有效的方式之一。在现代社会，计算机的出现与普及使得人类的生活状态发生改变，人们越来越习惯借助计算机完成各种日常事务。我们希望和机器交流时就像和人类交流一样的便捷，计算机不仅能够“听见”人类的语音，并且能够“听懂”语音的意思。让计算机听懂语音的人机交互方式就是语音识别。

我国幅员辽阔，人口众多，各个地区都有自己的方言。方言与普通话之间、方言与方言之间声调、发音等方式差异很大。要求每个地区的人都说一口流利的普通话是不现实的，而且，国家在推广普通话的同时也在加大保护方言的力度。无论是现在还是未来，方言的交流都是必不可少的。因此针对方言的语音识别系统的研究是非常有必要，而且有较高的实用价值。目前国内的语音识别产品基本上都是识别普通话，但是河南方言与普通话差异很大。因此，现有技术存在缺陷，需要改进。

发明内容

本发明所要解决的技术问题是提供一种新型的河南方言语音识别系统。

为实现上述目的，本发明所采用了下述的技术方案：一种河南方言语音识别系统，包括语音获取设备、语音识别设备及语音判定设备，所述语音获取设备接收用户输入河南方言的语音指令，并将收到的语音指令传输至所述语音识别设备；

所述语音识别设备包括语音提取单元和特征压缩单元，所述语音提取单元根据收到的语音指令提取河南方言的短时音频特征，从短时音频特征提取过零率、基频和美尔倒谱系数特征；所述特征压缩单元根据提取的过零率、基频和美尔倒谱系数特征从语音指令中找出相互间相似度满足预设条件的音频帧特征，并将找出的音频帧特征传输至所述语音判定设备；

所述语音判定设备包括语音判定部分和语音输出部分，所述语音判定部分利用隐马尔科夫模型从音频帧特征中选择一个或多个最优候选识别特征，并将一个或多个最优候选识别特征传输至语音输出部分，由语音输出部分将一个或多个最优候选识别特征输出；

所述语音获取设备包括语音获取单元和噪声过滤单元，所述语音获取单元采集环境数据，接收用户输入的河南方言的语音指令；由噪声过滤单元将语音获取单元采集的语音指令消除噪声后，将无噪音频信号发送至语音识别设备。

优选的，所述的河南方言语音识别系统中，所述语音判定设备的语音判定部分包括语音判定单元、模型训练单元和对比单元，所述模型训练单元预先训练语音判定单元，所述模型训练单元预先对语音信号的特征参数进行提取，通过隐马尔科夫模型对所提取的语音信号特征参数进行模型训练，建立语音信号的数据库；

所述语音判定单元将经过隐马尔科夫训练的音频帧特征参数与数据库匹配，由对比单元进行比较，最终得到一个或多个最优候选识别特征。

优选的，所述的河南方言语音识别系统中，所述语音识别设备还包括方言语种识别部分，所述方言语种识别部分包括方言语音提取单元、音素识别单元、对比单元和方言语种模型训练单元，通过方言语种模型训练单元对区域方言语音信号特征参数进行模型训练，建立区域方言语种数据库；

所述方言语音提取单元根据收到的语音指令提取河南方言的短时声学特征；所述音素识别单元从短时声学特征获得音素序列；所述对比单元根据获得的音素序列和区域方言语种数据库的参数信息对比，找出满足预设条件的方言种类。

优选的，所述的河南方言语音识别系统中，所述语音获取单元包括至少两个拾音头，至少两个拾音头对称设置于语音获取设备。

优选的，所述的河南方言语音识别系统中，所述音获取设备设有无线通讯单元，所述音获取设备通过无线通讯单元接入网络与语音识别设备连接。

优选的，所述的河南方言语音识别系统中，所述拾音头包括弹性体和接音盒，弹性体内设有空腔，空腔内放有由铝基板粘合成的壳体，弹性体与壳体之前还设有多根辅助弹性体树形的弹簧。

优选的，所述的河南方言语音识别系统中，所述壳体内放有麦克风组件，所述麦克风组件的正面上可拆卸设有多根导热柱和一个导声管，导声管与麦克风组件正面上的声道触点相通，上述多根导热柱和一个导声管均伸出弹性体外，所述接音盒设置在弹性体的外部且与麦克风组件之间电连接，所述导热柱上套有冷却圈，冷却圈内装有冷却液。

相对于现有技术的有益效果是，采用上述方案，本发明提出的河南方言语音识别系统提高了运行效率和识别效果，具有很好的市场应用价值。

附图说明

图1为本发明的一个实施例的框架图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本说明书所使用的术语“对称”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。

如图1所示，本发明的一个实施例是，该河南方言语音识别系统，包括语音获取设备11、语音识别设备10及语音判定设备9，所述语音获取设备11接收用户输入河南方言的语音指令，并将收到的语音指令传输至所述语音识别设备10；

所述语音识别设备10包括语音提取单元5和特征压缩单元6，所述语音提取单元5根据收到的语音指令提取河南方言的短时音频特征，从短时音频特征提取过零率、基频和美尔倒谱系数特征；所述特征压缩单元6根据提取的过零率、基频和美尔倒谱系数特征从语音指令中找出相互间相似度满足预设条件的音频帧特征，并将找出的音频帧特征传输至所述语音判定设备；

所述语音判定设备包括语音判定部分7和语音输出部分8，所述语音判定部分7利用隐马尔科夫模型从音频帧特征中选择一个或多个最优候选识别特征，并将一个或多个最优候选识别特征传输至语音输出部分，由语音输出部分8将一个或多个最优候选识别特征输出；

所述语音获取设备11包括语音获取单元1和噪声过滤单元2，所述语音获取单元1采集环境数据，接收用户输入的河南方言的语音指令；由噪声过滤单元2将语音获取单元采集的语音指令消除噪声后，将无噪音频信号发送至语音识别设备。优选的，语音获取设备为用户的智能手机。

优选的，所述语音判定设备的语音判定部分包括语音判定单元、模型训练单元和对比单元，所述模型训练单元预先训练语音判定单元，所述模型训练单元预先对语音信号的特征参数进行提取，通过隐马尔科夫模型对所提取的语音信号特征参数进行模型训练，建立语音信号的数据库；

优选的，所述语音识别设备还包括方言语种识别部分4，所述方言语种识别部分4包括方言语音提取单元、音素识别单元、对比单元和方言语种模型训练单元，通过方言语种模型训练单元对区域方言语音信号特征参数进行模型训练，建立区域方言语种数据库；

优选的，所述语音获取单元包括至少两个拾音头，至少两个拾音头对称设置于语音获取设备。优选的，所述音获取设备11设有无线通讯单元3，所述音获取设备通过无线通讯单元3接入网络与语音识别设备连接。优选的，所述拾音头包括弹性体和接音盒，弹性体内设有空腔，空腔内放有由铝基板粘合成的壳体，弹性体与壳体之前还设有多根辅助弹性体树形的弹簧。优选的，所述壳体内放有麦克风组件，所述麦克风组件的正面上可拆卸设有多根导热柱和一个导声管，导声管与麦克风组件正面上的声道触点相通，上述多根导热柱和一个导声管均伸出弹性体外，所述接音盒设置在弹性体的外部且与麦克风组件之间电连接，所述导热柱上套有冷却圈，冷却圈内装有冷却液。该设计新颖，可以根据不同手机壳体大小更改麦克风自身的容积，且能快速散去麦克风内部组件工作时产生的热量，具有广泛的市场前景。

本实施例中提出的河南方言为依照贺巍《中原官话分区》一书中所划分的区域内语言。本实施例中提出的河南方言语音识别系统，先通过语音获取设备的拾音头采集用户输入河南方言的语音指令，由噪声过滤单元将语音获取单元采集的语音指令消除噪声后，将无噪音频信号通过无线通讯单元接入网络传入语音识别设备；方言语音提取单元根据收到的语音指令提取河南方言的短时声学特征；音素识别单元从短时声学特征获得音素序列；对比单元根据获得的音素序列和区域方言语种数据库的参数信息对比，找出满足预设条件的方言种类；语音提取单元根据收到的语音指令结合满足预设条件的方言种类，提取河南方言的短时音频特征，并从短时音频特征提取过零率、基频和美尔倒谱系数特征；特征压缩单元根据提取的过零率、基频和美尔倒谱系数特征从语音指令中找出相互间相似度满足预设条件的音频帧特征，并将找出的音频帧特征传输至语音判定设备；由语音判定设备的语音判定部分利用隐马尔科夫模型从音频帧特征中选择一个或多个最优候选识别特征，并将一个或多个最优候选识别特征传输至语音输出部分，语音输出部分将一个或多个最优候选识别特征反馈至语音获取设备。

需要说明的是，上述各技术特征继续相互组合，形成未在上面列举的各种实施例，均视为本发明说明书记载的范围；并且，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种河南方言语音识别系统，其特征在于，包括语音获取设备、语音识别设备及语音判定设备，所述语音获取设备接收用户输入河南方言的语音指令，并将收到的语音指令传输至所述语音识别设备；

2.根据权利要求1所述的河南方言语音识别系统，其特征在于，所述语音判定设备的语音判定部分包括语音判定单元、模型训练单元和对比单元，所述模型训练单元预先训练语音判定单元，所述模型训练单元预先对语音信号的特征参数进行提取，通过隐马尔科夫模型对所提取的语音信号特征参数进行模型训练，建立语音信号的数据库；

3.根据权利要求2所述的河南方言语音识别系统，其特征在于，所述语音识别设备还包括方言语种识别部分，所述方言语种识别部分包括方言语音提取单元、音素识别单元、对比单元和方言语种模型训练单元，通过方言语种模型训练单元对区域方言语音信号特征参数进行模型训练，建立区域方言语种数据库；

4.根据权利要求2所述的河南方言语音识别系统，其特征在于，所述语音获取单元包括至少两个拾音头，至少两个拾音头对称设置于语音获取设备。

5.根据权利要求4所述的河南方言语音识别系统，其特征在于，所述音获取设备设有无线通讯单元，所述音获取设备通过无线通讯单元接入网络与语音识别设备连接。

6.根据权利要求4所述的河南方言语音识别系统，其特征在于，所述拾音头包括弹性体和接音盒，弹性体内设有空腔，空腔内放有由铝基板粘合成的壳体，弹性体与壳体之前还设有多根辅助弹性体树形的弹簧。

7.根据权利要求6所述的河南方言语音识别系统，其特征在于，所述壳体内放有麦克风组件，所述麦克风组件的正面上可拆卸设有多根导热柱和一个导声管，导声管与麦克风组件正面上的声道触点相通，上述多根导热柱和一个导声管均伸出弹性体外，所述接音盒设置在弹性体的外部且与麦克风组件之间电连接，所述导热柱上套有冷却圈，冷却圈内装有冷却液。