CN109961775A

CN109961775A - 基于hmm模型的方言识别方法、装置、设备及介质

Info

Publication number: CN109961775A
Application number: CN201711349387.1A
Authority: CN
Inventors: 童芳
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Anhui Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Anhui Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2019-07-02

Abstract

本发明公开了一种基于HMM模型的方言识别方法、装置、设备及介质。该方法包括:获取利用Viterbi算法处理的待识别方言语音的声学特征序列；将所述声学特征序列输入HMM模型库中并与单词的HMM模型比对,批量识别和/或实时识别出所述方言。本发明实施例的技术方案能够实现例如徽州方言之类的方言的语音识别,并提升方言语音识别率。

Description

基于HMM模型的方言识别方法、装置、设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于HMM模型的方言识别方法、装置、设备及介质。

背景技术

对语音识别的研究已经取得了不少成果，但目前仍面临不少挑战，其中最大的挑战,就是方言问题。中国各地方言互不相通使得不同地区的人说话口音差别较大,这种差别给语音识别系统造成了巨大的困难,限制了它的应用与发展。

方言,在作为其他非物质文化遗产的载体的同时,其本身也是一种非物质文化遗产,作为人们交际的重要工具,承载着特定族群在长期历史发展中积累的大量文化信息,对文化传播具有不可替代的作用。然而现今,方言的使用、词汇和读音等都存在不同程度的危机,迫切需要用科学的方法和手段来保护和研究方言。针对以上问题,出现了一些相关专利用于方言的识别。

例如，现有技术中存在一种用于生成自适应与讲话人无关的语音识别器的方法。该方法利用了特殊方言,如奥地利的德语或加拿大的法语,其语音的前后关系在基本语言(分别是德语或法语)中相似,而其声学模型参数因不同的发音而明显不同这一事实,通过大量终端用户对其进行方言和/或特殊领域的预先训练,并利用讲话人自适应技术重新估算声学模型参数,提高该识别系统的性能。

此外，现有技术中还存在一种基于江淮语系的语音识别系统。该系统由训练模块、建模模块和应用端模块组成。所述训练模块用于建立语音与文本之间的联系,训练语音由江淮语系语音和普通话语音两部分组成；所述建模模块应用隐马尔可夫模型(HMM)的工具包配合模糊音识别技术对江淮地区方言的一些发音进行模糊处理从而建立准确合理的模型；所述应用端模块,进行语音识别并转换成文本文档。

另外，现有技术中还存在一种河南方言语音识别系统,该系统包括语音获取设备、语音识别设备及语音判定设备。所述语音获取设备采集语音指令传入语音识别设备；所述语音识别设备提取方言的短时声学特征获得音素序列,对比方言语种数据库找出方言种类,再从语音指令中找出相互间相似度满足预设条件的音频帧特征传输至语音判定设备；所述语音判定设备利用隐马尔科夫模型从音频帧特征中选择一个或多个最优候选识别特征传输至语音输出部分输出。

然而,上述相关技术对汉语方言的识别还存在相关问题,目前尚未存在有效的解决方案

发明内容

现有的技术对于方言的语音识别未能解决的问题至少如下。一是,语料库建设缺少策略,难以反映方言特征。现有技术方案对方言文本语料缺少设计,故其难以反映方言特征；对方言语音语料的采集也没有标准,故其难以反映方言标准音。例如，有的现有技术的训练文本为办公函件,其选取的方言发音人无性别以外的要求,故不能有效排除方言标准音的影响因素；而有的现有技术未涉及语料的建设策略。二是,所建模型不能精准反映方言发音特征。现有技术方案多采用音素作为建模单元,,但汉语方言具有单音节结构特性,使用音素作为建模单元难以有效捕捉汉语方言特征；而有的现有技术对方言发音进行了类似于普通话发音的模糊处理,故其所建模型亦不能精准反映方言发音特征。三是,方言语系内次方言语种难以识别。现有技术方案均未涉及同一方言语系内不同次方言语种的语音识别,仅仅停留在方言与文本互译的层面,而方言不仅不同语系之间存在差别,同一语系内不同次方言语种之间也存在不小的差别,如徽州方言,徽州四面环山,山峦阻碍了徽州各地的内部交流,形成诸多封闭的居住空间,故在徽州内部逐渐形成七种次方言区并定型,且这些次方言几乎无法通用,解决次方言识别的问题才能真正解决方言识别的问题。四是,现有技术方案均未涉及徽州方言。五是,现有的识别系统或者方法均未设置识别参数调节单元,难以提升系统识别性能；现有技术方案均未提及系统识别性能分析,没有设置参数调节单元,不能通过参数的调节使系统适应不同次方言语种。

本发明实施例提供了基于HMM模型的方言识别方法、装置、设备及介质,旨在建立例如徽州方言之类的汉语言方言语音标准库,实现汉语言方言的语音识别,并提升方言语音识别率。

第一方面,本发明实施例提供了一种基于隐马尔科夫HMM模型的方言识别方法,方法包括：

获取利用维特比(Viterbi)算法处理的待识别方言语音的声学特征序列；

将所述声学特征序列输入HMM模型库中并与单词的HMM模型比对,批量识别和/或实时识别出所述方言。

可选地,所述方法还包括创建语料库,所述创建语料库包括：

获取且录制包括文本和语音的方言语音语料,并形成方言文本语料库和方言语音数据库；

将录制的方言语音语料进行标记并识别出方言语音语料的边界；

根据识别出的所述边界对方言语音语料进行预加重处理并形成第一方言语音语料；

提取所述第一方言语音语料对应的MFCC声纹特征,并形成所述语料库,所述语料库包括若干特征矢量的特征文件。

可选地,所述将录制的方言语音语料进行标记并识别出方言语音语料的边界包括：

将录制的方言语音语料进行自动标记和/或手工标记并识别方言语音语料的边界。

可选地,所述根据识别出的所述边界对方言语音语料进行预加重处理包括：

将识别出边界的方言语音语料通入系统函数为H(z)＝1-μz^-1的高通滤波器中进行预加重处理,其中,μ为预加重因子。优选地，0.9＜μ＜1.0。

可选地,所述方言语音数据库包括至少两种次方言的原始语音数据库,且所述方言语音数据库包括训练语音数据库和测试语音数据库。

可选地,所述方法还包括创建HMM模型库,所述创建HMM模型库包括：

获取方言单词的特征数据,所述特征数据包括单音节、双音节、三音节和数字中的至少一种；

以所述特征数据为建模单元进行建模并形成方言单词的HMM模型原型；

利用Viterbi算法和前向-后向算法对所述HMM模型原型分别进行初始化处理和模型训练，形成方言单词的HMM模型并建立HMM模型库。

可选地,所述利用Viterbi算法和前向-后向算法对所述HMM模型原型分别进行初始化处理和模型训练之前,所述方法还包括:使用包括如下项中的至少一项对所述HMM模型原型进行原型定义：系数向量个数、系数类型、模型名称、多组状态、观察函数、特征维数、观察函数的平均向量及变化向量和状态转移矩阵。

可选地,所述方法还包括:通过设定特征维数的维数,为每一种次方言配设相匹配HMM模型。

可选地,所述批量识别和/或实时识别出所述方言包括:识别出与待识别语音的向量序列对应的匹配度最高的文本序列。

可选地,批量识别出所述方言之后,所述方法还包括:将批量识别出的识别结果与预定义结果比对，并输出比对结果。

第二方面,本发明实施例提供了一种基于HMM模型的方言识别装置,该装置包括：

获取模块,用于获取利用Viterbi算法处理的待识别方言语音的声学特征序列；

识别模块,用于将所述声学特征序列输入HMM模型库中并与单词的HMM模型比对,批量识别和/或实时识出所述方言。

可选地,所述装置还包括:数据准备模块,用于创建方言语料库。

可选地,所述数据准备模块包括：

语料获取单元,用于获取文本语料和语音语料；

语料录制单元,用于录制包括文本和语音的方言语音语料；

第一存储单元,用于存储文本和语音的方言语音语料,及存储方言文本语料库和方言语音数据库

语料标记单元,用于将录制的方言语音语料进行自动标记和/或手工标记并识别出方言语音语料的边界；

预加重单元,用于将识别出边界的方言语音语料通入系统函数为H(z)＝1-μz^-1的高通滤波器中进行预加重处理并形成第一方言语音语料；

声纹特征提取单元,用于将所述第一方言语音语料进行MFCC声纹特征提出并转化为包含若干特征矢量的特征文件。

可选地,所述装置还包括:建模模块,用于创建HMM模型库。

可选的,所述建模模块包括：

原型定义单元,用于使用包括系数向量个数、系数类型、模型名称、多组状态、观察函数、特征维数、观察函数的平均向量及变化向量和状态转移矩阵为定义数据对所述HMM模型原型进行原型定义；

建模单元,用于以特征数据为建模单元进行建模并形成方言单词的HMM模型原型；

模型初始化单元,用于利用Viterbi算法对所述HMM模型原型进行初始化处理；

模型训练单元,用于使用前向-后向算法对所述HMM模型原型模型训练,形成HMM模型；

第二存储单元,用于存储所述HMM模型并构成HMM模型库。

可选地,所述建模模块还包括：

模型优化和改进单元,用于通过设定特征维数的维数,为每一种次方言配设相匹配HMM模型。

可选地,所述识别模块包括：

输入单元,用于将声学特征序列输入HMM模型库；

模型匹配单元,用于输人HMM模型库中的声学特征序列与单词的HMM模型比对,批量识别和/或实时识别出所述方言；

输出单元,用于输出识别结果及将批量识别出的识别结果与预定义结果比对展示识别的正确率。

可选地,所述识别模块还包括：

字典定义单元,用于定义HMM模型与语法变量的对应关系；

语法定义单元,用于定义造句规则。

可选地,所述模型匹配单元包括:

第一处理单元,用于待识别方言语音将其转换成匹配的声学向量及利用Viterbi算法处理待识别方言语音的特征序列；

第一比对单元,用于输人HMM模型库中的声学特征序列与单词的HMM模型比对。

第三方面，本发明实施例提供了一种计算机设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的基于HMM模型的方言识别方法、装置、设备及介质,旨在建立诸如徽州方言之类的方言语音标准库,实现方言的语音识别,并提升方言语音识别率。本发明实施例以应用于徽州方言为例，各个实施例可以具有以下优点中的至少一个：

一是,本发明实施例的文本语料库和语音语料库的建立遵循独有的策略,从而有效反映徽州方言特征和徽州方言标准音特征；

二是,本发明实施例的训练语音为两种徽州方言(次方言)语音,能够实现对徽州内部次方言的识别；

三是，本发明实施例同时对单字音、双字音、三字音构建HMM模型库，对方言发音进行精准建模；

四是,本发明实施例的识别模块结合建模模块通过参数维度的调节和性能分析实现对系统性能的优化。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的基于HMM模型的方言识别方法的流程图；

图2示出了本发明实施例的基于HMM模型的方言识别方法可选的一种流程图；

图3示出了本发明实施例的基于HMM模型的方言识别装置的结构示意图；

图4示出了本发明实施例的基于HMM模型的方言识别装置的可选的结构示意图；

图5示出了本发明实施例的基于HMM模型的方言识别装置的结构框图；

图6示出了本发明实施例基于HMM模型的徽州方言识别的具体流程框图；

图7示出了本发明实施例提供的计算机设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再阐述具体实施例之前,此处先对以下技术予以阐述说明,从而方便下文对具体实施例解释说明。通常来说,在本发明实施例的相关领域中，一个关于方言的语音识别系统包括数据准备模块、建模模块和识别模块三个主要模块,包含以下一些具体技术:

HMM(隐马尔可夫模型)是一种统计分析模型,它是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。故隐马尔可夫模型是一个双重随机过程，它具有一定状态数的隐马尔可夫链和显示随机函数集。

基于HMM模型的三个主要问题：评估问题、解码问题和学习问题，分别提出了：前向算法、Viterbi算法和前向-后向算法，而本文中所涉及到的有Viterbi算法和前向-后向算法。

Viterbi算法，用于解决HMM模型中最优状态序列的选择问题。

前向-后向算法，用于以一种梯度下降的形式寻找一种错误测度的最小值,是对于HMM模型的参数进行一个初始的估计,然后通过对于给定的数据评估这些参数的价值并减少它们所引起的错误来重新修订这些HMM参数。

本发明实施例主要以徽州方言作为示例进行全文的解释说明，当然，具有类似徽州方言特征的其它方言也适用。具体地，本发明实施例的徽州方言语料库的设计与建立方法包括文本语料库的设计方法、语音语料库发音人的选取方法和语音语料采样标准。本发明属于非特定人语音识别,其语句预先训练,使用时不需要再进行学习。本发明的文本语料库的数据需充分考虑语料的实用性,尽量贴近生活,语音语料的采集需建立统一的采样标准并要保证音质。而语料库及其设计满足如下要求。

1.文本语料的设计应满足如下需求：

语料应为字意通用、无歧义的反应式发声(语音)；

发音人可以理解，非字意音；

字组中至少有一个字或者50％以上字，符合上述二条；

字选择的同时应给出完整的发音(标准与方言)方法；

样字选择范围至少应包括以下几个方面,且字音对应唯一:生活用语、隐私用语、公共用语、交流用语、事件用语；

样字应该构造简单,容易识别。

2.语音语料的设计应满足如下需求：

方言人的选择需要考虑生活环境,即发音人是否为方言地本地人,其方言的日常使用程度、熟练程度能否满足方言发音自然、熟练的要求。外出史很长将不被考虑为发音人。因为其方言发音的纯度可能受到来自环境的“污染”和改变。幼儿和年老者的发音可能因身体发育、衰老等原因不够稳定和纯正,青年人大多有在外地上学或工作的长期外出史,尽管其身体发音条件较为稳定,也不是发音人的首选,故而本发明优选的发音人需为长期在发音地居住生活,无长期外出史的中年人；采样过程需尽量保证语料无明显噪声点,且每个单词每个人的有效发音次数不低于三次。

3.采样标准

采样标准如下表所示：

实施例1

本发明一个实施例提供一种基于HMM模型的对诸如徽州方言之类的方言的识别方法。图1是根据本发明实施例的基于HMM模型的方言识别方法的流程图。如图1所示，该识别方法的步骤包括：

步骤S103,获取利用Viterbi算法处理的待识别方言语音的声学特征序列；

步骤S104,将所述声学特征序列输入HMM模型库中并与单词的HMM模型比对,批量识别和/或实时识别出所述方言。

通过本发明实施例的步骤,能够解决相关技术中的方言语系内次方言语种难以识别的问题,实现方言的精准快速语音识别。

图2是根据本发明实施例的基于HMM模型的方言识别方法的可选的一种流程图。如图2所示,在本实施例可选的实施方式中,本实施例的方法还包括:

步骤S101,创建语料库,通过创建文本语料库和语音语料库,完成原始训练语音和原始测试语音的录制、标记、对语料进行预加重处理并提取相应的Mel倒谱系数(MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)声纹特征。

在一个示例实施例中，对于该步骤S101,可以通过以下步骤实现：

步骤S101-1，获取且录制包括文本和语音的方言语音语料,并形成方言文本语料库和方言语音数据库；

步骤S101-2,将录制的方言语音语料进行标记并识别出方言语音语料的边界；

步骤S101-3,根据识别出的所述边界对方言语音语料进行预加重处理并形成第一方言语音语料；

步骤S101-4,提取所述第一方言语音语料对应的MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数，顾名思义MFCC特征提取包含两个关键步骤：转化到梅尔频率，然后进行倒谱分析)声纹特征,并形成所述语料库,所述语料库包括若干特征矢量的特征文件。

需要说明的是,实际中,对原始训练语音和原始测试语音处理还包括对其再标记后进行分帧、加窗处理和在进行预加重处理后进行求频谱处理。

作为优选,在本实施例可选的实施方式中,对于步骤S101-2的所述将录制的方言语音语料进行标记并识别出方言语音语料的边界包括:将录制的方言语音语料进行自动标记和/或手工标记并识别方言语音语料的边界。

作为优选,在本实施例可选的实施方式中,对于步骤S101-3的所述根据识别出的所述边界对方言语音语料进行预加重处理包括：

将识别出边界的方言语音语料通入系统函数为H(z)＝1-μz^-1的高通滤波器中进行预加重处理,其中,μ为预加重因子,优选0.9＜μ＜1.0。

作为优选,在本实施例可选的实施方式中,步骤S101-3中的所述方言语音数据库包括至少两种次方言的原始语音数据库,且所述方言语音数据库包括训练语音数据库和测试语音数据库。需要说明的是,如果本发明的实施例的方言对象选择徽州方言,那么,徽州方言的两种次方言例如可以选用歙县次方言和屯溪次方言。

优选地,如图2所示,在本实施例可选的实施方式中,本实施例的方法还包括:

步骤S102,创建HMM模型库,通过对每一方言单词建立HMM模型，从而构成HMM模型库,从而用于与待识别方言比对，从而实现方言的语音识别。

在一个示例实施例中，对于该步骤S102，可以通过以下的方法步骤实现：

步骤S102-1,获取方言单词的特征数据,所述特征数据包括音节单音节、双音节、三音节和数字。当然,特征数据不只是仅仅限于上述四种，但常选用方言单词的音节。

步骤S102-2,以所述特征数据(本实施例中选用音节)为建模单元进行建模并形成方言单词的HMM模型原型。

步骤S102-3,利用Viterbi算法和前向-后向算法对所述HMM模型原型分别进行初始化处理和模型训练形成方言单词的HMM模型并建立HMM模型库。

优选地,在本实施例可选的实施方式中,在步骤S102-3的所述利用Viterbi算法和前向-后向算法对所述HMM模型原型分别进行初始化处理和模型训练之前,还包括：

步骤S102-4,对每一HMM原型进行原型定义,包括定义系数向量个数、系数类型、模型名称、多组状态及其观察函数、特征维数和此特征维数下观察函数的平均向量与变化向量、状态转移矩阵等。

优选地,在本实施例可选的实施方式中,所述方法还包括:通过设定特征维数的维数,为每一种次方言配设相匹配HMM模型。

优选地,在本实施例可选的实施方式中,步骤S104中所述批量识别和/或实时识别出所述方言包括:识别出与待识别语音的向量序列对应的匹配度最高的文本序列。

优选地,在本实施例可选的实施方式中,在步骤S104的批量识别出所述方言之后,所述方法还包括步骤:将批量识别出的识别结果与预定义结果比对并输出比对结果并展示识别正确率。

通过以上方言识别方法的各个实施方式的描述，可见，该方法的各种实施方式能够解决如下问题之一：一是,确定并根据独有的文本语料库建立策略,建立文本语料库,使得该文本语料库能有效反映例如徽州方言特征；二是,确定并根据独有的语音语料库建立策略(包括方言发音人的选择标准和采样标准)，建立包含两种徽州方言(次方言)的原始语音数据库(包括训练库和测试库),使得该语音语料库能够有效反映例如徽州方言标准音特征；三是，结合隐马尔可夫模型(HMM)工具包开发语音信号数理分析平台,对训练库中的数据进行标记、预处理并提取声纹特征,从而根据其声纹特征使用前向-后向算法的同时对单字音、双字音、三字音构建HMM模型库；四是,使用维特比(Viterbi)算法进行模型匹配,找到待识别语音的向量序列对应的最可能的文本序列,并设置参数调节单元,从而能够在实现非特定人方言批量识别和实时识别基础上提升方言的识别率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到，根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。

实施例2

在本实施例中还提供了一种基于HMM模型的方言识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的基于HMM模型的方言识别装置的结构示意图,图4示出了本发明实施例的基于HMM模型的方言识别装置的可选的结构示意图,图5是根据本发明实施例的基于HMM模型的方言识别装置的结构框图。这些实施例中例如可以选用徽州方言作为处理对象进行说明。

如图3所示,该装置包括：

获取模块23,用于获取利用Viterbi算法处理的待识别方言语音的声学特征序列；

识别模块24,与获取模块23耦合连接,用于将所述声学特征序列输入HMM模型库中并与单词的HMM模型比对,批量识别和/或实时识出所述方言。

优选地,如图4所示,在本实施例可选的实施方式中,所述装置还包括:

数据准备模块21,用于创建方言语料库；该数据准备模块21对应语料库的建立,完成原始训练语音和原始测试语音的录制、标记、对语料进行预加重处理并提取相应的Mel倒谱系数声纹特征。本实施例中所涉及的所述数据准备模块21例如还可以包括：

语料获取单元,用于获取文本语料和语音语料；

语料录制单元,与语料获取单元耦合连接,用于录制包括文本和语音的方言语音语料；该语料录制单元使用满足前文所述文本语料录制需求的文本语料,使用满足前文所述采集环境、采集标准和方言发音人的选择标准的语音语料录制需求的语音语料；

第一存储单元,与语料录制单元耦合连接,用于存储文本和语音的方言语音语料,及存储方言文本语料库和方言语音数据库；

语料标记单元,与第一存储单元和语料录制单元耦合连接,用于将录制的方言语音语料进行自动标记和/或手工标记并识别出方言语音语料的边界；通过自动标记提升效率,而手工标记提升精确度；

预加重单元,与语料标记单元耦合连接,用于将识别出边界的方言语音语料通入系统函数为H(z)＝1-μz^-1的高通滤波器中进行预加重处理并形成第一方言语音语料,其中,式中μ为预加重因子,其值介于0.9-1.0之间,优选地取0.97,以提升高频部分的响应,突出高频的共振峰,减少由于声带和嘴唇对语音信号的影响；

声纹特征提取单元,与预加重单元耦合连接,用于将所述第一方言语音语料进行MFCC声纹特征提出并转化为包含若干特征矢量的特征文件。

建模模块22,与获取模块23耦合连接,用于创建HMM模型库,通过对每一方言单词建立HMM模型,从而构成HMM模型库,从而用于识别模块24对待识别方言与单词的HMM模型比对,从而实现方言的语音识别。

优选地,本实施例中所涉及的建模模块22还可以包括：

原型定义单元,用于对每一个HMM模型进行原型定义,包括定义系数向量个数、系数类型、模型名称、多组状态及其观察函数、特征维数和此特征维数下观察函数的平均向量与变化向量、状态转移矩阵等；

建模单元,与原型定义单元耦合连接,用于以特征数据为建模单元进行建模并形成方言单词的HMM模型原型；

模型初始化单元,与建模单元耦合连接,用于利用Viterbi算法对所述HMM模型原型进行初始化处理；在本实施例中,模型初始化单元例如可以使用维特比算法对输入的HMM模型原型进行初始化后对模型进行平坦初始化,生成可变基底宏文件；

模型训练单元,与模型初始单元耦合连接,用于使用前向-后向算法对所述HMM模型原型模型训练,形成HMM模型；在本实施例中,模型训练单元可以使用前向-后向算法重估模型参数,调用一次是对参数的一轮重估,通过多次调用完成参数训练；

第二存储单元,用于存储所述HMM模型并构成HMM模型库。

优选的,本实施例中所涉及的所述建模模块22还可以包括：

模型优化和改进单元,用于通过设定特征维数的维数,为每一种次方言配设相匹配HMM模型,也就是用以调节参数，结合识别模块24分析系统性能,提升识别率。

优选地,本实施例中所涉及的所述识别模块24根据建模模块22输出的HMM模型和相应的任务字典、任务语法及任务网络,再用Viterbi算法将待识别语音的声学特征与模型库中的模型进行匹配,从而实现对徽州方言的批量识别和实时识别。在一个示例实施例中，识别模块24例如可以包括：

输入单元,用于将声学特征序列输入HMM模型库；

字典定义单元,用于定义HMM模型与语法变量的对应关系；

语法定义单元,用于定义造句规则；

模型匹配单元,与输入单元、字典定义单元及语法定义单元耦合连接,用于输入HMM模型库中的声学特征序列与单词的HMM模型比对,用于批量识别和/或实时识别出待处理方言；

输出单元,用于输出识别结果及将批量识别出的识别结果与预定义结果比对，来展示识别的正确率。

优选地,本实施例中所涉及的模型匹配单元例如可以包括:第一处理单元,用于待识别方言语音将其转换成匹配的声学向量及利用Viterbi算法处理待识别方言语音的特征序列；第一比对单元,用于输入HMM模型库中的声学特征序列与单词的HMM模型比对。因此，所述模型匹配单元可以对待识别的语音进行处理,将其转换成一系列声学向量,然后使用Viterbi算法处理待识别语音的特征序列,与各个单词的HMM进行匹配,测试待识别语音的特征序列与模型库中的模型的匹配程度。

需要说明的是,上述各个模块、各单元是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此。上述模块可以均位于同一处理器中；或者,上述模块可以分别位于多个处理器中。

图6为根据本发明实施例基于HMM模型的徽州方言识别的具体流程框图。结合附图6,以识别两种徽州方言(次方言)为例，举例说明本发明基于HMM模型的徽州方言识别过程。

步骤1：建立徽州方言声学库,根据文本语料的选择要求建立文本语料库,根据方言发音人的选择标准和采样标准,建立包含两种徽州方言(次方言)的原始语音数据库(包括训练库和测试库,前者用于建模和识别,后者仅用于识别)；

步骤2：提取语料的声学特征,通过标记、分帧、加窗、预加重处理、求取频谱、求取倒谱等一系列过程,将语音文件转化为包含若干特征矢量的特征文件；

步骤3:建立HMM模型库,选取音节作为建模单元分别对单字音、双字音、三字音进行建模,通过模型定义、模型初始化和模型训练建立HMM模型库；

步骤4：建立识别器,识别器由任务字典、任务网络和建模模块的输出HMM模型集构成；

步骤5：模型匹配,根据建模模块的输出(模型)和相应的任务字典、任务语法和任务网络,使用维特比算法处理待识别语音的特征序列,与各个单词的HMM进行匹配,测试待识别语音的特征序列与模型库中的模型的匹配程度,找到待识别语音的向量序列对应的最可能的文本序列,实现对徽州方言的批量识别和实时识别；

步骤6：结果输出,输出识别的结果,批量语音识别还可通过对比识别结果和预先定义好的正确结果展示识别的正确率；

步骤7:性能优化,结合建模模块通过参数维度的调节和识别模块性能分析实现对系统性能的优化,对每一种次方言均可以得到其识别率相对较高的参数固定用于此方言的识别。

需要说明的是,实际设别中,在步骤1中选取137个词作为文本语料，包括73个单字音、52个双字音和12个三字音,涵盖日常生活各个方面。通过走访调查整理出语料的发音,建立了一个完整的小型文本语料库。采集11名方言发音人共计3809条语音语料，并对这些语料进行细致地切分、标注、预处理和Mel倒谱系数声纹特征的提取,建立了徽州方言的语音语料库。在步骤7中设置三个测试大组,分别是歙县次方言测试组、屯溪次方言测试组和徽州方言测试组(含歙县次方言和屯溪次方言)，每个测试大组下分四个测试小组,分别对数字、单字音、双字音、三字音进行识别,对于每一个测试小组使用MFCC参数作为唯一变量进行测试,通过测试发现随着特征参数维度的上升,徽州方言的识别率有明显提升,并基本在39维时达到最高,但对两种次方言数字组的混合识别和对屯溪方言双字音组的识别除外,它们的识别率在26维时达到最高。

另外,结合图1-2描述的本发明实施例的基于HMM模型的方言识别方法可以由计算机设备来实现。图7示出了本发明实施例提供的计算机设备的硬件结构示意图。

该计算机设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit，ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在数据处理装置的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。在特定实施例中，存储器402包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种基于HMM模型的方言识别方法。

在一个示例中，计算机设备还可包括通信接口403和总线410。其中，如图7所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该计算机设备可以执行本发明实施例中的基于HMM模型的方言的识别方法。

另外，结合上述实施例中的基于HMM模型的方言的识别方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于HMM模型的方言的识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序，也就是说,可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序,或者若干步骤同时执行。

以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于隐马尔科夫HMM模型的方言识别方法,其特征在于,所述方法包括：

获取利用Viterbi算法处理的待识别方言语音的声学特征序列；

2.根据权利要求1所述的方法,其特征在于,所述方法还包括：

提取所述第一方言语音语料对应的梅尔频率倒谱系数MFCC声纹特征,并形成语料库,所述语料库包括若干特征矢量的特征文件。

3.根据权利要求2所述的方法,其特征在于,所述将录制的方言语音语料进行标记并识别出方言语音语料的边界包括：

4.根据权利要求2所述的方法,其特征在于,所述根据识别出的所述边界对方言语音语料进行预加重处理包括：

将识别出边界的方言语音语料通入系统函数为H(z)＝1-μz^-1的高通滤波器中进行预加重处理,其中,μ为预加重因子。

5.根据权利要求2所述的方法,其特征在于，所述方言语音数据库包括至少两种次方言的原始语音数据库,且所述方言语音数据库包括训练语音数据库和测试语音数据库。

6.根据权利要求2所述的方法,其特征在于,所述方法还包括：

7.根据权利要求6所述的方法,其特征在于,利用Viterbi算法和前向-后向算法对所述HMM模型原型分别进行初始化处理和模型训练之前,所述方法还包括:

使用如下项中的至少一项对所述HMM模型原型进行原型定义：系数向量个数、系数类型、模型名称、多组状态、观察函数、特征维数、观察函数的平均向量及变化向量和状态转移矩阵。

8.根据权利要求7所述的方法,其特征在于，所述方法还包括:

通过设定特征维数的维数,为每一种次方言配设相匹配HMM模型。

9.根据权利要求1-8任意一项所述的方法,其特征在于,所述批量识别和/或实时识别出所述方言包括:

识别出与待识别语音的向量序列对应的匹配度最高的文本序列。

10.根据权利要求9所述的方法,其特征在于,批量识别出所述方言之后,所述方法还包括:将批量识别出的识别结果与预定义结果比对，并输出比对结果。

11.一种基于HMM模型的方言识别装置,其特征在于,所述装置包括：

识别模块,用于将所述声学特征序列输入HMM模型库中并与单词的HMM模型比对,批量识别和/或实时识别出所述方言。

12.一种计算机设备,其特征在于,包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质,其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1至10中任一项所述的方法。