CN108877769B

CN108877769B - 识别方言种类的方法和装置

Info

Publication number: CN108877769B
Application number: CN201810662646.4A
Authority: CN
Inventors: 孙林嘉
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2020-12-01
Anticipated expiration: 2038-06-25
Also published as: CN108877769A

Abstract

本发明公开了一种识别方言种类的方法和装置。其中，该方法包括：获取待检测音节序列中每个音节的第一声学特征和第二声学特征；将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型；将发音类型输入到训练好的发音类型组合模型得到第一概率；将每个音节的第二声学特征输入到训练好的声调模型得到第二概率；根据第一概率和第二概率的乘积确定音节序列所属的方言种类。本发明解决了现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题。

Description

识别方言种类的方法和装置

技术领域

本发明涉及语音信号处理领域，具体而言，涉及一种识别方言种类的方法和装置。

背景技术

语音是人类实现信息交互最直接、最便捷和最自然的方式之一。多年来研究者一直致力于让计算机甚至机器人像自然人一样利用语音实现交互。虽然语音合成、语音识别和自然语言处理等领域都有了长足的发展和广泛的应用，但是基于多种汉语方言的语言交互研究显得非常稀少。其中，汉语方言辨识研究将作为众多智能语音技术重要组成部分，能够为下一步的信息处理提供保障和提高效率。

现有的汉语方言辨识研究仍处于初级阶段，多数研究是将汉语方言辨识看作是语言辨识的一种特殊情况，仅仅简单的在已有语言辨识方法的基础上，将研究对象替换为汉语方言，所以辨识的准确率较低。另外，现有汉语方言众多，方言内部又有很多分区，而现有技术中的汉语方言辨识方法都是针对一种方言开发一种辨识方法，没有一种作为一个系统的具有普适性的辨识方法。

除此之外，现有技术中虽然有针对声母韵母的研究，但都是基于声母韵母的表层信息的划分利用，已有汉语方言辨识方法中语料数据也往往很单一，对高层语言学信息的利用也极少，导致方言辨识准确率较低且不具有普遍适用性。

针对上述现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种识别方言种类的方法和装置，以至少解决现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题。

根据本发明实施例的一个方面，提供了一种识别方言种类的方法包括：获取待检测音节序列中每个音节的第一声学特征和第二声学特征，其中，所述音节序列为至少一个音节所组成的序列；将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型，其中，所述发音类型模型是使用发音类型和第一声学特征训练而成的，所述发音类型是在一个音节中不同音节片段的位置所对应的类型；将所述发音类型输入到训练好的发音类型组合模型得到第一概率，其中，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的，所述第一概率是待检测的音节序列所属方言类型出现的概率，所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系；将每个音节的第二声学特征输入到训练好的声调模型得到第二概率，其中，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的，所述第二概率是所述音节序列中的声调所属的方言种类的概率；根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。

进一步地，根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类包括：计算所述第一概率和所述第二概率的乘积得到所述音节序列所属的方言种类的概率，其中，所述方言种类的概率是所述音节序列在属于多个不同的方言种类的概率；将所述方言种类的概率由高到底进行优先级排序；将在优先级排序结果中大于等于阈值概率的方言种类作为候选方言种类，其中，所述候选方言种类为至少一个；对每一个所述候选方言种类重新进行其方言种类的识别过程直至所述候选方言种类为一种。

进一步地，对每一个所述候选方言种类重新进行方言种类的识别过程直至所述候选方言种类为一种包括：判断待验证音节序列在候选方言中的显著程度；选取显著程度高的待验证音节序列进行候选方言种类识别过程，其中，所述待验证音节序列与所述音节序列不同。

进一步地，所述发音类型模型是使用发音类型和第一声学特征结合高斯混合模型训练而成的，其中，所述第一声学特征为梅尔倒谱特征。

进一步地，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率通过三层神经网络学习训练而成的。

进一步地，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率结合高斯混合模型训练而成的，其中，所述第二声学特征是基频轮廓特征、时长特征和能量特征。

进一步地，所述音节片段是将每个音节根据声母、韵母划分成的三个音节片段；所述第一音节片段位置对应的发音类型是塞音、擦音、塞擦音、鼻音和边音；所述第二音节片段位置对应的发音类型是开口呼、齐齿呼、合口呼和撮口呼；所述第三音节片段位置对应的发音类型是塞音、擦音和鼻音。

根据本发明实施例的另一方面，还提供了一种识别方言种类的装置包括：获取模块，用于获取待检测音节序列中每个音节的第一声学特征和第二声学特征，其中，所述音节序列为至少一个音节所组成的序列；第一识别模块，用于将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型，其中，所述发音类型模型是使用发音类型和第一声学特征训练而成的，所述发音类型是在一个音节中不同音节片段的位置所对应的类型；第二识别模块，用于将所述发音类型输入到训练好的发音类型组合模型得到第一概率，其中，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的，所述第一概率是待检测的音节序列所属方言类型出现的概率，所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系；第三识别模块，用于将每个音节的第二声学特征输入到训练好的声调模型得到第二概率，其中，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的，所述第二概率是所述音节序列中的声调所属的方言种类的概率；判断模块，用于根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的方法。

在本发明实施例中，采用获取待检测音节序列中每个音节的第一声学特征和第二声学特征；将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型；将发音类型输入到训练好的发音类型组合模型得到第一概率；将每个音节的第二声学特征输入到训练好的声调模型得到第二概率；根据第一概率和第二概率的乘积确定音节序列所属的方言种类的方式，解决了现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题，使得方言种类识别更加高效准确具有普适性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种识别方言种类的方法和装置的流程图；

图2是根据本发明实施例的一种可选的汉字音节组成原理的示意图；

图3是根据本发明实施例的一种中国语言资源保护工程多媒体语料整理的示意图；

图4是根据本发明实施例的一种汉字音节发音类型与帧序列的对应的示意图；

图5是根据本发明实施例的一种方言辨识过程的示意图；

图6是根据本发明实施例的一种识别方言种类的装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种识别方言种类的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种识别方言种类的方法，如图1所示，该方法包括如下步骤：

步骤S102，获取待检测音节序列中每个音节的第一声学特征和第二声学特征，其中，音节序列为至少一个音节所组成的序列；

步骤S104，将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型，其中，发音类型模型是使用发音类型和第一声学特征训练而成的，发音类型是在一个音节中不同音节片段的位置所对应的类型；

步骤S106，将发音类型输入到训练好的发音类型组合模型得到第一概率，其中，发音类型组合模型是使用发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的，第一概率是待检测的音节序列所属方言类型出现的概率，发音类型的位置关系是每个发音类型在不同音节片段上的位置关系；

步骤S108，将每个音节的第二声学特征输入到训练好的声调模型得到第二概率，其中，声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的，第二概率是音节序列中的声调所属的方言种类的概率；

步骤S110，根据第一概率和第二概率的乘积确定音节序列所属的方言种类。

上述方言辨识方法是基于音韵学知识的辨识方法，方法按照汉语方言的划分，对中国语言资源保护工程多媒体语料进行归类。可以先采集每种汉语方言下的单字或词汇的音频语料(音节序列)，上述音节序列是由多个音节构成，一个单字可以看做一个音节，词汇可以看做多个音节，采集的单字或词汇都可以以音节序列来代表。具体采集方式是以帧为单位，将每个汉字音节按照每40ms一个采样窗口，每10ms步移一次的方法进行采样，获得一个帧序列，并在这个帧序列上提取声学特征。每个音节由多个帧构成。将帧序列提取的声学特征可以以文本的形式进行保存。同时，按照发音方法，将各汉语方言的每个音节划分为不同的发音类型，并为每个音频标记出组成其音节的3个发音类型。如果某一位置上没有对应的发音类型，则可以统一使用同一种规定标识作为标记。

通过上述步骤中的模型将发音类型与声调分别进行建模与现有技术中简单的利用某种语料数据不同，本实施例不再是对声母韵母表层信息的简单划分，而是利用不同的声学特征得到发音类型和声调的模型，最后将他们的概率乘积作为总的方言识别的概率，此种方式清晰地表达了汉语方言的语音特征，使得模型学习和方言辨识更加高效准确。中国境内有十大汉语方言，分别是官话、晋语、吴语、湘语、粤语、赣语、徽语、闽语、客家话、平话。官话又进一步可分为北京官话、东北官话、冀鲁官话、江淮官话、西南官话、胶辽官话、中原官话、兰银官话，每种汉语方言均有其自身特点，且内部可以进一步分为许多的片和小片，现有技术根据这些为对每种汉语方言都建立一种数字模型是不具有普遍性的方法也难以实现，本实施例从音韵学的观点和角度出发，所建立的模型是从语音发音的声音本质(声学特征)提取发音类型和声调进行建模和识别，所以具有普遍适用性，不会因为方言的改变就需要重新建模，只需要调整相应的语料库就可以获得不同的多种方言识别的模型，所以，本实施例至少解决现有技术的方言辨识方法存在的准确率较低且不具有普遍适用性的技术问题，使得方言种类识别更加高效准确具有普适性。

在上述步骤中可以得到某个音节序列的多种方言的概率，可以根据概率的大小直接判断出音节序列所属的方言，也可以通过自动的识别方式根据第一概率和第二概率的乘积确定音节序列所属的方言种类，在一种可选的实施方式中，首先，计算第一概率和第二概率的乘积得到音节序列所属的方言种类的概率，其中，方言种类的概率是音节序列在属于多个不同的方言种类的概率；然后将方言种类的概率由高到底进行优先级排序；再将在优先级排序结果中大于等于阈值概率的方言种类作为候选方言种类，其中，候选方言种类为至少一个；最后对每一个候选方言种类重新进行其方言种类的识别过程直至候选方言种类为一种。

通过上述步骤自动将多种方言概率进行归一化处理得到一种方言作为识别到的音节序列方言种类，从而使得方言种类识别更加高效准确。

对每一个候选方言种类重新进行方言种类的识别过程直至候选方言种类为一种，需要选择待验证音节对上述的候选方言对应的模型进行识别过程的验证，在一种可选的实施方式中，即，判断待验证音节序列在候选方言中的显著程度；选取显著程度高的待验证音节序列进行候选方言种类识别过程，其中，待验证音节序列与音节序列不同。

上述待验证音节序列可以从预先建立的各个汉语方言对应的特征调查字表中选取，音节序列所对应的单字或者词汇也可以从各个汉语方言对应的特征调查字表中选取，在中国语言资源保护工程多媒体语料基础上，统计每种特点下所包含语料中单字和词汇的数量，并以其所占全部语料的比例作为每种特点的显著度。按照显著度由高到低将各汉语方言的音韵学特点进行排列。将能够覆盖75％的单字和词汇的特点作为代表该方言的特点，其对应的单字和词汇作为代表该方言特征的调查字表。

上述方法利用中国语言资源保护工程所取得的真实海量的多媒体语料是利用现代化技术手段，收集记录汉语方言、少数民族语言和口头语言文化的多媒体实态语料。这些多媒体实态语料主要包括1000个单字、1200个词汇、50个语法句子以及部分长篇语料的音频、视频和文档。在所取得的真实海量的多媒体语料数据基础上，通过科学整理加工和可持续增长，基本获得了各汉语方言的声调、声母和韵母等语音体系，包括官话(北京官话、东北官话、冀鲁官话、江淮官话、西南官话、胶辽官话、中原官话、兰银官话)、晋语、吴语、湘语、粤语、赣语、徽语、闽语、客家话、平话。

下面以一个可选的实施方式对上述方言辨识的迭代过程进行说明:

从调查字表中随机选取3到5个单字和词汇作为一组调查例字，并依据调查例字采集发音人的汉语方言信号。将汉语方言信号输入到各汉语方言的模型中，输出归属各汉语方言的概率作为方言辨识的中间结果；为归属概率较高的汉语方言，从其对应的汉语方言特征调查字表中选取调查例字。再次依据调查例字采集发音人的汉语方言信号，并重复上述辨识过程，直到得到确定的汉语方言辨识结果。

通过上述过程从调查字表中选取调查例字代入到方言识别模型中迭代地执行汉语方言辨识，使得方言辨识结果逐步收敛，从而实现高效准确的汉语方言辨识。

在一种可选的实施方式中，发音类型模型是使用发音类型和第一声学特征结合高斯混合模型训练而成的，其中，第一声学特征为梅尔倒谱特征。发音类型在多个方言之间相对不变且数量较少，结合梅尔倒谱特征更容易提取和识别。

在一种可选的实施方式中，发音类型组合模型是使用发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率通过三层神经网络学习训练而成的。发音类型组合是对声母韵母组合的抽象与描述，清晰地表达了汉语方言的语音特征。

在一种可选的实施方式中，声调模型是使用第二声学特征和其对应声调所属的方言种类的概率结合高斯混合模型训练而成的，其中，第二声学特征是基频轮廓特征、时长特征和能量特征。声调模型充分利用了各方言声调系统具有强烈排他性的特点,比较利于将方言相互区别开。而基频轮廓特征、时长特征和能量特征能够较好的描述声调的调型及持续性等特征。

在一种可选的实施方式中，音节片段是将每个音节根据声母、韵母划分成的三个音节片段；第一音节片段位置对应的发音类型是塞音、擦音、塞擦音、鼻音和边音；第二音节片段位置对应的发音类型是开口呼、齐齿呼、合口呼和撮口呼；第三音节片段位置对应的发音类型是塞音、擦音和鼻音。

上述方法从音韵学的观点和角度出发，对语料加工整理，主要获得各汉语方言的声调、声母和韵母等语音体系，并按照发音方法将各汉语方言中的声母和韵母划分为不同的发音类型。同时，整理获得了各汉语方言特征调查字表，为中国境内的各类汉语方言提供了一种系统化的汉语方言通用模型。该汉语方言通用模型能够充分融合声调、声母和韵母等音韵学信息，清晰地表达汉语方言的语音特征。

通过上述过程能够按照统一标准，全面、细致、科学的调查、记录和整理各汉语方言的语料采集工作，以及利用采集工作进行汉语方言辨识，从而实现高效准确的汉语方言辨识。

下面以一个可选的实施方式对上述过程进行说明：

现代音韵学认为声调、声母和韵母是构成汉语音节的基本要素。如图2汉字音节组成原理示意图所示，如果不计声调，汉语音节的音位构成是四位结构。其中，声母占了第一个位子，韵母进一步分为韵头、韵腹和韵尾，占了第二三四位子。按发音方法，声母可分为塞音、擦音、塞擦音、鼻音和边音等五类发音类型，韵母中按照韵头和韵腹的组合可分为开口呼、齐齿呼、合口呼和撮口呼等四类发音类型，而韵母中的韵尾可分为塞音、擦音和鼻音等三类发音类型。如此，一个汉字音节则由3个发音类型组成，而汉语方言的差异可归纳为不同发音类型出现的频率以及不同发音类型在音节中出现的次序。

基于汉字音节组成原理，按照声调和发音类型及其组合的描述，进行某种方言语音识别的单字或者词汇可以表示为一个语音序列S：

S＝{T,W}＝{T₁,T₂,L L T_J,W₁₁,W₁₂,W₁₃,W₂₁,W₂₂,W₂₃,L L W_J1,W_J2,W_J3}；其中，T是声调序列，W是发音类型及其组合的序列，J表示语音中的音节个数，W_J1,W_J2,W_J3分别表示一个音节中的3个发音类型。

在进行方言识别过程或者建立方言识别的相关模型时需要采集音节序列，采集的方式是将每个汉字音节按照每40ms一个采样窗口，每10ms步移一次的方法进行采样，获得一个帧序列。在这个帧序列上可以提取梅尔倒谱特征、基频轮廓、时长以及能量等声学特征。按照帧序列进行采样并提取声学特征后，某一种方言语音的声学特征序列S可以记为：

S＝{M,C,t,e}＝{M₁,M₂,L L M_K,C₁,C₂,L L C_K,t₁,t₂,L L t_K,e₁,e₂,L L e_K}；其中，M是梅尔倒谱特征序列，C是基频轮廓序列，t是时长序列，e是能量序列，K表示语音中的帧数。

当在模型训练或者方言识别过程中，针对某一种方言i的语音，依据声调、发音类型及组合以及声学特征，判断其属于第i方言D_i的概率是：

D_i＝logP(D_i|T,W,M,C,t,e)＝logP(D_i|W,M)+logP(D_i|T,C,t,e) (1)

其中，P(D_i|W,M)表示基于梅尔倒谱特征序列和发音类型及组合判断属于某种方言的第一概率，而P(D_i|T,C,t,e)表示基于基频轮廓序列、时长序列和能量序列判断属于某种方言的第二概率。

进一步，将logP(D_i|W,M)写作：

logP(D_i|W,M)＝logP(M|W,D_i)+logP(W|D_i) (2)

其中，P(W|D_i)表示方言D_i下的某种发音类型及其组合的概率，是由三层神经网络训练而成的，P(M|W,D_i)表示对应的梅尔倒谱特征出现的概率，是由高斯混合模型得到。

将logP(D_i|T,C,t,e)写作：

logP(D_i|T,C,t,e)＝logP(C,t,e|T,D_i)+logP(T|D_i)

＝logP(C|T,D_i)+logP(t|T,D_i)+logP(e|T,D_i)+logP(T|D_i) (3)

其中，P(T|D_i)表示方言D_i下某种声调的概率，而P(C|T,D_i)、P(t|T,D_i)和P(e|T,D_i)分别表示对应的基频轮廓特征、时长特征和能量特征出现的概率。

为了计算P(M|W,D_i)，使用高斯混合模型为每种方言的每种发音类型在梅尔倒谱特征上进行建模，即

其中，L是高斯混合模型中高斯分量的个数，π_l表示第l个分量的权重，μ_l和δ_l分别表示第l个分量的平均值和方差。

当需要辨识一个音节时，每种发音类型高斯混合模型本质上是一个发音类型辨识器，在对音节中的发音类型做出多种初步判断的同时，可以得到多种发音类型的组合。将这些潜在的发音类型及其组合作为输入，从而计算其属于某种方言D_i的概率P(W|D_i)。为此，为每种方言的每种发音类型及其组合，构建一个三层神经网络，第一层观测层为帧序列下的声学特征；第二层隐含层为对应的发音类型片段，并且约定由上到下对应声母、韵头韵腹和韵尾下的发音类型；第三层输出层为方言归类。通过对这个三层神经网络进行学习，就可以得到每种方言的每种发音类型及其组合的数学模型。

类似的，为了计算P(C|T,D_i)、P(t|T,D_i)和P(e|T,D_i)，使用高斯混合模型为每种方言的每种声调分别在基频轮廓特征、时长特征和能量特征上进行建模。其计算公式类似公式(4)。

为了计算P(T|D_i)，对每种方言的每种声调，通过统计语料库中每种声调归属例字占全部例字的比例，作为该方言中该声调的先验概率。

上述基于高斯混合模型的发音类型模型、基于三层神经网络的发音类型组合模型以及基于高斯混合模型的声调模型，共同组成了某种方言的数学模型。

基于汉字音节组成原理和数学模型，本实施例对中国语言资源保护工程所获取的多媒体语料进加工整理。加工整理主要包括方言语音体系整理、方言音频语料整理和方言特征调查字表整理。如图3所示，主要操作有：

(1)将多媒体语料按照北京官话、东北官话、冀鲁官话、江淮官话、西南官话、胶辽官话、中原官话、兰银官话、晋语、吴语、湘语、粤语、赣语、徽语、闽语、客家话、平话等十七个方言类进行归类。

(2)对每类方言，整理获得其语音体系，包括声母、韵母和声调。进一步，按照发音方法，将声母分为塞音、擦音、塞擦音、鼻音和边音等五类发音类型；将韵母的韵头和韵腹的组合分为开口呼、齐齿呼、合口呼和撮口呼等四类发音类型，将韵母中的韵尾分为塞音、擦音和鼻音等三类发音类型。对每类方言，由语言学专家归纳出其方言音系特点，主要是从声母、韵母和声调的维度，列出其与普通话音系以及古汉语音系的差异。

(3)在获取上述语音体系的基础上，按照声母和韵母发音类型的组合，将每个方言下1000个单字和1200个词汇的音频进行分类。进一步，为每个音频标记出组成其音节的3个发音类型。如果某一个位置上的发音类型没有，则统一使用一种标记进行标注。接下来，将每个汉字音节按照每40ms一个采样窗口，每10ms步移一次的方法进行采样，获得一个帧序列，并在这个帧序列上提取梅尔倒谱特征、基频轮廓、时长以及能量等特征。将帧序列提取的特征以文本的形式进行保存，以便模型学习是使用。对在每个音频(音频序列)中汉字音节发音类型与帧序列的对应关系进行举例说明，例如，如图4所示，每个音节被划分为声母、韵母，声母韵母的发音类型在图4中分别是塞音、合口呼、鼻音，提取时以帧为单位获取语音信号。

(4)在获得各方言音系特点的基础上，将每个方言下1000个单字和1200个词汇归纳到各个特点中。统计每种特点下所包含的单字和词汇的数量，并计算出其在1000个单字和1200个词汇中的比例；将此比例作为该种特点在该方言中的显著度。将各方言的特点按照显著度由高到低进行排列，取前75％的单字和词汇作为该方言特征调查字表。

辨识过程中，首先随机给定几个调查例字并由发音人读出例字，从而采集到汉语方言信号。对方言信号进行帧采样和声学特征提取。在声学特征和帧序列提取的基础上，利用各方言发音类型模型进行发音类型的辨识，从而能够得到不同方言不同发音类型的判断。

此判断是一个初步阶段，相当于对音频进行分段切割。在得到互不重叠的发音类型片段的同时，得到了发音类型的组合。结合位置信息和声学特征，互不重叠的发音类型片段将被限定为3个片段，对应音节中的3个发音类型。初步判断时允许存在发音类型为空的情况。

将得到的发音类型片段及其对应的声学特征序列输入到各方言模型中。对于发音片段及其组合，每一个方言的每一种发音片段及其组合都建模为一个多层神经网络。经过计算，可以得到属于某种方言的概率。

对于声调，采用与发音类型及其组合独立分布的原则。利用学习到的每种方言的声调模型，结合声学特征序列，计算属于某种方言的声调概率。

将上述两种概率的乘积作为属于某种方言判断的概率。依据本实施例，一定会得到属于不同种方言的概率。按照概率由高到低的顺序进行排列，以排序中概率之和达到80％的方言为候选方言；为候选方言，在其对应的方言特征调查字表中选择1个调查例字。

按照选取的调查例字，再次采集发音人的汉语方言信号；重复上面的辨识过程。当候选方言中只有一种方言时，辨识过程结束，输出辨识结果。由此，可以看出本实施例的辨识系统是一个边调查边辨识的过程。这一辨识过程能够使得方言辨识结果逐步收敛，实现高效准确的汉语方言辨识，并没有像现有的方言辨识方法通过一次判断即将概率最高的方言作为最终辨识结果。整个辨识过程如图5所示：

从各汉语言特征调查字表中选取调查例字，发音人按照该例字进行朗读，获得单字或者词汇的音节序列，通过相关的方言辨识模型对方言进行辨识，达到预定标准时，(比如预定的归一化的条件)，得到方言识别的结果，否则依据辨识中间结果从方言特征调查字表中选取调查例字；经过迭代地执行汉语方言辨识和调查例字选取，使得方言辨识结果逐步收敛，从而实现高效准确的汉语方言辨识。

与现有技术相比，本发明的有益效果是：本实施例将汉语方言作为一个系统的研究工作和研究对象，提供了一种系统化的汉语方言通用模型，充分融合声调、声母和韵母等音韵学信息，清晰地表达了汉语方言的语音特征。同时结合中国语言资源保护工程的多媒体语料，使得模型学习和方言辨识更加高效准确。

上述实施例中方言的识别方法可以是应用于多种汉语方言环境下的人机交互、信息安全、在线支付、智能终端等交互理念和交互平台方面。

本发明实施例还提供了识别方言种类的装置，该装置可以通过获取模块、识别模块、判断模块实现其功能。需要说明的是，本发明实施例的一种识别方言种类的装置可以用于执行本发明实施例所提供的一种识别方言种类的方法，本发明实施例的一种识别方言种类的方法也可以通过本发明实施例所提供的识别方言种类的装置来执行。图6是根据本发明实施例的识别方言种类的装置的示意图。如图6所示，图6是根据本发明实施例的识别方言种类的装置的结构图。一种识别方言种类的装置包括：

获取模块62，用于获取待检测音节序列中每个音节的第一声学特征和第二声学特征，其中，所述音节序列为至少一个音节所组成的序列；

第一识别模块64，用于将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型，其中，所述发音类型模型是使用发音类型和第一声学特征训练而成的，所述发音类型是在一个音节中不同音节片段的位置所对应的类型；

第二识别模块66，用于将所述发音类型输入到训练好的发音类型组合模型得到第一概率，其中，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的，所述第一概率是待检测的音节序列所属方言类型出现的概率，所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系；

第三识别模块68，用于将每个音节的第二声学特征输入到训练好的声调模型得到第二概率，其中，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的，所述第二概率是所述音节序列中的声调所属的方言种类的概率；

判断模块610，用于根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述方法。

本发明实施例提供了一种处理器，处理器包括处理的程序，其中，在程序运行时控制处理器所在设备执行上述方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种识别方言种类的方法，其特征在于，包括：

获取待检测音节序列中每个音节的第一声学特征和第二声学特征，其中，所述音节序列为至少一个音节所组成的序列；

将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型，其中，所述发音类型模型是使用发音类型和第一声学特征训练而成的，所述发音类型是在一个音节中不同音节片段的位置所对应的类型；

将所述发音类型输入到训练好的发音类型组合模型得到第一概率，其中，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的，所述第一概率是待检测的音节序列所属方言类型出现的概率，所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系；

将每个音节的第二声学特征输入到训练好的声调模型得到第二概率，其中，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的，所述第二概率是所述音节序列中的声调所属的方言种类的概率；

根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类；

其中，所述发音类型模型和声调模型的训练过程，包括：

将预设的语料库中的语料按照方言类型进行归类；

对归类出的每类方言，整理获得其语音体系，包括声母、韵母和声调；并按照发音方法，将声母分为塞音、擦音、塞擦音、鼻音和边音五类发音类型；将韵母的韵头和韵腹的组合分为开口呼、齐齿呼、合口呼和撮口呼四类发音类型，将韵母中的韵尾分为塞音、擦音和鼻音三类发音类型；

按照声母和韵母发音类型的组合，将每个方言下的单字和词汇的音频进行分类，并为每个音频标记出组成其音节的3个发音类型；将每个汉字音节按照每40ms一个采样窗口，每10ms步移一次的方法进行采样，获得一个帧序列，并在该帧序列上提取第一声学特征和第二声学特征；

使用发音类型和第一声学特征训练发音类型模型，使用第二声学特征和其对应声调所属的方言种类的概率训练声调模型；

根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类包括：

计算所述第一概率和所述第二概率的乘积得到所述音节序列所属的方言种类的概率，其中，所述方言种类的概率是所述音节序列在属于多个不同的方言种类的概率；

将所述方言种类的概率由高到底进行优先级排序；

将在优先级排序结果中大于等于阈值概率的方言种类作为候选方言种类，其中，所述候选方言种类为至少一个；

对每一个所述候选方言种类重新进行其方言种类的识别过程直至所述候选方言种类为一种。

2.根据权利要求1所述的方法，其特征在于，对每一个所述候选方言种类重新进行方言种类的识别过程直至所述候选方言种类为一种包括：

判断待验证音节序列在候选方言中的显著程度；

选取显著程度高的待验证音节序列进行候选方言种类识别过程，其中，所述待验证音节序列与所述音节序列不同。

3.根据权利要求1所述的方法，其特征在于，所述发音类型模型是使用发音类型和第一声学特征结合高斯混合模型训练而成的，其中，所述第一声学特征为梅尔倒谱特征。

4.根据权利要求1所述的方法，其特征在于，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率通过三层神经网络学习训练而成的。

5.根据权利要求1所述的方法，其特征在于，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率结合高斯混合模型训练而成的，其中，所述第二声学特征是基频轮廓特征、时长特征和能量特征。

6.一种识别方言种类的装置，其特征在于，包括：

获取模块，用于获取待检测音节序列中每个音节的第一声学特征和第二声学特征，其中，所述音节序列为至少一个音节所组成的序列；

第一识别模块，用于将每个音节的第一声学特征输入到训练好的发音类型模型得到每个音节的发音类型，其中，所述发音类型模型是使用发音类型和第一声学特征训练而成的，所述发音类型是在一个音节中不同音节片段的位置所对应的类型；

第二识别模块，用于将所述发音类型输入到训练好的发音类型组合模型得到第一概率，其中，所述发音类型组合模型是使用所述发音类型、发音类型的位置关系和待检测音节序列所属方言类型的概率训练而成的，所述第一概率是待检测的音节序列所属方言类型出现的概率，所述发音类型的位置关系是每个发音类型在不同音节片段上的位置关系；

第三识别模块，用于将每个音节的第二声学特征输入到训练好的声调模型得到第二概率，其中，所述声调模型是使用第二声学特征和其对应声调所属的方言种类的概率训练而成的，所述第二概率是所述音节序列中的声调所属的方言种类的概率；

判断模块，用于根据所述第一概率和所述第二概率的乘积确定所述音节序列所属的方言种类；

其中，所述发音类型模型和声调模型的训练过程，包括：

将预设的语料库中的语料按照方言类型进行归类；

将所述方言种类的概率由高到底进行优先级排序；

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至5中任意一项所述的方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的方法。