CN113571045A - 一种闽南语语音识别方法、系统、设备及介质 - Google Patents
一种闽南语语音识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113571045A CN113571045A CN202110615995.2A CN202110615995A CN113571045A CN 113571045 A CN113571045 A CN 113571045A CN 202110615995 A CN202110615995 A CN 202110615995A CN 113571045 A CN113571045 A CN 113571045A
- Authority
- CN
- China
- Prior art keywords
- sequence
- phoneme
- chinese
- speech
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 41
- 238000002372 labelling Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005381 potential energy Methods 0.000 abstract description 9
- 210000005266 circulating tumour cell Anatomy 0.000 description 18
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Abstract
本发明公开了一种闽南语语音识别方法、系统、设备及介质,使用普通话音素作为建模单元对闽南语进行识别,相较于传统的使用闽南语音素作为建模单元,大幅减少了音素序列的数量,降低了基于音素的n‑gram语言模型的复杂度,降低了工作量,从而提高了建模效率;同时,在目标函数中引入条件随机场CRF,CTC的状态后验可以看作是条件随机场的点势能,状态与状态之间的联系可以通过边势能引入,改善了词错误率水平,提高了声学模型的性能,从而提高了识别准确率。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种闽南语语音识别方法、系统、设备及介质。
背景技术
随着人工智能技术的发展,语音识别技术取得了巨大的进步,并开始进入家电、通信、汽 车、医疗等各个领域。语音识别是把人的语音通过机器进行信号处理和识别,转变为相应文本, 再通过语义分析和理解,最终让机器像人一样听懂我们的声音。
现有语音识别系统主要包括声学模型、语言模型和解码器三大模块。具体的,将带有标签 的训练语音数据输入语音识别系统后,经过特征提取,得到声学特征向量;声学特征向量经由 声学模型,得到每一声学特征向量对应的各个发音单元,解码器根据各个发音单元和语言模型 来得到最终的语音识别结果。
虽然普通话识别已达到实用的水准,但直至目前,以闽南语作为研究对象的语音识别系统, 尚未有成熟可靠的解决方案,实现闽南语语音识别系统将为闽南语各个片区提供友好的本地化 服务,也能够为闽南语教学,闽南文化的传承与弘扬,创建更为便捷的环境。闽南语声母18 个,韵母至少有85个,声调7个,声母、韵母、声调三者能结合和使用的音节在2300个左右, 与普通话只有1300多个音节相比,多了将近一倍的音节。
目前闽南语语音识别,主要是通过构建闽南语的声母表、韵母表和声调表来实现,即将闽 南语汉字直接转换成闽南语音素序列,由于闽南语音节数量大,导致转换成闽南语音素序列工 作量大。同时,声学模型作为闽南语语音识别系统的主要模块,其性能高低直接决定了闽南语 语音识别系统的识别准确率的高低。目前,由于语音数据标注错误等原因导致声学模型训练精 度不高,导致声学模型性能不高,进而导致识别准确率较低。
发明内容
本发明的目的在于提供一种闽南语语音识别方法、系统、设备及介质,以克服现有闽南语 语音识别系统构建工作量大,效率低的问题,以及声学模型性能较低导致识别准确率较低的问 题。
第一方面,本发明提供一种闽南语语音识别方法,包括以下步骤:
获取闽南语语音原始数据,提取所述原始数据中的语音特征序列;将所述语音特征序列输 入至目标模型中,得到所述语音特征序列对应不同的预测音素序列的概率分布;
将汉语词典通过CTC算法映射到对应的音素标注序列,记为T.fst;
获取闽南语汉字信息,将所述闽南语汉字信息转换成多个汉语音素序列;多个所述汉语音 素序列经过分母LM训练得到基于音素的n-gram语言模型,记为G.fst;
对所述T.fst与所述G.fst进行组合操作得到分母图,记为fst;
根据所述概率分布以及分母图,通过目标函数计算得到最优的预测音素序列所对应的概率, 通过目标函数的值反向传播训练,得到训练好的声学模型;
识别时,将待识别语音特征序列输入至训练好的声学模型,得到待识别语音特征序列对应 不同的预测音素序列的概率,再结合语言模型,解码搜索得到最优的识别结果。
进一步地,所述语音特征序列的提取过程为:
对所述原始数据提取Fbank特征,并获取Fbank特征的一阶差分特征和二阶差分特征;
将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接;
对拼接后的特征进行倒谱均值方差归一化处理;
对经倒谱均值方差归一化处理后的特征进行降采样,得到所述语音特征序列。
进一步地,将所述汉语词典通过CTC算法映射到对应的音素标注序列的具体步骤为:
将所述汉语词典转换成多个汉语音素标注序列;
在所述汉语音素标注序列中添加空白符,使汉语词典中的特征序列与汉语音素标注序列对 齐;
去除掉添加了空白符的汉语音素标注序列中连续重复的字符;
去除掉所有空白符,得到对应的音素标注序列。
进一步地,所述目标函数通过最大化条件似然来定义,目标函数的具体表达式为:
其中,Jall(θ)表示目标函数,α表示辅助因子,x表示输入的语音特征序列,θ表示模型 参数,πm表示所述语音特征序列x对应的第m个预测音素序列,M表示所述语音特征序列x对 应的不同的预测音素序列的数量,l表示所述语音特征序列x对应的音素标注序列,p(πm|x)表 示对于输入的语音特征序列为x,输出的预测音素序列为πm时的概率,p(l|x;θ)表示在模型参 数θ下,对于输入的语音特征序列为x,输出的音素标注序列为l时的概率。
进一步地,在所述解码搜索时,识别结果所采用的打分函数为:
S=logp(l|x)+βlogpw(l)
其中,S表示识别结果的得分,p(l|x)表示所述声学模型输出的待识别语音特征序列为x, 对应的音素标注序列为l时的概率,β表示影响系数,pw(l)表示单词级别的语言模型中音素标 注序列l的概率。
第二方面,本发明提供一种闽南语语音识别系统,包括:
概率分布获取模块,用于获取闽南语语音原始数据,提取所述原始数据中的语音特征序列; 将所述语音特征序列输入至目标模型中,得到所述语音特征序列对应不同的预测音素序列的概 率分布;
第一有限状态转换器模块,用于将汉语词典通过CTC算法映射到对应的音素标注序列,记 为T.fst;
第二有限状态转换器模块,用于获取闽南语汉字信息,将所述闽南语汉字信息转换成多个 汉语音素序列;多个所述汉语音素序列经过分母LM训练得到基于音素的n-gram语言模型,记 为G.fst;
分母图构建模块,用于对所述T.fst与所述G.fst进行组合操作得到分母图,记为fst;
目标函数计算模块,用于根据所述概率分布以及分母图,通过目标函数计算得到最优的预 测音素序列所对应的概率,通过目标函数的值反向传播训练,得到训练好的声学模型;
识别模块,用于识别时,将待识别语音特征序列输入至训练好的声学模型,得到待识别语 音特征序列对应不同的预测音素序列的概率,再结合语言模型,解码搜索得到最优的识别结果。
进一步地,所述概率分布获取模块,具体用于:
对所述原始数据提取Fbank特征,并获取Fbank特征的一阶差分特征和二阶差分特征;
将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接;
对拼接后的特征进行倒谱均值方差归一化处理;
对经倒谱均值方差归一化处理后的特征进行降采样,得到所述语音特征序列。
进一步地,所述第一有限状态转换器模块,具体用于:
将所述汉语词典转换成多个汉语音素标注序列;
在所述汉语音素标注序列中添加空白符,使汉语词典中的特征序列与汉语音素标注序列对 齐;
去除掉添加了空白符的汉语音素标注序列中连续重复的字符;
去除掉所有空白符,得到对应的音素标注序列。
进一步地,所述目标函数计算模块中,目标函数的具体表达式为:
其中,Jall(θ)表示目标函数,α表示辅助因子,x表示输入的语音特征序列,θ表示模型 参数,πm表示所述语音特征序列x对应的第m个预测音素序列,M表示所述语音特征序列x对 应的不同的预测音素序列的数量,l表示所述语音特征序列x对应的音素标注序列,p(πm|x)表 示对于输入的语音特征序列为x,输出的预测音素序列为πm时的概率,p(l|x;θ)表示在模型参 数θ下,对于输入的语音特征序列为x,输出的音素标注序列为l时的概率。
第三方面,本发明提供一种设备,包括存储器、处理器以及存储在所述存储器上并可在所 述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的闽南语 语音识别方法的步骤。
第四方面,本发明提供一种介质,所述介质上存储有计算机程序,所述计算机程序被处理 器执行时实现第一方面所述的闽南语语音识别方法的步骤。
有益效果
与现有技术相比,本发明的优点在于:
本发明所提供的技术方案,使用普通话音素作为建模单元对闽南语进行识别,相较于传统 的使用闽南语音素作为建模单元,大幅减少了音素序列的数量,降低了基于音素的n-gram语言 模型的复杂度,降低了工作量,从而提高了建模效率;同时,在目标函数中引入条件随机场CRF, CTC的状态后验可以看作是条件随机场的点势能,状态与状态之间的联系可以通过边势能引 入,改善了词错误率水平,提高了声学模型的性能,从而提高了识别准确率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地 介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员 来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中声学模型训练流程图;
图2是本发明实施例中CTC的条件随机场表示图;
图3是本发明实施例中CTC-CRF所使用的条件随机场;
图4是本发明实施例中闽南语语音识别流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然, 所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明 保护的范围。
为了便于理解,对于本发明实施例中出现的词语进行说明。
音节:是用听觉可以区分清楚的语音基本单位,为人正常的发音单元,音节之间具有明显 可感知的界限;汉语音节中,一般一个汉字的读音为一个音节,示例性的,汉语文本“你”对 应的音节为{ni};
音素:为音标,是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最 小的线性的语音单位,音素间的界限模糊,其与上下文相关严重;
状态:为一个音素被人为的分成多个没有物理意义的状态,可以认为单个状态内音素的特 征保持平稳,状态间的界限模糊,其与上下文相关严重;
CTC:Connectionist Temporal Classification,连接主义时序分类。CTC算法对于输入的X 能够给出非常多的Y的条件概率输出,虽然CTC算法不要求输入输出严格对齐,但是为了方 便训练模型,需要一个将输入输出对齐的映射关系。
FST:Finite State Transducer,有限状态转换器。FST可描述一组规则的转换或一组符号序 列到另一种符号序列的转换。
WFST:Weighted Finite State Transducer,加权有限状态转换器。在每一次状态转移时都有 一个权重,在每次的初始状态都有初始权重,在每次的终止状态都有终止权重,权重一般是转 移或初始/终止状态的概率或损失,权重会延每条路径进行累积,并在不同路径进行累加。
CRF:Conditional Random Field,条件随机场。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相 互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
第一方面,为了更清楚的描述方案,在对本发明实施例所提供的闽南语语音识别方法进行 介绍之前,首先对声学模型训练的流程进行简单说明。
如图1所示,本实施例声学模型的训练流程为:
S110:获取闽南语语音原始数据,提取原始数据中的语音特征序列。
闽南语语音原始数据为已有数据集,采用已有数据集便于对声学模型进行训练。对于语音 特征序列的提取分为以下几个步骤:
S111:对原始数据提取40维的Fbank特征,并获取Fbank特征的一阶差分特征和二阶差分 特征。
S112:将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接。
S113:对拼接后的特征进行倒谱均值方差归一化处理。
S114:对经倒谱均值方差归一化处理后的特征进行3倍降采样,得到语音特征序列。
降采样的目的主要是为了训练和解码的速度,由于语音特征序列中包含了二阶差分特征, 可以认为降采样并没有损失精度。示例性的,闽南语语音原始数据对应的汉语标注文本数据为 我爱北京,提取的语音特征序列可以为4个,分别为“我”对应的语音特征帧,“爱”对应的 语音特征帧,“北”对应的语音特征帧,“京”对应的语音特征帧。
S120:将步骤S114输出的语音特征序列输入至目标模型中,得到语音特征序列对应不同 的预测音素序列的概率分布。
目标模型有多种形式,包括CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short-Term Memory,长短时记忆网络)、RNN(Simple RecurrentNeuralNetwork,循环神经网络) 等。本实施例中,目标模型选用LSTM模型,为了解决RNN模型中梯度消失的问题,LSTM 模型通过引入状态c来保持梯度,从而达到缓解梯度消失的问题。示例性的,目标模型为6层 双向LSTM,隐层单元的数目设置为320,在每层LSTM之间均添加了Dropout层,并将保留 概率设置为0.5。可使用Pytorch来构建双向LSTM模型,使用Adam作为参数学习的优化器。 一开始学习速率设置为0.001,当目标函数不再变化时,再将学习速率降为0.0001继续训练, 直到目标函数不再变化,并没有对双向LSTM模型进行任何预训练。
对于条件随机场模型CRF,给定观测变量x,状态序列π的定义如下:
其中,π和x长度相等,θ为模型需要学习的参数。π通过一个CTC映射B:和l联系起来。这个CTC映射B将状态序列π映射到了唯一的一个标注序列l。Sπ和Sl分别是π和 l对应的符号表,M和L分别是π和l的长度,给定这些定义后,将p(l|x;θ)定义为
当x为输入的语音特征序列时,π即为对应的不同的预测音素序列,得到每个语音特征序 列对应的所有的预测音素序列{π1,π2,……,πM},以及对应的预测音素序列的概率分布。如图2 所示,各个状态序列之间是相互独立的,要打破这种状态序列之间的相互独立,需要在CTC对 应的CRF中加入边,加入了基于语言模型的边势能以取得更好的性能。在CTC对应的CRF中 加入了边势能得到CTC-CRF模型,加入了边势能的条件随机场如图3所示,边势能是提前计 算好的,而不是通过参数进行学习,边势能函数φ(π,x)定义为:
其中,l是状态序列π经过映射后得到的标注序列l=B(π)。式(3)中的第一项代表了点 势能,第二项代表了边势能,其中pLM(l)是通过一个音素级别的n-gram代表的WFST定义的。
示例性的,语音特征帧“我”对应的不同的预测音素为“wo1”、“wo3”、“wo4”,语 音特征帧“爱”对应的不同的预测音素为“ai1”、“ai2”、“ai3”、“ai4”,其中,数字1 表示一声调,数字2表示二声调,数字3表示三声调,数字4表示四声调。
S130:将汉语词典通过CTC算法映射到对应的音素标注序列,记为T.fst。
CTC的基本思想是通过引入空白符来对齐语音特征序列和标注序列,并建立从添加了空白 序列的标注序列到实际的标注序列的映射,这个映射关系记为B,即CTC映射关系。CTC映 射的具体步骤为:
S131:将汉语词典转换成多个汉语音素标注序列;
S132:在汉语音素标注序列中添加空白符,使汉语词典中的特征序列与汉语音素标注序列 对齐;
S133:去除掉添加了空白符的汉语音素标注序列中连续重复的字符;
S134:去除掉所有空白符,得到对应的音素标注序列。
示例性的,以状态序列A---RR-R--A-为例,首先去掉所有空白符之后的重复字符得到 A---R-R--A-,然后再去除掉所有的空白符得到ARRA,也就是B(A---RR-R--A-)=ARRA。
S140:对T.fst与G.fst进行组合操作得到分母图,记为fst。
为了避免在标注序列中随机插入静音音素导致分母图的估计不准确,选择不使用静音音素, 或者可以理解为采用空白符吸收了静音音素。
Daniel Povey在2016年提出了词格无关最大化互信息训练LF-MMI。在LF-MMI中,用来 进行路径求和的分母图不是来自解码所得到得词格,而是来自一个预先准备好的分母图。该分 母图T代表汉语词典到音素标注序列的WFST,G代表一个基于音素的n-gram语言 模型。LF-MMI在GPU上实现分母图的估计。
概念分布的获取步骤S110~S120与分母图的构建步骤S130~S140可以并列进行,没有时间 上的先后顺序。
S150:根据概率分布以及分母图,通过目标函数计算得到最优的预测音素序列所对应的概 率,通过目标函数的值反向传播训练,得到训练好的声学模型。
在训练过程中,考虑到加速收敛和加强训练稳定性,采用CTC目标函数作为辅助的目标函 数,因此,用于训练的目标函数为:
其中,Jall(θ)表示目标函数,α表示辅助因子,x表示输入的语音特征序列,θ表示模型 参数,πm表示所述语音特征序列x对应的第m个预测音素序列,M表示所述语音特征序列x对 应的不同的预测音素序列的数量,l表示所述语音特征序列x对应的音素标注序列,p(πm|x)表 示对于输入的语音特征序列为x,输出的预测音素序列为πm时的概率,p(l|x;θ)表示在模型参 数θ下,对于输入的语音特征序列为x,输出的音素标注序列为l时的概率。本实施例中,α设 为0.1。
示例性的,“我爱北京”对应的语音特征帧对应得到的预测音素序列“wo3 ai4bei3 jing1” 的概率为1,预测音素序列“wo1 ai4 bei3 jing1”的概率为0.75,预测音素序列“wo1 ai2 bei3 jing1” 的概率为0.5,预测音素序列“wo1 ai2 bei1 jing1”的概率为0.25,预测音素序列“wo1 ai2 bei1 jing3”的概率为0,等等。
在得到训练好的声学模型之后,即将训练好的声学模型应用到闽南语语音识别中,如图4 所示,具体的闽南语语音识别过程包括:
S210:识别时,将待识别语音特征序列输入至训练好的声学模型,得到待识别语音特征序 列对应不同的预测音素序列的概率。
示例性的,声学模型输出“天安门”的概率为0.5,“天暗门”的概率为0.5。
S220:结合词典,语言模型输出概率。
S230:根据声学模型输出的概率以及语言模型输出的概率解码搜索得到最优的识别结果。
在解码搜索时,识别结果所采用的打分函数为:
S=logp(l|x)+βlogpw(l) (5)
其中,S表示识别结果的得分,p(l|x)表示所述声学模型输出的待识别语音特征序列为x, 对应的音素标注序列为l时的概率,β表示影响系数,pw(l)表示单词级别的语言模型中音素标 注序列l的概率。本实施例中,β设为1。示例性的,“天安门”的得分为S1=0.5+1×1=1.5, “天暗门”的得分为S2=0.5+1×0.5=1,最后输出得分较高的识别结果作为最优的识别结果。
闽南语语音识别引擎通过跨平台的多媒体处理框架Gstreamer将引擎封装并构建一条完整 的语音识别pipeline,可支持wav、ogg、mp3等常用的格式,适配不同的声道和采样率;语音 识别引擎通过websocket或HTTP协议向外提供服务,通过特征提取获取输入音频的特征,提 交至声学模型,并结合语言模型做综合解码搜索,输出识别结果。
第二方面,本实施例还提供了一种闽南语语音识别系统,包括:
概率分布获取模块,用于获取闽南语语音原始数据,提取所述原始数据中的语音特征序列; 将所述语音特征序列输入至目标模型中,得到所述语音特征序列对应不同的预测音素序列的概 率分布;
第一有限状态转换器模块,用于将汉语词典通过CTC算法映射到对应的音素标注序列,记 为T.fst;
第二有限状态转换器模块,用于获取闽南语汉字信息,将所述闽南语汉字信息转换成多个 汉语音素序列;多个所述汉语音素序列经过分母LM训练得到基于音素的n-gram语言模型,记 为G.fst;
分母图构建模块,用于对所述T.fst与所述G.fst进行组合操作得到分母图,记为fst;
目标函数计算模块,用于根据所述概率分布以及分母图,通过目标函数计算得到最优的预 测音素序列所对应的概率,通过目标函数的值反向传播训练,得到训练好的声学模型;
识别模块,用于识别时,将待识别语音特征序列输入至训练好的声学模型,得到待识别语 音特征序列对应不同的预测音素序列的概率,再结合语言模型,解码搜索得到最优的识别结果。
优选地,所述概率分布获取模块,具体用于:
对所述原始数据提取Fbank特征,并获取Fbank特征的一阶差分特征和二阶差分特征;
将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接;
对拼接后的特征进行倒谱均值方差归一化处理;
对经倒谱均值方差归一化处理后的特征进行降采样,得到所述语音特征序列。
优选地,所述第一有限状态转换器模块,具体用于:
将所述汉语词典转换成多个汉语音素标注序列;
在所述汉语音素标注序列中添加空白符,使汉语词典中的特征序列与汉语音素标注序列对 齐;
去除掉添加了空白符的汉语音素标注序列中连续重复的字符;
去除掉所有空白符,得到对应的音素标注序列。
优选地,所述目标函数计算模块中,目标函数的具体表达式为式(4)。
第三方面,本实施例还提供一种设备,包括存储器、处理器以及存储在所述存储器上并可 在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的闽 南语语音识别方法的步骤。
本实施例中,处理器为中央处理单元、或是其他可编程的一般用途或特殊用途的微处理器、 数字信号处理器、可编程控制器、特殊应用集成电路、可编程逻辑装置、其他类似处理电路或 这些装置的组合。
本实施例中,存储器为EEPROM、内嵌式多媒体存储卡eMMC、DRAM、快闪存储器或非易失性随机存取存储器等等。
第四方面,本发明提供一种介质,所述介质上存储有计算机程序,所述计算机程序被处理 器执行时实现第一方面所述的闽南语语音识别方法的步骤。
所述介质为存储介质,具体为EEPROM、内嵌式多媒体存储卡eMMC、DRAM、快闪存储器或非易失性随机存取存储器等等。
以上所揭露的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉 本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或变型,都应涵盖在本发 明的保护范围之内。
Claims (10)
1.一种闽南语语音识别方法,其特征在于,包括以下步骤:
获取闽南语语音原始数据,提取所述原始数据中的语音特征序列;将所述语音特征序列输入至目标模型中,得到所述语音特征序列对应不同的预测音素序列的概率分布;
将汉语词典通过CTC算法映射到对应的音素标注序列,记为T.fst;
获取闽南语汉字信息,将所述闽南语汉字信息转换成多个汉语音素序列;多个所述汉语音素序列经过分母LM训练得到基于音素的n-gram语言模型,记为G.fst;
对所述T.fst与所述G.fst进行组合操作得到分母图,记为fst;
根据所述概率分布以及分母图,通过目标函数计算得到最优的预测音素序列所对应的概率,通过目标函数的值反向传播训练,得到训练好的声学模型;
识别时,将待识别语音特征序列输入至训练好的声学模型,得到待识别语音特征序列对应不同的预测音素序列的概率,再结合语言模型,解码搜索得到最优的识别结果。
2.如权利要求1所述的一种闽南语语音识别方法,其特征在于,所述语音特征序列的提取过程为:
对所述原始数据提取Fbank特征,并获取Fbank特征的一阶差分特征和二阶差分特征;
将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接;
对拼接后的特征进行倒谱均值方差归一化处理;
对经倒谱均值方差归一化处理后的特征进行降采样,得到所述语音特征序列。
3.如权利要求1所述的一种闽南语语音识别方法,其特征在于,将所述汉语词典通过CTC算法映射到对应的音素标注序列的具体步骤为:
将所述汉语词典转换成多个汉语音素标注序列;
在所述汉语音素标注序列中添加空白符,使汉语词典中的特征序列与汉语音素标注序列对齐;
去除掉添加了空白符的汉语音素标注序列中连续重复的字符;
去除掉所有空白符,得到对应的音素标注序列。
4.如权利要求1~3中任一项所述的一种闽南语语音识别方法,其特征在于,所述目标函数通过最大化条件似然来定义,目标函数的具体表达式为:
其中,Jall(θ)表示目标函数,α表示辅助因子,x表示输入的语音特征序列,θ表示模型参数,πm表示所述语音特征序列x对应的第m个预测音素序列,M表示所述语音特征序列x对应的不同的预测音素序列的数量,l表示所述语音特征序列x对应的音素标注序列,p(πm|x)表示对于输入的语音特征序列为x,输出的预测音素序列为πm时的概率,p(l|x;θ)表示在模型参数θ下,对于输入的语音特征序列为x,输出的音素标注序列为l时的概率;
在所述解码搜索时,识别结果所采用的打分函数为:
S=logp(l|x)+βlogpw(l)
其中,S表示识别结果的得分,p(l|x)表示所述声学模型输出的待识别语音特征序列为x,对应的音素标注序列为l时的概率,β表示影响系数,pw(l)表示单词级别的语言模型中音素标注序列l的概率。
5.一种闽南语语音识别系统,其特征在于,包括:
概率分布获取模块,用于获取闽南语语音原始数据,提取所述原始数据中的语音特征序列;将所述语音特征序列输入至目标模型中,得到所述语音特征序列对应不同的预测音素序列的概率分布;
第一有限状态转换器模块,用于将汉语词典通过CTC算法映射到对应的音素标注序列,记为T.fst;
第二有限状态转换器模块,用于获取闽南语汉字信息,将所述闽南语汉字信息转换成多个汉语音素序列;多个所述汉语音素序列经过分母LM训练得到基于音素的n-gram语言模型,记为G.fst;
分母图构建模块,用于对所述T.fst与所述G.fst进行组合操作得到分母图,记为fst;
目标函数计算模块,用于根据所述概率分布以及分母图,通过目标函数计算得到最优的预测音素序列所对应的概率,通过目标函数的值反向传播训练,得到训练好的声学模型;
识别模块,用于识别时,将待识别语音特征序列输入至训练好的声学模型,得到待识别语音特征序列对应不同的预测音素序列的概率,再结合语言模型,解码搜索得到最优的识别结果。
6.如权利要求5所述的一种闽南语语音识别系统,其特征在于,所述概率分布获取模块,具体用于:
对所述原始数据提取Fbank特征,并获取Fbank特征的一阶差分特征和二阶差分特征;
将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接;
对拼接后的特征进行倒谱均值方差归一化处理;
对经倒谱均值方差归一化处理后的特征进行降采样,得到所述语音特征序列。
7.如权利要求5所述的一种闽南语语音识别系统,其特征在于,所述第一有限状态转换器模块,具体用于:
将所述汉语词典转换成多个汉语音素标注序列;
在所述汉语音素标注序列中添加空白符,使汉语词典中的特征序列与汉语音素标注序列对齐;
去除掉添加了空白符的汉语音素标注序列中连续重复的字符;
去除掉所有空白符,得到对应的音素标注序列。
9.一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~4中任一项所述的闽南语语音识别方法的步骤。
10.一种介质,所述介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~4中任一项所述的闽南语语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615995.2A CN113571045B (zh) | 2021-06-02 | 2021-06-02 | 一种闽南语语音识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615995.2A CN113571045B (zh) | 2021-06-02 | 2021-06-02 | 一种闽南语语音识别方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113571045A true CN113571045A (zh) | 2021-10-29 |
CN113571045B CN113571045B (zh) | 2024-03-12 |
Family
ID=78161006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110615995.2A Active CN113571045B (zh) | 2021-06-02 | 2021-06-02 | 一种闽南语语音识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113571045B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682432A (zh) * | 2022-09-23 | 2023-09-01 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
US11841737B1 (en) | 2022-06-28 | 2023-12-12 | Actionpower Corp. | Method for error detection by using top-down method |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583432B1 (en) * | 2012-07-18 | 2013-11-12 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
KR101559576B1 (ko) * | 2014-05-16 | 2015-10-15 | 동아대학교 산학협력단 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN107610720A (zh) * | 2017-09-28 | 2018-01-19 | 北京语言大学 | 发音偏误检测方法、装置、存储介质及设备 |
US20180053500A1 (en) * | 2016-08-22 | 2018-02-22 | Google Inc. | Multi-accent speech recognition |
US20180322867A1 (en) * | 2017-05-04 | 2018-11-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for recognizing speech based on chinese-english mixed dictionary |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN108899031A (zh) * | 2018-07-17 | 2018-11-27 | 广西师范学院 | 基于云计算的壮语语音识别方法 |
CN109036376A (zh) * | 2018-10-17 | 2018-12-18 | 南京理工大学 | 一种闽南语语音合成方法 |
CN109410914A (zh) * | 2018-08-28 | 2019-03-01 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
CN110827803A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
US20200135174A1 (en) * | 2018-10-24 | 2020-04-30 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
US20210050001A1 (en) * | 2019-08-16 | 2021-02-18 | Ponddy Education Inc. | Systems and Methods for Comprehensive Chinese Speech Scoring and Diagnosis |
US20210056958A1 (en) * | 2017-12-29 | 2021-02-25 | Fluent.Ai Inc. | System and method for tone recognition in spoken languages |
-
2021
- 2021-06-02 CN CN202110615995.2A patent/CN113571045B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583432B1 (en) * | 2012-07-18 | 2013-11-12 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
KR101559576B1 (ko) * | 2014-05-16 | 2015-10-15 | 동아대학교 산학협력단 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
US20180053500A1 (en) * | 2016-08-22 | 2018-02-22 | Google Inc. | Multi-accent speech recognition |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
US20180322867A1 (en) * | 2017-05-04 | 2018-11-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for recognizing speech based on chinese-english mixed dictionary |
CN107610720A (zh) * | 2017-09-28 | 2018-01-19 | 北京语言大学 | 发音偏误检测方法、装置、存储介质及设备 |
US20210056958A1 (en) * | 2017-12-29 | 2021-02-25 | Fluent.Ai Inc. | System and method for tone recognition in spoken languages |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN108899031A (zh) * | 2018-07-17 | 2018-11-27 | 广西师范学院 | 基于云计算的壮语语音识别方法 |
CN109410914A (zh) * | 2018-08-28 | 2019-03-01 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
CN109036376A (zh) * | 2018-10-17 | 2018-12-18 | 南京理工大学 | 一种闽南语语音合成方法 |
US20200135174A1 (en) * | 2018-10-24 | 2020-04-30 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
US20210050001A1 (en) * | 2019-08-16 | 2021-02-18 | Ponddy Education Inc. | Systems and Methods for Comprehensive Chinese Speech Scoring and Diagnosis |
CN110827803A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
Non-Patent Citations (2)
Title |
---|
LU, LIANG等: "Multitask Learning with CTC and Segmental CRF for Speech Recognition", 《18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017)》, vol. 1, pages 954 - 958, XP055538071, DOI: 10.21437/Interspeech.2017-71 * |
卢阳: "基于CTC方法的端到端语音识别系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 7, pages 136 - 93 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11841737B1 (en) | 2022-06-28 | 2023-12-12 | Actionpower Corp. | Method for error detection by using top-down method |
CN116682432A (zh) * | 2022-09-23 | 2023-09-01 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113571045B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3926623B1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN112002308B (zh) | 一种语音识别方法及装置 | |
US10943583B1 (en) | Creation of language models for speech recognition | |
Le et al. | Deep shallow fusion for RNN-T personalization | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN110827801A (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN112927682B (zh) | 一种基于深度神经网络声学模型的语音识别方法及系统 | |
US11610586B2 (en) | Learning word-level confidence for subword end-to-end automatic speech recognition | |
Kadyan et al. | Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system | |
CN113571045B (zh) | 一种闽南语语音识别方法、系统、设备及介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
Ananthakrishnan et al. | Improved speech recognition using acoustic and lexical correlates of pitch accent in a n-best rescoring framework | |
US20220310080A1 (en) | Multi-Task Learning for End-To-End Automated Speech Recognition Confidence and Deletion Estimation | |
Yeh et al. | Speech Representation Learning for Emotion Recognition Using End-to-End ASR with Factorized Adaptation. | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
Haidar et al. | Fine-tuning of pre-trained end-to-end speech recognition with generative adversarial networks | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Yuan | Improved hidden Markov model for speech recognition and POS tagging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |