CN111145725A - 近音汉字的语音识别方法及装置 - Google Patents

近音汉字的语音识别方法及装置 Download PDF

Info

Publication number
CN111145725A
CN111145725A CN201911245051.XA CN201911245051A CN111145725A CN 111145725 A CN111145725 A CN 111145725A CN 201911245051 A CN201911245051 A CN 201911245051A CN 111145725 A CN111145725 A CN 111145725A
Authority
CN
China
Prior art keywords
recognition engine
speech recognition
voice
dictionary
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911245051.XA
Other languages
English (en)
Inventor
刘洋
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Original Assignee
Miaozhen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Miaozhen Information Technology Co Ltd filed Critical Miaozhen Information Technology Co Ltd
Priority to CN201911245051.XA priority Critical patent/CN111145725A/zh
Publication of CN111145725A publication Critical patent/CN111145725A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Abstract

本发明提供了一种近音汉字的语音识别方法及装置,该方法包括:收集多组声韵母相同但声调不同的近音汉字发音的语音数据;对语音数据进行标注和进行特征提取以形成特征文件;根据所述语音数据构建字典、音素声调表;基于所述特征文件、所述字典以及所述音素声调表构建语音识别引擎;对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。在本发明中,通过在语音识别引擎的训练数据中添加声调信息,从而提高了语音识别引擎对近音汉字的识别准确性。

Description

近音汉字的语音识别方法及装置
技术领域
本发明涉及语音识别领域,具体而言,涉及一种近音汉字的语音识别方法及装置。
背景技术
在对汉字的语音识别过程中,根据汉字的特性,有些近音字声韵母相同但声调不同,同一汉字在不同的声调下代表不同的意义,而且相同的读音可能代表完全不同的汉字。而现有针对近音汉字的语音识别模型,通常是由音素相同,发音不同的汉字生成的,所以无法选出最优的汉字,所以导致语音识别引擎对近音汉字的识别准确率很低。
发明内容
本发明实施例提供了一种近音汉字的语音识别方法及装置,以至少解决相关技术中语音识别引擎对近音汉字的识别准确率很低的问题。
根据本发明的一个实施例,提供了一种近音汉字的语音识别方法,包括:收集多组声韵母相同但声调不同的近音汉字发音的语音数据;对语音数据进行标注和进行特征提取以形成特征文件;根据所述语音数据构建字典,所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成;根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表;根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎;对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。
可选地,根据所述语音数据构建字典包括:将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合,生成含有音调的所述字典。
可选地,根据所述语音数据构建音素声调表包括:在所述语音数据中每个汉字的元音后面添加对应的声调,而声母保持不变。
可选地,基于训练的所述语音识别引擎进行语音识别之前,还包括:从所述语音数据中划分出测试数据;基于训练的所述语音识别引擎对所述测试数据进行语音识别测试,以验证所述语音识别引擎语音识别的准确性。
根据本发明的另一个实施例,提供了一种近音汉字的语音识别装置,包括:收集模块,用于收集多组声韵母相同但声调不同的近音汉字发音的语音数据;特征提取模块,用于对语音数据进行标注和进行特征提取以形成特征文件;字典构建模块,用于根据所述语音数据构建字典,所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成;音素声调表构建模块,用于根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表;语音识别引擎构建模块,用于根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎;语音识别模块,用于对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。
可选地,所述字典构建模块包括:结合单元,用于将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合,生成含有音调的所述字典。
可选地,所述音素声调表构建模块包括:添加单元,用于在所述语音数据中每个汉字的元音后面添加对应的声调,而声母保持不变。
可选地,所述装置还包括:划分模块,用于从所述语音数据中划分出测试数据;测试模块,用于基于训练的所述语音识别引擎对所述测试数据进行语音识别测试,以验证所述语音识别引擎语音识别的准确性。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本发明的上述实施例中,通过在语音识别引擎的训练数据中添加声调信息,从而提高了语音识别引擎对近音汉字的识别准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的近音汉字的语音识别方法的流程图;
图2是根据本发明实施例的针对近音汉字的语音识别方法的流程图;
图3是根据本发明实施例的近音汉字的语音识别装置的结构框图;
图4是根据本发明可选实施例的近音汉字的语音识别装置结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在本实施例中提供了一种近音汉字的语音识别方法,图1是根据本发明实施例的方法流程图,如图1所示,该流程包括如下步骤:
步骤S101,收集多组声韵母相同但声调不同的近音汉字发音的语音数据;
步骤S102,对语音数据进行标注和进行特征提取以形成特征文件;
步骤S103,根据所述语音数据构建字典,所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成;
步骤S104,根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表;
步骤S105,根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎;
步骤S106,对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。
在本实施例的步骤S103中,可将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合,生成含有音调的所述字典。
在本实施例的步骤S104中,可在所述语音数据中每个汉字的元音后面添加对应的声调,而声母保持不变。
在本实施例中,在基于训练的所述语音识别引擎进行语音识别之前,还可以包括:从所述语音数据中划分出测试数据,并基于训练的所述语音识别引擎对所述测试数据进行语音识别测试,以验证所述语音识别引擎语音识别的准确性。
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细描述。
为了提高语音识别引擎在近音字识别上的准确性,本实施例提供了一种针对近音汉字的语音识别方法。在本实施例中,通过在语音模型的训练数据中加入声调信息,从而提高近音字的语音识别率。
如图2所示,本实施例的语音识别方法主要包括如下步骤:
步骤S201:收集n组声韵母相同但声调不同的单个汉字发音的语音数据,每组数据有不同人的发音,将这些数据标记为A1,A2,…,An等。例如每组数据为ya1呀、ya2压、ya3牙、ya4雅、ya5亚、ya6鸭等形式。
步骤S202:从收集的语音数据中划分出测试数据。
步骤S203:对收集的语音数据进行标注,并对该语音文件进行特征提取,转换为特征文件。
步骤S204:基于该语音数据构建字典,字典由汉字和音素、声调组成,将声调与每个字的最后一个音素结合,生成含有音调的字典。
步骤S205:构建音素-声调表,在音素表的基础上加入声调信息,在每个元音后面加上声调,声母不变。
步骤S206:构建基于步骤S205产生的音素-声调的语音识别引擎,例如,隐马尔科夫模型,并进行迭代训练。该模型训练的过程可以采用语音识别中通用的模型训练方式。
步骤S207:基于训练好的语音识别引擎对步骤S202划分出的测试数据进行识别测试,验证加入声调后的语音识别引擎准确性。
在本发明的上述实施例中,通过在语音识别引擎的训练数据中添加声调信息,从而提高了语音识别引擎对近音汉字的识别准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种近音汉字的语音识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”或“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的近音汉字的语音识别装置的结构框图,如图3所示,该装置包括收集模块10、特征提取模块20、字典构建模块30、音素声调表构建模块40、语音识别引擎构建模块50和语音识别模块60。
收集模块10,用于收集多组声韵母相同但声调不同的近音汉字发音的语音数据。
特征提取模块20,用于对语音数据进行标注和进行特征提取以形成特征文件。
字典构建模块30,用于根据所述语音数据构建字典,所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成。
音素声调表构建模块40,用于根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表。
语音识别引擎构建模块50,用于根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎。
语音识别模块60,用于对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。
图4是根据本发明可选实施例的近音汉字的语音识别装置的结构框图,如图4所示,该装置除包括图3所示的所有模块外,所述装置还包括划分模块70和测试模块80。
划分模块70用于从所述语音数据中划分出测试数据。
测试模块80,用于基于训练的所述语音识别引擎对所述测试数据进行语音识别测试,以验证所述语音识别引擎语音识别的准确性。
在本实施例中,字典构建模块30还可以包括结合单元31,该结合单元31用于将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合,生成含有音调的所述字典。
在本实施例中,音素声调表构建模块40还可以包括添加单元41,该添加单元41用于在所述语音数据中每个汉字的元音后面添加对应的声调,而声母保持不变。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种近音汉字的语音识别方法,其特征在于,包括:
收集多组声韵母相同但声调不同的近音汉字发音的语音数据;
对语音数据进行标注和进行特征提取以形成特征文件;
根据所述语音数据构建字典,所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成;
根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表;
根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎;
对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。
2.根据权利要求1所述的方法,其特征在于,根据所述语音数据构建字典包括:
将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合,生成含有音调的所述字典。
3.根据权利要求1所述的方法,其特征在于,根据所述语音数据构建音素声调表包括:
在所述语音数据中每个汉字的元音后面添加对应的声调,而声母保持不变。
4.根据权利要求1所述的方法,其特征在于,基于训练的所述语音识别引擎进行语音识别之前,还包括:
从所述语音数据中划分出测试数据;
基于训练的所述语音识别引擎对所述测试数据进行语音识别测试,以验证所述语音识别引擎语音识别的准确性。
5.一种近音汉字的语音识别装置,其特征在于,包括:
收集模块,用于收集多组声韵母相同但声调不同的近音汉字发音的语音数据;
特征提取模块,用于对语音数据进行标注和进行特征提取以形成特征文件;
字典构建模块,用于根据所述语音数据构建字典,所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成;
音素声调表构建模块,用于根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表;
语音识别引擎构建模块,用于根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎;
语音识别模块,用于对所述语音识别引擎进行迭代训练,并基于训练的所述语音识别引擎进行语音识别。
6.根据权利要求5所述的装置,其特征在于,所述字典构建模块包括:
结合单元,用于将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合,生成含有音调的所述字典。
7.根据权利要求5所述的装置,其特征在于,所述音素声调表构建模块包括:
添加单元,用于在所述语音数据中每个汉字的元音后面添加对应的声调,而声母保持不变。
8.根据权利要求1所述的装置,其特征在于,还包括:
划分模块,用于从所述语音数据中划分出测试数据;
测试模块,用于基于训练的所述语音识别引擎对所述测试数据进行语音识别测试,以验证所述语音识别引擎语音识别的准确性。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
CN201911245051.XA 2019-12-06 2019-12-06 近音汉字的语音识别方法及装置 Withdrawn CN111145725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911245051.XA CN111145725A (zh) 2019-12-06 2019-12-06 近音汉字的语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911245051.XA CN111145725A (zh) 2019-12-06 2019-12-06 近音汉字的语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN111145725A true CN111145725A (zh) 2020-05-12

Family

ID=70517937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911245051.XA Withdrawn CN111145725A (zh) 2019-12-06 2019-12-06 近音汉字的语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN111145725A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402851A (zh) * 2000-09-30 2003-03-12 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统
US9465942B1 (en) * 2013-04-08 2016-10-11 Amazon Technologies, Inc. Dictionary generation for identifying coded credentials
US20170185913A1 (en) * 2015-12-29 2017-06-29 International Business Machines Corporation System and method for comparing training data with test data
CN110534100A (zh) * 2019-08-27 2019-12-03 北京海天瑞声科技股份有限公司 一种基于语音识别的中文语音校对方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402851A (zh) * 2000-09-30 2003-03-12 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统
US9465942B1 (en) * 2013-04-08 2016-10-11 Amazon Technologies, Inc. Dictionary generation for identifying coded credentials
US20170185913A1 (en) * 2015-12-29 2017-06-29 International Business Machines Corporation System and method for comparing training data with test data
CN110534100A (zh) * 2019-08-27 2019-12-03 北京海天瑞声科技股份有限公司 一种基于语音识别的中文语音校对方法和装置

Similar Documents

Publication Publication Date Title
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN101326572B (zh) 具有巨大词汇量的语音识别系统
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
WO2014183373A1 (en) Systems and methods for voice identification
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111508479A (zh) 一种语音识别方法、装置、设备及存储介质
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN112216284B (zh) 训练数据更新方法及系统、语音识别方法及系统、设备
CN109166569B (zh) 音素误标注的检测方法和装置
CN104167206A (zh) 声学模型合并方法和设备以及语音识别方法和系统
CN113160804B (zh) 混合语音的识别方法及装置、存储介质、电子装置
CN111145725A (zh) 近音汉字的语音识别方法及装置
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
CN113744718A (zh) 语音文本的输出方法及装置、存储介质、电子装置
KR102632872B1 (ko) 음성인식 오류 교정 방법 및 그 시스템
CN115188365B (zh) 一种停顿预测方法、装置、电子设备及存储介质
CN114420086B (zh) 语音合成方法和装置
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
CN114398888A (zh) 生成声母韵母向量的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200512