CN111862954B - 一种语音识别模型的获取方法及装置 - Google Patents

一种语音识别模型的获取方法及装置 Download PDF

Info

Publication number
CN111862954B
CN111862954B CN202010478563.7A CN202010478563A CN111862954B CN 111862954 B CN111862954 B CN 111862954B CN 202010478563 A CN202010478563 A CN 202010478563A CN 111862954 B CN111862954 B CN 111862954B
Authority
CN
China
Prior art keywords
words
target
preset
sample
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010478563.7A
Other languages
English (en)
Other versions
CN111862954A (zh
Inventor
郑晓明
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010478563.7A priority Critical patent/CN111862954B/zh
Publication of CN111862954A publication Critical patent/CN111862954A/zh
Application granted granted Critical
Publication of CN111862954B publication Critical patent/CN111862954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供了一种语音识别模型获取方法及装置,该方法包括:根据样本词语确定韵律词,得到目标预设词语;再根据目标预设词语中各字符的位置,为目标预设词语对应的音素标注位置信息,得到目标音素;该位置信息用于表征音素在目标预设词语发音中的位置;根据目标音素及目标预设词语,训练得到目标语音识别模型。本发明实施例中是基于韵律词进行位置信息的标注,使得位置信息能够真正体现实际发音的韵律节奏,这样,基于目标预设词语和标注后的目标音素训练语音识别模型,可以使得语音识别模型更加准确,进而能够提高语音识别的识别率。

Description

一种语音识别模型的获取方法及装置
技术领域
本发明涉及语音识别领域,特别是涉及一种语音识别模型获取方法及装置。
背景技术
语音识别(Automatic Speech Recognition,ASR)是一项研究如何将人类说话的声音识别转换为文本的技术,其广泛应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。
为了实现语音识别,经常需要获取语音识别模型。因此,亟需一种语音识别模型的获取方法。
发明内容
本发明实施例提供一种语音识别模型的获取方法及装置,以解决现有技术中语音识别准确率低的问题。
为了解决上述问题,本发明实施例是这样实现的:
第一方面,本发明实施例公开了一种语音识别模型的获取方法,包括:
根据样本词语确定韵律词,得到目标预设词语;
根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置;
根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型。
第二方面,本发明实施例公开了一种语音识别模型的获取装置,包括:
第一确定模块,用于根据样本词语确定韵律词,得到目标预设词语;
标注模块,用于根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置;
训练模块,用于根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述的语音识别模型获取的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音识别模型获取的步骤。
在本发明实施例中,根据样本词语确定韵律词,得到目标预设词语;再根据目标预设词语中各字符的位置,为目标预设词语对应的音素标注位置信息,得到目标音素;该位置信息用于表征音素在目标预设词语发音中的位置;根据目标音素及目标预设词语,训练得到目标语音识别模型。本发明实施例中,是基于韵律词进行位置信息的标注,使得位置信息能够真正体现实际发音的韵律节奏,这样,基于标注后的目标预设词语和目标音素训练模型,可以使得语音识别模型更加准确,进而能够提高语音识别的识别率。
附图说明
图1示出了本发明的一种语音识别模型获取方法的步骤流程图;
图2示出了本发明的另一种语音识别模型获取方法的步骤流程图;
图3示出了本发明的一种语音识别模型获取装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明的一种语音识别模型获取方法的步骤流程图,该方法具体可以包括:
步骤101、根据样本词语确定韵律词,得到目标预设词语。
本发明实施例中,样本词语可以是用于语音识别模型训练的词语。目标预设词语可以是从样本词语中确定的韵律词。韵律词可以是指实际发音中联系密切的、经常在一起发音的音节,这些音节之间发音非常紧密并且没有听感上的停顿。每个韵律词对应有固定的韵律节奏,在不同的上下文语境中,韵律词的发音节奏是固定的,即其韵律节奏模式不会随语境发生变化。例如,“节省了时间”这一短语中,“节省了”是一个韵律词,“时间”是一个韵律词。
具体的,在根据样本词语确定韵律词时,可以是通过人工标注的方式确定韵律词,也可以是以程序语言,通过机器学习的方式确定韵律词,本发明实施例对此不作限定。
步骤102、根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置。
本发明实施例中,在训练并获取语音识别模型时,往往需要用到发音词典。发音词典(lexicon)可以用于存储词语与发音之间的对应关系,该发音可以用于表示其对应的词语的读音,具体可以是拼音或音标。该词语可以是由一个字或多个字组成的词语。例如,发音词典中存储的可以是声母和韵母与字或词之间的对应关系,也可以是英文音标与单词之间的对应关系。需要注意的是,汉语中的拼音可以有多个音节,而音素是构成音节的最小单位或最小的语音片段,即,音素是从声音音质的角度划分出来的最小的语音单位。例如,发音词典中,“厂长”这一词语的发音为“ch ang2 zh ang3”,即该发音中包括两个音节“chang2”、“zh ang3”,而每个音节中又分别包括两个音素,如音节“ch ang2”中包括音素“ch”和音素“ang”;其中,该发音中的数字2、3表示音节的声调,具体的,1表示一声,即阴平;2表示二声,即阳平:3表示三声,即上声;4表示四声,即去声。
在实际语音识别的过程中,同一个音节由于在词语中的位置不同,实际发音也会不同,比如“小王”和“王爷”,两个“王”字分别位于词首和词末,虽然都是“wang”的音,发音的基频(声音的基础音调)和时长(持续时间)并不完全一样,即,同一个音节在词语的不同位置时,人们实际读音确并不完全一样。因此,在训练模型时发音词典中往往会标上位置信息,例如,厂长ch ang2 zh ang3,加了位置信息后变为ch_B ang2_B zh_E ang3_E。位置信息一般用下划线加字母B、M、E、S来表示,四个字母分别表示词首(Begin)、词中(Middle)、词末(End)、单音节(Single)。
具体的,在标注词语的位置信息时,发音词典往往是根据语法词进行标注。在汉语中,词汇词可以是能独立运用的最小音义结合体,而语法词可以是词汇词在一定语法框架中词性的实现,这种结合在具体语境中、实现了词类可能性的词才是语法词。例如,“代表”是一个词汇词,其名词、动词的词性是隐含着的,尚未实现的。只有当“代表”在具体的语法框架中实现了词类归属的可能性,成为名词(他是我们的代表)、动词(他的话代表了广大教师的心声),这时的名词“代表”、动词的“代表”才是语法词。
在构建发音词典时,发音词典中往往保存的是语法词与发音的对应关系,在对词语进行位置信息的标注时,是直接将位置信息标注在了发音词典中的语法词上,但汉语实际发音中是以韵律词作为发音单元的,语法词中标注的位置信息并不能准确反映位置信息对发音的影响。
而在本发明实施例中,在发音词典中不再标注位置信息,仅保留语法词及其对应的发音。在模型训练之前,先在样本词语中确定出韵律词,得到目标预设词语,之后根据目标预设词语中字符的位置为目标预设词语对应的音素标注位置信息,得到标注后的目标音素,这样,能够实现基于实际发音的韵律节奏为韵律词标注位置信息,使得位置信息的标注可以与实际发音的契合度更高,进而使得位置信息能够真正反映词语的实际发音,进而可以使得后续步骤中训练得到的语音识别模型更加准确。
在本步骤中,目标音素可以是标注有位置信息的音素。具体的,在对样本词语进行韵律词的确定之后,得到目标预设词语,之后根据目标预设词语中各字符的位置,即该字符位于词首、词中、词末还是单音节词,对目标预设词语对应的音素进行标注,得到标注有位置信息的目标音素。
示例的,在“蹭蹭蹭就爬上了山顶”这一文本中,样本词语有“蹭蹭蹭”、“就”、“爬”、“上”、“了”、“山顶”。其中的,“就”、“爬”、“上”、“了”是四个语法词,发音词典中的对该语法词的标注方式为“j_S iu_S”、“p_S a_S”“sh_S ang_S”、“l_S e_S”,体现在发音上,该四个语法词是单独逐字发音的,在韵律上是彼此孤立的,发音的基频和时长也是基于单个音节,与汉语的实际发音差别较大。而对该样本词语确定韵律词后,该文本实际包括的是韵律词为“蹭蹭蹭”、“就爬上了”、“山顶”,“就爬上了”整体为一个韵律词,即为目标预设词语,在进行标注时,对该目标预设词语对应的音素的标注方式为“j_B iu_B p_M a_M sh_M ang_Ml_E e_E”。这样,“就爬上了”是作为一个韵律词进行发音,各音素之间没有听感上的停顿,各个字符在实际发音时的基频和时长也会基于该字符在韵律词中的位置发生相应的变化,更加契合汉语实际的发音。
步骤103、根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型。
本发明实施例中,目标语音识别模型可以用于将语音信号识别为文本。该目标语音识别模型可以是基于高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model)训练得到的,即GMM-HMM模型,也可以是基于人工神经网络识别法(ANN)与HMM混合模型训练得到的,本发明实施例对于目标语音识别模型的具体形式并不做限定。
综上所述,本发明实施例提供的一种语音识别模型获取方法,根据样本词语确定韵律词,得到目标预设词语;再根据目标预设词语中各字符的位置,为目标预设词语对应的音素标注位置信息,得到目标音素;该位置信息用于表征音素在目标预设词语发音中的位置;根据目标音素及目标预设词语,训练得到目标语音识别模型。本发明实施例中,是基于韵律词进行位置信息的标注,使得位置信息能够真正体现实际发音的韵律节奏,这样,基于目标预设词语和标注后的目标音素训练语音识别模型,可以使得模型更加准确,进而能够提高语音识别的识别率。
参照图2,示出了本发明另一种语音识别模型获取方法的步骤流程图,该方法具体可以包括:
步骤201、根据样本词语确定韵律词,得到目标预设词语。
具体的,本步骤的实现方式可以参照前述步骤101,本发明实施例在此不做赘述。
可选的,本步骤可以通过以下子步骤2011~子步骤2012实现:
子步骤2011:对样本文本进行分词处理,得到样本词语。
本步骤中,样本文本可以是预设的训练文本,具体可以多段文本或者多句文本。分词处理是将连续的字序列按照一定的规范重新组合成词序列的过程,分词处理包括中文分词、英文分词等。在对文本内容进行分词处理后,可以得到多个分词,作为多个样本词语。例如,在对样本文本“蹭蹭蹭就爬上了山顶”进行分词处理后,即可得到样本词语“蹭蹭蹭”、“就”、“爬”、“上”、“了”、“山顶”。
子步骤2012:根据所述样本词语的韵律节奏,构建韵律词;所述韵律词包含所述样本词语。
本发明实施例中,韵律词可以是由语法上凝固的、节律上稳定的音步实现,即,该韵律词不论处于什么样的上下文语境,都不改变音步的韵律节奏模式。其中,音步可以是指汉语发音最基本的节律单位,可以表示汉语的发音节奏,汉语中最常见的音步是两个音节,即双音节音步,当然也存在单音节音步和三音节音步。进一步地,韵律词是由音步实现的,该音步构成的韵律词在韵律节奏上是稳定的、凝固的,具体可以是单音步(两个音节)和复二步(四个音节),也可以是超音步即三音节音步,本发明实施例对于韵律词的具体实现方式并不作限定。
本步骤中,对样本文本进行分词处理后得到样本词语,之后根据韵律结构,对样本词语进行组合、构建得到韵律词,例如前述示例中的样本词语“蹭蹭蹭”、“就”、“爬”、“上”、“了”、“山顶”,可以构建得到“蹭蹭蹭”、“就爬上了”、“山顶”3个韵律词。
本发明实施例中,在构建发音词典时,由于韵律词是由语法词基于固定的韵律节奏所构成的,即,构成韵律词的语法词并不固定,若用韵律词构建发音词典,组成的词条数是无限的。因此,发音词典中往往是保存语法词与发音之间的对应关系。示例的,对于“王厂长”一词,发音词典中是以“王”和“厂长”两个语法词进行保存;若以韵律词进行保存,则相同韵律节奏的词条包括“王厂长”、“李厂长”、“张局长”,即相同韵律节奏的语法词组合形成的韵律词词条数会无穷无尽。
而本发明实施例中在发音词典中不再标注位置信息,仅存储语法词与发音之间的对应关系,后续可以根据对于韵律词标注的位置信息,分别在发音词典中查找该韵律词中包含的样本词语对应的发音。
示例的,发音词典中标注位置信息时,可以存储以下对应关系:
王w_S ang4_S;王w_S ang2_S;王w_S ang0_S;厂长ch_B ang2_B zh_E ang3_E;你好n_B i2_B h_E ao3_E。
本发明实施例中不标注位置信息的发音词典可以存储以下对应关系:
王w ang4;王w ang2;王w ang0;厂长ch ang2 zh ang3;你好n i2 h ao3。
本发明实施例中,通过对样本文本进行分词处理后得到样本词语,之后再根据样本词语的韵律节奏,构建包括样本词语的韵律词,这样,能够在样本文本中构建多个韵律词,基于该韵律词进行后续的位置标注和模型训练,相较于发音词典中直接在语法词上标注位置信息并训练模型的方法,本发明实施例在发音词典中不再标注位置信息,简化了发音词典的数据存储方式,并且基于韵律词的位置标注方式更能贴合实际发音,进而可以提高语音识别的准确度。
可选的,本子步骤2012还可以包括:
在所述韵律词中包含至少两个样本词语的情况下,在所述至少两个样本词语之间设置分隔标识符。
本步骤中,分隔标识符可以是用于表示构成韵律词的样本词语之间间隔的符号,该分隔标识符可以是空格或者斜线等,本发明实施例对此不作限定。需要注意的是,该分隔标识符仅用于表示韵律词是由至少两个样本词语构成,并非是指韵律词在发音上的间隔。例如,对于韵律词“王厂长”,可以用“王厂长”表示,“王”和“厂长”之间用空格作为分隔标识符。
相应的,该语音识别模型获取方法还可以包括:
根据所述目标预设词语中的分隔标识符,确定所述目标预设词语中包含的样本词语;根据所述包含的样本词语,从预设发音词典中查找所述包含的样本词语对应的音素,得到所述目标预设词语对应的音素。
本发明实施例中,由于发音词典中保存的是语法词和发音之间的对应关系,因此,在构建得到韵律词后,需要确定出韵律词中包含的样本词语,之后基于样本词语这一语法词在发音词典中查找对应的发音。
本发明实施例中,构建得到韵律词后,通过设置分隔标识符以分隔韵律词中的样本词语,在后续模型训练的过程中,基于韵律词中包含的语法词在发音词典中查找对应的发音音素,这样,既能够保证后续位置信息是基于韵律词进行标注,保证模型训练的准确度,也能够提高目标预设词语对应发音的查找效率,减少训练等待时间。
步骤202、根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置。
具体的,本步骤的实现方式可以参照前述步骤102,本发明实施例在此不做赘述。
步骤203、根据所述目标预设词语和所述目标音素,对预设声学模型进行训练,得到目标声学模型。
本发明实施例中,目标声学模型(Acoustic Model,AM)可以用于接收语音信号输出该语音信号对应的音素信息,能够用于表示声学、语音学、环境的变量、说话人性别、口音等的差异。
具体的,本步骤中在训练声学模型时,可以基于标注有位置信息的目标预设词语和目标音素训练单音素模型,该单音素模型为不使用当前音素的之前或之后的上下文信息,仅利用单个词语与音素训练得到的模型。在具体的训练过程中,可以以混合高斯模型-隐马尔科夫模型(GMM-HMM)为基本框架,将训练音频根据声学模型进行对齐,通过将训练音频和文字对齐,可以使用额外的训练算法提升和精细化参数模型。之后在单音素模型的基础上训练三音素模型,该三音素模型使用上下文的前后音素,能够展现音素的变化。再根据声学模型重新对齐训练音频以及重新训练三音素模型,即使用训练和对齐的循环对声学模型进行优化,该过程也称之为维特比(Viterbi)训练。当然,也可以采用其他方式例如基于人工神经网络识别法(ANN)等根据发音词典对声学模型进行训练,本发明实施例对此不作限定。
具体的,在声学模型训练过程中,在构建对齐用的FST(finite-statetransducer,有限状态转换器)时,使用的是基于韵律词标注的目标音素,这样能够使得位置信息能够真正反映实际发音的不同,可以提高声学模型训练的准确。
示例的,对于目标预设词语“王_B厂_M长_E你_B好_E”,构建出的FST为“w_B ang2_B ch_M ang2_M zh_E ang3_E n_B i2_B h_E ao3_E”;若使用语法词进行标注,则构建得到的FST为“w_S ang2_S ch_B ang2_B zh_E ang3_E n_B i2_B h_E ao3_E”。可见,使用语法词标注位置信息时,是假设“王”和“厂长”作为两个发音单元分别单独发音的,在韵律节奏上是彼此孤立的,发音的基频和时长也是基于单个音节的,这样与实际发音并不符合。而使用韵律词标注位置信息时,实际发音中是将“王厂长”整体作为一个固定韵律节奏的发音单元,在各音素之间没有听感上的停顿,各个字符在实际发音时的基频和时长也会基于该字符在韵律词中的位置发生相应的变化,更符合汉语中的词语的实际发音。
步骤204、根据所述目标预设词语中各字符的位置及所述样本词语,对预设语言模型进行训练,得到目标语言模型。
本发明实施例中,语言模型(Language Model,LM)可以是通过对大量文本信息进行训练,得到的单个字或者词相互关联的概率模型,该语言模型可以用于表示词与词在排列结构上的内在联系。具体的,语言模型可以是统计语言模型,如N元文法(N-Gram)语言模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(Decision Tree Models)等,也可以是神经网络语言模型(neural network languagemodel,NNLM),本发明实施例对于语言模型的具体种类并不做限定。
具体的,本步骤204可以通过以下子步骤2041~子步骤2042实现:
子步骤2041、根据所述目标预设词语中各字符的位置,为所述目标预设词语所包含的样本词语中各字符标注位置信息,得到目标样本词语。
本发明实施例中,目标样本词语可以是标注有位置信息的目标预设词语,该目标样本词语可以用于训练预设语言模型。
具体的,在样本词语确定出韵律词,得到目标预设词语之后,基于目标预设词语中各字符的位置,如词首、词末、词尾、单音节,为目标预设词语标注位置信息,这样即可得到标注有位置信息的目标样本词语。例如,目标预设词语为“王厂长”,标注位置信息后得到的目标样本词语为“王_B厂_M长_E”。
子步骤2042、根据所述目标样本词语对预设语言模型进行训练。
本发明实施例中,在对预设语言模型进行训练时,可以是以统计语言模型进行训练,也可以是以神经网络语言模型进行训练,本发明实施例对此不作限定。
下面以统计语言模型为例,阐述预设语言模型的训练过程:
统计语言模型是计算一个句子概率大小的模型,基于该语言模型的概率参数,可以估算出自然语言中每个句子触点的可能性。常用的统计语言模型为N元文法模型(N-gramModel)。具体的,N-gram语言模型是把语言(词的序列)看作一个随机事件,并赋予相应的概率来衡量该词序列符合自然语言的语法和语义规则的置信度,而N-gram语言模型中常用的为二元语言模型(bigram)、三元语言模型(trigram)。
具体在训练过程中,首先基于马尔科夫假设(Markov Assumption),并通过计算最大似然估计(Maximum Likelihood Estimate)构造语言模型,得到目标样本词语数据的最佳估计,之后利用该最佳估计计算给定句子集的概率,之后可以不断增加目标样本词语数据进行训练,并基于概率估计的结果对语最佳估计的参数进行调整,之后可以通过数据平滑(Data Smoothing)技术解决数据稀疏(Data Sparseness)问题,得到较为准确的语言模型。
本发明实施例中,根据目标预设词语中各字符的位置,为目标预设词语中包含的样本词语中各字符标注位置信息后得到目标样本词语,之后再基于目标样本词语对预设语言模型进行训练,得到目标语言模型。即,基于韵律词中字符的位置对目标预设词语进行标注,得到目标样本词语,这样,训练目标语言模型时使用的训练集均是韵律词,这样,能够使得训练集的词序列更加符合实际发音的习惯,提高语言模型与汉语实际发音的契合度,进而可以提高模型的准确度。
步骤205、将预设发音词典、目标声学模型以及目标语言模型按照预设方式进行融合,得到目标语音识别模型。
本发明实施例中,目标语音识别模型可以是以解码器的形式构建。具体的,该解码器可以通过语音识别建网的方式获得,即HCLG建网,也就是将语言模型(G),词汇表(L),上下文相关信息(C),隐马尔可夫模型(H)四个部分分别构建为标准的有限状态转换器,再通过标准的有限状态转换器操作将它们组合起来,构建一个从上下文相关音素子状态到词的解码器。目标语音识别模型对于输入的语音信号,在由语句或者单词序列构成的空间当中,可以按照一定的优化准则,并且根据目标声学模型、目标语言模型及预设发音词典,生成一个用于搜索的状态空间,在该状态空间中搜索到最优的状态序列,这样便实现了寻找能够以最大概率输出该语音信号的句子或者单词序列。
本发明实施例中,通过基于目标声学模型、目标语言模型以及预设发音词典融合得到目标语音识别模型,即,目标声学模型和目标语言模型均是基于韵律词训练得到的,位置信息能够真正体现出实际发音的不同,模型训练过程中更加契合汉语实际的发音,识别准确率更高。
可选的,在得到目标语音识别模型之后,该方法还包括:
将待识别的语音信号的声学特征输入所述目标语音识别模型;基于所述目标语音识别模型,对所述声学特征进行语音识别,输出所述语音信号对应的文本。
本发明实施例中,在使用语音识别模型对语音信号进行语音识别之前,需要首先对语音信号进行特征提取。语音信号中通常包括非常丰富的特征参数,不同的特征向量表征着不同的声学意义。本步骤中待识别语音信号的声学特征的提取过程可以是从语音信号中选择有效的音频表征的过程。
具体的,在对语音信号进行特征提取时通常使用梅尔频率倒谱系数(MFCC)特征。该提取过程具体可以包括:首先对语音信号进行快速傅里叶变换(FFT),再进行梅尔频率尺度转换,然后配置三角形滤波器组并计算每一个三角滤波器对信号幅度谱滤波后的输出,最后对所有滤波器输出作对数运算,再进一步做离散余弦变换(DCT),即可得到语音信号的MFCC声学特征。当然,本步骤中声学特征的提取过程也可以采用其他方式,本发明实施例对此不作限定。
本步骤中通过先对语音信号进行特征提取后再将待识别语音信号的声学特征输入解码器,可以减少语音信号中的噪声、静音片段等多余影响因素的干扰,提高语音信号的质量,进而可以提高语音信号识别的准确度。
本发明实施例中,将声学特征输入语音识别模型后,语音识别模型利用目标声学模型、目标语言模型以及预设发音词典组成的搜索状态空间从每一帧声学特征的特征向量中确定出当前的音素,再由多个音素组成发音,之后确定出发音对应的单词,之后再由单词组成文本语句。这样,语音信号通过语音识别,最终转化为语音信号对应的文本。
综上所述,本发明实施例提供的一种语音识别模型的获取方法,根据样本词语确定韵律词,得到目标预设词语;再根据目标预设词语中各字符的位置,为目标预设词语对应的音素标注位置信息,得到目标音素;该位置信息用于表征音素在目标预设词语发音中的位置;根据目标预设词语和目标音素,对预设声学模型进行训练,得到目标声学模型;之后再根据目标预设词语中各字符的位置及样本词语,对预设语言模型进行训练,得到目标语言模型;最后将预设发音词典、目标声学模型以及目标语言模型按照预设方式进行融合,得到目标语音识别模型。本发明实施例中,是基于韵律词进行位置信息的标注,使得位置信息能够真正体现实际发音的韵律节奏,并且,基于目标预设词语和目标音素训练声学模型和语言模型,可以使得最终得到的目标语音识别模型与实际发音的契合度更高,模型的准确度更高,进而能够提高语音识别的识别率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种语音识别模型获取装置的结构框图,具体,该装置30可以包括如下模块:
第一确定模块301,用于根据样本词语确定韵律词,得到目标预设词语。
标注模块302,用于根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置。
训练模块303,用于根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型。
可选的,所述训练模块303,具体用于:
根据所述目标预设词语和所述目标音素,对预设声学模型进行训练,得到目标声学模型;根据所述目标预设词语中各字符的位置及所述样本词语,对预设语言模型进行训练,得到目标语言模型;将预设发音词典、目标声学模型以及目标语言模型按照预设方式进行融合,得到目标语音识别模型。
可选的,所述第一确定模块301,具体用于:
对样本文本进行分词处理,得到样本词语;根据所述样本词语的韵律节奏,构建韵律词;所述韵律词包含所述样本词语。
可选的,所述训练模块303,具体用于:
根据所述目标预设词语中各字符的位置,为所述目标预设词语所包含的样本词语中各字符标注位置信息,得到目标样本词语;根据所述目标样本词语对预设语言模型进行训练。
可选的,所述第一确定模块301,具体用于:
在所述韵律词中包含至少两个样本词语的情况下,在所述至少两个样本词语之间设置分隔标识符。
相应地,所述装置30还包括:
第二确定模块,用于根据所述目标预设词语中的分隔标识符,确定所述目标预设词语中包含的样本词语;查找模块,用于根据所述包含的样本词语,从预设发音词典中查找所述包含的样本词语对应的音素,得到所述目标预设词语对应的音素。
综上所述,本发明实施例提供的一种语音识别模型的获取装置,根据样本词语确定韵律词,得到目标预设词语;再根据目标预设词语中各字符的位置,为目标预设词语对应的音素标注位置信息,得到目标音素;该位置信息用于表征音素在目标预设词语发音中的位置;根据目标音素及目标预设词语,训练得到目标语音识别模型。本发明实施例中是基于韵律词进行位置信息的标注,使得位置信息能够真正体现实际发音的韵律节奏,这样,基于目标预设词语和标注后的目标音素训练语音识别模型,可以使得语音识别模型更加准确,进而能够提高语音识别的识别率。
可选的,本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语音识别模型获取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述语音识别模型获取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种语音识别模型的获取方法,其特征在于,包括:
根据样本词语确定韵律词,得到目标预设词语;
根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置;
根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型;
所述根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型,包括:
根据所述目标预设词语和所述目标音素,对预设声学模型进行训练,得到目标声学模型;
根据所述目标预设词语中各字符的位置及所述样本词语,对预设语言模型进行训练,得到目标语言模型;
将预设发音词典、目标声学模型以及目标语言模型按照预设方式进行融合,得到目标语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述根据样本词语确定韵律词,包括:
对样本文本进行分词处理,得到样本词语;
根据所述样本词语的韵律节奏,构建韵律词;所述韵律词包含所述样本词语。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标预设词语中各字符的位置及所述样本词语,对预设语言模型进行训练,包括:
根据所述目标预设词语中各字符的位置,为所述目标预设词语所包含的样本词语中各字符标注位置信息,得到目标样本词语;
根据所述目标样本词语对预设语言模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本词语的韵律节奏,构建韵律词,包括:
在所述韵律词中包含至少两个样本词语的情况下,在所述至少两个样本词语之间设置分隔标识符;
相应地,在所述根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息的步骤之前,所述方法还包括:
根据所述目标预设词语中的分隔标识符,确定所述目标预设词语中包含的样本词语;
根据所述包含的样本词语,从预设发音词典中查找所述包含的样本词语对应的音素,得到所述目标预设词语对应的音素。
5.一种语音识别模型的获取装置,其特征在于,包括:
第一确定模块,用于根据样本词语确定韵律词,得到目标预设词语;
标注模块,用于根据所述目标预设词语中各字符的位置,为所述目标预设词语对应的音素标注位置信息,得到目标音素;所述位置信息用于表征所述音素在所述目标预设词语发音中的位置;
训练模块,用于根据所述目标音素及所述目标预设词语,训练得到目标语音识别模型;
所述训练模块,具体用于:
根据所述目标预设词语和所述目标音素,对预设声学模型进行训练,得到目标声学模型;
根据所述目标预设词语中各字符的位置及所述样本词语,对预设语言模型进行训练,得到目标语言模型;
将预设发音词典、目标声学模型以及目标语言模型按照预设方式进行融合,得到目标语音识别模型。
6.根据权利要求5所述的装置,其特征在于,所述第一确定模块,具体用于:
对样本文本进行分词处理,得到样本词语;
根据所述样本词语的韵律节奏,构建韵律词;所述韵律词包含所述样本词语。
7.根据权利要求6所述的装置,其特征在于,所述训练模块,具体用于:
根据所述目标预设词语中各字符的位置,为所述目标预设词语所包含的样本词语中各字符标注位置信息,得到目标样本词语;
根据所述目标样本词语对预设语言模型进行训练。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块,具体用于:
在所述韵律词中包含至少两个样本词语的情况下,在所述至少两个样本词语之间设置分隔标识符;
相应地,所述装置还包括:
第二确定模块,用于根据所述目标预设词语中的分隔标识符,确定所述目标预设词语中包含的样本词语;
查找模块,用于根据所述包含的样本词语,从预设发音词典中查找所述包含的样本词语对应的音素,得到所述目标预设词语对应的音素。
CN202010478563.7A 2020-05-29 2020-05-29 一种语音识别模型的获取方法及装置 Active CN111862954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478563.7A CN111862954B (zh) 2020-05-29 2020-05-29 一种语音识别模型的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478563.7A CN111862954B (zh) 2020-05-29 2020-05-29 一种语音识别模型的获取方法及装置

Publications (2)

Publication Number Publication Date
CN111862954A CN111862954A (zh) 2020-10-30
CN111862954B true CN111862954B (zh) 2024-03-01

Family

ID=72986029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478563.7A Active CN111862954B (zh) 2020-05-29 2020-05-29 一种语音识别模型的获取方法及装置

Country Status (1)

Country Link
CN (1) CN111862954B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489638B (zh) * 2020-11-13 2023-12-29 北京捷通华声科技股份有限公司 一种语音识别方法、装置、设备及存储介质
CN112489676B (zh) * 2020-12-15 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、装置、设备及存储介质
CN112820281B (zh) * 2020-12-31 2022-09-23 北京声智科技有限公司 一种语音识别方法、装置及设备
CN112905024B (zh) * 2021-01-21 2023-10-27 李博林 单词的音节记录方法及装置
CN113223500B (zh) * 2021-04-12 2022-02-25 北京百度网讯科技有限公司 语音识别方法、训练语音识别模型的方法及对应装置
CN113555006B (zh) * 2021-09-23 2021-12-10 腾讯科技(深圳)有限公司 一种语音信息识别方法、装置、电子设备及存储介质
CN114005438B (zh) * 2021-12-31 2022-05-17 科大讯飞股份有限公司 语音识别方法、语音识别模型的训练方法以及相关装置
CN116013256B (zh) * 2022-12-19 2024-01-30 镁佳(北京)科技有限公司 一种语音识别模型构建及语音识别方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752227A (en) * 1994-05-10 1998-05-12 Telia Ab Method and arrangement for speech to text conversion
JP2000338989A (ja) * 1999-05-28 2000-12-08 Japan Science & Technology Corp 音声認識方法および装置
CN1282018A (zh) * 1999-07-23 2001-01-31 科乐美股份有限公司 声音合成方法和装置及记录声音合成程序的电脑可读媒体
CN1315722A (zh) * 2000-03-28 2001-10-03 松下电器产业株式会社 用于汉语语音识别系统的连续语音处理方法和装置
JP2006084664A (ja) * 2004-09-15 2006-03-30 Denso Corp 音声認識装置および音声認識プログラム
CN101785051A (zh) * 2007-08-22 2010-07-21 日本电气株式会社 语音识别装置和语音识别方法
CN105593936A (zh) * 2013-10-24 2016-05-18 宝马股份公司 用于文本转语音性能评价的系统和方法
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2471811B (en) * 2008-05-09 2012-05-16 Fujitsu Ltd Speech recognition dictionary creating support device,computer readable medium storing processing program, and processing method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752227A (en) * 1994-05-10 1998-05-12 Telia Ab Method and arrangement for speech to text conversion
JP2000338989A (ja) * 1999-05-28 2000-12-08 Japan Science & Technology Corp 音声認識方法および装置
CN1282018A (zh) * 1999-07-23 2001-01-31 科乐美股份有限公司 声音合成方法和装置及记录声音合成程序的电脑可读媒体
CN1315722A (zh) * 2000-03-28 2001-10-03 松下电器产业株式会社 用于汉语语音识别系统的连续语音处理方法和装置
JP2006084664A (ja) * 2004-09-15 2006-03-30 Denso Corp 音声認識装置および音声認識プログラム
CN101785051A (zh) * 2007-08-22 2010-07-21 日本电气株式会社 语音识别装置和语音识别方法
CN105593936A (zh) * 2013-10-24 2016-05-18 宝马股份公司 用于文本转语音性能评价的系统和方法
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统

Also Published As

Publication number Publication date
CN111862954A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111862954B (zh) 一种语音识别模型的获取方法及装置
US10319250B2 (en) Pronunciation guided by automatic speech recognition
Gruhn et al. Statistical pronunciation modeling for non-native speech processing
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
O'Shaughnessy Automatic speech recognition
CN112562676A (zh) 一种语音解码方法、装置、设备及存储介质
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
Jaradat et al. A novel human-vehicle interaction assistive device for Arab drivers using speech recognition
Hieronymus et al. Spoken language identification using large vocabulary speech recognition
Baig et al. Discriminative training for phonetic recognition of the Holy Quran
Milone et al. Prosodic and accentual information for automatic speech recognition
Mote et al. Tactical language detection and modeling of learner speech errors: The case of Arabic tactical language training for American English speakers
Tolba et al. Speech recognition by intelligent machines
Balula et al. Automatic speech recognition (ASR) systems for learning Arabic language and Al-quran recitation: a Review
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Soe et al. Syllable-based speech recognition system for Myanmar
Kurian et al. Automated Transcription System for MalayalamLanguage
Khalifa et al. Statistical modeling for speech recognition
Béchet et al. Very large vocabulary proper name recognition for directory assistance
CN111696530B (zh) 一种目标声学模型获取方法及装置
Salvi Developing acoustic models for automatic speech recognition
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
Amdal Learning pronunciation variation: A data-driven approach to rule-based lecxicon adaptation for automatic speech recognition
Colla et al. Automatic generation of linguistic, phonetic and acoustic knowledge for a diphone-based continuous speech recognition system
Wiggers HIDDEN MARKOV MODELS FOR AUTOMATIC SPEECH RECOGNITION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant