CN110675854A - 一种中英文混合语音识别方法及装置 - Google Patents

一种中英文混合语音识别方法及装置 Download PDF

Info

Publication number
CN110675854A
CN110675854A CN201910780880.1A CN201910780880A CN110675854A CN 110675854 A CN110675854 A CN 110675854A CN 201910780880 A CN201910780880 A CN 201910780880A CN 110675854 A CN110675854 A CN 110675854A
Authority
CN
China
Prior art keywords
chinese
english
training
pinyin
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910780880.1A
Other languages
English (en)
Other versions
CN110675854B (zh
Inventor
张广学
肖龙源
蔡振华
李稀敏
刘晓葳
王静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201910780880.1A priority Critical patent/CN110675854B/zh
Publication of CN110675854A publication Critical patent/CN110675854A/zh
Application granted granted Critical
Publication of CN110675854B publication Critical patent/CN110675854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开一种中英文混合语音识别方法及装置,属于语音识别技术领域,该方法包括,获取中英文混合词典,该中英文混合词典包括:训练文本,基于“汉字‑拼音”和“拼音‑音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;将中英文混合词典作为训练词典,进行语言模型训练,得到训练后的语言模型,训练语料,对语料提取语音特征,基于语音特征采用时延神经网络进行声学模型训练,得到训练后的声学模型;结合训练后的声学模型和训练后的语言模型对中英文混合语音进行语音识别。本发明避免对每个国际音标建立一个音素,解决了语音模型庞大、解码速度慢的问题,提高了中英文混合语音的识别正确率。

Description

一种中英文混合语音识别方法及装置
技术领域
本发明属于语音识别领域,特别涉及一种中英文混合语音识别方法及装置。
背景技术
目前,随着经济的发展、科技的进步,人们生活日益全球化,使用混合语言交流的现象已经成为一种普遍现象。在我们实际生活中,对常用、甚至是特殊领域英文是有需求的,但现有的语音识别模型很少进行中英文混合语音识别。中英文混合语言之间的声学和语言之间的复杂性给语音识别带来挑战。
现有技术中,在中英文混合语音识别的过程中,针对训练文本中的中英文表达和英文表达,需要在词典中建立与其相对应的音素。在词典中,对每一个国际音标建立一个相应的音素,则会使语音模型变得庞大,并且解码速度变慢。使的中英文混合语音识别速度慢,效率低。
发明内容
为了至少解决上述技术问题,本发明提供了一种中英文混合语音识别方法及装置,采用中英文混合词典,避免对每个国际音标建立一个音素,对中英文发音相似的音素标注为中文音素、做特殊标记,解决了语音模型庞大、解码速度慢的问题,提高了中英文混合语音的识别正确率。
根据本发明第一方面,提供了一种中英文混合语音识别方法,包括:
获取中英文混合词典,所述中英文混合词典包括:训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
将所述中英文混合词典作为训练词典,进行语音模型训练,得到训练后的语言模型,训练语料,基于语料提取语音特征,基于语音特征采用时延神经网络进行声学模型训练,得到训练后的声学模型;
结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。
进一步地,所述训练语料,包括,基于自定义数据集以及公开数据进行语料训练。
进一步地,所述训练文本,包括:收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。
进一步地,所述基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则,包括:对所述训练文本中的英文表达、中英文表达中的英文音素构建:辅音-元音-辅音的结构,以及辅音-元音的结构,然后,基于“汉字-拼音”和“拼音-音素”的结构生成音素规则。
进一步地,所述基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则时,还包括:对受中文发音影响的英文,采用相对应的中文标注。
进一步地,所述方法还包括:对中英文发音相似的音素,标注为中文音素,并进行特殊标记,以区别与不受中文发音影响的英文。
进一步地,所述基于语料采用时延神经网络进行声学模型训练之前,包括:将所述时延神经网络的延时参数设置为大于等于3,小于等于5;所述时延神经网络对每帧音频提取13维语音特征。
进一步地,所述结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别,包括:
从中英文混合语音中提取语音特征,根据所述语音特征获取匹配的训练后的声学模型,获取与所述训练后的声学模型对应的训练后的语言模型,根据所述训练后的语言模型对应的训练词典,对所述语音特征进行识别,获取并输出与语音特征对应的文本。
在本发明第二方面,提供一种中英文混合语音识别装置,包括:
获取模块,用于获取中英文混合词典,所述中英文混合词典包括:训练语料、训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
训练模块,用于将所述中英文混合词典作为训练词典,进行语音模型训练,得到训练后的语言模型,基于语料采用时延神经网络进行声学模型训练,得到训练后的声学模型;
识别模块,用于结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。
在本发明第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序用于实现如上所述的中英文混合语音识别方法。
本发明的有益效果:通过采用基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文、中英文表达生成音素规则的方式,能够有效避免传统词典中,对每一个国际音标建立一个相应的音素,导致语音模型变得庞大,并且解码速度变慢的问题。通过将一些中英文发音相似的音素块标注为中文音素并进行特殊标记,对其他不受中文发音影响的英文,则对其“拼音”采用其他标注符号的方式降低语言模型的规模,进一步提高工作效率,同时能够有效提高中文识别的解码正确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明提供的一种中英文混合语音识别方法流程图;
图2为本发明提供的一种中英文混合语音识别装置结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供一种中英文混合语音识别方法,如图1所示,包括:
步骤201:获取中英文混合词典,中英文混合词典包括:训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
在本发明实施例中,在训练文本时,具体可以收集生活中的对话、写作、专有名词等,更进一步地,可以收集生活中的对话、写作、专有名词等中文表达、中英文表达以及英文表达方式。本发明技术方案,在一方面上,收集规范、严谨、专业的中文表达、中英文表达以及英文表达方式,在另一方面上,收集表达自由,如生活中的对话的中文表达、中英文表达以及英文表达方式,在两个维度上全面地收集中文、中英文、以及中英文的表达方式,使得经训练得到的文本更为丰富、全面,扩大了文本的数据量,进而增大了中英文混合词典中的音素规则的存储量,提高了对中英文混合语音识别的准确度。
在本发明实施例中,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则,就英文音素来说,首先构建辅音-元音-辅音的结构,以及辅音-元音的结构。其中,“辅-元-辅”,即为:辅音-元音-辅音的结构,“辅-元”即为:辅音-元音的结构,再基于“汉字-拼音”和“拼音-音素”的结构,生成音素规则。
下面进行举例说明,如:believe[bI'li:v],其对应的音素建立为“辅-元”bI和“辅-元-辅”liv:。
相对应的,就英文对应的“拼音”来说,对受中文发音影响的英文,在进行“拼音”标注时,采用相对应的中文标注。以此适应国人部分英文发音受中文发音的影响。另外,对中英文发音相似的音素,标注为中文音素,并进行特殊标记,以区别于不受中文发音影响的英文,对其他不受中文发音影响的英文,则对其“拼音”采用其他标注符号,从而降低语音模型的规模,解决现有技术中语音模型规模庞大的问题,同时能够提升在语音识别时解码的速度。
在本发明实施例中,通过采用这种基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文、中英文表达生成音素规则的方式,能够有效避免传统词典中,对每一个国际音标建立一个相应的音素,导致语音模型变得庞大,并且解码速度变慢的问题。以及在仅使用汉语音素来标注英文音素的情形下,降低中文识别的解码正确率的缺陷。
步骤202:将中英文混合词典作为训练词典,进行语音模型训练,得到训练后的语言模型,训练语料,对语料提取语音特征,基于语音特征采用时延神经网络进行声学模型训练,得到训练后的声学模型;
在本发明实施例中,基于3-gram进行语音模型训练,得到训练后的语言模型,时延神经网络基于语料进行声学模型训练,其中,在进行声学模型训练之前,可以将延时参数可以设置为大于等于3,小于等于5,并对每帧提取13维语音特征,得到语音特征到音素的映射。进一步地,本技术方案可以将延时参数设置为5,并对每帧提取13维语音特征。以此可以获取到更大的时域范围语音特征,进而解决了一部分英文单词发音时间较长,不能够获取足够的英文发音特征(语音特征)的问题,从而保障了提取到的英文发音特征的完整性,保障了中英文混合语音识别的准确度,提高识别的正确率。
步骤203:结合训练后的声学模型和语言模型对中英文混合语音进行语音识别。
在本发明实施例中,对中英文混合语音进行识别时,包括:从中英文混合语音中提取语音特征,根据所述语音特征获取匹配的训练后的声学模型,获取与该训练后的声学模型对应的训练后的语言模型,根据训练后的语言模型获取其对应的训练词典,依据该训练词典对语音特征进行识别,从训练词典中获取并输出与语音特征对应的文本。
在本发明的另一实施例中,在进行中英文混合语音识别前,需要预先训练语料,对语料提取语音特征,在基于语音特征采用时延神经网络训练声学模型,进而得到训练后的声学模型。从而对语料、语音特征以及训练后的声学模型建立关联。
进行中英文混合语音识别前,还需要训练与语料对应的文本,对文本中的英文表达、中英文表达,基于“汉字-拼音”和“拼音-音素”的结构,生成音素规则,形成中英文混合词典,在基于“汉字-拼音”和“拼音-音素”的结构,生成音素规则的过程中,不仅对受中文发音影响的英文,采用相对应的中文标注,还对中英文发音相似的音素,标注为中文音素,并进行特殊标记,以区别与不受中文发音影响的英文。再基于中英文混合词典进行语音模型训练,得到训练后的语言模型,以此对文本、中英文混合词典以及语言模型建立关联,进而完成语料、语音特征、声学模型、语言模型、中英文混合词典、语料对应的文本之间建立关联。
在进行中英文混合语音识别时,对中英文混合语音进行语音特征提取,再基于提取到的语音特征获取与之匹配的声学模型,根据声学模型获取对应的语言模型,基于语言模型查找对应的中英文混合词典,根据中英文混合词典查找与该语音特征对应的文本,输出文本,完成中英文混合语音识别。
在本发明技术方案中,通过采用基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文、中英文表达生成音素规则的方式的中英文混合词典,能够有效避免传统词典中,对每一个国际音标建立一个相应的音素,导致语音模型变得庞大,并且解码速度变慢的问题。通过将一些中英文发音相似的音素块标注为中文音素并进行特殊标记,对其他不受中文发音影响的英文,则对其“拼音”采用其他标注符号的方式降低语言模型的规模,进一步提高工作效率,同时能够有效提高中文识别的解码正确率。
在本发明的另一方面,提供一种中英文混合语音识别装置,如图2所示,包括:
获取模块401,用于获取中英文混合词典,所述中英文混合词典包括:训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
在本发明装置中,获取模块401,训练文本,包括:收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。本发明技术方案,获取模块401在一方面上,通过收集规范、严谨、专业的中文表达、中英文表达以及英文表达方式,在另一方面上,收集表达自由,如生活中的对话的中文表达、中英文表达以及英文表达方式,在两个维度上全面地收集中文、中英文、以及中英文的表达方式,使得经训练得到的文本更为丰富、全面,扩大了文本的数据量,进而增大了中英文混合词典中的音素规则的存储量,提高了对中英文混合语音识别的准确度。
在基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则的过程中,就英文音素来说,先构建辅音-元音-辅音的结构,以及辅音-元音的结构。其中,“辅-元-辅”,即为:辅音-元音-辅音的结构,“辅-元”即为:辅音-元音的结构,再基于“汉字-拼音”和“拼音-音素”的结构,生成音素规则。
下面进行举例说明,如:believe[bI'li:v],其对应的音素建立为“辅-元”bI和“辅-元-辅”liv:。
相对应的,就英文对应的“拼音”来说,对受中文发音影响的英文,在进行“拼音”标注时,采用相对应的中文标注。以此适应国人部分英文发音受中文发音的影响。另外,对中英文发音相似的音素,标注为中文音素,并进行特殊标记,以区别与不受中文发音影响的英文,降低语言模型的规模。对其他不受中文发音影响的英文,则对其“拼音”采用其他标注符号,从而降低语音模型的规模,解决现有技术中语音模型规模庞大的问题,同时能够提升在语音识别时解码的速度。
在本发明实施例中,通过采用这种基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文、中英文表达生成音素规则的方式,能够有效避免传统词典中,对每一个国际音标建立一个相应的音素,导致语音模型变得庞大,并且解码速度变慢的问题。以及在仅使用汉语音素来标注英文音素的情形下,降低中文识别的解码正确率的缺陷。
训练模块402,用于将所述中英文混合词典作为训练词典,进行语音模型训练,得到训练后的语言模型,训练语料,对语料提取语音特征,基于语料采用时延神经网络进行声学模型训练,得到训练后的声学模型;
在本发明实施例中,训练模块402,用于训练语言模型和声学模型,具体基于3-gram进行语音模型训练,得到训练后的语言模型,时延神经网络基于语料进行声学模型训练,其中,在进行声学模型训练之前,可以将延时参数设置为大于等于3,小于等于5的参数,优选地,可以将延时参数设置为5,并对每帧提取13维语音特征,得到语音特征到音素的映射。
识别模块403,用于结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。
在本发明实施例中,识别模块403,用于对中英文混合语音进行识别时,包括:从中英文混合语音中提取语音特征,根据所述语音特征获取匹配的训练后的声学模型,获取与该训练后的声学模型对应的训练后的语言模型,根据训练后的语言模型获取其对应的训练词典,依据该训练词典对语音特征进行识别,从训练词典中获取并输出与语音特征对应的文本。
在本发明的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序用于实现中英文混合语音识别方法,其中,中英文混合语音识别方法,包括:
获取中英文混合词典,中英文混合词典包括:训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
在本发明实施例中,所述训练语料,包括,基于自定义数据集以及公开数据进行语料训练。所述训练文本,包括:收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。
进一步地,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则,包括:对所述训练文本中的英文表达、中英文表达中的英文音素构建:辅音-元音-辅音的结构,以及辅音-元音的结构,然后,基于“汉字-拼音”和“拼音-音素”的结构生成音素规则。
进一步地,对受中文发音影响的英文,采用相对应的中文标注。
进一步地,所述方法还包括:对中英文发音相似的音素,标注为中文音素,并进行特殊标记,以区别与不受中文发音影响的英文。
将中英文混合词典作为训练词典,基于3-gram进行语音模型训练,得到训练后的语言模型,基于语料采用时延神经网络进行声学模型训练,得到训练后的声学模型;
在本发明实施例中,时延神经网络基于语料进行声学模型训练,其中,延时参数设置为5,在对中英文混合语音进行语音识别时,所述时延神经网络对每帧音频提取13维特征。
结合训练后的声学模型和语言模型对中英文混合语音进行语音识别。
在本发明实施例中,通过采用基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文、中英文表达生成音素规则的方式,能够有效避免传统词典中,对每一个国际音标建立一个相应的音素,导致语音模型变得庞大,并且解码速度变慢的问题。通过将一些中英文发音相似的音素块标注为中文音素并进行特殊标记,对其他不受中文发音影响的英文,则对其“拼音”采用其他标注符号的方式降低语言模型的规模,进一步提高工作效率,同时能够有效提高中英文识别的解码正确率,提高语音识别准确度。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种中英文混合语音识别方法,其特征在于,包括:
获取中英文混合词典,所述中英文混合词典包括:训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
将所述中英文混合词典作为训练词典,进行语音模型训练,得到训练后的语言模型,训练语料,对语料提取语音特征,基于语音特征采用时延神经网络进行声学模型训练,得到训练后的声学模型;
结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。
2.如权利要求1所述的方法,其特征在于,
所述训练语料,包括,基于自定义数据集以及公开数据进行训练得到语料。
3.如权利要求1所述的方法,其特征在于,
所述训练文本,包括:收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。
4.如权利要求1所述的方法,其特征在于,所述基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则,包括:
对所述训练文本中的英文表达、中英文表达中的英文音素构建:辅音-元音-辅音的结构,以及辅音-元音的结构,然后,基于“汉字-拼音”和“拼音-音素”的结构生成音素规则。
5.如权利要求1所述的方法,其特征在于,所述基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则时,还包括:
对受中文发音影响的英文,采用相对应的中文标注。
6.如权利要求1所述的方法,其特征在于,
所述方法还包括:对中英文发音相似的音素,标注为中文音素,并进行特殊标记,以区别与不受中文发音影响的英文。
7.如权利要求1所述的方法,其特征在于,
所述基于语料采用时延神经网络进行声学模型训练之前,包括:将所述时延神经网络的延时参数设置为大于等于3,小于等于5;
所述时延神经网络对每帧音频提取13维语音特征。
8.如权利要求1所述的方法,其特征在于,
所述结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别,包括:
从中英文混合语音中提取语音特征,根据所述语音特征获取匹配的训练后的声学模型,获取与所述训练后的声学模型对应的训练后的语言模型,根据所述训练后的语言模型对应的训练词典,对所述语音特征进行识别,获取并输出与语音特征对应的文本。
9.一种中英文混合语音识别装置,其特征在于,包括:
获取模块,用于获取中英文混合词典,所述中英文混合词典包括:训练文本,基于“汉字-拼音”和“拼音-音素”的结构,对训练文本中的英文表达、中英文表达生成音素规则;
训练模块,用于将所述中英文混合词典作为训练词典,进行语言模型训练,得到训练后的语言模型,训练语料,基于语料提取语音特征,基于语音特征采用时延神经网络进行声学模型训练,得到训练后的声学模型;
识别模块,用于结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序用于实现如权利要求1-8任一项所述的中英文混合语音识别方法。
CN201910780880.1A 2019-08-22 2019-08-22 一种中英文混合语音识别方法及装置 Active CN110675854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910780880.1A CN110675854B (zh) 2019-08-22 2019-08-22 一种中英文混合语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910780880.1A CN110675854B (zh) 2019-08-22 2019-08-22 一种中英文混合语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN110675854A true CN110675854A (zh) 2020-01-10
CN110675854B CN110675854B (zh) 2022-10-28

Family

ID=69075528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910780880.1A Active CN110675854B (zh) 2019-08-22 2019-08-22 一种中英文混合语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN110675854B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111489735A (zh) * 2020-04-22 2020-08-04 北京声智科技有限公司 语音识别模型训练方法及装置
CN111696524A (zh) * 2020-04-21 2020-09-22 厦门快商通科技股份有限公司 一种叠字语音识别方法及系统
CN112071299A (zh) * 2020-09-09 2020-12-11 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112151005A (zh) * 2020-09-28 2020-12-29 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN112185363A (zh) * 2020-10-21 2021-01-05 北京猿力未来科技有限公司 音频处理方法及装置
CN112216270A (zh) * 2020-10-09 2021-01-12 携程计算机技术(上海)有限公司 语音音素的识别方法及系统、电子设备及存储介质
CN112466278A (zh) * 2020-12-16 2021-03-09 北京百度网讯科技有限公司 语音识别方法、装置和电子设备
CN112528649A (zh) * 2020-12-14 2021-03-19 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统
CN112530414A (zh) * 2021-02-08 2021-03-19 数据堂(北京)科技股份有限公司 迭代式大规模发音词典构建方法及装置
CN112652311A (zh) * 2020-12-01 2021-04-13 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
CN113345408A (zh) * 2021-06-02 2021-09-03 云知声智能科技股份有限公司 中英文语音混合合成方法、装置、电子设备和存储介质
CN114171001A (zh) * 2021-12-06 2022-03-11 合肥讯飞数码科技有限公司 语音识别方法、装置、电子设备及存储介质
CN115547292A (zh) * 2022-11-28 2022-12-30 成都启英泰伦科技有限公司 一种语音合成用声学模型训练方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
TW200937388A (en) * 2008-02-19 2009-09-01 Tze-Fen Li A speech recognition method for both English and Chinese
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
CN107195295A (zh) * 2017-05-04 2017-09-22 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107301860A (zh) * 2017-05-04 2017-10-27 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN108986791A (zh) * 2018-08-10 2018-12-11 南京航空航天大学 针对民航陆空通话领域的中英文语种语音识别方法及系统
CN110517668A (zh) * 2019-07-23 2019-11-29 普强信息技术(北京)有限公司 一种中英文混合语音识别系统及方法
CN111145719A (zh) * 2019-12-31 2020-05-12 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111798841A (zh) * 2020-05-13 2020-10-20 厦门快商通科技股份有限公司 声学模型训练方法、系统、移动终端及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
TW200937388A (en) * 2008-02-19 2009-09-01 Tze-Fen Li A speech recognition method for both English and Chinese
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
CN107195295A (zh) * 2017-05-04 2017-09-22 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107301860A (zh) * 2017-05-04 2017-10-27 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
US20180322866A1 (en) * 2017-05-04 2018-11-08 Baidu Online Network Technology (Beijing) Co., Ltd Method and device for recognizing speech based on chinese-english mixed dictionary
CN108986791A (zh) * 2018-08-10 2018-12-11 南京航空航天大学 针对民航陆空通话领域的中英文语种语音识别方法及系统
CN110517668A (zh) * 2019-07-23 2019-11-29 普强信息技术(北京)有限公司 一种中英文混合语音识别系统及方法
CN111145719A (zh) * 2019-12-31 2020-05-12 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111798841A (zh) * 2020-05-13 2020-10-20 厦门快商通科技股份有限公司 声学模型训练方法、系统、移动终端及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AARON HEIDEL 等: ""Finding Complex Features for Guest Language Fragment Recovery in Resource-Limited Code-Mixed Speech Recognition"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
YING LI 等: ""Language modeling for mixed language speech recognition using weighted phrase extraction"", 《INTERSPEECH 2013》 *
李平: ""远距离混合语音识别方法的研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111402862B (zh) * 2020-02-28 2023-06-20 出门问问创新科技有限公司 语音识别方法、装置、存储介质及设备
CN111696524A (zh) * 2020-04-21 2020-09-22 厦门快商通科技股份有限公司 一种叠字语音识别方法及系统
CN111696524B (zh) * 2020-04-21 2023-02-14 厦门快商通科技股份有限公司 一种叠字语音识别方法及系统
CN111489735A (zh) * 2020-04-22 2020-08-04 北京声智科技有限公司 语音识别模型训练方法及装置
CN111489735B (zh) * 2020-04-22 2023-05-16 北京声智科技有限公司 语音识别模型训练方法及装置
CN112071299A (zh) * 2020-09-09 2020-12-11 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112151005A (zh) * 2020-09-28 2020-12-29 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN112151005B (zh) * 2020-09-28 2022-08-19 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN112216270A (zh) * 2020-10-09 2021-01-12 携程计算机技术(上海)有限公司 语音音素的识别方法及系统、电子设备及存储介质
CN112216270B (zh) * 2020-10-09 2024-02-06 携程计算机技术(上海)有限公司 语音音素的识别方法及系统、电子设备及存储介质
CN112185363A (zh) * 2020-10-21 2021-01-05 北京猿力未来科技有限公司 音频处理方法及装置
CN112185363B (zh) * 2020-10-21 2024-02-13 北京猿力未来科技有限公司 音频处理方法及装置
CN112652311B (zh) * 2020-12-01 2021-09-03 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
CN112652311A (zh) * 2020-12-01 2021-04-13 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
US11893977B2 (en) 2020-12-01 2024-02-06 Beijing Baidu Netcom Science Technology Co., Ltd. Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN112528649A (zh) * 2020-12-14 2021-03-19 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统
CN112466278A (zh) * 2020-12-16 2021-03-09 北京百度网讯科技有限公司 语音识别方法、装置和电子设备
CN112530414B (zh) * 2021-02-08 2021-05-25 数据堂(北京)科技股份有限公司 迭代式大规模发音词典构建方法及装置
CN112530414A (zh) * 2021-02-08 2021-03-19 数据堂(北京)科技股份有限公司 迭代式大规模发音词典构建方法及装置
CN113345408A (zh) * 2021-06-02 2021-09-03 云知声智能科技股份有限公司 中英文语音混合合成方法、装置、电子设备和存储介质
CN114171001A (zh) * 2021-12-06 2022-03-11 合肥讯飞数码科技有限公司 语音识别方法、装置、电子设备及存储介质
CN115547292B (zh) * 2022-11-28 2023-02-28 成都启英泰伦科技有限公司 一种语音合成用声学模型训练方法
CN115547292A (zh) * 2022-11-28 2022-12-30 成都启英泰伦科技有限公司 一种语音合成用声学模型训练方法

Also Published As

Publication number Publication date
CN110675854B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN110675854B (zh) 一种中英文混合语音识别方法及装置
US9711139B2 (en) Method for building language model, speech recognition method and electronic apparatus
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
CN101751919B (zh) 一种汉语口语重音自动检测方法
CN105244022B (zh) 音视频字幕生成方法及装置
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
Gelas et al. Developments of Swahili resources for an automatic speech recognition system.
CN105609107A (zh) 一种基于语音识别的文本处理方法和装置
US20150112674A1 (en) Method for building acoustic model, speech recognition method and electronic apparatus
US20200184958A1 (en) System and method for detection and correction of incorrectly pronounced words
CN107564511A (zh) 电子装置、语音合成方法和计算机可读存储介质
CN103680498A (zh) 一种语音识别方法和设备
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN109300339A (zh) 一种英语口语的练习方法及系统
CN112201253A (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
CN113362801A (zh) 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质
CN105895076B (zh) 一种语音合成方法及系统
Bangalore et al. Balancing data-driven and rule-based approaches in the context of a multimodal conversational system
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
US20230245649A1 (en) Token confidence scores for automatic speech recognition
CN112071299B (zh) 神经网络模型训练方法、音频生成方法及装置和电子设备
CN108717854A (zh) 基于优化gfcc特征参数的说话人识别方法
Sasmal et al. A zero-resourced indigenous language phones occurrence and durations analysis for an automatic speech recognition system
CN115188365B (zh) 一种停顿预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant