CN108389573A - 语种识别方法及装置、训练方法及装置、介质、终端 - Google Patents
语种识别方法及装置、训练方法及装置、介质、终端 Download PDFInfo
- Publication number
- CN108389573A CN108389573A CN201810135218.6A CN201810135218A CN108389573A CN 108389573 A CN108389573 A CN 108389573A CN 201810135218 A CN201810135218 A CN 201810135218A CN 108389573 A CN108389573 A CN 108389573A
- Authority
- CN
- China
- Prior art keywords
- languages
- lip reading
- probability
- phoneme
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003923 mental ability Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例公开了一种语种识别方法及装置、训练方法及装置、介质、终端,所述语种识别方法包括:获取待识别视频的语音识别特征以及唇语识别特征;对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。本发明实施例中的技术方案的识别准确性更高。
Description
技术领域
本发明涉及计算机领域,尤其涉及语种识别方法及装置、训练方法及装置、介质、终端。
背景技术
模式识别是人类的一项基本智能,在日常生活中,人们经常进行“模式识别”。随着计算机技术的发展以及人工智能的兴起,利用计算机代替人类进行模式识别迅速发展并成为新的技术学科。
语种识别属于模式识别中一种,语种识别技术主要用于检测输入的信息的语种归类。现有的语种识别方法的准确性有待提升。
发明内容
本发明实施例解决的技术问题是提升语种识别方法的准确性。
为解决上述技术问题,本发明实施例提供一种语种识别方法,包括:获取待识别视频的语音识别特征以及唇语识别特征;对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。
可选的,在获取待识别视频的语音识别特征以及唇语识别特征之前还包括:对待分段视频进行端点检测,以获取所述待识别视频。
可选的,在判断所述待识别视频的语种类型之后还包括:根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。
可选的,所述语音识别特征为PLP特征或Fbank特征。
可选的,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列;和/或,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。
可选的,根据所述Sil模型识别异常发音的音素为Sil音素。
可选的,所述预设语种为一种或多种。
可选的,所述预设语种为两种,分别为英文和中文;所述语音音素序列包括中文语音音素序列和英文语音音素序列;所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列;对所述语音识别特征进行识别以获取语音音素序列包括:对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;对所述唇语识别特征进行识别以获取唇语音素序列包括:对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列;所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率,所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。
可选的,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。
可选的,利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率;和/或,利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。
可选的,所述N-gram模型中N值取2。
可选的,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:利用分类器判断所述待识别视频的语种类型。
本发明实施例还提供一种语种识别的训练方法,包括:确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;获取所述训练视频的语音识别特征以及唇语识别特征;利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。
可选的,所述声学模型包括Sil模型,对声学模型进行训练包括对所述Sil模型进行训练。
可选的,所述训练视频包括异常发音的训练视频;对所述Sil模型进行训练包括:利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练,以使得所述声学模型能够将异常发音识别为Sil音素。
本发明实施例还提供一种语种识别装置,包括:识别特征获取单元,适于获取待识别视频的语音识别特征以及唇语识别特征;音素序列识别单元,适于对所述语音识别特征进行识别以获取语音音素序列,并且对所述唇语识别特征进行识别以获取唇语音素序列;音素序列概率计算单元,适于计算所述语音音素序列的为预设语种的语音语种概率,并且计算所述唇语音素序列为预设语种的唇语语种概率;分类判别单元,适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。
可选的,所述语种识别装置还包括:端点检测单元,适于在获取待识别视频的语音识别特征以及唇语识别特征之前对待分段视频进行端点检测,以获取所述待识别视频。
可选的,所述语种识别装置还包括:语种比例判断单元,适于在判断所述待识别视频的语种类型之后,根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。
可选的,所述语音识别特征为PLP特征或Fbank特征。
可选的,所述音素序列识别单元适于基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列和/或所述唇语音素序列。
可选的,所述音素序列识别单元适于根据所述Sil模型识别异常发音的音素为Sil音素。
可选的,所述预设语种为一种或多种。
可选的,所述预设语种为两种,分别为英文和中文;所述语音音素序列包括中文语音音素序列和英文语音音素序列;所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列;所述音素序列识别单元包括:中文语音音素序列识别器,适于对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;英文语音音素序列识别器,适于对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;中文唇语音素序列识别器,适于对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;以及英文唇语音素序列识别器,适于对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列;所述音素序列概率计算单元包括:语音英文概率计算器,适于计算所述英文语音音素序列为英文的语音英文概率;语音中文概率计算器,适于计算所述中文语音音素序列为中文的语音中文概率;唇语英文概率计算器,适于计算所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率;以及唇语中文概率计算器,适于计算中文唇语音素序列为中文的唇语中文概率。
可选的,所述分类判别单元适于根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。
可选的,所述音素序列概率计算单元,适于利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率和/或所述唇语音素序列为预设语种的唇语语种概率。
可选的,所述N-gram模型中N值取2。
可选的,所述分类判别单元适于利用分类器判断所述待识别视频的语种类型。
本发明实施例还提供一种语种识别的训练装置,包括:训练语料确定单元,适于确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;识别特征获取单元,适于获取所述训练视频的语音识别特征以及唇语识别特征;声学模型训练单元,适于利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;语言模型训练单元,适于利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;分类判别模型训练单元,适于利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。
可选的,所述声学模型包括Sil模型,所述声学模型训练单元适于对所述Sil模型进行训练。
可选的,所述训练视频包括异常发音的训练视频;所述声学模型训练单元适于利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练,以使得所述声学模型能够将异常发音识别为Sil音素。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述语种识别方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述语种识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述语种识别的训练方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述语种识别的训练方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在本发明实施例中,通过获取待识别视频的语音识别特征以及唇语识别特征,根据语音识别特征得到语音音素序列,计算所述语音音素序列的为预设语种的语音语种概率,根据唇语识别特征得到唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。结合语音语种概率和唇语语种概率对待识别视频的语种类型进行判断,抗干扰能力更强,判断的准确性更高。
进一步,根据所述Sil模型识别异常发音的音素为Sil音素,可以在待识别视频中用户发音不准确时,将不准确的音素作为Sil音素处理,从而可以提升得到音素序列的概率,进而可以在用户发音不准确时,提升识别用户使用的语种的准确性。
附图说明
图1是本发明实施例中一种语种识别方法的流程图;
图2是本发明实施例中另一种语种识别方法的流程图;
图3是本发明实施例中另一种语种识别方法的流程图;
图4是本发明实施例中一种语种识别的训练方法的流程图;
图5是本发明实施例中一种语种识别装置的结构示意图;
图6是本发明实施例中另一种语种识别装置的结构示意图;
图7是本发明实施例中一种语种识别的训练装置的结构示意图。
具体实施方式
如背景技术中所述,现有的语种识别方法的准确性有待提升。
在语种识别方法中,可以单独利用文本、语音或者图像进行语种识别,其中利用图像进行语种识别可以是识别图像中的唇形,对唇语进行识别。通常情况下,语音识别的准确性较高,但在环境噪音较大,或者录制语音的设备质量有待提升时,语音识别的准确性会比较差。故单独利用文本、语音或者图像进行语种识别,准确性均有待提升。
在一些应用场景中,例如在网络学习的场景中,需要对用户在学习时使用的语种进行识别,以判断用户的学习情况。在这种场景中,通常可以获取到用户进行学习的视频。
用户进行网络学习时,进行学习用户的陪同者的语音也会被录入在内,陪同者通常不会被摄入视频画面中。在这种情况下,单独利用语音进行识别的准确性较差。而在用户无陪同者进行学习时,利用语音进行识别的准确率较高。
在上述应用场景中,或者在其他可以获取用户视频,并且需要对用户语种进行判断的应用场景中,单独利用语音或者单独利用唇语进行语种识别的准确性均有待提升。
在本发明实施例中,结合语音以及唇语对待识别视频进行识别,可以充分利用语音识别和图像识别的优点,判断的准确性更高。具体地,本发明实施例中的语种识别方法综合了在语音中未出现干扰时语音识别准确性高的优点,以及在语音中出现干扰时,结合图像进行语种识别的结果准确性更高的优点,从而可以提升语种判断的准确性。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中一种语种识别方法的流程图,具体包括如下步骤:
步骤S11,获取待识别视频的语音识别特征以及唇语识别特征;
步骤S12,对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;
步骤S13,对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;
步骤S14,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。
其中,步骤S12与步骤S13的顺序不做限定,可以是并行或者先后进行。
在如前所述的网络学习的应用场景中,待识别视频可以来源于用户在进行语言学习时的视频。
在具体实施中,参见图2,在步骤S11之前还可以包括:步骤S25,在获取待识别视频的语音识别特征以及唇语识别特征之前还包括:对待分段视频进行端点检测,以获取所述待识别视频。
例如,在待识别视频来源于用户在进行语言学习时视频时,如果需要对十分钟的学习视频进行分析,可以对该十分钟的视频进行端点检测后进行分段,获取所述待识别视频,通过步骤S11至步骤S14对待识别视频中的语种进行检测。
进一步地,在具体实施中,步骤S14后还可以包括:步骤S26,根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。
沿用上例,如果需要对时长为十分钟的学习视频进行分析,可以对该十分钟视频中每段待识别视频的语种进行识别,确定十分钟的学习视频中各语种所占的比例,例如可以是确定十分钟学习视频中英文部分占的比例或中文部分占的比例。根据该比例结果,可以进一步进行教学质量或教学成果的大数据分析,或者进行其它应用。
本领域技术人员可以理解的是,本发明实施例中的语种识别方法可以应用于多种场景,并不限于网络教学。
以下对本发明实施例中语种识别方法的具体实现进行进一步的说明。
在步骤S11的具体实施中,语音识别特征可以是感知加权线性预测(Perceptuallinear predictive,PLP)特征,或者是滤波声学(Filter-bank,Fbank)特征。其中,PLP特征是一种利用语音信号的发音特性,通过帧与帧之间的非独立型,进行预测,以得到的声学特征。Fbank特征中包含更多的语音信息,可用于之后的训练。
在步骤S11的具体实施中,唇语识别特征可以通过如下方式获得:对待识别视频中的图像进行人脸和唇部的定位后,基于像素的方法或者基于模型的方法,或者基于二者的结合获取唇语识别特征。其中,基于像素的方法可以是图像变换方法。在网络学习的场景中,由于待识别视频的图像中人脸占图像大部分区域,对人脸进行定位的步骤也可以省略。
在此并不对语音识别特征的获取方式以及唇语特征的获取方式进行限定,其它可以通过待识别视频获取到语音识别特征或唇语识别特征,并可以用于后续语种识别的方法均包含于本专利的范围内。
在获取到语音识别特征以及唇语识别特征后,可以分别对语音识别特征和唇语识别特征进行识别,得到对应的语音音素序列和唇语音素序列。
在步骤S12的具体实施中,语音音素序列和唇语音素序列均可以基于隐马尔科夫模型(Hidden Markov Model,HMM)模型以及其中使用异常数据训练的静音(Silence,Sil)模型获得,或者,二者中的任一可以基于HMM模型以及其中使用异常数据训练的Sil模型获得。
其中,HMM是对语音信号的时间序列构件统计模型,将其作为一个数学上的双重随机过程:一个是用具有有限状态数的马尔科夫链来模拟语音信号统计特性变化的隐含的随机过程;另一个是与马尔科夫链的每一个状态相关联的观测序列的随机过程,前者通过后者表现出来。人的语言过程同样可以作为双重随机过程处理,语音信号本身是一个可观测的时变序列,HMM合理模仿了这一过程,是较为理想的一种语音模型。
在具体实施中,可以结合利用深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、时延神经网络(Time Delay NeuralNetwork,TDNN)或者时间递归神经网络(Long Short-Term Memory,LSTM)以及马尔科夫模型进行建模,从而获取唇语音素序列或者语音音素序列。
也即,音素序列识别的建模可以采用HMM-DNN、HMM-TDNN或者HMM-LSTM的技术框架进行建模,或者采用与之类似的技术框架进行建模。
基于HMM方法的识别原理是通过在所有可能的HMM状态跳转序列中找出最优的跳转序列,将其对应的文本信息作为识别结果。基于HMM的方式可以对语音识别特征或者唇语识别特征进行识别,分别得到对应的音素,按照时间特征对音素排列得到的音素序列,即为语音音素序列和唇语音素序列。
为进一步理解,以单独识别“中”和“国”为例:其中“中”对应的HMM状态跳转序列为“zh”、“ong”,“国”对应的HMM状态跳转序列为“g”、“uo”。其中“zh”、“ong”、“g”、“uo”均为音素,“zh”、“ong”和“g”、“uo”均可以作为音素序列。若在时间顺序上依次为“中”和“国”,则音素序列可以是“zh”“ong”“g”“uo”。
在人们说话过程中,说话人因思考、迟疑、咳嗽、惊讶、口吃等原因都会产生停顿,在语音信号中或者唇语信号停顿会体现为一段时间没有声音或动作,或者有声音或动作,但却不是有文义的语音或动作。
为了能够正确识别音素序列,在具体实施中,可以在HMM模型中设置Sil模型,利用Sil模型识别与之匹配的音素,以进行音素序列的识别。这样,在识别过程中,遇到停顿或其他类似情况时,Sil模型会与其他有语义的音素模型竞争,如果sil模型占优势,则会被识别为停顿,这也可以称为被sil模型吸收。从而可以使得音素序列更加有序和规整,提升识别成功率。
进一步地,在本发明一实施例中,采用异常发音训练Sil模型,以使得根据所述Sil模型能够识别异常发音的音素为Sil音素,从而可以在用户发音不准确时,提升识别的成功率和准确性。Sil音素是指与Sil模型匹配的音素。
例如,若用不准确的英文发音对Sil模型进行训练,则在识别过程中,可以将不准确的英文发音识别为Sil音素。
结合网络学习的场景应用进行说明:在网络学习场景下,由于用户对学习的语言正在学习中,经常会出现不能准确发音的情况,唇形也会出现偏差。基于HMM模型对语音识别特征以及唇语识别特征进行识别时,生成的语音音素序列较为杂乱,对音素序列进行语种概率的判断时,会产生偏差。其中,所述的音素序列包括语音音素序列和唇语音素序列中至少一个,语种概率包括语音语种概率和唇语语种概率中至少一个。
若利用不准确的发音对Sil模型进行训练,则可以将不准确的发音识别为与Sil模型匹配的音素,可以提升识别到音素序列的概率,并使得音素序列的识别结果更加整齐有序,进一步可以提升语种概率识别的准确性。从而可以提升本发明实施例中语种识别方法的准确性。
例如,当应用场景为母语为中文的用户学习英文时,由于英文发音不准确,其语音和唇形均不准确,可能出现在用户说英文时,而待识别视频不能被识别为英文的情况,语种识别的准确性较差。在这种情况下,可以采用发音不好的数据,也即异常发音的数据,进行Sil模型的训练,从而使得音素序列更加有序,易于后续语种概率的正确判断。
在具体实施中,预设语种可以是一种或多种。对语音识别特征进行识别以获取语音音素序列的过程是对应于预设语种的,类似地,对所述唇语识别特征进行识别以获取唇语音素序列也是对应于预设语种的。故当预设语种为多种时,对语音识别特征进行识别以获取语音音素序列的过程可以是多个,这些过程分别对应于预设的不同语种;并且,对唇语识别特征进行识别以获取唇语音素序列的过程也可以是多个,分别对应于预设的不同语种。对应于语音音素序列的预设语种可以不同于对应于唇语音素序列的预设语种。
在本发明一实施例中,可以在异常发音的数据所属的语种对应的特征识别的过程中使用Sil模型。下文会结合实施例进行进一步说明。
在具体实施中,当预设语种为两种,分别为中文和英文时,所述语音音素序列可以包括中文语音音素序列和英文语音音素序列,所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率,所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。
本领域技术人员可以理解的是,预设的语种还可以是多种,例如可以是中文、英文、日文,或者在两种预设语种时,预设语种也可以是英文或日文。预设语种也可以是其它语种,在此不做限制。
参见图3,当预设语种为两种,分别为英文和中文时,本发明实施例中的语种识别方法可以包括如下步骤:
步骤S311,获取待识别视频的语音识别特征;
步骤S312,对所述语音识别特征进行中文识别,以获取中文语音音素序列;
步骤S313,计算所述中文语音音素序列为中文的语音中文概率;
步骤S314,对所述语音识别特征进行英文识别,以获取英文语音音素序列;
步骤S315,计算所述英文语音音素序列为英文的语音英文概率;
步骤S321,获取待识别视频的唇语识别特征;
步骤S322,对所述唇语识别特征进行中文识别,以获取中文唇语音素序列;
步骤S323,计算所述中文唇语音素序列为中文的唇语中文概率;
步骤S324,对所述唇语识别特征进行英文识别,以获取英文唇语音素序列;
步骤S325,计算所述英文唇语音素序列为英文的唇语英文概率;
步骤S33,根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。
结合参考图1和图3,步骤S11可以包括步骤S311和步骤S321;步骤S12可以包括步骤S312至步骤S315;步骤S13可以包括步骤S322至步骤S325;步骤S14可以包括步骤S33。
如前所述,可以基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列,也可以基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。具体地,可以在异常发音的数据所属的语种对应的特征识别的过程中使用设置于HMM模型中的Sil模型。
在具体实施中,结合图3,当异常发音的数据所述的语种为英文时,可以在步骤S314、步骤S315、步骤S324,以及步骤S325中使用Sil模型进行特征识别,也即使用Sil模型生成对应语种的语音音素序列。
继续以网络学习场景为例进行说明,若在网络学习场景中,用户为以中文为母语,学习英语的用户,则在说英文时,会出现发音不准确的情况,对应的待识别视频的语种可能被误判为中文。若在对语音识别特征和唇语识别特征进行英文识别时,使用Sil模型,则可以将不标准的英文识别为Sil音素,提升英文语音音素序列的有序性,使得英文语音音素序列更加规整,从而可以提升步骤S315和步骤S325中将英文语音音素序列判断为英文的概率,进而可以提升语种识别方法的准确性。
本领域技术人员可以理解的是,中文语音音素序列、英文语音音素序列、中文唇语音素序列以及英文唇语音素序列是从得到音素序列的方式进行的区分,也即是从所采用的分类器的不同的角度进行的区分,而并非对音素序列所述语种的限制。
继续参照图1,在步骤S13的具体实施中,语音语种概率和唇语语种概率中的一个或者多个均可以利用N-gram模型计算,其中N值可以取2。N-Gram是大词汇连续语音识别中常用的一种语言模型,N值为进行判断的连续词汇的个数。
在步骤S14的具体实施中,可以利用分类器判断所述待识别视频的语种类型。
在本发明实施例中,通过获取待识别视频的语音识别特征以及唇语识别特征,根据语音识别特征得到语音音素序列,计算所述语音音素序列的为预设语种的语音语种概率,根据唇语识别特征得到唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。结合语音语种概率和唇语语种概率对待识别视频的语种类型进行判断,抗干扰能力更强,判断的准确性更高。
本发明实时例还提供一种语种识别的训练方法,其流程图参见图4,具体包括如下步骤:
步骤S41,确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;
步骤S42,获取所述训练视频的语音识别特征以及唇语识别特征;
步骤S43,利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;
步骤S44,利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;
步骤S45,利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。
其中,声学模型可以包括前述的HMM模型以及其中使用异常数据训练的Sil模型,或者其它在训练后可以进行音素序列识别的模型。语言模型可以包括前述的N-gram模型,或者其它在训练后可以进行语种概率识别的模型。在具体实施中,对声学模型进行训练包括对所述Sil模型进行训练。
进一步地,对所述Sil模型进行训练可以包括:利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练,以使得所述声学模型能够将异常发音识别为Sil音素。
本发明实施例中的语种识别的训练方法是语种识别方法的训练过程采用的方法,其涉及的名词解释、训练原理及有益效果可以参见前文所述,在此不再赘述。
本发明实施例还提供一种语种识别装置,其结构示意图参见图5,包括如下单元:
识别特征获取单元51,适于获取待识别视频的语音识别特征以及唇语识别特征;
音素序列识别单元52,适于对所述语音识别特征进行识别以获取语音音素序列,并且对所述唇语识别特征进行识别以获取唇语音素序列;
音素序列概率计算单元53,适于计算所述语音音素序列的为预设语种的语音语种概率,并且计算所述唇语音素序列为预设语种的唇语语种概率;
分类判别单元54,适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。
在具体实施中,所述语种识别装置还可以包括:端点检测单元55,适于在获取待识别视频的语音识别特征以及唇语识别特征之前对待分段视频进行端点检测,以获取所述待识别视频。
进一步地,语种识别装置还可以包括:语种比例判断单元56,适于在判断所述待识别视频的语种类型之后,根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。
在具体实施中,所述语音识别特征可以是PLP特征或Fbank特征。
在具体实施中,所述音素序列识别单元52适于基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列和/或所述唇语音素序列。
进一步地,所述音素序列识别单元52适于根据所述Sil模型识别异常发音的音素为Sil音素。
在具体实施中,所述预设语种可以是一种或多种。
例如,所述预设语种为两种,分别为英文和中文;所述语音音素序列可以包括中文语音音素序列和英文语音音素序列;所述唇语音素序列可以包括中文唇语音素序列和英文唇语音素序列。
相应地,参见图6,所述识别特征获取单元51可以包括语音识别特征获取单元61和唇语识别特征获取单元62,分别获取语音识别特征和唇语识别特征。
所述音素序列识别单元52可以包括:中文语音音素序列识别器63,适于对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;英文语音音素序列识别器64,适于对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;中文唇语音素序列识别器65,适于对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;以及英文唇语音素序列识别器66,适于对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列。
所述音素序列概率计算单元53可以包括:语音英文概率计算器68,适于计算所述英文语音音素序列为英文的语音英文概率;语音中文概率计算器67,适于计算所述中文语音音素序列为中文的语音中文概率;唇语英文概率计算器610,适于计算所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率;以及唇语中文概率计算器69,适于计算中文唇语音素序列为中文的唇语中文概率。
在具体实施中,所述分类判别单元54适于根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。
在具体实施中,所述音素序列概率计算单元53适于利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率和/或所述唇语音素序列为预设语种的唇语语种概率。其中,N-gram模型中N值可以取2。
在具体实施中,所述分类判别单元54适于利用分类器判断所述待识别视频的语种类型。
本发明实施例中的语种识别装置适于实现本发明实施例中的语种识别方法,其原理、名词解释及有益效果可以参见本发明实施例中的语种识别方法,在此不再赘述。
本发明实施例还提供一种语种识别的训练装置,其结构示意图参见图7,包括:
训练语料确定单元71,适于确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;
识别特征获取单元72,适于获取所述训练视频的语音识别特征以及唇语识别特征;
声学模型训练单元73,适于利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;
语言模型训练单元74,适于利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;
分类判别模型训练单元75,适于利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。
在具体实施中,所述声学模型可以包括Sil模型,所述声学模型训练单元适于对所述Sil模型进行训练。
在具体实施中,所述声学模型训练单元73适于利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练,以使得所述声学模型能够将异常发音识别为Sil音素。
本发明实施例中的语种识别的训练装置适于实现本发明实施例中的语种识别方法,其具体实现和有益效果可以参见本发明实施例中的语种识别方法,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述语种识别方法的步骤。
本发明实施例还提供另一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述语种识别的训练方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求所述语种识别方法的步骤。
本发明实施例还提供另一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求所述语种识别的训练方法的步骤。
所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等。
所述终端可以是服务器、计算机、智能手机、平板电脑等各种适当的终端。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (21)
1.一种语种识别方法,其特征在于,包括:
获取待识别视频的语音识别特征以及唇语识别特征;
对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;
对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;
根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。
2.根据权利要求1所述的语种识别方法,其特征在于,在获取待识别视频的语音识别特征以及唇语识别特征之前还包括:对待分段视频进行端点检测,以获取所述待识别视频。
3.根据权利要求2所述的语种识别方法,其特征在于,在判断所述待识别视频的语种类型之后还包括:根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。
4.根据权利要求1所述的语种识别方法,其特征在于,所述语音识别特征为PLP特征或Fbank特征。
5.根据权利要求1所述的语种识别方法,其特征在于,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列;和/或,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。
6.根据权利要求5所述的语种识别方法,其特征在于,根据所述Sil模型识别异常发音的音素为Sil音素。
7.根据权利要求1所述的语种识别方法,其特征在于,所述预设语种为一种或多种。
8.根据权利要求7所述的语种识别方法,其特征在于,所述预设语种为两种,分别为英文和中文;所述语音音素序列包括中文语音音素序列和英文语音音素序列;所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列;
对所述语音识别特征进行识别以获取语音音素序列包括:对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;
对所述唇语识别特征进行识别以获取唇语音素序列包括:对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列;
所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率,所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。
9.根据权利要求8所述的语种识别方法,其特征在于,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:
根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。
10.根据权利要求1所述的语种识别方法,其特征在于,利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率;和/或,利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。
11.根据权利要求10所述的语种识别方法,其特征在于,所述N-gram模型中N值取2。
12.根据权利要求1所述的语种识别方法,其特征在于,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:
利用分类器判断所述待识别视频的语种类型。
13.一种语种识别的训练方法,其特征在于,包括:
确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;
获取所述训练视频的语音识别特征以及唇语识别特征;
利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;
利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;
利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。
14.根据权利要求13所述的语种识别的训练方法,其特征在于,所述声学模型包括Sil模型,对声学模型进行训练包括对所述Sil模型进行训练。
15.根据权利要求14所述的语种识别的训练方法,其特征在于,所述训练视频包括异常发音的训练视频;
对所述Sil模型进行训练包括:利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练,以使得所述声学模型能够将异常发音识别为Sil音素。
16.一种语种识别装置,其特征在于,包括:
识别特征获取单元,适于获取待识别视频的语音识别特征以及唇语识别特征;
音素序列识别单元,适于对所述语音识别特征进行识别以获取语音音素序列,并且对所述唇语识别特征进行识别以获取唇语音素序列;
音素序列概率计算单元,适于计算所述语音音素序列的为预设语种的语音语种概率,并且计算所述唇语音素序列为预设语种的唇语语种概率;
分类判别单元,适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。
17.一种语种识别的训练装置,其特征在于,包括:
训练语料确定单元,适于确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;
识别特征获取单元,适于获取所述训练视频的语音识别特征以及唇语识别特征;
声学模型训练单元,适于利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;
语言模型训练单元,适于利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;
分类判别模型训练单元,适于利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。
18.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至12任一项所述语种识别方法的步骤。
19.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至12任一项所述语种识别方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求13至15任一项所述语种识别的训练方法的步骤。
21.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求13至15任一项所述语种识别的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810135218.6A CN108389573B (zh) | 2018-02-09 | 2018-02-09 | 语种识别方法及装置、训练方法及装置、介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810135218.6A CN108389573B (zh) | 2018-02-09 | 2018-02-09 | 语种识别方法及装置、训练方法及装置、介质、终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108389573A true CN108389573A (zh) | 2018-08-10 |
CN108389573B CN108389573B (zh) | 2022-03-08 |
Family
ID=63075703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810135218.6A Active CN108389573B (zh) | 2018-02-09 | 2018-02-09 | 语种识别方法及装置、训练方法及装置、介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108389573B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493846A (zh) * | 2018-11-18 | 2019-03-19 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN110070853A (zh) * | 2019-04-29 | 2019-07-30 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN110210310A (zh) * | 2019-04-30 | 2019-09-06 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
CN110263170A (zh) * | 2019-06-21 | 2019-09-20 | 中科软科技股份有限公司 | 一种文本类别的自动标注方法及系统 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111611825A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种唇语内容识别方法及装置 |
CN112017633A (zh) * | 2020-09-10 | 2020-12-01 | 北京地平线信息技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112988965A (zh) * | 2021-03-01 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、存储介质及计算机设备 |
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
WO2021208455A1 (zh) * | 2020-04-15 | 2021-10-21 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324035A (zh) * | 2011-08-19 | 2012-01-18 | 广东好帮手电子科技股份有限公司 | 口型辅助语音识别术在车载导航中应用的方法及系统 |
US20130289998A1 (en) * | 2012-04-30 | 2013-10-31 | Src, Inc. | Realistic Speech Synthesis System |
CN103680500A (zh) * | 2012-08-29 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种语音识别的方法和装置 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
US8892232B2 (en) * | 2011-05-03 | 2014-11-18 | Suhami Associates Ltd | Social network with enhanced audio communications for the hearing impaired |
CN104219371A (zh) * | 2013-05-31 | 2014-12-17 | 中国电信股份有限公司 | 使用唇语识别技术进行电话拨号的方法和装置 |
US20150084859A1 (en) * | 2013-09-23 | 2015-03-26 | Yair ITZHAIK | System and Method for Recognition and Response to Gesture Based Input |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
EP2889804A1 (en) * | 2013-12-30 | 2015-07-01 | Alcatel Lucent | Systems and methods for contactless speech recognition |
US20150242394A1 (en) * | 2012-09-18 | 2015-08-27 | Sang Cheol KIM | Device and method for changing lip shapes based on automatic word translation |
US20150279364A1 (en) * | 2014-03-29 | 2015-10-01 | Ajay Krishnan | Mouth-Phoneme Model for Computerized Lip Reading |
CN105278817A (zh) * | 2014-05-30 | 2016-01-27 | 金兆栋 | 一种语音、唇语控制装置及控制方法 |
JP2016184095A (ja) * | 2015-03-26 | 2016-10-20 | 大日本印刷株式会社 | 言語認識装置、言語認識方法及びプログラム |
CN106328163A (zh) * | 2016-08-16 | 2017-01-11 | 新疆大学 | 维吾尔语音位‑视位参数的转换方法和系统 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN107293300A (zh) * | 2017-08-01 | 2017-10-24 | 珠海市魅族科技有限公司 | 语音识别方法及装置、计算机装置及可读存储介质 |
CN107548483A (zh) * | 2015-03-27 | 2018-01-05 | 法雷奥舒适驾驶助手公司 | 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆 |
-
2018
- 2018-02-09 CN CN201810135218.6A patent/CN108389573B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892232B2 (en) * | 2011-05-03 | 2014-11-18 | Suhami Associates Ltd | Social network with enhanced audio communications for the hearing impaired |
CN102324035A (zh) * | 2011-08-19 | 2012-01-18 | 广东好帮手电子科技股份有限公司 | 口型辅助语音识别术在车载导航中应用的方法及系统 |
US20130289998A1 (en) * | 2012-04-30 | 2013-10-31 | Src, Inc. | Realistic Speech Synthesis System |
CN103680500A (zh) * | 2012-08-29 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种语音识别的方法和装置 |
US20150242394A1 (en) * | 2012-09-18 | 2015-08-27 | Sang Cheol KIM | Device and method for changing lip shapes based on automatic word translation |
CN104219371A (zh) * | 2013-05-31 | 2014-12-17 | 中国电信股份有限公司 | 使用唇语识别技术进行电话拨号的方法和装置 |
US20150084859A1 (en) * | 2013-09-23 | 2015-03-26 | Yair ITZHAIK | System and Method for Recognition and Response to Gesture Based Input |
EP2889804A1 (en) * | 2013-12-30 | 2015-07-01 | Alcatel Lucent | Systems and methods for contactless speech recognition |
US20150279364A1 (en) * | 2014-03-29 | 2015-10-01 | Ajay Krishnan | Mouth-Phoneme Model for Computerized Lip Reading |
CN105278817A (zh) * | 2014-05-30 | 2016-01-27 | 金兆栋 | 一种语音、唇语控制装置及控制方法 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
JP2016184095A (ja) * | 2015-03-26 | 2016-10-20 | 大日本印刷株式会社 | 言語認識装置、言語認識方法及びプログラム |
CN107548483A (zh) * | 2015-03-27 | 2018-01-05 | 法雷奥舒适驾驶助手公司 | 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆 |
CN106328163A (zh) * | 2016-08-16 | 2017-01-11 | 新疆大学 | 维吾尔语音位‑视位参数的转换方法和系统 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN107293300A (zh) * | 2017-08-01 | 2017-10-24 | 珠海市魅族科技有限公司 | 语音识别方法及装置、计算机装置及可读存储介质 |
Non-Patent Citations (5)
Title |
---|
BOZKURT E, ERDEM C E, ERZIN E,等: "Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation", 《2007 3DTV CONFERENCE》 * |
SAITOH T, MORISHITA K, KONISHI R: "Analysis of efficient lip reading method for various languages", 《2008 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
VON AGRIS U, ZIEREN J, CANZLER U,等: "Recent developments in visual sign language recognition", 《UNIVERSAL ACCESS IN THE INFORMATION SOCIETY》 * |
唇语识别关键技术研究进展: "荣传振,等", 《数据采集与处理》 * |
宋洋: "基于图像处理的维吾尔语音素语音学特征提取与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN109524006B (zh) * | 2018-10-17 | 2023-01-24 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN109493846B (zh) * | 2018-11-18 | 2021-06-08 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN109493846A (zh) * | 2018-11-18 | 2019-03-19 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN111611825B (zh) * | 2019-02-25 | 2024-04-23 | 北京嘀嘀无限科技发展有限公司 | 一种唇语内容识别方法及装置 |
CN111611825A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种唇语内容识别方法及装置 |
CN110070853A (zh) * | 2019-04-29 | 2019-07-30 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110070853B (zh) * | 2019-04-29 | 2020-07-03 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110210310A (zh) * | 2019-04-30 | 2019-09-06 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
CN110210310B (zh) * | 2019-04-30 | 2021-11-30 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
US11482208B2 (en) | 2019-06-03 | 2022-10-25 | Beijing Dajia Internet Information Technology Co., Ltd. | Method, device and storage medium for speech recognition |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN110263170A (zh) * | 2019-06-21 | 2019-09-20 | 中科软科技股份有限公司 | 一种文本类别的自动标注方法及系统 |
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
WO2021196802A1 (zh) * | 2020-03-31 | 2021-10-07 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111462733B (zh) * | 2020-03-31 | 2024-04-16 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
WO2021208455A1 (zh) * | 2020-04-15 | 2021-10-21 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
JP2022540968A (ja) * | 2020-04-15 | 2022-09-21 | 南京郵電大学 | 家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム |
JP7166683B2 (ja) | 2020-04-15 | 2022-11-08 | 南京郵電大学 | 家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム |
CN112017633A (zh) * | 2020-09-10 | 2020-12-01 | 北京地平线信息技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112017633B (zh) * | 2020-09-10 | 2024-04-26 | 北京地平线信息技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112988965B (zh) * | 2021-03-01 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、存储介质及计算机设备 |
CN112988965A (zh) * | 2021-03-01 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108389573B (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108389573A (zh) | 语种识别方法及装置、训练方法及装置、介质、终端 | |
Li et al. | Mispronunciation detection and diagnosis in l2 english speech using multidistribution deep neural networks | |
US9711139B2 (en) | Method for building language model, speech recognition method and electronic apparatus | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
Narayanan et al. | Behavioral signal processing: Deriving human behavioral informatics from speech and language | |
US9613621B2 (en) | Speech recognition method and electronic apparatus | |
CN101645271B (zh) | 发音质量评估系统中的置信度快速求取方法 | |
US20150112674A1 (en) | Method for building acoustic model, speech recognition method and electronic apparatus | |
US11282511B2 (en) | System and method for automatic speech analysis | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
CN111833853A (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
Yan et al. | End-to-end mispronunciation detection and diagnosis from raw waveforms | |
Kempton et al. | Discovering the phoneme inventory of an unwritten language: A machine-assisted approach | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN114783464A (zh) | 认知检测方法及相关装置、电子设备和存储介质 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
CN109697975B (zh) | 一种语音评价方法及装置 | |
Chatziagapi et al. | Audio and ASR-based filled pause detection | |
Niu et al. | A study on landmark detection based on CTC and its application to pronunciation error detection | |
Huang et al. | English mispronunciation detection based on improved GOP methods for Chinese students | |
US20220199071A1 (en) | Systems and Methods for Speech Validation | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
Li et al. | Automatic classification of palatal and pharyngeal wall shape categories from speech acoustics and inverted articulatory signals | |
CN112951276B (zh) | 一种综合评价语音的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190315 Address after: Room 1702-03, Blue Sky and Sheng Building, 32 Zhongguancun Street, Haidian District, Beijing Applicant after: BEIJING CENTURY TAL EDUCATION TECHNOLOGY CO., LTD. Address before: Room A-2667, 2nd floor, No. 3 Courtyard, 30 Shixing Street, Shijingshan District, Beijing, 100041 Applicant before: Beijing easy thinking learning technology Co., Ltd. Applicant before: BEIJING XINTANG SICHUANG EDUCATIONAL TECHNOLOGY CO., LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |