CN108711420B - 多语言混杂模型建立、数据获取方法及装置、电子设备 - Google Patents

多语言混杂模型建立、数据获取方法及装置、电子设备 Download PDF

Info

Publication number
CN108711420B
CN108711420B CN201710230061.0A CN201710230061A CN108711420B CN 108711420 B CN108711420 B CN 108711420B CN 201710230061 A CN201710230061 A CN 201710230061A CN 108711420 B CN108711420 B CN 108711420B
Authority
CN
China
Prior art keywords
language
voice
languages
training data
hybrid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710230061.0A
Other languages
English (en)
Other versions
CN108711420A (zh
Inventor
白锦峰
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201710230061.0A priority Critical patent/CN108711420B/zh
Publication of CN108711420A publication Critical patent/CN108711420A/zh
Application granted granted Critical
Publication of CN108711420B publication Critical patent/CN108711420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种多语言混杂模型建立、数据获取方法及装置、电子设备,方法包括:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型,其中,建模单元为上下文无关的语音单元;获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;使用特征向量序列和混杂标签序列,训练声学模型;获取多语言混杂的语料数据,训练语言模型;根据声学模型和语言模型,建立多语音混杂的语音识别系统。应用本发明实施例,提高了对混杂多种语言的语音数据的识别正确率。

Description

多语言混杂模型建立、数据获取方法及装置、电子设备
技术领域
本发明涉及语音识别技术领域,特别是涉及一种多语言混杂模型建立、数据获取方法及装置、电子设备。
背景技术
语音数据分为多种语言的语音数据,语音识别技术是指将一段不同种类的语音数据转换成文本的过程。
目前,为了能够实现对多种语言的语音识别,通常先采用每一种语言的数据对每一种语言的语音识别系统单独进行训练,获得针对每一种语言的语音识别系统,这里,语音识别系统包括声学模型和语言模型;将针对不同语言的语音识别系统并联,获得混合语音识别器。
基于该混合语音识别器,当获得语音数据时,将语音数据输入并联的每一个语音识别系统中进行识别,选择似然概率最大的一个识别结果作为最终的语音识别结果。
基于上述情况可知,现有技术中,对多种语言独立成句的语音数据,能够获得较好的识别结果,但对于一句话中多种语言混杂的,例如一句话中混杂有中文和英文,将无能获得一个较好的识别结果。
发明内容
本发明实施例的目的在于提供一种多语言混杂模型建立、数据获取方法及装置、电子设备,以提高对混杂多种语言的语音数据的识别正确率。具体技术方案如下:
一方面,本发明实施例公开了一种多语言混杂语音识别系统建立方法,所述方法包括:
根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;
获取多语言混杂的语料数据,训练语言模型;
根据所述声学模型和所述语言模型,建立多语音混杂的语音识别系统。
可选的,所述获取多语言混杂的语音训练数据的步骤,包括:
获取各语言的语音训练数据;
对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
可选的,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
可选的,所述语音单元包括:音节和/或单词。
可选的,所述根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:
将多语言所包含的语音单元的合集作为声学模型的建模单元;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元。
可选的,所述使用所述特征向量序列和所述混杂标签序列,训练所述声学模型的步骤,包括:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
可选的,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型的步骤之前,所述方法还包括:
使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
可选的,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之后,所述方法还包括:
使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
可选的,所述获取多语言混杂的语料数据的步骤,包括:
识别第一语言的语料数据中的短语;
基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
可选的,所述方法还包括:
基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;
所述基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据的步骤,包括:
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
二方面,本发明实施例公开了一种多语言混杂语音识别声学模型建立方法,所述方法包括:
根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
使用所述特征向量序列和所述混杂标签序列,训练所述声学模型。
可选的,所述获取多语言混杂的语音训练数据的步骤,包括:
获取各语言的语音训练数据;
对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
可选的,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
可选的,所述语音单元包括:音节和/或单词。
可选的,所述根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:
将多语言所包含的语音单元的合集作为声学模型的建模单元;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元。
可选的,所述使用所述特征向量序列和所述混杂标签序列,训练所述声学模型的步骤,包括:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
可选的,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之前,所述方法还包括:
使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
可选的,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之后,所述方法还包括:
使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
三方面,本发明实施例公开了一种多语言混杂的语音训练数据获取方法,所述方法包括:
获取各语言的语音训练数据;
对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
可选的,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
四方面,本发明实施例公开了一种多语言混杂的语料数据获取方法,所述方法包括:
识别第一语言的语料数据中的短语;
基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
可选的,所述方法还包括:
基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;
所述基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据的步骤,包括:
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
五方面,本发明实施例公开了一种多语言混杂语音识别系统建立装置,所述装置包括:
构建单元,用于根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取单元,用于获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
第一训练单元,用于使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;
第二训练单元,用于获取多语言混杂的语料数据,训练语言模型;
建立单元,用于根据所述声学模型和所述语言模型,建立多语音混杂的语音识别系统。
可选的,所述获取单元,包括:
获取子单元,用于获取各语言的语音训练数据;
对齐子单元,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂子单元,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
可选的,所述混杂子单元,具体用于:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
可选的,所述语音单元包括:音节和/或单词。
可选的,所述构建单元,具体用于:
将多语言所包含的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型。
可选的,所述第一训练单元,具体用于:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
可选的,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到之前,使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
可选的,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型之后,使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
可选的,所述第二训练单元,包括:
识别子单元,用于识别第一语言的语料数据中的短语;
训练子单元,用于基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
可选的,所述装置还包括:存储单元;
所述存储单元,用于基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;
所述训练子单元,具体用于:
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
六方面,本发明实施例公开了一种多语言混杂语音识别声学模型建立装置,所述装置包括:
构建单元,用于根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取单元,用于获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
第一训练单元,用于使用所述特征向量序列和所述混杂标签序列,训练所述声学模型。
可选的,所述获取单元,包括:
获取子单元,用于获取各语言的语音训练数据;
对齐子单元,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂子单元,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
可选的,所述混杂子单元,具体用于:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
可选的,所述语音单元包括:音节和/或单词。
可选的,所述构建单元,具体用于:
将多语言所包含的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型。
可选的,所述第一训练单元,具体用于:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
可选的,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到之前,使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
可选的,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型之后,使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
七方面,本发明实施例公开了一种多语言混杂的语音训练数据获取装置,所述装置包括:
获取单元,用于获取各语言的语音训练数据;
对齐单元,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂单元,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
可选的,所述混杂单元,具体用于:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
八方面,本发明实施例公开了一种多语言混杂的语料数据获取装置,所述装置包括:
识别单元,用于识别第一语言的语料数据中的短语;
训练单元,用于基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
可选的,所述装置还包括:存储单元;
所述存储单元,用于基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;
所述训练单元,具体用于:
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
九方面,本发明实施例公开了一种电子设备,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行上述的多语言混杂语音识别系统建立方法。
十方面,本发明实施例公开了一种电子设备,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行上述的多语言混杂语音识别声学模型建立方法。
十一方面,本发明实施例公开了一种电子设备,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行上述的多语言混杂的语音训练数据获取方法。
十二方面,本发明实施例公开了一种电子设备,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行上述的多语言混杂的语料数据获取方法。
本发明实施例提供了一种多语言混杂模型建立、数据获取方法及装置、电子设备,根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型,该建模单元为上下文无关的语音单元;获取这多语言混杂的语音训练数据,将这多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;使用特征向量序列和混杂标签序列,训练构建的声学模型;另外,获取多语言混杂的语料数据,训练语言模型;根据声学模型和语言模型,建立多语音混杂的语音识别系统。
可见,本发明实施例中,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题;同时可以获取到大量多语音混杂的语料数据,使用获取到的多语言混杂的语料数据训练语言模型,根据训练获得的声学模型和语言模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种多语言混杂语音识别系统建立方法的流程示意图;
图2为本发明实施例提供中使用的一种语音识别声学模型的示意图;
图3为本发明实施例提供的另一种多语言混杂语音识别系统建立方法的流程示意图;
图4为本发明实施例提供的另一种多语言混杂语音识别系统建立方法的流程示意图;
图5为本发明实施例提供的另一种多语言混杂语音识别系统建立方法的流程示意图;
图6为本发明实施例提供的另一种多语言混杂语音识别系统建立方法的流程示意图;
图7为本发明实施例提供的另一种多语言混杂语音识别系统建立方法的流程示意图;
图8为本发明实施例提供的一种多语言混杂语音识别系统建立装置的结构示意图;
图9为本发明实施例提供的一种多语言混杂语音识别声学模型建立方法的流程示意图;
图10为本发明实施例提供的一种多语言混杂语音识别声学模型建立装置的结构示意图;
图11为本发明实施例提供的一种多语言混杂的语音训练数据获取方法的流程示意图;
图12为本发明实施例提供的一种多语言混杂的语音训练数据获取装置的结构示意图;
图13为本发明实施例提供的一种多语言混杂的语料数据获取方法的流程示意图;
图14为本发明实施例提供的一种多语言混杂的语料数据获取装置的结构示意图;
图15为本发明实施例提供的一种电子设备的结构示意图;
图16为本发明实施例提供的另一种电子设备的结构示意图;
图17为本发明实施例提供的另一种电子设备的结构示意图;
图18为本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于与解释,下面对本发明实施例中出现的词语进行说明。
音节:是用听觉可以区分清楚的语音基本单位,为人正常的发音单元,音节之间具有明显可感知的界限;音节包括中文音节、英文音节、法语音节和德语音节等,以中文音节和英文音节为例,中文中,一般一个汉字的读音为一个音节,如:中文文本“我”对应的音节为{wo};
音素:为音标,是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位,音素间的界限模糊,其与上下文相关严重;
状态:为一个音素被人为的分成多个没有物理意义的状态,可以认为单个状态内音素的特征保持平稳,状态间的界限模糊,其与上下文相关严重。
参考图1,图1为本发明实施例提供的一种多语言混杂语音识别系统建立方法的流程示意图,该方法包括:
S100:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;
其中,声学模型的建模单元为上下文无关的语音单元。
在本发明实施例中,声学模型是融合了多种神经网络的分类模型。基于深度神经网络的声学模型可以应对语音数据特征的诸多变化,对输入的语音信号进行逐层处理,抽象成更易于区分的特征,当语音信号到达输出层的时候,神经网络可以给出建模单元的分类概率。
神经网络有很多变种,包括:CNN(Convolutional Neural Network卷积神经网络)、LSTM(LSTM(Long Short-Term Memory,长短时记忆网络)、RNN(Simple RecurrentNeural Network,循环神经网络)等。
在本发明一实施例中,深度神经网络采用不同类型的神经网络进行构建,主要包括CNN和RNN,为解决训练中的梯度消失问题,RNN可以采用LSTM。
在本发明一实施例中,声学模型的深度神经网络可以参考图2所示结构,输入层之后,前半部分是CNN,使用卷积层和池化层交叠,可以有两组卷积层和池化层相摞,卷积层的输出结点数量、池化层的结点数量、卷机器的个数可以自行进行调整,各项参数可以通过训练获取。
深度神经网络的后半部分是RNN,把CNN的输出作为RNN的输入,RNN优选LSTM,其优势在于引入三个门:输入门、输出门和遗忘门,分别代表对信息长期、远期和近期的记忆和控制。
LSTM有单向前馈LSTM(包含多种单向递归单元层)和双向LSTM(包含两个平行的递归层),这两种LSTM在应用中对产品要求有很大不同。单向前馈LSTM基于过去推理未来的情况,比较适合于实时应用。而双向LSTM同时需要未来和过去的信息,更适合于离线分析场合。
在本发明一实施例中,深度神经网络中选用单向前馈LSTM。
在本发明实施例中,声学模型最上层为一个全连接输出层,输出层的输出单元(即建模单元)的数量与识别语言中包含的语音单元的个数相同,每个输出单元输出输入到声学模型中语音信号的特征向量属于该输出单元对应的语音单元的概率。
在本发明一实施例中,在确定多语言混杂语音识别的声学模型的建模单元时,可以将多语言所包含的语音单元的合集作为该声学模型的建模单元。
在本发明另一实施例中,为了减少建模单元的数量,提高语音识别的效率,在确定多语言混杂语音识别的声学模型的建模单元时,可以合并多语言中发音相近的语音单元,将合并后获得的语音单元以及多语言中未合并的语音单元的合集作为声学模型的建模单元。
在本发明一实施例中,采用上下文无关的语音单元作为建模单元,该语音单元是一长时发音单元,包括:音节和/或单词。
在本发明一实施例中,采用上下文无关的音节作为建模单元。
音节为人正常的发音单元,比状态及音素的持续时间长,并且音节本身的轨迹明确,相邻音节之间边界清晰,可以认为音节是存在完整轨迹的最小单元,不易受背景噪声、信道、场景、说话人等因素的影响;比起粒度更大的建模单元,例如词,各语言中词的数目都比较庞大,采用音节作为建模单元是获取性能提升又不至于输出结点数量太大的较佳选择。
在本发明一实施例中,在某些情况下,应对不同的需要,对于比较的特殊词,比如自然状态下一般会一起出现使用的词,或者其他情况下的专有词、关键词、触发词等,可以直接以这些单词作为建模单元,提高语音识别效率。
S101:获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将多语言混杂的语音训练数据中混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;
在本发明实施例中,声学模型中建模单元是针对哪几种语言的语音单元,获取的语音训练数据就是针对哪几种语言混杂的语音训练数据。
在本发明一实施例中,在本发明实施例提供的另一种多语言混杂语音识别声系统建立方法中,参考基于图1的示意图3,S101可以包括:
S1011:获取各语言的语音训练数据;
S1012:对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
其中,单词级别的对齐,即建立不同语言的、语义相同单词的语音信号间的对应关系。例如获取了汉语和英语的语音训练数据,汉语的语音训练数据中包括“今天”的语音信号A,英语的语音训练数据中包括“today”的语音信号B,则将语音信号A和语音信号B对齐。
S1013:将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;
这里,交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
具体地,将第一语言的语音训练数据中单词的语音信号替换成对齐的其他语言的语音训练数据中单词的语音信号;将第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的其他语言的语音训练数据中单词的语音信号对应的标注文本。
仍以S1012中的例子进行说明,交换混杂时,汉语的语音训练数据中“今天”的语音信号A替换为“today”的语音信号B;另外,将语音信号A对应的标注文本“今天”替换为语音信号B对应的标注文本“today”。
通过上述单词级别对齐替换的方式,可获得大量的多种语言混合的语音训练数据来训练声音模型,提高了声音模型的识别正确率。
一般情况下多种语言混合的语音训练数据数量少,且都与特定场景相关,本发明实施例中,多种语言混合的语音训练数据中包含所有能收集到的混杂语音数据,但是仍不能满足训练模型的需要,本发明一实施例中,使用上述步骤S1011~S1013中的方法,可获得大量的多种语言混合的语音训练数据,用于训练深度神经网络得到高性能的语音识别声学模型。
S1014:将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将多语言混杂的语音训练数据中混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列。
特征向量序列为语音信号的声学特征序列。在本发明一实施例中,可以按照预设窗长和预设步长,对多语言混杂的语音训练数据中的语音信号进行分帧处理,获得帧序列,提取各语音帧的特征向量,进而可以获得特征向量序列。其中,预设窗长、预设步长可以在具体实现中根据实现需求和/或系统性能等进行设定,本发明实施例对此不进行限定。现有技术中对语音信号进行处理,然后提取声音特征向量并扩维的方法有很多,本发明实施例对此亦不进行限定。
混杂标注文本为多语言混杂的语音训练数据中语音信号对应的文本,也就是,多语言混杂的语音训练数据中的语音信号都有相对应的准确文字信息,混杂标注文本的作用在于提供对照标准,供声学模型进行训练时使用。
在本发明一实施例中,采用上述上下文无关的音节作为建模单元时,就是将多语言混杂的语音训练数据中标注文本转化成音节序列。
S102:使用特征向量序列和混杂标签序列,训练声学模型;
本发明实施例的声学模型对整个变化的语音训练数据进行建模,将特征向量序列输入到深度神经网络中,实现对声学模型进行训练。
在本发明一实施例中,在本发明实施例提供的另一种多语言混杂语音识别声系统建立方法中,参考基于图1的示意图4,S102可以包括:
S1021:根据CTC准则对混杂标签序列进行变换;
为解决两个建模单元之间的混淆性,CTC引入一个额外的建模单元blank,可以理解为空白字符或者空白标签,用于描述字与字、音节与音节之间存在的空隙间断,这些引入的空白标签使得声学模型可以可靠地预测连续的重复音节以及语音信号中的非语音部分,例如,暂停,背景噪声等。
这里,根据CTC准则对混杂标签序列进行变换时,可以在混杂标签序列中标签的前后任意添加空白标签,也允许复制标签本身为多个。变换后的混杂标签序列与多语言混杂的语音训练数据中的语音信号的特征向量序列等长。根据CTC准则可以构建出所有可能的与特征向量序列等长、能够折叠到其混杂标签序列的字符序列集合。
相比于传统的“强制对齐”对两个语音单元中间混淆处的分类为左边标签或右边标签或短停顿,导致对两个语音单元中间混淆处的识别不准确,本发明实施例中,在语音单元前和/或语音单元后添加空白标签,避免出现混淆,较好的解决了两个语音单元中间混淆处的分类问题,提高了语音识别的准确性。
S1022:使用特征向量序列和变换后的混杂标签序列,训练声学模型。
CTC训练优化的对象是特征向量序列和混杂标签序列。具体地,根据声学模型的深度神经网络输出的语音单元序列出现在上述字符序列集合中的概率确定CTC目标函数,以最小化目标函数为目标对声学模型进行训练,调整声学模型中深度神经网络的参数。相关的训练算法现有技术中有很多,本发明实施例对此不做限定。
为了更好更快完成上述CTC训练,可以先对声学模型的深度神经网络进行预训练,初步调整声学模型中深度神经网络的参数。在本发明实施例提供的另一种多语言混杂语音识别系统建立方法中,参考基于图4的示意图5,在S1022之前,还可以包括:
S1023:使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对声学模型进行CE训练。
CE训练的目的是最小化帧错误率。语音帧与语音的特征向量是相对应的,因此概括来说,CE训练是在语音帧数据与语音单元对齐的基础上,以最小化CE为目标函数,调整声学模型中深度神经网络各层之间的参数,由此完成对声学模型的预训练,得到声学模型的初始模型。相关算法包括随机梯度下降算法,误差反向传播算法等等,本发明实施例对此不作限定。
在本发明一实施例中,为了进一步加快多语言混杂语音识别系统的声学模型的训练速度,在对声学模型进行CE训练前,可以随机初始化声学模型中深度神经网络的参数,或根据经验设置深度神经网络的初始参数,或基于RBM(Restricted Boltzmann Machine,受限玻尔兹曼机)的无监督训练,确定深度神经网络的初始参数。
上述训练方法使得声学模型与相应训练数据的分布尽可能相似,可使相关的语音特征在上述声学模型中的相似度变大,但也可能同时让非相关的语音特征在该声学模型的相似度更大,造成识别混淆。
为此,本发明实施例提供另一种多语言混杂语音识别系统建立方法,参考基于图4的示意图6,在S1022之后,还可以包括:
S1024:使用特征向量序列和混杂标注文本,对声学模型进行区分度训练。
区分度训练(discriminative training,DT)不仅考虑了训练语音信号的正确识别结果,同时也考虑到了与标注文本不同的候选文本,能在上述CTC训练得到的声学模型基础上进一步提高语音识别性能。
区分度准则要求的是训练语音的特征向量序列对应标注文本序列的概率大,使得标注文本序列产生训练语音序列的概率,与其它相近文本序列产生标注语音序列的概率之差大。
具体地,根据声学模型的深度神经网络获取语音的特征向量序列的正确候选文本和其他接近的错误候选文本,区分性训练可以对正确候选文本的概率得分奖励多一些,对最大可能错误的候选文本的概率得分惩罚多一些;又或者,将最大可能错误的候选文本的概率得分均分给其他可能错误的候选文本等。
这样,拉大正确的候选文本的概率得分和最大可能错误的候选文本的概率得分,有效地提高了语音识别的正确率。
相对于状态建模和音素建模,区分度训练对于上下文无关的长时语音单元建模作用更大。状态建模和音素建模都是与上下文相关的,以音素建模为例,每调整一个错误的音素,就会导致该错误的音素周围的音素的上下文的改变,从而引发连环效应,无法实现“局部最优就是全局最优”。上下文无关的长时语音单元建模调整一个错误的长时语音单元,不会影响该错误的长时语音单元周围的长时语音单元,进而可以实现“局部最优就是全局最优”。
S103:获取多语言混杂的语料数据,训练语言模型;
在本发明实施例中,获取的语音训练数据就是针对哪几种语言混杂的语音训练数据,获取的语料数据就是针对哪几种语言混杂的语料数据。
如上所述声学模型的多语音混杂的语音训练数据难以获取,针对语言模型的多语音混杂的语料数据更难获取,实际中几乎没有多种语言混杂的有语义的文本语料,例如中英文混杂多用于口语中,书面语言中很少见。所以训练语言模型的多语音混杂语料数据严重不足。
在本发明实施例中,语料数据是具有语义的数据。语言模型用于确定一句话(语句)出现的概率,一般采用链式法则,把一句话的概率拆解为每个词出现的概率之积。常见的做法就是采用N元文法,即N-gram语言模型,某一个词输出只与前面N-1个词出现的概率有关系。这里,语言模型识别出语句需要为上下文相关语义的语句。
在本发明一实施例中,在本发明实施例提供另一种多语言混杂语音识别系统建立方法中,参考基于图1的示意图7,在S103,可以包括:
S1031:识别第一语言的语料数据中的短语;
S1032:基于第一语言和其他语言之间的平行语料库,将第一语言的语料数据中的短语替换为从平行语料库中匹配到的其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
这里,平行语料库(parallel corpus)由原文文本及其平行对应的译语文本构成的双语/多语语料库,是不同语言之间存在文本对齐关系。平行语料库的不同语言之间存在翻译关系,所以基于短语替换相应短语之后的混杂语料也是有语义的,可以用于训练语言模型。
在本发明一实施例中,为了加快获得多语言混杂的语料数据,可以基于第一语言和其他语言之间的平行语料库,先获取第一语言和其他语言匹配的短语;将第一语言的短语和匹配的其他语言的短语对应存储至短语对齐库。短语对齐库用于存储相同语义不同语言的短语间的对应关系。
这种情况下,基于第一语言和其他语言之间的短语对齐库,从短语对齐库中快速的获得与第一语言的语料数据中的短语匹配到的其他语言的短语,将第一语言的语料数据中的短语替换为匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
以汉语和英语短语对齐库为例,短语对齐库中存储有“今天是个好天气”和“it’sa good day today”的对应关系,若第一语言为汉语,在识别到汉语的语料数据中包括短语“今天是个好天气”,则可以将汉语的语料数据中包括短语“今天是个好天气”替换为“it’sa good day today”,进而获得汉语和英语混杂的语料数据。
由于不同语种语义相同的语句的语序和长度可能不同,通过上述短语对齐替换的方式,可获得大量的多语言混杂的语料数据,更好的对语言模型的参数进行训练和估计,有效完成对语音模型的训练。
S104:根据训练后的声学模型和语言模型,建立多语音混杂的语音识别系统。
声学模型通过大量的多语言混杂的语音训练数据训练,提高了识别正确率,语言模型通过大量的多语言混杂的语料数据训练,同样提高了识别正确率,采用这样的声学模型和语言模型建立的多语音混杂的语音识别系统,同样可以提高识别正确率。
应用上述实施例,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题;同时可以获取到大量多语音混杂的语料数据,使用获取到的多语言混杂的语料数据训练语言模型,根据训练获得的声学模型和语言模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。
参考图8,图8为本发明实施例提供的一种多语言混杂语音识别系统建立装置的结构示意图,该装置包括:
构建单元800,用于根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,建模单元为上下文无关的语音单元;
获取单元801,用于获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;
第一训练单元802,用于使用特征向量序列和混杂标签序列,训练声学模型;
第二训练单元803,用于获取多语言混杂的语料数据,训练语言模型;
建立单元804,用于根据声学模型和语言模型,建立多语音混杂的语音识别系统。
在本发明的一个实施例中,获取单元801,可以包括:
获取子单元(图8中未示出),用于获取各语言的语音训练数据;
对齐子单元(图8中未示出),用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂子单元(图8中未示出),用于将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
在本发明的一个实施例中,混杂子单元,具体可以用于:
将第一语言的语音训练数据中单词的语音信号替换成对齐的其他语言的语音训练数据中单词的语音信号;
将第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的其他语言的语音训练数据中单词的语音信号对应的标注文本。
在本发明的一个实施例中,语音单元可以包括:音节和/或单词。
在本发明的一个实施例中,构建单元800,具体可以用于:
将多语言所包含的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型;或者
合并多语言中发音相近的语音单元,将合并后获得的语音单元以及多语言中未合并的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型。
在本发明的一个实施例中,第一训练单元802,具体可以用于:
根据连接时序分类准则对混杂标签序列进行变换;
使用特征向量序列和变换后的混杂标签序列,训练声学模型。
在本发明的一个实施例中,第一训练单元802,还可以用于:
在使用特征向量序列和变换后的混杂标签序列,训练声学模型到之前,使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对声学模型进行交叉熵训练。
在本发明的一个实施例中,第一训练单元802,还可以用于:
在使用特征向量序列和变换后的混杂标签序列,训练声学模型之后,使用特征向量序列和混杂标注文本,对声学模型进行区分度训练。
在本发明的一个实施例中,第二训练单元803,可以包括:
识别子单元(图8中未示出),用于识别第一语言的语料数据中的短语;
训练子单元(图8中未示出),用于基于第一语言和其他语言之间的平行语料库,将第一语言的语料数据中的短语替换为从平行语料库中匹配到的其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
在本发明的一个实施例中,上述多语言混杂语音识别系统建立装置还可以包括:存储单元(图8中未示出);
存储单元,用于基于第一语言和其他语言之间的平行语料库,获取第一语言和其他语言匹配的短语;
将第一语言的短语和匹配的其他语言的短语对应存储至短语对齐库;
这种情况下,训练子单元,具体可以用于:
基于第一语言和其他语言之间的短语对齐库,将第一语言的语料数据中的短语替换为从短语对齐库中匹配到的其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
由于上述多语言混杂语音识别系统建立装置实施例是基于多语言混杂语音识别系统建立方法实施例得到的。对于多语言混杂语音识别系统建立装置实施例而言,由于其基本相似于多语言混杂语音识别系统建立方法实施例,所以描述得比较简单,相关之处参见多语言混杂语音识别系统建立方法实施例的部分说明即可。
应用上述实施例,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题;同时可以获取到大量多语音混杂的语料数据,使用获取到的多语言混杂的语料数据训练语言模型,根据训练获得的声学模型和语言模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。
参考图9,图9为本发明实施例提供的一种多语言混杂语音识别声学模型建立方法的流程示意图,该方法包括:
S900:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;
其中,建模单元为上下文无关的语音单元。
S901:获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;
S902:使用特征向量序列和混杂标签序列,训练声学模型。
在本发明的一个实施例中,获取多语言混杂的语音训练数据的步骤,包括:
获取各语言的语音训练数据;
对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
在本发明的一个实施例中,将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:
将第一语言的语音训练数据中单词的语音信号替换成对齐的其他语言的语音训练数据中单词的语音信号;
将第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的其他语言的语音训练数据中单词的语音信号对应的标注文本。
在本发明的一个实施例中,语音单元包括:音节和/或单词。
在本发明的一个实施例中,根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:
将多语言所包含的语音单元的合集作为声学模型的建模单元;或者
合并多语言中发音相近的语音单元,将合并后获得的语音单元以及多语言中未合并的语音单元的合集作为声学模型的建模单元。
在本发明的一个实施例中,使用特征向量序列和混杂标签序列,训练声学模型的步骤,包括:
根据连接时序分类准则对混杂标签序列进行变换;
使用特征向量序列和变换后的混杂标签序列,训练声学模型。
在本发明的一个实施例中,在使用特征向量序列和变换后的混杂标签序列,训练声学模型到的步骤之前,方法还包括:
使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对声学模型进行交叉熵训练。
在本发明的一个实施例中,在使用特征向量序列和变换后的混杂标签序列,训练声学模型到的步骤之后,方法还包括:
使用特征向量序列和混杂标注文本,对声学模型进行区分度训练。
由于上述多语言混杂语音识别声学模型建立方法实施例是基于多语言混杂语音识别系统建立方法实施例得到的,对于多语言混杂语音识别声学模型建立方法实施例而言,相关之处参见多语言混杂语音识别系统建立方法实施例的部分说明即可。
应用上述实施例,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题,根据训练获得的声学模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。
参考图10,图10为本发明实施例提供的一种多语言混杂语音识别声学模型建立装置的结构示意图,该装置包括:
构建单元1000,用于根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,建模单元为上下文无关的语音单元;
获取单元1001,用于获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;
第一训练单元1002,用于使用特征向量序列和混杂标签序列,训练声学模型。
在本发明的一个实施例中,获取单元1001,可以包括:
获取子单元(图10中未示出),用于获取各语言的语音训练数据;
对齐子单元(图10中未示出),用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂子单元(图10中未示出),用于将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
在本发明的一个实施例中,混杂子单元,具体可以用于:
将第一语言的语音训练数据中单词的语音信号替换成对齐的其他语言的语音训练数据中单词的语音信号;
将第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的其他语言的语音训练数据中单词的语音信号对应的标注文本。
在本发明的一个实施例中,语音单元可以包括:音节和/或单词。
在本发明的一个实施例中,构建单元1000,具体可以用于:
将多语言所包含的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型;或者
合并多语言中发音相近的语音单元,将合并后获得的语音单元以及多语言中未合并的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型。
在本发明的一个实施例中,第一训练单元1002,具体可以用于:
根据连接时序分类准则对混杂标签序列进行变换;
使用特征向量序列和变换后的混杂标签序列,训练声学模型。
在本发明的一个实施例中,第一训练单元1002,还可以用于:
在使用特征向量序列和变换后的混杂标签序列,训练声学模型到之前,使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对声学模型进行交叉熵训练。
在本发明的一个实施例中,第一训练单元1002,还可以用于:
在使用特征向量序列和变换后的混杂标签序列,训练声学模型之后,使用特征向量序列和混杂标注文本,对声学模型进行区分度训练。
由于上述多语言混杂语音识别声学模型建立装置实施例是基于多语言混杂语音识别声学模型建立方法实施例得到的。对于多语言混杂语音识别声学模型建立装置实施例而言,由于其基本相似于多语言混杂语音识别声学模型建立方法实施例,所以描述得比较简单,相关之处参见多语言混杂语音识别声学模型建立方法实施例的部分说明即可。
应用上述实施例,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题,根据训练获得的声学模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。
参考图11,图11为本发明实施例提供的一种多语言混杂的语音训练数据获取方法的流程示意图,该方法包括:
S1101:获取各语言的语音训练数据;
S1102:对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
S1103:将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据。
其中,交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
在本发明的一个实施例中,将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:
将第一语言的语音训练数据中单词的语音信号替换成对齐的其他语言的语音训练数据中单词的语音信号;
将第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的其他语言的语音训练数据中单词的语音信号对应的标注文本。
由于上述多语言混杂的语音训练数据获取方法实施例是基于多语言混杂语音识别系统建立方法实施例得到的,对于多语言混杂的语音训练数据获取方法实施例而言,相关之处参见多语言混杂语音识别系统建立方法实施例的部分说明即可。
应用上述实施例,通过上述单词级别对齐替换的方式,可获得大量的多种语言混合的语音训练数据来训练语音识别声音模型,提高了声音模型的识别正确率。
参考图12,图12为本发明实施例提供的一种多语言混杂的语音训练数据获取装置的结构示意图,该装置包括:
获取单元1201,用于获取各语言的语音训练数据;
对齐单元1202,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂单元1203,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
在本发明的一个实施例中,混杂单元1203,具体可以用于:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本
由于上述多语言混杂的语音训练数据获取装置实施例是基于多语言混杂的语音训练数据获取方法实施例得到的。对于多语言混杂的语音训练数据获取装置实施例而言,由于其基本相似于多语言混杂的语音训练数据获取方法实施例,所以描述得比较简单,相关之处参见多语言混杂的语音训练数据获取方法实施例的部分说明即可。
应用上述实施例,通过上述单词级别对齐替换的方式,可获得大量的多种语言混合的语音训练数据来训练语音识别声音模型,提高了声音模型的识别正确率。
参考图13,图13为本发明实施例提供的一种多语言混杂的语料数据获取方法的流程示意图,该方法包括:
S1301:识别第一语言的语料数据中的短语;
S1302:基于第一语言和其他语言之间的平行语料库,将第一语言的语料数据中的短语替换为从平行语料库中匹配到的其他语言的短语,获得多语言混杂的语料数据。
在本发明的一个实施例中,上述多语言混杂的语料数据获取方法还可以包括:
基于第一语言和其他语言之间的平行语料库,获取第一语言和其他语言匹配的短语;
将第一语言的短语和匹配的其他语言的短语对应存储至短语对齐库;
这种情况下,基于第一语言和其他语言之间的平行语料库,将第一语言的语料数据中的短语替换为从平行语料库中匹配到的其他语言的短语,获得多语言混杂的语料数据的步骤,包括:
基于第一语言和其他语言之间的短语对齐库,将第一语言的语料数据中的短语替换为从短语对齐库中匹配到的其他语言的短语,获得多语言混杂的语料数据。
由于上述多语言混杂的语料数据获取方法实施例是基于多语言混杂语音识别系统建立方法实施例得到的,对于多语言混杂的语料数据获取方法实施例而言,相关之处参见多语言混杂语音识别系统建立方法实施例的部分说明即可。
应用上述实施例,通过上述短语对齐替换的方式,可获得大量的多语言混杂的语料数据来训练语言模型,提高了语言模型的识别正确率。
参考图14,图14为本发明实施例提供的一种多语言混杂的语料数据获取装置的结构示意图,该装置包括:
识别单元1401,用于识别第一语言的语料数据中的短语;
训练单元1402,用于基于第一语言和其他语言之间的平行语料库,将第一语言的语料数据中的短语替换为从平行语料库中匹配到的其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
在本发明的一个实施例中,上述多语言混杂的语料数据获取装置还可以包括:存储单元(图14中未示出);
存储单元,用于基于第一语言和其他语言之间的平行语料库,获取第一语言和其他语言匹配的短语;
将第一语言的短语和匹配的其他语言的短语对应存储至短语对齐库;
这种情况下,训练单元1402,具体可以用于:
基于第一语言和其他语言之间的短语对齐库,将第一语言的语料数据中的短语替换为从短语对齐库中匹配到的其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
由于上述多语言混杂的语料数据获取装置实施例是基于多语言混杂的语料数据获取方法实施例得到的。对于多语言混杂的语料数据获取装置实施例而言,由于其基本相似于多语言混杂的语料数据获取方法实施例,所以描述得比较简单,相关之处参见多语言混杂的语料数据获取方法实施例的部分说明即可。
应用上述实施例,通过上述短语对齐替换的方式,可获得大量的多语言混杂的语料数据来训练语言模型,提高了语言模型的识别正确率。
参考图15,图15为本发明实施例提供的一种电子设备的结构示意图,该电子设备包括:包括:壳体1501、处理器1502、存储器1503、电路板1504和电源电路1505,其中,电路板1504安置在壳体1501围成的空间内部,处理器1502和存储器1503设置在电路板1504上;电源电路1505,用于为电子设备的各个电路或器件供电;存储器1503用于存储可执行程序代码;处理器1502通过运行存储器中存储的可执行程序代码,以执行以下步骤:
根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,建模单元为上下文无关的语音单元;
获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;
使用特征向量序列和混杂标签序列,训练声学模型;
获取多语言混杂的语料数据,训练语言模型;
根据声学模型和语言模型,建立多语音混杂的语音识别系统。
处理器1502对上述步骤的具体执行过程以及处理器1502通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图1-8所示实施例的描述,在此不再赘述。
应用上述实施例,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题;同时可以获取到大量多语音混杂的语料数据,使用获取到的多语言混杂的语料数据训练语言模型,根据训练获得的声学模型和语言模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。
参考图16,图16为本发明实施例提供的一种电子设备的结构示意图,该电子设备包括:包括:壳体1601、处理器1602、存储器1603、电路板1604和电源电路1605,其中,电路板1604安置在壳体1601围成的空间内部,处理器1602和存储器1603设置在电路板1604上;电源电路1605,用于为电子设备的各个电路或器件供电;存储器1603用于存储可执行程序代码;处理器1602通过运行存储器中存储的可执行程序代码,以执行以下步骤:
根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,建模单元为上下文无关的语音单元;
获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;
使用特征向量序列和混杂标签序列,训练声学模型。
处理器1602对上述步骤的具体执行过程以及处理器1602通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图9-10所示实施例的描述,在此不再赘述。
应用上述实施例,声学模型以上下文无关的语音单元作为建模单元,且使用多语言混杂的特征向量序列和多语言的混杂标签序列训练声音模型,较好的解决了两个语音单元中间混淆处的分类问题,根据训练获得的声学模型,建立多语音混杂的语音识别系统,可以很好的适用于多语言混杂的语音识别,提高了对混杂多种语言的语音数据的识别正确率。
参考图17,图17为本发明实施例提供的一种电子设备的结构示意图,该电子设备包括:包括:壳体1701、处理器1702、存储器1703、电路板1704和电源电路1705,其中,电路板1704安置在壳体1701围成的空间内部,处理器1702和存储器1703设置在电路板1704上;电源电路1705,用于为电子设备的各个电路或器件供电;存储器1703用于存储可执行程序代码;处理器1702通过运行存储器中存储的可执行程序代码,以执行以下步骤:
获取各语言的语音训练数据;
对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
将第一语言的语音训练数据和其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,交换混杂包括:语音信号的混杂和对应的标注文本的混杂。
处理器1702对上述步骤的具体执行过程以及处理器1702通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图11-12所示实施例的描述,在此不再赘述。
应用上述实施例,通过上述单词级别对齐替换的方式,可获得大量的多种语言混合的语音训练数据来训练语音识别声音模型,提高了声音模型的识别正确率。
参考图18,图18为本发明实施例提供的一种电子设备的结构示意图,该电子设备包括:包括:壳体1801、处理器1802、存储器1803、电路板1804和电源电路1805,其中,电路板1804安置在壳体1801围成的空间内部,处理器1802和存储器1803设置在电路板1804上;电源电路1805,用于为电子设备的各个电路或器件供电;存储器1803用于存储可执行程序代码;处理器1802通过运行存储器中存储的可执行程序代码,以执行以下步骤:
识别第一语言的语料数据中的短语;
基于第一语言和其他语言之间的平行语料库,将第一语言的语料数据中的短语替换为从平行语料库中匹配到的其他语言的短语,获得多语言混杂的语料数据。
处理器1802对上述步骤的具体执行过程以及处理器1802通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图13-14所示实施例的描述,在此不再赘述。
应用上述实施例,通过上述短语对齐替换的方式,可获得大量的多语言混杂的语料数据来训练语言模型,提高了语言模型的识别正确率。
上述图15-18所示的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (38)

1.一种多语言混杂语音识别系统建立方法,其特征在于,所述方法包括:
根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;
获取多语言混杂的语料数据,训练语言模型;
根据所述声学模型和所述语言模型,建立多语音混杂的语音识别系统;
其中,所述获取多语言混杂的语音训练数据的步骤,包括:获取各语言的语音训练数据;对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂;
其中,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
2.根据权利要求1所述的方法,其特征在于,所述语音单元包括:音节和/或单词。
3.根据权利要求1所述的方法,其特征在于,所述根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:
将多语言所包含的语音单元的合集作为声学模型的建模单元;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元。
4.根据权利要求1所述的方法,其特征在于,所述使用所述特征向量序列和所述混杂标签序列,训练所述声学模型的步骤,包括:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
5.根据权利要求4所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型的步骤之前,所述方法还包括:
使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
6.根据权利要求4所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之后,所述方法还包括:
使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
7.根据权利要求1所述的方法,其特征在于,所述获取多语言混杂的语料数据的步骤,包括:
识别第一语言的语料数据中的短语;
基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;
所述基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据的步骤,包括:
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
9.一种多语言混杂语音识别声学模型建立方法,其特征在于,所述方法包括:
根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;
其中,所述获取多语言混杂的语音训练数据的步骤,包括:获取各语言的语音训练数据;对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂;
其中,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
10.根据权利要求9所述的方法,其特征在于,所述语音单元包括:音节和/或单词。
11.根据权利要求9所述的方法,其特征在于,所述根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:
将多语言所包含的语音单元的合集作为声学模型的建模单元;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元。
12.根据权利要求9所述的方法,其特征在于,所述使用所述特征向量序列和所述混杂标签序列,训练所述声学模型的步骤,包括:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
13.根据权利要求12所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之前,所述方法还包括:
使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
14.根据权利要求12所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之后,所述方法还包括:
使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
15.一种多语言混杂的语音训练数据获取方法,其特征在于,所述方法包括:
获取各语言的语音训练数据;
对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂;
其中,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;以及
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
16.一种多语言混杂的语料数据获取方法,其特征在于,所述方法包括:
识别第一语言的语料数据中的短语;
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。
17.根据权利要求16所述的方法,其特征在于,所述方法还包括:
基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库。
18.一种多语言混杂语音识别系统建立装置,其特征在于,所述装置包括:
构建单元,用于根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取单元,用于获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
第一训练单元,用于使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;
第二训练单元,用于获取多语言混杂的语料数据,训练语言模型;
建立单元,用于根据所述声学模型和所述语言模型,建立多语音混杂的语音识别系统;
其中,所述获取单元,包括:
获取子单元,用于获取各语言的语音训练数据;
对齐子单元,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂子单元,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂;
其中,所述混杂子单元,具体用于:将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
19.根据权利要求18所述的装置,其特征在于,所述语音单元包括:音节和/或单词。
20.根据权利要求18所述的装置,其特征在于,所述构建单元,具体用于:
将多语言所包含的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型。
21.根据权利要求18所述的装置,其特征在于,所述第一训练单元,具体用于:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
22.根据权利要求21所述的装置,其特征在于,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到之前,使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
23.根据权利要求21所述的装置,其特征在于,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型之后,使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
24.根据权利要求18所述的装置,其特征在于,所述第二训练单元,包括:
识别子单元,用于识别第一语言的语料数据中的短语;
训练子单元,用于基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
25.根据权利要求 24所述的装置,其特征在于,所述装置还包括:存储单元;
所述存储单元,用于基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;
所述训练子单元,具体用于:
基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
26.一种多语言混杂语音识别声学模型建立装置,其特征在于,所述装置包括:
构建单元,用于根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;
获取单元,用于获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;
第一训练单元,用于使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;
其中,所述获取单元,包括:
获取子单元,用于获取各语言的语音训练数据;
对齐子单元,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂子单元,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂;
其中,所述混杂子单元,具体用于:将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
27.根据权利要求26所述的装置,其特征在于,所述语音单元包括:音节和/或单词。
28.根据权利要求26所述的装置,其特征在于,所述构建单元,具体用于:
将多语言所包含的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型;或者
合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元,基于深度神经网络,构建声学模型。
29.根据权利要求26所述的装置,其特征在于,所述第一训练单元,具体用于:
根据连接时序分类准则对所述混杂标签序列进行变换;
使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。
30.根据权利要求29所述的装置,其特征在于,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到之前,使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。
31.根据权利要求29所述的装置,其特征在于,所述第一训练单元,还用于:
在使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型之后,使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。
32.一种多语言混杂的语音训练数据获取装置,其特征在于,所述装置包括:
获取单元,用于获取各语言的语音训练数据;
对齐单元,用于对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;
混杂单元,用于将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂;
其中,所述混杂单元,具体用于:
将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;
将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。
33.一种多语言混杂的语料数据获取装置,其特征在于,所述装置包括:
识别单元,用于识别第一语言的语料数据中的短语;
训练单元,用于基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据,训练语言模型。
34.根据权利要求33所述的装置,其特征在于,所述装置还包括:存储单元;
所述存储单元,用于基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;
将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库。
35.一种电子设备,其特征在于,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行权利要求1-8任一项所述的多语言混杂语音识别系统建立方法。
36.一种电子设备,其特征在于,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行权利要求9-14任一项所述的多语言混杂语音识别声学模型建立方法。
37.一种电子设备,其特征在于,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行权利要求15所述的多语言混杂的语音训练数据获取方法。
38.一种电子设备,其特征在于,所述电子设备包括:包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过运行所述存储器中存储的可执行程序代码,以执行权利要求16-17任一项所述的多语言混杂的语料数据获取方法。
CN201710230061.0A 2017-04-10 2017-04-10 多语言混杂模型建立、数据获取方法及装置、电子设备 Active CN108711420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710230061.0A CN108711420B (zh) 2017-04-10 2017-04-10 多语言混杂模型建立、数据获取方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710230061.0A CN108711420B (zh) 2017-04-10 2017-04-10 多语言混杂模型建立、数据获取方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN108711420A CN108711420A (zh) 2018-10-26
CN108711420B true CN108711420B (zh) 2021-07-09

Family

ID=63866157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710230061.0A Active CN108711420B (zh) 2017-04-10 2017-04-10 多语言混杂模型建立、数据获取方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN108711420B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369978B (zh) * 2018-12-26 2024-05-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110797016B (zh) * 2019-02-26 2020-12-29 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110189748B (zh) * 2019-05-31 2021-06-11 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN112185337B (zh) * 2019-07-02 2024-04-26 微软技术许可有限责任公司 多语言神经文本到语音合成
CN110413736B (zh) * 2019-07-25 2022-02-25 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN112489630A (zh) * 2019-09-12 2021-03-12 武汉Tcl集团工业研究院有限公司 一种语音识别方法及设备
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质
CN110634487B (zh) * 2019-10-24 2022-05-17 科大讯飞股份有限公司 一种双语种混合语音识别方法、装置、设备及存储介质
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
CN112837675A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 语音识别方法、装置及相关系统和设备
CN110930979B (zh) * 2019-11-29 2020-10-30 百度在线网络技术(北京)有限公司 一种语音识别模型训练方法、装置以及电子设备
CN110827805B (zh) * 2019-12-09 2022-11-29 思必驰科技股份有限公司 语音识别模型训练方法、语音识别方法和装置
CN110930980B (zh) * 2019-12-12 2022-08-05 思必驰科技股份有限公司 一种中英文混合语音的声学识别方法及系统
CN111079945B (zh) * 2019-12-18 2021-02-05 北京百度网讯科技有限公司 端到端模型的训练方法及装置
CN111341295A (zh) * 2020-03-10 2020-06-26 成都华日通讯技术股份有限公司 一种离线实时多语种广播敏感词监听方法
US11568858B2 (en) 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
CN112102811B (zh) * 2020-11-04 2021-03-02 北京淇瑀信息科技有限公司 一种合成语音的优化方法、装置及电子设备
CN112530401B (zh) * 2020-11-30 2024-05-03 清华珠三角研究院 一种语音合成方法、系统及装置
CN112992117B (zh) * 2021-02-26 2023-05-26 平安科技(深圳)有限公司 多语言语音模型生成方法、装置、计算机设备及存储介质
CN112668704B (zh) * 2021-03-16 2021-06-29 北京世纪好未来教育科技有限公司 音频识别模型的训练方法、装置和音频识别方法、装置
CN114417879B (zh) * 2021-12-29 2022-12-27 北京百度网讯科技有限公司 跨语言文本语义模型的生成方法、装置及电子设备
CN114582329A (zh) * 2022-03-03 2022-06-03 北京有竹居网络技术有限公司 语音识别方法、装置、计算机可读介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010048668A (ko) * 1999-11-29 2001-06-15 구자홍 음성합성시 끊어읽기의 자동 라벨링 방법
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102651218A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于创建语音标签的方法以及设备
CN105551483A (zh) * 2015-12-11 2016-05-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
JP2004347732A (ja) * 2003-05-20 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 言語自動識別方法及び装置
CN101604522B (zh) * 2009-07-16 2011-09-28 北京森博克智能科技有限公司 非特定人的嵌入式中英文混合语音识别方法及系统
JP5259020B2 (ja) * 2010-10-01 2013-08-07 三菱電機株式会社 音声認識装置
CN105096953B (zh) * 2015-08-11 2019-03-12 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010048668A (ko) * 1999-11-29 2001-06-15 구자홍 음성합성시 끊어읽기의 자동 라벨링 방법
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102651218A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于创建语音标签的方法以及设备
CN105551483A (zh) * 2015-12-11 2016-05-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法

Also Published As

Publication number Publication date
CN108711420A (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US10176804B2 (en) Analyzing textual data
CN107016994B (zh) 语音识别的方法及装置
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
US20140316764A1 (en) Clarifying natural language input using targeted questions
CN110930980B (zh) 一种中英文混合语音的声学识别方法及系统
WO2020186712A1 (zh) 一种语音识别方法、装置及终端
CN109754809A (zh) 语音识别方法、装置、电子设备及存储介质
CN110517668B (zh) 一种中英文混合语音识别系统及方法
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN115116428B (zh) 韵律边界标注方法、装置、设备、介质及程序产品
Dunbar et al. Self-supervised language learning from raw audio: Lessons from the zero resource speech challenge
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
Hassan et al. Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2
KR20200095947A (ko) 전자 장치 및 이의 제어 방법
CN111968646A (zh) 一种语音识别方法及装置
Minker et al. Spoken dialogue systems technology and design
CN111489742B (zh) 声学模型训练方法、语音识别方法、装置及电子设备
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
CN111159339A (zh) 一种文本匹配处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant