CN109616096A

CN109616096A - 多语种语音解码图的构建方法、装置、服务器和介质

Info

Publication number: CN109616096A
Application number: CN201811643641.3A
Authority: CN
Inventors: 何金来; 韩虎; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Rubu Technology Co.,Ltd.
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-12
Anticipated expiration: 2038-12-29
Also published as: CN109616096B

Abstract

本发明实施例公开了一种多语种语音解码图的构建方法、装置、服务器和介质，涉及语音识别技术领域。所述方法包括：对样本语料库中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的发音音素；根据所述样本语料库中的样本语料关联的样本语音，确定主语种词语和次语种词语的声学特征；根据所述样本语料库中的样本语料中包括的主语种词语和次语种词语，主语种词语和次语种词语的发音音素以及声学特征，确定用于多语种识别的解码图。本发明实施例通过根据样本语料库，得到主语种词语和次语种词语发音因素，进而确定其相关联的声学特性，最终获得用于多语种识别的解码图，实现了对多语种混读人群进行语音识别的需求。

Description

多语种语音解码图的构建方法、装置、服务器和介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种多语种语音解码图的构建方法、装置、服务器和介质。

背景技术

语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。例如，在智能家居中，在唤醒智能设备之后，用户只需说出相应指令即可对设备进行操作。设备正确识别出用户的语音信息之后，根据信息意图进行动作。语音识别在人机交互中起着重要的作用，在现代社会各项领域都有长足的发展前景。但是随着全球多元化的发展，用户已经不满足于单语种的识别。

现有的语音识别系统多数都是单语种的语音识别，即便是有多语种语音识别的方法，以中英混合为例，由于中国人的英语发音有其特殊性且每个人习惯不一，导致识别效果低下。

发明内容

本发明实施例提供了一种多语种语音解码图的构建方法、装置、服务器和介质，通过根据样本语料库，得到主语种词语和次语种词语发音因素，进而确定其相关联的声学特性，最终获得用于多语种识别的解码图，实现了对多语种混读人群进行语音识别的需求。

第一方面，本发明实施例提供了一种多语种语音解码图的构建方法，包括：

对样本语料库中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的发音音素；

根据所述样本语料库中的样本语料关联的样本语音，确定主语种词语和次语种词语的声学特征；

根据所述样本语料库中的样本语料中包括的主语种词语和次语种词语，主语种词语和次语种词语的发音音素以及声学特征，确定用于多语种识别的解码图。

第二方面，本发明实施例提供了一种多语种语音解码图的构建装置，包括：

词语标音模块，用于对样本语料库中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的发音音素；

声学特性确定模块，用于根据所述样本语料库中的样本语料关联的样本语音，确定主语种词语和次语种词语的声学特征；

解码图构建模块，用于根据所述样本语料库中的样本语料中包括的主语种词语和次语种词语，主语种词语和次语种词语的发音音素以及声学特征，确定用于多语种识别的解码图。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的多语种语音解码图的构建方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的多语种语音解码图的构建方法。

本发明实施例通过根据样本语料库，得到主语种词语和次语种词语发音因素，再结合主语种词语和次语种词语对应的声学特性，最终获得用于多语种识别的解码图，实现了对多语种混读人群进行语音识别的需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一提供的一种多语种语音解码图的构建方法的流程图；

图2为本发明实施例二提供的一种多语种语音解码图的构建装置的结构示意图；

图3为本发明实施例三提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种多语种语音解码图的构建方法的流程图，本实施例可适用于识别语音中多语种的情况，该方法可以由本发明实施例提供的一种多语种语音解码图的构建装置来执行。参见图1，该方法具体包括：

步骤101、对样本语料库中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的发音音素。

其中，样本语料是指用于训练或优化声学模型以及语言模型的语言材料，样本语料可以为包括至少一个样本文本的语料库，本实施例中的样本语料至少包括两个语种。为了提高样本语料中词语的规范性，提高模型的训练或优化效果，样本语料可以选取来自报纸、期刊等对词语有严格规范要求的文本资源，或者也可以请专业人士对样本语料进行词语的规范化检查。标音是指对词语按预设规则进行标注，标注的结果称之为发音音素。

本实施中，对样本语料进行预处理，其中预处理至少包括分词处理，即将样本语料中连续的字序列按照一定的规范重新组合成词序列，每个词序列作为独立的分词结果存在。可选的，分别对样本语料库中包括的纯主语种文本、纯次语种文本和主次语种混合文本进行分词。示例性的，假设样本语料中包括如下文本内容：“end-to-end语音识别系统已经有不少paper了”，分词处理后，得到分词结果可以为，包括词语：“end-to-end”、“语音”、“识别”、“系统”、“已经”、“有”、“不少”、“paper”、“了”。

本实施中，对分词后的样本语料进行标音，可选的，采用主语种发音规则对所述纯主语种文本中包括的主语种词语进行标音，得到主语种词语的主语种发音因素；分别采用主语种发音规则和次语种发音规则对所述纯次语种文本中包括的次语种词语进行标音，得到次语种词语的主语种发音因素和次语种发音因素；采用主语种发音规则对所述主次语种混合文本中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的主语种发音因素。示例性的，假设样本语料中包括如下分词后的文本内容：“你好”、“小狗”、“zero”、“dog”、“哆啦A梦”、“c哩c哩”，将汉语视为主语种，英语视为次语种，则所述文本对应因素为：“ni2 hao3”、“xiao3 gou3”、“ZIH1 R OW0，zei1 er0 ou4”、“D AO1 G，dao4ge0”、“duo1 la1 ei1 meng4”、“cei1 li1 cei1 li1”。本实施例中的标音规则仅为解释说明，并不对标音规则进行限定，并且主语种和词语中的选取不限于本实施例中所涉及的语种。

步骤102、根据所述样本语料库中的样本语料关联的样本语音，确定主语种词语和次语种词语的声学特征。

其中，声学特征用于表示语音信号的声音波形，可以用多维向量来表示。示例性的，文字发音为“好”的声学特征一致，其发音音素可以为“hao3”。

步骤103、根据所述样本语料库中的样本语料中包括的主语种词语和次语种词语，主语种词语和次语种词语的发音音素以及声学特征来确定用于多语种识别的解码图。

在本发明实施例中，声学模型的输入是从语音信号中提取的特征，用于将声学特征转换为发音；发音词典包含系统所能处理的语言的词语集及其对应的发音，用于将发音转换为词语；语言模型对系统所针对的语言进行建模，用于衡量词语的出现概率；解码图是指用于语音识别网络可以由声学模型、发音词典和语言模型共同构建。

可选的，根据主语种词语和主语种发音因素之间的映射关系，以及次语种词语分别与主语种发音因素和次语种发音因素之间的映射关系，构建发音词典；根据所述发音词典，以及声学特征分别与主语种词语和次语种词语之间的映射关系，确定主语种发音音素和次语种发音音素分别与声学特征之间的映射关系，得到声学模型；根据样本语料中包括的主语种词语和次语种词语，构建用于确定词语出现概率的语言模型；依据所述发音词典、所述声学模型和所述语言模型构建所述解码图。

在上述可选实施例方案中，构建语言模型，包括：根据各主语种词语和各次语种词语在样本语料中的出现次数，以及样本语料中的词语总数，确定各主语种词语和各次语种词语的出现概率；根据各主语种词语和各次语种词语的出现概率，构建所述语言模型。

本发明实施例提供的技术方案，通过根据样本语料库得到主语种词语和次语种词语与发音因素的映射关系，确定发音词典，并根据声学特征与主语种词语和次语种词语的映射关系，最终确定声学模型，根据声学模型、发音词典和语言模型构建解码图，实现了对多语种混读人群以及外音发音不标准人群进行语音识别的需求。

在上述技术方案的基础上，在用于多语种识别的解码图之后，还可以包括：采用所述解码图对待识别的主语种语音和/或次语种语音进行识别。

具体实现方式包括：提取待识别的主语种语音和/或次语种语音的目标声学特征；根据解码图的声学模型中声学特征分别与主语种发音音素和次语种发音音素的映射关系，确定所述目标声学特征关联的至少一个候选主语种发音音素和/或候选次语种发音音素；根据解码图的发音词典中主语种词语和主语种发音因素之间的映射关系，以及次语种词语分别与主语种发音因素和次语种发音因素之间的映射关系，确定候选主语种发音音素和/或候选次语种发音音素关联的至少一个候选主语种词语和/或候选次语种词语；根据解码图的语言模型中所述至少一个候选主语种词语和/或候选次语种词语的出现概率，确定目标主语种词语和/或目标次语种词语。

通过提取主语种语音和/或次语种语音的目标声学特征、发音因素，并根据词语与发音因素之间的映射关系，确定至少一个候选主语种词语和/或候选次语种词语，最后根据解码图的语言模型确定目标主语种词语和/或目标次语种词语，实现了对语音中多语种词语的识别。

实施例二

图2为本发明实施例二提供的一种多语种语音解码图的构建装置的结构示意图，该装置可执行本发明任意实施例所提供的多语种语音解码图的构建方法，具备执行方法相应的功能模块和有益效果。如图2所示，该装置可以包括：

标音模块21，用于对样本语料库中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的发音音素；

声学特征确定模块22，用于根据所述样本语料库中的样本语料关联的样本语音，确定主语种词语和次语种词语的声学特征；

解码图构建模块23，用于根据所述样本语料库中的样本语料中包括的主语种词语和次语种词语，主语种词语和次语种词语的发音音素以及声学特征，确定用于多语种识别的解码图。

在上述实施例的基础上，所述标音模块21，具体用于：分别对样本语料库中包括的纯主语种文本、纯次语种文本和主次语种混合文本进行分词；采用主语种发音规则对所述纯主语种文本中包括的主语种词语进行标音，得到主语种词语的主语种发音因素；分别采用主语种发音规则和次语种发音因素对所述纯次语种文本中包括的次语种词语进行标音，得到次语种词语的主语种发音因素和次语种发音因素；采用主语种发音规则对所述主次语种混合文本中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的主语种发音因素。

在上述实施例的基础上，所述解码图构建模块23，具体用于：根据主语种词语和主语种发音因素之间的映射关系，以及次语种词语分别与主语种发音因素和次语种发音因素之间的映射关系，构建发音词典；根据所述发音词典，以及声学特征分别与主语种词语和次语种词语之间的映射关系，确定主语种发音音素和次语种发音音素分别与声学特征之间的映射关系，得到声学模型；根据样本语料中包括的主语种词语和次语种词语，构建用于确定词语出现概率的语言模型；依据所述发音词典、所述声学模型和所述语言模型构建所述解码图。

在上述实施例的基础上，所述解码图构建模块23，具体用于：根据各主语种词语和各次语种词语在样本语料中的出现次数，以及样本语料中的词语总数，确定各主语种词语和各次语种词语的出现概率；根据各主语种词语和各次语种词语的出现概率，构建所述语言模型。

在上述实施例的基础上，所述解码图构建模块23之后还包括语音识别模块，具体用于：提取待识别的主语种语音和/或次语种语音的目标声学特征；根据解码图的声学模型中声学特征分别与主语种发音音素和次语种发音音素的映射关系，确定所述目标声学特征关联的至少一个候选主语种发音音素和/或候选次语种发音音素；根据解码图的发音词典中主语种词语和主语种发音因素之间的映射关系，以及次语种词语分别与主语种发音因素和次语种发音因素之间的映射关系，确定候选主语种发音音素和/或候选次语种发音音素关联的至少一个候选主语种词语和/或候选次语种词语；根据解码图的语言模型中所述至少一个候选主语种词语和/或候选次语种词语的出现概率，确定目标主语种词语和/或目标次语种词语。

上述实施例所述多语种语音解码图的构建装置用于执行上述实施例所述任一的多语种语音解码图的构建方法，其技术原理和产生的技术效果类似，这里不再赘述。

实施例三

图3为本发明实施例三提供的一种服务器的结构示意图，如图3所示，该服务器包括处理器30、存储器31、输入装置32和输出装置33；服务器中处理器30的数量可以是一个或多个，图3中以一个处理器30为例；服务器中的处理器30、存储器31、输入装置32和输出装置33可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的多语种语音解码图的构建方法对应的程序指令/模块(例如，标音模块21、声学特征确定模块22和解码图构建模块23)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述的多语种语音解码图的构建方法。

存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收语音信号，输出装置33可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种多语种语音解码图的构建方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的多语种语音解码图的构建方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多语种语音解码图的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对样本语料库中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的发音音素，包括：

分别对样本语料库中包括的纯主语种文本、纯次语种文本和主次语种混合文本进行分词；

采用主语种发音规则对所述纯主语种文本中包括的主语种词语进行标音，得到主语种词语的主语种发音因素；

分别采用主语种发音规则和次语种发音规则对所述纯次语种文本中包括的次语种词语进行标音，得到次语种词语的主语种发音因素和次语种发音因素；

采用主语种发音规则对所述主次语种混合文本中包括的主语种词语和次语种词语进行标音，得到主语种词语和次语种词语的主语种发音因素。

3.根据权利要求1所述的方法，其特征在于，根据样本语料中包括的主语种词语和次语种词语，主语种词语和次语种词语的发音音素以及声学特征，确定用于多语种识别的解码图，包括：

根据主语种词语和主语种发音因素之间的映射关系，以及次语种词语分别与主语种发音因素和次语种发音因素之间的映射关系，构建发音词典；

根据所述发音词典，以及声学特征分别与主语种词语和次语种词语之间的映射关系，确定主语种发音音素和次语种发音音素分别与声学特征之间的映射关系，得到声学模型；

根据所述样本语料库中的样本语料中包括的主语种词语和次语种词语，构建用于确定词语出现概率的语言模型；

依据所述发音词典、所述声学模型和所述语言模型构建所述解码图。

4.根据权利要求3所述的方法，其特征在于，根据样本语料中包括的主语种词语和次语种词语，构建用于确定词语出现概率的语言模型，包括：

根据各主语种词语和各次语种词语在样本语料中的出现次数，以及样本语料中的词语总数，确定各主语种词语和各次语种词语在所述样本语料的出现概率；

根据各主语种词语和各次语种词语在所述样本语料的出现概率，构建所述语言模型。

5.根据权利要求1所述的方法，其特征在于，用于多语种识别的解码图之后，还包括：

采用所述解码图对待识别的主语种语音和/或次语种语音进行识别。

6.根据权利要求5所述的方法，其特征在于，采用所述解码图对待识别的主语种语音和/或次语种语音进行识别，包括：

提取待识别的主语种语音和/或次语种语音的目标声学特征；

根据解码图的声学模型中声学特征分别与主语种发音音素和次语种发音音素的映射关系，确定所述目标声学特征关联的至少一个候选主语种发音音素和/或候选次语种发音音素；

根据解码图的发音词典中主语种词语和主语种发音因素之间的映射关系，以及次语种词语分别与主语种发音因素和次语种发音因素之间的映射关系，确定候选主语种发音音素和/或候选次语种发音音素关联的至少一个候选主语种词语和/或候选次语种词语；

根据解码图的语言模型中所述至少一个候选主语种词语和/或候选次语种词语的出现概率，确定目标主语种词语和/或目标次语种词语。

7.一种多语种语音解码图的构建装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述解码图构建模块之后还包括语音识别模块，具体用于：

提取待识别的主语种语音和/或次语种语音的目标声学特征；

9.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的多语种语音解码图的构建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的多语种语音解码图的构建方法。