CN111402861A

CN111402861A - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN111402861A
Application number: CN202010217558.0A
Authority: CN
Inventors: 陈明佳
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-10
Anticipated expiration: 2040-03-25
Also published as: CN111402861B

Abstract

本发明实施例公开了一种语音识别方法、装置、设备及存储介质。该方法包括：获取待识别的语音，并将语音转换为声学特征；将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度；根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度；根据识别置信度和语种置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果。该方法在识别不同语种的音频段时，不需要用户切换不同语种的识别系统、同时可以实现语音识别准确率高、时延低，用户体验好的效果。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着全球化的发展，用户经常会接收到不同语种的音频，在需要获取到音频的对应语种的文字形式时需要对音频进行语音识别。例如，对多语种混合的音频进行语音识别；或者，对一段主语言的音频进行语音识别后，又对一段副语言的音频进行语音识别。

在对多语种混合的音频进行语音识别时，通常是将多语种进行建模合并到一个技术框架中，实现对多语种混合的音频进行语音识别。将多语种进行建模合并到一个技术框架中，模型的学习能力有限，对单语种的识别能力下降，并且由于对多语种的语言数据量不同，导致模型学习到的特性量不同，从而致使在数据量大的语种上的语音识别能力明显强于数据量小的语种。虽然能解决主语言中夹杂部分副语言的语音识别，但在用户一段时间采用完整的主语言，在另一段时间采用完整的副语言时，识别准确率很差，从而无法进行识别。

为解决上述问题，现有技术中的语音识别方法通常采用两种方案：一种是完整的搭建两套不同语种的语音识别系统，在实际应用中需要用户手动或者其他人工方式的切换语种，非常不便捷，用户体验差；另一种是在语音识别系统进行语音识别前，先通过语种分类模型进行语种分类，根据分类得到的语种进行对应语种的语音识别，但存在语种分类错误，进而造成语音识别准确率更差，并且由于分类模块的增加造成计算量大，时延高。

发明内容

本发明实施例提供了一种语音识别方法、装置、设备及存储介质，可以提高语音识别准确率，降低时延，无需用户切换语种。

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

获取待识别的语音，并将所述语音转换为声学特征；

将所述声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；

将各个语种的音素序列转换成对应的文字序列，并确定所述文字序列的识别置信度；

根据所述声学特征，对所述语音进行语种分类，并确定所述语音属于各语种的语种置信度；

根据所述识别置信度和所述语种置信度，确定所述语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为所述语音的识别结果。

第二方面，本发明实施例还提供了一种语音识别装置，该装置包括：

声学特征转换模块，用于获取待识别的语音，并将所述语音转换为声学特征；

音素序列输出模块，用于将所述声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；

文字序列转换模块，用于将各个语种的音素序列转换成对应的文字序列，并确定所述文字序列的识别置信度；

语种分类模块，用于根据所述声学特征，对所述语音进行语种分类，并确定所述语音属于各语种的语种置信度；

识别结果获取模块，用于根据所述识别置信度和所述语种置信度，确定所述语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为所述语音的识别结果。

第三方面，本发明实施例还提供了一种语音识别设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种语音识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的一种语音识别方法。

本发明实施例的技术方案，通过获取待识别的语音，并将语音转换为声学特征；将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度；根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度；根据识别置信度和语种置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果，解决了语音识别两段不同语种的语音时，用户需要切换语种的问题，实现了无需用户切换的同时，语音识别准确率高、时延低的效果。

附图说明

图1是本发明实施例一提供的一种语音识别方法的流程图；

图2是本发明实施例二提供的一种语音识别方法的流程图；

图3是本发明实施例三提供的一种语音识别方法的流程图；

图4是本发明实施例提供的一种语音识系统的框架图；

图5是本发明实施例提供的一种语音识别系统的框架图；

图6是本发明实施例四提供的一种语音识别装置的结构示意图；

图7是本发明实施例五提供的一种语音识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种语音识别方法的流程图，本实施例可适用于对不同语种的语音进行识别的情况，该方法可以由语音识别装置来执行，该装置可以通过软件，和/或硬件的方式实现，装置可以集成在处理器中，如图1所示，该方法具体包括：

步骤110、获取待识别的语音，并将语音转换为声学特征。

其中，待识别的语音可以是某一种语种的一段完整的语音，例如可以是一段中文的语音，或者，一段外文(可以是英文、日文、法文、俄文等)的语音；也可以是一段普通话的语音，或者，一段方言(可以是闽南语、东北语、陕西话、粤语等)的语音。获取待识别的语音的方式可以是通过麦克风等设备采集语音，本发明不做具体限定。对获取到的待识别的语音可以通过语音信号前处理模块将语音数据转换为声学特征，其中声学特征可以是语音的频谱、特征向量或者句向量等。

在本发明实施例的一个实施方式中，可选的，将语音转换为声学特征，包括：将语音输入到语音处理深度学习模型，得到语音的声学特征。

其中，可以通过语音处理深度学习模型将语音转换为声学特征，可以采用的语音处理深度学习模型包括长短期记忆网络(Long Short-Term Memory，LSTM)、卷积神经网络(Convolutional Neural Networks，CNN)、深度神经网络(Deep Neural Networks，DNN)或者双向编码器(Bidirectional Encoder Representations from Transformers，BERT)的语音处理深度学习模型。

在本发明实施例的一个实施方式中，可选的，语音处理深度学习模型，包括：BERT模型。

其中，在本发明实施例中优选的采用BERT模型将语音转换为声学特征，在语音识别中，一些语言人工标注的数据量较少，并且标注的成本比较高，采用一般的深度学习模型如LSTM，CNN或者DNN建模，模型的繁华能力比较弱，对于未训练的数据准确率不高。而BERT模型进行特征提取具有明显的优势，能够在大量的无标注数据上进行预训练，之后使用任务型的语音数据微调训练，即只需要一次大规模的预训练，然后通过快速的微调就可以达到很好的特征提取效果，可以使用大量的未标注的数据进行训练，增加模型的泛化能力，使模型的准确度能够达到实际运用的要求。在本发明实施例的技术方案中，不同语种的语音可以共享BERT模型进行声学特征转换，可以大幅降低语音识别的计算量以及时延，同时由于BERT模型独立于各语种的语言声学模型，如果在语音识别领域有效果更好的transformer神经网络时，方便对BERT模型进行切换，便于语音识别架构的升级、更新以及维护。

步骤120、将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同。

其中，可以通过多任务学习(Multi-Task Learning)的架构，在一个语音识别模型中实现多个任务，可以针对每种语种分别建立独立的语言声学模型。其中，语言声学模型可以是针对某一种特定的语种的语音进行训练得到的，可以将声学特征转换为特定语种的音素序列，例如，对中文的语音对应的声学特征训练得到的是中文的语言声学模型，将声学特征输入到中文的语言声学模型，可以得到中文的音素序列。将声学特征同时输入到各语种对应的语言声学模型进行处理，得到对应的音素序列，即以一种并行的方式对声学特征进行处理。例如，对同一段语音的声学特征，同时输入到中文的语言声学模型和日文的语言声学模型，可以分别得到中文的音素序列和日文的音素序列。其中，音素是语音的最小单元，每一段语音都可以转换为音素序列，例如语音是“你好”，转换为中文的音素序列可以是“nihao”。

步骤130、将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度。

其中，可以以并行的方式对各个语种的音素序列进行转换，获取对应语种的文字序列。例如，可以对中文的音素序列通过中文的语言模型，转换为文字序列，例如音素序列为“nihao”可以转换为文字序列“你好”。通过模型的输出结果，可能是多种，每一种结果都有对应的置信度，通常是将置信度最高的结果进行输出。例如，对于语音“你好”，语言声学模型输出的音素序列可能包括“nihao”，“lihao”，“leihao”等，而“nihao”的置信度为0.9，“lihao”的置信度为0.08，“leihao”的置信度为0.02。从而，将音素序列“nihao”作为语言声学模型的输出结果。同样的，对于文字序列的也有对应的识别置信度，其中，置信度可以理解为该结果出现的概率，可以在模型训练时就存在，因此在模型输出结果时，也可以对应的产生。

在本发明实施例的一个实施方式中，可选的，将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度，包括：将各个语种的音素序列分别输入到对应语种的语言模型，得到各个语种的音素序列对应的文字序列，并确定文字序列的识别置信度。

其中，语言模型可以是针对某一种特定的语种的语音进行训练得到的，可以将音素序列转换为特定语种的文字序列，例如，对中文的语音对应的音素序列训练得到的是中文的语言模型，将音素序列输入到中文的语言模型中，可以得到中文的文字序列，以及对应输出的文字序列的识别置信度。例如，对于音素序列“nihao”，中文的语言模型转换为文字序列“你好”，识别置信度为0.8；转换为文字序列“李好”，识别置信度为0.1；转换为文字序列“您好”，识别置信度为0.1，最终，中文的语言模型输出的结果可以是识别置信度的最高值对应的文字序列，输出结果可以是文字序列“你好”，识别置信度为0.8。

步骤140、根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度。

其中，可以通过声学分类模型对语音的声学特征进行语种分类，其中，声学分类模型可以是针对多种语种的语音的声学特征进行训练的，对于一段语音的声学特征可以进行语种分类，确定语音属于各语种的语种置信度。例如，声学分类模型是对中文、日文以及英文的语音的声学特征进行训练的，对于一段语音的声学特征输入到声学分类模型，可以得到语音属于中文的语种置信度、语音属于日文的语种置信度、语音属于英文的语种置信度以及语音不属于中文、日文以及英文的语种置信度。可以将语种置信度的最高值对应的语种以及语种置信度作为声学分类模型的输出结果，例如语音属于中文，语种置信度为0.71。

步骤150、根据识别置信度和语种置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果。

其中，可以通过信息融合决策模块，根据文字序列的识别置信度、语音属于某语种的语种置信度确定语音针对各个语种的分类识别得分，其中，分类识别得分可以是识别置信度与语种置信度的乘积，也可以是识别置信度与语种置信度的和，或者其他确定方式，本发明不做具体限定。分类识别得分最高代表语音识别结果是分类识别得分最高值对应的文字序列的可能性最大，因此将分类识别得分最高值对应的文字序列作为语音的识别结果。

示例性的，对于一段语音X，假设X的内容是A语种的CCFD。在经过多任务学习架构中的语音识别模块(包括声学分类模型、语言声学模型以及语言模型)处理之后，可以得到A语种的识别结果为CCFD，识别置信度为0.7；B语种的识别结果为HJKL，识别置信度为0.45。声学分类模型得到的三个分类结果，语音属于A语种的语种置信的为0.75，语音属于B语种的语种置信度为0.24，语音不属于A语种也不属于B语种的语种置信度为0.01。最终，语音X为A语种输出CCFD的分类识别得分为0.7×0.75＝0.525；语音X为B语种输出HJKL的分类识别得分为0.45×0.24＝0.108。因此，X语音的识别结果为A语种的CCFD。

在本发明实施例的一个具体实现方式中，可以在语言模型之后，再对应加入各语种的语义模型，可以对对应语种的文字序列进行语义的领域分类，并确定领域置信度；根据识别置信度、语种置信度和领域置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果，可以使语音的识别结果更加准确。

在本发明实施例的另一个具体实现方式中，可以在语言模型之后，再加入一个文字语种分类模型，可以对各个语种的语言模型输出的文字序列，进行文字语种分类，确定文字序列属于各语种的文字语种置信度；根据语种置信度和文字语种置信度，确定语音属于各语种的语种分类得分，确定语种分类得分的最高值对应的语种为目标语种；通过目标语种对应的语义模型，对所有文字序列进行领域分类，并确定文字序列属于各领域对应的领域置信度；根据识别置信度、语种分类得分和领域置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果，可以使语音的语种识别结果更加准确，从而语音识别结果更加准确。

本发明实施例的技术方案，通过获取待识别的语音，并将语音转换为声学特征；将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度；根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度；根据识别置信度和语种置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果，解决了语音识别两段不同语种的语音时，需要用户手动或者其他人工方式进行切换的问题，实现了无需用户切换的同时，可以达到语音识别准确率高、时延低、模块数量少的效果。

实施例二

图2是本发明实施例二提供的一种语音识别方法的流程图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。

如图2所示，该方法包括：

步骤210、获取待识别的语音，并将语音转换为声学特征。

步骤220、将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同。

步骤230、将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度。

步骤240、根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度。

步骤250、针对每个语种的文字序列，确定文字序列在各领域的领域置信度。

其中，可以在语言模型之后，可以对各语种的文字序列进行领域分类，并确定文字序列在各领域的领域置信度，其中，领域分类可以是指语音属于音乐、故事、游戏、影视或者阅读等领域。例如，对于A语种的文字序列可以进行领域分类，确定A语种的语言模型得到的文字序列属于音乐、故事、游戏、影视或者阅读等领域的领域置信度，如果A语种的文字序列在音乐领域的领域置信度最高为0.68，确定A语种的文字序列在音乐领域，领域置信度为0.68。

在本发明实施例的一个实施方式中，可选的，确定文字序列在各领域的领域置信度，包括：通过与文字序列语种对应的语义模型，对文字序列进行领域分类，得到文字序列在各领域的领域置信度。

其中，可以在语言模型之后，再对应加入各语种的语义模型，可以对对应语种的文字序列进行语义的领域分类，并确定领域置信度。其中，语义模型可以是针对特定语种的文字序列训练的，对于一段语音的特定语种的文字序列可以进行领域分类，确定特定语种的文字序列在各个领域的领域置信度。例如，语义模型可以是A语种的文字序列进行训练的，其中训练的领域包括音乐、影视以及阅读，输入A语种的文字序列，可以得到A语种的文字序列在音乐领域的领域置信度、在影视领域的领域置信度、在阅读领域的领域置信度，以及不在音乐、影视以及阅读领域的领域置信度，并可以选取领域置信度最高值对应的领域为A语种的文字序列的领域。通过使用语音分类模块，可以在声学分类模型的语种置信度很接近的情况下，选择更为准确的结果，在任务型的语音对话中，更能够体现出语义分类模块中对领域分类的准确性，可以根据文本层面的信息，纠正声学分类模型导致的错误。

步骤260、根据识别置信度、语种置信度和领域置信度，确定语音针对各语种的分类识别得分。

其中，可以通过信息融合决策模块，根据文字序列的识别置信度、语音属于某语种的语种置信度和文字序列在某领域的领域置信度，确定语音针对各语种的分类识别得分，其中，分类识别得分可以是识别置信度与语种置信度的乘积，与领域置信度最高值的和，也可以是识别置信度、语种置信度以及领域置信度最高值的和，或者其他确定方式，本发明不做具体限定。

在本发明实施例的一个实施方式中，可选的，根据识别置信度、语种置信度和领域置信度，确定语音针对各语种的分类识别得分，包括：确定识别置信度与语种置信度的乘积，并确定乘积与领域置信度最高值的算术和；将算术和作为语音针对各语种的分类识别得分。

其中，在本发明实施例中一种优选的确定各语种的分类识别得分的方式是：特定语种的分类识别得分＝特定语种的文字序列的识别置信度×特定语种的语音属于某语种的语种置信度+文字序列在各领域对应的领域置信度最高值。在任务型的语音对话中，加入语义分类模块对领域进行分类会进一步提高语音识别的准确性。

示例性的，对于一段语音X，假设X的内容是A语种的CCFD。在经过多任务学习架构中的语音识别模块(包括声学分类模型、语言声学模型以及语言模型)处理之后，可以得到A语种的识别结果为CCFD，识别置信度为0.7；B语种的识别结果为HJKL，识别置信度为0.45。声学分类模型得到的三个分类结果，语音属于A语种的语种置信的为0.75，语音属于B语种的语种置信度为0.24，语音不属于A语种也不属于B语种的语种置信度为0.01。在语义分类模型中，CCFD在A语种的语义模型中最好的领域分类结果是CCFD属于音乐领域，领域置信度为0.71；HJKL在B语种的语义模型中最好的领域分类结果是HJKL属于阅读领域，领域置信度为0.39。最终，语音X为A语种输出CCFD的分类识别得分为0.7×0.75+0.71＝1.235；语音X为B语种输出HJKL的分类识别得分为0.45×0.24+0.39＝0.498。因此，X语音的识别结果为A语种的CCFD。

步骤270、将分类识别得分最高值对应的文字序列作为语音的识别结果。

本发明实施例的技术方案，通过获取待识别的语音，并将语音转换为声学特征；将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度；根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度；针对每个语种的文字序列，确定文字序列在各领域的领域置信度；根据识别置信度、语种置信度和领域置信度，确定语音针对各语种的分类识别得分；将分类识别得分最高值对应的文字序列作为语音的识别结果，解决了语音识别两段不同语种的语音时，需要用户手动或者其他人工方式进行切换的问题，实现了无需用户切换的同时，可以达到语音识别准确率高、时延低、模块数量少的效果，尤其是在任务型的语音对话中，领域分类可以根据文本层面的信息，纠正声学分类模型导致的错误，进一步提高语音识别的准确率。

实施例三

图3是本发明实施例三提供的一种语音识别方法的流程图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。

如图3所示，该方法包括：

步骤310、获取待识别的语音，并将语音转换为声学特征。

步骤320、将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同。

步骤330、将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度。

步骤340、根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度。

步骤350、针对每个语种的文字序列，对文字序列进行文字语种分类，确定文字序列属于各语种的文字语种置信度。

其中，可以在语言模型之后，再加入一个文字语种分类模型，可以对各个语种的语言模型输出的文字序列，进行文字语种分类，确定文字序列属于各语种的文字语种置信度。其中，文字语种分类模型可以是针对多种语种的文字序列进行训练的，可以根据多语种的文字序列确定所有的文字序列共同属于同一语种的文字语种置信度，例如A语种的文字序列与B语种的文字序列共同属于A语种，或者共同属于B语种的文字语种置信度。

步骤360、根据语种置信度和文字语种置信度，确定语音属于各语种的语种分类得分，确定语种分类得分的最高值对应的语种为目标语种。

其中，可以根据语种置信度与文字语种置信度的和，或者语种置信度与文字语种置信度的均值确定语音属于各语种的语种分类得分，例如对于语音X，X属于A语种的语种置信度为0.6，X属于B语种的语种置信度为0.3，A既不属于A语种也不属于B语种的语种置信度为0.1；X的A语种的文字序列与B语种的文字序列共同属于A语种的文字语种置信度为0.5，X的A语种的文字序列与B语种的文字序列共同属于B语种的文字语种置信度为0.4，X的A语种的文字序列与B语种的文字序列共同既不属于A语种也属于B语种的文字语种置信度为0.1。那么，A语种的语种分类得分可以为0.6+0.5＝1.1，B语种的语种分类得分可以为0.3+0.4＝0.7，因此，A语种为目标语种。

步骤370、通过目标语种对应的语义模型，对所有文字序列进行领域分类，并确定文字序列属于各领域对应的领域置信度。

其中，例如确定A语种为目标语种时，可以将A语种的文字序列以及B语种的文字序列均输入至A语种的语义模型，对A语种的文字序列与B语种的文字序列进行领域分类，并确定A语种的文字序列属于各领域对应的领域置信度，以及B语种的文字序列属于各领域的对应的领域置信度。可以适用于语音X中混合有多种语种时的语音识别。

步骤380、根据识别置信度、语种分类得分和领域置信度，确定语音针对各语种的分类识别得分。

其中，可以通过信息融合决策模块，根据文字序列的识别置信度、语种分类得分，以及文字序列在某领域的领域置信度，确定语音针对各个语种的分类识别得分。

示例性的，对于一段语音X，假设X的内容是A语种的CCFD。在经过多任务学习架构中的语音识别模块(包括声学分类模型、语言声学模型以及语言模型)处理之后，可以得到A语种的识别结果为CCFD，识别置信度为0.7；B语种的识别结果为HJKL，识别置信度为0.45。声学分类模型得到的三个分类结果，语音属于A语种的语种置信的为0.75，语音属于B语种的语种置信度为0.24，语音不属于A语种也不属于B语种的语种置信度为0.01。CCFD与HJKL共同属于A语种的文字语种置信度为0.5，CCFD与HJKL共同属于B语种的文字语种置信度为0.4，CCFD与HJKL共同属于共同既不属于A语种也属于B语种的文字语种置信度为0.1。在语义分类模型中，CCFD在目标语种的语义模型中最好的领域分类结果是CCFD属于音乐领域，领域置信度为0.71；HJKL在目标语种的语义模型中最好的领域分类结果是HJKL属于阅读领域，领域置信度为0.39。最终，语音X为A语种输出CCFD的分类识别得分为0.7×(0.75+0.5)/2+0.71＝1.1475；语音X为B语种输出HJKL的分类识别得分为0.45×(0.24+0.4)/2+0.39＝0.534。因此，X语音的识别结果为A语种的CCFD。

步骤390、将分类识别得分最高值对应的文字序列作为语音的识别结果。

本发明实施例的技术方案，通过获取待识别的语音，并将语音转换为声学特征；将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度；根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度；针对每个语种的文字序列，对文字序列进行文字语种分类，确定文字序列属于各语种的文字语种置信度；根据语种置信度和文字语种置信度，确定语音属于各语种的语种分类得分，确定语种分类得分的最高值对应的语种为目标语种；通过目标语种对应的语义模型，对所有文字序列进行领域分类，并确定文字序列属于各领域对应的领域置信度；根据识别置信度、语种分类得分和领域置信度，确定语音针对各语种的分类识别得分；将分类识别得分最高值对应的文字序列作为语音的识别结果，解决了语音识别两段不同语种的语音时，需要用户手动或者其他人工方式进行切换的问题，实现了无需用户切换的同时，可以达到语音识别准确率高、时延低、模块数量少的效果，尤其是在任务型的语音对话中，领域分类可以根据文本层面的信息，纠正声学分类模型导致的错误，进一步提高语音识别的准确率，也可以适用于混合语种的语音识别。

图4是本发明实施例提供的一种语音识系统的框架图，如图4所示，本发明实施例的一个使用过程可以是：通过语音信号前处理模块将语音的语音数据转换为声学特征，并将声学特征作为多任务学习语音识别模块的输入。通过多任务学习语音识别模块将声学特征转换为音素序列，通过语言模型和语音识别解码器将音素序列转换为文字序列，并输出用于融合决策的信息，可以包括各语种的识别置信度、语种置信度。通过语义分类模块对多任务学习语音识别模块中的文字序列进行领域分类，并确定领域置信度。通过融合决策模块，利用多任务学习语音识别模块的识别置信度、语种置信度以及语义分类模块的领域置信度，进行融合决策，选取最终的语音识别结果。

图5是本发明实施例提供的一种语音识别系统的框架图，如图5所示，本发明实施例的一个使用过程具体可以是：多任务学习语音识别模块包括声学分类模型、语言声学模型以及语言模型。输入的语音通过BERT模型得到深层次的声学特征，将声学特征输入到A语种的语言声学模型、B语种的语言声学模型以及声学分类模型中。语言声学模型根据声学特征得到语音对应的音素序列，声学分类模型根据声学特征判断语音属于各语种的语种置信度。不同语种的语言模型可以和解码器一起将对应语种音素序列转换为对应语种的文字序列，并确定文字序列的识别置信度。不同语种的语义分类模型可以对对应语种的文字序列进行领域分类，并确定每个领域的领域置信度。在信息融合决策模块中，可以利用识别置信度、语种置信度以及领域置信度进行决策，确定最终输出的文字序列。

实施例四

图6是本发明实施例四提供的一种语音识别装置的结构示意图。结合图6，该装置包括：声学特征转换模块410，音素序列输出模块420，文字序列转换模块430，语种分类模块440和识别结果获取模块450。

其中，声学特征转换模块410，用于获取待识别的语音，并将语音转换为声学特征；

音素序列输出模块420，用于将声学特征输入到至少两种语言声学模型中，输出对应的音素序列；其中，每种语言声学模型输出的音素序列的语种不相同；

文字序列转换模块430，用于将各个语种的音素序列转换成对应的文字序列，并确定文字序列的识别置信度；

语种分类模块440，用于根据声学特征，对语音进行语种分类，并确定语音属于各语种的语种置信度；

识别结果获取模块450，用于根据识别置信度和语种置信度，确定语音针对各语种的分类识别得分，并将分类识别得分最高值对应的文字序列作为语音的识别结果。

可选的，识别结果获取模块450，包括：领域置信度第一确定单元和分类识别得分第一确定单元；

领域置信度第一确定单元，用于针对每个语种的文字序列，确定文字序列在各领域的领域置信度；

分类识别得分第一确定单元，用于根据识别置信度、语种置信度和领域置信度，确定语音针对各语种的分类识别得分。

可选的，领域置信度第一确定单元，包括：领域置信度确定子单元；

领域置信度确定子单元，用于通过与文字序列语种对应的语义模型，对文字序列进行领域分类，得到文字序列在各领域的领域置信度。

可选的，识别结果获取模块450，包括：文字语种置信度确定单元，目标语种确定单元，领域置信度第二确定单元和分类识别得分第二确定单元；

文字语种置信度确定单元，用于针对每个语种的文字序列，对文字序列进行文字语种分类，确定文字序列属于各语种的文字语种置信度；

目标语种确定单元，用于根据语种置信度和文字语种置信度，确定语音属于各语种的语种分类得分，确定语种分类得分的最高值对应的语种为目标语种；

领域置信度第二确定单元，用于通过目标语种对应的语义模型，对所有文字序列进行领域分类，并确定文字序列属于各领域对应的领域置信度；

分类识别得分第二确定单元，用于根据识别置信度、语种分类得分和领域置信度，确定语音针对各语种的分类识别得分。

可选的，分类识别得分第一确定单元，包括：计算子单元和分类识别得分确定子单元

确定子单元，用于确定识别置信度与语种置信度的乘积，并确定乘积与领域置信度最高值的算术和；

分类识别得分确定子单元，用于将算术和作为语音针对各语种的分类识别得分。

可选的，声学特征转换模块410，包括：声学特征转换单元；

声学特征转换单元，用于将语音输入到语音处理深度学习模型，得到语音的声学特征。

可选的，文字序列转换模块430，包括：文字序列转换单元；

文字序列转换单元，用于将各个语种的音素序列分别输入到对应语种的语言模型，得到各个语种的音素序列对应的文字序列，并确定文字序列的识别置信度。

可选的，语音处理深度学习模型，包括：BERT模型。

本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7是本发明实施例五提供的一种语音识别设备的结构示意图，如图7所示，该设备包括：

一个或多个处理器510，图7中以一个处理器510为例；

存储器520；

所述设备还可以包括：输入装置530和输出装置550。

所述设备中的处理器510、存储器520、输入装置530和输出装置550可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种语音识别方法对应的程序指令/模块(例如，附图3所示声学特征转换模块410，音素序列输出模块420，文字序列转换模块430，语种分类模块440和识别结果获取模块450)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种语音识别方法，即：

获取待识别的语音，并将所述语音转换为声学特征；

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置550可包括显示屏等显示设备。

实施例六

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种语音识别方法：

获取待识别的语音，并将所述语音转换为声学特征；

根据所述识别置信度和所述语种置信度，确定所述语音针对各语种的分类识别得分，并将最高分类识别得分对应的文字序列作为所述语音的识别结果。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的语音，并将所述语音转换为声学特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述识别置信度和所述语种置信度，确定所述语音针对各语种的分类识别得分，包括：

针对每个语种的文字序列，确定所述文字序列在各领域的领域置信度；

根据所述识别置信度、所述语种置信度和所述领域置信度，确定所述语音针对各语种的分类识别得分。

3.根据权利要求2所述的方法，其特征在于，所述确定所述文字序列在各领域的领域置信度，包括：

通过与所述文字序列语种对应的语义模型，对所述文字序列进行领域分类，得到所述文字序列在各领域的领域置信度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述识别置信度和所述语种置信度，确定所述语音针对各语种的分类识别得分，包括：

针对每个语种的文字序列，对所述文字序列进行文字语种分类，确定所述文字序列属于各语种的文字语种置信度；

根据所述语种置信度和所述文字语种置信度，确定所述语音属于各语种的语种分类得分，确定语种分类得分的最高值对应的语种为目标语种；

通过所述目标语种对应的语义模型，对所有所述文字序列进行领域分类，并确定所述文字序列属于各领域对应的领域置信度；

根据所述识别置信度、所述语种分类得分和所述领域置信度，确定所述语音针对各语种的分类识别得分。

5.根据权利要求2所述的方法，其特征在于，所述根据所述识别置信度、所述语种置信度和所述领域置信度，确定所述语音针对各语种的分类识别得分，包括：

确定所述识别置信度与所述语种置信度的乘积，并确定所述乘积与领域置信度最高值的算术和；

将所述算术和作为所述语音针对各语种的分类识别得分。

6.根据权利要求1所述的方法，其特征在于，将所述语音转换为声学特征，包括：

将所述语音输入到语音处理深度学习模型，得到所述语音的声学特征；

将各个语种的音素序列转换成对应的文字序列，并确定所述文字序列的识别置信度，包括：

将各个语种的音素序列分别输入到对应语种的语言模型，得到各个语种的音素序列对应的文字序列，并确定所述文字序列的识别置信度。

7.根据权利要求6所述的方法，其特征在于，所述语音处理深度学习模型，包括：双向编码器的语音处理深度学习BERT模型。

8.一种语音识别装置，其特征在于，包括：

9.一种语音识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的一种语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种语音识别方法。