CN111090727A

CN111090727A - 语言转换处理方法、装置及方言语音交互系统

Info

Publication number: CN111090727A
Application number: CN201911242249.2A
Authority: CN
Inventors: 陈明佳
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-01
Anticipated expiration: 2039-12-06
Also published as: CN111090727B

Abstract

本发明公开一种语言转换处理方法，包括如下步骤：配置包含有多种第一语言及匹配的第二语言的语言数据对存储；获取待转换的第一语言文本；将第一语言文本与所述语言数据对中的内容进行搜索匹配，获取匹配度在预设范围内的第一备选数据对记录；通过构建的神经网络模型获取与第一语言文本匹配度在预设范围内的第二备选数据对记录；根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。本发明还公开了语言转换处理装置和系统。通过本发明提供的方法、装置和系统，可以实现两种不同语言之间的精准转换，例如实现将方言文本转换为普通话文本，然后将转换后的语言文本如普通话文本传递给后续的语义解析系统处理，实现方式简单方便，精确度高。

Description

语言转换处理方法、装置及方言语音交互系统

技术领域

本发明语音识别技术领域，特别是一种语言转换处理方法和装置，此外，本发明还涉及一种方言语音交互系统。

背景技术

随着语音识别技术的普及，人们对语音交互系统的需求在日益增高，特别是对音源的语种的多样化需求在快速提升，不再仅仅拘泥于普通话进行交互的形式，通过不同的语种如英语、法语、方言等进行交互的需求日益突出。然而，目前的语音交互系统都是基于普通话进行设计的，如果要实现其他语种，特别是方言的语音交互，就需要直接设计一套基于相应语种的交互系统，而针对每个语种都设计一套系统从研发成本、维护成本等各方面来说成本都是非常高昂的，且非常不便于维护和移植。而对于单个系统而言，其本身也会存在一定缺陷，例如，以设计一套基于方言的语音交互系统为例，整个语音交互系统的主要模块都使用方言的系统，包括语音识别、语义理解、对话管理模块都使用方言系统，这样带来的一大问题就是，每个系统都需要训练方言模型。而对于方言模型来说，原始数据的获取和标注的代价都很大，由于数据的稀缺性和需要专业的方言知识所限制，每个模块都难以达到较优的性能，并且由于整个系统是串联的，不稳定性会叠加放大。

基于此，目前业内提出的另一种解决方案是在语音识别和语义理解之间增加一个完整的翻译系统，将其他语种如方言文本先翻译为普通话文本，然后在进行普通话的语义解析处理，然而这种方式却存在如下缺陷：

首先，统计翻译系统对数据的数量和质量都要求较高，难以在短期内获取有效的满足需求的数据量，特别是对于方言来说，；

其次，统计翻译系统一般都是非实时系统，系统的延时会偏高，这对延时比较敏感的语音交互系统是致命的；

最后，现有的统计翻译系统的性能并不稳定，这将导致后续处理模块的结果极其的不稳定，而且由于机器学习模型的性能不能达到稳定的100％的准确性，而整个语音交互链路是串联模型，模块越多或者某个模块的稳定性越不足，语音交互系统的可靠性就可能越低，因此增加了统计翻译系统的语音交互系统的可靠性不高。

发明内容

为了解决上述问题，发明人构思在整个云端的语音处理链路中，在语音识别引擎与语义解析系统之间增加一个前置的转换系统，这样就不需要设计整个独立的其他语种的交互系统，例如不需要设计独立的整套方言交互系统，而是在这个前置的转换系统中就将接收到的语种文本转换为普通话文本，例如将方言文本转换为普通话文本，然后将普通话文本传递给后续的语义解析系统处理即可，这样整个语音交互系统的前端和后续处理都是可以共享共用的，只需在进行文本识别后增加一个转换模块，进行一个前置转换处理即可。并且，发明人经过反复的试验，在进行文本转换时，想到采用基于文本相似性的检索系统，这样增加的转换系统就不同于一个完整的端到端的机器翻译系统，其实现方式更简单，而且语音转化的准确率高。

根据本发明的第一个方面，提供了一种语言转换处理方法，包括如下步骤：配置包含有第一语言及匹配的第二语言的语言数据对存储；获取待转换的第一语言文本；将第一语言文本与语言数据对中的内容进行搜索匹配，获取匹配度在预设范围内的第一备选数据对记录；通过构建的神经网络模型获取与第一语言文本匹配度在预设范围内的第二备选数据对记录；根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。通过预先配置语言数据对，进行基于规则的内容匹配，通过构建的神经网络模型，进行基于统计模型的匹配，之后结合两种匹配策略确定最终的文本转换结果，实现了基于规则和统计模型融合来进行第一语言和第二语言之间的转换，该方案的优势弥补了基于现有的机器学习算法，训练优化周期通常比较耗时，且在线系统如果发现问题，通常需要快速的处理，纯统计模型的方案并不能满足需求的缺陷。且本方案可以同时利用统计模型和规则方案的优势，在统计模型不能满足需求时，可以通过快速的增加匹配对来基于规则方案解决问题。因而，整个技术方案能够快速搭建，且能准确实现转换，可用性高。另外，由于本融合策略的实现方案基于文本相似性进行检索，结合语音交互系统通常是基于任务型领域的特征，语料的数据收集和标注相对容易且能够基于现有任务型的普通话数据去预估模拟，因而能够达到快速数据获取和模型优化。

在一些实施方式中，通过构建的神经网络模型获取与第一语言文本匹配度在预设范围内的第二备选数据对记录包括如下步骤：配置包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库；根据构建的神经网络模型将第一语言文本转换为第一特征向量；根据第一语言文本从语言数据对获取文本匹配度在设定阈值内的数据对记录；根据数据对记录和神经特征网络库对数据对记录进行特征转换，获取数据对记录的特征向量；根据第一特征向量和数据对记录的特征向量的相似性，获取与第一语言文本匹配度在预设范围内的数据对记录作为第二备选数据对记录。通过将输入的第一语言文本转换为特征向量，然后首先基于文本相似度获取数据对记录，之后基于特征向量的余弦相似度确定匹配度在预设范围内的数据对记录作为基于神经网络模型匹配得到的第二备选数据对记录，能够有效提高匹配出的第二备选数据对记录的相似度，进而提高转换结果的准确率。并且，在基于特征向量计算相似性时，如果将数据库中的每一个备选特征都与提取出来的特征进行相似度计算，那计算量将会非常大，而通过在备选数据库中先搜索出近似度较高的文本，然后只挑选这部分备选数据的特征向量进行相似进行计算，可以做到指数级的减少计算量。

在一些实施方式中，根据构建的神经网络模型将第一语言文本转换为第一特征向量实现为包括如下步骤：对第一语言文本进行分词处理，并对分词处理后的每一个词从预先配置的词典中获取其对应的词向量；将第一语言文本中每一个词对应的位置编号转换为位置向量；根据词向量与位置向量生成第一特征向量。基于为字典中各个分词配置的词向量和每个词在句子中的位置对应的位置向量来生成第一特征向量，能够有效使得计算出的第一特征向量体现出整个句子的相关信息，由此在基于特征向量的相似度进行匹配时，能够更加有效地匹配到实际相似度高的数据对记录，得到更加精准的转换结果。在使用特征向量时，使用的不仅是最后一层隐藏层的数据作为特征，而且还会将词向量与位置向量相加后的向量与BERT中最后一层隐藏层的输出的特征相连接作为真正的特征向量。这样做的优势在于可以在保留句子原始的特征信息的时候，有能利用句子更深层的特征。对于整个系的稳定性和准确性都有极大的帮助。

在一些实施方式中，获取的匹配度在预设范围内的第一备选数据对记录和第二备选数据对记录为匹配度最高的第一备选数据对记录和第二备选数据对记录，根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出实现为包括如下步骤：分别获取第一备选数据对记录和第二备选数据对记录与第一语言文本的相似度；根据获取的相似度，取相似度最大的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出。通过比较规则方案匹配出匹配度最高的第一备选数据对记录和统计模型匹配出匹配度最高的第二备选数据对记录的相似度，来确定最终的文本转换结果，能够进一步提高转换结果的匹配度和准确性。并且，通过将两种方案进行融合，选取相似度更高的备选数据对记录实现最终的文本转换，能够有效利用两种方案各自的优势，使得转换系统的构建过程短、实用性和准确率更高。

在一些实施方式中，获取的匹配度在预设范围内的第一备选数据对记录和第二备选数据对记录为匹配度在预设阈值的第一备选数据对记录和第二备选数据对记录，根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出还实现为包括如下步骤：配置第一备选数据对记录和第二备选数据对记录的置信度权重；获取第一备选数据对记录和第二备选数据对记录中的交集文本；在交集文本的数量大于一时，根据置信度权重和交集文本中的备选数据对记录与第一语言文本的相似度分别计算交集文本中各备选数据对记录的最终置信度，将所述最终置信度进行排序，获取置信度最大的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出；在交集文本的数量为一时，将交集文本中的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出；或将置信度权重较高的备选数据对记录中与第一语言文本的相似度最高的数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出。通过比较两者的交集文本和置信度，能够获取置信度最高的文本转换结果，大幅提高转换结果的准确率。并且，通过将两种方案进行融合，选取置信度更高的备选数据对记录实现最终的文本转换，能够有效利用两种方案各自的优势，使得转换系统的构建过程短、实用性和准确率更高。

在一些实施方式中，第一语言为方言，第二语言为普通话；或第一语言为普通话，第二语言为方言。由此，可以实现方言与普通话之间的相互转换，使得现有的语音交互系统可以同时应用于普通话和方言，提高现有语音交互系统的复用率。

在一些实施方式中，第一语言文本与语言数据对中的内容进行搜索匹配，获取匹配度最高的第一备选数据对记录是通过倒排索引法进行搜索匹配的。使用基于倒排索引的搜索架构，会将输入文本在备选数据库中先搜索出近似度较高的文本，然后只挑选这部分备选数据的特征向量进行相似进行计算，可以做到指数级的减少计算量。

根据本发明的第二个方面，提供了一种语言转换处理装置，存储模块，用于存储配置的包含有第一语言及匹配的第二语言的语言数据对；第一获取模块，用于获取待转换的第一语言文本；第一备选模块，用于将第一语言文本与语言数据对中的内容进行搜索匹配，获取匹配度最高的第一备选数据对记录；第二备选模块，用于通过构建的神经网络模型获取与第一语言文本匹配度最高的第二备选数据对记录；转换模块，用于根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。该语音转换处理装置通过设置第一备选模块和第二备选模块，能够实现机器学习和规则方案的融合，该两个模块分别获取到了最接近的备选数据对记录后，在转换模块会基于两者的融合策略，选取最为准确的结果作为文本转换结果输出，大幅提高转换结果的准确率，而且能够有效避免机器学习和规则方案自身的缺陷，提高系统的可用性。另外，由于本融合策略的实现方案基于文本相似性进行检索，结合语音交互系统通常是基于任务型领域的特征，语料的数据收集和标注相对容易且能够基于现有任务型的普通话数据去预估模拟，因而能够达到快速数据获取和模型优化，由此可见，相对于现有的神经网络机器翻译系统，本发明的转换系统由于融合了机器学习和规则的方案，因而神经网络模型的层数和结构都相对更加简单，其由于不像一个完整的神经网络及其翻译系统那样是一个完整的端到端的架构设计，因而系统的实时性更好，能够有效地融合于实时性要求高的语音交互系统。

在一些实施方式中，存储模块还用于存储配置的包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库；其中，第二备选模块包括：

第一特征向量获取单元，用于根据构建的神经网络模型将第一语言文本转换为第一特征向量；

第二特征向量获取单元，用于根据第一语言文本从语言数据对获取文本匹配度在设定阈值内的数据对记录，根据数据对记录和神经特征网络库对数据对记录进行特征转换，获取数据对记录的特征向量；和

备选数据对确定单元，用于根据第一特征向量和数据对记录的特征向量的余弦相似性，获取与第一语言文本匹配度最高的数据对记录作为第二备选数据对记录。通过将输入的第一语言文本转换为特征向量，然后首先基于文本相似度获取数据对记录，之后基于特征向量的余弦相似度确定匹配度最高的数据对记录作为基于神经网络模型匹配得到的第二备选数据对记录，能够有效提高匹配出的第二备选数据对记录的相似度，进而提高转换结果的准确率。并且，在基于特征向量计算相似性时，如果将数据库中的每一个备选特征都与提取出来的特征进行相似度计算，那计算量将会非常大，而通过在备选数据库中先搜索出近似度较高的文本，然后只挑选这部分备选数据的特征向量进行相似进行计算，可以做到指数级的减少计算量。

根据本发明的第三个方面，本发明还提供了一种方言语音交互系统，包括：语音识别引擎，用于获取当前方言语音信息转换为方言语音文本输出至下述语音转换引擎；语音转换引擎，其实现为上述的语言处理转换装置，其中，该装置中的第一语言配置为方言，第二语言配置为普通话，用于将方言语音文本转换为普通话文本，生成文本转换结果输出；语义解析引擎，用于对文本转换结果进行语义解析生成解析结果输出；对话管理引擎，用于根据解析结果实现语音交互。通过将上述的转换系统引入到传统的语音交互系统，就可以快速构建一个适用于目标语种的语音交互系统，搭建快速，方便维护，且转换准确率高。

根据本发明的第四个方面，提供了一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法的步骤。

根据本发明的第五个方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

附图说明

图1为本发明一实施方式的语言转换处理方法流程图；

图2为本发明另一实施方式的语言转换处理方法流程图；

图3为本发明一实施方式的语言转换处理装置原理示意图；

图4为本发明一实施方式的方言语音交互系统原理框图；

图5为本发明一实施方式的电子设备原理图。

具体实施方式

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一种实施方式的语言转换处理方法流程，如图1所示，本实施例的方法包括如下步骤：

步骤S101：配置包含有第一语言及匹配的第二语言的语言数据对存储。其中，示例性地，第一语言为方言，第二语言为普通话。在其他实现例中，根据不同的场景需求，第一语言也可以设计为英语、法语等；而根据具体的需求，还可以进行反向设计，例如将第一语音配置为普通话，而将第二语言配置为方言或其他需求语种等，本发明实施例对此不进行限制。

以第一语言为方言，第二语言为普通话为例，本实施例以用户交互意图不明确的通用语音交互领域(例如包括：闲聊，百科，问答等语音领域)和以用户交互意图明确的任务型交互领域(例如包括：歌曲播放，天气查询，故事播放等领域)的方言交互数据作为基础，在具体应用时，基于任务型的领域用户的说法和话术固定(例如音乐领域常用语句为：播放XXX的歌曲等)，有利于数据的收集和标注，并且可以根据现有的任务型的普通话数据去预估并模拟对应的方言数据，能够达到快速数据获取。以此方言交互数据作为基础，配置方言与普通话互相匹配的语言数据对进行存储，具体的匹配规则可以参照现有技术中的方言类的解析文献进行匹配和补充，将多种方言与同一语义的普通话进行匹配。

步骤S102:获取待转换的第一语言文本。待转换的第一语言文本可以直接由语音识别引擎输入，也可以通过其他方式获取，以该技术方案的具体应用场景进行具体设计。以将其应用在语音识别引擎之后，实现对识别后的语音文本进行转换为例，具体实现为：启动具有拾音功能的音频采集装置获取用户输出的语音，通过现有的语音识别引擎对该语音数据进行语音识别转换成第一语音文本，以第一语言为方言为例，该第一语音文本包含有根据初步的语音识别得到的方言文本，该文本即为待转换的第一语言文本。

步骤S103：将第一语言文本与语言数据对中的内容进行搜索匹配，获取匹配度最高的第一备选数据对记录。具体实现为：为了提高语言转换的准确性，首先将获取的第一语言文本进行预处理，例如包括分词、去停用词、去除异常长句等操作，之后将预处理后的第一语言文本与步骤S101配置的语言数据对中的内容进行搜索匹配，从而获取匹配度最高的数据作为第一备选数据。为了提高获取的匹配关系的精准度，选用现有技术中的倒排索引法将第一语言文本的内容与语言数据对的内容进行搜索匹配。

步骤S104：通过构建的神经网络模型获取与第一语言文本匹配度最高的第二备选数据对记录。具体实现为：首先根据构建的神经网络模型将第一语言文本转换为第一特征向量，该第一特征向量具体的转换方式实现为：在进行字典配置的时候，为每个字典中的词配置唯一的数字编号，并为每个数字编号配置对应的词向量存储；这样在获取到第一语言文本后，本发明实施例提供的神经网络模型首先对第一语言文本进行分词处理(可以参照现有技术中分词处理的实现方式)，之后，对分词处理后的每一个词从字典中获取到其对应的唯一的数字编号，并通过数字编号取出该词对应的词向量；接着，将第一语言文本中每一个词对应的位置编号转换为位置向量，根据词向量与位置向量进行加和计算，并将加和计算的结果作为深度神经网络的输入，然后经由神经网络模型的处理，生成第一特征向量输出。为了保证向量可以正常的加和计算，设置的词向量和位置向量的维度是一致的。在生成第一特征向量时，采取的是与原始特征相加和正则化的多层操作，这样可以有效防止神经网络计算过程中某些信息丢失或者不稳定，以通过注意力机制将一整个句子的相关信息转换为特征向量。生成第一特征向量后，再根据第一语言文本从语言数据对获取文本匹配度在设定阈值内的数据对记录，该阈值的设置可以根据精确度的要求自行设置，例如将阈值设定为相似度较高的排名前20次位的数据。为了减小实时计算备选文本的特征向量带来的延时，保证整个系统的实时性，还配置了包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库，这样就可以根据数据对记录和神经特征网络库对获取的匹配度较高的一定数量如20个数据对记录进行特征转换，获取这些数据对记录的特征向量，将第一特征向量与获取到的这些数据对记录的特征向量进行比较，实时性更高，且能有效大幅减少计算量。具体地，可以是根据第一特征向量和数据对记录的特征向量的相似性来进行比较，从而确定第二备选数据对记录。示例性地比较相似性实现为比较其余弦相似性，该余弦相似性体现为：相似度是一个0到1之间的某一值，且值越接近于1表示两个向量越接近。这样，就可以通过比较第一特征向量和数据对记录的特征向量的余弦相似性，来获取与第一语言文本匹配度最高即相似性最大的数据对记录作为第二备选数据对记录。

步骤S105：根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。

通过基于规则的方案获取到第一备选数据对记录，并基于统计模型的方案获取到第二备选数据对记录后，可以基于一定的融合策略来选取最合适的备选数据对记录，从而确定最终的文本转换结果。作为一种实现方式较简单的优选实现例，可以基于相似度来选取更合适的备选数据对记录。示例性地，分别获取第一备选数据对记录和第二备选数据对记录与第一语言文本的相似度，该相似度优选实现为比较其余弦相似性，具体实现方法可以为：通过神经特征网络库获取第一备选数据对记录的特征向量，然后根据上述步骤获取到的第二备选数据对记录和第一语言文本的第一特征向量，分别比较第一备选数据对记录的特征向量与第一语言文本的第一特征向量的余弦相似度、以及第二备选数据对记录的特征向量与第一语言文本的第一特征向量的余弦相似度，根据获取的余弦相似度，取相似度最大的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出。

作为另一实现方案，还可以基于置信度来选取更合适的备选数据对记录，以避免在单一的匹配过程中获取的最相似的备选数据对记录可能不是最优方案，实现基于对备选数据对记录的综合考量来确定最优的备选数据对记录，以达到提高转换结果的准确性的效果。图2示意性地显示该实施方式下进行语言转换处理的方法流程，如图2所示，其包括如下步骤：

步骤S201：配置包含有第一语言及匹配的第二语言的语言数据对存储。其实现方法参照步骤S101，在此不再赘述。

步骤S202：获取待转换的第一语言文本。其实现方法参照步骤S102，在此不再赘述。

步骤S203：将第一语言文本与语言数据对中的内容进行搜索匹配，获取匹配度较高的第一组备选数据对记录。具体实现为：为了提高语言转换的准确性，首先将获取的第一语言文本进行预处理，例如包括分词、去停用词、去除异常长句等操作，之后将预处理后的第一语言文本与步骤S101配置的语言数据对中的内容进行搜索匹配，从而获取匹配度较高即在一定范围内的一组数据作为第一组备选数据，例如获取匹配度为前十的一组备选数据对记录作为第一组备选数据对记录。为了提高获取的匹配关系的精准度，选用现有技术中的倒排索引法将第一语言文本的内容与语言数据对的内容进行搜索匹配。

步骤S204：通过构建的神经网络模型获取与第一语言文本匹配度最高的第二组备选数据对记录。具体实现为：首先根据构建的神经网络模型将第一语言文本转换为第一特征向量，该第一特征向量具体的转换方式实现为：在进行字典配置的时候，为每个字典中的词配置唯一的数字编号，并为每个数字编号配置对应的词向量存储；这样在获取到第一语言文本后，本发明实施例提供的神经网络模型首先对第一语言文本进行分词处理(可以参照现有技术中分词处理的实现方式)，之后，对分词处理后的每一个词从字典中获取到其对应的唯一的数字编号，并通过数字编号取出该词对应的词向量；接着，将第一语言文本中每一个词对应的位置编号转换为位置向量，根据词向量与位置向量进行加和计算，并将加和计算的结果作为深度神经网络的输入，然后经由神经网络模型的处理，生成第一特征向量输出。为了保证向量可以正常的加和计算，设置的词向量和位置向量的维度是一致的。在生成第一特征向量时，采取的是与原始特征相加和正则化的多层操作，这样可以有效防止神经网络计算过程中某些信息丢失或者不稳定，以通过注意力机制将一整个句子的相关信息转换为特征向量。生成第一特征向量后，再根据第一语言文本从语言数据对获取文本匹配度在设定阈值内的数据对记录，该阈值的设置可以根据精确度的要求自行设置，例如将阈值设定为相似度较高的排名前20次位的数据。为了减小实时计算备选文本的特征向量带来的延时，保证整个系统的实时性，还配置了包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库，这样就可以根据数据对记录和神经特征网络库对获取的匹配度较高的一定数量如20个数据对记录进行特征转换，获取这些数据对记录的特征向量，将第一特征向量与获取到的这些数据对记录的特征向量进行比较，实时性更高，且能有效大幅减少计算量。具体地，可以是根据第一特征向量和数据对记录的特征向量的相似性来进行比较，从而确定第组二备选数据对记录。示例性地比较相似性实现为比较其余弦相似性，该余弦相似性体现为：相似度是一个0到1之间的某一值，且值越接近于1表示两个向量越接近。这样，就可以通过比较第一特征向量和数据对记录的特征向量的余弦相似性，来获取与第一语言文本匹配度较高即相似性较大(即在一定范围内)的数据对记录作为第二组备选数据对记录，其中，获取的第二组备选数据对记录的数量设置为与第一组备选数据对记录的数量等同，例如都为相似度在前十的数据对记录作为第二组备选数据对记录。

步骤S205：根据第一组备选数据对记录和第二组备选数据对记录确定文本转换结果输出。示例性可以实现为：获取第一组备选数据对记录和第二组备选数据对记录中的交集文本，即将两组备选数据对记录中文本内容相同的数据对记录提取出来；之后，对提取出的交集文本，基于预先配置的第一组备选数据对记录和第二组备选数据对记录的置信度权重，分别对交集文本记录的置信度进行加权计算生成各自的最终置信度，将最终置信度进行排序，获取置信度最大的交集文本数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出。示例性地，第一组备选数据对记录包括了匹配度在前五的备选数据对记录为{你好啊、你好吧、你好啦、你好呀、你好吗}，第二组备选数据对记录包括了相似度在前五的备选数据对记录为{你好啊、你好呢、你好么、你好呀、你好吗}，通过将两组备选数据对进行比较，获取第一组备选数据与第二组备选数据中的交集文本为{你好啊、你好呀、你好吗}，为两组置信度赋予不同的权重(例如0.6：0.4),其中，哪组的权重越高表示越倾向于相信该组的匹配结果。然后，分别获取每个交集文本数据对记录与第一语言文本的余弦相似度，通过公式：置信度＝该交集文本在第一组备选数据对中与第一语言文本的余弦相似度*第一组备选数据对的权重+该交集文本在第二组备选数据对中与第一语言文本的余弦相似度*第二组备选数据对的权重，来分别计算出每个交集文本记录的置信度作为该语句的最终的置信度，最后根据置信度分数进行排序，取分数最大的为最终的输出结果。如你好啊这个交集文本记录在第一组备选数据对记录中与第一语言文本的相似度为0.7，在第二组备选数据对记录中与第二语言文本的相似度为0.8，那么你好啊这个交集文本记录的最终置信度就为0.7*0.6+0.8*0.4＝0.74，用同样的方法分别计算交集文本中你好呀、你好吗的最终置信度，并进行分数排序，取分数最大的数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出即可。其中，计算相似度的方法即为前文所述的计算特征向量的余弦相似性。需要特别说明的是，如果交集文本中记录的数量为一个，则直接将交集文本中的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出，或者将置信度权重较高的备选数据对记录中与第一语言文本的相似度最高的数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出(例如选择置信度权重为0.6的第一备选数据对中与第一语言文本匹配度最高的备选数据对记录，并将该数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出)，而不再计算置信度。

根据上述方法构建的方案，不是完全使用基于机器学习，而是采取基于规则和统计模型融合的架构，克服了现有技术中大多机器的算法为黑盒优化，训练优化周期通常比较耗时，在线系统如果发现问题，通常基于通常需要快速的处理，纯统计模型的方案并不能满足需求的问题。从而达到快速且精准的匹配与方言文本对应的普通话文本。并且，在进行神经网络模型和规则数据库配置时，能够有效利用基于任务型的领域用户的说法和话术固定(如音乐领域常说的句子就会说播放XXX的歌曲等)的特点和优势，来收集数据和标注，并且可以根据现有任务型的普通话数据去预估并模拟对应的方言数据，能够达到快速数据获取和模型优化。根据本实施例提供的方法，其实现方式简单，语音转化的准确率高，并且能够快速应用到现有的语音交互系统中，实现对语音交互系统的应用场景的扩展。

图3示意性地显示了根据本发明一实施方式的语言转换处理装置原理性框架结构，如图3所示，

本实施例的语言转换处理装置包括存储模块1、获取模块2、第一备选模块3、第二备选模块4和转换模块5。其中，存储模块1用于存储配置的包含有第一语言及匹配的第二语言的语言数据对和存储配置的包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库。其中，示例性地，第一语言可以配置为方言，第二语言配置为与方言相对应的普通话，在神经网络特征库中包括有配置的语言数据对的记录，且为每个记录关联有相应的特征向量。为了适应方言应用的语音场景，本实施例优选以用户交互意图不明确的通用语音交互领域(例如包括：闲聊，百科，问答等语音领域)和以用户交互意图明确的任务型交互领域(例如包括：歌曲播放，天气查询，故事播放等领域)的方言交互数据作为基础，在具体应用时，利用基于任务型的领域用户的说法和话术固定(例如音乐领域常用语句为：播放XXX的歌曲等)，有利于数据的收集和标注的特点，基于现有的任务型的普通话数据去预估并模拟对应的方言数据，从而构建语言数据对，以达到快速数据获取的效果。以此方言交互数据作为基础，配置多种方言与普通话互相匹配的语言数据对进行存储，具体的匹配规则可以参照现有技术中的方言类的解析文献进行匹配和补充，将多种方言与同一语义的普通话进行匹配。

获取模块2用于获取待转换的第一语言文本，可以通过用户输入获取或通过语音识别引擎获取。以将该装置应用到现有的语音交互系统中，并设置在语音识别引擎与语义解析引擎之间为例，可以实现为通过启动具有拾音功能的音频采集装置获取用户输出的语音，通过现有的语音识别引擎对该语音数据进行语音识别转换成第一语言文本后输出至该获取模块2。示例性地，该第一语言文本包含有根据初步的语音识别得到的方言文本。

第一备选模块3用于将第一语言文本与语言数据对中的内容进行搜索匹配，获取匹配度在预设范围内的第一备选数据对记录。第二备选模块4用于通过构建的神经网络模型获取与第一语言文本匹配度在预设范围内的第二备选数据对记录。转换模块5用于根据第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。其中，第二备选模块4具体包括第一特征向量获取单元、第二特征向量获取单元和备选数据对确定单元。其中，第一特征向量获取单元用于根据构建的神经网络模型将第一语言文本转换为第一特征向量；第二特征向量获取单元用于根据第一语言文本从语言数据对获取文本匹配度在设定阈值内的数据对记录，并根据数据对记录和神经特征网络库对数据对记录进行特征转换，获取数据对记录的特征向量；备选数据对确定单元用于根据第一特征向量和数据对记录的特征向量的余弦相似性，获取与第一语言文本匹配度在预设范围内的数据对记录作为第二备选数据对记录。对于第一备选模块3、第二备选模块4和转换模块5的具体实现方式可以参照上述图1或图2的方法部分描述，在此不再赘述。其中，在图1的实现方案下，这里的匹配度在预设范围内是指匹配度最高的那条记录，而在图2的实现方案下，这里的匹配度在预设范围内是指匹配度在设定的数量内，如匹配度前五或前十的数据对记录。

在具体实现中，第二备选模块4可以实现为BERT模型转换模块，在现有的机器学习领域有非常多种神经网络，但是BERT能够在大量的通用语料(非任务型的方言语料，并且数据无需人工标注)预训练进行，然后使用任务型的方言语料微调训练，只需要一次大规模的预训练，然后通过快速的微调就可以达到不错的特征提取效果，使得整个模型的准确度能到实际运用的要求。当然，在更好的神经网络模型出现时，本发明实施例的神经网络模型也不可以不局限于选用BERT模型，而是可以替换为更优的神经网络模型，并通过上述融合方法和特征向量确定及相似度比对方法来实现基于文本相似性计算的语言文本转换。这种实现方式，不需要进行复杂的模型训练和设计，基于语音交互场景可以快速获取数据和进行模型优化，实现简单，且转换的准确性和实时性非常高，有助于快速搭建符合语言需求的语音交互系统。并且由于第二备选模块4是独立进行基于神经网络模型的处理的，其只需要将结果输出给转换模块5即可，与第一备选模块3和转换模块5的内容处理是相互独立的，因而可以容易地将其根据需求切换到不同的神经网络模型，因而装置的系统升级维护非常容易。

根据本实施例提供的装置，可以实现将第一语言转换为需要的第二语言，并且转换过程中会结合规则方案和机器学习统计模型进行更高效的转换方案确定，提高方言语音转化为普通话的准确率，并且方便移植到现有的语音交互系统，实现快速对现有语音交互系统的语言应用场景的改造，可用性高。

图4示意性地显示了根据本发明一实施方式的方言语音交互系统原理性框架结构，如图4所示，

该方言语音交互系统包括：语音识别引擎7、语音转换引擎8、语义解析引擎9和对话管理引擎10。语音识别引擎7用于获取当前方言语音信息转换为方言语音文本输出至下述语音转换引擎。其中，语音识别引擎7、语义解析引擎9和对话管理引擎10均可选用现有的语音交互系统的相应引擎模块，而语音转换引擎8实现为上述的语言处理转换装置，在该应用场景中，语言处理转换装置的存储模块中的语言数据对中配置的第一语言为方言，第二语言为普通话，以用于将方言语音文本转换为确定文本生成转换结果输出。语义解析引擎9用于对转换结果进行语义解析生成解析结果输出。对话管理引擎10用于根据解析结果实现语音交互。

示例性地，对于智能家居设备的场景应用，首先由智能家居设备端采集方言的语音数据，将语音数据经过设备端信号处理后，通过网络传给云端的系统，云端系统首先将语音通过方言语音交互系统的语音识别引擎7，识别出来第一语言文本即方言文本，之后将该第一语言文本作为待转换语言文本输出至语音转换引擎8，以通过语音转换引擎8将第一语言文本即方言文本转换为第二语言文本即普通话文本输出至语义解析引擎9，然后通过语义解析引擎9和对话管理引擎10对该普通话文本进行相应的处理后将处理结果返回给智能家居设备，在该应用场景中，语义解析引擎9和对话管理引擎10均采用现有的普通话语义引擎和普通话对话系统进行处理即可，不需要再重新设计新的语义解析引擎9和对话管理引擎10，由此，可以快速搭建支持方言识别、语义和对话管理的一套完整的人机对话交互系统。

可以理解的是，根据需求，在其他场景下，也可以将第一语言设置为普通话，而将第二语言设置为方言，以实现方言系统设计。另外，还可以根据需求将第一语言和第二语言设置为需要的其他语言，本发明实施例对此不进行限制。可见，上述装置和方法不仅可以适用于某一种方言，只要有适当的某种方言与普通话对应的数据，就可以搭建对应的方言交互系统中的方言普通话转换模块。可以快速的扩展到更多的方言交互系统中运用，做到快速规模化。并且该方案不只是适用于某一种任务型对话场景，可以快速的扩展到其他的任务型对话的场景。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，存储介质中存储有一个或多个包括执行指令的程序，执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述语言转换处理的方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当所程序指令被计算机执行时，使计算机执行上述语言转换处理的方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被所述至少一个处理器执行，以使至少一个处理器能够执行上述语言转换处理的方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时能够执行上述语言转换处理的方法。

上述本发明实施例的语言转换处理的装置可用于执行本发明实施例的语言转换处理的方法，并相应的达到上述本发明实施例的实现语言转换处理的方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图5是本申请另一实施例提供的执行语言转换处理的方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图4中以一个处理器510为例。

执行语言转换处理的方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语言转换处理的方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语言转换处理的方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语言转换处理的装置的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至语言转换处理的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与语言转换处理的装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

上述一个或者多个模块存储在存储器520中，当被一个或者多个处理器510执行时，执行上述任意方法实施例中的语言转换处理的方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语言转换处理方法，其特征在于，包括如下步骤：

配置包含有第一语言及匹配的第二语言的语言数据对存储；

获取待转换的第一语言文本；

将所述第一语言文本与所述语言数据对中的内容进行搜索匹配，获取匹配度在预设范围内的第一备选数据对记录；

通过构建的神经网络模型获取与所述第一语言文本匹配度在预设范围内的第二备选数据对记录；

根据所述第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。

2.根据权利要求1所述的方法，其特征在于，通过构建的神经网络模型获取与所述第一语言文本匹配度在预设范围内的第二备选数据对记录包括如下步骤：

配置包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库；

根据构建的神经网络模型将所述第一语言文本转换为第一特征向量；

根据所述第一语言文本从所述语言数据对获取文本匹配度在设定阈值内的数据对记录；

根据所述数据对记录和神经特征网络库对所述数据对记录进行特征转换，获取数据对记录的特征向量；

根据所述第一特征向量和数据对记录的特征向量的相似性，获取与所述第一语言文本匹配度在预设范围内的数据对记录作为第二备选数据对记录。

3.根据权利要求2所述的方法，其特征在于，根据构建的神经网络模型将所述第一语言文本转换为第一特征向量实现为包括如下步骤：

对所述第一语言文本进行分词处理，并对分词处理后的每一个词从预先配置的词典中获取其对应的词向量；

将所述第一语言文本中每一个词对应的位置编号转换为位置向量；

根据所述词向量与所述位置向量生成第一特征向量。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取的匹配度在预设范围内的第一备选数据对记录和第二备选数据对记录为匹配度最高的第一备选数据对记录和第二备选数据对记录，所述根据所述第一备选数据对记录和第二备选数据对记录确定文本转换结果输出实现为包括如下步骤：

分别获取所述第一备选数据对记录和第二备选数据对记录与所述第一语言文本的相似度；

根据获取的相似度，取相似度最大的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述获取的匹配度在预设范围内的第一备选数据对记录和第二备选数据对记录为匹配度在预设阈值的第一备选数据对记录和第二备选数据对记录，所述根据所述第一备选数据对记录和第二备选数据对记录确定文本转换结果输出还实现为包括如下步骤：

配置所述第一备选数据对记录和第二备选数据对记录的置信度权重；

获取所述第一备选数据对记录和第二备选数据对记录中的交集文本；

在交集文本的数量大于一时，根据置信度权重和交集文本中的备选数据对记录与第一语言文本的相似度分别计算交集文本中各备选数据对记录的最终置信度，将所述最终置信度进行排序，获取置信度最大的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出；

在交集文本的数量为一时，将交集文本中的备选数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出；或将置信度权重较高的备选数据对记录中与第一语言文本的相似度最高的数据对记录中的第一语言文本对应的第二语言文本作为文本转换结果输出。

6.根据权利要求4或5所述的方法，其特征在于，所述第一语言为方言，所述第二语言为普通话；或所述第一语言为普通话，所述第二语言为方言。

7.根据权利要求6所述的方法，其中，将所述第一语言文本与所述语言数据对中的内容进行搜索匹配，获取匹配度在预设范围内的第一备选数据对记录是通过倒排索引法进行搜索匹配的。

8.语言转换处理装置，其特征在于，

存储模块，用于存储配置的包含有第一语言及匹配的第二语言的语言数据对；

数据获取模块，用于获取待转换的第一语言文本；

第一备选模块，用于将所述第一语言文本与所述语言数据对中的内容进行搜索匹配，获取匹配度在预设范围内的第一备选数据对记录；

第二备选模块，用于通过构建的神经网络模型获取与所述第一语言文本匹配度在预设范围内的第二备选数据对记录；和

转换模块，用于根据所述第一备选数据对记录和第二备选数据对记录确定文本转换结果输出。

9.根据权利要求8所述的装置，其特征在于，所述存储模块还用于存储配置的包括有第一语言和第二语言数据对及其对应的特征向量的神经网络特征库；

所述第二备选模块包括：

第一特征向量获取单元，用于根据构建的神经网络模型将所述第一语言文本转换为第一特征向量；

第二特征向量获取单元，用于根据所述第一语言文本从所述语言数据对获取文本匹配度在设定阈值内的数据对记录，根据所述数据对记录和神经特征网络库对所述数据对记录进行特征转换，获取数据对记录的特征向量；和

备选数据对确定单元，用于根据所述第一特征向量和数据对记录的特征向量的余弦相似性，获取与所述第一语言文本匹配度在预设范围内的数据对记录作为第二备选数据对记录。

10.一种方言语音交互系统，其特征在于，包括：

语音识别引擎，用于获取当前方言语音信息转换为方言语音文本输出至下述语音转换引擎；

语音转换引擎，其实现为权利要求8或9所述的语言处理转换装置，其中，第一语言配置为方言，第二语言配置为普通话，用于将所述方言语音文本转换为普通话文本生成文本转换结果输出；

语义解析引擎，用于对所述文本转换结果进行语义解析生成解析结果输出；和

对话管理引擎，用于根据所述解析结果实现语音交互。

11.电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。

12.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。