CN111126084B

CN111126084B - 数据处理方法、装置、电子设备和存储介质

Info

Publication number: CN111126084B
Application number: CN201911269340.3A
Authority: CN
Inventors: 郝杰
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-06-27
Anticipated expiration: 2039-12-11
Also published as: CN111126084A

Abstract

本发明公开了一种数据处理方法、装置、电子设备和存储介质。其中，方法包括：获取待处理数据；利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。

Description

数据处理方法、装置、电子设备和存储介质

技术领域

本发明涉及同声传译技术，具体涉及一种数据处理方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的迅速发展，语言模型被广泛地应用在语音识别、输入法、信息检索、文本校正等技术领域：比如，在输入法领域中，语言模型用于确定用户输入的拼音序列最有可能对应的文字序列；再比如，在语音识别领域中，语言模型通常与声学模型结合组成语音识别系统，以确定用户输入的语音对应的文本。其中，语音识别系统又被广泛地应用在各种场景，尤其是同声传译场景。

然而，相关技术中，存在语言模型的识别结果准确率低的情况。

发明内容

为解决相关技术问题，本发明实施例提供一种数据处理方法、装置、电子设备和存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取待处理数据；

利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；

基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；

基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。

上述方案中，所述基于所述第一词图和语料库中的语料，确定第二语言模型，包括：

利用所述第一词图确定第二文本；

基于所述第二文本，结合预设分类模型，确定所述待处理数据属于至少一个预设技术领域中每个技术领域的概率，得到至少一个概率；

判断所述至少一个概率是否满足第一预设条件，得到判断结果；

基于所述判断结果，结合所述语料库中的语料，确定第二语言模型。

上述方案中，所述判断结果表征所述至少一个概率不满足第一预设条件；所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，包括：

从所述第二文本中提取至少一个关键词；

基于所述至少一个关键词，从所述语料库中确定满足第二预设条件的语料；

利用确定的满足第二预设条件的语料，确定第二语言模型。

上述方案中，所述从所述语料库中确定满足第二预设条件的语料，包括以下至少之一：

从所述语料库中确定与所述至少一个关键词中的一个关键词的语义匹配度大于或等于第一预设阈值的语料；

从所述语料库中确定与所述至少一个关键词中的每个关键词的语义匹配度大于或等于第二预设阈值的语料。

上述方案中，所述判断结果表征所述至少一个概率满足第一预设条件；所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，包括：

确定所述至少一个概率中概率最大值对应的技术领域；

获取确定的技术领域对应的预设语言模型作为所述第二语言模型；所述预设语言模型是利用所述语料库中与所述确定的技术领域相关联的语料生成的。

确定所述至少一个概率中概率最大值对应的至少两个技术领域；

针对所述至少两个技术领域中的每个技术领域，获取相应技术领域对应的预设语言模型，得到至少两个预设语言模型；所述预设语言模型是利用所述语料库中与所述相应技术领域相关联的语料生成的；

对所述至少两个预设语言模型进行插值处理，以合并所述至少两个预设语言模型；将合并得到的语言模型确定为所述第二语言模型。

上述方案中，所述判断所述至少一个概率是否满足第一预设条件，包括：

判断所述至少一个概率中的概率最大值是否大于或等于第三预设阈值；

在所述至少一个概率中的概率最大值大于或等于第三预设阈值的情况下，确定所述至少一个概率满足第一预设条件；在所述至少一个概率中的概率最大值小于第三预设阈值的情况下，确定所述至少一个概率不满足第一预设条件。

上述方案中，所述基于所述第一词图和所述第二词图，确定第一文本，包括：

利用第二得分信息更新第一得分信息；并利用更新后的第一得分信息更新所述第一词图；所述第一词图包含所述第一得分信息；所述第一得分信息包含所述第一数据所包含的多个词中每个词的分数；所述第二词图包含所述第二得分信息；所述第二得分信息包含所述第二数据所包含的多个词中每个词的分数；

基于更新后的所述第一词图，确定所述第一文本。

本发明实施例还提供了一种数据处理装置，包括：

获取单元，用于获取待处理数据；

第一处理单元，用于利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；

第二处理单元，用于基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；

第三处理单元，用于基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。

本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明实施例还提供了一种存储介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的数据处理方法、装置、电子设备和存储介质，获取待处理数据；利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。本发明实施例的方案，先利用通用语言模型处理获取的待处理数据来得到第一词图，基于所述第一词图和语料库中的语料确定第二语言模型，再利用所述第二语言模型处理所述待处理数据来得到第二词图，最后基于所述第一词图和所述第二词图确定所述待处理数据对应的识别文本，如此，能够基于获取的待处理数据的内容生成个性化语言模型，避免因通用语言模型的训练过程缺少与待处理数据可能相关的一个或多个技术领域的语料导致的语言模型识别结果不准确的问题，显著提高语言模型识别结果的准确率。

附图说明

图1为相关技术中语音识别系统的结构示意图；

图2为相关技术中机器同传翻译系统的结构示意图；

图3为本发明实施例数据处理方法的流程示意图；

图4为本发明实施例确定第二语言模型的方法流程示意图；

图5为本发明实施例利用第二词图更新第一词图的方法示意图；

图6为本发明实施例数据处理装置的结构示意图；

图7为本发明实施例电子设备的硬件结构示意图。

具体实施方式

以下结合说明书附图及实施例对本发明的技术方案作进一步详细的阐述。

在对本发明实施例的技术方案进行详细说明之前，首先结合相关技术中的语音识别系统对语言模型存在的问题进行简单说明。

图1为相关技术中语音识别系统的结构示意图；如图1所示，所述语音识别系统可以包括：信号处理及特征提取模块、声学模型、语言模型和解码器。所述信号处理及特征提取模块，用于从语音信号提取声学特征序列。所述声学模型，用于基于声学特性确定所述声学特征序列中每个声学特征的声学得分以及对应的音素信息。所述语言模型，用于确定字或词之间相互关联的概率，即输出语言模型得分。所述解码器，用于读取所述声学特征序列，利用所述声学模型、所述语言模型构建用于搜索的状态空间，例如加权有限状态转换机(WFST，Weighted Finite-State Transducers)搜索空间；在所述状态空间寻找与所述声学特征序列匹配的概率最大的路径，得到最优路径，所述最优路径为一个文字序列，即输入的语音信号对应的识别文本。其中，所述语音识别系统通常还包括发音词典，所述发音词典包含所述语音识别系统能够处理的字或词的集合以及每个字或词对应的发音，用于提供所述声学模型的建模单元与所述语言模型的建模单元间的映射，所述发音词典通常采用多元文法模型并表示成多个WFST的动态组合；所述解码器在利用声学模型得到音素信息以及声学模型分数后，利用所述发音词典确定与所述音素信息对应的字或词，再将确定的字或词输入到所述语言模型得到语言模型分数，得到最终用于解码的WFST。实际应用时，所述WFST可以体现为网格结构的词图(Lattice)，所述词图上的每个节点表示一个可能的词，每条边表示该词的声学得分和语言模型得分；所述解码器可以利用维特比(Viterbi)算法从所述词图中确定语音识别文本。

具体地，假设所述声学特征序列可以表示为O＝(O₁，O₂，…O_T)，T为正整数；所述识别文本可以表示为W＝(W₁，W₂，…W_N)，N为正整数；所述语音识别系统所要解决的问题可以表示为以下公式：

其中，P(W|O)表示给定O之后W的概率，即W匹配O的概率；argmax函数的作用是：确定使得P(W|O)取得最大值的W，即确定与O匹配的概率最大的W。

利用贝叶斯公式和公式(1)可以得到以下公式：

其中，公式(2)的含义是：利用贝叶斯公式将求解后验概率的过程拆分成了求解似然概率P(O|W)和求解先验概率P(W)的过程；公式(2)的作用是：确定一个W，所述W能够使P(O|W)和P(W)都是最大值；P(O|W)表示给定W之后O的概率，即这段文字有多大的可能发成这串音；P(W)表示W本身的概率，即这段文字是一段合理的自然语言的概率(“像话”的概率)。

实际应用时，所述声学模型用于计算P(O|W)，计算得到的值为声学模型得分；所述语言模型用于计算P(W)，计算得到的值为语言模型得分。

实际应用时，所述语音识别系统可以应用在同声传译场景中；举例来说，可以将所述语音识别系统应用在机器同传翻译系统中，机器同传翻译系统是指利用语音识别技术对同声传译会议的演讲者的演讲内容进行自动识别，将演讲内容从语音数据转换为文本数据；再利用机器翻译技术对文本数据进行翻译，将演讲内容转换为目标语言文本，并将翻译的结果展示给用户。相关技术中，所述机器同传翻译系统的结构可以如图2所示，所述机器同传翻译系统可以包括：机器同传服务端、语音处理服务器、用户持有的终端、操作端、显示屏幕。所述用户持有的终端可以为手机、平板电脑等；所述操作端可以采用个人电脑(PC，Personal Computer)、手机等，其中，所述PC可以为台式电脑、笔记本电脑、平板电脑等。这里，所述语音处理服务器即包含所述语音识别系统的服务器。

实际应用时，演讲者可以通过操作端进行会议演讲，在进行会议演讲的过程中，操作端采集演讲者的语音数据，将采集的语音数据发送给机器同传服务端，所述机器同传服务端通过语音处理服务器对语音数据进行识别，得到识别文本(所述识别文本可以是与语音数据相同语种的识别文本，也可以是对所述识别文本进行翻译后得到的其他语种的识别文本)；机器同传服务端可以将识别文本发送给操作端，由操作端将识别文本投屏到显示屏幕上；还可以将识别文本发送给用户持有的终端(具体依据用户所需的语种，对应发送相应语种的识别文本)，为用户展示识别文本，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。其中，所述语音处理服务器可以包括：语音识别模块(即所述语音识别系统)、文本顺滑模块、机器翻译模块。所述语音识别模块用于对用户的语音数据进行文本识别，得到识别文本；所述文本顺滑模块用于对所述识别文本进行格式处理，例如：口语顺滑、标点恢复和逆文本标准化等；所述机器翻译模块用于将格式处理后的识别文本翻译成另一种语种的文本，即得到翻译文本。

实际应用时，上述机器同传服务器、语音处理服务器的功能也可以在用户持有的终端上实现，即所述操作端采集演讲者的语音数据，将采集的语音数据发送给所述用户持有的终端，由用户持有的终端对语音数据进行识别，得到识别文本，并展示所述识别文本。相应地，所述用户持有的终端可以包括上述语音识别模块、文本顺滑模块、机器翻译模块，并实现相应的功能。

相关技术中，为了提高语音识别系统对于不同技术领域的语音的识别率，训练语言模型时需要利用的语料越来越多，通常需要预先收集不同领域的语料，训练各技术领域对应的语言模型。然而，这使得语言模型存在以下问题：

第一，使用大量的语料训练语言模型，会使得训练一次语言模型的代价过大，即耗时较长；

第二，收集语料时难以做到涵盖所有的技术领域，存在高阶建模数据稀疏的问题；即语料中的多元词组较少，需要利用平滑技术对语言模型进行处理，而过大的语言模型使得上述处理较为复杂和棘手；

第三，语言模型的时效性和可维护性较差；尤其是在同声传译场景等对时效性要求较高的场景下，由于无法预先获知待处理的语音数据(比如同声传译会议中演讲者的演讲内容)可能涉及的一个或多个技术领域，或者无法及时收集一定数量的与所述一个或多个技术领域相关联的语料来训练一个语言模型，会导致所述待处理的语音数据的识别结果准确率低的问题。

基于此，在本发明的各种实施例中，先利用通用语言模型处理获取的待处理数据来得到第一词图，基于所述第一词图和语料库中的语料确定第二语言模型，再利用所述第二语言模型处理所述待处理数据来得到第二词图，最后基于所述第一词图和所述第二词图确定所述待处理数据对应的识别文本，如此，能够基于获取的待处理数据的内容生成个性化语言模型，避免因通用语言模型的训练过程缺少与待处理数据可能相关的一个或多个技术领域的语料导致的语言模型识别结果不准确的问题，显著提高语言模型识别结果的准确率。

需要说明的是，在本发明的各种实施例中，“词图”均指代Lattice。一个“词”可以是字或字的组合，比如“我”或者“我是”。

本发明实施例提供了一种数据处理方法，如图3所示，所述方法包括以下步骤：

步骤301：获取待处理数据；

步骤302：利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；

这里，所述第一语言模型为通用语言模型；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；

步骤303：基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；

这里，所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；

步骤304：基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。

这里，在步骤301中，实际应用时，所述待处理数据可以是任意场景下需要语言模型进行处理的数据；比如，在用户利用输入法输入文字的场景下，所述待处理数据为用户输入的拼音；再比如，在语音识别的场景下，所述待处理数据为语音数据，例如在同声传传译场景下，所述待处理数据为会议演讲者进行演讲时的语音数据。

实际应用时，本发明实施例提供的数据处理方法可以应用于电子设备，所述电子设备可以是服务器或终端。在所述电子设备为服务器的情况下，可以先由终端采集所述待处理数据，服务器再从终端获取所述待处理数据；或者，服务器可以通过自身具备的数据采集模块或与自身建立了通信连接的数据采集模块直接采集所述待处理数据；在所述电子设备为终端的情况下，终端也可以通过自身具备的数据采集模块或与自身建立了通信连接的数据采集模块直接采集所述待处理数据。

在步骤302中，实际应用时，所述第一语言模型可以是ELMo语言模型、OpenAI GPT语言模型或BERT语言模型等通用语言模型；所述通用语言模型用于对输入的数据进行文本处理，得到一个词图，再从得到的词图中确定与输入的数据对应的概率最大的词序列，将确定的词序列确定为输入的数据对应的识别文本。所述第一词图可以包含第一得分信息；所述第一得分信息包含利用所述第一语言模型文本处理后的所述待处理数据所包含的多个词中每个词的分数，即第一数据所包含的多个词中每个词的分数。在不涉及语音识别的场景下，所述分数为P(W)；在涉及语音识别的场景下，所述分数包含P(O|W)和P(W)。

在步骤303中，实际应用时，所述第二词图可以包含第二得分信息；所述第二得分信息包含利用所述第二语言模型文本处理后的所述待处理数据所包含的多个词中每个词的分数，即第二数据所包含的多个词中每个词的分数。

实际应用时，所述语料库可以存储有各技术领域(比如数学、物理、计算机和移动通信等常见技术领域)的语料，所述各技术领域的语料可以根据需要来预先采集、统计和整理。由于所述语料库存储的数据量可能会很大，因此，还可以根据需要，使用分布式存储方法将所述语料库存储在本地或云端。

基于此，在一实施例中，所述方法还可以包括：

从本地或云端获取所述语料库。

在一实施例中，如图4所示，所述基于所述第一词图和语料库中的语料，确定第二语言模型，可以包括以下步骤：

步骤3031：利用所述第一词图确定第二文本；

步骤3032：基于所述第二文本，结合预设分类模型，确定所述待处理数据属于至少一个预设技术领域中每个技术领域的概率，得到至少一个概率；

步骤3033：判断所述至少一个概率是否满足第一预设条件，得到判断结果；

步骤3034：基于所述判断结果，结合所述语料库中的语料，确定第二语言模型。

在步骤3031中，实际应用时，所述利用所述第一词图确定第二文本，可以包括：

基于所述第一得分信息，确定所述第一词图中得分最高的词序列；将所述得分最高的词序列确定为所述第二文本。

这里，所述第二文本即为利用所述通用语言模型得到的所述待处理数据对应的识别文本。

在步骤3032中，实际应用时，所述预设分类模型可以利用所述语料库中的语料以及每个语料对应的技术领域、通过长短期记忆网络(LSTM，Long Short-Term Memory)等机器学习算法预先训练得到，在所述预设分类模型中输入所述第二文本，即可输出所述第二文本属于至少一个预设技术领域中每个技术领域的概率；也就是说，可以确定所述待处理数据属于至少一个预设技术领域中每个技术领域的概率。

实际应用时，可以将所述语料库中的语料涉及的至少一个技术领域确定为至少一个预设技术领域。

在步骤3033中，实际应用时，可以通过以下两种方式来判断所述至少一个概率是否满足第一预设条件：

第一种，对所述至少一个概率中的概率最大值进行判断。

具体地，判断所述至少一个概率中的概率最大值是否大于或等于第三预设阈值；

其中，实际应用时，所述第三预设阈值可以根据需要设置，比如0.8。

第二种，对所述至少一个概率中的每个概率进行判断。

具体地，针对所述至少一个概率中的每个概率，确定相应概率是否大于或等于第四预设阈值；

在所述至少一个概率中存在大于或等于第四预设阈值的概率的情况下，确定所述至少一个概率满足第一预设条件；在所述至少一个概率中不存在大于或等于第四预设阈值的概率的情况下，确定所述至少一个概率不满足第一预设条件。

其中，实际应用时，所述第四预设阈值可以根据需要设置，比如0.5。

另外，实际应用时，可以根据需要，选择上述任一方式判断所述至少一个概率是否满足第一预设条件。

在步骤3034中，实际应用时，在所述判断结果表征所述至少一个概率满足第一预设条件的情况下，所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，可以包括：

确定所述至少一个概率中概率最大值对应的技术领域；

实际应用时，针对所述至少一个预设技术领域中的每个技术领域，可以利用所述语料库中与相应技术领域相关联的语料训练所述相应技术领域的语言模型，得到至少一个预设语言模型。当所述判断结果表征所述至少一个概率满足第一预设条件时，说明能够利用所述至少一个预设语言模型结合通用语言模型来对所述待处理数据进行文本识别，此时，可以先确定所述至少一个概率中概率最大值对应的技术领域，再从所述至少一个预设语言模型中确定与所述确定的技术领域对应的预设语言模型作为所述第二语言模型。

实际应用时，所述待处理数据可能涉及多个技术领域，如果仅利用一个预设语言模型结合通用语言模型来对所述待处理数据进行文本识别，依旧可能存在部分识别结果不准确的情况；因此，可以先确定所述待处理数据可能涉及的多个技术领域，再确定涉及的每个技术领域对应的预设语言模型，合并确定的多个预设语言模型以得到所述第二语言模型；如此，能够进一步提高语言模型识别结果的准确率。

基于此，在一实施例中，在所述判断结果表征所述至少一个概率满足第一预设条件的情况下，所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，还可以包括：

实际应用时，对所述至少两个预设语言模型进行插值处理，可以包括：利用线性插值算法或者非线性插值算法等算法对所述至少两个预设语言模型进行插值处理。

在步骤3034中，实际应用时，在所述判断结果表征所述至少一个概率不满足第一预设条件的情况下，所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，可以包括：

从所述第二文本中提取至少一个关键词；

利用确定的满足第二预设条件的语料，确定第二语言模型。

实际应用时，如果所述判断结果表征所述至少一个概率不满足第一预设条件，说明无法利用所述至少一个预设语言模型结合通用语言模型来对所述待处理数据进行文本识别，此时，需要重新训练一个语言模型。首先，需要确定重新训练一个语言模型所需的语料，可以将所述语料库中与提取的至少一个关键词的语义相似度较高的语料确定为重新训练一个语言模型所需的语料；然后，利用确定的语料重新训练一个语言模型。这里，可以利用机器学习算法(比如神经网络算法)预先训练关键词提取模型，将所述第二文本输入至所述关键词提取模型，即可得到提取的至少一个关键词。

在一实施例中，所述从所述语料库中确定满足第二预设条件的语料，可以包括以下至少之一：

这里，所述第一阈值和所述第二阈值可以根据需要设置。

实际应用时，可以利用一个用于计算语义相似度的神经网络模型计算关键词和语料的语义匹配度。例如，一个循环神经网络(RNN，Recurrent Neural Network)-LSTM-编码器(Encoder)模型，所述RNN-LSTM-Encoder用于获得关键词的文本表示以及语料的文本表示，然后利用余弦相似度(Cos-Similarity)算法，计算关键词和语料的语义相似度，计算得到的语义相似度即为关键词和语料的语义匹配度。

实际应用时，还可以基于所述语料库，利用机器学习算法(比如神经网络算法)预先训练语料匹配模型，将所述至少一个关键词输入至所述语料匹配模型，即可输出确定的满足第二预设条件的语料。

实际应用时，由于满足第二预设条件的语料可能较多，利用所述相关语料集合训练第二语言模型可能耗时较长；此时，为了提高所述第二语言模型的时效性，使得所述方法能够适用于同声传译场景等对时效性要求较高的场景，可以从确定的满足第二预设条件的语料中选择一部分语料，利用选择的语料训练第二语言模型；这样，能够提高所述第二语言模型的时效性，使得所述方法能够适用于同声传译场景。

基于此，在一实施例中，所处利用所述相关语料集合，确定第二语言模型，可以包括：

从确定的满足第二预设条件的语料中确定满足第三预设条件的语料；

利用确定的满足第三预设条件的语料训练所述第二语言模型。

实际应用时，所述第三预设条件可以根据需要设置。比如，所述第三预设条件可以是一个预设阈值(记作第五预设阈值)，将确定的满足第二预设条件的语料按照和所述至少一个关键词的语义匹配度由大到小依次排序，将前第五预设阈值(比如1000)个语料确定为训练所述第二语言模型所需的语料。

实际应用时，还可以利用机器学习算法(比如神经网络算法)预设实时训练模型，用于提供语言模型的实时构建服务；由于训练所述第二语言模型所需的语料较少，利用所述预设实时训练模型来训练所述第二语言模型的速度较快，如此，能够进一步提高所述第二语言模型的时效性。

在步骤304中，实际应用时，所述基于所述第一词图和所述第二词图，确定第一文本，可以包括：

利用所述第二得分信息更新所述第一得分信息；并利用更新后的所述第一得分信息更新所述第一词图；

基于更新后的所述第一词图，确定所述第一文本。

具体地，对比所述第一得分信息和所述第二得分信息，得到对比结果；

在所述对比结果满足第三预设条件的情况下，利用所述第二得分信息更新所述第一得分信息；并利用更新后的所述第一得分信息更新所述第一词图。

这里，所述对比结果表征：对于所述第一数据所包含的多个词以及所述第二数据所包含的多个词中相同的至少一个词中的每个词，确定的相应词在所述第一得分信息中对应的分数与所述相应词在所述第二得分信息中对应的分数差。针对所述相同的至少一个词，当存在一个词在所述第一得分信息中对应的分数小于该词在所述第二得分信息中对应的分数的情况时，确定所述对比结果满足所述第三预设条件；当每个词在所述第一得分信息中对应的分数都大于或等于相应词在所述第二得分信息中对应的分数时，确定所述对比结果不满足所述第三预设条件。

具体地，在所述对比结果满足第三预设条件的情况下，利用所述第二得分信息更新所述第一得分信息，可以包括：

针对所述第一数据所包含的多个词以及所述第二数据所包含的多个词中相同的至少一个词中的每个词，在相应词在所述第一得分信息中对应的分数小于所述相应词在所述第二得分信息中对应的分数的情况下，将所述相应词在所述第一得分信息中对应的分数替换为所述相应词在所述第二得分信息中对应的分数，得到更新后的所述第一得分信息。

实际应用时，利用所述第二得分信息更新所述第一得分信息，并利用更新后的所述第一得分信息更新所述第一词图的方法可以如图5所示，假设在第一词图中，“维-他”的得分为0.53，“他-命”的得分为0.54，“维-特”的得分为0.51，“特-比”的得分为0.52，即第一得分信息为“维-他，0.53；他-命，0.54；维-特，0.51；特-比，0.52”；而在第二词图中，“维-他”的得分为0.52，“他-命”的得分为0.53，“维-特”的得分为0.57，“特-比”的得分为0.58，即第二得分信息为“维-他，0.52；他-命，0.53；维-特，0.57；特-比，0.58”；由于“维-特”和“特-比”在第一得分信息中对应的分数(0.51和0.52)小于在第二得分信息中对应的分数(0.57和0.58)，所以第一得分信息和第二得分信息的对比结果满足第三预设条件；此时，将“维-特”在第一得分信息中对应的分数(0.51)替换为在第二得分信息中对应的分数(0.57)，并将“特-比”在第一得分信息中对应的分数(0.52)替换为在第二得分信息中对应的分数(0.58)，得到更新后的第一得分信息为“维-他，0.53；他-命，0.54；维-特，0.57；特-比，0.58”，并利用更新后的第一得分信息更新第一词图。这里，需要说明的是，图5中的词图仅作为举例说明，并非是基于语言模型得到的实际词图。

实际应用时，所述基于更新后的所述第一词图，确定所述第一文本，可以包括：

将更新后的所述第一词图中得分最高的词序列确定为所述第一文本。

实际应用时，以图5为例，更新后的第一词图中得分最高的词序列为“维-特-比”(1.15)，即基于更新后的第一词图确定的第一文本为“维特比”。

实际应用时，还可以将确定的所述第二语言模型和通用语言模型合并成一个语言模型，利用合并后的语言模型对所述待处理数据进行文本处理，如此，同样能够提高语言模型识别结果的准确率。

实际应用时，基于不同的应用场景，所述第一文本的作用不同。比如，在用户利用输入法输入文字的场景下，所述第一文本用于推荐给用户；再比如，在同声传译场景下，所述第一文本用于在演讲者进行演讲的同时进行呈现，具体地，所述第一文本可以在用户终端、同传客户端或同传会议大屏幕等设备上进行呈现。

实际应用时，在同声传译场景下，所述第一文本可以对应有至少一种语种，所述第一文本可以是与所述待处理数据相同语种(记做第一语种)的识别文本，也可以是针对第一语种的识别文本进行翻译后得到的的其他语种的识别文本，具体可以是第二语种的识别文本、……、第N语种的识别文本，N大于或等于1。不同语种的所述第一文本用于呈现给使用不同语种的用户观看。

基于此，在一实施例中，所述方法还可以包括：

运用预设的翻译模型对所述第一文本进行机器翻译，获得其他语种的第一文本。

这里，所述翻译模型用于将一种语种的文本翻译为另一种语种的文本。实际应用时，所述翻译模型可以是利用机器学习算法(比如神经网络算法)训练得到的模型。

实际应用时，在所述电子设备为服务器的情况下，所述服务器可以将所述第一文本发送给用户持有的终端，从而持有终端的用户可以通过终端浏览所述第一文本。这里，用户可以通过用户持有的终端选择语种，所述服务器基于用户持有的终端选择的语种提供相应语种的第一文本。为了提供符合用户需求的语种对应的第一文本，可以根据用户通过用户持有的终端发送的获取请求，获取相应语种的更新后的识别文本。

基于此，在一实施例中，所述方法还可以包括：接收终端发送的获取请求；所述获取请求用于获取第一文本；所述获取请求至少包括：目标语种；

从至少一种语种的第一文本中确定所述目标语种对应的第一文本；将确定的第一文本发送给终端。

实际应用时，在所述电子设备为自身连接或设有人机交互界面的服务器的情况下，用户可以预先通过人机交互界面设置语种，所述服务器可以得到预先设置的语种对应的第一文本，并通过所述人机交互界面呈现第一文本。当然，所述服务器还可以连接有显示屏幕，则所述服务器运用投屏技术将第一文本投屏到显示屏幕进行呈现。在所述电子设备为用户持有的终端的情况下，持有终端的用户可以预先通过终端的人机交互界面设置语种，所述用户持有的终端得到预先设置的语种对应的第一文本后，可以直接通过人机交互界面呈现第一文本。

实际应用时，所述同声传译场景可以采用如图1所示的系统结构，所述电子设备可以是在图1系统结构中新增加的设备，也可以是对图1架构中某一设备进行改进，以能够实现本发明实施例的方法即可。

本发明实施例提供的数据处理方法，获取待处理数据；利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。本发明实施例的方案，能够基于获取的待处理数据的内容生成个性化语言模型，避免因通用语言模型的训练过程缺少与待处理数据可能相关的一个或多个技术领域的语料导致的语言模型识别结果不准确的问题，显著提高语言模型识别结果的准确率。

下面结合应用实施例对本发明再作进一步详细的描述。

本应用实施例提供的数据处理方法，应用于同声传译场景，包括以下步骤：

步骤1：收集、统计并整理网络上各技术领域的语料，生成原始语料库(即上述语料库)；利用所述原始语料库，训练分类模型(即上述预设分类模型)，所述分类模型用于确定输入的文本属于各技术领域的概率。

步骤2：获取同声传译会议演讲者的语音数据，利用通用语言模型(即上述第一语言模型)对所述语音数据进行识别，得到第一识别文本(即上述第二文本)；将所述第一识别文本输入到所述分类模型，在所述分类模型输出的所述第一识别文本属于各技术领域的概率均小于预设阈值(可以根据需要设置)的情况下，从所述第一识别文本中提取关键字；并从所述原始语料库中提取与所述关键字相关(可以根据语义相似度判断)的1000条(也可以根据需要设置为其它数值)语料；利用提取的1000条语料通过实时构建服务(可由预设的一个模型提供)训练成小语言模型(即上述第二语言模型)。

这里，步骤2的具体实现过程与图3所示的数据处理方法中步骤301～步骤303的具体实现过程相同；这里不多赘述。

步骤3：同声传译装置的语音识别服务模块实时加载所述小语言模型，结合所述通用语言模型和所述小语言模型对所述语音数据进行识别，得到第二识别文本(即上述第一文本)；将所述第二识别文本确定为最终语音识别文本。

这里，步骤3的具体实现过程与图3所示的数据处理方法中步骤304的具体实现过程相同；这里不多赘述。

本应用实施例提供的数据处理方法，具备以下优点：

能够基于同声传译会议中演讲者的演讲内容实时生成个性化语言模型，准确识别所述演讲内容中通用语言模型无法准确识别的部分，显著提高语音识别的准确率，提高用户的识别体验。

为了实现本发明实施例的方法，本发明实施例还提供了一种数据处理装置；如图6所示，数据处理装置600包括获取单元601、第一处理单元602、第二处理单元603和第三处理单元604；其中，

所述获取单元601，用于获取待处理数据；

所述第一处理单元602，用于利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；

所述第二处理单元603，用于基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；

所述第三处理单元604，用于基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。

在一实施例中，所述第二处理单元603，具体用于：

利用所述第一词图确定第二文本；

在一实施例中，所述判断结果表征所述至少一个概率不满足第一预设条件；所述第二处理单元603，还具体用于：

从所述第二文本中提取至少一个关键词；

利用确定的满足第二预设条件的语料，确定第二语言模型；其中，

所述从所述语料库中确定满足第二预设条件的语料，包括以下至少之一：

在一实施例中，所述判断结果表征所述至少一个概率满足第一预设条件；所述第二处理单元603，还具体用于：

确定所述至少一个概率中概率最大值对应的技术领域；

在一实施例中，所述第二处理单元603，还用于：

在一实施例中，所述第三处理单元604，具体用于：

基于更新后的所述第一词图，确定所述第一文本。

实际应用时，所述获取单元601、所述第一处理单元602、所述第二处理单元603和所述第三处理单元604可由数据处理装置600中的处理器结合通信接口实现；所述处理器可以是中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital SignalProcessor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)。

需要说明的是：上述实施例提供的数据处理装置600在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图7为本发明实施例的电子设备的硬件组成结构示意图，如图7所示，电子设备70包括存储器73、处理器72及存储在存储器73上并可在处理器72上运行的计算机程序；所述处理器72执行所述程序时实现上述一个或多个技术方案提供的方法。

具体地，所述处理器72执行所述程序时实现：获取待处理数据；利用第一语言模型对所述待处理数据进行文本处理，得到第一词图；所述第一词图表征第一数据所包含的多个词之间的相关度；所述第一数据为利用所述第一语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和语料库中的语料，确定第二语言模型；利用所述第二语言模型对所述待处理数据进行文本处理，得到第二词图；所述第二词图表征第二数据所包含的多个词之间的相关度；所述第二数据为利用所述第二语言模型对所述待处理数据进行文本处理后的数据；基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本。

需要说明的是，所述处理器72执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备70还包括通信接口71，所述通信接口71用于和其它设备进行信息交互；同时，电子设备70中的各个组件通过总线系统74耦合在一起。可理解，总线系统74配置为实现这些组件之间的连接通信。总线系统74除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器73可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器72中，或者由处理器72实现。处理器72可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器72中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器72可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器72可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器72读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理数据；

基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本；

其中，所述基于所述第一词图和语料库中的语料，确定第二语言模型，包括：

利用所述第一词图确定第二文本；

基于所述判断结果，结合所述语料库中的至少一个技术领域的语料，确定所述第二语言模型。

2.根据权利要求1所述的方法，其特征在于，所述判断结果表征所述至少一个概率不满足第一预设条件；所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，包括：

从所述第二文本中提取至少一个关键词；

利用确定的满足第二预设条件的语料，确定第二语言模型。

3.根据权利要求2所述的方法，其特征在于，所述从所述语料库中确定满足第二预设条件的语料，包括以下至少之一：

4.根据权利要求1所述的方法，其特征在于，所述判断结果表征所述至少一个概率满足第一预设条件；所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，包括：

确定所述至少一个概率中概率最大值对应的技术领域；

5.根据权利要求1所述的方法，其特征在于，所述判断结果表征所述至少一个概率满足第一预设条件；所述基于所述判断结果，结合所述语料库中的语料，确定第二语言模型，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述判断所述至少一个概率是否满足第一预设条件，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一词图和所述第二词图，确定第一文本，包括：

基于更新后的所述第一词图，确定所述第一文本。

8.一种数据处理装置，其特征在于，包括：

获取单元，用于获取待处理数据；

第三处理单元，用于基于所述第一词图和所述第二词图，确定第一文本；所述第一文本为所述待处理数据对应的识别文本；

其中，所述第二处理单元，具体用于：

利用所述第一词图确定第二文本；

9.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。