CN110942775B

CN110942775B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN110942775B
Application number: CN201911327026.6A
Authority: CN
Inventors: 郝杰
Original assignee: Beijing Opper Communication Co ltd
Current assignee: Beijing Opper Communication Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-07-01
Anticipated expiration: 2039-12-20
Also published as: CN110942775A

Abstract

本发明公开了一种数据处理方法、装置、电子设备及存储介质。其中，方法包括：获取待处理数据；对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及同声传译技术，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的快速发展，语言模型被广泛地应用在语音识别、输入法、信息检索等技术领域。例如，在输入法技术领域中，语言模型可以用于确定用户输入的文本最有可能对应的文字序列；在语音识别技术领域中，语言模型可以用于确定用户输入的语音最有可能对应的文字序列。语言模型可以广泛应用在各种场景，比如同声传译场景。相关技术中在语言模型的语料不足的情况下存在识别结果准确率较低和效率较低的问题。

发明内容

为解决相关技术问题，本发明实施例提供一种数据处理方法、装置、电子设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取待处理数据；

对待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；

基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

上述方案中，所述确定所述特征序列对应的第一信息，包括：

基于正则表达式确定所述特征序列对应的至少一个第一词语；

从词典数据库中查找与所述至少一个第一词语对应的标记信息；所述词典数据库存储有词语与词语的标记信息的对应关系；

将查找到的标记信息作为所述特征序列对应的第一信息。

上述方案中，所述基于所述第一信息，结合语音识别模型对所述待处理数据进行识别，获取识别文本，包括：

利用所述第一语言模型，结合所述第一信息，构建第一解码图结构；所述第一解码图结构至少包括按照词语对应的标记信息对词语进行识别的解码路径；

基于所述特征序列对应的所述第一信息，确定所述特征序列对应的文本中的第一关键词在所述第一解码图结构中的至少一个第一解码路径；

基于所述至少一个第一解码路径，对所述待处理数据进行识别，获得识别文本。

上述方案中，所述特征序列对应的文本中的第一关键词在所述解码图结构中存在至少两个解码路径；所述方法还包括：

基于所述至少两个第一解码路径，对所述待处理数据进行识别，得到至少两个文本序列；

计算所述至少两个文本序列对应的分数；

按分数对所述至少两个文本进行排序，得到排序结果；

将所述排序结果中最大分数对应的文本序列作为所述待处理数据的识别文本。

上述方案中，所述方法还包括：

当从词典数据库中未查找到与所述至少一个第一词语对应的标记信息时，确定所述至少一个词中每个第一词语的至少一个第二词语；所述词典数据库存储有词语与词语的标记信息的对应关系；

确定所述每个第一词语的第一词向量；并确定所述至少一个第二词语的第二词向量；所述第二词语表征所述每个第一词语的上文中的词语；

基于所述第一词向量和所述第二词向量，结合第一语言模型对所述待处理数据进行识别，得到识别文本。

上述方案中，所述基于正则表达式确定所述特征序列对应的至少一个第一词语，包括：

对所述特征序列进行字符分割，得到至少两个字符串；

针对所述至少两个字符串中每个字符串，基于正则表达式确定相应字符串对应的至少一个词语；

将确定的至少一个词语作为所述特征序列对应的至少一个第一词语。

上述方案中，基于所述第一词向量和所述第二词向量，结合第一语言模型对所述待处理数据进行识别，得到识别文本，包括：

利用所述第一语言模型，构建第二解码图结构；所述第二解码图结构至少包括按照至少两个词语的词向量对词语进行识别的解码路径；

基于所述第一词向量和所述第二词向量，确定所述特征序列对应的文本在所述解码图结构中的第二解码路径；

基于所述第二解码路径，对所述待处理数据进行识别，得到识别文本。

上述方案中，所述方法还包括：

判断所述识别文本中是否包含有第二信息；所述第二信息表征识别文本中携带有解码路径的标识；

当确定所述识别文本中包含有第二信息时，从所述识别文本中删除所述第二信息，得到删除后的识别文本；

输出删除后的识别文本。

上述方案中，所述待处理数据为语音数据，所述方法还包括：

对语音数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；

基于所述第一信息，结合第一语言模型对所述语音数据进行识别，获得识别文本；

对所述识别文本进行翻译，得到翻译文本；所述翻译文本用于在播放所述语音数据时在显示装置进行呈现。

本发明实施例还提供了一种数据处理装置，包括：

获取单元，用于获取待处理数据；

第一处理单元，用于对待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；

第二处理单元，用于基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明实施例还提供了一种存储介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的数据处理方法、装置、电子设备及存储介质，获取待处理数据；对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。采用本发明实施例的技术方案，能够从待处理数据的内容中确定出按照自身的属性进行标记的词语，如此，利用按照属性进行标记的词语，结合第一语言模型对待处理数据的内容进行识别，以在第一语言模型的语料不足情况下准确、快速地识别所述待处理数据的内容，显著提高语音识别的准确率和效率，提高用户的识别体验。

附图说明

图1为相关技术中语言模型应用的系统架构示意图；

图2为相关技术中机器同传翻译系统的架构示意图；

图3是本发明实施例数据处理方法的实现流程示意图；

图4是本发明实施例确定所述第一信息的一种实现流程示意图；

图5是本发明实施例确定所述第一信息的又一种实现流程示意图；

图6是本发明实施例对待处理数据进行识别的一种实现流程示意图；

图7是本发明实施例第一解码路径的示意图；

图8是本发明实施例对待处理数据进行识别的一种实现流程示意图；

图9是本发明实施例第二解码路径的示意图；

图10是本发明实施例对语音数据进行识别的实现流程示意图；

图11是本发明实施例数据处理装置的组成结构示意图；

图12是本发明实施例电子设备的组成结构示意图。

具体实施方式

在对本发明实施例的技术方案进行详细说明之前，首先对相关技术中的语言模型存在的缺陷进行说明。

图1为相关技术中语言模型应用的系统架构示意图；如图1所示，可以包括：特征提取模块、声学模型、语言模型和解码器。所述特征提取模块，用于在语音识别场景下，对用户输入的语音信号进行特征提取，获得声学特征序列；还用于在用户使用输入法输入文字的场景，对用户输入的文字进行特征提取，获得拼音特征序列。所述声学模型，用于基于声学特性确定所述声学特征序列中每个声学特征的声学得分；所述语言模型，用于确定所述拼音特征序列中每个拼音的得分。所述解码器，用于利用所述声学模型、所述语言模型，构建用于搜索的解码图结构，例如加权有限状态转换机(WFST，Weighted Finite-StateTransducers)解码图结构；在所述解码图结构中寻找与所述声学特征序列或所述拼音特征序列匹配的概率最大的解码路径，得到最优路径，所述最优路径为一个文字序列，对应的得分最高。

针对语音识别场景，假设所述声学特征序列可以表示为O＝(O1，O2，…OT)，T为正整数；所述识别文本可以表示为W＝(W1，W2，…WN)，N为正整数；所述语音识别场景所要解决的问题可以表示为以下公式：

其中，P(W|O)表示给定O之后W的概率，即W匹配O的概率；argmax函数的作用是：确定使得P(W|O)取得最大值的W，即确定与O匹配的概率最大的W。

利用贝叶斯公式和公式(1)可以得到以下公式：

其中，公式(2)的含义是：利用贝叶斯公式将求解后验概率的过程拆分成了求解似然概率P(O|W)和求解先验概率P(W)的过程；公式(2)的作用是：确定一个W，所述W能够使P(O|W)和P(W)都是最大值；P(O|W)表示给定W之后O的概率，即这段文字有多大的可能发成这串音；P(W)表示W本身的概率，即这段文字是一段合理的自然语言的概率(“像话”的概率)。

实际应用时，所述语言模型可以应用在同声传译场景中，例如，可以将所述语言模型应用在机器同传翻译系统中。图2为相关技术中机器同传翻译系统的架构示意图；如图2所示，所述系统可包括：机器同传服务端、语音识别服务器、翻译服务器、移动端下发服务器、观众移动端、个人计算机(PC，Personal Computer)客户端、显示屏幕。

实际应用中，演讲者可以通过PC客户端进行会议演讲，在进行会议演讲的过程中，PC客户端采集演讲者的音频，将采集的音频发送给机器同传服务端，所述机器同传服务端通过语音识别服务器对音频数据进行识别，得到识别文本，再通过翻译服务器对所述识别文本进行翻译，得到翻译结果；机器同传服务端将翻译结果发送给PC客户端，并且通过移动端下发服务器将翻译结果发送给观众移动端，为用户展示翻译结果，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。

相关技术中，为了提高语言模型对于不同技术领域的语音的识别率，第一种方式是收集不同领域的语料，使用更多的语料训练语言模型；第二种方式是通过两个不同的语言模型进行两次解码，即先使用一个基准语言模型进一次解码，并对待处理数据的内容进行文本相似度计算，然后，使用另一个所需技术领域对应的语言模型进行二遍解码。第一种方式存在的缺陷包括：第一，使用大量的语料训练语言模型，会使得训练一次语言模型的代价过大，即耗时较长；第二，收集语料时难以做到涵盖所有的技术领域，存在高阶建模数据稀疏的问题；即语料中的多元词组较少，需要利用平滑技术对语言模型进行处理，而过大的语言模型使得上述处理较为复杂；第三，语言模型的时效性和可维护性较差；尤其是在同声传译场景等对时效性要求较高的场景下，由于无法预先获知待处理的语音数据可能涉及的一个或多个技术领域，或者无法及时收集一定数量的与所述一个或多个技术领域相关联的语料来训练一个语言模型，会导致所述待处理的语音数据的识别结果准确率低的问题。第二种方式存在的缺陷包括：第一、需要预先收集不同领域的语料，训练各技术领域对应的语言模型；第二，进行两次解码，使得识别过程耗时较大，降低用户体验。

基于此，在本发明的各种实施例中，获取待处理数据；对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

下面结合附图及具体实施例对本发明作进一步详细的说明。

本发明实施例提供了一种数据处理方法，图3是本发明实施例数据处理方法的实现流程示意图，如图3所示，包括以下步骤：

步骤301：获取待处理数据；

步骤302：对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；

所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；

步骤303：基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

这里，在步骤301中，实际应用时，所述待处理数据可以是任意场景下需要所述第一语言模型进行处理的数据。例如，在语音识别的场景下，所述待处理数据为用户输入的语音数据；在同声传译应用的会议场景下，所述待处理数据为演讲者所演讲的音频数据；在用户使用输入法输入文字的场景下，所述待处理数据为用户输入的文本；输入法为搜狗输入法、五笔输入法等等。

这里，在步骤302中，实际应用时，对在不同场景下获得的待处理数据进行特征提取，得到的特征序列是不同的。例如，对在语音识别的场景下获得的待处理数据进行特征提取，得到的特征序列是声学特征序列；对在同声传译应用的会议场景下获得的待处理数据进行特征提取，得到的特征序列是声学特征序列；对在用户使用输入法输入文字的场景下获得的待处理数据进行特征提取，得到的特征序列是拼音特征序列。

这里，在步骤303中，基于不同的应用场景，所述识别文本的作用不同。在应用同传的会议场景下，所述识别文本可以用于在演讲者进行演讲的同时进行呈现，具体地，所述识别文本可以在PC客户端上进行呈现；在用户利用输入法输入文字的场景下，所述识别文本用于推荐给用户。

实际应用时，所述数据处理方法可以应用于服务器，也可以应用于终端。当所述数据处理方法应用于服务器时，可以由终端采集所述待处理数据，再由服务器从终端获取所述待处理数据。

这里，对于终端的具体类型，本申请可以不做限定，例如可以为智能手机、个人计算机、笔记本电脑、平板电脑和便携式可穿戴设备等。

这里，实际应用时，可以通过以下两种方式来识别所述待处理数据的内容。

第一种方式，在第一语言模型的语料不足的情况下识别所述待处理数据的内容。

具体地，所述待处理数据的内容中可能涉及多个技术领域的词语，若在第一语言模型的语料中不包含某个技术领域的语料，仍利用第一语言模型来对所述待处理的语音数据进行语音识别，则可能导致识别结果不准确。如此，可以从词典数据库中查找出所述待处理数据的内容中包含的按照词的属性进行标记的词语，利用所述第一语言模型构建解码图结构，即增加按照词的属性对词语进行识别的解码路径，利用与按照属性进行标记的词语对应的解码路径，在第一语言模型的语料不足情况下准确、快速识别所述内容，提高第一语言模型识别结果的准确率和效率。

第二种方式，在第一语言模型的语料充足的情况下识别所述待处理数据的内容。

具体地，所述待处理数据的内容中可能涉及多个技术领域的词语，若在第一语言模型的语料中包含多个技术领域的语料，则利用第一语言模型来对所述待处理的语音数据进行语音识别。

实际应用时，所述待处理数据的内容中可能涉及多个技术领域的词语，为避免在第一语言模型的语料不足的情况下识别所述待处理数据的内容导致识别结果不准确情况的发生，可以先从词典数据库中查找所述待处理数据的内容中是否包含的按照词的属性进行标记的词语。

基于此，在一实施例中，所述确定所述特征序列对应的第一信息，包括：

将查找到的标记信息作为所述特征序列对应的第一信息。

具体来说，当所述特征序列对应一个长句时，即所述特征序列对应的语句中包含至少一个标点符号时，可以对所述特征序列进行字符分割，得到至少两个字符串；针对所述至少两个字符串中每个字符串，基于正则表达式从相应字符串中搜索与预设字符串对应的至少一个词语；将确定的至少一个词语作为所述特征序列对应的至少一个第一词语。

这里，词典数据库的建立过程可以包括：获取语料文本；对所述语料文本进行分词，得到至少两个词语；对所述至少两个词语中各词语进行属性分析，得到对应的属性信息；按照所述属性信息，确定所述至少两个词语中各词语对应的标记信息；建立词语和词语的标记信息的对应关系；在所述词典数据库中保存所述对应关系。

这里，结合从词典数据库中查找到的所述特征序列对应的第一信息对所述待处理数据进行识别，具备以下优点：

若从词典数据库中查找到所述待处理数据的内容中包含的按照词的属性进行标记的词语，则后续可以利用所述第一语言模型构建解码图结构，即增加按照属性对词语进行识别的解码路径，利用与属性进行标记的词语对应的解码路径，在第一语言模型的语料不足情况下准确、快速识别所述内容，显著提高语音识别的准确率和效率，提高用户的识别体验。

在一示例中，以特征序列为声学特征序列为例，描述确定所述第一信息的实现流程示意图，如图4所示，包括：

步骤1：对待处理数据进行特征提取，得到声学特征序列。

这里，待处理数据为语音数据，可以是应用同传场景下的演讲者的语音数据。例如，待处理数据对应的文本为“我爱中国，尤其爱北京”。

步骤2：对声学特征序列进行字符分割，得到至少两个字符串。

这里，按照标点符号对声学特征序列进行字符分割，得到至少两个字符串。至少两个字符串对应的文本分别为“我爱中国”和“尤其爱北京”。

步骤3：针对所述至少两个字符串中每个字符串，基于正则表达式确定相应字符串对应的至少一个第一词语；

基于正则表达式确定字符串对应的文本“我爱中国”中的一个第一词语为“中国”，基于正则表达式确定字符串对应的文本“尤其爱北京”中的一个第一词语为“北京”。

步骤4：从词典数据库中查找与所述至少一个第一词语对应的标记信息；所述词典数据库存储有词语与词语的标记信息的对应关系；

从词典数据库中查找与“中国”对应的标记信息为“国家名”，从词典数据库中查找与“北京”对应的标记信息为“城市名”。

这里，所述声纹特征序列对应的文本“我爱中国”中的“中国”相当于一个槽位，该槽位被标记为“国家名”。

这里，所述声纹特征序列对应的文本“尤其爱北京”中的“北京”相当于一个槽位，该槽位被标记为“城市名”。

步骤5：将查找到的标记信息作为所述声学特征序列对应的第一信息。

所述声学特征序列对应的第一信息包含槽位标记“国家名”和“城市名”。

在本示例中，在语音识别的场景下，获得用户输入的语音数据，对语音数据进行特征提取，得到声学特征序列；从词典数据库中查找声学特征序列对应的文本中是否包含按照词的属性进行标记的词语，若从词典数据库中查找到声学特征序列对应的文本中包含槽位标记的词语，则后续可以基于槽位标记的词语，在第一语言模型的语料不足情况下准确识别所述待处理数据的内容，显著提高语音识别的准确率，提高用户的识别体验。

在一示例中，以特征序列为拼音特征序列为例，描述确定所述第一信息的实现流程示意图，如图5所示，包括：

步骤1：对待处理数据进行特征提取，得到拼音特征序列。

这里，待处理数据为用户使用输入法输入的文本。例如，输入“woaizhongguo，youqiaibeij”。

步骤2：对拼音特征序列进行字符分割，得到至少两个字符串。

这里，按照标点符号对拼音特征序列进行字符分割，得到至少两个字符串。至少两个字符串对应的文本分别为“我爱中国”和“尤其爱北京”。

步骤5：将查找到的标记信息作为所述拼音特征序列对应的第一信息

所述拼音特征序列对应的第一信息包含“国家名”和“城市名”。

在本示例中，在用户使用输入法输入文字的场景下，获得用户输入的文本，对文本进行特征提取，得到拼音特征序列；从词典数据库中查找拼音特征序列对应的文本中是否包含按照词的属性进行标记的词语，若从词典数据库中查找到拼音特征序列对应的文本中包含槽位标记的词语，则后续可以基于槽位标记的词语，在第一语言模型的语料不足情况下准确识别所述待处理数据的内容，显著提高语音识别的准确率，提高用户的识别体验。

这里，实际应用时，可以通过以下两种方式来对所述待处理数据进行识别，获取识别文本。

第一种方式，利用解码图结构中按照词语对应的标记信息对词语进行识别的解码路径，对所述待处理数据的内容进行识别。

具体地，通过openFST转换工具，结合所述第一信息，对所述第一语言模型转换，得到第一解码图结构；在所述第一解码图结构中增加按照词语对应的标记信息对词语进行识别的解码路径，如此，可以利用该解码路径对识别出的所述待处理数据中按照属性标记的词语进行识别，得到识别文本。

第二种方式，利用解码图结构中按照词语组合对词语进行识别的解码路径，对所述待处理数据的内容进行识别。

具体地，通过openFST转换工具，对所述第一语言模型转换，得到第二解码图结构；在所述第一解码图结构中增加按照至少两个词语的词向量对词语进行识别的解码路径，如此，可以利用该解码路径对所述待处理数据中未被识别出的被标记的词语进行识别，得到识别文本。词向量，可称为Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。

实际应用时，在基于所述第一信息和第一语言模型对所述待处理数据进行识别时，为了能够在第一语言模型对应的解码图结构中寻找到与所述待处理数据对应的特征序列匹配的概率最大的解码路径，需要在解码图结构中增加按照词语对应的标记信息对词语进行识别的解码路径。

基于此，在一实施例中，所述基于所述第一信息，结合语音识别模型对所述待处理数据进行识别，获取识别文本，包括：

具体来说，可以通过openFST转换工具，结合所述第一信息，结合所述第一语言模型，构建第一解码图结构，在所述第一解码图结构中增加按照词语对应的标记信息对词语进行识别的解码路径。

其中，所述第一解码图结构可以是WFST解码图结构。利用第一解码路径得到的识别文本中可以携带第一解码路径的标识。

这里，在第一语言模型对应的解码图结构中增加按照词语对应的标记信息对词语进行识别的解码路径，具备以下优点：

能够利用从词典数据库中查找到的所述待处理数据的内容中包含的按照词的属性进行标记的词语，在所述第一语言模型对应的解码图结构中确定与查找到的词语对应的解码路径，从而避免采用穷尽词语组合的方式识别所述待处理数据的内容所带来的耗时较大问题的发生，显著提高语音识别的速度。

在一示例中，以特征序列为拼音特征序列为例，描述对待处理数据进行识别的实现流程示意图，如图6所示，包括：

步骤1：利用所述第一语言模型，结合所述第一信息，构建第一解码图结构；所述第一解码图结构至少包括按照词语对应的标记信息对词语进行识别的解码路径。

举例来说，若所述特征序列对应的第一信息中包含槽位标记“国家名”和“城市名”，则通过openFST转换工具，结合所述第一信息，在第一解码图结构中增加对应“国家名”的解码路径，以及对应“城市名”的解码路径。

步骤2：基于所述特征序列对应的所述第一信息，确定所述特征序列对应的文本中的第一关键词在所述第一解码图结构中的至少一个第一解码路径。

这里，假设特征序列对应的文本为“我爱中国，尤其爱北京”。若从词典数据库中查找到与第一关键词“中国”对应的标记信息为“国家名”，从词典数据库中查找与第一关键词“北京”对应的标记信息为“城市名”，则在第一解码图结构中确定对应“国家名”的解码路径，以及对应“城市名”的解码路径，如图7所示。

步骤3：基于所述至少一个第一解码路径，对所述待处理数据进行识别，获得识别文本。

在本示例中，若在第一语言模型对应的训练语料中未包含“北京”、“中国”，则可以基于第一解码路径，对待处理数据中的“北京”和“中国”进行识别，而无需增加所述第一语言模型的训练语料，也无需采用穷尽词语组合的方式对所述待处理数据的内容进行识别，能够保证在第一语言模型未涉及待处理数据对应的多个技术领域的语料时准确、快速识别所述内容，显著提高识别的准确率和效率。

在一实施例中，所述特征序列对应的文本中的第一关键词在所述解码图结构中存在至少两个解码路径；所述方法还包括：

计算所述至少两个文本序列对应的分数；

按分数对所述至少两个文本进行排序，得到排序结果；

举例来说，如图7所示，从“国家名”的解码路径中对“中国”进行识别，可以得到两个得分不同的文字序列，将得分最大的文字序列作为识别文本。从“城市名”的解码路径中对“北京”进行识别，可以得到两个得分不同的文字序列，将得分最大的文字序列作为识别文本。

这里，还可以利用维特比算法从所述至少两个第一解码路径中确定与所述特征序列的匹配概率最大的解码路径，即最优路径，基于最优路径得到所述待处理数据的识别文本。

实际应用时，当未从词典数据库中未查找到所述第一信息时，可以基于第一语言模型对应的各技术领域的语料，并采用词语组合方式，对所述待处理数据进行识别，以在第一语言模型包含所述待处理数据涉及的技术领域的语料时对待处理数据的内容进行识别。

基于此，在一实施例中，所述方法还包括：

具体地，当所述特征序列对应一个长句时，即所述特征序列对应的语句中包含至少一个标点符号时，可以对所述特征序列进行字符分割，得到至少两个字符串；针对所述至少两个字符串中每个字符串，基于正则表达式从相应字符串中搜索与预设字符串对应的至少一个词语；将确定的至少一个词语作为所述特征序列对应的至少一个第一词语。

这里，可以利用语料库中涉及的多个技术领域的语料对第一语言模型进行训练，利用训练后的第一语言模型，结合所述第一词向量和所述第二词向量，对所述待处理数据进行识别，得到识别文本。

实际应用时，所述语料库可以存储有各技术领域的语料，所述各技术领域的语料可以根据需要来预先采集、统计和整理。由于所述语料库存储的数据量可能会很大，因此，还可以根据需要，使用分布式存储方法将所述语料库存储在本地或云端。

基于此，在一实施例中，所述方法还可以包括：

从本地或云端获取所述语料库。

在一实施例中，基于所述第一词向量和所述第二词向量，结合第一语言模型对所述待处理数据进行识别，得到识别文本，包括：

其中，按照至少两个词语的词向量对词语进行识别的解码路径可以是指采用词语组合方式对词语进行识别的解码路径。

这里，利用第一语言模型并结合所述第一词向量和所述第二词向量对所述待处理数据进行识别，具备以下优点：

若从词典数据库中未查找到所述待处理数据的内容中包含的按照词的属性进行标记的词语，则后续可以利用所述第一语言模型构建解码图结构，即增加词语组合方式对词语进行识别的解码路径，在第一语言模型的语料充足情况下准确、快速识别所述内容，显著提高语音识别的准确率和效率。

在一示例中，以特征序列为拼音特征序列为例，描述对待处理数据进行识别的实现流程示意图，如图8所示，包括：

步骤1：利用所述第一语言模型，构建第二解码图结构；所述第二解码图结构至少包括采用词语组合方式对词语进行识别的解码路径。

步骤2：确定所述特征序列对应的文本在所述解码图结构中的第二解码路径；

这里，假设特征序列对应的文本为“我爱中国”。若从词典数据库中未查找到与第一关键词“中国”对应的标记信息为“国家名”，则在第二解码图结构中确定采用词语组合方式对词语进行识别的解码路径，如图9所示，利用拼音特征序列“zhongguo”进行一次解码，再利用“zhongguo”与“ai”组合进行一次解码，最后，再利用“wo”、“zhongguo”与“ai”组合进行一次解码。

步骤3：基于所述第二解码路径，对所述待处理数据进行识别，获得识别文本。

在本示例中，若在第一语言模型对应的训练语料中包含“中国”，则可以基于第二解码路径，对待处理数据的内容进行识别，采用词语组合的方式对所述待处理数据的内容进行识别，能够在第一语言模型涉及待处理数据对应的多个技术领域的语料时准确识别所述内容，显著提高识别的准确率。

实际应用时，所述待处理数据的内容中可能涉及多个技术领域的词语，但第一语言模型的语料中可能涉及多个技术领域中某几个技术领域的语料，因此对所述待处理数据的内容进行识别时，可以基于第一解码路径得到，也可以基于第二解码路径得到，由于第一解码路径得到的识别文本中可以携带解码路径的标识，因此在输出所述待处理数据的识别文本时需要去除解码路径的标识。

基于此，在一实施例中，所述方法还包括：

输出删除后的识别文本。

实际应用于同传场景时，利用按照属性进行标记的词语，结合第一语言模型对待处理数据的内容进行识别，能够在第一语言模型的语料不足情况下准确识别所述待处理数据的内容，而且由于无需利用与多个技术领域相关联的语料训练第一语言模型，因而能够保证同传场景下具备较小的时延性。

基于此，在一实施例中，所述待处理数据为语音数据，所述方法还包括：

实际应用时，所述显示装置具体可以是客户端等。

这里，在应用同传的会议场景下，基于第一信息利用第一语言模型对待处理数据的内容进行识别，具备以下优点：

在同声传译场景等对时效性要求较高的场景下，无需预先获知待处理的语音数据(如同传会议中演讲者的演讲内容)可能涉及的一个或多个技术领域，也无需收集一定数量的与所述一个或多个技术领域相关联的语料来训练一个语言模型，能够快速确定所述待处理数据的识别结果。

在一示例中，以同传场景为例，描述对语音数据进行识别的实现流程示意图，如图10所示，包括：

步骤1：获取同传场景下会议演讲者的语音数据。

假设语音数据对应的文本为“我要导航到北京”。

步骤2：对语音数据进行特征提取，得到声学特征序列。

步骤3：确定所述声学特征序列对应的第一信息。

这里，按照标点符号对声学特征序列进行字符分割，得到字符串“我到导航到北京”。基于正则表达式确定字符串对应的文本“我要导航到北京”中的一个第一词语为“北京”；从词典数据库中查找与“中国”对应的标记信息为“国家名”，这里，“北京”相当于一个槽位，该槽位被标记为“城市名”。所述声学特征序列对应的第一信息包含槽位标记“城市名”。

步骤4：基于所述第一信息，结合第一语言模型对所述语音数据进行识别，获得识别文本；

对第一语言模型构建第一解码图结构和第二解码图结构；所述第一解码图结构至少包括按照词语对应的标记信息对词语进行识别的解码路径；所述第二解码图结构至少包括按照至少两个词语的词向量对词语进行识别的解码路径。

若第一语言模型的预料中未包含语音数据中的“北京”，则基于所述第一信息，在第一解码图结构中确定对应“城市名”的解码路径，利用对应“城市名”的解码路径对所述语音数据对应的文本中的“北京”进行识别。

若第一语言模型的预料中包含语音数据中的“我要导航去”，则通过词语“我要”与词语“要导航去”进行组合，在第二解码图结构中确定对应“我要导航去”的解码路径，利用对应“我要导航去”的解码路径对所述语音数据对应的文本中的“我要导航去”进行识别。

步骤5：对所述识别文本进行翻译，得到翻译文本；所述翻译文本用于在播放所述语音数据时在客户端进行呈现。

这里，接收客户端发送的获取请求；所述获取请求至少包括：目标语种；运动翻译模型对所述识别文本进行翻译，得到目标语种对应的翻译文本；基于翻译文本，生成同传结果。

这里，对所述同传结果进行语音合成，得到同传音频数据；将所述同传音频数据发送至第一终端；所述同传音频数据用于供所述第一终端进行播放

或者，将所述同传结果发送至第一终端关联的显示屏幕；所述同传结果用于供所述第一终端将所述翻译文本展示在所述显示屏幕中。

采用本发明实施例的技术方案，能够从待处理数据的内容中确定出按照自身的属性进行标记的词语，如此，利用按照属性进行标记的词语，结合第一语言模型对待处理数据的内容进行识别，以在第一语言模型的语料不足情况下准确、快速识别所述待处理数据的内容，显著提高语音识别的准确率和效率，提高用户的识别体验。

为了实现本发明实施例的方法，本发明实施例还提供了一种数据处理装置；如图11所示，数据处理装置110包括：

获取单元111，用于获取待处理数据；

第一处理单元112，用于对待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；

第二处理单元113，用于基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本。

在一实施例中，所述第一处理单元112，具体用于：

基于正则表达式确定所述特征序列对应的至少一个第一词语；从词典数据库中查找与所述至少一个第一词语对应的标记信息；所述词典数据库存储有词语与词语的标记信息的对应关系；将查找到的标记信息作为所述特征序列对应的第一信息。

在一实施例中，所述第一处理单元112，具体用于：

对所述特征序列进行字符分割，得到至少两个字符串；针对所述至少两个字符串中每个字符串，基于正则表达式确定相应字符串对应的至少一个词语；将确定的至少一个词语作为所述特征序列对应的至少一个第一词语。

在一实施例中，所述第二处理单元113，具体用于：

利用所述第一语言模型，结合所述第一信息，构建第一解码图结构；所述第一解码图结构至少包括按照词语对应的标记信息对词语进行识别的解码路径；基于所述特征序列对应的所述第一信息，确定所述特征序列对应的文本中的第一关键词在所述第一解码图结构中的至少一个第一解码路径；基于所述至少一个第一解码路径，对所述待处理数据进行识别，获得识别文本。

在一实施例中，所述第二处理单元113，具体用于：所述特征序列对应的文本中的第一关键词在所述解码图结构中存在至少两个解码路径；基于所述至少两个第一解码路径，对所述待处理数据进行识别，得到至少两个文本序列；计算所述至少两个文本序列对应的分数；按分数对所述至少两个文本进行排序，得到排序结果；将所述排序结果中最大分数对应的文本序列作为所述待处理数据的识别文本。

在一实施例中，所述第二处理单元113，还用于：基于正则表达式确定所述特征序列对应的至少一个第一词语；当从词典数据库中未查找到与所述至少一个第一词语对应的标记信息时，确定所述至少一个词中每个第一词语的至少一个第二词语；所述词典数据库存储有词语与词语的标记信息的对应关系；确定所述每个第一词语的第一词向量；并确定所述至少一个第二词语的第二词向量；所述第二词语表征所述每个第一词语的上文中的词语；基于所述第一词向量和所述第二词向量，结合第一语言模型对所述待处理数据进行识别，得到识别文本。

在一实施例中，所述第二处理单元113，具体用于：对所述特征序列进行字符分割，得到至少两个字符串；针对所述至少两个字符串中每个字符串，基于正则表达式确定相应字符串对应的至少一个词语；将确定的至少一个词语作为所述特征序列对应的至少一个第一词语。

在一实施例中，所述第二处理单元113，具体用于：利用所述第一语言模型，构建第二解码图结构；所述第二解码图结构至少包括按照至少两个词语的词向量对词语进行识别的解码路径；基于所述第一词向量和所述第二词向量，确定所述特征序列对应的文本在所述解码图结构中的第二解码路径；基于所述第二解码路径，对所述待处理数据进行识别，得到识别文本。

在一实施例中，所述装置还包括：

输出单元，用于判断所述识别文本中是否包含有第二信息；所述第二信息表征识别文本中携带有解码路径的标识；当确定所述识别文本中包含有第二信息时，从所述识别文本中删除所述第二信息，得到删除后的识别文本；输出删除后的识别文本。

在一实施例中，所述待处理数据为语音数据，所述第一处理单元112，还用于对语音数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；所述第一信息表征所述特征序列对应的文本中包含至少一个第一关键词；所述第一关键词是按照自身的属性进行标记的词语；所述第二处理单元113，还用于基于所述第一信息，结合第一语言模型对所述语音数据进行识别，获得识别文本；对所述识别文本进行翻译，得到翻译文本；所述翻译文本用于在播放所述语音数据时在客户端进行呈现。

实际应用时，所述第一处理单元112、所述第二处理单元113可由数据处理装置110中的处理器结合通信接口实现；所述获取单元111、所述输出单元可由数据处理装置110中的通信接口实现；所述处理器可以是中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)。

需要说明的是：上述实施例提供的数据处理装置110在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图12为本发明实施例的电子设备的硬件组成结构示意图，如图12所示，电子设备120包括存储器123、处理器122及存储在存储器123上并可在处理器122上运行的计算机程序；所述处理器122执行所述程序时实现上述一个或多个技术方案提供的方法。

需要说明的是，所述处理器122执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备120还包括通信接口121，所述通信接口121用于和其它设备进行信息交互；同时，电子设备120中的各个组件通过总线系统124耦合在一起。可理解，总线系统124配置为实现这些组件之间的连接通信。总线系统124除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器123可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器122中，或者由处理器122实现。处理器122可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器122中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器122可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器122可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器122读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待处理数据；

对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；

基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本；

其中，所述确定所述特征序列对应的第一信息，包括：

将查找到的标记信息作为所述特征序列对应的第一信息；

所述基于所述第一信息，结合语音识别模型对所述待处理数据进行识别，获取识别文本，包括：

2.根据权利要求1所述的方法，其特征在于，所述特征序列对应的文本中的第一关键词在所述解码图结构中存在至少两个解码路径；所述方法还包括：

计算所述至少两个文本序列对应的分数；

按分数对所述至少两个文本进行排序，得到排序结果；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于正则表达式确定所述特征序列对应的至少一个第一词语，包括：

对所述特征序列进行字符分割，得到至少两个字符串；

5.根据权利要求3所述的方法，其特征在于，基于所述第一词向量和所述第二词向量，结合第一语言模型对所述待处理数据进行识别，得到识别文本，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

输出删除后的识别文本。

7.根据权利要求1所述的方法，其特征在于，所述待处理数据为语音数据，所述方法还包括：

对语音数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；

8.一种数据处理装置，其特征在于，包括：

获取单元，用于获取待处理数据；

第一处理单元，用于对所述待处理数据进行特征提取，得到特征序列；确定所述特征序列对应的第一信息；

第二处理单元，用于基于所述第一信息，结合第一语言模型对所述待处理数据进行识别，获得识别文本；

其中，所述第一处理单元，具体用于：

将查找到的标记信息作为所述特征序列对应的第一信息；

所述第二处理单元，具体用于：

9.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。