CN111161737A

CN111161737A - 数据处理方法、装置、电子设备和存储介质

Info

Publication number: CN111161737A
Application number: CN201911338463.8A
Authority: CN
Inventors: 郝杰
Original assignee: Beijing Opper Communication Co Ltd
Current assignee: Beijing Opper Communication Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-15

Abstract

本发明公开了一种数据处理方法、装置、电子设备和存储介质。其中，方法包括：获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；基于第一预设策略，确定所述识别文本中的至少一个待注释词；基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

Description

数据处理方法、装置、电子设备和存储介质

技术领域

本发明涉及同声传译技术，具体涉及一种数据处理方法、装置、电子设备和存储介质。

背景技术

机器同传翻译系统是指利用自动语音识别(ASR，Automatic SpeechRecognition)技术对同传会议的演讲者的演讲内容进行自动识别，将演讲内容从语音数据转换为文本数据；再利用机器翻译(MT，Machine Translation)技术对文本数据进行翻译，将演讲内容转换为目标语言文本，并将翻译的结果展示给用户。随着自动语音识别技术与机器翻译技术的显著发展，机器同传翻译系统已达到实用阶段，且与人工同传的差距越来越小。

然而，相关机器同传翻译系统中，展示给用户的数据不能辅助用户更好地理解演讲者的演讲内容。

发明内容

为解决相关技术问题，本发明实施例提供一种数据处理方法、装置、电子设备和存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；

基于第一预设策略，确定所述识别文本中的至少一个待注释词；

基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；

针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

上述方案中，所述基于第一预设策略，确定所述识别文本中的至少一个待注释词，包括：

对所述识别文本进行语义分析，得到所述识别文本的语境；

基于所述识别文本的语境，结合预设算法模型，确定所述识别文本中的至少一个待注释词。

上述方案中，所述基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，包括：

针对所述至少一个待注释词中的每个待注释词，基于第一信息库，确定相应待注释词对应的注释文本；所述第一信息库存储有至少一个词语以及所述词语对应的注释信息。

上述方案中，所述基于第一信息库，确定相应待注释词对应的注释文本，包括：

针对所述至少一个词语中的每个词语，确定相应词语与所述相应待注释词的语义匹配度；并确定所述相应词语对应的注释信息与所述识别文本的语境匹配度；

将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。

上述方案中，将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本，包括以下之一：

将所述语义匹配度大于或等于第一阈值，且所述语境匹配度大于或等于第二阈值的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本；

将所述语义匹配度与第一权值的乘积加上所述语境匹配度与第二权值的乘积大于或等于第三阈值的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。

上述方案中，所述方法还包括：

对所述识别文本进行分词，得到分词结果；

基于所述第一预设策略，确定所述分词结果中的至少一个待注释词。

上述方案中，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时，所述方法还包括：

确定所述对应的注释文本的第一呈现格式，以在呈现更新后的识别文本时以所述第一呈现格式呈现所述对应的注释文本；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为所述获得的识别文本的呈现格式。

本发明实施例还提供了一种数据处理装置，包括：

获取单元，用于获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；

第一处理单元，用于基于第一预设策略，确定所述识别文本中的至少一个待注释词；

第二处理单元，用于基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；

第三处理单元，用于针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明实施例还提供了一种存储介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的数据处理方法、装置、电子设备和存储介质，获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；基于第一预设策略，确定所述识别文本中的至少一个待注释词；基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。本发明实施例的方案，基于预设策略，确定识别文本中的待注释词和注释文本，并利用注释文本更新识别文本，如此，能够对同传会议中演讲者的演讲内容进行注释，从而能够使用户更好地理解演讲内容，提升用户体验。

附图说明

图1为相关技术中机器同传系统的结构示意图；

图2为本发明实施例数据处理方法的流程示意图；

图3为本发明实施例更新后的识别文本示意图一；

图4为本发明实施例更新后的识别文本示意图二；

图5为本发明应用实施例数据处理装置的结构示意图；

图6为本发明应用实施例数据处理方法的流程示意图；

图7为本发明实施例数据处理装置的结构示意图；

图8为本发明实施例电子设备的硬件结构示意图。

具体实施方式

以下结合说明书附图及实施例对本发明的技术方案作进一步详细的阐述。

在对本发明实施例的技术方案进行详细说明之前，首先对相关技术中的机器同传翻译系统进行简单说明，以下将机器同传翻译系统简称为机器同传系统。

图1为相关技术中机器同传系统的结构示意图；如图1所示，所述系统可包括：机器同传服务端、语音处理服务器、用户持有的终端、操作端、显示屏幕。所述用户持有的终端可以为手机、平板电脑等；所述操作端可以采用个人电脑(PC，Personal Computer)、手机等，其中，所述PC可以为台式电脑、笔记本电脑、平板电脑等。

实际应用时，演讲者可以通过操作端进行会议演讲，在进行会议演讲的过程中，操作端采集演讲者的语音数据，将采集的语音数据发送给机器同传服务端，所述机器同传服务端通过语音处理服务器对语音数据进行识别，得到识别文本(所述识别文本可以是与语音数据相同语种的识别文本，也可以是对所述识别文本进行翻译后得到的其他语种的识别文本)；机器同传服务端可以将识别文本发送给操作端，由操作端将识别文本投屏到显示屏幕上；还可以将识别文本发送给用户持有的终端(具体依据用户所需的语种，对应发送相应语种的识别文本)，为用户展示识别文本，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。其中，所述语音处理服务器可以包括：语音识别模块、文本顺滑模块、机器翻译模块。所述语音识别模块用于对用户的语音数据进行文本识别，得到识别文本；所述文本顺滑模块用于对所述识别文本进行格式处理，例如：口语顺滑、标点恢复和逆文本标准化等；所述机器翻译模块用于将格式处理后的识别文本翻译成另一种语种的文本，即得到翻译文本。

实际应用时，上述机器同传服务器、语音处理服务器的功能也可以在用户持有的终端上实现，即所述操作端采集演讲者的语音数据，将采集的语音数据发送给所述用户持有的终端，由用户持有的终端对语音数据进行识别，得到识别文本，并展示所述识别文本。相应地，所述用户持有的终端可以包括上述语音识别模块、文本顺滑模块、机器翻译模块，并实现相应的功能。

所述语音处理服务器或用户持有的终端可以确定所述语音数据对应的不同语种的演讲内容(包括识别文本、翻译文本等)并提供给用户观看；然而，由于演讲内容中通常会涉及到一些专业术语，比如第三代合作伙伴计划(3GPP，3rd Generation PartnershipProject)或交叉熵等，如果仅将演讲内容同步显示以提供用户观看，用户看到不熟悉的专业术语，会影响用户对演讲内容的理解。

基于此，在本发明的各种实施例中，在语音数据对应的识别文本中确定需要注释的词语，并确定词语的注释，利用确定的注释更新识别文本，从而在为用户呈现识别文本的同时为用户呈现需要注释的词语对应的注释，如此，能够对同传会议中演讲者的演讲内容进行注释，从而能够使用户更好地理解演讲内容，提升用户体验。

本发明实施例提供了一种数据处理方法，如图2所示，所述方法包括以下步骤：

步骤201：获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；

步骤202：基于第一预设策略，确定所述识别文本中的至少一个待注释词；

步骤203：基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；

步骤204：针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

这里，更新后的识别文本在播放所述语音数据时进行呈现，指在播放所述语音数据的同时呈现所述更新后的识别文本，即本发明实施例提供的数据处理方法可以应用于同声传译的场景。

实际应用时，在同声传译场景下，当演讲者进行演讲时，可以由第一终端(如图1所示的操作端)利用语音采集模块实时采集演讲内容，即得到待处理的语音数据。所述第一终端与用于实现同声传译的服务器之间可以建立通信连接，所述第一终端将获取的语音数据发送给用于实现同声传译的服务器，所述服务器即可实时获取所述待处理的语音数据并基于所述待处理的语音数据执行上述步骤201～步骤204，得到更新后的识别文本进行呈现，即实现在播放所述语音数据的同时呈现更新后的识别文本。

所述同声传译场景可以采用如图1所示的系统结构，本发明实施例的数据处理方法可以应用于电子设备，所述电子设备可以是在图1系统结构中新增加的设备，也可以是对图1架构中某一设备进行改进，以能够实现本发明实施例的方法即可。所述电子设备可以是服务器、用户持有的终端等。

需要说明的是，实际应用时，在同声传译场景下，随着演讲的进行，语音数据将会不断变化，因此更新后的识别文本也随着语音数据的变化而不断变化。

在步骤202中，实际应用时，并非全部的演讲内容都需要注释，此时需要在演讲内容对应的识别文本中确定需要注释的文本，即在所述识别文本中确定至少一个待注释词。这里，确定所述至少一个待注释词所需的第一预设策略可以根据需要设置；比如，所述第一预设策略可以是一个预先训练好的模型，在所述模型中输入识别文本，即可输出所述识别文本中的至少一个待注释词。

基于此，在一实施例中，所述基于第一预设策略，确定所述识别文本中的至少一个待注释词，可以包括：

利用预设算法模型，确定所述识别文本中的至少一个待注释词。

这里，所述预设算法模型可以是利用长短期记忆网络(LSTM，Long-Short TermMemory)或者梯度提升决策树(GBDT，Gradient Boosting Decision Tree)等机器学习算法预先训练好的模型，将所述识别文本输入至所述预设算法模型，即可确定所述识别文本中的至少一个待注释词。

实际应用时，存在一些词语，在通常状态下并不具备特殊含义，不需要进行注释，但在某个特定技术领域中被赋予了特殊的含义；举例来说，词语“并行”在通常状态下的含义是“并排行走”，但在计算机领域中，“并行”的含义是“一组程序按独立异步的速度一起执行”。因此，对于一些在某个特定技术领域相关的语境中需要注释的词语，需要先确定所述识别文本的语境，再基于所述识别文本的语境确定所述识别文本中的至少一个待注释词；如此，能够更准确地确定待注释词，进一步使用户更好地理解演讲内容，提升用户体验。

基于此，在一实施例中，所述基于第一预设策略，确定所述识别文本中的至少一个待注释词，还可以包括：

对所述识别文本进行语义分析，得到所述识别文本的语境；

实际应用时，可以利用机器学习算法(比如神经网络算法)预先训练语义分析模型，用于判断输入的所述识别文本的语境；所述语境可以是所述识别文本所属的技术领域，也可以是所述识别文本涉及的具体应用场景。

实际应用时，所述基于所述识别文本的语境，结合预设算法模型，确定所述识别文本中的至少一个待注释词，可以包括：

在所述预设算法模型中输入所述识别文本以及所述识别文本的语境，以使所述预设算法模型输出所述至少一个待注释词；

或者，

输入所述识别文本至所述预设算法模型，得到所述预设算法模型输出的至少一个词语；利用所述识别文本的语境，在所述预设算法模型输出的至少一个词语中确定所述至少一个待注释词。

实际应用时，为了使确定的至少一个待注释词更符合用户的需求，所述第一预设策略还可以是由用户在所述识别文本中确定至少一个待注释词；如此，能够根据用户的需要为用户呈现注释文本，进一步使用户更好地理解演讲内容，提升用户体验。

获取选择信息；所述选择信息包含用户在所述识别文本中选定的至少一个词语；

基于所述选择信息，将所述选择信息包含的至少一个词语确定为所述至少一个待注释词。

具体地，在所述电子设备为服务器的情况下，持有终端的用户通过终端的人机交互界面(这里，所述识别文本通过用户持有的终端进行呈现)选择自身无法理解的至少一个词语，所述用户持有的终端基于用户的选择生成选择信息并发送给服务器，所述服务器基于所述用户持有的终端发送的选择信息，确定所述至少一个待注释词；在所述电子设备为具有或连接有人机交互界面的服务器的情况下，用户可以通过所述服务器的人机交互界面从所述识别文本中选择自身无法理解的至少一个词语，所述服务器可以直接获取到用户的选择信息，并基于所述用户的选择信息，确定所述至少一个待注释词；在所述电子设备为用户持有的终端的情况下，用户也可以通过所述终端的人机交互界面从所述识别文本中选择自身无法理解的至少一个词语，再由所述终端获取用户的选择信息，并基于所述用户的选择信息，确定所述至少一个待注释词。这里，所述用户持有的终端可以为PC、平板电脑、手机等。

实际应用时，为了提高计算效率，减少时延，还可以先对所述识别文本进行预处理，再基于预处理的结果确定至少一个待注释词；如此，能够提高计算效率，减少同传会议的时延，进一步提升用户体验。

基于此，在一实施例中，所述方法还可以包括：

对所述识别文本进行分词，得到分词结果；

相应地，基于所述第一预设策略，确定所述分词结果中的至少一个待注释词。

其中，所述对所述识别文本进行分词，得到分词结果，可以包括：

对所述识别文本进行分词，得到至少一个词；

对所述至少一个词进行过滤，将过滤后得到的词，作为分词结果。

具体地，可以利用机器学习算法(比如神经网络算法)预先训练一个分词模型和一个过滤模型，所述分词模型用于对输入的所述识别文本进行分词，得到并输出至少一个词；所述过滤模型用于对输入的所述至少一个词进行过滤，滤除其中的常用词(比如同学、好、谢谢、开始、和结束等词语)和停用词(比如鄙人、除开、和也罢等词语)等日常生活中经常使用但实际表达的信息量较少的词，并输出过滤后的词作为分词结果。

在步骤203中，实际应用时，所述第二预设策略可以根据需要设置；比如，在确定所述至少一个待注释词后，针对所述至少一个待注释词中的每个待注释词，可以在网络信息库中实时检索相应待注释词的含义，并将检索得到的结果作为所述相应待注释词对应的注释文本，得到至少一个注释文本；再比如，为了提高计算效率，减少时延，还可以预先采集各个常用技术领域(比如医学、通信或者计算机等)的专业术语以及每个专业术语的注释信息，整理并存储在一个数据库中，在确定所述至少一个待注释词后，针对所述至少一个待注释词中的每个待注释词，直接从所述数据库获取相应待注释词对应的注释文本，得到至少一个注释文本；如此，能够提高计算效率，减少同传会议的时延，进一步提升用户体验。

基于此，在一实施例中，所述基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，可以包括：

也就是说，所述第一信息库存储有至少一个词语以及至少一个词语中每个词语对应的注释信息。

实际应用时，由于所述第一信息库存储的数据量可能会很大，因此，可以利用分布式存储技术将所述第一信息库存储在本地或云端。具体地，在所述电子设备为服务器的情况下，所述服务器可以从本地或云端获取所述第一信息库；在所述电子设备为用户持有的终端的情况下，所述终端可以从本地或云端或服务器获取所述第一信息库。

实际应用时，为了使确定的注释文本更准确，所述第一信息库可以由演讲者提供；或者，在同传会议前，对于所述第一信息库存储的至少一个词语中的每个词语，在网络信息库中检索相应词语的最新注释信息，在所述最新注释信息与所述第一信息库存储的所述相应词语对应的注释信息不一致的情况下，利用所述最新注释信息更新所述第一信息库存储的所述相应词语对应的注释信息。

实际应用时，当演讲者进行演讲时，会将一些专业术语简化或者口语化，举例来说，对于语音识别技术领域的专业术语“加权有限状态转换机”来说，演讲者在演讲时可能直接将其称为“加权有限状态机”或者“状态机”；此时，会出现识别文本中确定的待注释词和所述第一信息库中的全部词语在文字上均无法完全匹配的情况；此时，可以基于所述待注释词的语义分析结果和所述识别文本的语境，利用所述第一信息库确定相应的注释文本。

基于此，在一实施例中，所述基于第一信息库，确定相应待注释词对应的注释文本，可以包括：

实际应用时，可以利用机器学习算法(比如神经网络算法)预先训练一个语义匹配模型和一个语境匹配模型，所述语义匹配模型用于确定输入的两段文本的语义匹配度；所述语境匹配模型用于确定输入的两段文本的语境匹配度。

实际应用时，所述预设条件可以根据需要设置；比如，可以分别为所述语义匹配度和所述语境匹配度设置一个阈值，在所述语义匹配度和所述语境匹配度均大于或等于各自对应的阈值的情况下，认为所述语义匹配度和所述语境匹配度满足预设条件，当然，在所述语义匹配度和所述语境匹配度中的一个小于各自对应的阈值的情况下，认为所述语义匹配度和所述语境匹配度不满足预设条件；再比如，可以对所述语义匹配度和所述语境匹配度进行加权计算，为加权计算的结果设置一个阈值，在加权计算的结果大于或等于所述阈值的情况下，认为所述语义匹配度和所述语境匹配度满足预设条件；当然，在加权计算的结果小于所述阈值的情况下，认为所述语义匹配度和所述语境匹配度不满足预设条件。

基于此，在一实施例中，将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本，可以包括以下之一：

实际应用时，存在一些词语，在不同的语境下具备不同的含义，也就是说，一个词语可能会对应多个注释信息；举例来说，“插值”在数学领域相关语境下的含义为“在离散数据的基础上补插连续函数，使得这条连续曲线通过全部给定的离散数据点”，而在图像处理领域相关语境下，“插值”的含义为“利用已知邻近像素点的灰度值来产生未知像素点的灰度值，以便由原始图像再生出具有更高分辨率的图像”；因此，在确定相应待注释词对应的注释文本时，还需要判断相应待注释词对应的是第一信息库中一个词语的哪个注释信息；例如，针对所述至少一个待注释词中的每个待注释词，基于第一信息库，确定相应待注释词对应的注释文本时，针对所述第一信息库中所述至少一个词语中的每个词语，可以先确定相应词语与所述相应待注释词的语义匹配度，在所述语义匹配度大于或等于第四阈值的情况下，确定相应词语对应的每个注释信息与所述识别文本的语境匹配度，将所述语境匹配度最高的注释信息确定为相应待注释词的注释文本。

实际应用时，所述第一阈值、所述第二阈值、所述第三阈值、所述第四阈值、所述第一权值以及所述第二权值可以根据需要设置。

在步骤204中，实际应用时，以图3所示更新后的识别文本为例，在更新后的识别文本301中，原识别文本302存在两个确定的待注释词：“自动语音识别”和“机器翻译”，其中，待注释词“自动语音识别”相关的位置为文本框303，待注释词“机器翻译”相关的位置为文本框304；所述在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，可以包括：在文本框303中设置添加待注释词“自动语音识别”对应的注释文本，并在文本框304中设置添加待注释词“机器翻译”对应的注释文本。或者，以图4所示更新后的识别文本为例，在更新后的识别文本401中，对于在原识别文本中确定的两个待注释词：“自动语音识别”和“机器翻译”，待注释词“自动语音识别”相关的位置为待注释词“自动语音识别”后设置的括号内，待注释词“机器翻译”相关的位置为与待注释词“机器翻译”以箭头连接的文本框403；所述在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，可以包括：在待注释词“自动语音识别”后的括号内设置添加待注释词“自动语音识别”对应的注释文本，并在文本框403中设置添加待注释词“机器翻译”对应的注释文本。

实际应用时，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时，还可以为所述对应的注释文本和所述获得的识别文本设置不同的呈现格式，以进一步使用户更好地理解演讲内容，提升用户体验。

基于此，在一实施例中，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时，所述方法还包括：

实际应用时，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时，还可以为所述相应待注释词和所述获得的识别文本中除至少一个待注释词外的其它文本设置不同的呈现格式，以进一步使用户更好地理解演讲内容，提升用户体验。

确定所述相应待注释词的第三呈现格式，以在呈现更新后的识别文本时以所述第三呈现格式呈现所述相应待注释词；所述第三呈现格式与第四呈现格式不同；所述第四呈现格式为所述获得的识别文本中除所述至少一个待注释词外其它文本的呈现格式。

实际应用时，所述第一呈现格式、所述第二呈现格式、所述第三呈现格式以及所述第四呈现格式，可以包括以下至少之一：字体、字号、字体颜色。所述字体，可以包括加粗或非加粗、斜体或非斜体、有下划线或无下划线、有边框或无边框等字体格式。

实际应用时，所述至少一个待注释词中的每个待注释词的呈现格式可以相同，例如图3中待注释词“自动语音识别”的呈现格式以及待注释词“机器翻译”的呈现格式都为加粗字体；当然，所述至少一个待注释词中的每个待注释词的呈现格式也可以不同，例如图4中待注释词“自动语音识别”的呈现格式为加粗字体，待注释词“机器翻译”的呈现格式为加粗字体、有边框。

实际应用时，所述至少一个注释文本中的每个注释文本的呈现格式可以相同，例如图3中待注释词“自动语音识别”对应的注释文本的呈现格式以及待注释词“机器翻译”对应的注释文本的呈现格式都为斜体字体；当然，所述至少一个注释文本中的每个注释文本的呈现格式也可以不同，例如图4中待注释词“自动语音识别”对应的注释文本的呈现格式为加粗字体，待注释词“机器翻译”对应的注释文本的呈现格式为斜体字体。

需要说明的是，实际应用时，所述获得的识别文本可以对应有至少一种语种，所述获得的识别文本可以是与所述待处理的语音数据相同语种(记做第一语种)的识别文本，也可以是针对获得的第一语种的识别文本进行翻译后的其他语种的识别文本，具体可以是第二语种的识别文本、……、第N语种的识别文本，N大于或等于1。

相应地，所述第一信息库中每个词语对应有至少一种语种的注释信息，所述至少一个注释文本对应的语种与所述识别文本对应的语种相同；从而针对获得的不同语种的识别文本，均可以通过本发明实施例提供的数据处理方法确定需要注释的词语以及对应的注释，得到更新后的识别文本，所述更新后的识别文本同样对应有至少一种语种，不同语种的更新后的识别文本用于呈现给使用不同语种的用户观，所述更新后的识别文本对应的语种与获得的识别文本对应的语种相同，如此，能够帮助使用不同语种的用户更好地理解演讲内容，提升用户体验。

实际应用时，当所述获得的识别文本为与所述待处理的语音数据相同语种的文本时，所述对所述语音数据进行文本识别，获得识别文本，包括：

对所述语音数据进行语音识别，获得第一语种的识别文本；所述第一语种与所述语音数据对应的语种相同。

当所述获得的识别文本为与所述待处理的语音数据不同语种的文本时，所述对所述语音数据进行文本识别，获得识别文本，包括：

对所述语音数据进行语音识别，获得第一语种的识别文本；所述第一语种与所述语音数据对应的语种相同；

运用预设的翻译模型对所述第一语种的识别文本进行机器翻译，获得其他语种的识别文本。

这里，所述翻译模型用于将一种语种的文本翻译为另一种语种的文本。实际应用时，所述翻译模型可以是利用机器学习算法(比如神经网络算法)训练得到的模型。

实际应用时，在所述电子设备为服务器的情况下，所述服务器可以获取语音数据并执行上述步骤201～步骤204，得到更新后的识别文本，将更新后的识别文本发送给用户持有的终端，从而持有终端的用户可以通过终端浏览更新后的识别文本。这里，用户可以通过用户持有的终端选择语种，服务器基于用户持有的终端选择的语种提供相应语种的更新后的识别文本。为了提供符合用户需求的语种对应的更新后的识别文本，可以根据用户通过用户持有的终端发送的获取请求，获取相应语种的更新后的识别文本。

基于此，在一实施例中，所述电子设备为服务器，所述方法还可以包括：接收终端发送的获取请求；所述获取请求用于获取更新后的识别文本；所述获取请求至少包括：目标语种；

从至少一种语种的更新后的识别文本中确定所述目标语种对应的更新后的识别文本；将确定的更新后的识别文本发送给终端。

这里，所述终端指用户持有的终端。用户持有的终端接收到更新后的识别文本后进行呈现。

实际应用时，在所述电子设备为自身连接或设有人机交互界面的服务器的情况下，用户可以预先通过人机交互界面设置语种，所述服务器可以得到预先设置的语种对应的更新后的识别文本，并通过所述人机交互界面呈现更新后的识别文本。当然，所述服务器还可以连接有显示屏幕，则所述服务器运用投屏技术将更新后的识别文本投屏到显示屏幕进行呈现。在所述电子设备为用户持有的终端的情况下，持有终端的用户可以预先通过终端的人机交互界面设置语种，所述用户持有的终端得到预先设置的语种对应的更新后的识别文本后，可以直接通过人机交互界面呈现更新后的识别文本。

本发明实施例提供的数据处理方法，获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；基于第一预设策略，确定所述识别文本中的至少一个待注释词；基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。本发明实施例的方案，能够对同传会议中演讲者的演讲内容进行注释，从而能够使用户更好地理解演讲内容，提升用户体验。

下面结合应用实施例对本发明再作进一步详细的描述。

本应用实施例提供的数据处理装置，应用于同声传译场景；如图5所示，数据处理装置500包括：中央控制器501、关键词识别模块502、知识库503以及前端504；其中，

所述中央控制器501用于利用所述关键词识别模块502(即上述预设算法模型)确定输入至所述数据处理装置500的文本(即上述识别文本)中需要显示注释信息的词(即上述待注释词)，并利用所述知识库503(即上述第一信息库)确定需要显示注释信息的词对应的注释信息(即上述注释文本)，将确定的注释信息输出至所述前端504，以呈现给用户。

具体地，所述数据处理装置500呈现注释信息的过程如图6所示，包括以下步骤：

步骤601：对输入文本进行预处理，得到i个词，i为正整数；之后执行步骤602。

这里，所述输入文本相当于图2所示的数据处理方法中的所述识别文本；由所述中央控制器501对所述输入文本进行预处理，所述预处理包括对所述输入文本进行分词处理、常用词和停用词过滤等处理。

步骤602：判断i个词中的第n个词是否需要显示注释信息；若是，执行步骤603；若否，则执行步骤605。

这里，n的初始值为1，由所述中央控制器501利用所述关键词识别模块502判断i个词中的第n个词是否需要显示注释信息；所述步骤602的具体实现过程与图2所示的数据处理方法中步骤202的具体实现过程相同；这里不多赘述。

步骤603：判断知识库中是否存在所述第n个词；若是，执行步骤604；若否，则执行步骤605。

这里，由所述中央控制器501判断所述知识库503中是否存在所述第n个词。

步骤604：从所述知识库中获取所述第n个词的注释信息，并将所述注释信息加入注释信息集合；之后执行步骤606。

这里，由所述中央控制器501从所述知识库503中获取所述第n个词的注释信息，并将所述注释信息加入注释信息集合；所述注释信息集合的初始状态为空集。

步骤605：使n＝n+1；之后执行步骤602。

步骤606：判断n是否大于i；若是，执行步骤607；若否，则执行步骤605。

步骤607：输出所述注释信息集合至前端，前端呈现所述输入文本和所述注释信息集合中的注释信息。

这里，由所述中央控制器501输出所述注释信息集合至所述前端504，所述前端504按照预设格式为用户呈现所述输入文本和所述注释信息集合中的注释信息；所述预设格式可以包括显示位置、显示字体等呈现格式。

本应用实施例提供的数据处理装置和数据处理方法，具备以下优点：

能够对同传会议中演讲者的演讲内容进行注释，从而能够使用户更好地理解演讲内容，提升用户体验。

为了实现本发明实施例的方法，本发明实施例还提供了一种数据处理装置；如图7所示，数据处理装置700包括获取单元701、第一处理单元702、第二处理单元703和第三处理单元704；其中，

所述获取单元701，用于获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；

所述第一处理单元702，用于基于第一预设策略，确定所述识别文本中的至少一个待注释词；

所述第二处理单元703，用于基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；

所述第三处理单元704，用于针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

在一实施例中，所述第一处理单元702，具体用于：

对所述识别文本进行语义分析，得到所述识别文本的语境；

在一实施例中，所述第二处理单元703，具体用于：

在一实施例中，所述第二处理单元702，还具体用于：

将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本；其中，

将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本，包括以下之一：

在一实施例中，所述数据处理装置700还包括分词单元；所述分词单元用于对所述识别文本进行分词，得到分词结果；相应地，所述第一处理单元702，还用于：

在一实施例中，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时，所述第三处理单元704，具体用于：

其中，所述第一处理单元702、所述第二处理单元703、所述第三处理单元704以及所述分词单元的功能相当于上述应用实施例中的中央控制器501、关键词识别模块502、知识库503以及前端504的功能。

实际应用时，所述获取单元701、所述第一处理单元702、所述第二处理单元703、所述第三处理单元704以及所述分词单元的功能可由数据处理装置700中的处理器结合通信接口实现；所述处理器可以是中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)。

需要说明的是：上述实施例提供的数据处理装置700在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图8为本发明实施例的电子设备的硬件组成结构示意图，如图8所示，电子设备80包括存储器83、处理器82及存储在存储器83上并可在处理器82上运行的计算机程序；所述处理器82执行所述程序时实现上述一个或多个技术方案提供的方法。

具体地，所述处理器82执行所述程序时实现：获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；基于第一预设策略，确定所述识别文本中的至少一个待注释词；基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

需要说明的是，所述处理器82执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备80还包括通信接口81，所述通信接口81用于和其它设备进行信息交互；同时，电子设备80中的各个组件通过总线系统84耦合在一起。可理解，总线系统84配置为实现这些组件之间的连接通信。总线系统84除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器83可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器82中，或者由处理器82实现。处理器82可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器82中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器82可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器82可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器82读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时实现上述一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第一预设策略，确定所述识别文本中的至少一个待注释词，包括：

对所述识别文本进行语义分析，得到所述识别文本的语境；

3.根据权利要求1所述的方法，其特征在于，所述基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于第一信息库，确定相应待注释词对应的注释文本，包括：

5.根据权利要求4所述的方法，其特征在于，将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本，包括以下之一：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

对所述识别文本进行分词，得到分词结果；

7.根据权利要求1所述的方法，其特征在于，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时，所述方法还包括：

8.一种数据处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。