CN110853615A

CN110853615A - 一种数据处理方法、装置及存储介质

Info

Publication number: CN110853615A
Application number: CN201911109182.5A
Authority: CN
Inventors: 郝杰
Original assignee: Beijing Opper Communication Co Ltd
Current assignee: Beijing Opper Communication Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-02-28
Anticipated expiration: 2039-11-13
Also published as: CN110853615B

Abstract

本发明公开了一种数据处理方法、装置及存储介质。其中，方法包括：获取第一语音数据；对所述第一语音数据进行翻译，得到翻译文本；利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；其中，所述主题是基于所述翻译文本的至少两个关键词中各关键词的出现频率确定的；所述内容要点是基于所述翻译文本的至少两个关键词中各关键词的语义确定的；所述第二语音数据对应的语种与所述第一语音数据对应的语种不同；所述第二语音数据和所述第一信息用于在播放所述第一语音数据时在客户端进行呈现。

Description

一种数据处理方法、装置及存储介质

技术领域

本发明涉及同声传译技术，具体涉及一种数据处理方法、装置及存储介质。

背景技术

同声传译场景中，在说话人讲话的过程中，客户端可以采集说话人的音频数据，将采集的音频数据发送给同传服务器；同传服务器对获取的音频数据进行语音识别，得到识别文本，并对识别文本进行翻译，得到与用户的语种对应的翻译结果。上述方式中，通过对演讲内容进行翻译得到对应的翻译结果，并展示给用户，但翻译结果不能够使用户准确领会演讲内容。

发明内容

有鉴于此，本发明实施例期望提供一种数据处理方法、装置及存储介质。

本发明的技术方案是这样实现的：

本发明实施例提供一种数据处理方法，包括：

获取第一语音数据；

对所述第一语音数据进行翻译，得到翻译文本；

利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；

其中，所述主题是基于所述翻译文本的至少两个关键词中各关键词的出现频率确定的；所述内容要点是基于所述翻译文本的至少两个关键词中各关键词的语义确定的；所述第二语音数据对应的语种与所述第一语音数据对应的语种不同；所述第二语音数据和所述第一信息用于在播放所述第一语音数据时在客户端进行呈现。

上述方案中，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：

从所述翻译文本中提取至少两个关键词；

统计所述至少两个关键词中每个关键词在所述翻译文本中出现的次数；

利用统计的每个关键词在所述翻译文本中出现的次数，确定所述翻译文本的主题；将所述翻译文本的主题作为所述第一信息。

上述方案中，所述利用统计的每个关键词在所述翻译文本中出现的次数，确定所述翻译文本的主题，包括：

当统计的每个关键词在所述翻译文本中出现的次数均大于次数阈值时，根据统计的次数，确定所述至少两个关键词中每个关键词对应的权重，获得至少两个权重；

将所述至少两个权重中最大权重对应的关键词作为所述翻译文本对应的主题。

从所述翻译文本中提取至少两个关键词；

对所述至少两个关键词中每个关键词进行语义分析处理，得到每个关键词对应的语义信息；

利用得到的每个关键词对应的语义信息，确定所述翻译文本的主题；将所述翻译文本的主题作为所述第一信息。

上述方案中，所述利用得到的每个关键词语对应的语义信息，获得所述翻译文本的主题，包括：

按照每个关键词语对应的语义信息，对所述至少两个关键词语进行聚类，得到至少两个聚类结果；每个聚类结果对应一个主题；

基于所述至少两个聚类结果，利用主题模型获取所述至少两个聚类结果中每个聚类结果对应的主题的概率，得到至少两个概率；

将所述至少两个概率中最大概率对应的主题作为所述翻译文本对应的主题。

对所述翻译文本进行分段，得到所述翻译文本对应的至少两个片段；

针对至少两个片段中的每个片段，进行分词处理，得到至少一个词语，统计所述至少一个词语中各词语出现的频率；

将频率最大的词语对应的片段作为关键片段，得到至少两个关键片段；

对所述至少两个关键片段进行拼接处理，获得所述翻译文本对应的内容要点；将所述翻译文本对应的内容要点作为所述第一信息。

上述方案中，所述对所述翻译文本进行转换，合成所述翻译文本对应的第二语音数据，包括：

对所述翻译文本进行符号识别，得到所述翻译文本中的至少一个标点符号；

利用所述翻译文本中的至少一个标点符号对所述翻译文本进行分割，得到至少一个第一文本；

根据所述至少一个第一文本，生成至少一个语音；并利用所述至少一个语音，合成所述翻译文本对应的第二语音数据。

上述方案中，所述对所述第一语音数据进行翻译，得到翻译文本之前，所述方法还包括：

从所述第一语音数据中提取声纹特征，得到声纹特征数据；

基于所述声纹特征数据，利用说话人识别模型，获得识别结果；

当所述识别结果表征所述第一语音数据对应的说话人的身份信息与预设身份信息匹配时，对所述第一语音数据进行翻译，得到所述第一语音数据对应的翻译文本。

上述方案中，所述基于所述第一语音数据的声纹特征数据，利用说话人识别模型，获得识别结果之前，所述方法还包括：

对所述声纹特征数据进行聚类，得到聚类结果；

当所述聚类结果表征所述第一语音数据对应至少两个说话人的语音时，统计所述声纹特征数据中属于同一类的第一特征数据占所述声纹特征数据的数据量，得到至少两个数据量；

将所述至少两个数据量中最大数据量对应的第一特征数据作为第二特征数据；并基于所述第二特征数据，利用说话人识别模型，获得识别结果。

本发明实施例提供一种数据处理装置，所述装置包括：

获取单元，用于获取第一语音数据；

翻译单元，用于对所述第一语音数据进行翻译，得到翻译文本；

处理单元，用于利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；

本发明实施例提供一种数据处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任一所述方法的步骤。

本发明实施例提供一种计算机存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现上述任一所述方法的步骤。

本发明实施例提供的控制方法、终端及存储介质，获取第一语音数据；对所述第一语音数据进行翻译，得到翻译文本；利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；其中，所述主题是基于所述翻译文本的至少两个关键词中各关键词的出现频率确定的；所述内容要点是基于所述翻译文本的至少两个关键词中各关键词的语义确定的；所述第二语音数据对应的语种与所述第一语音数据对应的语种不同；所述第二语音数据和所述第一信息用于在播放所述第一语音数据时在客户端进行呈现。通过为用户提供与所述第一语音数据相关的第一信息，以及基于所述第一语音数据对应的翻译文本得到的第二语音数据，如此，能够准确提炼出说话人的第一语音数据的内容所表达的主题和/或内容要点，从而能够帮助用户准确领会说话人的内容，提升用户体验。

附图说明

图1为本发明实施例数据处理方法的实现流程示意图；

图2为本发明实施例第一种第一终端对第一语音数据进行翻译得到翻译文本的实现流程示意图；

图3为本发明实施例第二种第一终端对第一语音数据进行翻译得到翻译文本的实现流程示意图；

图4为本发明实施例第三种第一终端对第一语音数据进行翻译得到翻译文本的实现流程示意图；

图5a为本发明实施例一种第一终端提取翻译文本的主题的实现流程示意图；

图5b为本发明实施例又一种第一终端提取翻译文本的主题的实现流程示意图；

图6为本发明实施例第一终端对第一语音数据进行处理得到第二语音数据和第一信息的实现流程示意图；

图7为本发明实施例一种数据处理装置的组成结构示意图；

图8为本发明实施例又一种数据处理装置的组成结构示意图。

具体实施方式

在对本发明实施例的技术方案进行详细说明之前，首先对相关技术进行简单说明。

同声传译场景中，在说话人讲话的过程中，客户端可以采集说话人的音频数据，将采集的音频数据发送给同传服务器；同传服务器对获取的音频数据进行语音识别，得到识别文本，并对识别文本进行翻译，得到与用户的语种对应的翻译结果，将得到的翻译结果发送至客户端；客户端接收到与用户的语种对应的翻译结果后，对所述翻译结果进行语音合成，得到合成后的音频，并通过音频播放器播放给用户，从而实现将说话人的内容同步翻译为用户的语种。

实际应用时，说话人在讲话的过程中，如果说话人由于提前未准备演讲稿，一边讲话一边组织语言且思路不清晰，则说话人的言语会出现混乱、没有条理的情况，例如，说话人在说话前未做充分准备，会表达出类似“您好，我想要订购一张明早从北京到上海的机票，我是要订购一张从北京到南京的机票”的内容，这样，即使客户端能够将说话人的内容翻译为用户的语种，由于说话人对表达的内容进行了修正，因此客户端将翻译后的与用户语种对应的翻译结果通过音频播放给用户后，用户可能无法立刻确定出说话人要表达的内容。再例如，说话人在说话的过程中使用了错误的成语，会表达出类似“若是知有底人，则细嚼慢咽；若是不知有底人，则浑仑突枣”的内容，这样，即使客户端能够将说话人的内容翻译为用户的语种，由于说话人对表达的内容出现了口误，因此，客户端将翻译后的与用户语种对应的翻译结果通过音频播放给用户后，用户可能无法立刻确定出说话人要表达的内容。

上述翻译方式中可以展示不同语种的演讲内容即翻译结果，但是仅针对说话人的口述内容进行同传，当说话人的口述内容出现表达错误或者表达重读等问题时，使不同语种的用户很难领会说话人所要表达的内容。另外，相较于人工同传服务以听为主，目前的机器同传技术也是以听为主，在说话人进行语音表达的过程中，语音的快速播放并不能使用户准确理解到说话人所要表达的内容，上述问题导致用户的体验不佳。

基于此，在发明的各个实施例中，获取第一语音数据；对所述第一语音数据进行翻译，得到翻译文本；利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；其中，所述主题是基于所述翻译文本的至少两个关键词中各关键词的出现频率确定的；所述内容要点是基于所述翻译文本的至少两个关键词中各关键词的语义确定的；所述第二语音数据对应的语种与所述第一语音数据对应的语种不同；所述第二语音数据和所述第一信息用于在播放所述第一语音数据时在客户端进行呈现。

下面结合附图及具体实施例对本发明作进一步详细的说明。

本发明实施例提供一种数据处理方法，应用于第一终端。图1为本发明实施例数据处理方法的实现流程示意图，如图1所示，所述方法包括：

步骤101：获取第一语音数据。

其中，所述第一语音数据可以是指对说话人的语音进行实时采集得到的语音段。所述说话人可以是指应用同传的场景中的说话人。

实际应用时，所述第一语音数据可以由第二终端对应用同传的场景中的说话人的语音进行实时采集并发送给所述第一终端。所述第一终端、所述第二终端具体可以是个人计算机(PC，Personal Computer)、平板电脑等移动终端。

在一实施例中，所述第二终端可以设置有或者连接有语音采集模块，如麦克风，通过所述语音采集模块对应用同传的场景中的说话人进行声音采集，得到所述第一语音数据；所述第二终端与所述第一终端建立通信，通过无线传输模块将采集的所述第一语音数据传输至所述第一终端。

举例来说，在应用同传的会议场景中，说话人针对环境问题进行讲话时，第二终端利用语音采集模块采集说话人的语音，得到第一语音数据；第二终端与第一终端建立通信，通过无线传输模块将第一语音数据发送至第一终端。

在另一实施例中，所述第二终端可以设置有或者连接有视频采集模块，如摄像头，通过所述视频采集模块对应用同传的场景中的说话人的声音和身体进行采集，得到视频数据；所述第二终端与所述第一终端建立通信，通过无线传输模块将采集的所述视频数据传输至所述第一终端；所述第一终端从所述视频数据中获取所述说话人的语音，得到所述第一语音数据。

需要说明的是，所述第二终端通过音频流、视频流的方式将应用同传的场景中的说话人的语音发送给所述第一终端，所述第一终端可以针对说话人的语音进行后续的翻译处理，从而帮助使用所述第一终端的用户通过自身熟悉的语种听懂说话人的内容，进而促进用户与说话人之间的交流更顺畅。

实际应用时，考虑到在应用同传的场景中至少包括一个说话人，若应用同传的场景中包括一个说话人，则第二终端可以对这一个说话人的语音进行实时采集，得到第一语音数据；若应用同传的场景中包括至少两个说话人，则第二终端可以对至少两个说话人的语音进行实时采集，得到第一语音数据。

若应用同传的场景中只有一个说话人，如张三，则第二终端可以将张三的语音发送给第一终端，所述第一终端针对张三的语音进行后续处理，能够帮助使用所述第一终端的用户通过自身熟悉的语种领会张三所说的内容。

若应用同传的场景中包括两个说话人，如张三和李四，其中，张三作为主持人，李四作为主要的讲话人，则第二终端可以将张三和李四的语音均发送给所述第一终端，所述第一终端针对李四的语音进行后续处理，能够帮助使用所述第一终端的用户过滤掉与主要的讲话人无关的演讲内容。

实际应用时，若在应用同传的场景中的说话人由于思路不清晰、未做充分准备造成演讲内容出现没有条理、上下文衔接不紧凑、啰嗦等问题，会让用户无法准确领会演讲内容，为此，第二终端将出现上述问题的说话人的语音发送给第一终端，所述第一终端针对说话人的第一语音数据进行后续处理，能够帮助使用所述第一终端的用户在说话人言语混乱的情况仍能真正领会演讲内容。

步骤102：对所述第一语音数据进行翻译，得到翻译文本。

在一实施例中，所述对所述第一语音数据进行翻译，得到翻译文本之前，所述方法还包括：从所述第一语音数据中提取声纹特征，得到声纹特征数据；基于所述声纹特征数据，利用说话人识别模型，获得识别结果；当所述识别结果表征所述第一语音数据对应的说话人的身份信息与预设身份信息匹配时，对所述第一语音数据进行翻译，得到所述第一语音数据对应的翻译文本。

其中，所述声纹特征可以是梅尔频率倒谱系数(MFCC，Mel Frequency CepstrumCoefficient)。

具体来说，可以先对所述第一语音数据进行预加重、分帧、加窗、滤波等预处理后，得到预处理后的第一语音数据；再提取所述预处理后的第一语音数据中的声纹特征，得到声纹特征数据。

所述说话人识别模型，用于识别应用同传的场景中的说话人的身份是否与预设的身份信息相匹配。

这里，所述预设的身份信息可以是使用所述第一终端的用户根据自身对说话人的喜好程度设置的，例如，使用所述第一终端的用户可以从说话人列表中选取一个说话人作为自身喜欢的说话人，所述第一终端可以将用户选取的说话人的身份信息作为所述预设的身份信息，并通过说话人识别模型识别应用同传的场景中的说话人的身份是否与预设身份信息相匹配，当所述第一语音数据对应的说话人的身份信息与预设身份信息匹配时，对所述第一语音数据进行翻译，如此，可以保证使用所述第一终端的用户对自身喜欢的说话人的内容进行理解，过滤掉自身不喜欢的说话人的内容，从而提高用户满意度。

实际应用时，若所述第二终端将采集的至少两个说话人的语音发送至所述第一终端，则所述第一终端需要从所述至少两个说话人的语音中选取出某个说话人的语音，方便后续针对选取出的某个说话人的语音进行翻译得到翻译文本。

基于此，在一实施例中，所述基于所述第一语音数据的声纹特征数据，利用说话人识别模型，获得识别结果之前，所述方法还包括：对所述声纹特征数据进行聚类，得到聚类结果；当所述聚类结果表征所述第一语音数据对应至少两个说话人的语音时，统计所述声纹特征数据中属于同一类的第一特征数据占所述声纹特征数据的数据量，得到至少两个数据量；将所述至少两个数据量中最大数据量对应的第一特征数据作为第二特征数据；并基于所述第二特征数据，利用说话人识别模型，获得识别结果。

这里，所述第二特征数据可以是指所述至少两个说话人中主要的说话人的语音对应的特征数据。

其中，应用同传的场景中的至少两个说话人中所讲内容最多的说话人可以作为主要的说话人，例如，应用同传的会议场景中包括主持人和演讲者，考虑演讲者所讲内容最多，因此可以将演讲者作为主要的说话人。

需要说明的是，通过对所述第一语音数据进行声纹特征提取，并对提取的声纹特征进行聚类；当聚类结果表征所述第一语音数据对应至少两个说话人的语音时，确定至少两个说话人中主要的说话人的语音对应的特征数据；利用确定的特征数据，通过说话人识别模型识别应用同传的场景中的主要的说话人的身份是否与预设身份信息相匹配，可以帮助用户对至少两个说话人中主要的说话人的内容进行理解，而无需关注其它说话人的内容，提高用户体验。

在一实施例中，所述对第一待处理数据中的第一语音数据进行翻译，获得第一翻译文本，包括：对所述第一语音数据进行语音识别，获得识别文本；对所述识别文本进行翻译，获得所述第一翻译文本。

这里，所述第一终端可以采用语音识别技术对所述第一语音数据进行实时语音识别，获得识别文本；并运用预设的翻译模型对所述识别文本进行翻译，获得所述第一翻译文本。

所述翻译模型，用于将第一语种的文本翻译为至少一种第二语种的文本；所述第一语种不同于第二语种。

在一示例中，以第二终端将应用同传的场景中一个说话人的语音发送至所第一终端为例，描述第一终端对第一语音数据进行翻译得到翻译文本的实现流程示意图，如图2所示，包括：

步骤1：第一终端接收第二终端发送的第一语音数据。

所述第一语音数据是所述第二终端采集的。

步骤2：判断所述第一语音数据是否对应至少两个说话人的语音；当确定所述第一语音数据对应一个说话人的语音时，执行步骤3。

步骤3：判断所述第一语音数据对应的说话人的身份信息是否与预设身份信息匹配；当表征所述第一语音数据对应的说话人的身份信息与预设身份信息匹配时，执行步骤4。

步骤4：对所述第一语音数据进行翻译，得到翻译文本。

这里，对所述第一语音数据进行语音识别，获得识别文本；对所述识别文本进行翻译，获得所述第一翻译文本。

在一示例中，以第二终端将应用同传的场景中至少两个说话人的语音发送至所第一终端为例，描述第一终端对第一语音数据进行翻译得到翻译文本的实现流程示意图，如图3所示，包括：

步骤1：第一终端接收第二终端发送的第一语音数据。

所述第一语音数据是所述第二终端采集的。

步骤2：判断所述第一语音数据是否对应至少两个说话人的语音；当确定所述第一语音数据对应至少两个说话人的语音时，执行步骤3。

步骤3：从所述第一语音数据中提取声纹特征，从提取的声纹特征中选取至少两个说说话人中主要的说话人对应的第二特性数据。

对所述声纹特征数据进行聚类，得到聚类结果；当所述聚类结果表征所述第一语音数据对应至少两个说话人的语音时，统计所述声纹特征数据中属于同一类的第一特征数据占所述声纹特征数据的数据量，得到至少两个数据量；将所述至少两个数据量中最大数据量对应的第一特征数据作为第二特征数据；并基于所述第二特征数据。

步骤4：判断所述第二特征数据对应的说话人的身份信息是否与预设身份信息匹配；当表征所述第二特征数据对应的说话人的身份信息与预设身份信息匹配时，执行步骤5。

步骤5：对所述第二特征数据对应的语音数据进行翻译，得到翻译文本。

这里，对所述第二特征数据对应的语音数据进行语音识别，获得识别文本；对所述识别文本进行翻译，获得所述第一翻译文本。

步骤103：利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点。

这里，所述第二语音数据和所述第一信息在所述第一语音数据被播放时进行呈现，可以是指在播放第一语音数据的同时呈现所述第二语音数据和所述第一信息，即所述数据处理方法可以应用于同声传译的场景。

实际应用中，说话人在讲话的过程中，如果说话人由于提前未准备演讲稿，则说话人的言语会出现混乱、没有条理的情况，例如，说话人在讲话前未做充分准备，会表达出类似“您好，我想要订购一张明早从北京到上海的机票，我是要订购一张从北京到南京的机票”的内容；或者，说话人在说话的过程中使用了错误的成语，会表达出类似“若是知有底人，则细嚼慢咽；若是不知有底人，则浑仑突枣”的内容。如此，所述第一终端获得所述翻译文本后，可以对所述翻译文本进行文本顺滑处理，以使用户对说话人的内容的理解更加顺畅。

基于此，在一实施例中，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息之前，所述方法还包括：

对所述翻译文本进行分句，获得至少两个语句；

对所述至少两个语句中每个语句进行顺滑处理，得到顺滑处理过后的语句；

将顺滑处理后的语句进行拼接，得到顺滑处理后的翻译文本。

举例来说，若翻译文本为“您好，我想要订购一张明早从北京到上海的机票，我是要订购一张从北京到南京的机票”的内容，则顺滑处理后的文本为“我订购一张从北京到南京的机票”；或者，若翻译文本为“若是知有底人，则细嚼慢咽；若是不知有底人，则浑仑突枣”的内容，则顺滑处理后的文本可以为“若是知有底人，则细嚼慢咽；若是不知有底人，则囫囵吞枣”。

需要说明的是，通过对所述翻译文本进行顺滑处理，可以保证后续提取的主题和/或内容要点能够准确表达说话人的核心思想，可以提高准确率。

在一实施例中，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：

从所述翻译文本中提取至少两个关键词；

其中，所述主题可以表征所述翻译文本所表达的主要题材，如体育题材等。

这里，可以利用关键词抽取技术对所述翻译文本进行关键词抽取，得到所述翻译文本中的至少两个关键词。

在一实施例中，所述利用统计的每个关键词在所述翻译文本中出现的次数，确定所述翻译文本的主题，包括：当统计的每个关键词在所述翻译文本中出现的次数均大于次数阈值时，根据统计的次数，确定所述至少两个关键词中每个关键词对应的权重，获得至少两个权重；将所述至少两个权重中最大权重对应的关键词作为所述翻译文本对应的主题；将所述翻译文本对应的主题作为所述第一信息。

其中，若某个关键词语在所述翻译文本中出现的次数越多，则该关键词对应的权重也越大，该关键词能够作为所述翻译文本的主题的概率也越大。

考虑到说话人的讲话时长较大，通过所述翻译文本的至少两个关键词中各关键词的出现次数确定所述翻译文本的主题，无需根据所述翻译文本对所述翻译文本的全部内容进行分析，可以实现快速提取。

实际应用中，除了可以通过统计所述翻译文本中每个关键词的频次确定所述翻译文本的主题之外，还可以通过所述翻译文本中每个关键词的语义确定所述翻译文本的主题。

基于此，在一实施例中，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：从所述翻译文本中提取至少两个关键词；对所述至少两个关键词语中每个关键词进行语义分析处理，得到每个关键词对应的语义信息；利用得到的每个关键词对应的语义信息，确定所述翻译文本的主题；将所述翻译文本的主题作为所述第一信息。

其中，所述翻译文本对应的主题用于在播放第一语音数据时在所述第一终端进行呈现，即在播放第一语音数据的同时呈现所述翻译文本对应的主题。

这里，可以利用序列标注模型，结合每个关键词的上下文，对每个关键词进行语义分析。或者，运用自然语言处理(NLP，Natural Language Processing)技术对每个关键词进行语义分析。

在一实施例中，所述利用得到的每个关键词语对应的语义信息，获得所述翻译文本的主题，包括：按照每个关键词语对应的语义信息，对所述至少两个关键词语进行聚类，得到至少两个聚类结果；每个聚类结果对应一个主题；基于所述至少两个聚类结果，利用主题模型获取所述至少两个聚类结果中每个聚类结果对应的主题的概率，得到至少两个概率；将所述至少两个概率中最大概率对应的主题作为所述翻译文本对应的主题。

所述主题模型，用于按照主题对每个聚类结果包含的关键词语进行分类、降维，得到每个聚类结果对应的主题的概率。

考虑到说话人会使用多个语义相同的词汇进行重复表达，通过所述翻译文本的至少两个关键词中各关键词的语义确定所述翻译文本的主题，可以保证提取的所述翻译文本的主题是唯一的，从而实现准确提取。

实际应用中，可以对所述翻译文本进行分段，从分段得到的至少两个片段中抽取关键片段，根据抽取的关键片段确定所述翻译文本的内容要点。

在一实施例中，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：对所述翻译文本进行分段，得到所述翻译文本对应的至少两个片段；针对至少两个片段中的每个片段，进行分词处理，得到至少一个词语，统计所述至少一个词语中各词语出现的频率；将频率最大的词语对应的片段作为关键片段，得到至少两个关键片段；对所述至少两个关键片段进行拼接处理，获得所述翻译文本对应的内容要点；将所述翻译文本对应的内容要点作为所述第一信息。

其中，片段可以是指所述翻译文本中的一个段落；也可以是指所述翻译文本中的至少一个语句。

所述翻译文本对应的内容要点用于在播放第一语音数据时在第一终端进行呈现，即在播放第一语音数据的同时呈现所述翻译文本对应的内容要点。

需要说明的是，通过提取所述翻译文本的主题和/或内容要点，可以保证在应用同传的场景中说话人思路不清晰、条理不分明的情况下，将说话人所要表达的中心思想准确传达给用户；另外，提取的所述翻译文本的主题和/或内容要点，后续可方便用户对说话人的内容进行整理、记录形成笔记。

在一实施例中，所述对所述翻译文本进行转换，合成所述翻译文本对应的第二语音数据，包括：对所述翻译文本进行符号识别，得到所述翻译文本中的至少一个标点符号；利用所述翻译文本中的至少一个标点符号对所述翻译文本进行分割，得到至少一个第一文本；根据所述至少一个第一文本，生成至少一个语音；并利用所述至少一个语音，合成所述翻译文本对应的第二语音数据。

这里，可以利用文本到语音(TTS，Text To Speech)技术将所述至少一个第一文本转换为至少一个语音。

在一示例中，以第一信息包括翻译文本的主题为例，描述第一终端提取翻译文本的主题的实现流程示意图，如图4所示，包括：

步骤1：第一终端对翻译文本进行顺滑处理，得到顺滑处理后的翻译文本。

将所述翻译文本中出现的“啊、哦”等词语去除；或者，将所述翻译文本中出现的错误词语去除；或者，将所述翻译文本中重复的内容去除。

步骤2：提取所述顺滑处理后的翻译文本中的至少两个关键词。

步骤3：统计所述至少两个关键词中每个关键词出现的次数。

步骤4：根据统计的次数，确定所述至少两个关键词中每个关键词对应的权重，获得至少两个权重。

步骤5：将所述至少两个权重中最大权重对应的关键词作为所述翻译文本对应的主题。

在一示例中，以第一信息包括翻译文本的主题为例，描述第一终端提取翻译文本的主题的实现流程示意图，如图5a所示，包括：

步骤3：对所述至少两个关键词语中每个关键词进行语义分析处理，得到每个关键词对应的语义信息。

步骤4：按照每个关键词语对应的语义信息，对所述至少两个关键词语进行聚类，得到至少两个聚类结果。

步骤5：利用主题模型获取所述至少两个聚类结果中每个聚类结果对应的主题的概率，得到至少两个概率。

步骤6：将所述至少两个概率中最大概率对应的主题作为所述翻译文本对应的主题。

在一示例中，以第一信息包括翻译文本的内容要点为例，描述第一终端提取翻译文本的内容要点的实现流程示意图，如图5b所示，包括：

步骤2：对所述顺滑处理后的翻译文本进行分段，得到至少两个片段。

步骤3：从所述至少两个片段中选取至少两个关键片段。

步骤4：对所述至少两个关键片段进行拼接处理，获得所述翻译文本对应的内容要点。

在一示例中，以第一信息包括翻译文本的主题为例，描述第一终端对第一语音数据进行处理得到第二语音数据和第一信息的实现流程示意图，如图6所示，包括：

步骤1：第一终端接收第二终端发送的第一语音数据(图6中的语音)。

第二终端可以采集处于同传场景的说话人的语音得到所述第一语音数据，并将采集的第一语音数据发送给第一终端。同传场景可以是应用同传的国际会议、研讨会场景。

步骤2：对所述第一语音数据进行翻译，得到与目标语种对应的翻译文本(图6中的目标文本)。

这里，所述第一终端可以设有人机交互界面，用户通过人机交互界面可以选择目标语种。

所述第一终端可以利用实时语音识别技术对所述第一语音数据进行识别，得到识别文本；利用翻译模型对识别文本进行翻译，得到与目标语种对应的翻译文本。

步骤3：利用所述翻译文本，合成所述翻译文本对应的第二语音数据(图6中的目标语音)；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息(图6中的主题)。

步骤4：输出所述第二语音数据和所述第一信息。

这里，可以通过所述第一终端的麦克风输出所述第二语音数据，可以通过所述第一终端的显示屏幕显示所述第一信息。

需要说明的是，与相关同传技术中仅对说话人的语音进行识别和翻译外，本发明实施例中，在实现同传的功能下，还可以对说话人的语音实现自动提取主题和/或内容要点，从而将说话人所演讲的内容由繁变简，提炼出演讲要点，从而帮助用户更准确、更快速理解说话人所表达的核心思想，也便于用户后续对说话人的内容进行整理。

采用本发明实施例的技术方案，获取第一语音数据；对所述第一语音数据进行翻译，得到翻译文本；利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；其中，所述主题是基于所述翻译文本的至少两个关键词中各关键词的出现频率确定的；所述内容要点是基于所述翻译文本的至少两个关键词中各关键词的语义确定的；所述第二语音数据对应的语种与所述第一语音数据对应的语种不同；所述第二语音数据和所述第一信息用于在播放所述第一语音数据时在客户端进行呈现。通过为用户提供与所述第一语音数据相关的第一信息，以及基于所述第一语音数据对应的翻译文本得到的第二语音数据，如此，能够准确提炼出应用同传的场景中的说话人的第一语音数据的内容所表达的主题和/或内容要点，从而能够帮助用户准确理解说话人的内容，提升用户体验。

为实现本发明实施例数据处理方法，本发明实施例还提供一种数据处理装置，设置在第一终端上，图7为本发明实施例数据处理装置的组成结构示意图；如图7所示，所述数据处理装置包括：

获取单元71，用于获取第一语音数据；

翻译单元72，用于对所述第一语音数据进行翻译，得到翻译文本；

处理单元73，用于利用所述翻译文本，合成所述翻译文本对应的第二语音数据；并对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息；所述第一信息包括所述翻译文本的主题和/或内容要点；

在一实施例中，所述处理单元73，具体用于：

从所述翻译文本中提取至少两个关键词；

在一实施例中，所述处理单元73，具体用于：

从所述翻译文本中提取至少两个关键词；

在一实施例中，所述处理单元73，具体用于：

在一实施例中，所述装置还包括：

识别单元，用于从所述第一语音数据中提取声纹特征，得到声纹特征数据；基于所述声纹特征数据，利用说话人识别模型，获得识别结果；当所述识别结果表征所述第一语音数据对应的说话人的身份信息与预设身份信息匹配时，对所述第一语音数据进行翻译，得到所述第一语音数据对应的翻译文本。

在一实施例中，所述装置还包括：

聚类单元，用于对所述声纹特征数据进行聚类，得到聚类结果；当所述聚类结果表征所述第一语音数据对应至少两个说话人的语音时，统计所述声纹特征数据中属于同一类的第一特征数据占所述声纹特征数据的数据量，得到至少两个数据量；将所述至少两个数据量中最大数据量对应的第一特征数据作为第二特征数据；并基于所述第二特征数据，利用说话人识别模型，获得识别结果。

实际应用时，所述获取单元71可由第一终端中的通信接口来实现。所述翻译单元72、处理单元73、识别单元、聚类单元可由第一终端中的处理器结合通信接口来实现。当然，处理器需要运行存储器的程序来实现上述各程序模块的功能。

基于上述程序模块的硬件实现，且为了实现本申请实施例的方法，本申请实施例还提供了一种数据处理装置。图8为本申请实施例数据处理装置的硬件组成结构示意图，如图8所示，数据处理装置80包括：

通信接口81，能够与其它设备比如网络设备等进行信息交互；

处理器82，与所述通信接口81连接，以实现与网络侧设备进行信息交互，用于运行计算机程序时，执行上述终端侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器83上。

当然，实际应用时，终端80中的各个组件通过总线系统84耦合在一起。可理解，总线系统84用于实现这些组件之间的连接通信。总线系统84除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统84。

本申请实施例中的存储器83用于存储各种类型的数据以支持终端80的操作。这些数据的示例包括：用于在终端80上操作的任何计算机程序。

可以理解，存储器83可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器83旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器82中，或者由处理器82实现。处理器82可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器82中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器82可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器82可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器83，处理器82读取存储器83中的程序，结合其硬件完成前述方法的步骤。

可选地，所述处理器82执行所述程序时实现本申请实施例的各个方法中由终端实现的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器83，上述计算机程序可由终端的处理器82执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、终端和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是无线链路控制上分开的，作为单元显示的部件可以是、或也可以不是无线链路控制单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取第一语音数据；

对所述第一语音数据进行翻译，得到翻译文本；

2.根据权利要求1所述的方法，其特征在于，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：

从所述翻译文本中提取至少两个关键词；

利用统计的每个关键词在所述翻译文本中出现的次数，确定所述翻译文本的主题；

将所述翻译文本的主题作为所述第一信息。

3.根据权利要求2所述的方法，其特征在于，所述利用统计的每个关键词在所述翻译文本中出现的次数，确定所述翻译文本的主题，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：

从所述翻译文本中提取至少两个关键词；

利用得到的每个关键词对应的语义信息，确定所述翻译文本的主题；

将所述翻译文本的主题作为所述第一信息。

5.根据权利要求4所述的方法，其特征在于，所述利用得到的每个关键词语对应的语义信息，获得所述翻译文本的主题，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述翻译文本进行文本信息抽取，获得所述翻译文本对应的第一信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述翻译文本进行转换，合成所述翻译文本对应的第二语音数据，包括：

8.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述第一语音数据进行翻译，得到翻译文本之前，所述方法还包括：

从所述第一语音数据中提取声纹特征，得到声纹特征数据；

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一语音数据的声纹特征数据，利用说话人识别模型，获得识别结果之前，所述方法还包括：

对所述声纹特征数据进行聚类，得到聚类结果；

10.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取第一语音数据；

11.一种数据处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9任一项所述方法的步骤。

12.一种计算机存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。