CN111161710A

CN111161710A - 同声传译方法、装置、电子设备及存储介质

Info

Publication number: CN111161710A
Application number: CN201911268006.6A
Authority: CN
Inventors: 杨林举
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-15

Abstract

本发明实施例公开了一种同声传译方法、装置、电子设备及存储介质。其中，方法包括：获得语音数据，对所述语音数据进行文本识别，得到识别文本；对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现。

Description

同声传译方法、装置、电子设备及存储介质

技术领域

本发明涉及同声传译领域，尤其涉及一种同声传译方法、装置、电子设备及存储介质。

背景技术

随着人工智能(AI，Artificial Intelligence)技术不断发展与成熟，运用人工智能技术解决生活中常见问题的产品不断涌现。其中，机器同声传译(又称为机器同传、AI同声传译、AI同传)，结合了语音识别(ASR，Automatic Speech Recognition)、机器翻译(MT，Machine Translation)等技术，被广泛应用于会议、访谈节目等场景，替代或部分替代了人工，实现同声传译(SI，Simultaneous Interpretation)。

相关机器同传系统中，通过语言识别技术自动识别语音，运用机器翻译技术将识别得到的源语言文字翻译成目标语言文字，通过屏幕直接展示翻译后的结果。然而，仅将演讲者的说话内容进行显示，用户在观看时无法确定演讲者，难以结合演讲者的相关身份信息理解演讲内容。

发明内容

为解决相关存在的技术问题，本发明实施例提供一种同声传译方法、装置、电子设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种同声传译方法，包括：

获得语音数据，对所述语音数据进行文本识别，得到识别文本；

对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；

确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现。

上述方案中，所述对所述语音数据进行切分，得到所述语音数据中的至少一个语音片段，包括：

对所述语音数据进行端点检测，根据检测得到的端点切分所述语音数据，得到至少一个语音片段。

对所述语音数据进行语义分析，根据语义分析结果对所述语音数据进行切分，得到至少一个语音片段。

上述方案中，所述确定所述至少一个语音片段中各语音片段对应的目标人物，包括：

确定所述语音片段对应的目标声纹特征；

根据所述目标声纹特征查询声纹数据库，确定所述语音数据对应的目标人物；所述声纹数据库包括至少一个声纹特征和所述至少一个声纹特征中各声纹特征对应的人物。

确定所述语音片段对应的目标采集声道；

基于声道和人物的对应关系，确定所述目标采集声道对应的目标人物。

上述方案中，所述确定所述目标人物对应的第一呈现格式，包括：

根据所述目标人物查询呈现格式库，确定所述目标人物对应的第一呈现格式；所述呈现格式库包括至少一个人物和所述至少一个人物中各人物对应的呈现格式。

上述方案中，利用所述语音数据获得的识别文本对应至少一种语种；所述方法还包括：

接收终端发送的获取请求；所述获取请求用于获取识别文本；所述获取请求至少包括：目标语种；

从至少一种语种的识别文本中获取所述目标语种对应的识别文本；

将所述目标语种对应的识别文本发送给所述终端，以在所述语音数据被播放时通过所述终端呈现所述目标语种对应的识别文本。

本发明实施例还提供了一种同声传译装置，包括：

获取单元，用于获得语音数据，对所述语音数据进行文本识别，得到识别文本；

第一处理单元，用于对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；

第二处理单元，用于确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现。

本发明实施例又提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一同声传译方法的步骤。

本发明实施例还提供了一种存储介质，其上存储有计算机指令，所述指令被处理器执行时实现上述任一同声传译方法的步骤。

本发明实施例提供的同声传译方法、装置、电子设备及存储介质，获得语音数据，对所述语音数据进行文本识别，得到识别文本；对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现，如此，能够确定文本片段对应的目标人物，并按目标人物对应的呈现格式呈现相应的文本片段，便于用户将讲话者(即目标人物)与讲话者所说的内容对应，结合讲话者的身份理解讲话者所说的内容，从而能够准确帮助用户理解讲话者所说的内容，提升用户体验。

附图说明

图1为相关技术中同声传译方法的流程示意图；

图2为本发明实施例的同声传译方法的一种流程示意图；

图3为本发明实施例的确定讲话者的一种流程示意图

图4为本发明实施例中确定语音片段对应的目标人物的一种流程示意图；

图5为本发明实施例中确定语音片段对应的目标人物的另一种流程示意图；

图6为本发明实施例中确定呈现格式的一种流程示意图；

图7为本发明实施例中同声传译方法的另一种流程示意图；

图8为本发明实施例的同声传译装置的组成结构示意图；

图9为本发明实施例的电子设备的组成结构示意图。

具体实施方式

下面结合附图及实施例对本发明再作进一步详细的描述。

图1为相关技术中同声传译方法的流程示意图；如图1所示，同传服务器启动后，在进行会议演讲的过程中，同传服务器获取演讲者的语音数据，对语音数据进行语音识别，得到识别文本(所述识别文本的语种与语音数据的语种相同)；再对所述识别文本进行机器翻译，得到翻译结果(所述翻译结果的语种与所述识别文本的语种不同)；同传服务器将所述翻译结果输出到显示设备，由显示设备显示所述翻译结果。

实际应用中，相关技术中同声传译方法可以应用于同声传译系统。所述同声传译系统包括：机器同传服务端、终端、操作端、显示屏幕；所述终端可以为手机、平板电脑等；所述操作端可以为个人电脑(PC，Personal Computer)。

演讲者可以通过操作端进行会议演讲，在进行会议演讲的过程中，操作端采集演讲者的语音数据，将采集的语音数据发送给机器同传服务端，所述机器同传服务端对所述语音数据进行识别，得到识别结果；机器同传服务端可以将识别结果发送给操作端，由操作端将识别结果投屏到显示屏幕上；还可以将识别结果发送给终端(具体依据用户所需的语种，对应发送相应语种的识别结果)，为用户展示识别结果，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。

所述识别结果可以包括以下至少之一：与语音数据相同语种的识别文本(记作第一识别文本)、对所述第一识别文本进行翻译后得到的其他语种的翻译文本(记作第二识别文本)。

实际应用中，上述机器同传服务器的功能也可以在终端上实现，即所述操作端采集演讲者的语音数据，将采集的语音数据发送给用户持有的所述终端，由用户持有的所述终端对语音数据进行识别，得到识别结果，并展示所述识别结果。

上述同声传译方法可以实现语音识别和翻译，但是在访谈、会议等多人场景，每个讲话者具有不同的身份背景、角色，所说的语音内容往往体现着讲话者自己的观点和立场，如果同传的语音内容能清晰的对应讲话者，结合讲话者的角色和立场，对理解语音内容非常有帮助。然而，上述同声传译方法并不能给出讲话者与语音内容的对应关系，需要观众自行分析并确定讲话者和语音内容的对应关系，增加了理解的难度，也可能导致观众对于演讲内容的理解错误。

基于此，在本发明的各种实施例中，获得语音数据，对所述语音数据进行文本识别，得到识别文本；对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现；如此，能够确定文本片段对应的目标人物，并按目标人物对应的呈现格式呈现相应的文本片段，便于用户将讲话者(即目标人物)与讲话者所说的内容对应，结合目标人物的身份理解目标人物所说的内容，从而能够准确帮助用户理解所说内容，提升用户体验。

本发明实施例提供了一种同声传译方法，图2为本发明实施例的同声传译方法的一种流程示意图；如图2所示，所述方法包括：

步骤201：获得语音数据，对所述语音数据进行文本识别，得到识别文本；

步骤202：对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；

步骤203：确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；

这里，所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现。

也就是说，呈现识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段，所述第一呈现格式与第二呈现格式不同，所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式，换句话说，呈现所述识别文本时，针对不同的讲话者(即目标人物和其他人物)可以按不同的呈现格式呈现讲话者对应的文本片段。

所述识别文本用于在所述语音数据被播放时进行呈现，指播放语音数据的同时呈现所述识别文本，即本实施例提供的方法可以应用于同声传译的场景，尤其可以适用于多人的同声传译的场景，如采访、多人会议等。

具体来说，在同声传译场景下，当讲话者说话时，第一终端(如上述操作端)利用语音采集模块(如麦克风)实时采集所说内容，即得到语音数据。所述第一终端与用于实现同声传译的电子设备之间可以建立通信连接，所述第一终端将获取的语音数据发送给用于实现同声传译的电子设备，所述电子设备即可实时获取所述语音数据。

需要说明的是，所述电子设备也可以设有或连接有语音采集模块，通过自身设有或连接有的语音采集模块采集语音数据。

所述同声传译场景可以采用以上所述的同声传译系统，本发明实施例的同声传译方法可以应用于电子设备，所述电子设备可以是在所述同声传译系统中新增加的设备，也可以是对所述同声传译系统中某一设备(如所述同声传译系统中的机器同传服务端、用户持有的终端)进行改进，以能够实现本发明实施例的方法即可。

具体来说，所述电子设备可以是服务器或用户持有的终端，当所述同声传译方法应用于服务器时，可以由所述服务器获取所述语音数据，按本实施例提供的同声传译方法对所述语音数据进行相应处理，将得到的结果通过显示屏幕或者用户持有的终端进行呈现；

当所述同声传译方法应用于用户持有的终端时，可以由用户持有的所述终端获取所述语音数据，并按本实施例提供的同声传译方法对所述语音数据进行相应处理，将得到的结果通过自身具有的人机交互界面进行呈现。

本实施例中，所述同声传译方法应用于采访、会议等同声传译场景下，随着采访或会议的进行，语音数据将不断变化，所述识别文本也会随着语音数据的变化而不断变化。多人参与的同声传译场景下，目标人物(即讲话者)也可能变化，则所述目标人物对应的语音片段、文本片段也随着语音数据的变化而不断变化。

实际应用时，步骤201中的文本识别操作可以包括所述语音识别、文本翻译等操作。

其中，所述语音识别包括识别语音数据，得到所述语音数据对应的识别文本，记作第一识别文本；所述第一识别文本对应的语种与所述语音数据对应的语种相同。

所述文本翻译包括指对所述第一识别文本进行翻译，以得到其他语种的识别文本，记作第二识别文本。这里，实际应用时，进行文本翻译时，可以采用预设的机器翻译模型进行翻译，以得到其他语种的识别文本。

实际应用中，为了能够确定语音数据中每段话对应的讲话者(即目标人物)，可以先对语音数据进行切分，针对切分后的每段话分别确定对应的讲话者。

基于此，在一实施例中，所述对所述语音数据进行切分，得到所述语音数据中的至少一个语音片段，包括：

对所述语音数据进行端点检测(VAD，Voice Activity Detection)，根据检测得到的端点切分所述语音数据，得到至少一个语音片段。

这里，通过对语音数据进行端点检测，可以确定语音数据中的语音出现端点和语音消失端点；根据所述语音出现端点和所述语音消失端点，可以对所述语音数据进行切分，从而得到至少一个语音片段。

在一实施例中，所述对所述语音数据进行切分，得到所述语音数据中的至少一个语音片段，包括：

这里，可以根据语音数据对应的具体语义进行切分。

这里，考虑到讲话者可能因为自身的讲话习惯，并不能保证每次都在一句话讲完后停顿，提供了基于语义进行切分的方法，保证每个语音片段中内容的连贯性，即每个语音片段都是一个完整的语句。

具体来说，所述对所述语音数据进行语义分析，可以包括：

对所述语音数据进行语音识别，得到所述语音数据对应的识别文本，对所述识别文本进行语义分析，根据语义分析结果得到至少一个文本片段。

相应地，确定所述至少一个文本片段中各文本片段对应的语音片段，即可得到至少一个语音片段。

本发明实施例中，针对每个语音片段，可以根据语音片段的声纹特征确定语音片段对应的讲话者。

具体来说，所述确定所述至少一个语音片段中各语音片段对应的目标人物，包括：

确定所述语音片段对应的目标声纹特征；

实际应用时，为了确定语音片段对应的目标人物，可以预先获得声纹数据库，以根据语音片段对应的目标声纹特征确定目标人物。

基于此，在一实施例中，所述方法还可以包括：

采集至少一个人物的声音和所述至少一个人物中各人物对应的身份标识(ID，Identity Document)；

对所述至少一个人物中各人物的声音进行声纹识别，提取各人物的声音的声纹特征；

将各人物的ID与对应的声纹特征对应保存在声纹数据库中。

所述声纹数据库中可以以表格的形式将人物的ID和相应人物的ID对应的声纹特征对应保存。

实际应用中，每个讲话者可以对应一个麦克风，从而可以根据采集语音的麦克风，确定语音片段对应的讲话者。

基于此，在一实施例中，所述确定所述至少一个语音片段中各语音片段对应的目标人物，包括：

确定所述语音片段对应的目标采集声道；

这里，所述目标采集声道可以指采集语音片段的麦克风的声道，实际应用时，每个讲话者使用一个麦克风，预先确定所述讲话者和所述麦克风(具体可以理解为麦克风的声道)的对应关系，即可得到声道和人物的对应关系。

根据所述目标采集声道查询所述声道和人物的对应关系，确定所述目标采集声道对应的目标人物，即确定所述目标采集声道采集的语音片段对应的目标人物。

实际应用中，为了可以对不同讲话者对应的文本片段进行区分，针对每个讲话者的文本片段以不同呈现格式进行呈现，从而用户可以根据文本片段的格式确定所述文本片段对应的讲话者。

基于此，在一实施例中，所述确定所述目标人物对应的第一呈现格式，包括：

这里，实际应用中，所述呈现格式，可以包括以下至少之一：文字的颜色、文字的字体、文字的大小、文字的显示位置。

所述文字的显示位置指呈现识别文本时所述文本片段相对于整个识别文本的位置。例如，所述识别文本以Word文档进行呈现，所述Word文档中可以设有至少两列的表格，在有两个讲话者时，两个讲话者对应的文本片段分别呈现在表格的左右两列内。

举例来说，在某一同声传译场景下，包括讲话者A、讲话者B、讲话者C，讲话者A、讲话者B、讲话者C分别对应不同的呈现格式；

检测到文本片段对应目标人物为讲话者A时，所述文本片段的呈现格式可以包括以下至少之一：红色文字、楷体、字号为10、显示于识别文本的左侧；

检测到文本片段对应目标人物为讲话者B时，所述文本片段的呈现格式可以包括以下至少之一：蓝色文字、宋体、字号为15、显示于识别文本的中间；

检测到文本片段对应目标人物为讲话者C时，所述文本片段的呈现格式可以包括以下至少之一：黑色文字、黑体、字号为20、显示于识别文本的右侧。

所述显示格式还可以通过文字的风格、文本片段对应的图标或图像、文本片段开头的讲话者的名称标识等进行区分。所述文本片段对应的图标(如三角形、五角星等图标)或图像(如讲话者的面部图像等)，可以设置在文本片段的开头，不同的讲话者对应不同的图标或图像，用户可以根据文本片段对应的图标或图像确定文本片段对应的讲话者。文本片段开头可以直接标注对应的讲话者的名称，用户可以依据文本片段开头讲话者的名称确定该文本片段对应的讲话者。

需要说明的是，所述识别文本对应至少一种语种，相应的文本片段也对应至少一种语种，从而针对任意一种语种的识别文本均可以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段。

实际应用中，持有终端的用户可以通过终端获取识别文本并显示，所述终端可以预置语种，并将预置语种发送给服务器，从而所述服务器确定所述终端的预置语种，发送所述预置语种对应的识别文本；用户还可以选择与预置语种不同的其他语种，并通过终端向服务器发送获取请求，以获得所需语种的识别文本。

具体地，利用所述语音数据获得的识别文本对应至少一种语种；所述方法还可以包括：

这里，所述终端可以设有人机交互界面，用户通过人机交互界面可以选择语种，所述终端根据用户的选择生成包含目标语种的获取请求，并将获取请求发送给服务器，从而所述服务器接收所述获取请求。

这里，考虑到目前绝大多数用户都会随身携带手机，所述终端可以为手机，将识别文本发送到手机上，无需再增加其他设备来接收并展示识别文本，可以节约成本，且操作方便。

本发明实施例中，考虑到识别文本面向多个终端，即服务器需同时向每一个终端分别发送识别文本，为保证向多个终端同时发送识别文本的时效性，可以采用缓存的方式。需发送识别文本时，服务器直接从缓存中获取相应结果，可以保证识别文本下发的高时效性，还可以保护服务器计算资源。

基于此，在一实施例中，所述方法还可以包括：将至少一种语种对应的识别文本分别进行缓存。

实际应用时，服务器可以预先确定至少一个终端中各终端的预置语种，从数据库中获取预置语种对应的识别文本进行缓存。

通过缓存操作，当有终端选择不同于预置语种的其他语种时，可以直接从缓存中获取相应语种的识别文本，从而可以提高时效性和对计算资源的保护。

需要说明的是，当本实施例的同声传译方法应用于所述终端上，则所述终端可以预先确定用户选择的目标语种，对所述语音数据进行文本识别，得到所述目标语种对应的识别文本。

应理解，上述实施例中说明各步骤(如对所述语音数据进行文本识别，得到识别文本、对所述语音数据进行切分，得到至少一个语音片段)的顺序并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本实施例的实施过程构成任何限定。

本发明实施例提供的同声传译方法，获得语音数据，对所述语音数据进行文本识别，得到识别文本；对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现，如此，能够确定文本片段对应的目标人物，并按目标人物对应的呈现格式呈现相应的文本片段，便于用户将讲话者(即目标人物)与讲话者所说的内容对应，结合目标人物的身份理解目标人物所说的内容，从而能够准确帮助用户理解所说内容，提升用户体验。

图3为本发明实施例确定讲话者的一种流程示意图；如图3所示，所述方法包括：

步骤301：确定语音数据中的任意一段语音片段；

这里，所述步骤301包括：对获取的语音数据进行切分，得到至少一个语音片段。针对任意一段语音片段可以采用图3所示的方法确定语音片段对应的讲话者。

步骤302：判断是否采用第一识别模式确定讲话者身份，确定采用第一识别模式，则进入步骤303；确定不采用第一识别模式，则进入步骤304；

这里，所述第一识别模式表征根据音频特征确定讲话者的身份(如讲话者ID)。

步骤303：对语音片段进行识别，得到音频特征，根据所述音频特征确定讲话者。

这里，所述音频特征具体指语音片段的声纹特征。

相应地，所述根据所述音频特征确定讲话者，包括：

根据所述声纹特征查询声纹数据库，确定所述语音片段对应的讲话者；所述声纹数据库包括至少一个声纹特征和所述至少一个声纹特征中各声纹特征对应的讲话者。

步骤304：根据语音片段对应的声道信息，确定讲话者。

这里，所述声道信息可以指采集语音片段的麦克风；

相应地，所述根据语音片段对应的声道信息，确定讲话者，包括：

确定采集所述语音片段的麦克风；基于声道和人物的对应关系，确定采集所述语音片段的麦克风对应的讲话者，即确定所述语音片段对应的讲话者。

这里，是否采用第一识别模式确定讲话者身份可以由开发人员预先设定，本实施例中确定讲话者的方法分为两种，一种是根据音频特征确定讲话者身份，即第一识别模式，另一种是根据语音片段对应的声道信息确定讲话者，即第二识别模式。

步骤305：确定所述讲话者的信息。

这里，所述讲话者的信息指所述讲话者对应的呈现格式。

所述确定讲话者的信息，包括：根据所述讲话者查询呈现格式库，确定所述讲话者对应的第一呈现格式；所述呈现格式库包括至少一个人物和所述至少一个人物中各人物对应的呈现格式。

这里，所述呈现格式，可以包括以下至少之一：文字的颜色、文字的字体、文字的大小、文字的显示位置。

图4为本发明实施例中确定语音片段对应的目标人物的一种流程示意图；如图4所示，同声传译装置包括有语音识别模块和讲话者识别模块；确定语音片段对应的目标人物包括以下流程：

语音识别模型对获取的语音数据进行端点检测，每检测到所述语音数据中的一个端点后，向所述讲话者识别模块发送一个语音端点信号；

所述讲话者识别模块接收到端点信号后确定开始识别讲话者，具体是针对两个端点信号之间的语音片段识别讲话者(相当于图2所述方法中的确定目标片段对应的目标人物)，并确定讲话者的信息。

即语音识别模块通过对语音数据进行端点检测，对语音数据进行切分，得到至少一个语音片段，并通过语音端点信号触发所述讲话者识别模块对语音片段进行讲话者识别。

这里，所述语音识别模块也可以对所述语音数据进行语义分析，根据语义分析结果对所述语音数据进行切分，将每个切分点作为一个端点，从而得到至少一个语音片段。

图5为本发明实施例中确定语音片段对应的目标人物的另一种流程示意图；如图5所示，同声传译装置包括有语音端点检测模块、语音识别模块和讲话者识别模块；确定语音片段对应的目标人物包括以下流程：

所述语音端点检测模块对获取的语音数据进行端点检测，每检测到所述语音数据中的一个端点后，向所述语音识别模块和所述讲话者识别模块分别发送一个语音端点信号；

所述语音识别模块接收到语音端点信号后确定开始进行语音识别，具体是针对两个端点信号之间的语音片段进行语音识别，从而可以得到每个语音片段对应的文本片段；

所述讲话者识别模块接收到语音端点信号后确定开始识别讲话者，具体是针对两个端点信号之间的语音片段识别讲话者(相当于图2所述方法中的确定目标片段对应的目标人物)，并确定讲话者的信息。

这里，所述语音端点检测模块也可以对所述语音数据进行语义分析，根据语义分析结果对所述语音数据进行切分，将每个切分点作为一个端点，从而得到至少一个语音片段。

图6为本发明实施例中确定呈现格式的一种流程示意图；如图6所示，呈现文本片段包括以下流程：

步骤601：确定讲话者对应的第一呈现格式；

这里，所述确定讲话者对应的第一呈现格式，包括：

根据所述讲话者查询呈现格式库，确定所述讲话者对应的第一呈现格式；所述呈现格式库包括至少一个人物和所述至少一个人物中各人物对应的呈现格式。

这里，所述呈现格式，可以包括以下至少之一：文字的颜色、文字的字体、文字的大小、文字的显示位置、文字的风格、文字对应的图形或图像。具体呈现格式已在图2所示的同声传译方法详细说明，这里不再赘述。

步骤602：在呈现识别文本时，以第一呈现格式呈现所述讲话者对应的文本片段。

所述识别文本通过显示设备显示，这里的显示设备可以为显示屏幕，运用投屏技术将识别文本投屏到显示屏幕上进行呈现；所述显示设备还可以是用户持有的终端，用户持有的所述终端接收识别文本后，通过人机交互界面呈现所述识别文本。

这里，所述识别文本对应至少一种语种，即所述识别文本可以是与语音数据相同语种的文本，也可以是对所述与语音数据相同语种的文本进行翻译后的翻译文本。相应地，以第一呈现格式呈现的文本片段可以与语音数据的语种相同，也可以是翻译后的其他语音中的文本片段。

这里，针对不同的讲话者对应不同的呈现格式，呈现识别文本时，针对不同讲话者对应的文本片段按不同呈现格式呈现，从而用户根据文本片段的呈现格式可以确定文本片段对应的讲话者，便于用户结合讲话者的身份理解识别文本。

图7为本发明实施例中同声传译方法的另一种流程示意图；如图7所示，所述同声传译方法，包括：

步骤701：采集语音数据；

步骤702：对所述语音数据进行语音识别，得到第一文本；

这里，所述第一文本的语种与所述语音数据的语种相同。

步骤703：判断是否检测到语音数据的端点；确定检测到端点后，则获取端点后的语音片段，直至再次检测到端点，针对两个端点之间的语音片段识别讲话者，并确定所述讲话者的信息；

这里，所述讲话者相当于图2所示方法中的目标人物，针对语音片段识别讲话者可以参考图2所示方法中所述的确定语音片段对应的目标人物，这里不再赘述。

所述讲话者的信息可以包括：所述讲话者对应的第一呈现格式；这里，确定所述讲话者的信息可以参考图2所示方法中的确定所述目标人物对应的第一呈现格式，这里不再赘述。

这里，步骤702和步骤703的顺序并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本实施例的实施过程构成任何限定。

步骤704：对所述第一文本进行机器翻译，得到第二文本；

这里，所述第二文本的语种与所述第一文本的语种不同。所述第二文本的语种可以为任意一种语种，具体可以根据用户所需的语种确定。

步骤705：显示识别结果。

这里，通过显示设备显示识别结果，所述识别结果可以包括以下至少之一：第一文本、第二文本；相应文本显示时，以所述讲话者对应的呈现格式呈现所述讲话者对应的文本片段。

为实现本发明实施例的同声传译方法，本发明实施例还提供了一种同声传译装置。图8为本发明实施例的同声传译装置的组成结构示意图；如图8所示，所述数据处理装置包括：

获取单元81，用于获得语音数据，对所述语音数据进行文本识别，得到识别文本；

第一处理单元82，用于对所述语音数据进行切分，得到至少一个语音片段；确定所述至少一个语音片段中各语音片段对应的目标人物；

第二处理单元83，用于确定所述目标人物对应的第一呈现格式，以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段；

其中，所述目标文本片段基于所述目标人物对应的语音片段得到；所述第一呈现格式与第二呈现格式不同；所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式；所述识别文本用于在所述语音数据被播放时进行呈现。

在一实施例中，所述第一处理单元82，用于对所述语音数据进行端点检测，根据检测得到的端点切分所述语音数据，得到至少一个语音片段。

在一实施例中，所述第一处理单元82，用于对所述语音数据进行语义分析，根据语义分析结果对所述语音数据进行切分，得到至少一个语音片段。

在一实施例中，所述第一处理单元82，用于确定所述语音片段对应的目标声纹特征；

根据所述目标声纹特征查询声纹数据库，确定所述语音数据对应的目标人物；

这里，所述声纹数据库包括至少一个声纹特征和所述至少一个声纹特征中各声纹特征对应的人物。

在一实施例中，所述第一处理单元82，用于确定所述语音片段对应的目标采集声道；

在一实施例中，第二处理单元83，用于根据所述目标人物查询呈现格式库，确定所述目标人物对应的第一呈现格式；

这里，所述呈现格式库包括至少一个人物和所述至少一个人物中各人物对应的呈现格式。

具体地，利用所述语音数据获得的识别文本对应至少一种语种；

在一实施例中，所述装置还包括第三处理单元，用于接收终端发送的获取请求；所述获取请求用于获取识别文本；所述获取请求至少包括：目标语种；

将所述目标语种对应的识别文本发送给终端，以在所述语音数据被播放时通过所述终端呈现所述目标语种对应的识别文本。

实际应用时，所述第一处理单元82、所述第二处理单元83、所述第三处理单元均可由所述电子设备(如服务器、移动终端)中的处理器，比如中央处理器(CPU，CentralProcessing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)等实现。所述获取单元81可由电子设备中的通信接口实现。

需要说明的是：上述实施例提供的装置在进行同声传译时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与同声传译方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

例如，所述第一处理单元82可以实现图4所示实施例中的语音识别模块和讲话者识别模块的功能。所述第一处理单元82也可以实现图5所示实施例中的语音端点检测模块、讲话者识别模块的功能，所述获取单元可以实现图5所示实施例中的语音识别模块的功能。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图9为本发明实施例的电子设备的硬件组成结构示意图，如图9所示，电子设备90包括存储器93、处理器92及存储在存储器93上并可在处理器92上运行的计算机程序；位于电子设备的处理器92执行所述程序时实现上述电子设备侧一个或多个技术方案提供的方法。

具体地，位于电子设备90的处理器92执行所述程序时实现：获得语音数据，对所述语音数据进行文本识别，得到识别文本；

需要说明的是，位于电子设备90的处理器92执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备还包括通信接口91；电子设备中的各个组件通过总线系统94耦合在一起。可理解，总线系统94配置为实现这些组件之间的连接通信。总线系统94除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器93可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器92中，或者由处理器92实现。处理器92可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器92中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器92可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器92可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器92读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述电子设备侧一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种同声传译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述语音数据进行切分，得到所述语音数据中的至少一个语音片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述语音数据进行切分，得到所述语音数据中的至少一个语音片段，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述确定所述至少一个语音片段中各语音片段对应的目标人物，包括：

确定所述语音片段对应的目标声纹特征；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述确定所述至少一个语音片段中各语音片段对应的目标人物，包括：

确定所述语音片段对应的目标采集声道；

6.根据权利要求1、4或5所述的方法，其特征在于，所述确定所述目标人物对应的第一呈现格式，包括：

7.根据权利要求1所述的方法，其特征在于，利用所述语音数据获得的识别文本对应至少一种语种；所述方法还包括：

8.一种同声传译装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。