CN112232092A - 具备机器与人工协同模式的同声传译方法以及系统 - Google Patents
具备机器与人工协同模式的同声传译方法以及系统 Download PDFInfo
- Publication number
- CN112232092A CN112232092A CN202011104839.1A CN202011104839A CN112232092A CN 112232092 A CN112232092 A CN 112232092A CN 202011104839 A CN202011104839 A CN 202011104839A CN 112232092 A CN112232092 A CN 112232092A
- Authority
- CN
- China
- Prior art keywords
- client
- manual
- machine
- translation
- simultaneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013519 translation Methods 0.000 claims abstract description 133
- 230000005540 biological transmission Effects 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 9
- 230000001360 synchronised effect Effects 0.000 claims description 16
- 238000005266 casting Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种具备机器与人工协同模式的同声传译方法以及系统,主要在于构建一个尽最大化降低现场硬件依赖且便于实施的多端协同架构,具体是结合语音识别、机器翻译、语音合成、远程协调控制等技术,构造出机器同传与人工同传协同作业的会议场景同声传译模式,并通过基于翻译文本的投屏字幕设置处理以及音频文本实时无线传输,满足多语种同声传译及字幕显示需求,可使得会场内外的参会用户实时收听到机器翻译或人工翻译音频及查看所需字幕。本发明主要是根据上会客户端的指令协调现场所需,灵活且合理地进行机器同传和人工同传之间的切换,并由上会客户端完成字幕上屏设置,从而既能够缓解同传译员的压力,也可以保障高质量的译文收听及展示。
Description
技术领域
本发明涉及同声传译领域,尤其涉及一种具备机器与人工协同模式的同声传译方法以及系统。
背景技术
随着我国对外开放程度的不断加深,国家的对外交流机会、方式、机制随着时代的不断发展有了很大的变化。国际性、多语种的交流日益频繁,“同声传译”作为多国语种和多边交流时的常用方案,需求量巨大,这就对同传译员的职业素养、同传能力、身体素质有了较高的要求。
当前在高规格政府论坛、专业学术会议、跨国交流等场景中,同声传译主要还是基于传统同传设备的硬件搭建,由同传译员在会议现场的同传室内完成会议的人工同传,同时,参会嘉宾通过同传耳机来收听同传音频。这就需要同传译员需要花费相当大的精力在衣食住行、硬件测试上,主办方也要安排现场同传设备的搭建、同传译员的保障等,会务成本较大。
目前市场上也有一些云视频会议系统,利用在线音频传输解决前述传统同声传译的问题诉求,但是,第一、此种云会议方式仍然是依赖人工翻译,无法满足根据现场场景的变化改变同传模式的诉求,并不能有效解决人工同传模式的痛点;第二、该方式仅关注在翻译音频的传输,而翻译音频和字幕同步效果不佳,尤其无法实现针对多语种会议场景对于多种字幕配置的需求。
发明内容
鉴于上述,本发明旨在提供一种具备机器与人工协同模式的同声传译方法以及系统,以及相应于所述系统的电子设备,通过机器同传与人工同传的协同配合,能够更佳地适应多语种会议场景,在解决过于依赖硬件条件的同时,缓解了人工同传模式的压力,并且还可以有效保证同传质量。
本发明采用的技术方案如下:
第一方面,本发明提供了一种具备机器与人工协同模式的同声传译方法,其中,所述同声传译方法基于若干个会议客户端,所述会议客户端包括:上会客户端、人工同传客户端以及参会人员客户端;所述同声传译方法包括:
获取所述上会客户端上传的原始发言语音,并监听所述上会客户端请求的同传指令,所述同传指令包括目标语种以及同传模式;
若当前请求的同传模式为机器同传,则根据所述目标语种对所述原始发言语音进行实时机器翻译,得到机器翻译文本;
将所述机器翻译文本返回至所述上会客户端进行字幕投屏处理,并根据机器翻译文本进行语音合成,得到机器翻译音频;
若当前请求的同传模式为人工同传,则获取所述人工同传客户端上传的人工翻译音频;
对所述人工翻译音频进行转写,得到人工翻译文本,并将所述人工翻译文本返回至所述上会客户端进行字幕投屏处理;
根据接入的所述参会人员客户端的所需语种请求,向所述参会人员客户端输出相应语种的所述机器翻译音频或所述人工翻译音频。
在其中至少一种可能的实现方式中,所述方法还包括:
根据接入的所述参会人员客户端的所需语种请求,向接入的所述参会人员客户端输出所述机器翻译文本或所述人工翻译文本;或者,
获取所述上会客户端上传的字幕配置参数;
利用所述字幕配置参数以及所述机器翻译文本或所述人工翻译文本,生成字幕文本;
根据接入的所述参会人员客户端的所需语种请求,向接入的所述参会人员客户端输出所述字幕文本。
在其中至少一种可能的实现方式中,所述方法还包括:
存储所述机器翻译音频或所述人工翻译音频;和/或,
将所述机器翻译音频或所述人工翻译音频返回至所述上会客户端予以回收。
在其中至少一种可能的实现方式中,所述方法还包括:
根据接收到的翻译文本编辑指令及相应文本,对所述机器翻译文本或人工翻译文本进行编辑处理;
将编辑处理后的文本返回至所述上会客户端进行字幕投屏处理。
第二方面,本发明提供了一种具备机器与人工协同模式的同声传译系统,其中,包括:上会客户端、人工同传客户端、参会人员客户端以及服务端;
所述上会客户端用于接收并上传原始发言语音、设置并上传同传指令、以及对获取到的翻译文本进行字幕投屏处理;
所述人工同传客户端,用于获取同传指令以及实时上传人工翻译音频;
所述参会人员客户端,用于上传所需语种请求以及接收并播放翻译音频;
所述服务端,用于执行以上任一项所述的同声传译方法。
在其中至少一种可能的实现方式中,所述上会客户端设置同传指令包括:由人工在所述上会客户端下达所述同传模式的切换选择指令;或者,所述上会客户端根据预先设定策略对所述同传模式进行自动切换选择。
在其中至少一种可能的实现方式中,所述上会客户端进行字幕投屏处理包括:对接收到的若干语种的翻译文本进行预处理以及个性化设置字幕投屏展示样式及数量。
第三方面,本发明提供了一种电子设备,其中,所述电子设备为以上任一项所述的同声传译系统中的上会客户端的执行载体。
第四方面,本发明提供了一种电子设备,其中,所述电子设备为以上任一项所述的同声传译系统中的人工同传客户端的执行载体。
第五方面,本发明提供了一种电子设备,其中,所述电子设备为以上任一项所述的同声传译系统中的参会人员客户端的执行载体。
本发明的构思在于构建一个尽最大化降低会议现场硬件依赖且便于实施的多端协同作业架构,具体是结合语音识别、机器翻译、语音合成、远程协调控制等技术,构造出一种机器同传与人工同传协同作业的会议场景同声传译模式,并通过基于翻译文本的投屏字幕个性化设置以及音频文本实时无线传输,满足多语种同声传译及字幕显示需求,可使得会场内外的参会用户实时收听到机器翻译或人工翻译音频以及查看所需的相应字幕。本发明主要是根据上会客户端的指令协调现场所需,灵活且合理地进行机器同传和人工同传之间的切换,并由上会客户端完成字幕上屏设置,从而既能够缓解同传译员的压力,也可以保障高质量的译文收听及展示。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的具备机器与人工协同模式的同声传译方法的实施例的流程图;
图2为本发明提供的向参会人员客户端推送字幕的较佳实施例的流程图;
图3为本发明提供的具备机器与人工协同模式的同声传译系统的实施例的示意图;
图4为本发明提供的电子设备的实施例的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在对本发明进行介绍前,再对传统同传模式进行如下说明:传统同传方案主要是将会议同传主机、红外发射主机、译员机、同传室、接收机及耳机等硬件设备连为一体,同传译员在同传室进行实时翻译,同传主机接收翻译后的音频信号,通过红外发射主机将信号发射,参会嘉宾通过接收机和耳机等收听到同传译员的声音。该方案对于硬件设施过于依赖,会议现场需要花费相当一部分资金搭建硬件设备,不仅耗时耗力,同传质量也会受会议场地和环境影响较大,例如红外信号易受干扰、覆盖范围窄等。尤其是无法将同传译员音频和转写字幕结合,只能纯粹的听同传声音,看字幕的诉求无好的解决方法。
虽然云视频会议这类在线会议在一定程度上可以解决依赖的问题,但是其依然是依靠同传译员进行音频输出,对于字幕上屏问题以及同传译员的人工消耗问题欠缺考虑。
因此,在本发明设计初始,为了消除对场地硬件的依赖以及克服人工同传的弊端,发明人考虑利用机器翻译与远传传输以改进现有技术。但是,经实践发现,如果单纯依靠机器,由于受限于真实的会议场景挑战,难以保证同传准确度,并且无法满足翻译字幕与翻译音频的有效同步。
有鉴于此,发明人对初始构思进行了再次改进,进一步考虑将语音识别、机器翻译、语音合成、远程协调控制等技术进行结合,由此提出一种可以在各类会议(现场会议、在线会议等)中根据会议实际场景切换选择机器同传和人工同传的方案框架,以此实现对多语种同传和字幕投屏的有效服务。
具体地,本发明提供了一种具备机器与人工协同模式的同声传译方法的实施例,需说明的是,所述同声传译方法基于若干个会议客户端,所述会议客户端包括:上会客户端、人工同传客户端以及参会人员客户端,这些客户端的实施形式可以是常见的软件程序也可以是硬件载体,后文将从其他实施方面对上述客户端进行介绍,此处先对所述同声传译方法做如下说明,参照图1所示,具体可以包括:
步骤S10、获取所述上会客户端上传的原始发言语音,并监听所述上会客户端请求的同传指令,所述同传指令包括目标语种以及同传模式;
步骤S20、若当前请求的同传模式为机器同传,则根据所述目标语种对所述原始发言语音进行实时机器翻译,得到机器翻译文本;
步骤S21、将所述机器翻译文本返回至所述上会客户端进行字幕投屏处理,并根据机器翻译文本进行语音合成,得到机器翻译音频;
步骤S30、若当前请求的同传模式为人工同传,则获取所述人工同传客户端上传的人工翻译音频;
步骤S31、对所述人工翻译音频进行转写,得到人工翻译文本,并将所述人工翻译文本返回至所述上会客户端进行字幕投屏处理;
步骤S40、根据接入的所述参会人员客户端的所需语种请求,向所述参会人员客户端输出相应语种的所述机器翻译音频或所述人工翻译音频。
首先需指出的是,上述步骤序号仅为说明方便,不做执行次序的限定,例如由步骤S30获得人工同传音频后便可以执行步骤S40送入建立连接的对应的参会人员客户端中。
对前述方法实施例具体说明的是,前述方法实质是依托多端交互以及多信源通道的协作模式框架。无论在线会议还是会场会议,演讲人的原始发言语音可通过现已成熟的音频采集技术传输至上会客户端,这里的上会客户端既可以设置在会议现场也可以设置在远端,其有三个主要作用:会议原始音频的中转、会议保障以及字幕设置。因而根据其用途可知,上会客户端主要面向的是会议保障人员,当然,在某些实施例中也可以采用无人监督的自动处理状态。在进行会议保障时,可以根据具体的会议情形,例如会议现场的演讲人语种、发音质量、环境噪声、现场参会人员所需目标语种、同传译员持续工作时间等多种因素,经人工或自动决策出所需目标语种以及当前同传模式,也即是进行翻译语种的切换以及选择当前的同传模式(机器同传或人工同传)。
在收到原始发言语音以及上会客户端下达的同传指令后,便可以执行机器同传或人工同传作业。
(1)机器同传是指,仅使用计算机设备对原始发言语音按照目标语种方向进行识别转写和在线翻译,此方式依托成熟的语音识别及翻译技术,可以获得较高质量的机器翻译文本,且可根据后台能力不限定目标语种数量,例如在某些实施例中,源语言可以是;中、英、日、韩、法、德、俄,而提供切换选择的目标语种可达中、英、日、韩、法、德、俄、阿、德等9种之多。具体地,当在上会客户端完成语种信道切换及设定后,便可以向引擎提交请求,相应引擎获取到服务请求后与相应的语种建立通道,例如中英文可调用本地部署的中英文机器翻译引擎,其他小语种可通过公有云调用http服务,以此完成对应语种的信源通道建设。
在获得若干种机器翻译文本之后,可执行至少两路操作,一路将机器翻译文本再次回传至上会客户端,以便上会客户端进行字幕投屏设置;另一路则可以利用成熟的语音合成技术将机器翻译文本合称为自然语音,从而得到机器翻译音频,实现机器同传。当然,在其他实施例中,还可以将生成的机器字幕文本进行存储,例如在文本生成后,每隔5分钟自动保存相应的机器翻译文本,以备其他所需调用。
(2)人工同传是指由若干同传译员进行人工翻译。具体而言,当切换至人工同传模式时,原始发言语音传输至人工同传客户端(当然更佳地,同声译员可以始终收听到会议现场的发言语音),并将同传指令同步至人工同传客户端,人工同传客户端根据指令启动人工同传信号,同传译员开始翻译,也即是可以理解为,在机器同传模式下同传译员的音频输出通道被关闭,而转为人工同传模式后,则可以关闭机器同传音频输出通道,并开启人工同传的音频输出通道(反之亦然)。同传译员可利用人工同传客户端进行语种切换操作,并可以进行多人接力同传,以此完成各语种的翻译工作。当接收到实时上传的人工翻译音频后,便实现了人工同传,而为了满足字幕所需,还可以对人工翻译音频进行转写,得到人工翻译文本,并且如前文所述,再将人工翻译文本传回上会客户端进行字幕投屏处理,同样地,还可以将人工翻译文本进行存储记录。
本领域技术人员可以理解的是,无论是何种同传模式,对于多语种的切换,可以优选采用会中切换(而无需会前设置),即一场会议各个语种嘉宾同时演讲,人工或机器均可以在会中依据所需目标语种进行实时切换,生效后相应的引擎进行实施同步作业并开放各自相应的信道。
而对于机器或人工同传音频的收听,可以根据接入的所述参会人员客户端的所需语种请求,向所述参会人员客户端输出相应语种的所述机器翻译音频或所述人工翻译音频。
例如所述参会人员客户端发送收听英语翻译音频的请求,则向该参会人员客户端推送由机器或人工实时翻译的音频信号,当然可以理解的是,一个参会人员客户端通常仅需要收听一个目标语种,但不同的参会人员客户端则可以请求不同的收听语种。除此之外,还可以补充说明三点:
其一、如同前文对翻译文本的处理,所述机器翻译音频或所述人工翻译音频除了发至参会人员进行收听,还可以进行存储,更佳地,还可以将所述机器翻译音频或所述人工翻译音频返回至所述上会客户端予以回收,回收后可以用来进行其他功能的拓展或用以辅助会议保障等,具体用途本发明不做限定。
其二、除了收听翻译音频,为了满足参会人员在其客户端上查看字幕,还可以向参会人员客户端推送对应于所需语种请求的字幕,当然,此处有别于音频收听,一个参会人员虽然仅需要收听一个目标语种,但可以不限定需要查看的字幕语种数量,因此这里的所需语种请求针对的是字幕需求,即例如参会人员客户端发送收听一个目标语种的请求,并发送2~3种字幕请求,这样可以满足参会人员的个性化需求,例如学习多种语言或比对同传音频的翻译准确度等。此外,还需要说明的是,向参会人员客户端输出字幕也可以采取不同的形式,(1)可以向接入的所述参会人员客户端直接输出前述机器翻译文本或人工翻译文本;(2)或者还可以结合图2所示,执行步骤S50、获取上会客户端上传的字幕配置参数;步骤S51、利用所述字幕配置参数以及所述机器翻译文本或所述人工翻译文本,生成优化的字幕文本;步骤S52、根据接入的所述参会人员客户端的所需语种请求,向接入的所述参会人员客户端输出所述字幕文本。也即是说,上会客户端可以控制会议现场大屏的字幕投屏也可以控制参会人员客户端的字幕,在上会客户端完成字幕投屏参数设置后,可通过连接现场大屏同步字幕,而对于参会人员客户端的字幕展示则由前述图2流程予以实现。
其三、参会人员客户端的主要作用是可以替代传统同传耳机进行同传播放(更佳地可以查看一个或多个所需字幕),而对于参会人员客户端的接入到会议方式则可以有多种形式,例如通过扫码或输入特定邀请编码等。举例而言,可预先按会议所需,创建包含会议主题、时间、可选语种、字幕模式、LOGO等信息的二维码,参会人员客户端扫描该二维码便可以接入会议,从而能够发送参会过程中所需收听语种及所需字幕等请求。
最后,还可以说明的是,在上述同传模式中可针对字幕的特殊需求予以响应。例如在本发明一些实施例中,所述方法还可以包括:根据接收到的翻译文本编辑指令及相应文本,对所述机器翻译文本或人工翻译文本进行编辑处理,然后将编辑处理后的文本返回至所述上会客户端进行字幕投屏处理。例如在会议进行中,接收到上会客户端发送的编辑指令和编辑文本,对机器翻译文本或人工翻译文本进行实时编辑(例如修改错别字等),再将编辑后的翻译文本回传至上会客户端进行投屏处理。
相应于上述各实施例及优选方案,本发明还提供了一种由服务端进行多端同步信息的具备机器与人工协同模式的同声传译系统的实施例,如图3所示,具体可以包括:上会客户端、人工同传客户端、参会人员客户端以及服务端,图示中各客户端及服务端等样式仅为示意而非限定。结合前文,所述上会客户端的主要作用是接收并上传原始发言语音、设置并上传同传指令、以及对获取到的翻译文本进行字幕投屏处理(与会场屏幕相连);所述人工同传客户端的主要作用是获取同传指令以及实时上传人工翻译音频;所述参会人员客户端的主要作用是上传所需语种请求以及接收并播放翻译音频;而所述服务端,则是用来作为与前述多端进行信息交互实现前文所述同声传译方法的各项实施方式。
如前文提及的,可以由人工在所述上会客户端下达所述同传模式的切换选择指令;或者,也可以是所述上会客户端根据预先设定策略对所述同传模式进行自动切换选择,即无人监督状态,根据预先设定同传模式及目标语种切换规则,或者预先训练相应的模型用来根据会场实时情况,输出目标语种及同传模式的确定结果,对此本发明不作限定。而对于上会客户端实现字幕投屏设置的方式,则可以具体参考如下介绍:
在一些优选实施例中,上会客户端提供了个性化的字幕展示效果配置,可根据会议的环境、受众群、喜好、现场效果等不同因素,人工或自动设置字幕形式:
(1)可以对各语种翻译文本进行预处理
上会客户端收到服务端回传的人工或机器翻译文本后,可对翻译文本进行顺滑、规整、断句、分段、PGS调整,更可以字幕文本整理为语义准确、结构清晰的完整会议记录。
(2)可以设置字幕投屏展示样式
例如但不限于设置字幕显示的具体内容、字体大小、字体颜色、背景图片、背景颜色、出字速度、自定义logo、行数、字幕展示数量、字幕位置、字幕来源(如示出来自机器自动翻译或转写自人工同传)等多种配置参数。
最后,可以补充的是,所述同声传译系统还可以配置若干监督客户端,此监督客户端的作用相当于是远程的上会客户端,起到的都是保障作用,即可以理解为由不止一个上会客户端进行可靠保障,例如位于现场的上会客户端没来得及处理的情况,远程的监督客户端可以进行及时处理,从而可以最大程度确保会议同传及字幕展示的效果。
综上所述,本发明的构思在于构建一个尽最大化降低会议现场硬件依赖且便于实施的多端协同作业架构,具体是结合语音识别、机器翻译、语音合成、远程协调控制等技术,构造出一种机器同传与人工同传协同作业的会议场景同声传译模式,并通过基于翻译文本的投屏字幕个性化设置以及音频文本实时无线传输,满足多语种同声传译及字幕显示需求,可使得会场内外的参会用户实时收听到机器翻译音频(可经语音合成得到)或人工翻译音频以及查看所需的相应字幕。本发明主要是根据上会客户端的指令协调现场所需,灵活且合理地进行机器同传和人工同传之间的切换,并由上会客户端完成字幕上屏设置,从而既能够缓解同传译员的压力,也可以保障高质量的译文收听及展示。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明所涉及客户端可适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种电子设备,其中,所述电子设备为以上所述的同声传译系统中的上会客户端的执行载体。
该电子设备具体可以包括:一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述电子设备执行前述实施例或者等效实施方式的步骤/功能。这里的计算机程序可以是但不限于以软件平台、应用程序、交互页面等形式体现。
图4为本发明提供的一种电子设备的实施例的结构示意图,其中,该电子设备可以为台式PC、笔记本电脑、便携智能终端(手机、平板、阅读器、手表、眼镜等)等,并且该电子设备搭载前文提及客户端时可以考虑依据需要进行设备功能缩减,例如仅采用具有收听和模式切换功能的电子设备或者为了匹配某类设备对客户端的执行功能进行规划和限定,当然更为优选地,基于不同会务的不同需求,还可以针对性地定制专用的电子设备作为前述客户端或其载体,对此本发明不做限定。结合本实施例中的会议场景,优选采用台式PC和笔记本电脑,或者其他便于会议保障人员操作的终端设备。
具体如图4所示,电子设备900包括处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得电子设备900的功能更加完善,该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。其中,显示单元970可以包括显示屏。
进一步地,上述电子设备900还可以包括电源950,用于给该设备900中的各种器件或电路提供电能。
应理解,该设备900中的各个部件的操作和/或功能,具体可参见前文中关于方法、系统等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,图4所示的电子设备900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
(2)一种电子设备,其中,所述电子设备为以上任一项所述的同声传译系统中的人工同传客户端的执行载体。
对于该实施例中人工同传客户端的表现形式以及电子设备的结构特点等,可参见前文介绍,这里不再赘述。但需要指出的是,在实际操作中,结合会议场景,优选采用台式PC和笔记本电脑,或者其他便于同传译员操作的终端设备。
(3)一种电子设备,其中,所述电子设备为以上任一项所述的同声传译系统中的参会人员客户端的执行载体。
对于该实施例中参会人员客户端的表现形式以及电子设备的结构特点等,可参见前文介绍,这里不再赘述。但需要指出的是,在实际操作中,结合会议场景,优选采用笔记本电脑、便携智能终端(手机、平板、阅读器、手表、眼镜、智能耳机等),或者其他便于参会人员使用的终端设备,尤其地,本实施例所述电子设备可以完全替代传统同传所用的耳机,且不受场地限制,便于会场内外的用户按需接入会议现场参加会议。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (10)
1.一种具备机器与人工协同模式的同声传译方法,其特征在于,所述同声传译方法基于若干个会议客户端,所述会议客户端包括:上会客户端、人工同传客户端以及参会人员客户端;所述同声传译方法包括:
获取所述上会客户端上传的原始发言语音,并监听所述上会客户端请求的同传指令,所述同传指令包括目标语种以及同传模式;
若当前请求的同传模式为机器同传,则根据所述目标语种对所述原始发言语音进行实时机器翻译,得到机器翻译文本;
将所述机器翻译文本返回至所述上会客户端进行字幕投屏处理,并根据机器翻译文本进行语音合成,得到机器翻译音频;
若当前请求的同传模式为人工同传,则获取所述人工同传客户端上传的人工翻译音频;
对所述人工翻译音频进行转写,得到人工翻译文本,并将所述人工翻译文本返回至所述上会客户端进行字幕投屏处理;
根据接入的所述参会人员客户端的所需语种请求,向所述参会人员客户端输出相应语种的所述机器翻译音频或所述人工翻译音频。
2.根据权利要求1所述的具备机器与人工协同模式的同声传译方法,其特征在于,所述方法还包括:
根据接入的所述参会人员客户端的所需语种请求,向接入的所述参会人员客户端输出所述机器翻译文本或所述人工翻译文本;或者,
获取所述上会客户端上传的字幕配置参数;
利用所述字幕配置参数以及所述机器翻译文本或所述人工翻译文本,生成字幕文本;
根据接入的所述参会人员客户端的所需语种请求,向接入的所述参会人员客户端输出所述字幕文本。
3.根据权利要求1所述的具备机器与人工协同模式的同声传译方法,其特征在于,所述方法还包括:
存储所述机器翻译音频或所述人工翻译音频;和/或,
将所述机器翻译音频或所述人工翻译音频返回至所述上会客户端予以回收。
4.根据权利要求1~3任一项所述的具备机器与人工协同模式的同声传译方法,其特征在于,所述方法还包括:
根据接收到的翻译文本编辑指令及相应文本,对所述机器翻译文本或人工翻译文本进行编辑处理;
将编辑处理后的文本返回至所述上会客户端进行字幕投屏处理。
5.一种具备机器与人工协同模式的同声传译系统,其特征在于,包括:上会客户端、人工同传客户端、参会人员客户端以及服务端;
所述上会客户端用于接收并上传原始发言语音、设置并上传同传指令、以及对获取到的翻译文本进行字幕投屏处理;
所述人工同传客户端,用于获取同传指令以及实时上传人工翻译音频;
所述参会人员客户端,用于上传所需语种请求以及接收并播放翻译音频;
所述服务端,用于执行权利要求1~4任一项所述的同声传译方法。
6.根据权利要求5所述的具备机器与人工协同模式的同声传译系统,其特征在于,所述上会客户端设置同传指令包括:由人工在所述上会客户端下达所述同传模式的切换选择指令;或者,所述上会客户端根据预先设定策略对所述同传模式进行自动切换选择。
7.根据权利要求5或6所述的具备机器与人工协同模式的同声传译系统,其特征在于,所述上会客户端进行字幕投屏处理包括:对接收到的若干语种的翻译文本进行预处理以及个性化设置字幕投屏展示样式及数量。
8.一种电子设备,其特征在于,所述电子设备为权利要求5~7任一项所述的同声传译系统中的上会客户端的执行载体。
9.一种电子设备,其特征在于,所述电子设备为权利要求5~7任一项所述的同声传译系统中的人工同传客户端的执行载体。
10.一种电子设备,其特征在于,所述电子设备为权利要求5~7任一项所述的同声传译系统中的参会人员客户端的执行载体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011104839.1A CN112232092A (zh) | 2020-10-15 | 2020-10-15 | 具备机器与人工协同模式的同声传译方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011104839.1A CN112232092A (zh) | 2020-10-15 | 2020-10-15 | 具备机器与人工协同模式的同声传译方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232092A true CN112232092A (zh) | 2021-01-15 |
Family
ID=74118342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011104839.1A Pending CN112232092A (zh) | 2020-10-15 | 2020-10-15 | 具备机器与人工协同模式的同声传译方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232092A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202015002408U1 (de) * | 2015-03-28 | 2015-05-13 | Sven Danielsson | Simultan-Übersetzungs-Computer (SÜC) |
CN108615527A (zh) * | 2018-05-10 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
CN208622096U (zh) * | 2018-06-06 | 2019-03-19 | 科大讯飞股份有限公司 | 一种翻译系统 |
CN109686363A (zh) * | 2019-02-26 | 2019-04-26 | 深圳市合言信息科技有限公司 | 一种现场会议人工智能同传设备 |
CN110677406A (zh) * | 2019-09-26 | 2020-01-10 | 上海译牛科技有限公司 | 基于网络的同声传译方法及系统 |
CN110852115A (zh) * | 2018-08-01 | 2020-02-28 | 深圳双猴科技有限公司 | 一种基于人工智能和真人翻译的同步翻译系统及方法 |
-
2020
- 2020-10-15 CN CN202011104839.1A patent/CN112232092A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202015002408U1 (de) * | 2015-03-28 | 2015-05-13 | Sven Danielsson | Simultan-Übersetzungs-Computer (SÜC) |
CN108615527A (zh) * | 2018-05-10 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
CN208622096U (zh) * | 2018-06-06 | 2019-03-19 | 科大讯飞股份有限公司 | 一种翻译系统 |
CN110852115A (zh) * | 2018-08-01 | 2020-02-28 | 深圳双猴科技有限公司 | 一种基于人工智能和真人翻译的同步翻译系统及方法 |
CN109686363A (zh) * | 2019-02-26 | 2019-04-26 | 深圳市合言信息科技有限公司 | 一种现场会议人工智能同传设备 |
CN110677406A (zh) * | 2019-09-26 | 2020-01-10 | 上海译牛科技有限公司 | 基于网络的同声传译方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11252444B2 (en) | Video stream processing method, computer device, and storage medium | |
AU2011200857B2 (en) | Method and system for adding translation in a videoconference | |
CN106462573B (zh) | 通话中翻译 | |
CN110444196A (zh) | 基于同声传译的数据处理方法、装置、系统和存储介质 | |
CN107027046B (zh) | 辅助直播的音视频处理方法及装置 | |
CN110166729B (zh) | 云视频会议方法、装置、系统、介质和计算设备 | |
CN106464768A (zh) | 通话中的翻译 | |
JP2003345379A6 (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
CN110401810B (zh) | 虚拟画面的处理方法、装置、系统、电子设备及存储介质 | |
US20220414349A1 (en) | Systems, methods, and apparatus for determining an official transcription and speaker language from a plurality of transcripts of text in different languages | |
US20220286310A1 (en) | Systems, methods, and apparatus for notifying a transcribing and translating system of switching between spoken languages | |
EP3024223B1 (en) | Videoconference terminal, secondary-stream data accessing method, and computer storage medium | |
CN109743529A (zh) | 一种多功能视频会议系统 | |
WO2024008047A1 (zh) | 数字人手语播报方法、装置、设备及存储介质 | |
CN102262344A (zh) | 可即时分享所播放投影片影像的投影机 | |
CN111107283B (zh) | 一种信息显示方法、电子设备及存储介质 | |
KR101198091B1 (ko) | 학습 콘텐츠 서비스 제공 방법 및 시스템 | |
CN112735430A (zh) | 多语在线同声传译系统 | |
JP7417272B2 (ja) | 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム | |
CN111757187A (zh) | 多语言字幕显示方法、装置、终端设备及存储介质 | |
CN112232092A (zh) | 具备机器与人工协同模式的同声传译方法以及系统 | |
CN210091177U (zh) | 一种实现同步翻译的会议系统 | |
CN112968937A (zh) | 界面处理方法、装置、终端及服务器 | |
US20240154833A1 (en) | Meeting inputs | |
CN114503546A (zh) | 字幕显示方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |