CN111508484A - 语音数据的处理方法及装置 - Google Patents
语音数据的处理方法及装置 Download PDFInfo
- Publication number
- CN111508484A CN111508484A CN201910101392.3A CN201910101392A CN111508484A CN 111508484 A CN111508484 A CN 111508484A CN 201910101392 A CN201910101392 A CN 201910101392A CN 111508484 A CN111508484 A CN 111508484A
- Authority
- CN
- China
- Prior art keywords
- result
- voice data
- processing
- editing
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 246
- 230000005540 biological transmission Effects 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000001360 synchronised effect Effects 0.000 claims abstract description 42
- 238000012937 correction Methods 0.000 claims abstract description 25
- 238000013519 translation Methods 0.000 claims description 154
- 238000012544 monitoring process Methods 0.000 claims description 69
- 238000005516 engineering process Methods 0.000 abstract description 14
- 230000015654 memory Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音数据的处理方法及装置。其中,该语音数据的处理方法包括:获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。本发明解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题。
Description
技术领域
本发明涉及语音数据处理技术领域,具体而言,涉及一种语音数据的处理方法及装置。
背景技术
语音翻译作为将语音识别和机器翻译等人工智能技术结合的产品形态,通过软硬件技术将云和端连接到一起,解决操作端随时随地交流沟通需求,是一个在很多业务场景都能够对业务和生活有较大改变的产品。目前,语音翻译的现状为:语音识别中文准确率可达97%,语音识别英文准确率为90%,端到端的翻译质量中文到英文平均为80%,端到端的翻译质量英文到中文平均为75%。虽然在语音识别和机器翻译领域在近年来已经有了很大的突破,但是仍然无法避免在实际应用的场景中出现少量识别错误,翻译错译漏译的情况。
而针对上述可能存在的翻译错译以及漏译等,一般会采用对语音识别及机器翻译结果的人工后编译,对语音识别以及机器翻译结果的人工后翻译是业界常用的对于语音翻译结果的纠错方式。即,在实时语音翻译场景下,传统的后编辑模式会存在以下不足之处:缺乏实时性,编辑后的结果只能应用在后续点播的视频中,对于现场或者网络直播的场景无法生效。另外,对于语音识别的后编辑结果,无法自动重新调动机器翻译,需要翻译者对应修改机器翻译的结果。
针对上述相关技术中无法实现对翻译的语音数据进行实时纠错的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音数据的处理方法及装置,以至少解决相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题。
根据本发明实施例的一个方面,提高了一种语音数据的处理方法,包括:获取由同传设备发送的语音数据以及服务端对所述语音数据的处理结果;接收操作端基于所述语音数据对所述处理结果进行修正后得到的编辑结果;将所述编辑结果发送至所述服务端,以使所述服务端按照所述编辑结果对所述处理结果进行修正并将修正后的结果返回至所述同传设备。
根据本发明实施例的另外一个方面,还提供了一种语音数据的处理方法,包括:接收来自于监听客户端的编辑结果,其中,所述编辑结果由所述监听客户端的操作端基于所述监听客户端监听到的语音数据对处理结果进行修正后获得,所述语音数据由同传设备传输至服务端,所述处理结果由所述服务端对所述语音数据进行处理后获得;按照所述编辑结果对所述处理结果进行修正;将修正后的结果返回至所述同传设备,以使所述同传设备采用所述修正后的结果替换所述处理结果并对所述修正后的结果进行展示。
根据本发明实施例的另外一个方面,还提供了一种语音数据的处理装置,包括:获取单元,用于获取由同传设备发送的语音数据以及服务端对所述语音数据的处理结果;第一接收单元,用于接收操作端基于所述语音数据对所述处理结果进行修正后得到的编辑结果;发送单元,用于将所述编辑结果发送至所述服务端,以使所述服务端按照所述编辑结果对所述处理结果进行修正并将修正后的结果返回至所述同传设备。
根据本发明实施例的另外一个方面,还提供了一种语音数据的处理装置,包括:第二接收单元,用于接收来自于监听客户端的编辑结果,其中,所述编辑结果由所述监听客户端的操作端基于所述监听客户端监听到的语音数据对处理结果进行修正后获得,所述语音数据由同传设备传输至服务端,所述处理结果由所述服务端对所述语音数据进行处理后获得;修正单元,用于按照所述编辑结果对所述处理结果进行修正;展示单元,用于将修正后的结果返回至所述同传设备,以使所述同传设备采用所述修正后的结果替换所述处理结果并对所述修正后的结果进行展示。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的语音数据的处理方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的语音数据的处理方法。
根据本发明实施例的另外一个方面,还提供了一种终端,包括:第一装置;第二装置;第三装置;处理器,所述处理器运行程序,其中,所述程序运行时对于从所述第一装置、第二装置和第三装置输出的数据执行如下处理步骤:第一装置,获取由同传设备发送的语音数据以及服务端对所述语音数据的处理结果;第二装置,接收操作端基于所述语音数据对所述处理结果进行修正后得到的编辑结果;第三装置,将所述编辑结果发送至所述服务端,以使所述服务端按照所述编辑结果对所述处理结果进行修正并将修正后的结果返回至所述同传设备。
根据本发明实施例的另外一个方面,还提供了另一种终端,包括:第四装置;第五装置;第六装置;存储介质,用于存储程序,其中,所述程序在运行时对于从所述第四装置、第五装置和第六装置输出的数据执行如下处理步骤:第四装置,接收来自于监听客户端的编辑结果,其中,所述编辑结果由所述监听客户端的操作端基于所述监听客户端监听到的语音数据对处理结果进行修正后获得,所述语音数据由同传设备传输至服务端,所述处理结果由所述服务端对所述语音数据进行处理后获得;第五装置,按照所述编辑结果对所述处理结果进行修正;第六装置,将修正后的结果返回至所述同传设备,以使所述同传设备采用所述修正后的结果替换所述处理结果并对所述修正后的结果进行展示。
在本发明实施例中通过新增独立的语音翻译监听端,可以在远端实时监听指定请求发送到语音翻译服务端的语音数据,并能实时展示语音识别和机器翻译的结果文本。语音翻译监听端可以根据语音数据判断结果文本是否准确,并实时修复不准确的原始文本或翻译后的文本。
另外,语音翻译服务端在接收到编辑后的文本后,如果发现原始文本被编辑过,会重新调用机器翻译生成更新后的译文,再将结果返回到同传设备,用编辑后的文本更新有错误的文本,从而做到了原始文本与译文自动匹配,避免了操作端修改了原文还需要修改译文,增加了实时修复的效率。
在本发明实施例中,采用获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;并接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;再将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备的方式对语音数据进行处理,在该实施例中,实现了利用语音翻译监听端实时将用于基于语音数据对处理结果进行修正后得到编辑结果实时传输至服务端使得服务端可以按照编辑结果对处理结果进行修正的目的,达到了提高对语音数据翻译进行实时纠错的技术效果,进而解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题,提升了操作端用户的体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例一的一种用于实现语音数据的处理方法的移动设备的硬件结构框图;
图2是根据本发明实施例一的可选的一种语音数据的处理方法的移动终端的示意图;
图3是根据本发明实施例一的语音数据的处理方法的流程图;
图4是根据本发明实施例一的可选的语音数据的处理方法的流程图;
图5是根据本发明实施例一的语音数据的处理方法的优选的流程图;
图6是根据本发明实施例二的语音数据的处理装置的示意图;
图7是根据本发明实施例二的可选的语音数据的处理装置的示意图;
图8是根据本发明实施例三的一种移动终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
自动语音识别(Automatic Speech Recognition,简称ASR):是利用机器将语音转化为文字的技术。
机器翻译:是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
WebSocket:基于TCP的一种新的网络协议,它实现了浏览器与服务器全双工通信-允许服务器主动发送信息给客户端。
实施例1
根据本发明实施例,提供了一种语音数据的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本发明实施例一的一种用于实现语音数据的处理方法的移动设备的硬件结构框图。如图1所示,移动设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,该移动设备10还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,移动设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到移动设备10(或计算机终端)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的语音数据的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的语音数据的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与移动设备10的用户界面进行交互。
此处需要说明的是,在一些实施例中,上述图1所示的移动设备10可以具有触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。在另外一些实施例中,上述图1所示的移动设备具有图像用户界面(GUI),用户可以通过对触摸屏表面进行手指接触和/或手势接触来与GUI进行人机交互,此处的人机交互功能可选的包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。
此处需要说明的是,在一些可选实施例中,上述图1所示的移动设备10可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述移动设备中的部件的类型。
可选的,图2是根据本发明实施例一的可选的一种语音数据的处理方法的移动终端的示意图,如图2所示,其可以包括:触摸屏112、接触强度传感器165、触觉输出发生器167、扬声器111、触控界面200、光学传感器164、接近传感器166、SIM卡槽210、耳机接口212、麦克风113、Home键204、加速度计168和外部端口124。操作端用户可以通过手指202或者通过触控笔203来触摸/点击/按压/滑动等动作来接触触摸屏112,移动终端后台可以通过将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
其中,上述触摸屏112,可以为电容触摸屏,根据操作端用户的触摸点,确定出操作端用户选择的内容,该触摸屏可以接收操作端用户的动作信息,进而得到相应的内容。而接触强度传感器165可以是检测操作端用户接触触摸屏的强度数值,进而根据该强度数值确定出操作端用户的接触位置和触摸目标(如应用中的控件)。触觉输出发生器167可以输出操作端用户的触觉动作,包括输出操作端用户的触控动作、手势动作等。
可选的,上述的触控界面200对应于上述触摸屏所在的区域,触控界面可以是操作端用户的动作界面,如对于游戏而言,只有在该触控界面所在的区域移动终端才能做出反应。光学传感器164可以为外界光亮、或者灰暗界面的检测设备。接近传感器166可以检测到操作端用户靠近该移动终端。通过SIM卡槽可以接入SIM卡,以进行后续的通信,通过耳机接口212可以接入耳机设备,在需要时,可以通过该212接口播放音乐、视频等声音。
另外,对于上述图2所示的移动终端下方的麦克风113,其可以接收操作端用户通话时的语音信息,在本发明实施例中,可以直接在语音数据处理应用的界面设置语音输入提示控件,操作端用户在点击该语音输入提示控件后,可以直接说话,利用该麦克风113将语音信息输入至后台处理器,确定出操作端用户想要选择的商品。通过Home204可以一键回到触控界面的主界面。通过加速度计可以对操作端用户的运动或者其它速度计算器进行移动步数或者移动数字的计算。最后,对于上述图2所示的外部端口124,其可以接入外部端口,如Type-C或者USB接口,从而直接连接电脑或者其它终端,从而接收相关数据或者输出相关数据,在本发明实施例中可以直接通过外部端口124,将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
在本发明下述实施例中,可以获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
在上述运行环境下,本申请提供了如图3所示的语音数据的处理方法。图3是根据本发明实施例一的语音数据的处理方法的流程图,如图3所示,该语音数据的处理方法可以包括以下步骤:
步骤S301,获取由同传设备发送的语音数据以及服务端对语音数据的处理结果。
步骤S303,接收操作端基于语音数据对处理结果进行修正后得到的编辑结果。
步骤S305,将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
通过上述步骤,可以在获取由同传设备发送的语音数据以及服务器对语音数据的处理结果之后,接收操作端基于语音数据对处理结果进行修正后得到的编辑结果,并将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回值同传设备。在该实施例中,可以通过语音翻译监听端在语音翻译的过程中,在远端实时监听指定请求发送到语音翻译服务端(即,上下文中的服务端)的语音数据,并获取服务端对语音数据进行处理后的处理结果,同时接收操作端基于语音数据对处理结果进行修正后的编辑结果,再将编辑结果发送至服务端,从而使得服务端可以按照编辑结果对处理结果进行修正并将修正后的结果返回到同传设备,实现了利用语音翻译监听端实时将用于基于语音数据对处理结果进行修正后得到编辑结果实时传输至服务端使得服务端可以按照编辑结果对处理结果进行修正的目的,达到了提高对语音数据翻译进行实时纠错的技术效果,进而解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题,提升了操作端用户的体验。
在上述步骤S301中,处理结果可以包括以下至少之一:语音识别结果,机器翻译结果,语音识别结果由服务端对语音数据进行语音识别处理后获得,机器翻译结果由服务端对语音数据进行机器翻译处理后获得。
其中,在不需要进行对语音数据进行跨语言之间的转换的情况下,服务端仅需要对接收到的语音数据进行语音识别处理以得到对语音数据进行语音识别后获取的原文;而在需要对语音数据进行跨语言之间的转换的情况下,服务端则不仅需要对接收到的语音数据进行语音识别以得到语音数据对应的原文后,还需要对原文进行机器翻译得到译文。
例如,上述语音识别结果可以是服务端通过自动语音识别技术ASR对语音数据进行处理后获得的;上述机器翻译结果可以是由服务端利用计算机对需要转换的待处理的语音数据通过机器翻译后得到的。
优选的,在步骤S303中,接收操作端对处理结果进行修正后得到的编辑结果可以包括:接收操作端基于语音数据对语音识别结果进行实时修正后得到的第一编辑内容,和/或,接收操作端基于语音数据对机器翻译结果进行实时修正后得到的第二编辑内容;将第一编辑内容和/或第二编辑内容确定为编辑结果。
例如,在语音翻译监听端,通过实时监听的能力赋予操作端可以实时编辑文本的能力。即,当上述处理结果为语音识别结果的情况下,在语音翻译监听端的操作端可以基于接收到的由同传设备发送的语音数据对上述处理结果中的语音识别结果进行实时修正,以得到修正后的第一编辑内容,将第一编辑内容作为编辑结果;当上述处理结果为机器翻译结果时,则可以在语音翻译监听端的操作端可以基于接收到的由同传设备发送的语音数据对上述处理结果中的机器翻译结果进行实时修正,以得到修正后的第二编辑内容,将第二编辑内容作为编辑结果;当上述处理结果同时包括语音识别结果和机器翻译结果时,则可以在语音翻译监听端的操作端可以基于接收到的由同传设备发送的语音数据分别对语音识别结果和机器翻译结果进行修正,得到第一编辑内容和第二编辑内容,并将第一编辑内容以及第二编辑内容作为编辑结果。
可选地,上述语音数据的处理方法应用于如下场景至少之一:会议场景、外交场景、医疗场景、商务场景、法庭场景。
需要说明的是,上述语音数据的处理方法可以应用于上述会议场景、外交场景、医疗场景、商务场景、法庭场景,也可以应用于其他需要对语音数据进行翻译的场景。
下面通过另一种可选的语音数据的处理方法对本发明进行说明,图4是根据本发明实施例一的可选的语音数据的处理方法的流程图,如图4所示,该语音数据的处理方法包括:
步骤S401,接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得。
步骤S403,按照编辑结果对处理结果进行修正。
步骤S405,将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。
在该实施例中,可以在接收来自于监听客户端的编辑结果之后,按照编辑结果对处理结果进行修正;并将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。在该实施例中,可以通过语音翻译监听端在语音翻译的过程中,在远端实时监听指定请求发送到语音翻译服务端(即,上下文中的服务端)的语音数据,并获取服务端对语音数据进行处理后的处理结果,同时接收操作端基于语音数据对处理结果进行修正后的编辑结果,再将编辑结果发送至服务端,从而使得服务端可以按照编辑结果对处理结果进行修正并将修正后的结果返回到同传设备,实现了利用语音翻译监听端实时将用于基于语音数据对处理结果进行修正后得到编辑结果实时传输至服务端使得服务端可以按照编辑结果对处理结果进行修正的目的,达到了提高对语音数据翻译进行实时纠错的技术效果,进而解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题,提升了操作端体验。
在上述步骤S401中由服务端对语音数据进行处理后获得处理结果可以根据对语音数据进行处理的方式来确定,具体地,该处理结果可以包括以下至少之一:语音识别结果,机器翻译结果,语音识别结果由服务端对语音数据进行语音识别处理后获得,机器翻译结果由服务端对语音数据进行机器翻译处理后获得。
其中,当确定不需要对语音数据进行跨语言之间的转换的情况下,可以由服务端对语音数据进行语音识别处理得到语音数据对应的原文;而当确定需要对语音数据进行跨语言之间的转换的情况下,则当由服务器对语音数据进行语音识别处理得到语音数据对应的原文之后,还需要通过机器翻译将原文进行翻译得到译文。
作为一种可选的实施例,在步骤S403中,按照编辑结果对处理结果进行修正可以包括:如果根据编辑结果确定编辑对象为机器翻译结果,则按照编辑结果对机器翻译结果进行修正;和/或,如果根据编辑结果确定编辑对象为语音识别结果,则按照编辑结果对语音识别结果进行修正,并重新对修正后的语音识别结果进行机器翻译,以生成更新后的翻译结果。
例如,按照编辑结果对处理结果进行修正可以根据编辑对象来进行。即,当监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得的编辑结果确定编辑对象为机器翻译结果,则按照编辑结果对机器翻译结果进行修正;当根据编辑结果确定编辑对象为语音识别结果时,则按照编辑结果对语音识别结果进行修正,并重新对修正后的语音识别结果进行机器翻译,以生成更新后的翻译结果;而当根据编辑结果确定编辑对象包括机器翻译结果和语音识别结果时,则按照编辑结果分别对机器翻译结果和语音识别结果进行修正,并重新对修正后的语音识别结果进行机器翻译,以生成更新后的翻译结果。
可选地,该语音数据的处理方法应用于如下场景至少之一:会议场景、外交场景、医疗场景、商务场景、法庭场景。
下面结合附图对本发明一种可选的实施例进行详细的说明。
此处,以确定需要对语音数据进行跨语言之间的转换为例进行说明,图5是根据本发明实施例一的语音数据的处理方法的优选的流程图,如图5所示,以同传设备为语音翻译会议同传产品、服务端为语音翻译服务端、监听客户端为语音翻译监听端为应用场景,提供了一种语音数据的处理方法,该方法可以包括如下步骤S51至步骤S55:
步骤S51,由同传产品(即,语音翻译会议同传产品)向语音翻译服务端发送语音数据。其中,语音翻译服务端在接收到语音数据之后,会对语音数据进行处理并得到处理结果,例如,语音识别结果,机器翻译结果等。需要说明的是,以应用在会议场景中,这里的同传产品为实时语音翻译应用的一个主要场景,该同传产品为主讲人提供所演讲内容的双语字幕,方便现场听众更好地获取信息,尤其是针对母语不同的听众,实时便捷的跨语言沟通。
步骤S52,语音翻译服务端将处理结果返回至同传产品。其中,这里的服务端集成了鉴权计费、模型路由、语音识别、机器翻译、数据沉淀等核心能力,并通过websocket协议与客户端进行数据通信。另外,上述处理结果包括:语音识别结果和机器翻译结果。其中,语音识别结果即为语音数据对应的原文,机器人翻译结果则为对原文进行翻译的译文。
步骤S53,语音翻译服务端将处理结果发送至语音翻译监听端。
步骤S54,当语音翻译服务端进行语音识别和机器翻译的过程中,语音翻译监听端可以在远端实时监听指定请求发送到语音翻译服务端的的语音数据,并能根据语音数据判断对语音数据进行语音识别后得到的原文是否准确,在不准确的情况下,实时修复语音识别中不准确的原文。反之,在判断到对语音数据进行语音识别后得到的原文准确的情况下,会判断基于原文的译文是否准确,在不准确的情况下,会对译文进行实时修复。语音翻译监听端在对原文或译文进行修复后,会将修复后得到的编辑结果返回至语音翻译服务端。
步骤S55,语音翻译服务端在接收到编辑结果后,会对编辑结果进行判断,当发现在语音翻译监听端对原文进行编辑时,会重新调用机器翻译生成基于修正后的原文的译文。
步骤S56,将修正后的原文以及基于修正后的原文的译文传输至同传产品,同传产品利用接收到的修正后的原文以及基于修正后的原文的译文替换在步骤S52中接收到的语音翻译服务端将处理结果,并将替换后的修正后的原文以及基于修正后的原文的译文转换成双语字幕,并通过屏幕将双语字幕展示给听众。
在本发明实施例中,可以在语音翻译监听端,通过实时监听的能力赋予操作端可以实时编辑文本的能力,通过语音翻译服务端,将编辑后的文本返回给调用端,从而做到实时替换有错误的文本的效果。在语音翻译服务端收到编辑后的文本时,如果发现原文被编辑过,会重新调用机器翻译生成更新后的译文,从而做到了原文与译文自动匹配,避免操作端修改了原文后还需要修改译文,增加了实时修复的效率。相对于传统的后编辑模式缺乏实时性,编辑后的结果只能应用在后续点播的视频中,对于现场或者网络直播的场景则无法生效;另外,对于语音识别的后编辑结果,无法自动重新调用机器翻译,需要翻译者对应修改机器翻译的结果。该语音数据的处理方法正是为了解决该问题,让使用者可以在远程实时监听语音翻译现场的声音与识别结果,并将错误的文本实时修正,具体地,可以包括对原文以及译文进行修正,并且在对原文进行修正的情况下,在语音翻译服务端可以重新调用机器翻译对修改后的原文进行再次翻译。
即,通过新增独立的具备实时监听能力的语音翻译监听端,同时赋予操作端实时编辑原文及译文的功能。编辑后的文本会通过语音翻译服务端实时推送到展示端替换错误的文本,实现实时纠错能力。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的语音数据的处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例的另外一个方面,还提供了一种语音数据的处理装置,该语音数据的处理装置对应于图3所示的语音数据的处理方法的步骤,图6是根据本发明实施例二的语音数据的处理装置的示意图,如图6所示,该语音数据的处理装置包括:获取单元61,第一接收单元63以及发送单元65。其中,
获取单元61,用于获取由同传设备发送的语音数据以及服务端对语音数据的处理结果。
第一接收单元63,用于接收操作端基于语音数据对处理结果进行修正后得到的编辑结果。
发送单元65,用于将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
上述语音数据的处理装置,可以通过获取单元61获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;然后利用第一接收单元63接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;并利用发送单元65将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。在该实施例中,可以通过语音翻译监听端在语音翻译的过程中,在远端实时监听指定请求发送到语音翻译服务端(即,上下文中的服务端)的语音数据,并获取服务端对语音数据进行处理后的处理结果,同时接收操作端基于语音数据对处理结果进行修正后的编辑结果,再将编辑结果发送至服务端,从而使得服务端可以按照编辑结果对处理结果进行修正并将修正后的结果返回到同传设备,实现了利用语音翻译监听端实时将用于基于语音数据对处理结果进行修正后得到编辑结果实时传输至服务端使得服务端可以按照编辑结果对处理结果进行修正的目的,达到了提高对语音数据翻译进行实时纠错的技术效果,进而解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题,提升了操作端体验。
可选地,处理结果包括以下至少之一:语音识别结果,机器翻译结果,语音识别结果由服务端对语音数据进行语音识别处理后获得,机器翻译结果由服务端对语音数据进行机器翻译处理后获得。
优选的,第一接收单元包括:接收模块,用于接收操作端基于语音数据对语音识别结果进行实时修正后得到的第一编辑内容,和/或,接收操作端基于语音数据对机器翻译结果进行实时修正后得到的第二编辑内容;确定模块,用于将第一编辑内容和/或第二编辑内容确定为编辑结果。
作为一种可选的实施例,该语音数据的处理装置可以应用于如下场景至少之一:会议场景、外交场景、医疗场景、商务场景、法庭场景。
另外,根据本发明实施例的另外一个方面,还提供了一种语音数据的处理装置,该语音数据的处理装置对应于图4所示的语音数据的处理方法的步骤,其中,图7是根据本发明实施例二的可选的语音数据的处理装置的示意图,如图7所示,该语音数据的处理装置可以包括:第二接收单元71,修正单元73以及展示单元75。下面对该语音数据的处理装置进行详细说明。
第二接收单元71,用于接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得。
修正单元73,用于按照编辑结果对处理结果进行修正。
展示单元75,用于将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。
在该实施例中,可以利用第二接收单元71接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得;然后利用修正单元73按照编辑结果对处理结果进行修正;再利用展示单元75将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。在该实施例中,可以通过语音翻译监听端在语音翻译的过程中,在远端实时监听指定请求发送到语音翻译服务端(即,上下文中的服务端)的语音数据,并获取服务端对语音数据进行处理后的处理结果,同时接收操作端基于语音数据对处理结果进行修正后的编辑结果,再将编辑结果发送至服务端,从而使得服务端可以按照编辑结果对处理结果进行修正并将修正后的结果返回到同传设备,实现了利用语音翻译监听端实时将用于基于语音数据对处理结果进行修正后得到编辑结果实时传输至服务端使得服务端可以按照编辑结果对处理结果进行修正的目的,达到了提高对语音数据翻译进行实时纠错的技术效果,进而解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题,提升了操作端体验。
作为一种可选的实施例,上述处理结果包括以下至少之一:语音识别结果,机器翻译结果,语音识别结果由服务端对语音数据进行语音识别处理后获得,机器翻译结果由服务端对语音数据进行机器翻译处理后获得。
作为一种可选的实施例,修正单元包括:修正模块,用于如果根据编辑结果确定编辑对象为机器翻译结果,则按照编辑结果对机器翻译结果进行修正;和/或,生成模块,用于如果根据编辑结果确定编辑对象为语音识别结果,则按照编辑结果对语音识别结果进行修正,并重新对修正后的语音识别结果进行机器翻译,以生成更新后的翻译结果。
优选的,该语音数据的处理装置应用于如下场景至少之一:会议场景、外交场景、医疗场景、商务场景、法庭场景。
此处需要说明的是,上述获取单元61、第一接收单元63以及发送单元65对应于实施例1中的步骤S301至步骤S305;另外,上述第二接收单元71、修正单元73以及展示单元75对应于上述实施例1中的步骤S401至步骤S405,上述各个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的移动设备10。
实施例3
本发明的实施例可以提供一种移动终端的实施例,该移动终端可以是移动终端群中的任意一个移动终端设备。可选地,在本实施例中,上述移动终端也可以替换为计算机终端等终端设备。
可选地,在本实施例中,上述移动终端可以位于移动终端网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,终端可以包括:第一装置;第二装置;第三装置;处理器,处理器运行程序,其中,程序运行时对于从第一装置、第二装置和第三装置输出的数据执行如下处理步骤:第一装置,获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;第二装置,接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;第三装置,将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
可选地,在本实施例中,终端还可以包括:第四装置;第五装置;第六装置;存储介质,用于存储程序,其中,程序在运行时对于从第四装置、第五装置和第六装置输出的数据执行如下处理步骤:第四装置,接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得;第五装置,按照编辑结果对处理结果进行修正;第六装置,将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。
在本实施例中,上述移动终端可以执行应用程序的语音数据的处理方法中以下步骤的程序代码:获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
在本实施例中,上述移动终端还可以执行应用程序的语音数据的处理方法中以下步骤的程序代码:接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得;按照编辑结果对处理结果进行修正;将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。
可选地,图8是根据本发明实施例三的一种移动终端的结构框图。如图8所示,该移动终端81可以包括:一个或多个(图中仅示出一个)处理器801、存储器802、以及外设接口、存储控制器、显示屏和网络模块。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的语音数据的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音数据的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端81。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
该处理器可以通过传输模块调用存储器存储的信息及应用程序,以执行下述步骤:获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
可选的,上述处理器还可以执行如下步骤的程序代码:接收操作端基于语音数据对语音识别结果进行实时修正后得到的第一编辑内容,和/或,接收操作端基于语音数据对机器翻译结果进行实时修正后得到的第二编辑内容;将第一编辑内容和/或第二编辑内容确定为编辑结果。
该处理器还可以通过传输模块调用存储器存储的信息及应用程序,以执行下述步骤:接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得;按照编辑结果对处理结果进行修正;将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。
可选的,上述处理器还可以执行如下步骤的程序代码:如果根据编辑结果确定编辑对象为机器翻译结果,则按照编辑结果对机器翻译结果进行修正;和/或,如果根据编辑结果确定编辑对象为语音识别结果,则按照编辑结果对语音识别结果进行修正,并重新对修正后的语音识别结果进行机器翻译,以生成更新后的翻译结果。
在该实施例中,可以在获取由同传设备发送的语音数据以及服务器对语音数据的处理结果之后,接收操作端基于语音数据对处理结果进行修正后得到的编辑结果,并将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回值同传设备。在该实施例中,可以通过语音翻译监听端在语音翻译的过程中,在远端实时监听指定请求发送到语音翻译服务端(即,上下文中的服务端)的语音数据,并获取服务端对语音数据进行处理后的处理结果,同时接收操作端基于语音数据对处理结果进行修正后的编辑结果,再将编辑结果发送至服务端,从而使得服务端可以按照编辑结果对处理结果进行修正并将修正后的结果返回到同传设备,实现了利用语音翻译监听端实时将用于基于语音数据对处理结果进行修正后得到编辑结果实时传输至服务端使得服务端可以按照编辑结果对处理结果进行修正的目的,达到了提高对语音数据翻译进行实时纠错的技术效果,进而解决了相关技术中无法实现对翻译的语音数据进行实时纠错的技术问题,提升了操作端体验。
本领域普通技术人员可以理解,图8所示的结构仅为示意,移动终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,移动终端8还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的语音数据的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于移动网络中移动网络终端群中的任意一个移动终端中,或者位于计算机终端群中的任意一个计算机终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取由同传设备发送的语音数据以及服务端对语音数据的处理结果;接收操作端基于语音数据对处理结果进行修正后得到的编辑结果;将编辑结果发送至服务端,以使服务端按照编辑结果对处理结果进行修正并将修正后的结果返回至同传设备。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:接收来自于监听客户端的编辑结果,其中,编辑结果由监听客户端的操作端基于监听客户端监听到的语音数据对处理结果进行修正后获得,语音数据由同传设备传输至服务端,处理结果由服务端对语音数据进行处理后获得;按照编辑结果对处理结果进行修正;将修正后的结果返回至同传设备,以使同传设备采用修正后的结果替换处理结果并对修正后的结果进行展示。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种语音数据的处理方法,其特征在于,包括:
获取由同传设备发送的语音数据以及服务端对所述语音数据的处理结果;
接收操作端基于所述语音数据对所述处理结果进行修正后得到的编辑结果;
将所述编辑结果发送至所述服务端,以使所述服务端按照所述编辑结果对所述处理结果进行修正并将修正后的结果返回至所述同传设备。
2.根据权利要求1所述的方法,其特征在于,所述处理结果包括以下至少之一:语音识别结果,机器翻译结果,所述语音识别结果由所述服务端对所述语音数据进行语音识别处理后获得,所述机器翻译结果由所述服务端对所述语音数据进行机器翻译处理后获得。
3.根据权利要求2所述的方法,其特征在于,接收所述操作端对所述处理结果进行修正后得到的所述编辑结果包括:
接收所述操作端基于所述语音数据对所述语音识别结果进行实时修正后得到的第一编辑内容,和/或,接收所述操作端基于所述语音数据对所述机器翻译结果进行实时修正后得到的第二编辑内容;
将所述第一编辑内容和/或所述第二编辑内容确定为所述编辑结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述语音数据的处理方法应用于如下场景至少之一:
会议场景、外交场景、医疗场景、商务场景、法庭场景。
5.一种语音数据的处理方法,其特征在于,包括:
接收来自于监听客户端的编辑结果,其中,所述编辑结果由所述监听客户端的操作端基于所述监听客户端监听到的语音数据对处理结果进行修正后获得,所述语音数据由同传设备传输至服务端,所述处理结果由所述服务端对所述语音数据进行处理后获得;
按照所述编辑结果对所述处理结果进行修正;
将修正后的结果返回至所述同传设备,以使所述同传设备采用所述修正后的结果替换所述处理结果并对所述修正后的结果进行展示。
6.根据权利要求5所述的方法,其特征在于,所述处理结果包括以下至少之一:语音识别结果,机器翻译结果,所述语音识别结果由所述服务端对所述语音数据进行语音识别处理后获得,所述机器翻译结果由所述服务端对所述语音数据进行机器翻译处理后获得。
7.根据权利要求6所述的方法,其特征在于,按照所述编辑结果对所述处理结果进行修正包括:
如果根据所述编辑结果确定编辑对象为所述机器翻译结果,则按照所述编辑结果对所述机器翻译结果进行修正;和/或,
如果根据所述编辑结果确定编辑对象为所述语音识别结果,则按照所述编辑结果对所述语音识别结果进行修正,并重新对修正后的语音识别结果进行机器翻译,以生成更新后的翻译结果。
8.根据权利要求5至7中任一项所述的方法,其特征在于,所述语音数据的处理方法应用于如下场景至少之一:
会议场景、外交场景、医疗场景、商务场景、法庭场景。
9.一种语音数据的处理装置,其特征在于,包括:
获取单元,用于获取由同传设备发送的语音数据以及服务端对所述语音数据的处理结果;
第一接收单元,用于接收操作端基于所述语音数据对所述处理结果进行修正后得到的编辑结果;
发送单元,用于将所述编辑结果发送至所述服务端,以使所述服务端按照所述编辑结果对所述处理结果进行修正并将修正后的结果返回至所述同传设备。
10.一种语音数据的处理装置,其特征在于,包括:
第二接收单元,用于接收来自于监听客户端的编辑结果,其中,所述编辑结果由所述监听客户端的操作端基于所述监听客户端监听到的语音数据对处理结果进行修正后获得,所述语音数据由同传设备传输至服务端,所述处理结果由所述服务端对所述语音数据进行处理后获得;
修正单元,用于按照所述编辑结果对所述处理结果进行修正;
展示单元,用于将修正后的结果返回至所述同传设备,以使所述同传设备采用所述修正后的结果替换所述处理结果并对所述修正后的结果进行展示。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的语音数据的处理方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的语音数据的处理方法。
13.一种终端,其特征在于,包括:
第一装置;
第二装置;
第三装置;
处理器,所述处理器运行程序,其中,所述程序运行时对于从所述第一装置、第二装置和第三装置输出的数据执行如下处理步骤:
第一装置,获取由同传设备发送的语音数据以及服务端对所述语音数据的处理结果;
第二装置,接收操作端基于所述语音数据对所述处理结果进行修正后得到的编辑结果;
第三装置,将所述编辑结果发送至所述服务端,以使所述服务端按照所述编辑结果对所述处理结果进行修正并将修正后的结果返回至所述同传设备。
14.一种终端,其特征在于,包括:
第四装置;
第五装置;
第六装置;
存储介质,用于存储程序,其中,所述程序在运行时对于从所述第四装置、第五装置和第六装置输出的数据执行如下处理步骤:
第四装置,接收来自于监听客户端的编辑结果,其中,所述编辑结果由所述监听客户端的操作端基于所述监听客户端监听到的语音数据对处理结果进行修正后获得,所述语音数据由同传设备传输至服务端,所述处理结果由所述服务端对所述语音数据进行处理后获得;
第五装置,按照所述编辑结果对所述处理结果进行修正;
第六装置,将修正后的结果返回至所述同传设备,以使所述同传设备采用所述修正后的结果替换所述处理结果并对所述修正后的结果进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910101392.3A CN111508484B (zh) | 2019-01-31 | 2019-01-31 | 语音数据的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910101392.3A CN111508484B (zh) | 2019-01-31 | 2019-01-31 | 语音数据的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508484A true CN111508484A (zh) | 2020-08-07 |
CN111508484B CN111508484B (zh) | 2024-04-19 |
Family
ID=71863802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910101392.3A Active CN111508484B (zh) | 2019-01-31 | 2019-01-31 | 语音数据的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508484B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259632A (ja) * | 1999-03-09 | 2000-09-22 | Toshiba Corp | 自動通訳システム、通訳プログラム伝送システム、記録媒体および情報伝送媒体 |
CN101494621A (zh) * | 2009-03-16 | 2009-07-29 | 西安六度科技有限公司 | 一种多语言即时通讯终端翻译系统和翻译方法 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
CN103299361A (zh) * | 2010-08-05 | 2013-09-11 | 谷歌公司 | 翻译语言 |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
KR20180062003A (ko) * | 2016-11-30 | 2018-06-08 | 한국전자통신연구원 | 음성 인식 오류 교정 방법 |
CN108615527A (zh) * | 2018-05-10 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
CN108710616A (zh) * | 2018-05-23 | 2018-10-26 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN109243433A (zh) * | 2018-11-06 | 2019-01-18 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN109255129A (zh) * | 2017-07-14 | 2019-01-22 | 松下电器(美国)知识产权公司 | 翻译方法、翻译装置以及翻译程序 |
-
2019
- 2019-01-31 CN CN201910101392.3A patent/CN111508484B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259632A (ja) * | 1999-03-09 | 2000-09-22 | Toshiba Corp | 自動通訳システム、通訳プログラム伝送システム、記録媒体および情報伝送媒体 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN101494621A (zh) * | 2009-03-16 | 2009-07-29 | 西安六度科技有限公司 | 一种多语言即时通讯终端翻译系统和翻译方法 |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
CN103299361A (zh) * | 2010-08-05 | 2013-09-11 | 谷歌公司 | 翻译语言 |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
KR20180062003A (ko) * | 2016-11-30 | 2018-06-08 | 한국전자통신연구원 | 음성 인식 오류 교정 방법 |
CN109255129A (zh) * | 2017-07-14 | 2019-01-22 | 松下电器(美国)知识产权公司 | 翻译方法、翻译装置以及翻译程序 |
CN108615527A (zh) * | 2018-05-10 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
CN108710616A (zh) * | 2018-05-23 | 2018-10-26 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN109243433A (zh) * | 2018-11-06 | 2019-01-18 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111508484B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487503B2 (en) | Interactive control method and device for voice and video communications | |
CN110444196A (zh) | 基于同声传译的数据处理方法、装置、系统和存储介质 | |
CN110333836B (zh) | 信息的投屏方法、装置、存储介质和电子装置 | |
US20210398527A1 (en) | Terminal screen projection control method and terminal | |
CN110047488B (zh) | 语音翻译方法、装置、设备及控制设备 | |
CN104778121A (zh) | 游戏程序的测试方法、装置及系统 | |
CN110149549B (zh) | 信息的显示方法及装置 | |
CN111709362B (zh) | 用于确定重点学习内容的方法、装置、设备及存储介质 | |
CN112084315A (zh) | 问答互动方法、装置、存储介质及设备 | |
CN109474512B (zh) | 即时通信的背景更新方法、终端设备及存储介质 | |
CN111639503A (zh) | 会议数据处理方法、装置、存储介质及设备 | |
CN108574878B (zh) | 数据交互方法及装置 | |
CN110244885B (zh) | 输入方法、装置、设备及存储介质 | |
CN110647827A (zh) | 评论信息处理方法、装置以及电子设备、存储介质 | |
CN113535541A (zh) | 一种测试方法、装置、存储介质和计算机设备 | |
CN113467777A (zh) | 路径识别方法、装置和系统 | |
CN112799656B (zh) | 自动化操作的脚本文件配置方法、装置、设备和存储介质 | |
CN105278928A (zh) | Ivr对外接口配置方法及装置 | |
CN111508484B (zh) | 语音数据的处理方法及装置 | |
CN111147894A (zh) | 一种手语视频的生成方法、装置及系统 | |
CN110111793B (zh) | 音频信息的处理方法、装置、存储介质及电子装置 | |
CN111010335A (zh) | 聊天表情发送方法、装置、电子设备及介质 | |
CN114928566B (zh) | 客户端的功能测试方法、装置、存储介质与电子设备 | |
CN111161710A (zh) | 同声传译方法、装置、电子设备及存储介质 | |
CN113840177B (zh) | 直播互动方法、装置、存储介质与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |