CN116415597A - 语音翻译、同声传译方法 - Google Patents
语音翻译、同声传译方法 Download PDFInfo
- Publication number
- CN116415597A CN116415597A CN202310213127.0A CN202310213127A CN116415597A CN 116415597 A CN116415597 A CN 116415597A CN 202310213127 A CN202310213127 A CN 202310213127A CN 116415597 A CN116415597 A CN 116415597A
- Authority
- CN
- China
- Prior art keywords
- text
- translated
- translation
- voice
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 256
- 238000000034 method Methods 0.000 title claims abstract description 100
- 239000012634 fragment Substances 0.000 claims abstract description 82
- 238000006243 chemical reaction Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 21
- 238000012986 modification Methods 0.000 claims description 16
- 230000004048 modification Effects 0.000 claims description 16
- 238000013136 deep learning model Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 230000006854 communication Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002226 simultaneous effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供语音翻译、同声传译方法,其中所述语音翻译方法包括:截取待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果。通过对截取的语音片段进行文本转换得到的上文文本进行下文预测,生成待翻译目标文本,并对待翻译目标文本进行翻译,确定翻译结果,使得确定出来的翻译结果是根据对上文文本进行下文预测得到的待翻译目标文本,即无需对下文对应的语音片段进行截取,基于获取到的与上文文本对应的语音片段,就可以确定包含下文的待翻译目标文本对应的翻译结果,减少了获取下文语音片段的时间花费,实现了进行语音翻译的高时效性。
Description
技术领域
本说明书实施例涉及翻译技术领域,特别涉及一种语音翻译方法。
背景技术
随着计算机技术和语言学的发展以及社会信息服务的需求,使得语音翻译这一市场不断扩大,语音翻译技术也开始日渐繁荣。
在同传翻译场景中,市场上常用的同传翻译技术是在说话人说完一句完整的话时,机器才会针对这句完整的话,进行识别翻译,导致翻译的时效较低。因此,亟需一种高效的语音翻译方法。
发明内容
有鉴于此,本说明书实施例提供了一种语音翻译方法。本说明书一个或者多个实施例同时涉及一种同声传译方法,一种语音翻译方法,应用于云侧设备,一种语音翻译装置,一种同声传译装置,一种语音翻译装置,应用于云侧设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种语音翻译方法,包括:
截取待翻译的语音片段;
对语音片段进行文本转换,获得上文文本;
基于上文文本,进行下文预测,生成待翻译目标文本;
对待翻译目标文本进行翻译,确定翻译结果。
根据本说明书实施例的第二方面,提供了一种同声传译方法,包括:
接收目标对象输入的声音片段;
对声音片段进行文本转换,获得上文文本;
基于上文文本,进行下文预测,生成待翻译目标文本;
对待翻译目标文本进行翻译,确定同声传译结果。
根据本说明书实施例的第三方面,提供了一种语音翻译方法,应用于云侧设备,包括:
接收端侧设备发送的语音翻译请求,其中,语音翻译请求携带有待翻译的语音片段;
对语音片段进行文本转换,获得上文文本;
基于上文文本,进行下文预测,生成待翻译目标文本;
对待翻译目标文本进行翻译,确定翻译结果;
将翻译结果返回至端侧设备。
根据本说明书实施例的第四方面,提供了一种语音翻译装置,包括:
第一截取模块,被配置为截取待翻译的语音片段;
第一获得模块,被配置为对语音片段进行文本转换,获得上文文本;
第一生成模块,被配置为基于上文文本,进行下文预测,生成待翻译目标文本;
第一确定模块,被配置为对待翻译目标文本进行翻译,确定翻译结果。
根据本说明书实施例的第五方面,提供了一种同声传译装置,包括:
声音片段接收模块,被配置为接收目标对象输入的声音片段;
第二获得模块,被配置为对声音片段进行文本转换,获得上文文本;
第二生成模块,被配置为基于上文文本,进行下文预测,生成待翻译目标文本;
第二确定模块,被配置为对待翻译目标文本进行翻译,确定同声传译结果。
根据本说明书实施例的第六方面,提供了一种语音翻译装置,应用于云侧设备,包括:
语音翻译请求接收模块,被配置为接收端侧设备发送的语音翻译请求,其中,语音翻译请求携带有待翻译的语音片段;
第三获得模块,被配置为对语音片段进行文本转换,获得上文文本;
第三生成模块,被配置为基于上文文本,进行下文预测,生成待翻译目标文本;
第三确定模块,被配置为对待翻译目标文本进行翻译,确定翻译结果;
返回模块,被配置为将翻译结果返回至端侧设备。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述语音翻译方法或同声传译方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述语音翻译方法或同声传译方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述语音翻译方法或同声传译方法的步骤。
本说明书一个实施例通过截取待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果。通过对截取的语音片段进行文本转换得到的上文文本进行下文预测,生成待翻译目标文本,并对待翻译目标文本进行翻译,确定翻译结果,使得确定出来的翻译结果是根据对上文文本进行下文预测得到的待翻译目标文本,即无需对下文对应的语音片段进行截取,基于获取到的与上文文本对应的语音片段,就可以确定包含下文的待翻译目标文本对应的翻译结果,减少了获取下文语音片段的时间花费,实现了进行语音翻译的高时效性。
附图说明
图1是本说明书一个实施例提供的一种语音翻译系统架构下的交互流程示意图;
图2是本说明书一个实施例提供的一种语音翻译系统的框架图;
图3是本说明书一个实施例提供的一种语音翻译方法的流程图;
图4是本说明书一个实施例提供的一种语音翻译方法的逻辑框架图;
图5是本说明书一个实施例提供的一种同声传译方法的流程图;
图6是本说明书一个实施例提供的另一种语音翻译方法的流程图;
图7是本说明书一个实施例提供的一种语音翻译方法的处理过程流程图;
图8是本说明书一个实施例提供的一种语音翻译装置的结构示意图;
图9是本说明书一个实施例提供的一种同声传译装置的结构示意图;
图10是本说明书一个实施例提供的另一种语音翻译装置的结构示意图;
图11是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
同声传译:是指译员在不打断讲话者讲话的情况下,不间断地将内容口译给听众的一种翻译方式,同声传译员通过专用的设备提供即时的翻译。
机器同传:是指将讲话者的讲话内容,通过利用人工智能(AI,Art ificia l Inte l l igence)技术进行建模翻译为听众的常用语向,如将英文说话者的讲话内容翻译为中文内容。
文本生成:自然语言处理(NLP,Natura l Language Process ing)领域的一项重要且具有挑战的任务。文本生成任务的目的是生成近似于自然语言的文本序列,比如输入结构化数据的数据文本生成(Data-to-text Generat ion),输入图片的Image Capt ion(图片说明),输入视频的视频摘要(Video Summar izat ion),输入音频的语音识别(Speech Recogn it ion)等。本文主要聚焦于输入上文生成下文的文本到文本(Text-to-Text)任务,类似于GPT,PaLM,BERT等常见预训练模型。
Transformer:是一个利用注意力机制来提高模型训练速度的模型。
预训练生成模型(GPT,Generat ive Pre-Train ing):它基于Transformer架构,GPT模型先在大规模语料上进行无监督预训练,再在小样本的有监督数据集上为具体任务进行调节(fine-tune)的方式。
路径语言模型(PaLM,Pathways语言模型):使用标准的Transformer模型架构,只设置解码器(即每个时间步只能关注自己和过去的时间步长)。PaLM预训练数据集由一个高质量的语料库组成,该语料库有7800亿个节点(token),代表了广泛的自然语言使用案例,该数据集是由过滤过的网页、书籍、百科、新闻文章、源代码和社交媒体对话组成的。
预训练的语言表征模型(BERT,Bid i rect iona l Encoder Representat ionfrom Transformers):一种双向注意力编码表征功能的神经网络模型,采用新的掩码语言模型(MLM,Masked Language Mode l),以致能生成深度的双向语言表征。基于Transformer构建的,这个模型广泛应用于NLP领域,例如,机器翻译,问答系统,文本摘要和语音识别等等方向。
随着计算机技术和语言学的发展以及社会信息服务的需求,使得语音翻译这一市场不断扩大,语音翻译技术也开始日渐繁荣。
同声传译技术是结合了机器翻译(MT,Mach ine Trans l at ion)和自动语音识别(ASR,Automat ic Speech Recogn it ion)等人工智能技术,在跨境电商、国际会议和新闻发言等跨境交流的众多场景都有广泛的应用,已发展成为一个前沿的研究领域。作为一个新兴的跨学科领域,同声传译面临着语音识别错误、质量与时延的平衡、翻译的连贯性和一致性、训练数据不足等诸多挑战。
具体地,目前常见的机器同传采用级联式方案,包括语音识别(ASR)模块和同步机器翻译(SiMT,Simu ltaneous Mach ine Trans l at ion)两个模块,其中ASR模块实现语音到文本的转写,SiMT模块完成指定语向的翻译。由于ASR模块和SiMT模块都只能拿到当前时间之前的相关语音片段,无法有效感知下文信息,影响同传的质量。
为解决上述技术问题,本说明书实施例通过截取待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果。通过对截取的语音片段进行文本转换得到的上文文本进行下文预测,生成待翻译目标文本,并对待翻译目标文本进行翻译,确定翻译结果,使得确定出来的翻译结果是根据对上文文本进行下文预测得到的待翻译目标文本,即无需对下文对应的语音片段进行截取,基于获取到的与上文文本对应的语音片段,就可以确定包含下文的待翻译目标文本对应的翻译结果,减少了获取下文语音片段的时间花费,实现了进行语音翻译的高时效性。
在本说明书中,提供了一种语音翻译方法。本说明书一个或者多个实施例同时涉及一种同声传译方法,一种语音翻译方法,应用于云侧设备,一种语音翻译装置,一种同声传译装置,一种语音翻译装置,应用于云侧设备,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种语音翻译系统架构下的交互流程示意图,如图1所示,该系统包括端侧设备101和云侧设备102。
端侧设备101:用于向云侧设备102发送语音翻译请求,其中,语音翻译请求中携带有待翻译的语音片段;
云侧设备102:用于接收端侧设备101发送的语音翻译请求,并对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果;
进一步地,云侧设备102,还用于将翻译结果返回至端侧设备101。
应用本说明书实施例的方案,截取待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果。通过对截取的语音片段进行文本转换得到的上文文本进行下文预测,生成待翻译目标文本,并对待翻译目标文本进行翻译,确定翻译结果,使得确定出来的翻译结果是根据对上文文本进行下文预测得到的待翻译目标文本,即无需对下文对应的语音片段进行截取,基于获取到的与上文文本对应的语音片段,就可以确定包含下文的待翻译目标文本对应的翻译结果,减少了获取下文语音片段的时间花费,实现了进行语音翻译的高时效性。
参见图2,图2示出了本说明书一个实施例提供的一种语音翻译系统的框架图,该系统包括云侧设备以及多个端侧设备。多个端侧设备之间通过云侧设备可以建立通信连接,在语音翻译场景中,云侧设备即用来在多个端侧设备之间提供语音翻译的数据处理服务,多个端侧设备可以分别作为发送端或接收端,通过云侧设备实现实时通信。
用户通过端侧设备可与云侧设备进行交互,以接收其它端侧设备发送的数据,或将数据发送至其它端侧设备等。在任务预测模型的数据处理场景中,可以是用户通过端侧设备向云侧设备发起语音翻译请求,云侧设备根据该语音翻译请求进行语音翻译的数据处理,并将处理获得的翻译结果推送至其他建立通信的其他端侧设备中。
其中,端侧设备与云侧设备之间通过网络建立连接。网络为端侧设备与云侧设备之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。端侧设备所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至云侧设备。
端侧设备可以为浏览器、APP(App l icat ion,应用程序)、或网页应用如H5(Hyper Text Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,端侧设备可以基于云侧设备提供的相应服务的软件开发工具包(SDK,Software Deve lopment Kit),如基于实时通信(RTC,Rea l TimeCommun icat ion)SDK开发获得等。端侧设备可以部署在电子设备中,需要依赖设备运行或者设备中的某些应用程序(APP,App l icat ion)而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱端侧设备、社交平台软件等。
云侧设备可以包括提供各种服务的服务器,例如为多个端侧设备提供通信服务的服务器,又如为端侧设备上使用的模型提供支持的用于后台训练的服务器,又如对端侧设备发送的数据进行处理的服务器等。需要说明的是,云侧设备可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content De livery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的语音翻译方法可以由云侧设备执行,在本说明书的其它实施例中,端侧设备也可以与云侧设备具有相似的功能,从而执行本说明书实施例所提供的语音翻译方法。在其它实施例中,本说明书实施例所提供的语音翻译方法还可以是由云侧设备与端侧设备共同执行。
参见图3,图3示出了本说明书一个实施例提供的一种语音翻译方法的流程图,具体包括以下步骤。
步骤302:截取待翻译的语音片段。
本说明书实施例应用于具有语音翻译功能的客户端或者服务器。
在有对语音进行翻译的需求时,截取待翻译的语音片段,其中,对语音片段进行截取可以是基于用户在前端输入数据进行截取的,也可以是从存储语音的数据库中截取获得的。
具体地,语音片段是指表达语言对应的声音片段,语音片段可以是长句,可以是短句,语音片段通常为不完整的句子,不同的应用场景,语音片段的获取方式是不同的,当在同声传译场景时,语音片段是人实时发出的声音及对应的内容;在视频翻译场景中,语音片段是所播放视频中音频的片段;在音频翻译场景中,语音片段是指所播放音频中的片段。
可选地,截取待翻译的语音片段的实现方式有多种,一种可能的实现方式可以是前端通过用户的点击,开启一个上传语音片段的通道(比如,通过蓝牙、网络上传等等),由用户上传语音片段,由客户端或者服务器根据该截取的待翻译语音片段进行翻译;另一种可能的实现方式中,可以是客户端或者服务器中存在有很多语音数据,由用户点击需要使用的语音数据为哪些,将选中的语音数据进行截取,获得语音片段,由客户端或者服务器根据该截取的待翻译语音片段进行翻译。
通过截取待翻译的语音片段,为后续基于待翻译的语音片段进行翻译提供了数据来源。
可选地,上述步骤302,包括如下具体步骤:
接收用户输入的实时语音数据;
对实时语音数据进行截取,获得待翻译的语音片段。
具体地,实时语音数据是指根据当前实际时间,即时输入的语音数据,比如,在同声传译场景中,人在说话的同时,对应的说话声音即为实时输入的语音数据;在音视频翻译场景中,音视频进行播放,播放时所发出的声音即为实时输入的语音数据。
接收用户输入的实时语音数据,可以是用户进行说话的同时,接收说话对应的实时语音数据,还可以是用户在播放音视频的同时,接收音视频时所发出的声音对应的实时语音数据。
示例性地,客户端有接收声音的页面,该页面对应有“接收按钮”,则用户在说话的同时,按下“接收按钮”,当松开“接收按钮”时,即停止输入,确定按下“接收按钮”与松开“接收按钮”期间,客户端接收到的声音为用户输入的实时语音数据。
可选地,对实时语音数据进行截取,获得待翻译的语音片段的实现方式有多种,一种可能的实现方式,可以是对用户输入的实时语音数据进行识别,确定需要进行翻译的数据,将该数据进行截取,获得待翻译的语音片段,比如,可以是根据设定的时间窗对用户输入的实时语音数据进行持续截取,将截取得到的实时语音数据,作为待翻译的语音片段;还可以是根据设定的字符数对用户输入的实时语音数据进行截取,将截取得到的实时语音数据,作为待翻译的语音片段。
应用本说明书实施例的方案,通过对用户输入的实时语音数据进行截取获得待翻译的语音片段,使得待翻译的语音片段是基于用户输入的实时语音数据进行截取得到的,可以灵活的根据用户的需求进行语音数据的翻译,提高了用户的体验感。
步骤304:对语音片段进行文本转换,获得上文文本。
本说明书一个或多个实施例中,在截取得到待翻译的语音片段后,可对截取到的语音片段进行文本的转换,获得上文文本,通过将语音数据转换为对应的文本数据,以便于后续基于转换得到的文本数据进行对应的预测和翻译处理,提高了进行预测和翻译的处理效率。
具体地,文本转换是指将数据的形式进行转换的方式,比如,将语音数据转换为文本数据。上文文本是指上文文字对应的文本,上文文本是已知的。上文是指文字的上半部分,该半部分可以是按照任意比例进行确定的,具体根据截取到的待翻译语音数据所确定。
可选地,文本转换的实现可以是利用神经网络进行训练,生成的可进行文本转换的深度学习模型。
通过对语音片段进行文本转换,获得上文文本,使得后续可基于转换得到的上文文本中的文字数据进行预测和翻译,提高了对待翻译的语音片段进行翻译的效率。
可选地,上述步骤304,包括如下具体步骤:
将语音片段输入至预先训练的语音识别模型,获得上文文本,其中,语音识别模型为预先基于样本语音数据及样本语音数据对应的样本文本训练得到的深度学习模型。
具体地,语音识别模型是指将语音数据转换文文字数据的模型,即对语音数据进行识别,进而生成文字数据的模型,该模型可以是基于训练样本集,对卷积神经网络、循环神经网络、BERT等进行训练生成的。该训练样本集中包含样本语音数据及所述样本语音数据对应的样本文本。
示例性地,将语音片段A输入至语音识别模型,语音识别模型经过处理,输出与语音片段A对应的文字数据A,则该文字数据A为上文文本。
可选地,预先训练可以是在截取待翻译的语音片段之前,对神经网络进行预先训练,获得语音识别模型。
应用本说明书实施例的方案,将语音片段输入至预先训练的语音识别模型,获得上文文本,使得上文文本是基于预先训练的语音识别模型得到的,通过模型进行处理生成的结果更加地准确,进而避免了进行二次识别,进一步提高了对待翻译的语音片段进行翻译的效率。
步骤306:基于上文文本,进行下文预测,生成待翻译目标文本。
本说明书一个或多个实施例中,基于对截取到的语音片段进行文本转换,获得上文文本后,对上文文本进行下文预测,获得待翻译目标文本,其中待翻译目标文本中包含有上文文本和下文文本,使得最终进行翻译的文本是待翻译的目标文本。
具体地,下文是指与上文相对应的下文,其中上文与下文进行合并即可得到完整的文本。待翻译目标文本是指需要进行翻译的文本,该待翻译目标文本中包含有完整的文本,具体是包括上文文本和下文文本,比如,上文文本为“AI在同声”,下文文本为“传译中”,待翻译目标文本为“AI在同声传译中”。
可选地,基于上文文本,进行下文预测,生成待翻译目标文本的实现方式,可以是将上文文本输入至一个预先训练好的进行文本预测的模型中,获得待翻译目标文本。
可选地,基于上文文本,进行下文预测,生成待翻译目标文本,具体是,识别上文文本中的文本内容,根据该文本内容对下文文本内容进行延伸,获得延伸内容,根据上文文本和延伸内容对应的延伸文本,生成待翻译目标文本,具体的实现方式有多种,其中一种可能的实现方式,可以是识别上文文本中的文本内容,进行下文预测,获得下文文本,根据上文文本与下文文本,生成待翻译的目标文本;另一种可能的实现方式,可以是识别上文文本中的文本内容,进行下文预测,直接获得包含上文与下文的待翻译目标文本。
可选地,上述步骤306,包括如下具体步骤:
对上文文本进行下文预测,生成上文文本对应的下文文本;
合并上文文本与下文文本,生成待翻译目标文本。
具体地,下文文本是指与上文文本相对应的文本,将上文文本与下文文本进行拼接,可获得完整文本,该完整文本为待翻译目标文本。
可选地,对上文文本进行下文预测,生成上文文本对应的下文文本可以是通过预先训练一个深度学习模型,将上文文本输入至该深度学习模型中,可获得对应的下文文本。
合并上文文本和下文文本,生成待翻译目标文本,具体是按照合并顺序,将上文文本与下文文本进行拼接,生成待翻译目标文本,其中拼接过程中是将上文文本与下文文本作为各自完整的个体进行拼接的,不对上文文本或下文文本进行拆分。合并顺序的确定可以是根据获得的顺序进行确定,比如,将对语音片段进行文本转换,获得的文本内容作为前面的文本,将后面获得的文本放置在后面,进而获得待翻译目标文本;还可以是对两个文本中的文本内容进行识别,根据识别结果确定两个文本进行合并时的合并顺序。
应用本说明书实施例的方案,对上文文本进行下文预测,生成上文文本对应的下文文本,并将上文文本与下文文本进行合并,生成待翻译目标文本,通过对下文文本进行预测,使得进行翻译的是上文文本和下文文本进行合并生成的待翻译目标文本,也即无需获取全部的上文文本和下文文本,即可对上文文本与下文文本进行翻译,提高了进行翻译的时效性。
可选地,上述步骤对上文文本进行下文预测,生成上文文本对应的下文文本,包括如下具体步骤:
将上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本,其中,文本生成模型是基于样本上文文本及样本上文文本对应的样本下文文本预训练得到的深度学习模型。
具体地,文本生成模型是指对文本进行预测的模型,比如,将文本A输入至文本生成模型,则文本生成模型输出与所述文本A相对应的文本B,其中,文本A与文本B是语言连贯。文本生成模型可以是基于GPT模型、PaLM模型等大规模文本预训练模型,利用小规模数据集作为训练数据进行调整得到的。指定文本长度是指指定的下文文本的文本长度,用于对生成的下文文本的文本长度进行限定,比如,指定文本长度为3,则生成的下文文本的文本长度为3。
将上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本,具体是根据文本生成模型的模型性能信息,将上文文本输入至预训练的文本生成模型,获得符合模型性能信息的下文文本。
可选地,指定文本长度可以是基于文本生成模型的模型性能信息进行确定,比如,文本生成模型的输出为X个字符,则确定指定文本长度为X;还可以是文本生成模型可以生成很多字符,但是只有前Y个字符的字符准确度较高,则确定指定文本长度为Y。
应用本说明书实施例的方案,通过将上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本,使得生成的下文文本是依据基于样本上文文本和样本上文文本对应的样本下文文本进行预训练得到的深度学习模型获得的,也即使生成的下文文本的效率更高,进一步提高了对语音片段进行翻译的效率。
可选地,在上述步骤将上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本之前,还包括如下具体步骤:
获取测试集;
基于测试集,对预训练的文本生成模型进行测试,确定文本生成模型的预测准确度;
根据预测准确度,确定指定文本长度。
具体地,测试集是指用于测试模型的数据集,测试集包括样本文本和样本预测文本,其中,样本文本与样本预测文本相对应。预测准确度是指文本生成模型对模型进行预测的准确度,测试准确度是根据样本预测文本与将样本文本输入至文本生成模型得到的文本进行比较得到的。
获取测试集的方式有多种,一种可能的实现方式中,可以是客户端存储有多个文本,将该多个文本进行分割,即可获得多个样本文本对,将该多个样本文本对作为测试集;还有一种可能的实现方式,可以是将文本生成模型之前进行预测得到的数据中,选定采用率较高的文本对作为测试集;还有一种可能的实现方式,可以是用户通过前端输入的。
获取测试集;基于测试集,对预训练的文本生成模型进行测试,确定文本生成模型的预测准确度;根据预测准确度,确定指定文本长度的具体实现方式可以是,获取测试集,将测试集中的各测试文本分别输入至预训练的文本生成模型,确定各测试文本对应的预测准确度,将各预测准确度进行比较,根据比较结果确定指定文本长度。可以是根据文本生成模型生成的预测字符的整体准确度,确定指定文本长度;还可以是根据文本生成文本中各字符的准确度,比如,文本生成模型基于三个测试集中的样本文本进行预测,获得的三个样本预测文本,其中三个样本预测文本的预测字符数均为6个,其中,前3个预测字符的准确度均为100%,从第4个开始,准确度均低于100%,则确定指定文本长度为3。
示例性地,测试集中包含多个不同的上文文本,将各上文文本1、2、3、4输入至文本生成模型进行测试,其中生成与上文文本1对应的预测文本为3个字符,预测准确度为90%,生成与上文文本2对应的预测文本为6个字符,预测准确度为60%,生成与上文文本3对应的预测文本为9个字符,预测准确度为10%,生成与上文文本4对应的预测文本为4个字符,预测准确度为75%,通过将4个预测准确度进行比较,确定3个字符为指定文本长度。
应用本说明书实施例的方案,通过获取测试集,并基于测试集对预训练的文本生成模型进行测试,确定文本生成模型的预测准确度,根据预测准确度确定指定文本长度,使得生成的指定文本长度的下文文本的准确度更高,进而可直接基于高准确度的下文文本进行翻译,无需对下文文本进行繁杂的反复确定,提高了进行翻译的效率。
可选地,上述步骤对所述上文文本进行下文预测,生成所述上文文本对应的下文文本,包括如下具体步骤:
将上文文本输入至预训练的文本生成模型,生成预测字符及预测字符的置信度;
在置信度大于或等于预设阈值的情况下,继续预测下一个字符,直至预测字符的置信度小于预设阈值,获得所述上文文本对应的下文文本。
具体地,预测字符是指通过预测得到的文字字符,比如,将上文文本输入至文本生成模型,文本生成模板输出对应的文字字符,则将该文字字符作为预测字符,置信度是指对字符的准确性相信的程度,也叫可靠度、置信水平、置信系数,置信度具体是将数据通过转换、计算,得到数值,用于衡量该数据。预设阈值是指预先设置的对置信度进行限制的阈值,比如预设阈值为0.8,则需要置信度大于或等于0.8。指定文本长度是指指定的下文文本的文本长度,指定文本长度是根据置信度与置信度阈值的比较结果确定的,比如,符合置信度阈值的置信度有Z个,则确定指定文本长度为Z个。
可选地,确定预测字符的置信度,可以是计算各预测字符的信息熵,将信息熵作为置信度,也可以直接计算预测字符的置信度。
将上文文本输入至预训练的文本生成模型,生成预测字符及预测字符的置信度,具体是将上文文本输入至预训练的文本生成模型,文本生成模型逐个生成预测字符及预测字符的置信度,在置信度大于或等于预设阈值的情况下,继续预测下一个字符,直至预测字符的置信度小于预设阈值,获得指定文本长度的下文文本,具体是将预测字符的置信度与预设阈值进行比较,确定预测字符的置信度是否大于或等于预设阈值,若是,则控制文本生成模型继续进行预测,生成下一个预测字符及对应的置信度。
在置信度小于预设阈值的情况下,不采用该置信度对应的预测字符,且文本生成模型停止进行预测。
示例性地,将预设阈值为0.9,将“AI在同声”输入至文本生成模型,文本生成模型生成预测字符“传”及与“传”对应的置信度0.95,其中0.95大于0.9,则文本生成模型继续进行预测,生成预测字符“译”及与“译”对应的置信度0.92,其中0.92大于0.9,则文本生成模型继续进行预测,生成预测字符“中”及对应的置信度0.9,其中0.9等于0.9,则文本生成模型继续进行预测,生成预测字符“我”及“我”的置信度为0.6,其中0.6小于0.9,则舍弃预测字符“我”,并使文本生成模型停止预测。
应用本说明书实施例的方案,将上文文本输入至预训练的文本生成模型,生成预测字符与预测字符对应的置信度,将置信度大于或者等于预设阈值的置信度对应的预测字符作为下文文本,使得下文文本的置信度不小于预设阈值,使得确定出来的下文文本的准确率较高,进而实现进对语音片段行翻译的高效性。
可选地,在上述步骤306之前,还包括如下具体步骤:
获取参考文本,其中,参考文本为上文文本的上文;
合并参考文本和上文文本,获得更新的上文文本。
具体地,参考文本是指对语言表述方式进行参考的文本,用于使下文文本的语言表述与参考文本的语言表述方式一致。
可选地,参考文本与上文文本可以是不连贯的,也可以是连贯的,其中连贯是指两个文本是紧密连接的。
获取参考文本的方式有很多种,一种可能的实现方式中,可以是客户端中保留有文本生成模型之前预测生成的文本,将该些文本作为参考文本;另一种可能的实现方式中可以是用户通过前端输入之前语音数据或文本数据,若为文本数据,则直接将文本数据作为参考文本,若为语音数据,则可以为语音数据进行语音识别,获得对应的文本数据。
合并参考文本和上文文本,获得更新的上文文本,具体是基于参考文本为上文文本的上文,将参考文本作为上文,将下文文本作为下文,获得更新的上文文本。
可选地,在获取到参考文本之后,可以基于参考文本对上文文本进行修复,生成与参考文本用词一致的更新上文文本,实现通过参考文本修复对语音片段进行转写得到的上文文本,也即通过参考文本实现对语音片段进行文本转换过程中造成的用词不准确问题。
应用本说明书实施例的方案,通过获取参考文本,并合并参考文本和上文文本,获得更新的上文文本,更新的上文文本中包含有进行文本转换得到的上文文本以及参考文本,使得文本生成模型根据该更新的上文文本进行预测生成的下文文本的文本内容中的语言表述方式更准确,为后续进行翻译提供了便利,进而提高了进行翻译的效率。
可选地,在上述步骤306之后,还包括如下具体步骤:
接收所述语音片段的后续语音数据;
对所述后续语音数据进行识别,确定所述后续语音数据对应的标准文本;
对比所述标准文本与预测得到的下文文本;
在所述标准文本与所述下文文本不一致的情况下,基于所述标准文本更新所述待翻译目标文本。
具体地,后续语音数据是指待翻译语音片段后续对应的语音数据,后续语音数据与待翻译语音片段是连续的。标准文本是指对后续语音数据进行文本转换获得的文本,用于与下文文本进行对比。
对后续语音数据进行识别,确定后续语音数据对应的标准文本可以是将后续语音数据输入时预先训练的语音识别模型中,获得标准文本。
对比标准文本与预测得到的下文文本,具体是将标准文本与下文文本中的文本内容进行对比,确定对比结果,其中进行对比可以是逐字进行对比。
可选地,标准文本与下文文本不一致的评判标准可以预先由用户设定,可以是设定对比结果小于100%,即确定为不一致;还可以设定对比结果小于98%,即确定为不一致。
可选地,在标准文本与下文文本一致的情况下,则无需对下文文本进行处理,也即确定基于上文文本,进行下文预测,生成的下文文本的准确性是符合要求的。
基于标准文本更新待翻译目标文本,具体是基于标准文本更新待翻译目标文本中的下文文本,其中更新可以是对于下文文本中与标准文本不一致的词进行更新,也可以是将下文文本替换为标准文本。
应用本说明书实施例的方案,在基于上文文本进行下文预测,生成待翻译目标文本之后,接收语音片段对应的后续语音数据,对后续语音数据进行识别,确定后续语音数据对应的标准文本,并对比标准文本与预测得到的下文文本,在对比不一致的情况下,基于标准文本更新待翻译目标文本,以使更新后的待翻译目标文本是与标准文本相一致的,提高了后续基于待翻译目标文本进行翻译的准确性。
步骤308:对待翻译目标文本进行翻译,确定翻译结果。
本说明书一个或多个实施例中,在获取到待翻译目标文本后,根据目标语种,对待翻译目标文本进行翻译,获得翻译结果,其中目标语种为需要翻译得到的语种。
可选地,翻译结果的数目可以是一个也可以是多个,具体根据需要的语种进行翻译,若待翻译目标文本为中文,目标语种为英语、韩语、俄语,则确定翻译结果为3个,分别为待翻译目标文本的英语结果、待翻译目标文本的韩语结果、待翻译目标文本的俄语结果。
可选地,对待翻译目标文本进行翻译可以是利用预先训练的翻译模型进行翻译,还可以是有一语言知识系统,利用该语言知识系统进行翻译。
对待翻译目标文本进行翻译,确定翻译结果的实现方式有多种,一种可能的实现方式,可以是对待翻译目标文本进行翻译,获得翻译文本,将该翻译文本作为翻译结果,或者可以进一步地对翻译文本进行语音转换,获得翻译语音,将该翻译语音作为翻译结果;另一种可能的实现方式中,可以是对待翻译目标文本进行翻译,获得翻译语音,将该翻译语音作为翻译结果。
通过对待翻译目标文本进行翻译,获得翻译结果,实现基于语音片段进行翻译的翻译结果。
可选地,在上述步骤对待翻译目标文本进行翻译,确定翻译结果之后,还包括如下具体步骤:
向用户反馈翻译结果;
接收用户发送的针对翻译结果的修改信息;
基于修改信息,对文本生成模型进行微调,获得更新的文本生成模型。
具体地,修改信息是指针对翻译结果的基准信息,用于与翻译结果进行比对,比如修改信息可以是与待翻译目标文本对应的正确的翻译结果,还可以是对翻译结果进行修改后,携带修改痕迹的信息。微调是指对文本生成模型中的模型参数进行调整。
可选地,向用户反馈翻译结果,可以是将翻译结果展示在前端,或者将翻译结果进行播放,还可以是向用户发送一个链接,用户通过点击该链接,获得翻译结果。可选地,基于修改信息,对文本生成模型进行微调,可以是调整文本生成模型中的部分模型参数,还可以是采用部分修改信息,对文本生成模型进行调整。在确定出翻译结果后,将翻译结果反馈给用户,用户可使用该翻译结果,若认为该翻译结果不正确,可返回修改信息,以使利用修改信息对文本生成模型的模型参数进行调整,获得更新的文本生成模型;若认为该翻译结果正确,则直接使用该翻译结果。
应用本说明书实施例的方案,向用户反馈翻译结果,接收用户发送的针对翻译结果的修改信息,并基于修改信息,对文本生成模型进行微调,获得更新的文本生成模型,使得更新后的文本生成模型在后续进行预测时更加的准确,进而为基于截取的语音片段进行翻译提供了便利,提高了进行翻译的效率。
可选地,在上述步骤308之前,还包括如下具体步骤:
识别所述待翻译目标文本的语义信息;
所述对所述待翻译目标文本进行翻译,确定翻译结果,包括:
在所述语义信息符合预设句型结构的情况下,对所述待翻译目标文本进行翻译,确定翻译结果。
具体地,语义信息是指描述文本语义的信息,语义信息至少包括文本的句型结构,句型结构是指依据文本的句型归纳出来的结构。预设句型结构是指预先设置的对句型结构进行限定的条件,比如,预设句型结构可以是主谓结构、主谓宾结构等,用以保证负荷预设句型结构的文本是完整的句子。
识别待翻译目标文本的语义信息可以是通过预先训练的语义识别模型,识别待翻译目标文本的语义信息;还可以是利用关键字识别技术,识别文本中的关键信息,根据识别到的关键信息确定待翻译目标文本的语义信息。
可选地,语义信息符合预设句型结构可以是语义信息中的句型结构与预设句型结构完全相同,比如,语义信息中的句型结构是主谓结构,预设句型结构为主谓结构,则确定语义信息符合预设句型结构;还可以是语义信息中的句型结构包括预设句型结构,比如,语义信息中的句型结构是主谓宾结构,预设句型结构是主谓结构,则也确定语义信息符合预设句型结构。
在语义信息符合预设句型结构的情况下,对待翻译目标文本进行翻译,是确定语义信息对应的待翻译目标文本为完整的句子的情况下,对待翻译目标文本进行翻译,以保证翻译结果的完整性,并提高了翻译的准确性。
在语义信息不符合预设句型结构的情况下,可以是继续进行下文预测,直至预测得到的待翻译目标文本的语义信息符合预设句型结构;还可以是将不符合预设句型结构的待翻译目标文本通过前端展示给用户,由用户决定是进行翻译还是继续进行下文预测。
应用本说明书实施例的方案,在对待翻译目标文本进行翻译,确定翻译结果之前,识别待翻译目标文本的语义信息,在语义信息符合预设句型结构的情况下,对待翻译目标文本进行翻译,确定翻译结果,使得进行翻译的是符合预设句型结构的待翻译目标文本,在预设句型结构是完整句子的对应的结构的情况下,使得待翻译目标文本是完整的句子,进而提高基于完整句子进行翻译的准确性,也即通过下文预测与预设句型结构的判断,使得翻译结果在提高时效性的效果的前提下,还保证了翻译结果的准确性。
参见图4,图4示出了本说明书一个实施例提供的一种语音翻译方法的逻辑框架图。
截取待翻译的语音片段,将语音片段进行文本转换,获得与语音片段对应的上文文本,将上文文本输入至文本生成模型,获得下文文本,将上文文本和下文文本进行合并生成待翻译目标文本,将待翻译目标文本输入至翻译模型,依次经过翻译模型的文本编码器和文本解码器,输出与待翻译目标文本对应的翻译文本,根据需要可以对翻译文本进行语音转换处理,获得翻译语音。
示例性地,截取语音片段,将语音片段进行文本转换,获得上文文本为“AI在同声”,将上文文本输入至文本生成模型的“x1 x2 x3 x4”的位置,并同时将“x5 x6”作为预留位,输入至文本生成模型,文本生成模型经过对输入内容的处理,通过在位置“x5 x6 x7”输出“传译中”。将位置“x1 x2 x3 x4 x5 x6 x7”对应的“AI在同声传译中”输入进翻译模型,依次经过翻译模型中的文本编码器和文本解码器,输出与“AI在同声传译中”对应的翻译结果,翻译结果的内容为“AI in Simu ltaneous I nterpretat ion”。
应用本说明书实施例的方案,截取待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果。通过对截取的语音片段进行文本转换得到的上文文本进行下文预测,生成待翻译目标文本,并对待翻译目标文本进行翻译,确定翻译结果,使得确定出来的翻译结果是根据对上文文本进行下文预测得到的待翻译目标文本,即无需对下文对应的语音片段进行截取,基于获取到的与上文文本对应的语音片段,就可以确定包含下文的待翻译目标文本对应的翻译结果,减少了获取下文语音片段的时间,实现了进行语音翻译的高时效性。
参见图5,图5示出了本说明书一个实施例提供的一种同声传译方法的流程图,具体包括以下步骤。
步骤502:接收目标对象输入的声音片段;
本说明书实施例应用于具有翻译功能的客户端或者服务器。
在用户有声音进行翻译的需求时,向客户端或者服务器发送声音片段,其中客户端或者服务器接收目标对象输入的声音片段。
具体地,目标对象是指正在发出声音的人,比如,在国际会议中,目标对象为正在讲话的人。声音片段为发出的声音组成的片段,比如,在国际会议中,声音片段为当前目标对象发出的声音。
接收目标对象输入的声音片段的实现方式,可以是在目标对象讲话时,自动接收目标对象的声音;还可以是目标对象在准备讲话时,点击按钮,客户端或者服务器基于目标对象的点击行为,接收目标对象输入的声音片段。
步骤504:对声音片段进行文本转换,获得上文文本;
步骤506:基于上文文本,进行下文预测,生成待翻译目标文本;
步骤508:对待翻译目标文本进行翻译,确定同声传译结果。
其中,同声传译结果为语音数据。
上述步骤504至步骤508的具体实施方式,参照上述步骤304至308,本说明书在此不再赘述。
应用本说明书实施例的方案接收目标对象输入的声音片段;对声音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定同声传译结果。通过对接收到的目标对象输入的声音片段进行文本转换获得的上文文本进行下文预测,生成待翻译目标文本,对待翻译目标文本进行翻译确定同声传译结果,使得只需要获取声音片段,即可对完整的待翻译目标文本进行翻译,提高了同声传译的时效性,实现了同声传译所需要的即时性。
参见图6,图6示出了本说明书一个实施例提供的另一种语音翻译方法的流程图,应用于云侧设备具体包括以下步骤。
步骤602:接收端侧设备发送的语音翻译请求,其中,语音翻译请求携带有待翻译的语音片段;
在用户有对语音进行翻译的需求时,用户通过端侧设备向云侧设备发送语音翻译请求,其中,语音翻译请求携带有待翻译的语音片段,以使云侧设备基于接收到的语音翻译请求进行对应的翻译处理。
步骤604:对语音片段进行文本转换,获得上文文本;
步骤606:基于上文文本,进行下文预测,生成待翻译目标文本;
步骤608:对待翻译目标文本进行翻译,确定翻译结果;
上述步骤604至步骤608的具体实施方式,参见上述步骤304至308,本说明书在此不再赘述。
步骤610:将翻译结果返回至端侧设备。
可选地,将翻译结果返回至端侧设备的返回方式,可以是将翻译结果直接展示在端侧设备的前端,还可以是向端侧设备发送链接,该链接中包含有翻译结果。
应用本说明书实施例的方案,接收端侧设备发送的语音翻译请求,其中,语音翻译请求携带有待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果;将翻译结果返回至端侧设备。通过云侧设备通过对端侧设备发送的语音翻译请求中包含的语音片段进行文本转换、预测、翻译等处理,获得翻译结果,并将翻译结果返回至端侧设备,实现端侧设备与云侧设备的交互。
下述结合附图7,以本说明书提供的语音翻译方法在同声传译的应用为例,对所述语音翻译方法进行进一步说明。其中,图7示出了本说明书一个实施例提供的一种语音翻译方法的处理过程流程图,具体包括以下步骤。
步骤702:接收目标对象输入的声音片段。
其中,目标对象为当前讲话的人,声音片段为当前讲话的人所发出的声音,通常为讲话人最近所说的话对应的声音。
步骤704:将声音片段输入至预先训练的语音识别模型,获得上文文本。
其中,所述语音识别模型为预先基于样本语音数据及所述样本语音数据对应的样本文本训练得到的深度学习模型。
将声音片段输入至预先训练的语音识别模型,得到的文本为“AI在同声”,将该文本作为上文文本。
步骤706:将上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本。
其中,所述文本生成模型是基于样本上文文本及所述样本上文文本对应的样本下文文本预训练得到的深度学习模型。
将“AI在同声”输入至预训练的文本生成模型,获得指定文本长度为3的下文文本“传译中”,其中,指定文本长度3由文本生成模型所确定。
步骤708:合并上文文本与下文文本,生成待翻译目标文本。
将上文文本“AI在同声”与下文文本“传译中”进行合并,获得待翻译目标文本为“AI在同声传译中”。
步骤710:对待翻译目标文本进行翻译,确定翻译结果。
根据目标语种为英语和俄语,将待翻译目标文本“AI在同声传译中”进行翻译,获得对应的英语语音与俄语语音。
步骤712:向用户反馈翻译结果。
向与英语语种对应的用户播放英语语音,向与俄语语种对应的用户播放俄语语音。
应用本说明书实施例的方案,截取待翻译的语音片段;对语音片段进行文本转换,获得上文文本;基于上文文本,进行下文预测,生成待翻译目标文本;对待翻译目标文本进行翻译,确定翻译结果。通过对截取的语音片段进行文本转换得到的上文文本进行下文预测,生成待翻译目标文本,并对待翻译目标文本进行翻译,确定翻译结果,使得确定出来的翻译结果是根据对上文文本进行下文预测得到的待翻译目标文本,即无需对下文对应的语音片段进行截取,基于获取到的与上文文本对应的语音片段,就可以确定包含下文的待翻译目标文本对应的翻译结果,减少了获取下文语音片段的时间,实现了进行语音翻译的高时效性。
与上述图3所示方法实施例相对应,本说明书还提供了语音翻译装置实施例,图8示出了本说明书一个实施例提供的一种语音翻译装置的结构示意图。如图8所示,该装置包括:
第一截取模块802,被配置为截取待翻译的语音片段;
第一获得模块804,被配置为对语音片段进行文本转换,获得上文文本;
第一生成模块806,被配置为基于上文文本,进行下文预测,生成待翻译目标文本;
第一确定模块808,被配置为对待翻译目标文本进行翻译,确定翻译结果。
可选地,第一生成模块806,进一步被配置为对上文文本进行下文预测,生成上文文本对应的下文文本;合并上文文本与下文文本,生成待翻译目标文本。
可选地,第一生成模块806,进一步被配置为将上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本,其中,文本生成模型是基于样本上文文本及样本上文文本对应的样本下文文本预训练得到的深度学习模型。
可选地,在第一生成模块806之前,语音翻译装置还包括指定文本长度确定模块,被配置为获取测试集;基于测试集,对预训练的文本生成模型进行测试,确定文本生成模型的预测准确度;根据预测准确度,确定指定文本长度。
可选地,第一生成模块806,进一步被配置为将上文文本输入至预训练的文本生成模型,生成预测字符及预测字符的置信度;在置信度大于或等于预设阈值的情况下,继续预测下一个字符,直至预测字符的置信度小于预设阈值,获得上文文本对应的下文文本。
可选地,在第一确定模块808之后,语音翻译装置还包括微调模块,被配置为向用户反馈翻译结果;接收用户发送的针对翻译结果的修改信息;基于修改信息,对文本生成模型进行微调,获得更新的文本生成模型。
可选地,在第一生成模块806之前,语音翻译装置还包括更新模块,被配置为获取参考文本,其中,参考文本为上文文本的上文;合并参考文本和上文文本,获得更新的上文文本。
可选地,语音翻译装置还包括更新模块,被配置为接收语音片段的后续语音数据;对后续语音数据进行识别,确定后续语音数据对应的标准文本;对比标准文本与预测得到的下文文本;在标准文本与下文文本不一致的情况下,基于标准文本更新待翻译目标文本。
可选地,语音翻译装置还包括翻译模块,被配置为识别待翻译目标文本的语义信息;第一确定模块808,进一步被配置为在语义信息符合预设句型结构的情况下,对待翻译目标文本进行翻译,确定翻译结果。
上述为本实施例的一种语音翻译装置的示意性方案。需要说明的是,该语音翻译装置的技术方案与上述图3所示的语音翻译方法的技术方案属于同一构思,语音翻译装置的技术方案未详细描述的细节内容,均可以参见上述图3所示的语音翻译方法的技术方案的描述。
与上述图5所示方法实施例相对应,本说明书还提供了同声传译装置实施例,图9示出了本说明书一个实施例提供的一种同声传译装置的结构示意图。如图9所示,该装置包括:
声音片段接收模块902,被配置为接收目标对象输入的声音片段;
第二获得模块904,被配置为对声音片段进行文本转换,获得上文文本;
第二生成模块906,被配置为基于上文文本,进行下文预测,生成待翻译目标文本;
第二确定模块908,被配置为对待翻译目标文本进行翻译,确定同声传译结果。
上述为本实施例的一种同声传译装置的示意性方案。需要说明的是,该同声传译装置的技术方案与上述的同声传译方法的技术方案属于同一构思,同声传译装置的技术方案未详细描述的细节内容,均可以参见上述同声传译方法的技术方案的描述。
与上述图6所示方法实施例相对应,本说明书还提供了另一种语音翻译装置实施例,应用于云侧设备,图10示出了本说明书一个实施例提供的另一种语音翻译装置的结构示意图。如图10所示,该装置包括:
语音翻译请求接收模块1002,被配置为接收端侧设备发送的语音翻译请求,其中,语音翻译请求携带有待翻译的语音片段;
第三获得模块1004,被配置为对语音片段进行文本转换,获得上文文本;
第三生成模块1006,被配置为基于上文文本,进行下文预测,生成待翻译目标文本;
第三确定模块1008,被配置为对待翻译目标文本进行翻译,确定翻译结果;
返回模块1010,被配置为将翻译结果返回至端侧设备。
上述为本实施例的另一种语音翻译装置的示意性方案。需要说明的是,该语音翻译装置的技术方案与上述图6所示的语音翻译方法的技术方案属于同一构思,语音翻译装置的技术方案未详细描述的细节内容,均可以参见上述图6所示的语音翻译方法的技术方案的描述。
图11示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN,Pub l ic SwitchedTe lephone Network)、局域网(LAN,Loca l Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Persona l Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,Network Interface Card))中的一个或多个,诸如I EEE802.11无线局域网(WLAN,Wi re less Local Area Networks)无线接口、全球微波互联接入(Wi-MAX,Wor ld I nteroperabi l ityfor Microwave Access)接口、以太网接口、通用串行总线(USB,Un iversa l Ser ia lBus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Fie ld Commun icat ion)接口,等等。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Persona l Computer)的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图3所示的语音翻译方法或图5所示的同声传译方法或图6所示的语音翻译方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种语音翻译方法,包括:
截取待翻译的语音片段;
对所述语音片段进行文本转换,获得上文文本;
基于所述上文文本,进行下文预测,生成待翻译目标文本;
对所述待翻译目标文本进行翻译,确定翻译结果。
2.根据权利要求1所述的方法,所述基于所述上文文本,进行下文预测,生成待翻译目标文本,包括:
对所述上文文本进行下文预测,生成所述上文文本对应的下文文本;
合并所述上文文本与所述下文文本,生成待翻译目标文本。
3.根据权利要求2所述的方法,所述对所述上文文本进行下文预测,生成所述上文文本对应的下文文本,包括:
将所述上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本,其中,所述文本生成模型是基于样本上文文本及所述样本上文文本对应的样本下文文本预训练得到的深度学习模型。
4.根据权利要求3所述的方法,在所述将所述上文文本输入至预训练的文本生成模型,获得指定文本长度的下文文本之前,还包括:
获取测试集;
基于所述测试集,对预训练的文本生成模型进行测试,确定所述文本生成模型的预测准确度;
根据所述预测准确度,确定指定文本长度。
5.根据权利要求2所述的方法,所述对所述上文文本进行下文预测,生成所述上文文本对应的下文文本,包括:
将所述上文文本输入至预训练的文本生成模型,生成预测字符及所述预测字符的置信度;
在所述置信度大于或等于预设阈值的情况下,继续预测下一个字符,直至预测字符的置信度小于所述预设阈值,获得所述上文文本对应的下文文本。
6.根据权利要求3或5所述的方法,在所述对所述待翻译目标文本进行翻译,确定翻译结果之后,还包括:
向用户反馈所述翻译结果;
接收所述用户发送的针对所述翻译结果的修改信息;
基于所述修改信息,对所述文本生成模型进行微调,获得更新的文本生成模型。
7.根据权利要求1-5中任一项所述的方法,在所述基于所述上文文本,进行下文预测,生成待翻译目标文本之前,还包括:
获取参考文本,其中,所述参考文本为所述上文文本的上文;
合并所述参考文本和所述上文文本,获得更新的上文文本。
8.根据权利要求1-5中任一项所述的方法,在所述基于所述上文文本,进行下文预测,生成待翻译目标文本之后,还包括:
接收所述语音片段的后续语音数据;
对所述后续语音数据进行识别,确定所述后续语音数据对应的标准文本;
对比所述标准文本与预测得到的下文文本;
在所述标准文本与所述下文文本不一致的情况下,基于所述标准文本更新所述待翻译目标文本。
9.根据权利要求1-5中任一项所述的方法,在所述对所述待翻译目标文本进行翻译,确定翻译结果之前,还包括:
识别所述待翻译目标文本的语义信息;
所述对所述待翻译目标文本进行翻译,确定翻译结果,包括:
在所述语义信息符合预设句型结构的情况下,对所述待翻译目标文本进行翻译,确定翻译结果。
10.一种同声传译方法,包括:
接收目标对象输入的声音片段;
对所述声音片段进行文本转换,获得上文文本;
基于所述上文文本,进行下文预测,生成待翻译目标文本;
对所述待翻译目标文本进行翻译,确定同声传译结果。
11.一种语音翻译方法,应用于云侧设备,包括:
接收端侧设备发送的语音翻译请求,其中,所述语音翻译请求携带有待翻译的语音片段;
对所述语音片段进行文本转换,获得上文文本;
基于所述上文文本,进行下文预测,生成待翻译目标文本;
对所述待翻译目标文本进行翻译,确定翻译结果;
将所述翻译结果返回至所述端侧设备。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11中任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310213127.0A CN116415597A (zh) | 2023-03-06 | 2023-03-06 | 语音翻译、同声传译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310213127.0A CN116415597A (zh) | 2023-03-06 | 2023-03-06 | 语音翻译、同声传译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116415597A true CN116415597A (zh) | 2023-07-11 |
Family
ID=87050639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310213127.0A Pending CN116415597A (zh) | 2023-03-06 | 2023-03-06 | 语音翻译、同声传译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415597A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725187A (zh) * | 2024-02-08 | 2024-03-19 | 人和数智科技有限公司 | 一种适用于社会救助的问答系统 |
-
2023
- 2023-03-06 CN CN202310213127.0A patent/CN116415597A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725187A (zh) * | 2024-02-08 | 2024-03-19 | 人和数智科技有限公司 | 一种适用于社会救助的问答系统 |
CN117725187B (zh) * | 2024-02-08 | 2024-04-30 | 人和数智科技有限公司 | 一种适用于社会救助的问答系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027331B (zh) | 用于评估翻译质量的方法和装置 | |
Seo et al. | Wav2kws: Transfer learning from speech representations for keyword spotting | |
CN111967224A (zh) | 对话文本的处理方法、装置、电子设备及存储介质 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN117332072B (zh) | 对话处理、语音摘要提取以及目标对话模型训练方法 | |
CN116431316B (zh) | 任务处理方法、系统、平台及自动问答方法 | |
CN114328817A (zh) | 一种文本处理方法和装置 | |
CN116415597A (zh) | 语音翻译、同声传译方法 | |
Arora et al. | Speech to speech translation: a communication boon | |
CN111400454A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111354362A (zh) | 用于辅助听障者交流的方法和装置 | |
CN114064943A (zh) | 会议管理方法、装置、存储介质及电子设备 | |
López-Ludeña et al. | LSESpeak: A spoken language generator for Deaf people | |
CN117150338A (zh) | 任务处理、自动问答以及多媒体数据识别模型训练方法 | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
CN116189663A (zh) | 韵律预测模型的训练方法和装置、人机交互方法和装置 | |
CN113763925B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN112632241A (zh) | 智能会话的方法、装置、设备和计算机可读介质 | |
CN114328857A (zh) | 语句扩展方法、装置以及计算机可读存储介质 | |
CN113889105A (zh) | 一种语音翻译方法、装置和用于语音翻译的装置 | |
Sakti et al. | Distributed speech translation technologies for multiparty multilingual communication | |
Guo et al. | Sign-to-911: Emergency Call Service for Sign Language Users with Assistive AR Glasses | |
CN110851581B (zh) | 一种模型参数确定方法、装置、设备及存储介质 | |
CN118116384A (zh) | 一种语音识别的方法、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |