CN110211570B - 同声传译处理方法、装置及设备 - Google Patents
同声传译处理方法、装置及设备 Download PDFInfo
- Publication number
- CN110211570B CN110211570B CN201910420765.3A CN201910420765A CN110211570B CN 110211570 B CN110211570 B CN 110211570B CN 201910420765 A CN201910420765 A CN 201910420765A CN 110211570 B CN110211570 B CN 110211570B
- Authority
- CN
- China
- Prior art keywords
- translation
- result
- word segmentation
- voice recognition
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000013519 translation Methods 0.000 claims abstract description 209
- 230000011218 segmentation Effects 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000014616 translation Effects 0.000 claims 37
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种同声传译处理方法、装置及设备,其中,方法包括:获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果;依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数;接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P‑K+1个翻译结果,其中,P大于K且P为整数。由此,降低了同声传译的翻译延时,将延时控制在词级别。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种同声传译处理方法、装置及设备。
背景技术
目前,同声传译在各种会议、传媒活动、广播授课等领域被广泛使用。同声传译是对语音识别技术和机器翻译技术的一大挑战,评价同声传译的效果需要综合考量翻译的延时和准确率。
相关技术中的同声传译系统,通常基于对语音识别结果的断句和加标点结果调用翻译,导致翻译结果比语音识别要延时一到多个子句,延时较高。
发明内容
为此,本发明的第一个目的在于提出一种同声传译处理方法,通过对语音识别结果进行切词,并控制延时K个词翻译,解决了相关技术中同声传译翻译延时较高的问题,降低了同声传译的翻译延时,将延时控制在词级别。
本发明的第二个目的在于提出一种同声传译处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
本发明第一方面实施例提出了一种同声传译处理方法,包括:
获取第一语种的语音识别结果,并对所述语音识别结果进行切词处理,生成切词结果;
依次接收所述切词结果,当接收到的所述切词结果的个数等于预设值K时,将所述接收到的所述切词结果输入到预先训练的从所述第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数;
接收第P个切词结果,将所述第P个切词结果输入到所述翻译模型中进行处理,解码出第P-K+1个翻译结果,其中,P大于K且P为整数。
本发明实施例的同声传译处理方法,通过获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。进而,依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果。进一步,接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果。由此,通过在接收到K个词时开始翻译,之后每接收到一个词进行一次翻译,降低了同声传译的翻译延时,将延时控制在词级别,并且可以通过调整参数K来调节延时,更加灵活。
另外,根据本发明上述实施例的同声传译处理方法还可以具有如下附加技术特征:
可选地,在接收第P个切词结果之后,还包括:判断所述第P个切词结果是否为标点;若是,则根据所述翻译模型对所述切词结果进行处理,连续解码出翻译结果直至目标子句翻译结束。
可选地,在将所述接收到的所述切词结果输入到预先训练的从所述第一语种文本到第二语种文本的翻译模型中进行处理之前,还包括:获取第一语种的文本语料和对应的第二语种的文本语料作为训练集;根据所述训练集训练预设模型的处理参数,生成所述翻译模型。
可选地,在所述翻译模型的编码器端生成隐层向量表示时,根据当前输入词语与之前输入词语进行意图计算。
可选地,在连续解码出翻译结果直至目标子句翻译结束之后,还包括:获取当前待翻译子句的第一语音识别结果,确定与所述第一语音识别结果对应的所述目标子句的第二语音识别结果,以及与所述第二语音识别结果对应的目标翻译结果;将所述第一语音识别结果和所述第二语音识别结果合并,获取合并后的语音识别结果;根据所述合并后的语音识别结果和所述目标翻译结果,获取所述第一语音识别结果对应的翻译结果。
本发明第二方面实施例提出了一种同声传译处理装置,包括:
切词模块,用于获取第一语种的语音识别结果,并对所述语音识别结果进行切词处理,生成切词结果;
第一处理模块,用于依次接收所述切词结果,当接收到的所述切词结果的个数等于预设值K时,将所述接收到的所述切词结果输入到预先训练的从所述第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数;
第二处理模块,用于接收第P个切词结果,将所述第P个切词结果输入到所述翻译模型中进行处理,解码出第P-K+1个翻译结果,其中,P大于K且P为整数。
本发明实施例的同声传译处理装置,通过获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。进而,依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果。进一步,接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果。由此,通过在接收到K个词时开始翻译,之后每接收到一个词进行一次翻译,降低了同声传译的翻译延时,将延时控制在词级别,并且可以通过调整参数K来调节延时,更加灵活。
另外,根据本发明上述实施例的同声传译处理装置还可以具有如下附加技术特征:
可选地,所述的装置还包括:判断模块,用于判断所述第P个切词结果是否为标点;若是,则根据所述翻译模型对所述切词结果进行处理,连续解码出翻译结果直至目标子句翻译结束。
可选地,所述的装置还包括:训练模块,用于获取第一语种的文本语料和对应的第二语种的文本语料作为训练集;根据所述训练集训练预设模型的处理参数,生成所述翻译模型。
可选地,在所述翻译模型的编码器端生成隐层向量表示时,根据当前输入词语与之前输入词语进行意图计算。
可选地,所述的装置还包括:第三处理模块,用于获取当前待翻译子句的第一语音识别结果,确定与所述第一语音识别结果对应的所述目标子句的第二语音识别结果,以及与所述第二语音识别结果对应的目标翻译结果;将所述第一语音识别结果和所述第二语音识别结果合并,获取合并后的语音识别结果;根据所述合并后的语音识别结果和所述目标翻译结果,获取所述第一语音识别结果对应的翻译结果。
本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的同声传译处理方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的同声传译处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种同声传译处理方法的流程示意图;
图2为本发明实施例所提供的另一种同声传译处理方法的流程示意图;
图3为本发明实施例所提供的一种翻译原理示意图;
图4为本发明实施例所提供的一种同声传译处理装置的结构示意图;
图5为本发明实施例所提供的另一种同声传译处理装置的结构示意图;
图6示出了适于用来实现本发明实施例的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的同声传译处理方法、装置及设备。
图1为本发明实施例所提供的一种同声传译处理方法的流程示意图,如图1所示,该方法包括:
步骤101,获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。
本发明实施例中,在进行同声传译时,可以先获取语音识别的结果。例如,对第一语种的语音进行同声传译,以翻译成其他语种的文本时,可以先接收第一语种的语音信号,并对第一语种的语音信号进行语音识别,获取对应的第一语种的文本作为语音识别结果。其中,第一语种可以为任意语种,例如汉语、英语、俄语等。
本发明实施例中,可以实时接收第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。
作为一种示例,语音识别结果为“今年高考很难”,对该语音识别结果进行切词,得到切词结果为三个词“今年,高考,很难”。其中,对语音识别结果进行切词处理的方式可以根据需要进行选择,例如可以通过相关分词方法对语音识别结果进行切词处理,此处不作具体限制。
步骤102,依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数。
可以理解,相关技术中通常基于断句和加标点的结果来调用翻译,从而导致翻译比语音识别要延时一到多个子句,影响用户体验。
在本发明的一个实施例中,可以预先设置翻译的延时K,其中,K为正整数。进而,实时接收语音识别结果进行切词处理,生成切词结果后,依次接收切词结果,并将切词结果的个数与预设值K进行匹配,若接收到的切词结果的词的个数小于K个词时,此时不开始翻译,且继续等待接收更多的切词结果。当接收到的切词结果的词的个数等于K时开始进行翻译,将已接收的切词结果输入到预先训练的翻译模型中进行处理,输出一个翻译结果。
其中,翻译训练模型可以将第一语种的文本翻译至对应的第二语种的文本,第二语种可以为任意语种。
作为一种示例,K=2,当接收到第一个词X1时,不进行翻译;当继续接收到第二个词X2时,将切词结果X1、X2输入到预先训练的翻译模型中进行处理,解码出词Y1作为翻译结果。其中,预设值K的具体数值可以根据需要进行设置,可以通过调整参数K,控制延时K个词进行翻译,从而使翻译的延时变为K个词。
步骤103,接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果,其中,P大于K且P为整数。
本发明实施例中,当切词结果的个数等于K时开始进行翻译。进而,每接收到新的切词结果,通过翻译模型进行翻译获取一个翻译结果。当接收到第P个切词结果时,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果。例如,K=2,当接收到第三个切词结果X3时,将第三个切词结果输入到翻译模型中进行处理,解码出第二个翻译结果Y2。
在本发明的一个实施例中,在接收到第P个切词结果时,还可以判断第P个切词结果是否为标点。当第P个切词结果不为标点时,根据翻译模型对第P个切词结果进行处理,解码出相应的翻译结果。当第P个切词结果为标点时,确定当前已接收的语音识别结果为一个完整的子句,则根据翻译模型对已接收的切词结果进行处理,连续解码出翻译结果直至翻译结束,从而获取整句语音识别结果的翻译结果。
作为一种示例,K=2,在接收到第一个词时不进行翻译,当接收第二个词时开始翻译,解码出翻译结果中的第1个词,进而当接收第三个词时,解码出第2个词,依此类推。当接收第五个词后,判断得知第五个词是一个标点符号,确定当前语音识别结果已接收完整,此时根据已接收的切词结果连续进行解码,获取该子句的翻译结果,直到该子句的语音识别结果翻译结束。
本发明实施例的同声传译处理方法,通过获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。进而,依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果。进一步,接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果。由此,通过在接收到K个词时开始翻译,之后每接收到一个词进行一次翻译,降低了同声传译的翻译延时,将延时控制在词级别,并且可以通过调整参数K来调节延时,更加灵活。
基于上述实施例,进一步地,当第一语种和第二语种的语言结构不一致时,翻译结果就可能需要大幅的调序,而上述实施例中由于延时K个词进行翻译,在翻译时已知的语音识别结果有限,在每接收到识别结果就进行翻译,因此难以做到长距离调序,且可能会引入随机翻译的错误。因此,本发明实施例的方法,还可以通过调整翻译模型的训练方式实现翻译时的预测功能。下面结合翻译模型的训练进行说明。
图2为本发明实施例所提供的另一种同声传译处理方法的流程示意图,如图2所示,该方法包括:
步骤201,获取第一语种的文本语料和对应的第二语种的文本语料作为训练集。
步骤202,根据训练集训练预设模型的处理参数,生成翻译模型。
本发明实施例中,可以预先收集第一语种的文本语料,和对应翻译到第二语种的文本语料作为训练集,根据训练集训练预设模型的处理参数,生成翻译模型,使翻译模型的输入为第一语种的文本,输出为相应的第二语种的文本。作为一种可能的实现方式,预设模型可以为transfomer模型。
相关技术中,在生成encoder端隐层向量表示时,通常对于每个输入的词语和其它所有输入词语做attention计算。
在本发明的一个实施例中,在翻译模型的编码器(encoder)端生成隐层向量表示时,根据当前输入词语与之前输入词语进行意图(attention)计算。其中,生成隐层向量表示的公式如下所示,
其中,g(t)=t+k。
作为一种示例,一条人工标注的翻译训练数据如下,第一语种文本语料为“x1,x2…x10”,对应的第二文本语料为“y1,y2…y13”,其中,已知y4由x10对应翻译得到。根据上述数据进行训练,K=3,使得翻译模型在接收到x6时,解码出y4,而由于y4是根据x10翻译得到的,此时接收到的是x1-x6,因此y4是根据预测得到的。由此,通过上述方式训练翻译模型,可以赋予翻译模型预测的能力。
本发明实施例的同声传译处理方法,实现了对翻译结果的预测,能够在未接收到完整的语音识别句子或者在未接收到中心动词时,预测翻译出相应的中心词,减少随机翻译。
基于上述实施例,进一步地,在实际应用中会存在前后子句之间存在关联关系的情况,比如“XXX为国家科技进步做了巨大贡献,是一个伟大的人。”,后一个子句是没有主语的,如果单独翻译该子句翻译,翻译结果可能出现错误主语,从而影响翻译的准确性。因此,本发明实施例的方法,还可以在翻译时引入语境信息,从而保证翻译通顺,提高翻译准确性。
在本发明的一些实施例中,可以获取当前待翻译子句的第一语音识别结果,并确定与第一语音识别结果对应的目标子句的第二语音识别结果,以及与第二语音识别结果对应的目标翻译结果,其中,目标子句为当前待翻译子句的前一子句。进而,将第一语音识别结果和第二语音识别结果合并,获取合并后的语音识别结果,根据合并后的语音识别结果和目标翻译结果,获取第一语音识别结果对应的翻译结果。作为一种可能的实现方式,可以在对当前子句的第一语音识别结果进行翻译时,获取前一子句的第二语音识别结果和目标翻译结果。将第一语音识别结果和第二语音识别结果合并,并对合并后的语音识别结果进行编码操作,获取编码结果。对编码结果进行处理提取出目标翻译结果,进而进行解码操作,获取与第一语音识别结果对应的翻译结果。由此,通过引入前一子句和对应的翻译结果作为语境信息,结合语境信息进行翻译,使得当前子句的翻译结果更加准确通顺。
作为一种示例,在t-1时刻获取语音识别结果S1“我们的海淀公园,”,翻译结果对应为“our Haidian Park”。进而,在t时刻获取语音识别结果S2“从此变成了一个AI公园。”,单独对子句S2进行翻译,对应的翻译结果为“it became an AI park.”。本示例中可以引入语境信息进行翻译,即在t时刻将前一子句S1与当前子句S2合并为“我们的海淀公园,从此变成了一个AI公园。”,并引入新的变量“our Haidian Park”,使得最终解码出的S2对应的翻译结果为“has since become an AI park.”。
本发明实施例的同声传译处理方法,通过引入语境信息,能够减少错译和漏译,使翻译结果更加通顺。
下面结合原理示意图进行说明。
其中,参照图3,相关技术中通常在接收整个子句后开始翻译,即图中接收完词1-5时开始翻译,而本发明实施例中,可以设置延时K,当接收到K个词时开始翻译,之后每接收到一个词进行一次翻译,即图中K=2时,接收词1时不开始翻译,接收到词2时解码出翻译结果1,接收到词3时解码出翻译结果2。举例而言,翻译规则可以表示为:(R R…R)W(R W)…(RW)(R W)W W W W,其中,R代表等待切词结果,W代表翻译。开始的(R R…R)代表延时K,当接收的切词结果个数达到K个词时,翻译一次。进而,(R W)表示之后每接收一次切词结果进行一次翻译,解码出一个翻译结果。W W W W表示当切词结果判断为标点时,若翻译还没有结束,则根据切词结果连续翻译出翻译结果,直至该句翻译结束。例如对于中英翻译,中文语句与对应的英文语句会存在词语数量不同的情况,此时当切词结果为标点时可能该句并未翻译完成,因此可以根据切词结果连续翻译出翻译结果,直至该句翻译结束,从而获取整句语音识别结果的翻译结果。由此,降低了同声传译的翻译延时,将延时控制在词级别,并且可以通过调整参数K来调节延时,更加灵活。
为了实现上述实施例,本发明还提出一种同声传译处理装置。
图4为本发明实施例所提供的一种同声传译处理装置的结构示意图,如图4所示,该装置包括:切词模块100,第一处理模块200,第二处理模块300。
其中,切词模块100,用于获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。
第一处理模块200,用于依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数。
第二处理模块300,用于接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果,其中,P大于K且P为整数。
在图4的基础上,图5所示的装置还包括:判断模块400,训练模块500,第三处理模块600。
其中,判断模块400,用于判断第P个切词结果是否为标点;若是,则根据翻译模型对切词结果进行处理,连续解码出翻译结果直至目标子句翻译结束。
训练模块500,用于获取第一语种的文本语料和对应的第二语种的文本语料作为训练集;根据训练集训练预设模型的处理参数,生成翻译模型。
在本发明的一个实施例中,在翻译模型的编码器端生成隐层向量表示时,根据当前输入词语与之前输入词语进行意图计算。
第三处理模块600,用于获取当前待翻译子句的第一语音识别结果,确定与第一语音识别结果对应的目标子句的第二语音识别结果,以及与第二语音识别结果对应的目标翻译结果;将第一语音识别结果和第二语音识别结果合并,获取合并后的语音识别结果;根据合并后的语音识别结果和目标翻译结果,获取第一语音识别结果对应的翻译结果。
需要说明的是,前述实施例对同声传译处理方法的解释说明同样适用于本实施例的装置,此处不再赘述。
本发明实施例的同声传译处理装置,通过获取第一语种的语音识别结果,并对语音识别结果进行切词处理,生成切词结果。进而,依次接收切词结果,当接收到的切词结果的个数等于预设值K时,将接收到的切词结果输入到预先训练的从第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果。进一步,接收第P个切词结果,将第P个切词结果输入到翻译模型中进行处理,解码出第P-K+1个翻译结果。由此,通过在接收到K个词时开始翻译,之后每接收到一个词进行一次翻译,降低了同声传译的翻译延时,将延时控制在词级别,并且可以通过调整参数K来调节延时,更加灵活。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的同声传译处理方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的同声传译处理方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的同声传译处理方法。
图6示出了适于用来实现本发明实施例的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种同声传译处理方法,其特征在于,包括:
获取第一语种的语音识别结果,并对所述语音识别结果进行切词处理,生成切词结果;
依次接收所述切词结果,当接收到的所述切词结果的个数等于预设值K时,将所述接收到的所述切词结果输入到预先训练的从所述第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数,K为预先设置的翻译的延时个数,其中,当接收到的切词结果的个数小于所述K时,不进行翻译,当接收到的切词结果的个数等于所述K时,开始进行翻译,以得到第一个翻译结果;
接收第P个切词结果,将所述第P个切词结果输入到所述翻译模型中进行处理,解码出第P-K+1个翻译结果,其中,P大于K且P为整数,所述P用于指示切词结果排序号中大于K的排序号;
以及,在接收第P个切词结果之后,还包括:
判断所述第P个切词结果是否为标点;
若是,则根据所述翻译模型对所述切词结果进行处理,连续解码出翻译结果直至目标子句翻译结束;
所述方法还包括:
对解码得出的翻译结果依次进行合并以形成同声传译的处理结果。
2.如权利要求1所述的方法,其特征在于,在将所述接收到的所述切词结果输入到预先训练的从所述第一语种文本到第二语种文本的翻译模型中进行处理之前,还包括:
获取第一语种的文本语料和对应的第二语种的文本语料作为训练集;
根据所述训练集训练预设模型的处理参数,生成所述翻译模型。
3.如权利要求2所述的方法,其特征在于,在所述翻译模型的编码器端生成隐层向量表示时,根据当前输入词语与之前输入词语进行意图计算。
4.如权利要求1所述的方法,其特征在于,在连续解码出翻译结果直至目标子句翻译结束之后,还包括:
获取当前待翻译子句的第一语音识别结果,确定与所述第一语音识别结果对应的所述目标子句的第二语音识别结果,以及与所述第二语音识别结果对应的目标翻译结果;其中,所述目标子句为当前待翻译子句的前一子句;
将所述第一语音识别结果和所述第二语音识别结果合并,获取合并后的语音识别结果;
根据所述合并后的语音识别结果和所述目标翻译结果,获取所述第一语音识别结果对应的翻译结果。
5.一种同声传译处理装置,其特征在于,包括:
切词模块,用于获取第一语种的语音识别结果,并对所述语音识别结果进行切词处理,生成切词结果;
第一处理模块,用于依次接收所述切词结果,当接收到的所述切词结果的个数等于预设值K时,将所述接收到的所述切词结果输入到预先训练的从所述第一语种文本到第二语种文本的翻译模型中进行处理,解码出第一个翻译结果,其中,K为正整数,K为预先设置的翻译的延时个数,其中,当接收到的切词结果的个数小于所述K时,不进行翻译,当接收到的切词结果的个数等于所述K时,开始进行翻译,以得到第一个翻译结果;
第二处理模块,用于接收第P个切词结果,将所述第P个切词结果输入到所述翻译模型中进行处理,解码出第P-K+1个翻译结果,其中,P大于K且P为整数,所述P用于指示切词结果排序号中大于K的排序号;
其中,所述装置,还包括:
判断模块,用于判断所述第P个切词结果是否为标点;
若是,则根据所述翻译模型对所述切词结果进行处理,连续解码出翻译结果直至目标子句翻译结束;
以及,所述装置还用于:
对解码得出的翻译结果依次进行合并以形成同声传译的处理结果。
6.如权利要求5所述的装置,其特征在于,还包括:
训练模块,用于获取第一语种的文本语料和对应的第二语种的文本语料作为训练集;
根据所述训练集训练预设模型的处理参数,生成所述翻译模型。
7.如权利要求6所述的装置,其特征在于,在所述翻译模型的编码器端生成隐层向量表示时,根据当前输入词语与之前输入词语进行意图计算。
8.如权利要求5所述的装置,其特征在于,还包括:
第三处理模块,用于获取当前待翻译子句的第一语音识别结果,确定与所述第一语音识别结果对应的所述目标子句的第二语音识别结果,以及与所述第二语音识别结果对应的目标翻译结果;其中,所述目标子句为当前待翻译子句的前一子句;
将所述第一语音识别结果和所述第二语音识别结果合并,获取合并后的语音识别结果;
根据所述合并后的语音识别结果和所述目标翻译结果,获取所述第一语音识别结果对应的翻译结果。
9.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一项所述的同声传译处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的同声传译处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420765.3A CN110211570B (zh) | 2019-05-20 | 2019-05-20 | 同声传译处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420765.3A CN110211570B (zh) | 2019-05-20 | 2019-05-20 | 同声传译处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110211570A CN110211570A (zh) | 2019-09-06 |
CN110211570B true CN110211570B (zh) | 2021-06-25 |
Family
ID=67787725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910420765.3A Active CN110211570B (zh) | 2019-05-20 | 2019-05-20 | 同声传译处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110211570B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765998A (zh) * | 2019-11-01 | 2021-05-07 | 华为技术有限公司 | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 |
CN111062221A (zh) * | 2019-12-13 | 2020-04-24 | 北京欧珀通信有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN111079450B (zh) | 2019-12-20 | 2021-01-22 | 北京百度网讯科技有限公司 | 基于顺句驱动的语言转换方法和装置 |
CN111523330A (zh) * | 2020-04-13 | 2020-08-11 | 北京字节跳动网络技术有限公司 | 用于生成文本的方法、装置、电子设备和介质 |
CN112233649B (zh) * | 2020-10-15 | 2024-04-30 | 安徽听见科技有限公司 | 机器同声传译输出音频动态合成方法、装置以及设备 |
CN113486681A (zh) * | 2021-08-02 | 2021-10-08 | 科大讯飞股份有限公司 | 一种同传翻译方法、装置、设备及存储介质 |
CN116070646A (zh) * | 2021-11-03 | 2023-05-05 | 华为终端有限公司 | 语言翻译方法及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006317998A (ja) * | 2005-05-10 | 2006-11-24 | Advanced Telecommunication Research Institute International | 情報処理装置、およびプログラム |
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN102662933A (zh) * | 2012-03-28 | 2012-09-12 | 成都优译信息技术有限公司 | 分布式智能翻译方法 |
CN104679735A (zh) * | 2013-11-30 | 2015-06-03 | 赵会军 | 语用机器翻译方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
CN107291704A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN107767717A (zh) * | 2017-05-17 | 2018-03-06 | 青岛陶知电子科技有限公司 | 一种应用于外语教学的智能互动教学系统 |
CN108228576A (zh) * | 2017-12-29 | 2018-06-29 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
-
2019
- 2019-05-20 CN CN201910420765.3A patent/CN110211570B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
JP2006317998A (ja) * | 2005-05-10 | 2006-11-24 | Advanced Telecommunication Research Institute International | 情報処理装置、およびプログラム |
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN102662933A (zh) * | 2012-03-28 | 2012-09-12 | 成都优译信息技术有限公司 | 分布式智能翻译方法 |
CN104679735A (zh) * | 2013-11-30 | 2015-06-03 | 赵会军 | 语用机器翻译方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107767717A (zh) * | 2017-05-17 | 2018-03-06 | 青岛陶知电子科技有限公司 | 一种应用于外语教学的智能互动教学系统 |
CN107291704A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN108228576A (zh) * | 2017-12-29 | 2018-06-29 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
Non-Patent Citations (1)
Title |
---|
《Improving Neural Machine Translation with Neural Sentence Rewriting》;He Zhongjun et al.;《International Conference on Asian Language Processing(IALP)》;20181115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110211570A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211570B (zh) | 同声传译处理方法、装置及设备 | |
US20210390271A1 (en) | Neural machine translation systems | |
CN108170749B (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
US11373049B2 (en) | Cross-lingual classification using multilingual neural machine translation | |
KR102449842B1 (ko) | 언어 모델 학습 방법 및 이를 사용하는 장치 | |
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
JP2022028887A (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
GB2557014A (en) | Answer to question neural networks | |
KR20190073525A (ko) | 기계 학습 작업의 암시적 브리징 | |
CN110175336B (zh) | 翻译方法、装置和电子设备 | |
US20140316764A1 (en) | Clarifying natural language input using targeted questions | |
CN111859994A (zh) | 机器翻译模型获取及文本翻译方法、装置及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN109635197B (zh) | 搜索方法、装置、电子设备及存储介质 | |
EP3732629A1 (en) | Training sequence generation neural networks using quality scores | |
CN112287698B (zh) | 篇章翻译方法、装置、电子设备和存储介质 | |
CN112365875B (zh) | 语音合成方法、装置、声码器和电子设备 | |
JP2023007372A (ja) | 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体 | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113947091A (zh) | 用于语言翻译的方法、设备、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |