CN110969026A - 译文输出方法、装置、电子设备及存储介质 - Google Patents

译文输出方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110969026A
CN110969026A CN201911185192.7A CN201911185192A CN110969026A CN 110969026 A CN110969026 A CN 110969026A CN 201911185192 A CN201911185192 A CN 201911185192A CN 110969026 A CN110969026 A CN 110969026A
Authority
CN
China
Prior art keywords
text
clause
type
character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911185192.7A
Other languages
English (en)
Inventor
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Opper Communication Co Ltd
Original Assignee
Beijing Opper Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Opper Communication Co Ltd filed Critical Beijing Opper Communication Co Ltd
Priority to CN201911185192.7A priority Critical patent/CN110969026A/zh
Publication of CN110969026A publication Critical patent/CN110969026A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种译文输出方法、装置、电子设备及存储介质。其中,方法包括:确定第一文本;所述第一文本基于发言者的发言内容得到;在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同;对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句;基于所述第三文本输出所述发言内容的译文。

Description

译文输出方法、装置、电子设备及存储介质
技术领域
本发明涉及翻译技术领域,尤其涉及一种译文输出方法、装置、电子设备及存储介质。
背景技术
同声传译技术结合了自动语音识别技术(ASR,Automatic Speech Recognition)技术和机器翻译(MT,Machine Translation)技术,将发言者的发言内容转化成对应的译文输出,在跨语种的会议场合实现了与会人员之间的无障碍沟通。
相关技术中,同声传译时会将发言者的口语化表达一并输出在译文中,降低了译文的可读性,导致信息传递效率受影响。
发明内容
有鉴于此,本发明实施例提供一种译文输出方法、装置、电子设备及存储介质,以至少解决相关技术中译文的可读性低,影响信息传递效率的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种译文输出方法,所述方法包括:
确定第一文本;所述第一文本基于发言者的发言内容得到;
在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同;
对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句;
基于所述第三文本输出所述发言内容的译文。
其中,上述方案中,对所述第二文本中的至少一组分句进行连接处理时,包括:
检测第一字符和第二字符的字符类型,得到检测结果;所述第一字符为所述第一分句的尾字符;所述第二字符为所述第二分句的头字符;
根据所述检测结果,对所述第一分句和所述第二分句进行连接处理。
上述方案中,所述根据所述检测结果,对所述第一分句和所述第二分句进行连接处理,包括:
当所述检测结果为所述第一字符和所述第二字符均为标点,删除所述第一字符和所述第二字符,并将删除了所述第一字符的所述第一分句与删除了所述第二字符的所述第二分句连接;
当所述检测结果为所述第一字符和所述第二字符均不为标点,确定所述第一分句和所述第二分句之间的第一信息,并基于所述第一信息将所述第一分句和所述第二分句进行连接;其中,
所述第一信息表征所述第一分句和所述第二分句之间需要添加的标点类型;所述标点类型包括空字符或任意一类标点。
上述方案中,所述确定所述第一分句和所述第二分句之间的第一信息,包括:
通过第一分类模型确定所述第一分句和所述第二分句之间的第一信息;其中,
所述第一分类模型用于确定两个分句之间的标点类型。
上述方案中,所述在所述第一文本中删除至少一个第一类型的词语,包括:
通过第二分类模型对所述第一文本中的每个词语进行分类,确定每个词语的词语类型;
将确定出的词语类型为所述第一类型的词语进行标记;
在所述第一文本中删除标记出的所述第一类型的词语;其中,
所述第二分类模型用于对文本中的词语进行分类。
上述方案中,所述确定第一文本,包括:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到所述第一文本;
所述基于所述第三文本输出所述发言内容的译文,包括:
对所述第三文本进行翻译,将翻译后的所述第三文本作为所述发言内容的译文输出。
上述方案中,所述确定第一文本,包括:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到第四文本;
对所述第四文本进行翻译,得到所述第一文本;
所述基于所述第三文本输出所述发言内容的译文,包括:
将所述第三文本作为所述发言内容的译文输出。
本发明实施例还提供了一种译文输出装置,包括:
确定单元,用于确定第一文本;所述第一文本基于发言者的发言内容得到;
删除单元,用于在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同;
连接单元,用于对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句;
输出单元,用于基于所述第三文本输出所述发言内容的译文。
本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
在本发明实施例中,在基于发言者的发言内容得到的第一文本中删除至少一个第一类型的词语,得到与第一文本语义相同的第二文本,并将第一类型的词语对应的每组分句进行连接处理,得到第三文本,基于第三文本输出发言内容的译文,能够在同声传译时滤除口语化的冗余表达,提高了译文的可读性,提高了信息传递效率。
附图说明
图1为相关技术中译文输出方法应用的系统架构示意图;
图2为本发明一实施例提供的译文输出方法的实现流程示意图;
图3为本发明又一实施例提供的译文输出方法的实现流程示意图;
图4为本发明实施例提供的对第一类型的词语进行标记的实现流程示意图;
图5为本发明又一实施例提供的译文输出方法的实现流程示意图;
图6为本发明又一实施例提供的译文输出方法的实现流程示意图;
图7为本发明应用实施例提供的译文输出的流程示意图;
图8为本发明实施例提供的译文输出装置的结构示意图;
图9为本发明实施例电子设备的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
另外,在本发明实例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在对本申请实施例的技术方案进行详细说明之前,首先对相关技术中的译文输出方法应用的系统进行简单说明。
图1为相关技术中摘要生成方法应用的系统架构示意图。如图1所示,所述系统可包括:机器同传服务端、语音识别服务器、翻译服务器、移动端下发服务器、观众移动端、电脑(PC,Personal Computer)客户端、显示屏幕。
实际应用中,发言者可以通过PC客户端进行会议发言,并将展示的文档,如演示文稿软件(PPT,PowerPoint)的文档,投屏到所述显示屏幕,通过显示屏幕展示给用户。在进行会议发言的过程中,PC客户端采集发言者的音频,将采集的音频发送给机器同传服务端,所述机器同传服务端通过语音识别服务器对音频数据进行识别,得到识别文本,再通过翻译服务器对所述识别文本进行翻译,得到翻译结果;机器同传服务端将翻译结果发送给PC客户端,并且通过移动端下发服务器将翻译结果发送给观众移动端,为用户展示翻译结果,从而实现将发言者的发言内容翻译成用户需要的语种并进行展示。
相关技术的方案中,翻译服务器对识别文本进行翻译,以跨语种的演讲场合或跨语种的会议场合为例,每个发言者在发言的过程会带有一些口语化的表达,例如在发言过程中夹杂语气词或个人习惯用语等,翻译服务器对发言内容进行机器翻译时,也会将这些口语化的表达进行翻译,那么在此情况下,生成的译文也就包含了口语化的表达,从而导致译文的可读性低,影响信息传递的效率。
基于此,在本申请的各种实施例中,在基于发言者的发言内容得到的文本中删除口语化表达的部分,使得最终输出的译文可读性和连贯性增强,以此来提高信息传递效率。
下面结合附图及具体实施例对本申请作进一步详细的说明。
本申请实施例提供了一种译文输出方法,图2为本申请实施例的译文输出方法的一种流程示意图。如图2所示,所述方法包括:
S201:确定第一文本;所述第一文本基于发言者的发言内容得到。
这里,在同声传译的环境下,发言者的发言内容可以在发言者进行发言时,通过语音采集模块,如麦克风,对发言者的声音进行采集,通过对采集到的语音进行相应的处理,得到关于发言者的发言内容的第一文本。其中,第一文本可以为与发言者的发言语种相同的原文,也可以为经过翻译后的译文。
S202:在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同。
这里,第一类型的词语可以为语气词,例如“随着经济全球化的发展,嗯、嗯,各国的企业之间,额,交流将会越来越频繁”这个句子中的“嗯”和“额”即为第一类型的词语。第一类型的词语也可以包括对句子造成隔断的词语,例如“我今天,这个,吃了火锅”这个句子中的“这个”。第二文本为将第一文本中含有第一类型的词语进行删除后的文本。在发言者进行发言时,口述过程中多少会夹杂着第一类型的词语,使得基于发言者的发言内容得到的第一文本中也包含第一类型的词语,而第一类型的词语的存在会使得文本不流畅,容易造成语义隔断,因此,将第一类型的词语进行删除,能够使得文本表达流畅,句意连贯。这里删除第一类型的词语的第二文本和第一文本的语义相同,即删除了第一类型的词语并不会改变原来句子的表达意思,例如,在第一文本“随着经济全球化的发展,嗯、嗯,各国的企业之间,额,交流将会越来越频繁”中的第一类型的词语删除,得到的第二文本“随着经济全球化的发展,、,各国的企业之间,,交流将会越来越频繁”的语义并未发生变化。
在一个实施例中,如图3所示,所述在所述第一文本中删除至少一个第一类型的词语,包括:
S301:通过第二分类模型对所述第一文本中的每个词语进行分类,确定每个词语的词语类型。
这里,第二分类模型用于对文本中的词语进行分类,将得到的第一文本输入至第二分类模型,第二分类模型能够确定第一文本中每个词语的词语类型。其中,第二分类模型可以基于设定的神经网络模型进行构建,并通过大量的含有第一类型词语的句子作为训练样本,训练第二分类模型。在实际应用中,训练样本可以通过以下方式创建:首先,搜集大量的第一类型的词语,将收集的结果构成一个词表;之后,搜集大量表达连贯的句子,将词表中的一个或多个第一类型的词语随机插入到这些句子中,从而构建出大量用于训练第二分类模型的训练样本。训练完成的第二分类模型能够确定句子中每个词语的词语类型,在实际应用中,第二分类模型可以基于序列标注的方法完成词语的分类,例如结合了长短记忆单元(LSTM,Long Short Term Memory)与条件随机场(CRF,Conditional Random Field)的序列标注方法。
图4为第二分类模型结合LSTM+CRF的序列标注方法对词语进行分类的示意图,将需要处理的文本“我今天额这个吃了火锅”输入到第二分类模型中,第二分类模型输出的分类结果包括O、S、E、B、I。其中,类别O表示第一类型的词语之外类型的词语;类别S表示第一类型的词语;类别E表示第一类型的词语的结尾;类别B表示第一类型的词语的开始;类别I表示第一类型的词语的中间,因此,参照图4,“我今天额这个吃了火锅”这个文本对应的分类结果为:“额”对应的分类结果是B,“我”、“今天”、“吃了”、“火锅”这四个词语对应的分类结果为O,“这个”对应的分类结果是E。
S302:将确定出的词语类型为所述第一类型的词语进行标记。
通过第二分类模型,确定第一文本中的每个词语的词语类型后,对属于第一类型的词语进行标记,例如,在图4例子中,对分类结果为S、E和B的词语进行标记。
S303:在所述第一文本中删除标记出的所述第一类型的词语。
这里,将第一文本中标记为第一类型的词语进行删除,得到第二文本。
作为本发明的一个实施例,通过第二分类模型对第一文本中的词语进行类型识别并标记,根据标记结果删除第一类型的词语,从而能够准确且快速地识别出发第一文本中的第一类型的词语。
S203:对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句。
这里,在删除了第一类型的词语之后,还需要对第一类型的词语前后的分句进行连接处理,才能得到句意连贯的句子。第一文本中可能存有多个第一类型的词语,每个第一类型的词语至少对应一个分句。当第一类型的词语位于第一文本的起始位置时,该第一类型的词语对应位于该词语之后的一个分句;当第一类型的词语位于第一文本的结尾时,该第一类型的词语对应位于该词语之前的一个分句。针对上述第一类型的词语,不存在对位于该词语前后的分句进行连接处理的情况。例如,第一文本“这个产品的效果很好啊,嗯”,“嗯”为第一类型的词语,所对应的分句只有“这个产品的效果很好啊”,删除“嗯”之后,不需要进行分句的连接处理。当第一类型的词语位于第一文本中部时,每个第一类型的词语都对应一组分句,包括位于第一类型的词语前的一个分句(第一分句),和位于第一类型词语后的一个分句(第二分句),第一分句和第二分句组成一组分句。例如,第一文本“各国的企业之间,额,交流将会越来越频繁”,“额”为第一类型的词语,“额”所对应的一组分句中,第一分句为“各国的企业之间”,第二分句为“交流将会越来越频繁”。
需要说明的是,在第一文本中,构成一组分句的分句可以是重复的。例如,第一文本“随着经济全球化的发展,嗯,各国的企业之间,额,交流将会越来越频繁”,对于第一类型的词语“嗯”,对应的一组分句包括第一分句“随着经济全球化的发展”和第二分句“各国的企业之间”,对于第一类型的词语“额”,对应的一组分句包括第一分句“各国的企业之间”和第二分句“交流将会越来越频繁”,以上两组分句中,都出现了“各国的企业之间”这一个分句。
这里,在第一类型的词语被删除后,对该第一类型的词语所对应的第一分句和第二分句进行连接处理,这样,对至少一个第一类型的词语所对应的每组分句都进行连接处理后,生成第三文本。第三文本中不包含第一类型的词语,且相比于第一文本和第二文本,语法通顺,句意连贯,可读性大大增强。
在一个实施例中,如图5所示,所述对所述第二文本中的至少一组分句进行连接处理时,包括:
S501:检测第一字符和第二字符的字符类型,得到检测结果;所述第一字符为所述第一分句的尾字符;所述第二字符为所述第二分句的头字符。
这里,在对第一分句和第二分句进行连接前,为了保证句意的通顺以及符合语法规范,需要确定第一分句的尾字符和第二分句的头字符的字符类型。其中,字符类型包括字母、中文、数字、标点符号、非中文宽字符等。
S502:根据所述检测结果,对所述第一分句和所述第二分句进行连接处理。
这里,字符类型不同,对第一分句和第二分句进行不同的连接处理。具体地,在确定第一字符和第二字符的字符类型后,根据检测结果,将第一分句和第二分句进行连接,得到句意通顺的句子。
通过对一组分句中的第一分句的尾字符和第二分句的头字符进行检测,根据检测结果对两个分句进行连接,能够使连接后的句子的语义更连贯,提高了可读性。
在一个实施例中,如图6所示,所述根据所述检测结果,对所述第一分句和所述第二分句进行连接处理,包括:
S5021:当所述检测结果为所述第一字符和所述第二字符均为标点,删除所述第一字符和所述第二字符,并将删除了所述第一字符的所述第一分句与删除了所述第二字符的所述第二分句连接。
这里,当检测到第一分句的尾字符和第二分句的头字符都是标点的时候,在对第一分句和第二分句进行连接前,需要把两个标点进行删除,从而能够保证连接后的句子的句意连贯。例如,第一文本为“随着经济全球化的发展,嗯,各国的企业之间”,对其中第一类型的词语进行删除后得到的第二文本为“各国的企业之间,,交流将会越来越频繁”,在对第一分句和第二分句进行拼接前,对第一分句的尾字符和第二分句的头字符进行检测,检测结果为两者的字符类型均为标点,那么将尾字符和头字符进行删除后,对第一分句和第二分句进行连接,连接得到的第三文本为“各国的企业之间交流将会越来越频繁”。
S602:当所述检测结果为所述第一字符和所述第二字符均不为标点,确定所述第一分句和所述第二分句之间的第一信息,并基于所述第一信息将所述第一分句和所述第二分句进行连接;其中,所述第一信息表征所述第一分句和所述第二分句之间需要添加的标点类型;所述标点类型包括空字符或任意一类标点。
由于可能会出现第一类型的词语的前后不存在标点的情况,这时,需要考虑是否在第一分句和第二分句之间加入合适的标点,以保证文本的可读性。这里,第一信息表征第一分句和第二分句之间需要添加的标点类型,当标点类型为空字符时,表明第一分句与第二分句之间不需要添加标点,可以直接连接。
在一个实施例中,所述确定所述第一分句和所述第二分句之间的第一信息,包括:
通过第一分类模型确定所述第一分句和所述第二分句之间的第一信息;其中,所述第一分类模型用于确定两个分句之间的标点类型。
这里,将两个分句输入至第一分类模型,由第一分类模型输出两个分句之间需要添加的标点类型。其中,第一分类模型可以基于设定的神经网络模型进行构建,并通过大量的含有标点的流利表达的句子作为训练样本,训练第一分类模型。训练完成的第一分类模型能够确定每两个分句之间的标点类型,在实际应用中,第一分类模型可以基于序列标注的方法完成对两个分句之间标点类型的分类。
这里,通过第一分类模型确定两个分句需要添加的标点类型,能够更快速且准确地判断出两个分句之间需要添加的标点类型,从而使两个分句连接后的句意清晰,提高可读性。
S204:基于所述第三文本输出所述发言内容的译文。
这里,基于第三文本输出发言内容的译文,输出的译文更为流畅,可读性增强。此外,在同声传译场景下,还可以基于译文,通过计算机将文本转换成语音进行播放,这样得到的语音在表达上也更加流畅,便于听者理解发言内容。
在一个实施例中,上述对文本进行第一类型词语删除及分句连接的操作可以针对发言者的发言内容的原文来进行,其中,所述确定第一文本,包括:
对发言者的发言进行语音采集,得到第一语音。
对所述第一语音进行语音识别,得到所述第一文本。
所述基于所述第三文本输出所述发言内容的译文,包括:
对所述第三文本进行翻译,将翻译后的所述第三文本作为所述发言内容的译文输出。
这里,在获取到关于发言内容的原文后,先对原文进行第一类型词语的删除及分句的连接处理,得到可读性强的文本后再进行翻译,从而输出关于发言内容的译文。
在一个实施例中,上述对文本进行第一类型词语删除及分句连接的操作可以针对发言者的发言内容的译文来进行,其中,所述确定第一文本,包括:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到第四文本;
对所述第四文本进行翻译,得到所述第一文本;
所述基于所述第三文本输出所述发言内容的译文,包括:
将所述第三文本作为所述发言内容的译文输出。
这里,当发言者在进行发言的时候,采集发言者的音频信息,对采集的语音数据进行识别,将音频数据转换为文本数据,得到第四文本,再将第四文本翻译成对应的目标语种的译文,得到第一文本,即第四文本为关于发言内容的原文,第一文本为关于发言内容译文。
这里,在得到关于发言内容的译文后,再对译文进行第一类型词语的删除及分句的连接处理,得到可读性强的文本后,直接作为关于发言内容的译文输出。
在实际应用时,可以通过机器翻译技术进行文本的翻译。具体地,可由服务器采用基于规则(Rule-Based)的机器翻译技术或者采用基于语料库(Corpus-Based)的机器翻译技术进行翻译。
在本发明实施例中,在基于发言者的发言内容得到的第一文本中删除至少一个第一类型的词语,得到与第一文本语义相同的第二文本,并将第一类型的词语对应的每组分句进行连接处理,得到第三文本,基于第三文本输出发言内容的译文,能够在同声传译时滤除口语化的冗余表达,提高了译文的可读性,提高了信息传递效率。
图7示出了本发明应用实施例提供的译文输出的流程示意图,参照图7,具体实施流程如下:
S701:输入第一文本:利用麦克风等声音采集装置,获取发言者的发言内容的语音,并通过语音识别技术,将语音转换为文本,其中,可以将直接转换的文本作为第一文本进行处理,也可以将转换后得到的文本进行翻译后的文本作为第一文本,再对第一文本进行处理。
S702:标记第一类型的词语:对第一文本中第一类型的词语进行标记。
S703:遍历第一文本,基于标记结果判断第一文本是否含有第一类型的词语。若第一文本中不含有第一类型的词语,那么转至S708,若第一文本中含有第一类型的词语,转至S704。
S704:删除第一类型的词语,得到第二文本。
S705:对第二文本中各个第一类型的词语所对应的一组分句中第一分句的尾字符和第二分句的首字符进行类型判断,若尾字符和首字符均不为标点,则执行S706,若尾字符和首字符均为标点,则执行S707。
S706:删除尾字符和首字符。
S707:确定第一分句和第二分句之间的标点类型,对第一分句和第二分句进行连接处理。
S708:基于上述处理结果输出译文。
为实现本发明实施例的译文输出方法,本发明实施例还提供一种译文输出装置,如图8所示,该译文输出装置包括:
确定单元81,用于确定第一文本;所述第一文本基于发言者的发言内容得到;
删除单元82,用于在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同;
连接单元83,用于对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句;
输出单元84,用于基于所述第三文本输出所述发言内容的译文。
在一实施例中,所述连接单元83在对所述第二文本中的至少一组分句进行连接处理时,用于:
检测第一字符和第二字符的字符类型,得到检测结果;所述第一字符为所述第一分句的尾字符;所述第二字符为所述第二分句的头字符;
根据所述检测结果,对所述第一分句和所述第二分句进行连接处理。
在一实施例中,所述连接单元83根据所述检测结果,对所述第一分句和所述第二分句进行连接处理,包括:
当所述检测结果为所述第一字符和所述第二字符均为标点,删除所述第一字符和所述第二字符,并将删除了所述第一字符的所述第一分句与删除了所述第二字符的所述第二分句连接;
当所述检测结果为所述第一字符和所述第二字符均不为标点,确定所述第一分句和所述第二分句之间的第一信息,并基于所述第一信息将所述第一分句和所述第二分句进行连接;其中,
所述第一信息表征所述第一分句和所述第二分句之间需要添加的标点类型;所述标点类型包括空字符或任意一类标点。
在一实施例中,所述连接单元83确定所述第一分句和所述第二分句之间的第一信息,包括:
通过第一分类模型确定所述第一分句和所述第二分句之间的第一信息;其中,
所述第一分类模型用于确定两个分句之间的标点类型。
在一实施例中,所述删除单元82用于:
通过第二分类模型对所述第一文本中的每个词语进行分类,确定每个词语的词语类型;
将确定出的词语类型为所述第一类型的词语进行标记;
在所述第一文本中删除标记出的所述第一类型的词语;其中,
所述第二分类模型用于对文本中的词语进行分类。
在一实施例中,所述确定单元81用于:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到所述第一文本;
所述输出单元84用于:
对所述第三文本进行翻译,将翻译后的所述第三文本作为所述发言内容的译文输出。
在一实施例中,所述确定单元81用于:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到第四文本;
对所述第四文本进行翻译,得到所述第一文本;
所述输出单元84用于:
将所述第三文本作为所述发言内容的译文输出。
实际应用时,确定单元81、删除单元82、连接单元83可由译文输出装置中的处理器来实现,输出单元84可通过译文输出装置中的通信接口来实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是,上述图8实施例提供的译文输出装置在进行译文输出时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的译文输出装置与译文输出方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备,该电子设备可以为如图1中所示的翻译服务器。图9为本发明实施例电子设备的硬件组成结构示意图,如图9所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的译文输出方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统4。
本发明实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本发明实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种译文输出方法,其特征在于,包括:
确定第一文本;所述第一文本基于发言者的发言内容得到;
在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同;
对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句;
基于所述第三文本输出所述发言内容的译文。
2.根据权利要求1所述的方法,其特征在于,对所述第二文本中的至少一组分句进行连接处理时,所述方法包括:
检测第一字符和第二字符的字符类型,得到检测结果;所述第一字符为所述第一分句的尾字符;所述第二字符为所述第二分句的头字符;
根据所述检测结果,对所述第一分句和所述第二分句进行连接处理。
3.根据权利要求2所述的方法,其特征在于,所述根据所述检测结果,对所述第一分句和所述第二分句进行连接处理,包括:
当所述检测结果为所述第一字符和所述第二字符均为标点,删除所述第一字符和所述第二字符,并将删除了所述第一字符的所述第一分句与删除了所述第二字符的所述第二分句连接;
当所述检测结果为所述第一字符和所述第二字符均不为标点,确定所述第一分句和所述第二分句之间的第一信息,并基于所述第一信息将所述第一分句和所述第二分句进行连接;其中,
所述第一信息表征所述第一分句和所述第二分句之间需要添加的标点类型;所述标点类型包括空字符或任意一类标点。
4.根据权利要求3所述的方法,其特征在于,所述确定所述第一分句和所述第二分句之间的第一信息,包括:
通过第一分类模型确定所述第一分句和所述第二分句之间的第一信息;其中,
所述第一分类模型用于确定两个分句之间的标点类型。
5.根据权利要求1所述的方法,其特征在于,所述在所述第一文本中删除至少一个第一类型的词语,包括:
通过第二分类模型对所述第一文本中的每个词语进行分类,确定每个词语的词语类型;
将确定出的词语类型为所述第一类型的词语进行标记;
在所述第一文本中删除标记出的所述第一类型的词语;其中,
所述第二分类模型用于对文本中的词语进行分类。
6.根据权利要求1所述的方法,其特征在于,所述确定第一文本,包括:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到所述第一文本;
所述基于所述第三文本输出所述发言内容的译文,包括:
对所述第三文本进行翻译,将翻译后的所述第三文本作为所述发言内容的译文输出。
7.根据权利要求1所述的方法,其特征在于,所述确定第一文本,包括:
对发言者的发言进行语音采集,得到第一语音;
对所述第一语音进行语音识别,得到第四文本;
对所述第四文本进行翻译,得到所述第一文本;
所述基于所述第三文本输出所述发言内容的译文,包括:
将所述第三文本作为所述发言内容的译文输出。
8.一种译文输出装置,其特征在于,包括:
确定单元,用于确定第一文本;所述第一文本基于发言者的发言内容得到;
删除单元,用于在所述第一文本中删除至少一个第一类型的词语,得到第二文本;所述第一文本与所述第二文本的语义相同;
连接单元,用于对所述第二文本中的至少一组分句进行连接处理,得到所述第二文本对应的第三文本;所述至少一组分句中的每组分句与一个所述第一类型的词语对应;每组分句包括第一分句和第二分句;所述第一分句为在所述第二文本中位于对应的所述第一类型的词语之前的一个分句;所述第二分句为在所述第二文本中位于对应的所述第一类型的词语之后的一个分句;
输出单元,用于基于所述第三文本输出所述发言内容的译文。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201911185192.7A 2019-11-27 2019-11-27 译文输出方法、装置、电子设备及存储介质 Pending CN110969026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911185192.7A CN110969026A (zh) 2019-11-27 2019-11-27 译文输出方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911185192.7A CN110969026A (zh) 2019-11-27 2019-11-27 译文输出方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110969026A true CN110969026A (zh) 2020-04-07

Family

ID=70031902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911185192.7A Pending CN110969026A (zh) 2019-11-27 2019-11-27 译文输出方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110969026A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679733A (zh) * 2013-11-26 2015-06-03 中国移动通信集团公司 一种语音对话翻译方法、装置及系统
CN107632980A (zh) * 2017-08-03 2018-01-26 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置
CN108847241A (zh) * 2018-06-07 2018-11-20 平安科技(深圳)有限公司 将会议语音识别为文本的方法、电子设备及存储介质
CN109858038A (zh) * 2019-03-01 2019-06-07 科大讯飞股份有限公司 一种文本标点确定方法及装置
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679733A (zh) * 2013-11-26 2015-06-03 中国移动通信集团公司 一种语音对话翻译方法、装置及系统
CN107632980A (zh) * 2017-08-03 2018-01-26 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置
CN108847241A (zh) * 2018-06-07 2018-11-20 平安科技(深圳)有限公司 将会议语音识别为文本的方法、电子设备及存储介质
CN109858038A (zh) * 2019-03-01 2019-06-07 科大讯飞股份有限公司 一种文本标点确定方法及装置
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
US9805718B2 (en) Clarifying natural language input using targeted questions
US9262411B2 (en) Socially derived translation profiles to enhance translation quality of social content using a machine translation
CN104573099B (zh) 题目的搜索方法及装置
US20180225306A1 (en) Method and system to recommend images in a social application
JP2017534941A (ja) オーファン発話検出システム及び方法
CN107679032A (zh) 语音转换纠错方法和装置
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
TWI536183B (zh) 語言歧義消除系統及方法
US20130297284A1 (en) Apparatus and method for generating polite expressions for automatic translation
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
TW201606750A (zh) 使用外國字文法的語音辨識
CN111177350A (zh) 智能语音机器人的话术形成方法、装置和系统
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
CN111276149A (zh) 语音识别方法、装置、设备及可读存储介质
CN110059313A (zh) 翻译处理方法和装置
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN110020429A (zh) 语义识别方法及设备
US20210319481A1 (en) System and method for summerization of customer interaction
CN112837674B (zh) 语音识别方法、装置及相关系统和设备
CN112822506A (zh) 用于分析视频流的方法和装置
US20230069113A1 (en) Text Summarization Method and Text Summarization System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100125 1503, 15th floor, building 2, yard 10, Chaoyang Park South Road, Chaoyang District, Beijing

Applicant after: Beijing opper Communication Co.,Ltd.

Address before: 100080 12-02, 12-05, 10th floor, building 38, Haidian Street, Haidian District, Beijing

Applicant before: Beijing opper Communication Co.,Ltd.