CN110807334A - 文本处理方法、装置、介质和计算设备 - Google Patents

文本处理方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN110807334A
CN110807334A CN201911043164.1A CN201911043164A CN110807334A CN 110807334 A CN110807334 A CN 110807334A CN 201911043164 A CN201911043164 A CN 201911043164A CN 110807334 A CN110807334 A CN 110807334A
Authority
CN
China
Prior art keywords
paragraph
text
sub
source
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911043164.1A
Other languages
English (en)
Other versions
CN110807334B (zh
Inventor
付凯
陈旻
黄瑾
段亦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Original Assignee
NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd filed Critical NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201911043164.1A priority Critical patent/CN110807334B/zh
Publication of CN110807334A publication Critical patent/CN110807334A/zh
Application granted granted Critical
Publication of CN110807334B publication Critical patent/CN110807334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种文本处理方法。所述方法包括获取源文本和目标文本;根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,该分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号;根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本;以及采用预定对齐算法,对齐多个子源文本和多个子目标文本。本发明的方法、装置、介质以及计算设备通过先将两个文本划分为多个子文本,再对子文本进行对齐,可以降低后续段落对齐和句子对齐时因文本不规范导致的级联错误,从而提升文本对齐质量,并因此降低对两个文本的质量要求。

Description

文本处理方法、装置、介质和计算设备
技术领域
本发明的实施方式涉及文本翻译领域,更具体地,本发明的实施方式涉及一种文本处理方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在翻译领域,往往需要采用对齐算法生成一系列的平行句对,即将两种不同语言的文本进行句子级别的对齐得到平行语句,从而为自动翻译提供大量的语料。
现有常见的对齐算法包括两重对齐算法及直接句子对齐算法。其中直接句子对齐算法为先对不同语言的文本进行分句,在分句后逐个句子的对齐。其中两重对齐算法为段落对齐+句子对齐。两重对齐算法的准确率往往优于直接句子对齐算法,且两重对齐算法对齐时所消耗的时间往往低于直接句子对齐算法。
其中,两重对齐算法往往对上传的平行文本(两种不同语言的文本)的文本质量要求很高,例如要求平行文本的段落数的差距较小等。在两种不同语言的文本的段落数差别较大的情况下,为了保证对齐效果,则需要先对两种不同语言的文本进行人工调整,这无疑会耗费大量的人力时间,提高平行语料的生成成本。
发明内容
因此在现有技术中,生成平行语料时存在对上传文本质量要求高、对齐需要人工干预且对齐成本高的问题。
为此,非常需要一种改进的文本处理方法,能够在对两种不同语言的文本进行两重对齐之前先进行预对齐,以此降低对生成平行语料的上传的两个文本的质量要求,并因此提高对齐准确率及对齐效率。
在本上下文中,本发明的实施方式期望提供一种能够在降低对两个文本的质量要求的前提下,提高文本对齐准确率的文本处理方法。
在本发明实施方式的第一方面中,提供了一种文本对齐方法,该方法包括:获取源文本和目标文本;根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,该分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号;根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本;以及采用预定对齐算法,对齐多个子源文本和多个子目标文本。
在本发明的一个实施例中,上述确定分割段落对包括:根据第一段落数a和第二段落数b,确定针对源文本的每个第一段落的段落范围,该段落范围包括目标文本中段落序号大于等于c且小于等于d的至少一个第二段落;将针对所述每个第一段落的段落范围包括的至少一个第二段落的段落序号与每个第一段落的段落序号依次配对,得到多个段落对;以及确定多个段落对中满足预定条件的段落对为分割段落对。
在本发明的另一实施例中,上述确定针对源文本的每个第一段落的段落范围包括:在第二段落数b小于等于预定段落数e的情况下,确定针对每个第一段落的段落范围包括目标文本的所有段落;或者在第二段落数b大于预定段落数e的情况下,根据第一段落数a、第二段落数b及预定段落数e,确定针对每个第一段落的段落范围。
在本发明的又一个实施例中,上述根据第一段落数a、第二段落数b及预定段落数e,确定针对每个第一段落的段落范围包括:确定第二段落数b与第一段落数a的比值f;根据比值f与每个第一段落的段落序号i的乘积,得到针对每个第一段落的乘积值i*f;确定c的取值为0与(i*f-e)中较大的值,且确定d的取值为(i*f+e)与b中较小的值。其中,源文本包括的多个第一段落的段落序号及目标文本包括的多个第二段落的段落序号均依次递增。
在本发明的再一个实施例中,上述源文本包括第一语言的文本,目标文本包括第二语言的文本,源文本与目标文本的描述内容相同。上述确定多个段落对中满足预定条件的段落对为分割段落对包括:采用翻译规则,得到针对每个第一段落的第三段落,该第三段落为用第二语言描述的段落;根据针对每个第一段落的第三段落以及针对所述每个第一段落的段落范围包括的至少一个第二段落,确定针对所述每个第一段落的段落范围包括的至少一个第二段落与每个第一段落的相似度;确定至少一个第二段落中与每个第一段落的相似度大于等于预定相似度的第二段落为针对每个第一段落的相似段落;以及确定多个段落对中,由每个第一段落的段落序号及针对每个第一段落的相似段落的段落序号配对得到的段落对为分割段落对。其中,预定相似度为针对第一语言及第二语言的相似度。
在本发明的再一个实施例中,上述确定多个段落对中满足预定条件的段落对为分割段落对还包括:删除多个段落对中,具有相同的第一段落序号的段落对,得到分割段落对;并且/或者删除多个段落对中,具有相同的第二段落序号的段落对,得到分割段落对;并且/或者删除多个段落对中,第一段落序号与第二段落序号有交叉的所有段落对,得到分割段落对。
在本发明的再一个实施例中,上述对齐多个子源文本和多个子目标文本包括:采用预定对齐算法,并行地将多个子源文本中每个子源文本包括的每个第一段落与对应于每个子源文本的子目标文本包括的第二段落进行对齐;以及采用预定对齐算法,并行地将多个第一段落中每个第一段落包括的每个第一语句与对齐的第二段落包括的第二语句进行对齐。
在本发明的再一个实施例中,上述预定对齐算法包括文本对齐算法,将对每个子源文本包括的每个第一段落与对应于每个子源文本的子目标文本包括的第二段落进行对齐包括:根据每个子源文本中每个第一段落的文本信息及对应于每个子源文本的子目标文本中每个第二段落的文本信息,得到每个第一段落与每个第二段落的交叉信息;根据每个第一段落的文本信息、对应的每个第二段落的文本信息及交叉信息,采用文本对齐算法对每个子源文本包括的每个第一段落与每个子源文本对应的子目标文本包括的第二段落进行对齐。其中,交叉信息包括以下至少一个:第一段落与第二段落包括格式不同,但数值相同的数据;第一段落与第二段落包括相同词汇的缩写表达;以及第一段落与第二段落包括表示相同命名实体的词汇。
在本发明的再一个实施例中,上述源文本包括第一语言的文本,上述目标文本包括第二语言的文本,源文本与目标文本的描述内容相同。上述文本处理方法还包括:采用翻译规则,得到针对每个第一语句对应的第三语句;以及分列展示每个第一语句、与每个第一语句对齐的第二语句、以及针对每个第一语句的第三语句。其中,第三语句为第二语言描述的语句。
在本发明实施方式的第二方面中,提供了一种文本处理装置,该装置包括:文本获取模块,用于获取源文本和目标文本;分割段落对确定模块,用于根据所述源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,所述分割段落对包括针对所述源文本的第一段落序号和针对所述目标文本的第二段落序号;分割模块,用于根据所述分割段落对,分割所述源文本和目标文本,得到多个子源文本和与所述多个子源文本一一对应的多个子目标文本;以及对齐模块,用于采用预定对齐算法,对齐所述多个子源文本和所述多个子目标文本。
在本发明的一个实施例中,上述分割段落对确定模块包括:段落范围确定子模块,用于根据所述第一段落数a和所述第二段落数b,确定针对所述源文本的每个第一段落的段落范围,所述段落范围包括所述目标文本中段落序号大于等于c且小于等于d的至少一个第二段落;段落对获得子模块,用于将针对所述每个第一段落的段落范围包括的至少一个第二段落的段落序号与所述每个第一段落的段落序号依次配对,得到多个段落对;段落对确定子模块,用于确定所述多个段落对中满足预定条件的段落对为所述分割段落对。
在本发明的另一实施例中,段落范围确定子模块用于:在所述第二段落数b小于等于预定段落数e的情况下,确定针对所述每个第一段落的段落范围包括所述目标文本的所有段落;或者在所述第二段落数b大于所述预定段落数e的情况下,根据所述第一段落数a、所述第二段落数b及所述预定段落数e,确定针对所述每个第一段落的段落范围。
在本发明的又一个实施例中,上述段落范围确定子模块包括:比值确定单元,用于确定所述第二段落数b与所述第一段落数a的比值f;乘积值获得单元,用于根据所述比值f与所述每个第一段落的段落序号i的乘积,得到针对所述每个第一段落的乘积值i*f;范围确定单元,用于确定所述c的取值为0与(i*f-e)中较大的值,且确定所述d的取值为(i*f+e)与b中较小的值。其中,所述源文本包括的多个第一段落的段落序号及所述目标文本包括的多个第二段落的段落序号均依次递增。
在本发明的再一个实施例中,上述源文本包括第一语言的文本,所述目标文本包括第二语言的文本,所述源文本与所述目标文本的描述内容相同。上述段落对确定子模块包括:翻译单元,用于采用翻译规则,得到针对所述每个第一段落的第三段落,所述第三段落为用所述第二语言描述的段落;相似度确定单元,用于根据针对所述每个第一段落的第三段落以及针对所述每个第一段落的段落范围包括的至少一个第二段落,确定针对所述每个第一段落的段落范围包括的至少一个第二段落与所述每个第一段落的相似度;相似段落确定单元,用于确定所述至少一个第二段落中与所述每个第一段落的相似度大于等于预定相似度的第二段落为针对所述每个第一段落的相似段落;以及分割段落对确定单元,用于确定所述多个段落对中,由所述每个第一段落的段落序号及针对所述每个第一段落的相似段落的段落序号配对得到的段落对为所述分割段落对。其中,所述预定相似度为针对所述第一语言及所述第二语言的相似度。
在本发明的再一个实施例中,上述段落对确定子模块还用于:删除所述多个段落对中,具有相同的第一段落序号的段落对,得到所述分割段落对;并且/或者删除所述多个段落对中,具有相同的第二段落序号的段落对,得到所述分割段落对;并且/或者删除所述多个段落对中,第一段落序号与第二段落序号有交叉的所有段落对,得到所述分割段落对。
在本发明的再一个实施例中,上述对齐模块包括:段落对齐子模块,用于采用预定对齐算法,并行地将所述多个子源文本中每个子源文本包括的每个第一段落与对应于所述每个子源文本的子目标文本包括的第二段落进行对齐;以及句子对齐子模块,用于采用所述预定对齐算法,并行地将多个第一段落中所述每个第一段落包括的每个第一语句与对齐的第二段落包括的第二语句进行对齐。
在本发明的再一个实施例中,上述预定对齐算法包括文本对齐算法,上述段落对齐子模块包括:交叉信息获得单元,用于根据所述每个子源文本中每个第一段落的文本信息及对应于所述每个子源文本的子目标文本中每个第二段落的文本信息,得到所述每个第一段落与所述每个第二段落的交叉信息;对齐单元,用于根据所述每个第一段落的文本信息、所述对应的每个第二段落的文本信息及所述交叉信息,采用文本对齐算法对每个子源文本包括的每个第一段落与所述每个子源文本对应的子目标文本包括的第二段落进行对齐。其中,交叉信息包括以下至少一个:所述第一段落与所述第二段落包括格式不同,但数值相同的数据;所述第一段落与所述第二段落包括相同词汇的缩写表达;以及所述第一段落与所述第二段落包括表示相同命名实体的词汇。
在本发明的再一个实施例中,所述源文本包括第一语言的文本,所述目标文本包括第二语言的文本,所述源文本与所述目标文本的描述内容相同。上述文本处理装置还包括:翻译模块,用于采用翻译规则,得到针对所述每个第一语句对应的第三语句;以及展示模块,用于分列展示所述每个第一语句、与所述每个第一语句对齐的第二语句、以及针对所述每个第一语句的第三语句。其中,所述第三语句为所述第二语言描述的语句。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令在被处理器执行时使处理器执行根据本发明实施方式的第一方面所提供的文本处理方法。
在本发明实施方式的第四方面中,提供了一种计算设备。该计算设备包括存储有可执行指令的一个或多个存储器,以及一个或多个处理器。该处理器执行该可执行指令,用以实现根据本发明实施方式的第一方面所提供的文本处理方法。
根据本发明实施方式的文本处理方法、装置、介质和计算设备,可以对源文本和目标文本进行预对齐,具体为将源文本的子文本和目标文本的子文本进行对齐,从而可以降低段落对齐和句子对齐时因文本不规范导致的级联错误。并因此可以降低对源文本和目标文本的质量要求,提升文本对齐质量。
根据本发明的一些实施例,可以在通过UI界面向标注人员展示对齐结果时,同时可以展示源文本中各第一语句的翻译语句,即第三语句,因此即使标注人员对目标文本包括的语言掌握程度不高,依旧可以完成对对齐结果的调整。因此,可以在一定程度上降低对标注人员的能力要求,并因此可以降低标注成本,提高标注效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的文本处理方法、装置、介质及计算机设备的应用场景;
图2示意性地示出了根据本发明示例性实施例一的文本处理方法的流程图;
图3示意性地示出了根据本发明实施例的确定分割段落对的流程图;
图4示意性地示出了根据本发明实施例的确定针对每个第一段落的段落范围的流程图;
图5示意性地示出了根据本发明实施例的确定多个段落对中满足条件的段落对为分割段落对的流程图;
图6示意性地示出了根据本发明示例性实施例二的文本处理方法的流程图;
图7示意性地示出了根据本发明实施例的将每个第一段落与每个第二段落进行对齐的流程图;
图8示意性地示出了根据本发明示例性实施例三的文本处理方法的流程图;
图9示意性地示出了根据本发明实施方式的文本处理装置的方框图;
图10示意性地示出了根据本发明实施方式的适于执行文本处理方法的程序产品的示意图;以及
图11示意性地示出了根据本发明实施方式的适于执行文本处理方法的计算设备的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种文本处理方法、装置、介质和计算设备。
在本文中,需要理解的是,所涉及的术语解释如下:
平行语料:指的是两种不同语言但描述的是同一件事情且意思相同的语料。如中文版本的文章和对应英文版本的译文就是一对平行语料。
对齐:在翻译领域一般指的是将两种不同语言的文本对应起来。文本的对应一般包含很多级别,如篇章级别、段落级别、句子级别、短语级别、词级别等。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,在采用两重对齐算法对源文本和目标文本进行对齐时,往往因源文本和目标文本的段落数差别较大而导致对齐时间长、且对齐效果差。若对源文本和目标文本进行人工调整则需要耗费大量的人力资源。若在使用两重对齐算法进行段落对齐和句子对齐之前,先将源文本和目标文本分割成多个子文本,并在对该多个子文本进行对齐后并行地对多个子文本进行两重对齐,可以避免因部分文本不规范造成的级联错误,并因此可以提高文本对齐质量。
更进一步地,本发明人发现可以在展示自动对齐结果时,同时展示自动翻译源文本的各个段落或各个句子得到的句子,从而可以为标注人员对对齐结果进行调整时提供参考,降低对标注人员的能力要求。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1。
图1示意性地示出了根据本发明实施方式的文本处理方法、装置、介质及计算机设备的应用场景。需要注意的是,图1所示仅为可以应用本发明实施例的应用场景的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。
如图1所示,该应用场景100包括终端设备111、112、113,服务器120和网络130,网络130用于在终端设备111、112、113和服务器120之间提供通信链路的介质,网络可以包括各种连接类型,例如有线、无线通信链路等等。
其中终端设备111、112、113例如具有处理功能,以对源文本和目标文本进行对齐,得到平行语料。根据本发明的实施例,该终端设备111、112、113包括但不限于台式计算机、膝上型便携计算机、平板电脑、智能手机、智能可穿戴设备或智能家电等等。
根据本公开的实施例,源文本和目标文本例如可以是响应于用户操作,由终端设备111、112、113通过网络130自服务器120中获取的文本。源文本与目标文本包括表述意思相同、但描述语言不同的两种文本。例如,源文本可以为中文版的文章,而目标文本为中文版文章对应的英文版文章。
根据本公开的实施例,终端设备111、112、113例如可以具有显示屏,以向语料标注人员展示源文本和目标文本的对齐结果,以便于标注人员对该对齐结果进行调整,提高最终得到的平行语料的准确度。
其中,服务器120可以为任何能够提供网站服务、视频服务和/或数据传输服务的服务器设备。例如,工作人员可以通过终端设备111、112、113中安装的应用程序向服务器120发送文本获取请求,服务器120将请求的文本发送给终端设备111、112、113。或者,终端设备111、112、113可以将处理完的平行语料发送给服务器120等。
需要说明的是,本发明实施例所提供的文本处理方法可以由终端设备111、112、113执行。相应地,本发明实施例所提供的文本处理装置可以设置于终端设备111、112、113中。本发明实施例所提供的文本处理方法也可以一部分操作由终端设备111、112、113执行,另一部分操作由服务器120执行。相应地,本发明实施例所提供的文本处理装置也可以一部分设置于终端设备111、112、113,另一部分设置于服务器120。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
下面结合图1的应用场景,参考图2~8来描述根据本发明示例性实施方式的文本处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本发明示例性实施例一的文本处理方法的流程图。
如图2所示,根据本发明实施例的文本处理方法包括操作S210~操作S240。
在操作S210,获取源文本和目标文本。
根据本公开的实施例,源文本和目标文本例如可以是从服务器120中获取的。或者源文本和目标文本可以是通过响应于用户操作,从本地存储空间或其他存储空间(例如硬盘等外接存储设备)上传至终端设备111、112、113中安装的文本处理系统而获得的。
根据本公开的实施例,源文本和目标文本例如可以是包括不同表述语言的文本。例如源文本包括第一语言的文本,目标文本包括第二语言的文本,该第一语言的文本和第二语言的文本描述的内容相同。例如,第一语言为中文,第二语言为英文,源文本可以为中文版的《朝花夕拾》,目标文本为英文版的《朝花夕拾》。
在操作S220,根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号。
根据本公开的实施例,该操作S220例如可以包括:先确定源文本包括的总段落数a和目标文本包括的总段落数b,即源文本包括a个第一段落,目标文本包括b个第二段落。然后根据该a个第一段落及b个第二段落,确定分割段落对。例如,若根据a个第一段落及b个第二段落,确定前三个第一段落与前四个第二段落对应,则确定的分割段落对为(3,4);确定第4个第一段落至第6个第一段落与第5个第二段落至第7个第二段落对应,则确定的分割段落对还包括(6,7)。其中,3与6为第一段落的段落序号(第一段落序号),4和7为第二段落的段落序号(第二段落序号)。根据本公开的实施例,该操作S220例如可以通过图3描述的流程来执行,在此不再赘述。
在操作S230,根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本。该操作即为根据分割段落对中的第一段落序号与第二段落序号,对源文本和目标文本进行分割,得到多个子源文本和多个子目标文本。
根据本公开的实施例,若通过操作S220确定的多个分割段落对中包括序号最小的两个分割段落对为(3,4)及(6,7),则分割得到的多个子源文本中具有包括段落序号为1~3的三个第一段落的子源文本、包括段落序号为4~6的三个第一段落的子源文本,分割得到的多个子目标文本中具有包括段落序号为1~4的四个第二段落的子源文本、包括段落号为5~7的三个第二段落的子源文本。
在操作S240,采用预定对齐算法,对齐多个子源文本和多个子目标文本。
根据本公开的实施例,该操作S240例如可以包括:再采用预定对齐算法,对每个子文本组中的子源文本包括的段落或句子与对应的子目标文本包括的段落和句子进行对齐。根据本公开的实施例,该操作S240例如可以是采用两重对齐算法对每个子源文本包括的第一段落与子目标文本包括的第二段落进行段落和句子对齐。该操作S240例如可以通过图6描述的流程来执行段落对齐和句子对齐,在此不再赘述。可以理解的是,预定对齐算法为两重对齐算法等文本对齐算法,本公开对此不作限定。
综上可知,本公开实施例的文本处理方法,在对齐源文本和目标文本时,通过先对源文本和目标文本进行分割得到多个子源文本和多个子目标文本,然后再对多个子源文本和对应的多个子目标文本进行对齐,可以避免因源文本和目标文本不规范导致的级联错误。通过本公开实施例的文本处理方法,在源文本和目标文本不规范时,错误所能蔓延的边界为单个子源文本和对应的子目标文本,因此,级联错误蔓延的边界相对有限,能够有效提高文本对齐质量。
以下将结合图3~图5描述本公开实施例中确定分割段落对的方法。其中,图3示意性地示出了根据本发明实施例的确定分割段落对的流程图。
如图3所示,确定分割段落对的操作S220可以包括操作S321~操作S323。
在操作S321,根据第一段落数a和第二段落数b,确定针对源文本的每个第一段落的段落范围,段落范围包括目标文本中段落序号大于等于c且小于等于d的至少一个第二段落。
根据本公开的实施例,该操作S321例如可以包括,对于源文本包括的a个第一段落中的每个第一段落,确定目标文本中与每个第一段落相关联的至少一个第二段落的段落起始序号和段落终止序号。其中,段落起始序号为c的取值,段落终止序号为d的取值。
根据本公开的实施例,为了保证确定的段落对的准确性,可以为与每个第一段落相关联的第二段落的个数分配最小值。在目标文本包含的段落数较小的情况,为了为每个第一段落分配尽可能多的相关联的第二段落,可以将目标文本包括的所有第二段落均作为与每个第一段落相关联的第二段落。因此,操作S321可以包括:在第二段落数b小于等于预定段落数e的情况下,确定针对每个第一段落的段落范围包括目标文本的所有段落。其中,预定段落数为所述分配的最小值,e的取值例如可以为10、20等任意值,该e的取值可以根据实际需求进行设定。
根据本公开的实施例,在第二段落数b大于预定段落数e的情况下,则可以根据第一段落数a、第二段落数b及预定段落数e,确定针对每个第一段落的段落范围。其中,a个第一段落和b个第二段落可以分别分配有以1为起始值依次递增的序号(递增值例如可以为1)。此种情况下,确定针对每个第一段落的段落范围的方法详见图4描述的流程,在此不再赘述。
根据本公开的实施例,与第一段落相关联的第二段落例如可以包括:描述内容与第一段落相同的第二段落,与描述内容相同的第二段落相邻的多个第二段落等。例如,相关联可以是指描述的内容相关联。
在操作S322,将针对每个第一段落的段落范围包括的至少一个第二段落的段落序号与每个第一段落的段落序号依次配对,得到多个段落对。
根据本公开的实施例,若对于a个第一段落中的第2个第一段落,通过操作S321确定的段落范围包括b个第二段落中段落序号为1、2、3的段落;对于a个第一段落中的第3个第一段落,通过操作S321确定的段落范围包括b个第二段落中段落序号为3、4、5的段落;对于第4个第一段落,确定的段落范围包括b个第二段落中段落序号为5、6的段落,则针对该第2个第一段落~第4个第一段落,操作S322为将1、2、3依次与2配对、将3、4、5依次与3配对、将5、6依次与4配对,得到段落对(2,1)、(2,2)、(2,3)、(3,3)、(3,4)、(3,5)、(4,5)、(4,6)。通过针对a个第一段落中的每个第一段落执行类似的操作,即可针对每个第一段落,得到至少一个段落对,总共得到多个段落对。
在操作S323,确定多个段落对中满足预定条件的段落对为分割段落对。
根据本公开的实施例,为了提高根据分割段落对分割文本的准确性,还应从多个分割段落对中筛选得到由相似度较大的第一段落与第二段落的段落序号构成的段落对。因此,预定条件可以为相似度大于预定相似度。该操作S323例如可以通过图5描述的操作S5231~操作S5234来实现,在此不再赘述。
根据本公开的实施例,为了便于对源文本和目标文本进行分割,考虑到与两个不同的第一段落匹配的第二段落中可能包括相同的第二段落,因此,应将多个段落对中该包括相同的第二段落的段落对去除。因此,操作S324可以包括:删除多个段落对中,具有相同的第二段落序号的段落对。
根据本公开的实施例,考虑到同一个第一段落还可能与不同的第二段落相匹配,因此,操作S324可以包括:删除多个段落对中,具有相同的第一段落序号的段落对,得到分割段落对。
根据本公开的实施例,考虑到两个段落对包括的第一段落序号和第二段落序号中,可能存在第一段落对包括的第一段落序号小于第二段落对包括的第一段落序号,而第一段落对包括的第二段落序号大于第二段落对包括的第二段落序号。此种情况下,无法根据该两个段落对分割源文本和目标文本,因此,应从多个段落对中删除该两个段落对。操作S324可以包括:删除多个段落对中,第一段落序号与第二段落序号有交叉的所有段落对,得到分割段落对。其中,第一段落序号与第二段落序号有交叉是指:两个段落对包括的两个第一段落序号的大小关系与两个第二段落序号的大小关系不一致。
根据本公开的实施例,该操作S323例如可以包括:先从多个段落对中,筛选得到由相似度大于预定相似度的第一段落和第二段落的段落序号构成的段落对,对于段落对(2,1)、(2,2)、(2,3)、(3,3)、(3,4)、(3,5)、(4,5)、(4,6),筛选得到的段落对例如可以包括(2,2)、(2,3)、(3,4)、(4,5)、(4,6);然后去除筛选得到的多个段落对中第一段落序号或第二段落序号出现超过一次的所有段落对,从而得到段落对(3,4)。最后判断剩余的段落对中是否存在第一段落序号与第二段落序号有交叉的段落对,若存在,去除所有存在交叉的段落对。最终得到满足预定条件的多个段落对为分割段落对。对于段落对(2,1)、(2,2)、(2,3)、(3,3)、(3,4)、(3,5)、(4,5)、(4,6),最终确定的满足预定条件的段落对例如可以为(3,4)。因此,在分割得到多个子源文本及多个目标文本时,段落序号为3的第一段落为针对源文本的其中一个分割点,段落序号为4的第二段落为针对目标文本的其中一个分割点。在满足预定条件的多个段落对中,段落对(3,4)为最小的段落对时,分割得到的多个子源文本中具有包括段落序号为1~3的三个第一段落的子源文本,分割得到的多个子目标文本中具有包括段落序号为1~4的四个第二段落的子目标文本。
图4示意性地示出了根据本发明实施例的确定针对每个第一段落的段落范围的流程图。
如图4所示,确定针对每个第一段落的段落范围的操作S321例如可以包括操作S4211~操作S4213。
在操作S4211,确定第二段落数b与第一段落数a的比值f。在操作S4212,根据比值f与每个第一段落的段落序号i的乘积,得到针对每个第一段落的乘积值i*f。在操作S4213,确定c的取值为0与(i*f-e)中较大的值,且确定d的取值为(i*f+e)与b中较小的值。
根据本公开的实施例,在第二段落数b大于预定段落数e的情况下,为了确定针对每个第一段落的段落范围,可以根据第一段落数a与第二段落数b的比值f来确定,以使得针对每个第一段落的段落范围较为均衡。因此,通过操作S4211得到比值f后,根据操作S4212~操作S4213来根据比值f确定针对第i个第一段落的段落范围。
根据本公开的实施例,若a为500,b为1800,e为200。对于500个第一段落中的第120个第一段落而言,通过操作S4211确定的比值f=b/a=18/5。对应的段落范围的起始值c=max(0,(120*18/5-200))=max(0,232)=232。对应的段落范围的终点值d=min((120*18/5+200),1800)=min(632,1800)=632。因此,针对第120个第一段落的段落范围为[232,632]。
图5示意性地示出了根据本发明实施例的确定多个段落对中满足条件的段落对为分割段落对的流程图。
如图5所示,确定多个段落对中满足条件的段落对为分割段落对的操作S323可以包括操作S5231~操作S5234。
在操作S5231,采用翻译规则,得到针对每个第一段落的第三段落,该第三段落为用第二语言描述的段落。根据本公开的实施例,该翻译规则可以根据源文本包括的第一语言的文本和目标文本包括的第二语言的文本确定。例如,翻译规则为第一语言与第二语言之间的翻译规则。根据本公开的实施例,该翻译规则例如可以是文本处理系统中已有的翻译规则,或者可以为从服务器120中获取的翻译规则。
在操作S5232,根据针对每个第一段落的第三段落以及针对每个第一段落的段落范围包括的至少一个第二段落,确定针对每个第一段落的段落范围包括的至少一个第二段落与每个第一段落的相似度。根据本公开的实施例,该操作S5232例如可以根据每个第二段落与针对每个第一段落的第三段落之间具有的相同或相似词汇的量来表征第一段落与第二段落之间的相似度。或者,可以根据相同或相似词汇占所述第三段落中所有词汇的比例来表征第一段落与第二段落的相似度。
在操作S5233,确定至少一个第二段落中与每个第一段落的相似度大于等于预定相似度的第二段落为针对每个第一段落的相似段落。该操作可以包括:先比较操作S5232计算得到的至少一个第二段落中每个第二段落与第一段落的相似度与预定相似度的大小。确定针对每个第一段落的段落范围包括的至少一个第二段落中,与第一段落的相似度大于预定相似度的第二段落为与针对第一段落的相似段落。其中,预定相似度可以根据实际需求进行设定,例如,对于不同的第一语言及第二语言,可以具有不同的预定相似度,即该预定相似度为针对第一语言及第二语言的相似度。例如,针对第一语言和第二语言,预定相似度可以为0.5。对于段落序号为2的第一段落,通过操作S5233确定的相似段落包括段落序号为2的第二段落及段落序号为3的第二段落。
在操作S5234,确定多个段落对中,由每个第一段落的段落序号及针对每个第一段落的相似段落的段落序号配对得到的段落对为分割段落对。通过该操作S5234,即可从多个段落对中,筛选得到由相似度大于预定相似度的第一段落与第二段落构成的段落对。例如,对于段落序号为2的第一段落,通过操作S5234确定的分割段落对包括(2,2)及(2,3)。
图6示意性地示出了根据本发明示例性实施例二的文本处理方法的流程图。
如图6所示,操作S240中对多个子源文本和多个子目标文本包括的段落进行对齐的操作例如可以包括操作S641~操作S642,以对多个子源文本和多个子目标文本并行的进行两重对齐。
在操作S641,采用预定对齐算法,并行地将多个子源文本中每个子源文本包括的每个第一段落与对应于每个子源文本的子目标文本包括的第二段落进行对齐。在操作S642,采用预定对齐算法,并行地将多个第一段落中每个第一段落包括的每个第一语句与对齐的第二段落包括的第二语句进行对齐。
根据本公开的实施例,该预定对齐算法例如可以为文本对齐算法,具体例如可以包括两重对齐算法。例如,该两重对齐算法的思想如下:若h个子源文本中的第k个子源文本包括m个第一段落,h个子目标文本中的第k个子目标文本包括n个第二段落。令Sik表示第k个子源文本中的第i个第一段落(i=1,2,……,m),Tjk表示第k个子目标文本中的第j个第二段落(j=1,2,……,n),令d为距离函数。则d(Sik,Tjk,0,0)表示Sik与Tjk是匹配段落时的距离,d(Sik,0,0,0)表示Sik对空时的距离(即第k个目标子文本中没有与Sik匹配的第二段落时的距离),d(0,Tjk,0,0)表示空对Tjk时的距离,d(Sik,Tjk,S(i-1)k,0)表示Sik及S(i-1)k均与Tjk是匹配段落时的距离,d(Sik,Tjk,0,T(j-1)k)表示Sik与Tjk及T(j-1)k均匹配时的距离,依次类推,得到各种匹配情况的距离。然后根据一系列特征的得分和来计算得到各种匹配情况的距离值。
根据本公开的实施例,距离值例如可以通过以下方式计算得到:d=d(len_feature)+d(dict_feature)+d(number_feature)。其中,对于d(Sik,Tjk,0,0)而言,d(len_feature)表示Sik包括的句子数量与Tjk包括的句子数量的比值对应的得分,d(dict_feature)表示Sik与Tjk包括互为翻译语句的语句量对应的得分。D(number_feature)表示Sik与Tjk包括相同数值的量对应的得分。
在计算得到各种匹配情况的距离值后,Sik与Tjk对齐的最小距离Dk(i,j)可以通过以下公式确定:
Figure BDA0002252067230000181
具体地,对于Sik,与其对齐的第二段落应该为第k个子目标文本包括的n个第二段落中,与Sik对齐的最小距离最小的第二段落。其中,与Sik对齐的第二段落可以为一个或多个。
在通过操作S641完成段落对齐后,操作S642通过与以上段落对齐相似的方式,对每个第一段落包括的句子与对齐的第二段落包括的句子进行对齐。其中,对于句子对齐阶段,d(len_feature)表示两个句子包括的词汇数量的比值对应的得分,d(dict_feature)表示两个句子包括互为翻译词的词汇量对应的得分。d(number_feature)表示两个句子包括相同数值的量对应的得分。
根据本公开的实施例,为了进一步使得距离函数d能够准确表征匹配关系,在前述三个得分和的基础上,还可以考虑两个段落或两个句子之间的交叉信息,例如,该交叉信息例如可以包括:同一数字的不同表示形式(第一语言表述的数字与第二语言表述的数字可能为不同表示形式)、不同语言表述的相同的命名实体(例如CPU)等。若两个段落或两个句子之间具有交叉信息,则可以在一定程度上减小该两个段落或两个句子之间的距离函数d的取值。
以下将结合图7对考虑了该交叉信息的段落对齐方法进行描述。具体地,图7示意性地示出了根据本发明实施例的将每个第一段落与每个第二段落进行对齐的流程图。
如图7所示,将每个第一段落与每个第二段落进行对齐的操作S641可以包括操作S7411~操作S7412。
在操作S7411,根据每个子源文本中每个第一段落的文本信息及对应于每个子源文本的子目标文本中每个第二段落的文本信息,得到每个第一段落与每个第二段落的交叉信息。在操作S7412,根据每个第一段落的文本信息、对应的每个第二段落的文本信息及交叉信息,采用文本对齐算法对每个子源文本包括的每个第一段落与每个子源文本对应的子目标文本包括的第二段落进行对齐。
其中,交叉信息包括以下至少一个:第一段落与第二段落包括格式不同,但数值相同的数据;第一段落与第二段落包括相同词汇的缩写表达;以及第一段落与第二段落包括表示相同命名实体的词汇。
根据本公开的实施例,若通过操作S7411确定第一段落Sik与第二段落Tjk的交叉信息包括:格式不同,但数值相同的数据;相同词汇的缩写表达以及表示相同命名实体的词汇。则前述的距离函数可以表示为d=d(1en_feature)+d(dict_feature)+d(new_number_feature)+d(named_entity_feat ure)+d(translate_feature)。其中,d(new_number_feature)表示Sik与Tjk包括数值相同、格式相同或不同的数值的量对应的得分,d(named_entity_feature)表示Sik与Tjk包括相同词汇的缩写表达的量对应得分,d(translate_feature)表示Sik与Tjk包括命名实体相同,但表述相同或不同的词汇的量对应的得分。通过类似的方式得到各种匹配情况的距离值后,即可通过前述公式确定Sik与Tjk对齐的最小距离Dk(i,j),以及Sik与第k个子目标文本包括的n个第二段落中每个第二段落的最小距离,从而确定与Sik对齐的第二段落为n个第二段落中与Sik对齐的最小距离的取值最小的第二段落。
根据本公开的实施例,为了便于标注人员对对齐结果进行调整,在通过文本处理系统展示对齐结构时,还可以同时展示通过翻译规则得到的与每个第一语句对应的第三语句。因此,标注人员可以参考该展示的第三语句确定对齐结果是否正确。该第三语句与第二段落包括的第二语句的描述语言相同。
图8示意性地示出了根据本发明示例性实施例三的文本处理方法的流程图。
如图8所示,该信息处理方法除了操作S210~操作S240外,还可以包括操作S850~操作S860。其中,操作S240包括前述的操作S641~操作S642。该操作S850~操作S860在操作S240之后执行。
在操作S850,采用翻译规则,得到针对每个第一语句对应的第三语句。在操作S860,分列展示每个第一语句、与每个第一语句对齐的第二语句、以及针对每个第一语句的第三语句。
根据本公开的实施例,第三语句为第二语言描述的语句,该第三语句例如可以为针对第一段落的第三段落中的语句,第三段落中包括与第一段落中的多个第一语句一一对应的多个第三语句。在展示时,可以将第二语句展示于第一语句与第三语句之间。其中,第三段落即为操作S5221中描述的第三段落,在此不再赘述。例如,与第一语句对应的第三语句即为采用翻译规则对第一语句进行翻译得到的语句。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图9对本发明示例性实施方式的文本处理装置进行说明。
图9示意性地示出了根据本发明实施方式的文本处理装置900的方框图。
如图9所示,根据本发明实施例,该文本处理装置可以包括文本获取模块910、分割段落对确定模块920、分割模块930以及对齐模块940。该文本处理装置可以用于实现根据本发明实施例的文本处理方法。
文本获取模块910用于获取源文本和目标文本(操作S210)。
分割段落对确定模块920用于根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,该分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号(操作S220)。
分割模块930用于根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本(操作S230)。
对齐模块940用于采用预定对齐算法,对齐多个子源文本和多个子目标文本(操作S240)。
根据本发明的实施例,如图9所示,分割段落对确定模块920可以包括段落范围确定子模块921、段落对获得子模块922和段落对确定子模块923。段落范围确定子模块921用于根据第一段落数a和第二段落数b,确定针对源文本的每个第一段落的段落范围,该段落范围包括目标文本中段落序号大于等于c且小于等于d的至少一个第二段落(操作S321)。段落对获得子模块922用于将针对每个第一段落的段落范围包括的至少一个第二段落的段落序号与每个第一段落的段落序号依次配对,得到多个段落对(操作S322)。段落对确定子模块923用于确定多个段落对中满足预定条件的段落对为分割段落对(操作S323)。
根据本发明的实施例,段落范围确定子模块921例如可以具体用于:在第二段落数b小于等于预定段落数e的情况下,确定针对每个第一段落的段落范围包括目标文本的所有段落;或者在第二段落数b大于预定段落数e的情况下,根据第一段落数a、第二段落数b及预定段落数e,确定针对每个第一段落的段落范围。
根据本发明的实施例,如图9所示,上述段落范围确定子模块921例如可以包括:比值确定单元9211、乘积值获得单元9212和范围确定单元9213。比值确定单元9211用于确定第二段落数b与第一段落数a的比值f(操作S4211)。乘积值获得单元9212用于根据比值f与每个第一段落的段落序号i的乘积,得到针对每个第一段落的乘积值i*f(操作S4212)。范围确定单元9213用于确定c的取值为0与(i*f-e)中较大的值,且确定d的取值为(i*f+e)与b中较小的值(操作S4213)。其中,源文本包括的多个第一段落的段落序号及目标文本包括的多个第二段落的段落序号均依次递增。
根据本发明的实施例,上述源文本包括第一语言的文本,目标文本包括第二语言的文本,源文本与目标文本的描述内容相同。如图9所示,上述段落对确定子模块923例如可以包括:翻译单元9231、相似度确定单元9232、相似段落确定单元9233和分割段落对确定单元9234。翻译单元9231用于采用翻译规则,得到针对每个第一段落的第三段落,该第三段落为用第二语言描述的段落(操作S5231)。相似度确定单元9232用于根据针对每个第一段落的第三段落以及针对每个第一段落的段落范围包括的至少一个第二段落,确定针对每个第一段落的段落范围包括的至少一个第二段落与每个第一段落的相似度(操作S5232)。相似段落确定单元9233用于确定至少一个第二段落中与每个第一段落的相似度大于等于预定相似度的第二段落为针对每个第一段落的相似段落(操作S5233)。分割段落对确定单元9234用于确定多个段落对中,由每个第一段落的段落序号及针对每个第一段落的相似段落的段落序号配对得到的段落对为分割段落对(操作S5234)。其中,预定相似度为针对第一语言及第二语言的相似度。
根据本发明的实施例,上述段落对确定子模块923具体例如可以用于:删除多个段落对中,具有相同的第一段落序号的段落对,得到分割段落对;并且/或者,删除多个段落对中,具有相同的第二段落序号的段落对,得到分割段落对;并且/或者,删除多个段落对中,第一段落序号与第二段落序号有交叉的所有段落对,得到分割段落对。
根据本发明的实施例,如图9所示,上述对齐模块940例如还可以包括段落对齐子模块941和句子对齐子模块942。段落对齐子模块941用于采用预定对齐算法,并行地将多个子源文本中每个子源文本包括的每个第一段落与对应于每个子源文本的子目标文本包括的第二段落进行对齐(操作S641)。句子对齐子模块942用于采用预定对齐算法,并行地将多个第一段落中每个第一段落包括的每个第一语句与对齐的第二段落包括的第二语句进行对齐(操作S642)。
根据本发明的实施例,上述预定对齐算法包括文本对齐算法。如图9所示,上述段落对齐子模块941例如可以包括交叉信息获得单元9411和对齐单元9412。交叉信息获得单元9411用于根据每个子源文本中每个第一段落的文本信息及对应于每个子源文本的子目标文本中每个第二段落的文本信息,得到每个第一段落与每个第二段落的交叉信息(操作S7411)。对齐单元9412用于根据每个第一段落的文本信息、对应的每个第二段落的文本信息及交叉信息,采用文本对齐算法对每个子源文本包括的每个第一段落与每个子源文本对应的子目标文本包括的第二段落进行对齐(操作S7412)。其中,交叉信息包括以下至少一个:第一段落与第二段落包括格式不同,但数值相同的数据;第一段落与第二段落包括相同词汇的缩写表达;以及第一段落与所述第二段落包括表示相同命名实体的词汇。
根据本发明的实施例,源文本包括第一语言的文本,目标文本包括第二语言的文本,源文本与目标文本的描述内容相同。如图9所示,上述文本处理装置900例如还可以包括翻译模块950和展示模块960。翻译模块950用于采用翻译规则,得到针对每个第一语句对应的第三语句(操作S850)。展示模块960用于分列展示每个第一语句、与每个第一语句对齐的第二语句、以及针对每个第一语句的第三语句(操作S860)。其中,第三语句为第二语言描述的语句。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图10对本发明示例性实施方式的适于执行文本处理方法的计算机可读存储介质进行介绍。
根据本发明的实施例,还提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行根据本发明实施例的文本处理方法
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当该程序产品在计算设备上运行时,该程序代码用于使该计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的文本处理方法中的步骤,例如,该计算设备可以执行如图2中所示的操作S210:获取源文本和目标文本;在操作S220:根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号;在操作S230:根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本;以及操作S240:采用预定对齐算法,对齐多个子源文本和多个子目标文本。
该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
图10示意性地示出了根据本发明实施方式的适于执行文本处理的程序产品1000的示意图。
如图10所示,描述了根据本发明的实施方式的适于执行文本处理方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,该程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”,语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图11对本发明示例性实施方式的适于执行文本处理方法的计算机设备进行说明。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,该存储单元存储有程序代码,当该程序代码被该处理单元执行时,使得该处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的文本处理方法中的操作。例如,该处理单元可以执行如图2中所示的操作S210:获取源文本和目标文本;在操作S220:根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号;在操作S230:根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本;以及操作S240:采用预定对齐算法,对齐多个子源文本和多个子目标文本。
图11示意性地示出了根据本发明实施方式的适于执行文本处理方法的计算设备1100的框图。如图11所示的计算设备1100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如11所示,计算设备1100以通用计算设备的形式表现。计算设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
总线1130包括数据总线、控制总线和地址总线。
存储单元1120可以包括易失性存储器,例如随机存取存储器(RAM)1121和/或高速缓存存储器1122,还可以进一步包括只读存储器(ROM)1123。
存储单元1120还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1100也可以与一个或多个外部设备1140(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1105进行。并且,计算设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与计算设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (12)

1.一种文本处理方法,包括:
获取源文本和目标文本;
根据所述源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,所述分割段落对包括针对所述源文本的第一段落序号和针对所述目标文本的第二段落序号;
根据所述分割段落对,分割所述源文本和目标文本,得到多个子源文本和与所述多个子源文本一一对应的多个子目标文本;以及
采用预定对齐算法,对齐所述多个子源文本和所述多个子目标文本。
2.根据权利要求1所述的方法,其中,所述确定分割段落对包括:
根据所述第一段落数a和所述第二段落数b,确定针对所述源文本的每个第一段落的段落范围,所述段落范围包括所述目标文本中段落序号大于等于c且小于等于d的至少一个第二段落;
将针对所述每个第一段落的段落范围包括的至少一个第二段落的段落序号与所述每个第一段落的段落序号依次配对,得到多个段落对;以及
确定所述多个段落对中满足预定条件的段落对为所述分割段落对。
3.根据权利要求2所述的方法,其中,确定针对所述源文本的每个第一段落的段落范围包括:
在所述第二段落数b小于等于预定段落数e的情况下,确定针对所述每个第一段落的段落范围包括所述目标文本的所有段落;或者
在所述第二段落数b大于所述预定段落数e的情况下,根据所述第一段落数a、所述第二段落数b及所述预定段落数e,确定针对所述每个第一段落的段落范围。
4.根据权利要求3所述的方法,其中,根据所述第一段落数a、所述第二段落数b及所述预定段落数e,确定针对所述每个第一段落的段落范围包括:
确定所述第二段落数b与所述第一段落数a的比值f;
根据所述比值f与所述每个第一段落的段落序号i的乘积,得到针对所述每个第一段落的乘积值i*f;
确定所述c的取值为0与(i*f-e)中较大的值,且确定所述d的取值为(i*f+e)与b中较小的值,
其中,所述源文本包括的多个第一段落的段落序号及所述目标文本包括的多个第二段落的段落序号均依次递增。
5.根据权利要求2所述的方法,其中,所述源文本包括第一语言的文本,所述目标文本包括第二语言的文本,所述源文本与所述目标文本的描述内容相同;确定所述多个段落对中满足预定条件的段落对为所述分割段落对包括:
采用翻译规则,得到针对所述每个第一段落的第三段落,所述第三段落为用所述第二语言描述的段落;
根据针对所述每个第一段落的第三段落以及针对所述每个第一段落的段落范围包括的至少一个第二段落,确定针对所述每个第一段落的段落范围包括的至少一个第二段落与所述每个第一段落的相似度;
确定所述至少一个第二段落中与所述每个第一段落的相似度大于等于预定相似度的第二段落为针对所述每个第一段落的相似段落;以及
确定所述多个段落对中,由所述每个第一段落的段落序号及针对所述每个第一段落的相似段落的段落序号配对得到的段落对为所述分割段落对,
其中,所述预定相似度为针对所述第一语言及所述第二语言的相似度。
6.根据权利要求5所述的方法,其中,确定所述多个段落对中满足预定条件的段落对为所述分割段落对还包括:
删除所述多个段落对中,具有相同的第一段落序号的段落对,得到所述分割段落对;并且/或者
删除所述多个段落对中,具有相同的第二段落序号的段落对,得到所述分割段落对;并且/或者
删除所述多个段落对中,第一段落序号与第二段落序号有交叉的所有段落对,得到所述分割段落对。
7.根据权利要求1所述的方法,其中,所述对齐所述多个子源文本和所述多个子目标文本包括:
采用预定对齐算法,并行地将所述多个子源文本中每个子源文本包括的每个第一段落与对应于所述每个子源文本的子目标文本包括的第二段落进行对齐;以及
采用所述预定对齐算法,并行地将多个第一段落中所述每个第一段落包括的每个第一语句与对齐的第二段落包括的第二语句进行对齐。
8.根据权利要求7所述的方法,其中,所述预定对齐算法包括文本对齐算法,将所述对每个子源文本包括的每个第一段落与对应于所述每个子源文本的子目标文本包括的第二段落进行对齐包括:
根据所述每个子源文本中每个第一段落的文本信息及对应于所述每个子源文本的子目标文本中每个第二段落的文本信息,得到所述每个第一段落与所述每个第二段落的交叉信息;
根据所述每个第一段落的文本信息、所述对应的每个第二段落的文本信息及所述交叉信息,采用文本对齐算法对每个子源文本包括的每个第一段落与所述每个子源文本对应的子目标文本包括的第二段落进行对齐,
其中,所述交叉信息包括以下至少一个:所述第一段落与所述第二段落包括格式不同,但数值相同的数据;所述第一段落与所述第二段落包括相同词汇的缩写表达;以及所述第一段落与所述第二段落包括表示相同命名实体的词汇。
9.根据权利要求7所述的方法,其中,所述源文本包括第一语言的文本,所述目标文本包括第二语言的文本,所述源文本与所述目标文本的描述内容相同;所述方法还包括:
采用翻译规则,得到针对所述每个第一语句对应的第三语句;以及
分列展示所述每个第一语句、与所述每个第一语句对齐的第二语句、以及针对所述每个第一语句的第三语句,
其中,所述第三语句为所述第二语言描述的语句。
10.一种文本处理装置,包括:
文本获取模块,用于获取源文本和目标文本;
分割段落对确定模块,用于根据所述源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,所述分割段落对包括针对所述源文本的第一段落序号和针对所述目标文本的第二段落序号;
分割模块,用于根据所述分割段落对,分割所述源文本和目标文本,得到多个子源文本和与所述多个子源文本一一对应的多个子目标文本;以及
对齐模块,用于采用预定对齐算法,对齐所述多个子源文本和多个子目标文本。
11.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时实现:根据权利要求1~9中任一项所述的方法。
12.一种计算设备,包括:
一个或多个处理器,存储有可执行指令;以及
一个或多个处理器,执行所述可执行指令,以实现根据权利要求1~9中任一项所述的方法。
CN201911043164.1A 2019-10-29 2019-10-29 文本处理方法、装置、介质和计算设备 Active CN110807334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911043164.1A CN110807334B (zh) 2019-10-29 2019-10-29 文本处理方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911043164.1A CN110807334B (zh) 2019-10-29 2019-10-29 文本处理方法、装置、介质和计算设备

Publications (2)

Publication Number Publication Date
CN110807334A true CN110807334A (zh) 2020-02-18
CN110807334B CN110807334B (zh) 2023-07-21

Family

ID=69489636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911043164.1A Active CN110807334B (zh) 2019-10-29 2019-10-29 文本处理方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN110807334B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199966A (zh) * 2020-09-01 2021-01-08 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质
CN112541062A (zh) * 2020-11-27 2021-03-23 北京百分点信息科技有限公司 平行语料对齐方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770107A (zh) * 2004-11-04 2006-05-10 微软公司 提取小树转换对
US20150324073A1 (en) * 2012-06-20 2015-11-12 Google Inc. Displaying aligned ebook text in different languages
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN107526729A (zh) * 2017-08-10 2017-12-29 传神联合(北京)信息技术有限公司 原译文定位的方法及装置
CN109299461A (zh) * 2018-09-19 2019-02-01 昆明理工大学 一种基于Dirichlet过程的可比语料双语平行片段抽取的方法
CN109992790A (zh) * 2017-12-29 2019-07-09 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN110245361A (zh) * 2019-06-14 2019-09-17 科大讯飞股份有限公司 短语对提取方法、装置、电子设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770107A (zh) * 2004-11-04 2006-05-10 微软公司 提取小树转换对
US20150324073A1 (en) * 2012-06-20 2015-11-12 Google Inc. Displaying aligned ebook text in different languages
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN107526729A (zh) * 2017-08-10 2017-12-29 传神联合(北京)信息技术有限公司 原译文定位的方法及装置
CN109992790A (zh) * 2017-12-29 2019-07-09 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN109299461A (zh) * 2018-09-19 2019-02-01 昆明理工大学 一种基于Dirichlet过程的可比语料双语平行片段抽取的方法
CN110245361A (zh) * 2019-06-14 2019-09-17 科大讯飞股份有限公司 短语对提取方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199966A (zh) * 2020-09-01 2021-01-08 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质
CN112199966B (zh) * 2020-09-01 2021-10-08 中科凡语(武汉)科技有限公司 翻译方法、翻译装置、电子设备及存储介质
CN112541062A (zh) * 2020-11-27 2021-03-23 北京百分点信息科技有限公司 平行语料对齐方法、装置、存储介质及电子设备
CN112541062B (zh) * 2020-11-27 2022-11-25 北京百分点科技集团股份有限公司 平行语料对齐方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110807334B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US11423222B2 (en) Method and apparatus for text error correction, electronic device and storage medium
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
US9589049B1 (en) Correcting natural language processing annotators in a question answering system
AU2017310380B2 (en) Localization platform that leverages previously translated content
WO2024032691A1 (zh) 一种机器翻译质量评估方法、装置、设备和存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN110807334B (zh) 文本处理方法、装置、介质和计算设备
CN115049508A (zh) 页面生成方法、装置、电子设备及存储介质
CN112380855A (zh) 确定语句通顺度的方法、确定概率预测模型的方法和装置
US11645452B2 (en) Performance characteristics of cartridge artifacts over text pattern constructs
CN110175128B (zh) 一种相似代码案例获取方法、装置、设备和存储介质
CN109710952B (zh) 基于人工智能的翻译历史检索方法、装置、设备和介质
US9208142B2 (en) Analyzing documents corresponding to demographics
CN110874364A (zh) 一种查询语句处理方法、装置、设备及存储介质
US20230342561A1 (en) Machine translation method and apparatus, device and storage medium
CN112417860A (zh) 训练样本增强方法、系统、设备及存储介质
US9940320B2 (en) Plugin tool for collecting user generated document segmentation feedback
CN111063445A (zh) 基于医疗数据的特征提取方法及装置、设备和介质
US20220283776A1 (en) Display system and method of interacting with display system
CN115759040A (zh) 一种电子病历解析方法、装置、设备和存储介质
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
US11182560B2 (en) System and method for language independent iterative learning mechanism for NLP tasks
US9619463B2 (en) Document decomposition into parts based upon translation complexity for translation assignment and execution
CN112699872A (zh) 表单审核处理方法及装置、电子设备和存储介质
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant