CN103164390A - 文档处理方法和文档处理装置 - Google Patents

文档处理方法和文档处理装置 Download PDF

Info

Publication number
CN103164390A
CN103164390A CN2011104215954A CN201110421595A CN103164390A CN 103164390 A CN103164390 A CN 103164390A CN 2011104215954 A CN2011104215954 A CN 2011104215954A CN 201110421595 A CN201110421595 A CN 201110421595A CN 103164390 A CN103164390 A CN 103164390A
Authority
CN
China
Prior art keywords
collocation
professional
noun
document
inaccurate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104215954A
Other languages
English (en)
Other versions
CN103164390B (zh
Inventor
葛乃晟
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201110421595.4A priority Critical patent/CN103164390B/zh
Publication of CN103164390A publication Critical patent/CN103164390A/zh
Application granted granted Critical
Publication of CN103164390B publication Critical patent/CN103164390B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种文档处理方法和装置。文档处理方法包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,专业文档为采用目标语言的单语文档,上述双语包括目标语言和原始语言。文档处理装置被配置实现上述文档处理方法中包括的功能。应用本发明的文档处理方法和文档处理装置,可以适用于不同特定专业领域的专业文档处理。

Description

文档处理方法和文档处理装置
技术领域
本发明总体上涉及数据处理领域,尤其是文档数据处理领域。更具体地,本发明涉及一种文档处理方法和文档处理装置。
背景技术
在进行不同语言的文档之间的转换处理过程中,例如,在对涉及特定专业领域的专业文档进行不同语言之间的转换中,经常会发生在转换后的文档中存在一些用词不当或搭配错误的情况。特别地,在某种语言的特定领域专业文档中,经常因为该领域的一些特殊表达方式或者特殊的语义等,使得针对该领域的专业文档进行转换处理得到的其他语言的文档中容易存在错误的词汇和搭配。
然而,目前在包括自然语言的文档数据处理领域中存在的一些文档处理技术,通常是利用通用语料库以及/或通过双语平行文本对齐等来对文档中的数据进行诸如拼写检查、示例提供以及错误搭配检查等处理。但是,目前已有的文档处理技术主要是利用通用领域的预设的错误搭配模式数据库来检查并获得文档中的错误搭配,因此不适用于不同特定专业领域的文档处理。
发明内容
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种文档处理方法和文档处理装置,以至少克服目前现有的文档处理技术不适用于不同特定专业领域的文档处理的问题。此外,可以显著提高在进行文档处理的过程中各种不同语言文档数据之间转换的正确性。
为了实现上述目的,根据本发明的一个方面,提供了一种文档处理方法,其包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据专业名词及搭配双语语料库,判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,上述专业文档为采用目标语言的单语文档,并且,上述双语包括目标语言和原始语言。
根据本发明的另一个方面,还提供了一种文档处理装置,其包括:第一处理单元,其被配置用于根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及第二处理单元,其被配置用于根据该专业名词及搭配双语语料库来判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,该专业文档为采用目标语言的单语文档,上述双语包括目标语言和原始语言。
依据本发明的其它方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述文档处理方法。
根据上述本发明实施例的文档处理方法和文档处理装置,能够实现至少以下益处:通过利用专业名词及搭配双语语料库,来判断特定专业领域中的专业文档中的专业名词、搭配的使用是否准确,并进而对使用不准确的专业名词、搭配进行修正,能够适用于不同特定专业领域的专业文档处理。
在上文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明实施例的文档处理方法的一个示例性处理的流程图;
图2是示意性地示出用于获取专业名词及搭配双语语料库的示例性处理的流程图;
图3是示意性示出用于获取专业名词及搭配双语语料库的示例性处理中所包含的处理流程300的图;
图4是示意性地示出图1所示的处理流程100中的步骤S120的一种实现方式的处理的流程图;
图5是示意性地示出图1中的步骤S130的一种具体处理的流程图;
图6是示意性地示出根据本发明实施例的文档处理方法的另一个示例性处理的流程图;
图7是示意性地示出图1中的步骤S140的一种具体处理的流程图;
图8是示意性示出根据本发明实施例的文档处理装置的一种结构的框图;
图9是示意性地示出根据本发明实施例的文档处理装置的另一种结构的框图;
图10是示意性地示出如图9所示的补充处理子单元940的一种可能结构的框图;
图11是示意性地示出可用来实现根据本发明实施例的文档处理方法和文档处理装置的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
根据本发明实施例的文档处理方法包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据上述专业名词及搭配双语语料库,判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正。其中,这里所说的专业文档是采用目标语言的单语文档,并且,上述双语包括目标语言和原始语言。
图1是示意性地示出根据本发明实施例的文档处理方法的一个示例性处理的流程图。如图1所示,该文档处理方法的处理流程100开始于步骤S110,然后执行步骤S120。
在步骤S120中,根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,然后对所判定的使用不准确的专业名词进行修正。然后执行步骤S130。
其中,这里所说的专业名词及搭配双语语料库,其可以包含目标语言和原始语言的双语语料,并且该双语语料中的任一种语言语料中包含的每个专业名词可与至少一个另一种语言语料中包含的专业名词的意义相符并对应;以及双语语料中的任一种语言语料中包含的每个搭配可与至少一个另一种语言语料中包含的搭配的意义相符并对应。换句话说,该双语语料可以包括目标语言语料和原始语言语料,并且,目标语言语料中的每个专业名词可与原始语言语料中包含的一个或多个专业名词的语义相符,并且在语义相符的两个专业名词之间可存在对应关系;类似地,目标语言语料中的每个搭配可与原始语言语料中包含的一个或多个搭配的语义相符,并且在语义相符的两个搭配之间可存在对应关系。
此外,该专业名词及搭配双语语料库中包括名词和搭配,其中,搭配可以包括名词搭配,还可以选择性地包括动词搭配。这里所说的名词搭配可以至少包括“动词+名词”结构的搭配,还可以包括其他类型的名词搭配,例如,“形容词+名词”、“名词+名词”和/或“名词+介词”等结构的名词搭配;此外,这里所说的动词搭配可以包括“动词+介词”和“动词+副词”等结构的动词搭配。需要说明的是,该专业名词及搭配双语语料库中所包括的搭配中,动词搭配是可选的,也即不是必须包括的,具体根据情况判断。例如,如在下文中所描述的,当根据本发明实施例的文档处理方法中还包括如下参照图6将要描述的步骤S140时,该专业名词及搭配双语语料库中则包括动词搭配。
图2示出了用于获取专业名词及搭配双语语料库的示例性处理的流程图。
在图2所示的处理流程200中,首先,在步骤S210中,基于专业双语平行语料库,获得分别在专业双语平行语料库中的双语平行语料中出现频率高于预定阈值的专业名词和搭配。然后执行步骤S220。
在步骤S220中,对齐专业双语平行语料库中的双语语句。然后执行步骤S230。
需要说明的是,这里所说的专业双语平行语料库是指特定专业的双语平行语料库,其通常由两个单语文本组成,而且这两个单语文本是互为译文的。上述任一单语文本都包括多个语言单位,并且针对其中一个单语文本中的每一个语言单位,在另一个单语文本中均具有作为其译文的语言单位;其中,语言单位可以是字、词、短语、语句等。应当理解,对于某特定专业的普通技术人员来说,获得该特定专业的专业双语平行语料库的方式为公知常识,该专业专有的任意双语平行语料库都可以为本发明所用。
此外,这里所说的“对齐”是指在专业双语平行语料库中互为译文的每对双语语句的对应的语言单位之间建立对应关系,例如,针对该专业双语平行语料库中每个原始语言语句中的每个词或搭配,在作为其译文的目标语言语句中确定哪个词或搭配与其意义相符(也即互为翻译)。以一个平行双语短语为例进行说明。例如,在某特定专业的专业双语平行语料库中,原始语言短语“在经济领域的合作”与目标语言短语“the cooperationin economic”互为译文,则对其进行对齐之后可以得到如下对应关系:“在”对应“in”,“经济”对应“economic”,“领域”对应“field”,以及“合作”对应“cooperation”。
在步骤S230中,在对齐的双语语句中的意义相符的、且在专业双语平行语料库中出现频率高于预定阈值的专业名词和搭配之间建立对应关系,从而构建专业名词及搭配双语语料库。
在根据本发明实施例的文档处理方法的一个应用示例中,例如,其应用的专业领域为桥梁领域,即,所使用的专业双语平行语料库为桥梁专业双语平行语料库。
下面,以上述桥梁专业双语平行语料库包含汉语和英语两种语言的情况为例,给出详细说明。例如,在该示例中,目标语言为英语,原始语言为汉语。
其中,在该桥梁专业双语平行语料库中,包含众多诸如“Theenormous foundations can absorb and dissipate the full force of thebridge.”和“巨大的锚座基础足可吸收和消化桥梁的全部承重。”的形式的双语语句对。
然后,分别从英语和汉语角度出发,来在上述桥梁专业双语平行语料库中筛选出其出现频率高于预定阈值的名词,从而把这些名词作为该专业的高频专业名词。
例如,在本示例中,可以获得诸如“foundation”、“force”及“bridge”等英语高频专业名词,通过对齐,可以建立如下的对应关系:“foundation:锚座”、“force:承重”以及“bridge:桥梁”等。
类似地,可以获得诸如“基础”、“桥梁”及“承重”等汉语高频专业名词,并且可以通过词对齐得到以下对应关系:“基础:foundation”、“承重:force”以及“桥梁:bridge”等。
对上述获得的各组具有对应关系的词对进行去重合并,也即,去掉重复的内容,然后将剩下的内容合并到一起。例如,“force:承重”与“承重:force”为重复内容,去掉其中一个,仅保留剩下一个即可。类似地,“bridge:桥梁”与“桥梁:bridge”也为重复内容,仅保留其中一个即可。然后可以得到“锚座:foundation”、“基础:foundation”、“承重:force”以及“桥梁:bridge”等具有对应关系的专业名词对。
此外,在上述桥梁专业双语平行语料库中,还可以提取到诸如名词搭配(以及优选情况下还包括动词搭配)之类的搭配,其中,每个搭配对分别包括一个汉语搭配和一个与之对应的英语搭配。然后,类似地,通过对齐可以得到具有对应关系的搭配对,例如,在上述双语句对中,得到的其中一个名词搭配对为“enormous foundations:巨大的锚座基础”。此外,在优选情况下,还可通过类似处理获得动词搭配对,细节不再一一赘述。如此,利用上述桥梁专业双语平行语料库可以得到多个搭配对,再通过对这些搭配对进行去重合并,即可得到去重合并后的一组搭配对。
然后,根据得到的专业名词对和诸如名词搭配对(以及优选情况下还包括动词搭配)之类的搭配对,可以构建获得桥梁专业的专业名词及搭配双语语料库,使得该专业名词及搭配双语语料库包括诸如上述具有对应关系的专业名词对和搭配对。
然而,在一些情况下,各领域的一些通用表达(名词或搭配)在特定专业领域中可能具有特定的意义和用法,也就是说,这些通用表达在一些情况/领域中可能具有某种意义,而在另一些特定专业领域中却可能具有其他不同的意义。例如在这些通用表达在上述另一些特定专业领域中并非高频出现(也即,出现频率未高于预定阈值)的情况下,利用诸如以上结合图2所描述的处理流程200可能无法获得这些表达中的名词或搭配,从而导致所构建的专业名词及搭配双语语料库不具有以上信息。然而在实际应用中,这类表达有时是比较容易使用错误的一类词或搭配。
因此,本发明的实施例还提供了另一种用于获取专业名词及搭配双语语料库的实现方式,作为对如图2所示的用于获取专业名词及搭配双语语料库的示例性处理的进一步优化。在该实现方式中,除了包含以上处理流程200之外,还可以包括在处理流程200之后进行的处理流程300。图3是示意性示出用于获取专业名词及搭配双语语料库的示例性处理中所包含的处理流程300的图。
例如,在执行完处理流程200的步骤S230之后,可以进一步地执行步骤S310至S340。
在步骤S310中,在原始语言和目标语言各自的通用领域单语语料库中,分别获得每种语言的出现频率高于预定阈值的名词和搭配。然后执行步骤S320。
在步骤S320中,利用同义词库分别获得每种语言的名词和搭配的同义词和同义搭配。以及,针对于步骤S310中获得的目标语言的出现频率高于预定阈值的名词和搭配,通过查询目标语言的同义词库,获得上述目标语言的出现频率高于预定阈值的各名词的同义词以及各搭配的同义搭配。类似地,可以获得原始语言的出现频率高于预定阈值的各名词的同义词以及各搭配的同义搭配。然后执行步骤S330。
在步骤S330中,判定步骤S320所获得的每种语言的出现频率高于预定阈值的名词和搭配、和/或同义词和同义搭配是否包含在专业双语平行语料库中,若是,则将上述被判定包含在专业双语平行语料库中的名词和搭配、和/或同义词和同义搭配、以及其在专业双语平行语料库中原始语言形式或目标语言形式的对应的译文补充至已构建的专业名词及搭配双语语料库中,并在所补充的上述名词和搭配、和/或同义词和同义搭配与其译文之间建立对应关系;否则,跳过步骤S330直接进入后续处理流程。
例如,在根据本发明实施例的文档处理方法的一个应用示例中,仍然以上述桥梁专业双语平行语料库包含汉语和英语两种语言的情况为例,给出详细说明,并且,在该示例中,目标语言为英语,原始语言为汉语。
首先,获得英语通用单语语料库和汉语通用单语语料库,然后分别在上述两个通用单语语料库中获得出现频率高于预定阈值的英语名词及搭配和汉语名词及搭配。
然后,利用英语同义词库,分别获得出现频率高于预定阈值的英语名词及搭配的同义词和同义搭配;类似地,利用汉语同义词库,分别获得出现频率高于预定阈值的汉语名词和搭配的同义词和同义搭配。
接下来,判定上述出现频率高于预定阈值的英语名词及搭配是否出现在专业双语平行语料库中,若是,则通过对齐找到其在专业双语平行语料库中的汉语译文,并将其与其译文补充到已构建的专业名词及搭配双语语料库中。类似地,可以通过对上述出现频率高于预定阈值的汉语名词及搭配进行判定和补充处理,在此不再赘述。
例如,“道路”是汉语单语通用语料中的高频词,即,出现频率高于预定阈值,通过同义词库找到它的同义词“轨道”,而“轨道”在不同领域中可能对应不同的英语单词,在航天领域为orbit,在铁路领域为track,这样在不同领域表达“轨道”这个词时就可能用错单词,所以需要把这些单语常用高频词和它们的同义词在专业领域进行对应,如果找到对应,则可以将其加入已构建的专业名词及搭配双语语料库中。
又如,“floor”是英语单语通用语料库中的高频词,即,出现频率高于预定阈值,意思是“楼层”,但在专业领域中,它可能对应“底板”之意,而表达“底板”概念时又可能由于找不到对应的英文而用错,通过同义词库找到“floor”的同义词“fundus”,fundus的汉语释义包括“底”、“基底”、“眼底”等,这样就同样需要把这些单语常用高频词和它们的同义词在专业领域进行对应,如果找到对应,则可以将其加入已构建的专业名词及搭配双语语料库中。
针对名词搭配(以及优选情况下还包括动词搭配)的补充处理可类似地进行,在此不再赘述。
最后,经过去重,可以实现对专业名词及搭配双语语料库的补充处理,从而使得该专业名词及搭配双语语料库具有更全的覆盖面以及数据处理的精度更高。
在根据本发明实施例的文档处理方法的一种实现中,如图1所示的步骤S120中所执行的根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词、然后对所判定的使用不准确的专业名词进行修正的过程可以通过如图4所示的处理流程来实现。
图4是示意性地示出图1所示的处理流程100中的步骤S120的一种实现方式的处理的流程图。
如图4所示,在步骤S410中,分别获得专业文档中的专业名词、专业名词的同义词以及专业名词的译词的译文在专业名词及搭配双语语料库出现的频率,其中,这里所说的专业名词及搭配双语语料库可以是通过上述方法预先构建获得的,也可以是通过其他方法得到的具有以上描述的特征的专业名词及搭配双语语料库。需要说明的是,上述专业文档中的专业名词可以通过遍历查找的方式来获得,也即,可以将上述专业文档中的所有名词都作为候选的专业名词;或者,也可以通过利用其他预设的专业词汇数据库来查询获得上述专业文档中的专业名词。此外,还需要说明的是,这里所说的专业名词的译词的译文是指与该专业名词对应于同一译词的其他名词,换句话说,该专业名词的译词的译文和该专业名词为同种语言,并且二者具有相同的另一种语言的译词。然后执行步骤S420。
在步骤S420中,确定上述在步骤S410中获得的所有频率中的最大频率。具体地,针对于专业文档中的每个专业名词,在该专业名词、该专业名词的同义词、该专业名词的译词的译文所分别对应的频率中,选择其中的最大频率。然后,执行步骤S430。
在步骤S430中,判定上述在步骤S420中所确定的最大频率是否为该专业名词对应的出现频率,其中,该专业名词对应的出现频率也即该专业名词在专业名词及搭配双语语料库出现的频率:若是,则在步骤S440中判定该专业名词使用准确,然后跳过步骤S450和S460而进入后续的处理流程,如步骤S130;否则,在步骤S450中判定该专业名词使用不准确,然后执行步骤S460。
在步骤S460中,使用上述最大频率所对应的词对该专业名词进行修正。在一个例子中,在该专业名词被判定为使用不准确的情况下,则上述最大频率所对应的词不是该专业名词、而是其同义词或其译词的译文,可以用上述最大频率所对应的该同义词或其译词的译文替换该专业名词。在另一个可替选例子中,若上述最大频率所对应的词包括该专业名词的同义词和其译词,则使用其同义词或其译词的译文中的任一个来替换该专业名词。然后进入后续其他处理流程,如步骤S130。
如图1所示,在步骤S130中,根据上述专业名词及搭配双语语料库来判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正。
具体地,针对该专业文档中至少一种预定类型的名词搭配的使用进行判断,当其被判断为使用不准确时,再对其进行修正。其中,上述至少一种预定类型的名词搭配可以至少包括“动词+名词”结构的搭配,此外,也可以包括其他类型的名词搭配,例如,“形容词+名词”、“名词+名词”以及“名词+介词”结构的搭配。
在根据本发明实施例的文档处理方法的一种实现方式中,如图1所示的步骤S130可以通过如图5所示的处理流程来实现。
图5是示意性地示出图1中的步骤S130的一种具体处理的流程图。如图5所示,图1所示的处理流程100中的步骤S130可以包括步骤S510至步骤S540。
在步骤S510中,确定专业文档中的名词搭配是否包含在专业名词及搭配双语语料库中,若是,则在步骤S520中判定该名词搭配使用准确;否则,在步骤S530中判定该名词搭配使用不准确,并在步骤S540中使用候选的名词搭配对该名词搭配进行修正。
其中,上述候选的名词搭配为至少以下之一:专业名词及搭配双语语料库中的包含被判定为使用不准确的名词搭配中的名词的、且出现频率最高的名词搭配;或专业名词及搭配双语语料库中的、与被判定为使用不准确的名词搭配的原始语言形式的译文的意义相符的名词搭配。
此外,在候选的名词搭配为一个的情况下,可以直接利用该候选的名词搭配来替换上述被判定使用不准确的名词搭配;在候选的名词搭配为多个的情况下,则可以使用该多个候选的名词搭配中出现频率最高的一个来替换上述被判定使用不准确的名词搭配。
图6示出了根据本发明实施例的文档处理方法的另一个示例性处理的流程图。如图6所示,该文档处理方法的处理流程600除了包括如图1所示的步骤S110、S120、S130和S150之外,还可以包括步骤S140。其中,处理流程600中的步骤S110、S120、S130和S150与处理流程100中的对应过程相同,在此不再赘述。
如图6所示,在该文档处理方法的处理流程600中,在执行完S130之后,执行步骤S140,即,根据上述专业名词及搭配双语语料库,判定该专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。
如图6所示,在步骤S140中,根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。
具体地,针对该专业文档中至少一种预定类型的动词搭配的使用进行判断,当其被判断为使用不准确时,再对其进行修正。其中,上述至少一种预定类型的动词搭配可以包括“动词+介词”和“动词+副词”结构的搭配。需要说明的是,上述至少一种预定类型的动词搭配可以是仅包含步骤S130中判定使用正确或修正后的“动词+名词”结构中的动词的动词搭配,或者也可以是该专业文档中的任意动词搭配。
其中,本文中所使用的诸如名词搭配、动词搭配之类的搭配可以通过大规模语料中的搭配自动获取和识别技术来获得,例如,可使用“树库中双词搭配的自动获取和识别研究”(徐润华,冯敏萱,陈小荷,计算机工程与应用,2011年10月1日)中所公开的技术来实现搭配的获得。
在根据本发明实施例的文档处理方法的一种实现方式中,如图6所示的步骤S140可以通过如图7所示的处理流程来实现。
图7是示意性地示出图6中的步骤S140的一种具体处理的流程图。如图7所示,图6所示的处理流程600中的步骤S140可以包括步骤S710至步骤S740。
在步骤S710中,确定专业文档中的动词搭配是否包含在专业名词及搭配双语语料库中,若是,则在步骤S720中判定该动词搭配使用准确;否则,在步骤S730中判定该动词搭配使用不准确,并在步骤S740中使用候选的动词搭配对该动词搭配进行修正。
其中,上述候选的动词搭配为至少以下之一:专业名词及搭配双语语料库中的包含被判定为使用不准确的动词搭配中的动词的、且出现频率最高的动词搭配;或专业名词及搭配双语语料库中的、与被判定为使用不准确的动词搭配的原始语言形式的译文的意义相符的动词搭配。此外,修正的过程可以与上文中所描述的相似,在此不再赘述。
在根据本发明实施例的文档处理方法的一个应用示例中,应用的专业领域为法律领域,目标语言为英语,原始语言为汉语。下面对该示例进行详述。
例如,在该领域的一个文档处理方法中,存在这样一句话:Thelicensee and the third party hold the common responsibility.(被许可方和第三方承担连带责任。)下面,以这句话(在下文中称作待处理语句对)为例,来对本发明实施例的文档处理方法进行说明。
首先,判断待处理语句对中的每个名词是否属于该领域专有名词,也即,判断上述每个名词是否包含在法律专业名词及搭配双语语料库中。
在一个例子中,如果通过上述文档处理方法判断仅发现licensee、party属于该法律专业名词及搭配双语语料库,则判定licensee和party是法律语料库中的高频专有名词,并且,通过判断还可以确定,它们的同义词不是该语料库的专有名词,而且其对应的汉语译文在该语料库中没有其他的英语表达。因此,最终判断该名词的使用是正确的。
在另一个例子中,如果通过上述文档处理方法判断发现,除licensee、party之外,responsibility也是法律语料库中的高频名词,但是它对应的汉语译文在语料库中还有其他的英语表达,如liability,而且liability的出现频率最高,于是可以将responsibility替换为liability,得到“Thelicensee and the third party hold the common liability.”;或者,也可以给出修改提示,例如把liability的例句给出:“Ifyou buy stock in a companythe most you can lose is the money you put up,so that′s called limitedliability.”和“如果你买了一个公司的股票,你最多只会赔掉投进去的钱,所以这叫做有限责任。”,然后将该提示提供于客户端显示设备上,为文档处理装置的使用者提供修改建议。
此外,在待处理语句中还存在“common liability”的“形容词+名词”结构的搭配,发现没有common liability相关搭配,然后按照出现频率排列出和liability相关的本领域中常用“形容词+名词”结构的搭配,然后可以使用出现频率最高的“形容词+名词”结构的搭配(例如,joint severalliability)来替换待处理语句对中的“common liability”。
然后,获取待处理语句对中的动词结构“hold.....liability”。对比语料库中liability中的动词搭配关系,发现没有hold相关搭配,然后按照出现频率排列出与liability相关的本领域中常用“动词+名词”结构搭配,然后可以使用出现频率最高的“动词+名词”结构的搭配(例如,“assume....liability”)来替换待处理语句对中的“hold.....liability”;或者,也可以将上述与liability相关的本领域中常用“动词+名词”结构搭配提供于客户端,由使用者来决定后续处理;又或者,也可以接收使用者输入的例如汉语的“承担...责任”,获得该搭配在法律专业名词及搭配双语语料库中的英语表达,并使用该表达来代替待处理语句对中的“hold.....liability”。
最后,得到处理后的英文语句为“The licensee and the third partyassume the joint several liability.”
以上处理方法也同样适用于从作为原始语言的英语到作为目标语言的汉语的转换中,对目标语句的正确性判断和修正处理。其处理过程与以上描述的过程相似,在此不再赘述。
在根据本发明实施例的文档处理方法的另一个应用示例中,专业文档中存在另一个含有动词搭配的语句对“We could resolve a force as x-andy-components.”和“我们可以把一个力分解成X分量和Y分量。”。通过与上文描述相类似的方法,可以确定“force”和“component”的表达是正确的,并且,通过对和“force”的搭配进行判定,确认动词“resolve”的表达是正确的。然后,判断是否有动词结构相关的结构。例如在该语句中,包含“动词+介词”结构的动词搭配“resolve...as”,而法律专业名词及搭配双语语料库中未包含此搭配,然后按照出现频率排列出与resolve相关的本领域中常用“动词+介词”结构搭配,然后可以使用出现频率最高的“动词+介词”结构的搭配(例如,“resolve...into”)来替换待处理语句对中的“resolve...as”,然后给出resolve+介词结构出现频率最高的结构是:resolve...into。
通过以上的描述可以看出,在根据本发明实施例的文档处理方法中,能够通过利用预设的或构建的专业名词及搭配双语语料库,来判断专业文档中的专业名词、名词搭配(以及优选情况下还包括动词搭配)的使用是否准确,并进而对使用不准确的专业名词、名词搭配(以及优选情况下还包括动词搭配)进行修正。传统的文档处理方法主要是利用通用领域的预设的错误搭配模式数据库来检查并获得文档中的错误搭配,不适用于不同特定专业领域的文档处理;而由根据本发明实施例的文档处理方法通过利用特定专业领域的专业名词及搭配双语语料库来对文档进行处理,以便实现对文档中使用错误的专业名词、搭配进行识别和修正,并且可以适用于不同的特定专业领域。此外,显著地提高了文档数据转换处理的正确性。
根据本发明实施例的文档处理方法实际上涉及一种文档数据转换处理,即,从一种形式的语言(原始语言)的文档数据转换到另一种形式的语言(目标语言)的文档数据。在这种数据转换过程中,利用了各种不同形式的语言自身固有的客观语言规律,例如,各种语言形式的语句中存在名词以及与该名词相关的名词搭配、动词以及与该动词相关的动词搭配等,这些词语以及搭配在其他形式语言的语料库中存在具有对应关系的词语以及搭配等,在语料库中出现频率较高的词语以及搭配的使用正确性往往也较高,等等。由于充分认识到在对专业文档进行的转换处理中与该专业文档相关的专业语料库的特殊重要性,因此在进行专业文档的转换处理时考虑了待转换文档数据的上述固有的客观语言规律在相关专业语料库中的体现,从而使得文档数据转换处理的正确性得到显著提高。
另外,在上述本发明实施例的文档处理方法中所提及的各种预定阈值,可以由本领域技术人员根据实际情况确定,可以是经验值,也可以通过有限次试验或者通过学习的方式获得或设定。此外,多次出现的“预定阈值”不一定是相同的数值,也就是说,不同次出现的“预定阈值”可以是相同的数值,也可以是不同的数值,具体根据实际需要而定。具体的获取或设定过程在此不再逐一赘述。
本发明的实施例还提供了一种文档处理装置,下面结合图8-10来描述根据本发明实施例的上述文档处理装置。
图8是示意性示出根据本发明实施例的文档处理装置的一种结构的框图。如图8所示的文档处理装置800,其包括第一处理单元810和第二处理单元820。
在文档处理装置800中,第一处理单元810根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正,第二处理单元820根据该专业名词及搭配双语语料库来判定该专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正。其中,上述专业文档是采用目标语言的单语文档,并且,上述双语包括目标语言和原始语言。
此外,如图8所示,在优选情况下,文档处理装置800还可以包括第三处理单元830。第三处理单元830根据该专业名词及搭配双语语料库来判定该专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。在本文中,如在图8以及将要描述的图9中的采用虚线表示的部件,表示该部件是可选部件而非必选部件,在其对应装置中可以包含或者不包含该可选部件。
其中,这里所说的专业名词及搭配双语语料库,其可以包含目标语言和原始语言的双语语料,并且该双语语料中的任一种语言语料中包含的每个专业名词可与至少一个另一种语言语料中包含的专业名词的意义相符并对应;以及该双语语料中的任一种语言语料中包含的每个搭配可与至少一个另一种语言语料中包含的搭配的意义相符并对应。换句话说,该双语语料可以包括目标语言语料和原始语言语料,并且,目标语言语料中的每个专业名词可与原始语言语料中包含的一个或多个专业名词的语义相符,并且在语义相符的两个专业名词之间可存在对应关系;类似地,目标语言语料中的每个搭配可与原始语言语料中包含的一个或多个搭配的语义相符,并且在语义相符的两个搭配之间可存在对应关系。
此外,该专业名词及搭配双语语料库可以包括名词搭配,在优选情况下还可以包括动词搭配。其中,这里所说的名词搭配可以至少包括“动词+名词”结构的搭配,还可以包括其他类型的名词搭配,例如,“形容词+名词”、“名词+名词”以及“名词+介词”结构的搭配;这里所说的动词搭配可以包括“动词+介词”和“动词+副词”结构的搭配。
此外,图9还示出了根据本发明实施例的文档处理装置的另一种结构的框图。如图9所示的文档处理装置900,其除了包括第一处理单元810、第二处理单元820以及可选的第三处理单元830之外,还可以包括可以用于构建获得该专业名词及搭配双语语料库的第四处理单元840。需要说明的是,在文档处理装置900中,第一处理单元810、第二处理单元820和可选的第三处理单元830的功能配置均与如图9所示的文档处理装置900中的对应部件的功能配置相同,在此不再一一赘述。
在根据本发明实施例的文档处理装置的一个实现方式中,如图9所示的文档处理装置900中的第四处理单元840可以包括筛选处理子单元910、对齐处理子单元920和构建处理子单元930。其中,筛选处理子单元910可以用于基于专业双语平行语料库,获得分别在专业双语平行语料库中的双语平行语料中出现频率高于预定阈值的专业名词和搭配;对齐处理子单元920可以用于对专业双语平行语料库中的双语语句进行对齐;以及构建处理子单元930可以用于在对齐的双语语句中的意义相符的、且在专业双语平行语料库中出现频率高于预定阈值的专业名词和搭配之间建立对应关系,从而构建并获得专业名词及搭配双语语料库。通过筛选处理子单元910、对齐处理子单元920和构建处理子单元930的协作处理,即可实现第四处理单元840的构建专业名词及搭配双语语料库的功能。
此外,在根据本发明实施例的文档处理装置的另一个实现方式中,如图9所示的文档处理装置900中的第四处理单元840除包括筛选处理子单元910、对齐处理子单元920和构建处理子单元930外、还可以包括用于对所构建的专业名词及搭配双语语料库进行补充的补充处理子单元940。
图10示意性地示出了如图9所示的补充处理子单元940的一种可能的结构的框图。如图10所示,补充处理子单元940可以包括:选择模块1010、查询模块1020以及判定模块1030。其中,选择模块1010用于在原始语言和目标语言各自的通用领域单语语料库中,分别获得每种语言的出现频率高于预定阈值的名词和搭配;查询模块1020用于利用同义词库分别获得每种语言的名词和搭配的同义词和同义搭配;以及判定模块1030用于判定在两种语言通用领域单语语料库中的现频率高于预定阈值的名词和搭配、和/或上述同义词和同义搭配是否包含在专业双语平行语料库中,以及在判定结果为“是”的情况下,将上述在两种语言通用领域单语语料库中的出现频率高于预定阈值的名词和搭配、和/或同义词和同义搭配及其在专业双语平行语料库中的原始语言形式或目标语言形式的对应译文补充至已构建的专业名词及搭配双语语料库中,并在上述在两种语言通用领域单语语料库中的出现频率高于预定阈值的名词和搭配、和/或上述同义词和同义搭配与其译文之间建立对应关系。
此外,在如图8或9所示的文档处理装置800或900中,第一处理单元810可以包括第一判定子单元和第一处理子单元。其中,第一判定子单元用于分别获得该专业文档中的专业名词、该专业名词的同义词以及该专业名词的译词的译文在专业名词及搭配双语语料库出现的频率,并确定获得的所有频率中的最大频率。第一处理子单元用于在上述最大频率为该专业名词对应的出现频率的情况下,判定该专业名词使用准确,否则判定该专业名词使用不准确;以及在该专业名词被判定为使用不准确的情况下,使用所示最大频率所对应的词对该专业名词进行修正。
另外,文档处理装置800或900中的第二处理单元820可以包括第二判定子单元和第二处理子单元。
其中,第二判定子单元用于确定专业文档中的名词搭配是否包含在专业名词及搭配双语语料库中。
第二处理子单元用于在该名词搭配被确定包含在专业名词及搭配双语语料库中的情况下,判定该名词搭配使用准确,否则判定该名词搭配使用不准确;并且在该名词搭配被判定为使用不准确的情况下,使用候选名词搭配对其进行修正。
其中,上述候选名词搭配为至少以下之一:专业名词及搭配双语语料库中的包含被判定为使用不准确的名词搭配中的名词的、且出现频率最高的名词搭配;或专业名词及搭配双语语料库中的、与被判定为使用不准确的名词搭配的原始语言形式的译文的意义相符的名词搭配。此外,修正的过程可以与上文中所描述的相似,在此不再赘述。
此外,文档处理装置800或900中的第三处理单元830可以包括第三判定子单元和第三处理子单元。
其中,第三判定子单元用于确定专业文档中的动词搭配是否包含在专业名词及搭配双语语料库中。
第三处理子单元用于在动词搭配被确定包含在专业名词及搭配双语语料库中的情况下,判定该动词搭配使用准确,否则判定该动词搭配使用不准确;并且在该动词搭配被判定为使用不准确的情况下,使用候选动词搭配对该动词搭配进行修正。
其中,上述候选动词搭配为至少以下之一:专业名词及搭配双语语料库中的包含被判定为使用不准确的动词搭配中的动词的、且出现频率最高的动词搭配;或专业名词及搭配双语语料库中的、与被判定为使用不准确的动词搭配的原始语言形式的译文的意义相符的动词搭配。此外,修正的过程可以与上文中所描述的相似,在此不再赘述。
上述根据本发明实施例的文档处理装置的各个组成模块或者子模块所能进行的处理的细节,例如可以参见上述参照图1-7对根据本发明实施例的文档处理方法的相应步骤的描述。为了简洁起见,细节在此不逐一赘述。
通过以上的描述可以看出,在根据本发明实施例的文档处理装置中,能够通过利用预设的或构建的专业名词及搭配双语语料库,来判断专业文档中的专业名词、名词搭配(以及优选情况下还包括动词搭配)的使用是否准确,并进而对使用不准确的专业名词、名词搭配(以及优选情况下还包括动词搭配)进行修正。传统的文档处理装置主要是利用通用领域的预设的错误搭配模式数据库来检查并获得文档中的错误搭配,不适用于不同特定专业领域的文档处理;而由根据本发明实施例的文档处理装置通过利用特定专业领域的专业名词及搭配双语语料库来对文档进行处理,以便实现对文档中使用错误的专业名词、搭配进行识别和修正,并且可以适用于不同特定专业领域。此外,显著地提高了处理的正确性。
上述根据本发明实施例的文档处理方法和装置可以应用在需要进行不同形式语言的文档数据之间的转换处理的各种技术领域,这些领域的示例包括但不限于:电子字典,自动导航,数据挖掘,等等。在电子字典技术领域,需要从原始语言形式的词语或短语等转换得到与其含义对应的目标语言形式的词语或短语等。易于理解,这种转换处理的正确性越高,电子字典的使用效率也就越高。在自动导航技术领域,如果输入的是使用者不能理解的、原始语言形式的导航请求,则需要将该导航请求及其相关导航结果转换成与其含义对应的且使用者能够理解的目标语言形式的导航请求和导航结果。同样,这种转换处理的正确性越高,导航的效率也就越高。在数据挖掘技术领域,要求数据源必须是真实的、大量的,发现的是用户感兴趣的知识,并且发现的知识要可接受、可理解、可运用,因此同样可以运用根据本发明实施例的文档处理方法和装置针对数据挖掘的处理过程和结果在各种形式的语言之间进行转换。这种转换处理的正确性越高,数据挖掘的可信度也就越高。概而言之,在凡是需要对文档数据进行不同形式的语言之间的数据转换处理的领域中,都可以应用上述根据本发明实施例的文档处理方法和装置,而且能够显著提高文档数据转换处理的正确性。
上述根据本发明实施例的文档处理装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图11所示的通用机器1100)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图11是示出了可用来实现根据本发明实施例的文档处理方法和文档处理装置的一种可能的信息处理设备的硬件配置的结构简图。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,还根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件也连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1109经由网络例如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1110上,使得从中读出的计算机程序可根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的文档处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
根据本发明实施例的上述文档处理方法和装置,能够通过利用预设的或构建的专业名词及搭配双语语料库,来判断专业文档中的专业名词、名词搭配(以及优选情况下还包括动词搭配)的使用是否准确,并进而对使用不准确的专业名词、名词搭配(以及优选情况下还包括动词搭配)进行修正。传统的文档处理技术主要是利用通用领域的预设的错误搭配模式数据库来检查并获得文档中的错误搭配,不适用于不同领域的文档处理;而由根据本发明实施例的文档处理方法通过利用特定专业领域的专业名词及搭配双语语料库来对文档进行处理,以便实现对文档中使用错误的专业名词、搭配进行识别和修正,并且可以适用于不同特定专业领域。此外,显著地提高了处理的正确性。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
综上,在根据本发明的实施例中,本发明提供了如下方案:
附记1.一种文档处理方法,包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,所述专业文档为采用目标语言的单语文档,所述双语包括目标语言和原始语言。
附记2.根据附记1所述的文档处理方法,还包括:根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。
附记3.根据附记1或2所述的文档处理方法,其中,所述专业名词及搭配双语语料库包括双语语料,并且所述双语语料满足以下条件:所述双语语料中的任一种语言语料中包含的每个专业名词与至少一个另一种语言语料中包含的专业名词的意义相符并对应;以及所述双语语料中的任一种语言语料中包含的每个搭配与至少一个另一种语言语料中包含的搭配的意义相符并对应。
附记4.根据附记1-3所述的任意一种文档处理方法,其中,所述专业名词及搭配双语语料库通过如下方式获得:基于专业双语平行语料库,获得分别在所述专业双语平行语料库中的双语平行语料中出现频率高于第一预定阈值的专业名词和搭配;对所述专业双语平行语料库中的双语语句进行对齐;以及在对齐的双语语句中的意义相符的、且在所述专业双语平行语料库中出现频率高于第一预定阈值的专业名词和搭配之间建立对应关系,从而构建专业名词及搭配双语语料库。
附记5.根据附记4所述的文档处理方法,还包括对所构建的专业名词及搭配双语语料库进行如下的补充处理:在所述原始语言和所述目标语言各自的通用领域单语语料库中,分别获得每种语言的出现频率高于第二预定阈值的名词和搭配;利用同义词库分别获得每种语言的所述名词和搭配的同义词和同义搭配;判定在两种语言通用领域单语语料库中的现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配是否包含在所述专业双语平行语料库中;以及在判定结果为“是”的情况下,将上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或同义词和同义搭配及其在所述专业双语平行语料库中的原始语言形式或目标语言形式的对应译文补充至已构建的专业名词及搭配双语语料库中,并在上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配与其译文之间建立对应关系。
附记6.根据附记2-5中所述的任意一种文档处理方法,其中,所述专业文档中的名词搭配为其内容含有所述专业文档中的专业名词的搭配,其包括“动词+名词”结构的搭配;以及所述专业文档中的动词搭配为与所述名词搭配中的“动词+名词”结构的搭配中包含的动词相关的搭配。
附记7.根据附记1-6所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的专业名词的使用是否准确并对使用不准确的专业名词进行修正包括:分别获得所述专业文档中的专业名词、所述专业名词的同义词以及所述专业名词的译词的译文在所述专业名词及搭配双语语料库出现的频率,并确定获得的所有频率中的最大频率;在所述最大频率为所述专业名词对应的出现频率的情况下,判定所述专业名词使用准确,否则判定其使用不准确;以及在所述专业名词被判定为使用不准确的情况下,使用所述最大频率所对应的词对所述专业名词进行修正。
附记8.根据附记1-7所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正包括:确定所述专业文档中的名词搭配是否包含在所述专业名词及搭配双语语料库中;在所述名词搭配被确定包含在所述专业名词及搭配双语语料库中的情况下,判定所述名词搭配使用准确,否则判定其使用不准确;并且在所述名词搭配被判定为使用不准确的情况下,使用候选名词搭配对其进行修正,其中,所述候选名词搭配为至少以下之一:所述专业名词及搭配双语语料库中的包含被判定为使用不准确的名词搭配中的名词的、且出现频率最高的名词搭配;或所述专业名词及搭配双语语料库中的、与被判定为使用不准确的名词搭配的原始语言形式的译文的意义相符的名词搭配。
附记9.根据附记2-8所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正包括:确定所述专业文档中的动词搭配是否包含在所述专业名词及搭配双语语料库中;在所述动词搭配被确定包含在所述专业名词及搭配双语语料库中的情况下,判定所述动词搭配使用准确,否则判定其使用不准确;并且在所述动词搭配被判定为使用不准确的情况下,使用候选动词搭配对其进行修正,其中,所述候选动词搭配为至少以下之一:所述专业名词及搭配双语语料库中的包含被判定为使用不准确的动词搭配中的动词的、且出现频率最高的动词搭配;和所述专业名词及搭配双语语料库中的、与被判定为使用不准确的动词搭配的原始语言形式的译文的意义相符的动词搭配。
附记10.一种文档处理装置,包括:第一处理单元,其被配置用于根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及第二处理单元,其被配置用于根据所述专业名词及搭配双语语料库来判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,所述专业文档为采用目标语言的单语文档,所述双语包括目标语言和原始语言。
附记11.根据附记10所述的文档处理装置,还包括:第三处理单元,其被配置用于根据所述专业名词及搭配双语语料库来判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。
附记12.根据附记10或11所述的文档处理装置,其中,所述专业名词及搭配双语语料库包括双语语料,并且所述双语语料满足以下条件:所述双语语料中的任一种语言语料中包含的每个专业名词与至少一个另一种语言语料中包含的专业名词的意义相符并对应;以及所述双语语料中的任一种语言语料中包含的每个搭配与至少一个另一种语言语料中包含的搭配的意义相符并对应。
附记13.根据附记10-12所述的文档处理装置,还包括被配置用于构建获得所述专业名词及搭配双语语料库的第四处理单元,其中,所述第四处理单元包括:筛选处理子单元,其被配置用于基于专业双语平行语料库,获得分别在所述专业双语平行语料库中的双语平行语料中出现频率高于第一预定阈值的专业名词和搭配;对齐处理子单元,其被配置用于对所述专业双语平行语料库中的双语语句进行对齐;以及构建处理子单元,其被配置用于在对齐的双语语句中的意义相符的、且在所述专业双语平行语料库中出现频率高于第一预定阈值的专业名词和搭配之间建立对应关系,从而构建并获得专业名词及搭配双语语料库。
附记14.根据附记13所述的文档处理装置,其中,所述第四处理单元还包括被配置用于对所构建的专业名词及搭配双语语料库进行补充的补充处理子单元,并且所述补充处理子单元包括:选择模块,其被配置用于在所述原始语言和所述目标语言各自的通用领域单语语料库中,分别获得每种语言的出现频率高于第二预定阈值的名词和搭配;查询模块,其被配置用于利用同义词库分别获得每种语言的所述名词和搭配的同义词和同义搭配;判定模块,其被配置用于判定在两种语言通用领域单语语料库中的现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配是否包含在所述专业双语平行语料库中;以及在判定结果为“是”的情况下,将上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或同义词和同义搭配及其在所述专业双语平行语料库中的原始语言形式或目标语言形式的对应译文补充至已构建的专业名词及搭配双语语料库中,并在上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配与其译文之间建立对应关系。
附记15.根据附记10-14所述的任意一种文档处理装置,其中,所述专业文档中的名词搭配为其内容含有所述专业文档中的专业名词的搭配,其包括“动词+名词”结构的搭配;以及所述专业文档中的动词搭配为与所述名词搭配中的“动词+名词”结构的搭配中包含的动词相关的搭配。
附记16.根据附记10-15所述的任意一种文档处理装置,其中,所述第一处理单元包括:第一判定子单元,其被配置用于分别获得所述专业文档中的专业名词、所述专业名词的同义词以及所述专业名词的译词的译文在所述专业名词及搭配双语语料库出现的频率,并确定获得的所有频率中的最大频率;以及第一处理子单元,其被配置用于在所述最大频率为所述专业名词对应的出现频率的情况下,判定所述专业名词使用准确,否则判定其使用不准确,以及在所述专业名词被判定为使用不准确的情况下,使用所述最大频率所对应的词对所述专业名词进行修正。
附记17.根据附记10-16所述的任意一种文档处理装置,其中,所述第二处理单元包括:第二判定子单元,其被配置用于确定所述专业文档中的名词搭配是否包含在所述专业名词及搭配双语语料库中;和第二处理子单元,其被配置用于在所述名词搭配被确定包含在所述专业名词及搭配双语语料库中的情况下,判定所述名词搭配使用准确,否则判定其使用不准确;并且在所述名词搭配被判定为使用不准确的情况下,使用候选名词搭配对其进行修正,其中,所述候选名词搭配为以下其中之一:所述专业名词及搭配双语语料库中的包含被判定为使用不准确的名词搭配中的名词的、且出现频率最高的名词搭配;或所述专业名词及搭配双语语料库中的与被判定为使用不准确的名词搭配的原始语言形式的译文的意义相符的名词搭配。
附记18.根据附记11-17所述的任意一种文档处理装置,其中,所述第三处理单元包括:第三判定子单元,其被配置用于确定所述专业文档中的动词搭配是否包含在所述专业名词及搭配双语语料库中;和第三处理子单元,其被配置用于在所述动词搭配被确定包含在所述专业名词及搭配双语语料库中的情况下,判定所述动词搭配使用准确,否则判定其使用不准确;并且在所述动词搭配被判定为使用不准确的情况下,使用候选动词搭配对其进行修正,其中,所述候选动词搭配为以下其中之一:所述专业名词及搭配双语语料库中的包含被判定为使用不准确的动词搭配中的动词的、且出现频率最高的动词搭配;或所述专业名词及搭配双语语料库中的与被判定为使用不准确的动词搭配的原始语言形式的译文的意义相符的动词搭配。
附记19.一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行根据附记1-9中任意一项所述的文档处理方法。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此,所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等同含义来限定。

Claims (10)

1.一种文档处理方法,包括:
根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及
根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;
其中,所述专业文档为采用目标语言的单语文档,所述双语包括目标语言和原始语言。
2.根据权利要求1所述的文档处理方法,还包括:
在对使用不准确的名词搭配进行修正之后,根据所述专业名词及搭配双语语料库,判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。
3.根据权利要求1或2所述的文档处理方法,其中,所述专业名词及搭配双语语料库通过如下方式获得:
基于专业双语平行语料库,获得分别在所述专业双语平行语料库中的双语平行语料中出现频率高于第一预定阈值的专业名词和搭配;
对所述专业双语平行语料库中的双语语句进行对齐;以及
在对齐的双语语句中的意义相符的、且在所述专业双语平行语料库中出现频率高于第一预定阈值的专业名词和搭配之间建立对应关系,从而构建专业名词及搭配双语语料库。
4.根据权利要求3所述的文档处理方法,还包括对所构建的专业名词及搭配双语语料库进行如下的补充处理:
在所述原始语言和所述目标语言各自的通用领域单语语料库中,分别获得每种语言的出现频率高于第二预定阈值的名词和搭配;
利用同义词库分别获得每种语言的所述名词和搭配的同义词和同义搭配;
判定在两种语言通用领域单语语料库中的现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配是否包含在所述专业双语平行语料库中;以及
在判定结果为“是”的情况下,将上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或同义词和同义搭配及其在所述专业双语平行语料库中的原始语言形式或目标语言形式的对应译文补充至已构建的专业名词及搭配双语语料库中,并在上述在两种语言通用领域单语语料库中的出现频率高于第二预定阈值的名词和搭配、和/或所述同义词和同义搭配与其译文之间建立对应关系。
5.根据权利要求2-4中所述的任意一种文档处理方法,其中,
所述专业文档中的名词搭配为其内容含有所述专业文档中的专业名词的搭配,其包括“动词+名词”结构的搭配;以及
所述专业文档中的动词搭配为与所述名词搭配中的“动词+名词”结构的搭配中包含的动词相关的搭配。
6.根据权利要求1-5所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的专业名词的使用是否准确并对使用不准确的专业名词进行修正包括:
分别获得所述专业文档中的专业名词、所述专业名词的同义词以及所述专业名词的译词的译文在所述专业名词及搭配双语语料库出现的频率,并确定获得的所有频率中的最大频率;
在所述最大频率为所述专业名词对应的出现频率的情况下,判定所述专业名词使用准确,否则判定其使用不准确;以及
在所述专业名词被判定为使用不准确的情况下,使用所述最大频率所对应的词对所述专业名词进行修正。
7.根据权利要求1-6所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正包括:
确定所述专业文档中的名词搭配是否包含在所述专业名词及搭配双语语料库中;
在所述名词搭配被确定包含在所述专业名词及搭配双语语料库中的情况下,判定所述名词搭配使用准确,否则判定其使用不准确;并且
在所述名词搭配被判定为使用不准确的情况下,使用候选名词搭配对其进行修正,其中,所述候选名词搭配为至少以下之一:
所述专业名词及搭配双语语料库中的包含被判定为使用不准确的名词搭配中的名词的、且出现频率最高的名词搭配;和
所述专业名词及搭配双语语料库中的、与被判定为使用不准确的名词搭配的原始语言形式的译文的意义相符的名词搭配。
8.根据权利要求2-7所述的任意一种文档处理方法,其中,所述的判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正包括:
确定所述专业文档中的动词搭配是否包含在所述专业名词及搭配双语语料库中;
在所述动词搭配被确定包含在所述专业名词及搭配双语语料库中的情况下,判定所述动词搭配使用准确,否则判定其使用不准确;并且
在所述动词搭配被判定为使用不准确的情况下,使用候选动词搭配对其进行修正,其中,所述候选动词搭配为至少以下之一:
所述专业名词及搭配双语语料库中的包含被判定为使用不准确的动词搭配中的动词的、且出现频率最高的动词搭配;和
所述专业名词及搭配双语语料库中的、与被判定为使用不准确的动词搭配的原始语言形式的译文的意义相符的动词搭配。
9.一种文档处理装置,包括:
第一处理单元,其被配置用于根据专业名词及搭配双语语料库来判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及
第二处理单元,其被配置用于根据所述专业名词及搭配双语语料库来判定所述专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;
其中,所述专业文档为采用目标语言的单语文档,所述双语包括目标语言和原始语言。
10.根据利要求9所述的文档处理装置,还包括:
第三处理单元,其被配置用于根据所述专业名词及搭配双语语料库来判定所述专业文档中的使用不准确的动词搭配,并对使用不准确的动词搭配进行修正。
CN201110421595.4A 2011-12-15 2011-12-15 文档处理方法和文档处理装置 Expired - Fee Related CN103164390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110421595.4A CN103164390B (zh) 2011-12-15 2011-12-15 文档处理方法和文档处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110421595.4A CN103164390B (zh) 2011-12-15 2011-12-15 文档处理方法和文档处理装置

Publications (2)

Publication Number Publication Date
CN103164390A true CN103164390A (zh) 2013-06-19
CN103164390B CN103164390B (zh) 2016-05-18

Family

ID=48587486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110421595.4A Expired - Fee Related CN103164390B (zh) 2011-12-15 2011-12-15 文档处理方法和文档处理装置

Country Status (1)

Country Link
CN (1) CN103164390B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016131278A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种文档查错方法和装置
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN109614624A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种英文语句的识别方法及电子设备
CN110895566A (zh) * 2018-08-23 2020-03-20 优估(上海)信息科技有限公司 一种车辆评估方法和装置
CN111241833A (zh) * 2020-01-16 2020-06-05 支付宝(杭州)信息技术有限公司 一种文本数据的分词方法、装置及电子设备
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1110882A (zh) * 1993-06-18 1995-10-25 欧洲佳能研究中心有限公司 处理两种文字对照的数据库的方法与装置
EP1111514A1 (en) * 1999-12-20 2001-06-27 Xerox Corporation Phrase translation method and system
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1110882A (zh) * 1993-06-18 1995-10-25 欧洲佳能研究中心有限公司 处理两种文字对照的数据库的方法与装置
EP1111514A1 (en) * 1999-12-20 2001-06-27 Xerox Corporation Phrase translation method and system
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
麻丽莉等: "军事平行语料库的建立及其在军事翻译方面的应用", 《国防科技》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016131278A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种文档查错方法和装置
CN106407188A (zh) * 2015-07-16 2017-02-15 中兴通讯股份有限公司 一种文档查错方法和装置
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN110895566A (zh) * 2018-08-23 2020-03-20 优估(上海)信息科技有限公司 一种车辆评估方法和装置
CN109614624A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种英文语句的识别方法及电子设备
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备
CN111241833A (zh) * 2020-01-16 2020-06-05 支付宝(杭州)信息技术有限公司 一种文本数据的分词方法、装置及电子设备

Also Published As

Publication number Publication date
CN103164390B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103164390A (zh) 文档处理方法和文档处理装置
US8572560B2 (en) Collaborative software development systems and methods providing automated programming assistance
US9201869B2 (en) Contextually blind data conversion using indexed string matching
Zeman et al. Addicter: what is wrong with my translations?
US7783659B2 (en) Method and system for assessing and refining the quality of web services definitions
Rinser et al. Cross-lingual entity matching and infobox alignment in Wikipedia
US10963226B2 (en) Generating compilable code from uncompilable code
Faria et al. OAEI 2016 results of AML
US20200372218A1 (en) Data-driven automated selection of profiles of translation professionals for translation tasks
Majumdar et al. Comment-mine—a semantic search approach to program comprehension from code comments
CN105335378A (zh) 多数据源的信息处理装置、服务器及方法
CN103020040A (zh) 源语言改写处理方法和设备及机器翻译系统
Küçük Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles
CN103678371A (zh) 词库更新装置、数据整合装置和方法以及电子设备
Tiedemann et al. Democratizing neural machine translation with OPUS-MT
RU2546064C1 (ru) Распределенная система и способ языкового перевода
CN104111917A (zh) 数据处理装置、数据处理方法以及电子设备
Habibi et al. Homonymy and polysemy detection with multilingual information
Confort et al. Learning ontology from text: a storytelling exploratory case study
Putrycz et al. Connecting legacy code, business rules and documentation
Faiz et al. OD2WD: From Open Data to Wikidata through Patterns.
Kumar et al. Natural Language Processing based Automatic Making of Use Case Diagram
Chen et al. Rethinking word-level auto-completion in computer-aided translation
CN103377184B (zh) 处理语言数据的装置、方法以及设备
Ferraresi et al. Comparing collocations in translated and learner language: In search of a method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160518

Termination date: 20181215