CN101216819B - 基于领域本体的名片信息中译英自动翻译方法 - Google Patents
基于领域本体的名片信息中译英自动翻译方法 Download PDFInfo
- Publication number
- CN101216819B CN101216819B CN200710304514A CN200710304514A CN101216819B CN 101216819 B CN101216819 B CN 101216819B CN 200710304514 A CN200710304514 A CN 200710304514A CN 200710304514 A CN200710304514 A CN 200710304514A CN 101216819 B CN101216819 B CN 101216819B
- Authority
- CN
- China
- Prior art keywords
- address
- name
- translation
- instance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于领域本体的名片信息中译英自动翻译方法,包括为名片中所包括信息建立领域本体库及翻译本体库;向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入,或直接调用数据库中的用户电子名片,提取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息;获取用户输入的参数值,进行切分和语法分析,进行匹配翻译;以及输出翻译结果并接收用户的修订,将修订结果存储到数据库中。本发明所提供的英文翻译准确率相当高,实用性强。
Description
技术领域
本发明涉及一种基于本体的翻译方法,尤其涉及一种基于领域本体的名片信息中译英自动翻译方法。
背景技术
机器翻译涉及到语言学、计算机科学、认知心理学等多种学科,是计算语言学中非常重要的分支。但它在语言学和计算机实现方面都存在着一些尚待解决的难题,比如自然语言的多义问题、译文的词序问题、介词处理问题、上下文的关联问题、机器翻译所需知识的获取和表达及中译外机器翻译的汉语分词歧义等问题。这些问题依然限制着译文的质量,也不是用规则能够完全解决的,因而使机器翻译的结果难以令人满意。
特别是汉语的机器翻译,存在的问题相当多。汉语和许多印欧语系语言不同,汉语在词形上属于孤立语,采用连续书写形式,词与词之间无自然界限,无词尾形式标志,无形态变化,这种“三无”现象使得人们在阅读时要借助大脑思维切分词语,而用计算机理解和处理书面汉语时,就必须先进行自动切分词语的工作,而汉语语义及结构上的复杂性与多变性和“三无”现象的存在,给汉语自动分词带来了极大困难。我国中文信息处理发展已经经过了很多年,但是关于“词”如何进行抽象定义和判定的问题到现在也没有很好的解决。虽然我国已制定了《信息处理用现代汉语分词规范》,但仍然有一些情况很难判断。自80年代初提出汉语自动分词以来,已经研究出了许多分词方法。如最大匹配MM方法、RMM方法、逐词遍历法、设立切分标记法、OM方法、有穷多层次列举法、二次扫描法、基于词频统计的分词方法、基于期望的分词方法、双向扫描法、邻接约束法、最少分词词频选择方法、神经元网络方法等。这些方法对常规句子的处理,一般具有很高的精度,但在处理歧义切分方面,都存在明显的缺陷。歧义切分是汉语分词中不可避免的现象,也是自然语言处理中的一个难点。另外,中文的使用习惯会产生大量的信息省略,这是一种信息损失。会导致误解以及错误的传播,而当中文翻译为英文的时候,由于二者之间有很多语法上得差异,所以为了保证翻译的正确率和完整性,必须要找回这些信息损失,而要想找回这些损失的信息,必须具备大量的知识储备,而计算机并不具备,因而它们无法准确的理解文本所要表达的信息,所以建立在这种错误理解基础上的翻译必然会大打折扣。在翻译系统中最重要的就是检索匹配,只要保持高的检索匹配正确率,才能提高翻译的准确率,而通常的检索方法采用的是词形匹配,而不是语义匹配。这样自然会降低检索的准确率。产生这些问题的根源在于这种词形查询对于计算机而言没有任何含义,或者说没有语义,因而检索的结果不能完全满足用户检索的意图。
另外,自然语言是一种不断发展、不断变化、约定俗成的交流工具,因而具有很大的随意性。将这些千变万化的现象条理化,以有限的规则来应付无边无际的自然语言,也很难实现信息的准确翻译。特别是,很多语句需要借助上、下文的关联信息才能进行,这些都是造成机器翻译不准确的因素,因此,目前,虽然机器翻译技术可以部分帮助人们完成一些翻译工作,但这些帮助都相当有限。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于领域本体的名片信息中译英自动翻译方法,能提供准确的名片信息翻译,非常实用。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于领域本体的名片信息中译英自动翻译方法,以词料库、语料库为基础,为名片中所包括信息建立领域本体库,所述领域本体库中至少包括地址领域类、户名领域类、单位名称类,其中,所述联系地址类至少包括:地址分割符、前缀词汇、地址小节和地址,为地址分割符、前缀词汇、地址小节和地址设置属性及属性值,同时为所述地址分割符、前缀词汇、地址小节和地址建立实例;所述户名领域类至少包括:地址标识、地址自定义称谓、户名标识和子户名、户名,为所述地址标识、地址自定义称谓、户名标识和子户名设置属性及属性值,同时为所述地址标识、地址自定义称谓、户名标识和子户名建立实例;所述属性及属性值是依据所述词料库、语料库训练而得到的语义而设置的;单位名称类是收集单位名称,并建立之间的语义联系;即领域本体库是基于语义关联的关系数据库;以英汉词典、汉英词典和汉英语法规则建立单词、词句的语法翻译实例,同时建立翻译实例与领域本体库中的各元素所建立实例之间的对应关系;该方法还包括以下步骤:
A、向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入;
B、获取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的参数值,对于邮编、联系电话、传真的信息,进行直译,用户输入的数字参数不译;对于联系人名称,判断是否为汉语,若是按名和姓进行切分,查找所述翻译本体库是否有匹配的名,若有则译为相应英文,否则译为拼音,如果不是汉语则不译;对于职位,则直接输入到翻译本体库进行匹配,若匹配则将对应的英文翻译作为输出,不匹配时则翻译为汉语拼音;对于联系地址,则以用户输入的参数值为查询条件,在领域本体库的地址领域类、户名领域类进行匹配,若存在匹配项,则按领域本体库中的切词方式对联系地址及单位名称进行切词,再查找这些切词对应的翻译实例,再根据实例中训练的英文语法翻译规则进行翻译;若不存在匹配项,则直接进行切词,将每个切词输入到领域本体库进行匹配,若匹配则获得每个切词的翻译结果,若不匹配则翻译为汉语拼音,根据实例中训练的英文语法翻译规则进行翻译;对于单位名称则输入到单位名称类中进行匹配,匹配成功则按设定的规则进行翻译,否则以汉语拼音作为翻译结果;
C、将翻译后的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输出,并接收用户的修正,修正结果作为翻译结果输出;则将用户修正的词句结果保存到翻译本体库中的对应实例中,并更新实例中该修正词句的翻译结果。
其中,步骤B还包括:
对待检索信息进行匹配时,获取所述待检索信息的属性值,即获得其固有的属性,根据这些匹配项的属性值利用推理机进行推理,以自动辨认出本体中的对象具体属于哪个类,可以在所确定的较明确的分类中完成准确搜索。
其中,所述建立本体库,包括:
a、本体建模,发现领域内的概念、概念的继承层次、潜在的关系和公理;
b、为本体模型中各元素添加实例,即进行语义标注;
c、将现实应用中涉及的实例和抽象的本体概念相联系,进行语义标注;
d、通过智能推理优化本体库。
其中,步骤B还包括:
对于输入到领域本体库中不匹配的词句,向用户返回不匹配结果并提供用户的切词输入,在用户输入切词输入后将切词结果在领域本体库中进行再次匹配;所述不匹配包括切词不匹配及翻译实例中无匹配结果。
其中,所述词料库、语料库由自然语言数据库训练而来,所述自然语言数据库至少包括字典、词典、习惯用语、报刊、书籍、互联网web页面信息。
其中,步骤A还可以为:
直接调用数据库中的用户电子名片,提取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息。
本发明通过采用信息量较少的名片作为自动翻译对象,翻译难度相对较低,处理好名片信息中的地址、单位名称等翻译问题,即可实现名片信息的准确翻译。本发明利用领域本体库作为翻译关系数据库,本体库中的收录的词句均包含有语义信息,可实现查询词句的准确匹配,由于本体库中的实例信息等均是可动态维护的,因此,所提供的英文翻译准确率相当高。本发明有较高的实用性。
附图说明
图1为本体库的建立流程图;
图2为本体库的结构示意图;
图3为本发明基于领域本体的名片信息中译英自动翻译方法的流程图;
图4为本发明地址的语法分析结构示意图;
图5为本发明户名的语法分析结构示意图。
具体实施方式
以下对本发明作进一步详细描述。
本体论起源于古代西方哲学,自上个世纪八十年代起,本体论的思想被引入人工智能领域,人们开始逐步对现实世界进行建模,从某个领域中抽象出概念以及概念间关系的集合,即形成该领域的本体。本体有助于改变不同团体或系统对领域内同一概念采用不同术语描述的状况,因而被广泛应用在数字图书馆,信息集成等诸多领域。在不同的应用中,本体的定义是不同的,本发明中,本体是基于知识共享的背景,是概念化的明确规约。本体通过对概念的严格定义和概念之间的关系来确定概念的精确含义,以表示共同认可的、可共享的知识。因此把现实世界中某个应用领域抽象或概括成一组概念及概念之间的关系,构造出这个领域的本体,会使计算机对该领域的信息处理大为方便。从而也解决了词句歧义的问题。本体为特定领域的人和应用系统的交流提供了一种通用的知识共享模式,使用本体技术可以更好的表达出事物之间特有的属性,而事物本身在本体中的就是以类的表现形式,而通过严格属性的定义和提取,在系统特定的领域之内,便提供了一个通用的,认可的标准,从而使系统在检索查询对应的词汇时,提高了准确率和效率。
作为领域本体,它是用于描述指定领域的一种专门本体。它给出了领域实体概念及相互关系,领域活动以及该领域所具有的特征和规律的一种形式化描述。从开发者的角度看,领域本体定义了开发者之间需要共享的领域信息的公共词汇;从系统的角度看,领域本体定义了能被机器理解的领域概念及其关系。如果把每一个知识领域抽象成一套概念体系,在具体化为一个词表来表示,包括每一个词的明确含义、词与词之间的关系以及该领域的一些公理知识的陈述等,并且能够与这个知识领域的专家达成某种共识,即能共享这套词表,所有这些就构成了该领域的一个本体。
图1为本体库的建立流程图,如图1所示,本体库的建立包括以下步骤:
步骤101:本体建模。建模主要集中在领域知识的抽象表示上,即发现领域内的概念、概念的继承层次、潜在的关系和公理等。对于领域中的实例,在建模时一般不需要考虑它们,除非建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有本体和一个具体的应用结合时考虑实例才有意义。即建立初步的以类、类属性以及属性值,建立一个初步的本体模型。
步骤102:为本体模型中各元素添加实例,即进行语义标注,该步骤可视为丰富本体的过程。如果从语义Web的角度看,语义标注便是语义信息的发布过程:用户依据一定的本体,为页面添加语义信息。然而,语义Web中的标注问题由于受到多方面因素的影响,变得很复杂。语义Web上的语义信息能像页面本身的创建一样,由用户或权威机构共同完成。对于涉及专业领域的本体可由领域中的权威机构统一制定。
步骤103:将现实应用中涉及的实例和抽象的本体概念相联系,这正是语义标注(Semantic Annotation)所要做的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。从语义Web的角度来看,在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解,这是整个语义Web实现的基础。
步骤104:通过智能推理优化本体库。语义标注推动了语义Web走向实际应用,智能Agent能够根据Web上的语义信息实现智能推理任务,并能提高信息检索的精确性。语义推理时,要考虑命题的真假意义。这与人们通常推理的习惯是一致的,因为在推理时,人们自然或不自然地要考虑到所讨论命题的真与假。比如,数学推理都是在假设前提为真的情况下,证明结论也为真。在证明过程中,总是认为命题非真即假,也就是说推理是涉及命题语义的。命题的真与假蕴含着人们的思维。而计算机不具有思维能力。所以,涉及命题真值的语义推理本身不适于作为计算机推理的算法。如果推理时不考虑命题的语义,仅注重符号化后命题(或公式)的形式,只要满足某种形式,就可以得到某一结论。由于计算机不具有判别命题真假的思维能力,而识别公式的形式却是其容易完成的工作。所以,语法推理作为计算机推理的理论基础是非常自然的。在所建立的推理规则系统之上,通过识别、判定公式的形式而展开的语法推理是最适合计算机推理的方法。在研究推理方面,还没有其他方法比语法推理的思想更能被计算机所接受。因此,语法推理是智能推理研究的一种有效方法。本发明的本体库优化方式即采用语法推理的方式来实现,实现的手段有很多种,这里不再一一举例说明。
需要指出的是,步骤104是一种本体库维护手段,在所建立本体库的基础上实现的一种优化,这种优化是非常谨慎的一种维护。
以下以地点这一主体,说明基于图1所示流程建立本体库是如何实现的。当然,这里的示例仅为说明性的,不是对本发明本体库建立的限制。
图2为本体库的结构示意图,如图2所示,本体库是一种基于关联关系建立起来的一种关系数据库,这种关联关系是基于语义的任何关联关系,例如,对于一个地点,与其关联的信息可能包括该地点所属的地理区域,其电话是什么,邮编是什么,该地点属于国家单位、企业还是学校等,该地点周边设施是什么、有哪些等,该地点的标识是什么?确切的地址是什么?与所述地点相关的信息还会有其他的关联关系,例如说对于上述地点的邮编,共用这些邮编的地址还有哪些,各是什么等,与上述地点电话号码相关的任何其他信息,也与上述的电话号码有关联关系。图2所示的本体的描述仅是说明性的一般描述,并不意味着对本体的限定。
所以使用本体技术后,当计算机进行信息查询的时,会通过其附带的大量的语义信息,增加了匹配成功的机会,也就由此提高了准确率。
本发明的名片信息翻译方法,正是基于领域本体库进行的,特别是名片中地址及户名信息的翻译,以下详细介绍之。
图3为本发明基于领域本体的名片信息中译英自动翻译方法的流程图,如图3所示,本发明基于领域本体的名片信息中译英自动翻译方法包括以下步骤:
步骤201:为名片中所包括信息建立领域本体库及翻译本体库。如前述的那样,领域本体库是一种关系数据库,其中,所述领域本体库中至少包括地址领域类、户名领域类、单位名称类。以下详细介绍本发明的领域本体模型的构成。
由领域中的术语组成的词典是一个领域上的分类空间,其目的为了概念的导航、搜索、信息获取。而分类空间的语义很弱,刻画了概念化的术语的简单的语义关系,没有捕获和表现复杂的语义概念,本发明试图表达精确的、复杂的、一致的、丰富的概念语义。构建领域本体,要使用本体建模元语,把领域词典映射到本体概念体系中。本体中,类是一种经过组织的结构化的知识表示方法,每个类形成一个独立的知识单元,类表示对知识的描述很直观,能反映事物间的联系。
对地址和户名进行语法分析,需要了解二者的组成和结构。确定构成地址及户名各个组成部分在地址户名中的关系,以及各自在地址及户名中的作用。并将这种关系和作用利用适合在本体模型中的层次结构加以表示。这里,地址和户名的信息来自于字典、词典、习惯用语、报刊、书籍、互联网web页面信息,信息来源愈广,本体库中提取的语义愈丰富,因此,一切具有语义训练的素材均作为本体库的元素。
图4为本发明地址的语法分析结构示意图,如图4所示,地址是由一个或者一个以上的独立的地址小节即子地址(sa,sub address)组成。地址小节由一个地址前缀(av,address vocabulary)词汇和一个地址分割符(as,addresssegmentation)组成。本发明中,地址、地址小节、地址前缀和地址分割符的组成关系可概括为:地址前缀>地址分割符>地址小节>地址。为了直观的描述问题,在此给出典型的分析例句。针对地址“山东省日照市海曲路88号”的语法分析为“[山东/av省/as]/sa[日照/av市/as]/sa[海曲/av路/as]/sa[88/av号/as]/sa”。本发明中,地址、地址小节、地址前缀和地址分割符即是地址领域的类。
图5为本发明户名的语法分析结构示意图,如图5所示,户名是由一个主户名(name)加上0个或者多个子户名(sub name)组成。子户名由三部分组成:地址标识(al,address label)、户名自定义称谓(sl,self label)和户名标识(name label)。所以户名的组成关系可概括为:地址标示>地址自定义称谓>户名标识>子户名>户名。为了直观的描述问题,在此给出户名典型的分析例句。针对户名“北京邮电大学”的语法分析为“北京al邮电sl大学nl”。地址标识、户名自定义称谓和户名标识是户名领域的类。
其中,一个完整的地址是由一个或一个以上的地址字节组成,而每个地址字节又是有一个或者一个以上的地址分隔符和地址前缀组成。一个地址分隔符必须具备一个地址前缀,所以二者之间具有约束的关系。即为must_have关系。
为地址前缀、地址分割符、地址小节、地址标示、地址自定义称谓、户名标识以及子户名设置属性,并设置属性值。这些属性值是通过现有语料库进行训练所得的语义关联关系。关于属性值,需要利用对本体的自动推理来获得,主要就是依靠为每一个类建立的固有的属性,成为与其他类区分的特性,通过推理机,利用特有的属性可以自动的辨认出本体中的对象具体属于哪个类,从而自动起到分析推理的作用。本发明的领域本体库中存储了上述的具有语义关联的地址项,所述地址项由领域本体库的开发人员输入,并建立它们之间的语义关联关系,这些地址项足够多,对于符合前述语义分析的,按前述方式存储即可,而对于特殊的地址项,作为新的地址项,存储到领域本体库中,同时建立该存储地址项的语义关联项。对于地址前缀、地址分割符、地址小节、地址标示、地址自定义称谓、户名标识以及子户名,本发明还为其设置相应的实例,即记载其语义相关的信息,例如,对于“北京邮电大学”这一户名,还有“北京海淀西土城路10号”电话号码“010-62283100”等多项信息与其语义关联。这些地址项下的实例有助于实现语义的检索,以及验证领域本体中所收录信息的准确性。
对于单位名称类同样以所收集到的所有单位名称作为其元素,同时建立单位名称的语义关联关系,即为每个单位名称建立实例,例如单位简介、单位的地址、联系方式等信息。
领域本体库中不仅包括完整的地址、户名及单位名称等,还包括核心词句项,如北京、主要省市、各大学名称、各国家机关名称等,也就是说,建立的领域本体库所搜集的信息量愈大,其功用就愈强,本发明所获得的翻译结果也更准确。
本发明的本体库可通过protégé2000来建立。protégé2000是斯坦福大学的Stanford Medical Informatics开发的一个开放源码的本体编辑器,其由Java编写。本发明在protégé2000的基础上,结合前述的本体建立方法,建立本发明的领域本体库。
建立领域本体库后,还需要建立翻译本体库,以实现对领域本体库的支持。翻译本体库以英汉互译词典、各种英汉互译的语法规则为输入语料库,建立汉语翻译的翻译本体库,以实现对前述领域本体库的支持,也即在前述领域本体库中增加了各类元素的英文语义项,建立了英汉互相关联的关系。本发明的翻译本体库包括基础词汇库和临时词汇库,基础词汇库用于翻译时查询,临时词汇库用于只有查询权限使用人员添加词汇,经管理员确认才能导入基础词汇库,以实现对翻译本体库的动态维护。
步骤202:向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入。为了提高本发明翻译结果的准确程度,需向用户提供带有一定输入要求的界面,即向用户说明哪里是地址输入接口,哪里是邮编、联系人名称、职位、单位名称、联系电话、传真的输入接口。用户名片信息的输入也可以直接输入电子名片信息,直接调用数据库中的用户电子名片,然后直接提取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息;
步骤203:获取用户输入的参数值,进行切分和语法分析,进行匹配翻译。对于邮编、联系电话、传真的信息,进行直译,用户输入的数字参数不译。对于用户输入的阿拉伯数字,无需翻译,仅将邮编、联系电话、传真等词汇进行翻译即可,因此,上述词汇的翻译准确率是完全可以保证的,也不是名片信息翻译的重点。对于联系人名称,判断是否为汉语输入,若是汉语输入,则对输入的姓名按姓和名进行切词,并将用户的名输入到翻译本体库中进行匹配,若有匹配项,则按匹配项翻译为英文,若没有匹配项,则译为拼音,若不是汉语输入则不译。对于联系人的姓名,由于汉语名片针对的基本全是汉语名称,可直接将其译为拼音,对于一些外文直译的名称如约翰、汤姆、玛丽等名称,翻译为相应的英文。对于非汉语输入的信息,直接输出。对于职位,则直接输入到翻译本体库进行匹配,若匹配则将对应的英文翻译作为输出,不匹配时则翻译为汉语拼音。对于职位,仍然只是词汇的翻译,因此准确率也比较高,并且也没有技术难度,匹配出直译即可,本发明借助翻译本体库,可以实现语义的检索匹配,翻译结果出错率大大降低,准确率相当高。对于单位名称则输入到单位名称类中进行匹配,匹配成功则按设定的规则进行翻译,否则以汉语拼音作为翻译结果。单位名称也具有特殊性,一般包括公司、机关、大学等,通过对其建立本体库,基本可实现准确匹配,只要对单位名称本体库维护及时,翻译准确率也是可以保证的。没有匹配项或其中的词汇没有匹配项的,以汉语拼音作为其翻译结果。对于名片信息翻译而言,联系地址无疑是其中语义最多,需要切词并进行语法分析的,因此是整个名片信息翻译的重点。对于联系地址,则以用户输入的参数值为查询条件,在领域本体库的地址领域类、户名领域类进行匹配,若存在匹配项,则按领域本体库中的切词方式对联系地址及单位名称进行切词,再查找这些切词对应的翻译实例,再根据实例中训练的英文语法翻译规则进行翻译;若不存在匹配项,则直接进行切词,将每个切词输入到领域本体库进行匹配,若匹配则获得每个切词的翻译结果,若不匹配则翻译为汉语拼音,根据实例中训练的英文语法翻译规则进行翻译。
本发明中,对待检索信息进行匹配时,获取所述待检索信息的属性值,即获得其固有的属性,根据这些匹配项的属性值利用推理机进行推理,以自动辨认出本体中的对象具体属于哪个类,可以在所确定的较明确的分类中完成准确搜索。本发明匹配过程可采用Racer Pro推理机实现。以下通过一个示例说明本发明的原理,定义A一个个体a,A有属性(比如说eat)allvaluefrom B,则可以推理出类B的实例b,a(eat)b。本领域技术人员应当理解,本发明的推理过程是为了更好地实现本发明的匹配过程,以确定待匹配信息的准确分类,以迅速准确地实现对其的匹配。
地址信息中,一般都包括有地址标志性词汇、带有这些标志性词汇的常用词汇。地址标志性词汇如省、市、路、区、县等。包含这些标志性词汇的常用词汇如省政府、市政府等。还有一些直接以信箱作为联系地址的,如北京市128信箱等。切词即是按语法规则实现准确断句,把一个大名称分成不可再分的子名称,如中国银行北京分行皂君庙支行,其中,用公司即可分割这个大名称为中国银行、北京分行、皂君庙支行。名词的切割,离不开领域本体库,例如前述的中国银行,之所以没有将其切分为中国+银行,是因为领域本体库中的地址项中,根据语义关联的特征,可明确地识别出“中国银行”的字眼。对于切割后的地址名称,进行逐个匹配,匹配成功则查找出其对应的英语实例,得到该切割词的英文翻译结果,对于未匹配的切割词,可返回用户处确认切割词的结果,在错误时由用户进行修正,以修正后的结果重新进行匹配。最后将所接受的修正结果更新到领域本体库。
对于小名称,一般格式为:地址标识+公司名称+公司性质。如北京邮电大学,即可用地址名前向匹配北京,用公司性质匹配大学,留下名称,若在字库中找到,则翻译为英文,否则用拼音代替,若该名称长度大于4,则认为翻译正确度不为100%。维护的关键点在于公司性质的添加。
为保证翻译的准确度,在进行地址切词后,可返回切词结果,由用户确认,在用户确认或修正后再进行匹配检索。
当所有的切割分词翻译结果返回后,根据切词获知待翻译地址的语法结构,根据设定的语法翻译规则翻译所述地址。本发明仅建立地址的语法规则本体库即可。
以下以“北京市西土城路十号”为例说明本发明的翻译过程。采用从前到后最大匹配的方法进行匹配。如“北京市西土城路十号”,如果没有匹配到词典中的词汇,则进行分词处理。将两个字放一块作为一个词,然后“市”进行匹配,但是“市西”没有匹配到则将“市”作为一个词汇,同理上述地址可分词为“北京市西土城路十号”。根据领域本体库的语义关联关系,对这些切词结果进行处理,查找到“市”为地址分割符后,则将“北京市”作为切割词,对于“路”,也是地址分割符,则将“西土城路”作为切割词,同理,“十号”也会作为切割词,当然,如果多字含义的整体词出现时如“北京邮电大学”,不会切割为“北京邮电大学”,根据领域本体库的特点,将很容易识别为一个整体词并直接将其对应的英文作为译文输出,对于地址项中的数字,则会连续去查找数字,直到把连续的几个数字找出来,作为一个词汇。如“北京市西土城路十号二十九楼”,当看到“二”时,会连接把“十九”找出来,将“二十九”作为一个词。
根据上文定义的类和属性,以及类之间的关系,对已经分好的词汇进行分析,对于违反语法规则的进行调整使其符合语法规则。
对于每个分词用以下结构来标注:
Type Div Word
word As String //分出的词汇
wType As Byte //词汇类别
property as Byte //属性
End Type
其中根据上文定义的本体类的属性,wType由以下值:
Public Const ADDR_DIV_WORD As Byte=1//地址分割符
Public Const ADDR_WORD As Byte=2 //地址前缀
针对上边两种词汇类别又有不同的属性对应之。对于地址分割符,有地址前缀后置(property=1),比如“五号”翻译为“No.5”即把5放到地址分割符“No.”的后面。对于地址前缀,有英文词汇对照的中文地址词汇则property=1;未找到需翻译为拼音的词汇则property=2;如果发现是数字则property=5。
然后采用按照规则进行调整,如果发现两个地址分割符是相邻的则说明是不符合语法规则的需要进行调整。则查看后面的那个地址分割符的信息,对于property=2的地址分割符,则直接忽略上一个地址,否则把上一个地址分割符修改为拼音词汇即令wtype=ADDR_WORD。例如“二十九号楼”,对于这个来说分成“二十九 号 楼”,发现“号”“楼”都是地址分割符,则需要看楼的属性,如果为2,则忽略“号”按照“二十九楼”翻译,否则把“号”作为拼音来翻译。
步骤204:输出翻译结果并接收用户的修订,将修订结果存储到指定数据库中。将翻译后的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输出,并接收用户的修正,修正结果作为翻译结果输出;则将用户修正的词句结果保存数据库中。即将步骤203中的翻译结果输出给用户,用户根据输出结果进行相应修订,对用户所作的修订进行存储,以作为新的语料,有待用户根据这些新语料对本体库作进一步的维护。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (4)
1.一种基于领域本体的名片信息中译英自动翻译方法,其特征在于,以词料库、语料库为基础,为名片中所包括信息建立领域本体库;具体为:本体建模,发现领域内的概念、概念的继承层次、潜在的关系和公理;为本体模型中各元素添加实例,即进行语义标注;将现实应用中涉及的实例和抽象的本体概念相联系,进行语义标注;通过智能推理优化本体库;所述领域本体库中至少包括地址领域类、户名领域类、单位名称类,其中,所述联系地址类至少包括:地址分割符、前缀词汇、地址小节和地址,为地址分割符、前缀词汇、地址小节和地址设置属性及属性值,同时为所述地址分割符、前缀词汇、地址小节和地址建立实例;所述户名领域类至少包括:地址标识、地址自定义称谓、户名标识和子户名、户名,为所述地址标识、地址自定义称谓、户名标识和子户名设置属性及属性值,同时为所述地址标识、地址自定义称谓、户名标识和子户名建立实例;所述属性及属性值是依据所述词料库、语料库训练而得到的语义而设置的;单位名称类是收集单位名称,并建立之间的语义联系;即领域本体库是基于语义关联的关系数据库;以英汉词典、汉英词典和汉英语法规则建立单词、词句的语法翻译实例,同时建立翻译实例与领域本体库中的各元素所建立实例之间的对应关系;该方法还包括以下步骤:
A、向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入;
B、获取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的参数值,对于邮编、联系电话、传真的信息,进行直译,用户输入的数字参数不译;对于联系人名称,判断是否为汉语,若是按名和姓进行切分,查找所述翻译本体库是否有匹配的名,若有则译为相应英文,否则译为拼音,如果不是汉语则不译;对于职位,则直接输入到翻译本体库进行匹配,若匹配则将对应的英文翻译作为输出,不匹配时则翻译为汉语拼音;对于联系地址,则以用户输入的参数值为查询条件,在领域本体库的地址领域类、户名领域类进行匹配,若存在匹配项,则按领域本体库中的切词方式对联系地址及单位名称进行切词,再查找这些切词对应的翻译实例,再根据实例中训练的英文语法翻译规则进行翻译;若不存在匹配项,则直接进行切词,将每个切词输入到领域本体库进行匹配,若匹配则获得每个切词的翻译结果,若不匹配则翻译为汉语拼音,根据实例中训练的英文语法翻译规则进行翻译;对于单位名称则输入到单位名称类中进行匹配,匹配成功则按设定的规则进行翻译,否则以汉语拼音作为翻译结果;其中,对待检索信息进行匹配时,获取所述待检索信息的属性值,即获得其固有的属性,根据这些匹配项的属性值利用推理机进行推理,以自动辨认出本体中的对象具体属于哪个类,可以在所确定的较明确的分类中完成准确搜索;
C、将翻译后的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输出,并接收用户的修正,修正结果作为翻译结果输出;则将用户修正的词句结果保存到翻译本体库中的对应实例中,并更新实例中该修正词句的翻译结果。
2.根据权利要求1所述的基于领域本体的名片信息中译英自动翻译方法,其特征在于,步骤B还包括:
对于输入到领域本体库中不匹配的词句,向用户返回不匹配结果并提供用户的切词输入,在用户输入切词输入后将切词结果在领域本体库中进行再次匹配;所述不匹配包括切词不匹配及翻译实例中无匹配结果。
3.根据权利要求1所述的基于领域本体的名片信息中译英自动翻译方法,其特征在于,所述词料库、语料库由自然语言数据库训练而来,所述自然语言数据库至少包括字典、词典、习惯用语、报刊、书籍、互联网web页面信息。
4.根据权利要求1所述的基于领域本体的名片信息中译英自动翻译方法,其特征在于,步骤A还可以为:
直接调用数据库中的用户电子名片,提取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710304514A CN101216819B (zh) | 2007-12-28 | 2007-12-28 | 基于领域本体的名片信息中译英自动翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710304514A CN101216819B (zh) | 2007-12-28 | 2007-12-28 | 基于领域本体的名片信息中译英自动翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101216819A CN101216819A (zh) | 2008-07-09 |
CN101216819B true CN101216819B (zh) | 2012-09-05 |
Family
ID=39623252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710304514A Expired - Fee Related CN101216819B (zh) | 2007-12-28 | 2007-12-28 | 基于领域本体的名片信息中译英自动翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101216819B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662953B (zh) * | 2012-03-01 | 2016-04-06 | 倪旻 | 与输入法集成的语义标注系统和方法 |
US9372924B2 (en) * | 2012-06-12 | 2016-06-21 | International Business Machines Corporation | Ontology driven dictionary generation and ambiguity resolution for natural language processing |
CN105224525B (zh) * | 2015-10-12 | 2018-05-04 | 携程计算机技术(上海)有限公司 | 中文地址的翻译方法及系统 |
CN106649324A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 网站校对信息的建立方法及装置 |
CN107622058B (zh) * | 2016-07-13 | 2021-03-19 | 北京四维图新科技股份有限公司 | 制作外文地名库的方法、装置、电子导航芯片及服务器 |
US10372743B2 (en) * | 2016-07-20 | 2019-08-06 | Baidu Usa Llc | Systems and methods for homogeneous entity grouping |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106649295A (zh) * | 2017-01-04 | 2017-05-10 | 携程旅游网络技术(上海)有限公司 | 用于移动终端的文字转译方法 |
CN107451129B (zh) * | 2017-08-08 | 2020-09-25 | 传神语联网网络科技股份有限公司 | 非常规词语或非常规短句的判断以及翻译方法及其系统 |
CN112766001A (zh) * | 2021-01-14 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 企业名称翻译方法及装置 |
CN116070643B (zh) * | 2023-04-03 | 2023-08-15 | 武昌理工学院 | 一种古文到英文的固定风格翻译方法及系统 |
CN117009460B (zh) * | 2023-07-19 | 2024-10-29 | 读书郎教育科技有限公司 | 词典笔的辅助信息快速搜集方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042692A (zh) * | 2006-03-24 | 2007-09-26 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101075230A (zh) * | 2006-05-18 | 2007-11-21 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
-
2007
- 2007-12-28 CN CN200710304514A patent/CN101216819B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042692A (zh) * | 2006-03-24 | 2007-09-26 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101075230A (zh) * | 2006-05-18 | 2007-11-21 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈鹤杰,孟祥武.《基于本体的语义化数据库模型》.《第二十届全国数据库学术会议论文集(技术报告篇)》.2003,131,132,149. * |
Also Published As
Publication number | Publication date |
---|---|
CN101216819A (zh) | 2008-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101216819B (zh) | 基于领域本体的名片信息中译英自动翻译方法 | |
Schmitz | Inducing ontology from flickr tags | |
ElKateb et al. | Building a WordNet for Arabic. | |
Neale et al. | Leveraging lexical resources and constraint grammar for rule-based part-of-speech tagging in Welsh | |
Aswani et al. | A hybrid approach to align sentences and words in English-Hindi parallel corpora | |
Fuertes-Olivera et al. | Dictionaries for text production | |
CN101777043A (zh) | 一种文字转换方法及装置 | |
CN102929865A (zh) | 一种用于中文和东盟各国语言互译的pda翻译系统 | |
Barbiers | Where is syntactic variation | |
Martín Chozas | Towards a Linked Open Data Cloud of language resources in the legal domain | |
Paiva et al. | Nomlex-pt: A lexicon of portuguese nominalizations | |
Garcia et al. | Towards the automatic construction of a multilingual dictionary of collocations using distributional semantics | |
Dash | The art of lexicography | |
Derwojedowa et al. | Polish WordNet on a shoestring | |
Boschetti | Semantic Analysis and Thematic | |
Nguyen et al. | Vn-kim ie: Automatic extraction of vietnamese named-entities on the web | |
Liang et al. | Researching collocational features: Towards China English as a distinctive new variety | |
Sidhu et al. | Role of machine translation and word sense disambiguation in natural language processing | |
Bayekeyeva et al. | Multilingual thesaurus of industryspecific terms as major aids for translators | |
Silva et al. | Information retrieval system using Multiwords Expressions (MWE) as descriptors | |
Macoveiciuc et al. | The RoWaC corpus and Romanian word sketches | |
Taljard et al. | Implementation of a part-of-speech ontology: morphemic units of Bantu languages | |
Batarfi et al. | Building an Arabic semantic lexicon for Hajj | |
Dash et al. | Why do we need to develop corpora in Indian languages | |
Ghayoomi | Training vs post-training cross-lingual word embedding approaches: A comparative study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120905 Termination date: 20121228 |