CN103593335A

CN103593335A - 基于本体一致性验证推理的中文语义校对方法

Info

Publication number: CN103593335A
Application number: CN201310404701.7A
Authority: CN
Inventors: 姜赢; 曾杰; 荆铭; 廖文生; 郭颖珊; 林启红; 高巾
Original assignee: 姜赢
Priority date: 2013-09-05
Filing date: 2013-09-05
Publication date: 2014-02-19

Abstract

一种基于本体一致性验证推理的中文语义校对方法，包括语义提取，利用本体学习技术，从非结构化的中文自然语言中提取语义内容，进而提取的语义内容转换成结构化的本体形式；领域本体库的确立，根据不同的领域使用相应领域的本体库；建立模型，将上述形成的中文语义校对关键技术以插件形式整合到语法校验工具中，或者以其它的实现形式，如独立地开发成一个中文语义校正软件；推理验证，在语法校验工具中，利用本体推理语言本身包含的基于描述逻辑的一致性推理验证机制，把提取得到的语义内容按照预定顺序和正确的领域本体库一起输入到推理机中逐次进行逻辑一致性验证推理，将推理结果中逻辑不一致的中文语义内容标示出中文语义错误标志。本发明具有既可以实现字词级和语法级中文校对，也可以实现能够检测特定领域语义错误的中文语义校对的优点。

Description

基于本体一致性验证推理的中文语义校对方法

技术领域

本发明涉及一种基于本体一致性验证推理的中文语义校对方法。通过研究中文语义提取、中文语义查错和中文语义纠正相关关键技术，以实现基于本体一致性验证推理的中文语义校对方法的功能。

背景技术

随着计算机技术的不断发展，报刊、图书等传统媒体的文字录入、编辑、排版、校对和印刷已经电子化了。面对包括全国几千家报社、几百家出版社，中央部委、省级机关，以及办公室和家庭等在内的各种互联网用户，中文文字处理及校对软件需求量非常大。中文校对软件，例如，黑马校对系统、金山WPS可以根据中文词法关系和语法结构，自动分析中文文本中的词句并将疑问处标红，可以一次滤掉大量的文字录入错误，包括丢字、多字、错字和语句不通等，特别适合二、三连校中的二校及终校把关。

但是，目前中文校对软件还不能完全替代人工校对，其中一个重要原因在于，虽然其在字词级和语法级层面取得了较好效果，但是语义级层面中文校对技术相对薄弱。政治敏感信息在报社和出版社等我国传统媒体的发布是非常普遍。因此，目前亟需一种能够进行语义级层面中文自动校对处理的技术和软件，进一步减少校对人员对于类似政治敏感错误等信息的校对工作量。

另一方面，网络媒体（例如门户网站、博客、微博等）突破了传统时空观念，表现出极大的时效性和开放性。网络中每一个成员可以平等地共享网上信息，在世界任何地方，只要有计算机，只要与互联网接通，就可以发布和获取发生在世界任何一个地方的信息。网络新闻也不再受传统新闻发布者的限制，受众可以发布自己的新闻，并在短时间内获得更快的传播，这使得论坛和微博等平台成为人们最快速、最普遍的信息互动交流平台。网络媒体在让人们享受时效性和开放性的同时，不得不面对其信息正确性和准确性方面的挑战。网络媒体也面临着类似于传统媒体上语义错误导致的政治性错误等潜在威胁。对于网络媒体上的海量实时信息，人们肯定无法采取传统媒体那样人工校对方式解决。传统的敏感词筛选术和简单的语法级自动校正技术，亦无法满足复杂的中文语义校对需求。因此，我们必须探索语义级层面中文自动校对处理的技术，开发相应的校对软件提供给网络媒体使用，这也是网络媒体发展的内在需求。

总之，无论是传统媒体还是网络媒体，都迫切需要中文语义校对技术的支持。中文语义校对将有广泛的应用前景和巨大的商业价值。

众所周知，中文校对系统处理的对象是文本，中文校对类型分为字词级、语法级和语义级3类。

目前，中文字词级和语法级校对技术已较完善，如黑马校对系统、金山WPS和语法检查工具（LanguageTool）都能很好地实现中文字词级和语法级校对。

相比之下，语义级层面中文校对技术相对薄弱，一直是汉语文本自动校对技术的难点。

目前，对于语义校正，按照研究内容和方向大致可以分为3类：

1）模糊语义对比方法

其主要内容是用句子语义骨架表示句子语义的具体方法和表示形式。模糊语义对比方法在语义校对系统中建立了这种形式的知识库，每一个知识条代表描述同一个事件的不同句子的共同特征，是用来判断文本中语句的对错程度的基准。然后采用模糊匹配方法计算语句的相似程度，即文本中语句是根据与知识库中相关知识进行模糊匹配，然后计算出该语句的错误程度的。此方法在一个面向政治错误的特定领域内的语义校对系统(YYJDS) 中得到实现。

另外，有人通过模糊比较目标句子与大型文本库中相似句子的方法来鉴别文本拼写、语法甚至语义错误的方法。具体来说，是将目标句子转换成一系列Google搜索请求，根据搜索结果数量进行加权阈值模糊比较，从而判断是否错误以及错误等级多少。例如，如果Google中搜索出大多数人写的是“北京是中国的首都”，那么目标句子“东京是中国的首都”极有可能是包含语义错误的。

以上两种都属于模糊语义对比方法，他们的出发点在于认为完全精确的理解句子语义可行性不高，因此采取绕过精确语义理解的思路，通过建立某种模糊语义模型，将知识库或文本库中的正确句子与目标句子进行模糊匹配来判断语义错误。这种方法本质上是一种黑箱模型，虽然知道有语义错误，也可以计算语义错误程度值并选择性的纠正错误，但是其局限性在于不知道具体有什么语义错误，语义错误类型是什么，为什么是语义错误，以及为什么纠错之后的是正确的语义。

）精确语义匹配方法

精确语义匹配方法是基于HNC（Hierarchical Network of Concepts）的中文文本校对系统模型。HNC 是专门针对汉语的特点而提出来的一种用于自然语言理解的理论，该理论由语言概念空间考察自然语言空间，以概念联想脉络为主线，建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。有人基于HNC 理论构建了一个中文文本校对系统模型，该模型利用传统查错系统和HNC 句类分析系统相结合的方法，在解决语法层次和语义层次上的错误有明显优势。但是由于HNC本身并没有提供自动语义推理机制，需要通过穷举57种句式语义来判断语义错误，不适合大规模语义校对推广。

此类属于精确语义匹配方法，即使用某种语义知识表示模型提取文本中的语义对象以及语义对象之间的关系，精确判断文本的语义错误类型和错误原因。这是基于白箱模型思路的一种彻底解决语义错误的根本办法，是语义校对技术未来发展的必然趋势。语义知识表示模型有很多种，包括国内学者提出的HNC和知网，外国学者提出的Frame Net框架网，以及OWL（中文意思是网页本体语言，英文全称是Web Ontology Language）国际标准等等。

）语义搭配校对

语义搭配校对是采用统计和规则相结合的综合校对方法。它综合使用了基于实例、基于统计和基于规则的搭配关系进行检查，提出统计和规则相结合的校对方法，既能检查局部语义限制，也能检查长句的语义搭配，收到了较好的效果。

针对语义搭配校对，有人提出了一种基于《知网》语义原搭配的有效的自动查错方法，主要包括语义知识库的构建和自动查错算法。语义知识库包含大量的动词与名词之间的二元搭配组合，利用互信息等因素筛选记录，和《知网》对词语义项的义原描述将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合，进而在语义知识库的基础上设计相应的自动查错算法。但是，因为语义搭配校对的语义检查同传统的语义分析是两个完全不同的概念，它并不试图建立句子的语义框架，只是从成分的搭配关系上加以考察。也就是说此类方法只能检查单一的语义搭配错误，而无法处理其他语义错误。

基于本体推理的技术背景

目前，本体推理技术主要利用基于描述逻辑的知识表示语言进行推理，其中，OWL是该类语言中最具代表性的一种。

OWL是英文Web Ontology Language的缩写，为了便于记忆将头两个字母的顺序颠倒，写成OWL，其中文意思是网络本体语言，网络本体语言旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。OWL网络本体语言当前已经获得万维网联盟认可的，用于编纂本体的知识表达语言家族。其功能在于为网络文档和应用中固有的类以及其间的逻辑关系提供描述，使得基于此技术的网络应用更加人性化和智能化，节省用户自身资源搜索时间并将这些处理交给计算机系统内部处理。基于不同的语义论特性网络本体语言大致分为两个系统：基于描述逻辑进而丰富表达和精准计算属性的OWL DL和OWL Lite，以及以资源描述架构（英文：Resource Description Framwork:RDF）提供兼容叙述的OWL Full。网络本体语言已经被认为是语义网技术的基础语言并吸引了包括学术和商业范围内人士的广泛兴趣。OWL2是OWL第二版国际标准。

目前，关于这类推理语言仍在发展，OWL2是其中一种，未来仍可能出现新的推理语言，例如OWL3等等，但仍在本专利方法中推理语言所涵盖的范畴内。

发明内容

为了克服上述问题，本发明提供一种既可以实现字词级和语法级中文校对，也可以实现能够检测特定领域语义错误的中文语义校对方法。

本发明的基本思路是：利用本体学习技术将中文文本中的语义内容提取出来转换为结构化本体，再与正确的领域背景的本体库融合，通过描述逻辑推理机来判断提取的语义内容的逻辑一致性，并将检测出的逻辑一致性错误知识映射为中文语义错误，最后通过推理结果解释与回溯为用户提供中文语义纠正建议。

本发明的技术方案是：提供一种基于本体一致性验证推理的中文语义校对方法，包括：

1）语义提取

利用本体学习技术，从非结构化的中文自然语言中提取语义内容，进而提取的语义内容转换成结构化的本体形式；

2）领域本体库的确立

根据不同的领域使用相应领域的本体库，或者，若无该领域的本体库，则使用相应领域信息进行语义建模，构建相应的领域本体库；本体库的建立可以参照《本体库的构建方法及应用研究》舒江波著，2008年硕士毕业论文。

3）建立模型

将上述第1）步和第2）步所形成的中文语义校对关键技术以插件形式整合到语法校验工具中，或者独立地开发成一个中文语义校正软件；

4）推理验证

在语法校验工具中，利用本体推理语言本身包含的基于描述逻辑的一致性推理验证机制，把提取得到的语义内容按照预定顺序和正确的领域本体库一起输入到推理机中逐次进行逻辑一致性验证推理，将推理结果中逻辑不一致的中文语义内容标示出中文语义错误标志。

作为对本发明的改进，在所述第4）步后，还存在第5）步，通过推理结果解释与回溯为用户提供中文语义纠正建议。

作为对本发明的改进，所述以插件的形式整合到语法校验工具中，是通过扩展XML规则或Java规则定制这两个角度进行整合的。

作为对本发明的改进，所述的技术解决方案也可以不是插件或工具的形式，也可以专门开发此类软件。

作为对本发明的改进，建立模型也可以以独立软件的形式，专门开发中文语义校对软件包。

作为对本发明的改进，建立模型也可以以中文语义服务的形式，专门开发中文语义Web Service。

作为对本发明的改进，所述本体学习技术包括基于规则的中文本体学习或基于机器学习的中文本体学习。

作为对本发明的改进，所述语法校验工具是LanguageTool、微软Office、金山WPS或Open Office，当然，除了前述LanguageTool、微软Office、金山WPS或Open Office外，还可以使用其它的类似的语法校验工具。

作为对本发明的改进，所述领域本体库是政治敏感性信息本体库。

这里提及的语法校验工具是指具有中文词法和语法校验功能的中文校验工具，但它不具有语义校验功能。

本发明与现有技术相比有如下优点，一是语义查错的透明性：本发明提出的方法利用本体技术提取文本中的语义对象以及语义对象之间的关系，精确判断文本的语义错误类型、错误原因以及如何纠错，不存在模糊性和不可知性。这种白箱模型的透明性是模糊语义对比方法无法比拟的；二是语义模型的完整性：本发明选择的OWL2本体，是一个最新旗舰水平的（state-of-art）、体系结构非常完整的语义知识表示和语义推理模型模型。它包含布尔逻辑、全称/存在命题、个体值、本地自反、基数、空对象/数值、具名类/对象/数值、数据/对象定义域/值域等等几十种语义定义。OWL2本体能够描述包含语义搭配校对在内的各种常见语义对象及其关系（语义搭配校对可以使用“对象定义域/值域”建立映射）；三是语义推理的智能性：本发明选择的OWL2本体，它的语义推理基于描述逻辑（Description Logics），它内置一致性逻辑推理机制，其本体推理算法相对成熟，可以直接利用Pellet、Fact++或Racer等描述逻辑推理机进行智能自动语义查错，无需额外穷举句式或者建立模糊语义骨架。

综上所述，本发明提出的基于本体推理的语义级中文校对技术，本质上是属于第2）精确语义匹配方法范畴。由于OWL2本体国际标准制定发布时间在2012年12月，目前国内外尚未有基于OWL2本体推理的语义校对相关研究报道。本发明提出的基于本体的方法，顺应了发展的语义校对研究的发展趋势，与上述国内外研究成果相比，具有语义查错的透明性、语义模型的完整性、语义推理的智能性等显着优点。

附图说明

图1是本发明一种实施例的原理方框示意图。

图2是使用Protégé软件进行中文本体学习的示意图。

图3是使用Protégé软件对政治敏感信息领域OWL2本体库构建示例的示意图。

图4是语法检查工具（LanguageTool）提供一种XML框架机构用于编写语法错误规则的示意图。

图5是OWL2-EL的EL++语义模型建立的示意图。

图6是Protégé中运行推理机进行OWL2本体一致性推理产生的语义错误的解释的示意图。

具体实施方式

请参见图1，图1所示是一种基于本体一致性验证推理的中文语义校对方法，包括：

1）语义提取

利用本体学习技术，从非结构化的中文自然语言中提取语义内容，进而提取的语义内容转换成基于RDF的三元组的OWL2本体结构化形式；

基于本体学习的中文语义提取

利用自然语言处理和本体学习（Ontology Learning)技术，从非结构化的中文自然语言中提取语义内容，进而转换成基于RDF（资源描述框架，Resource Description Framework)三元组（Triple)的OWL2本体结构化形式，提供给下一步语义查错处理。中文语义内容的提取包括语义对象（类Class和个体Individual)和语义关系（语义属性Data type Property以及语义关联Object Property)。

具体地说，本发明是综合运用基于规则和基于机器学习这2种本体学习技术实现中文语义提取的。

1）基于规则的中文本体学习

利用中文本体学习软件：Protégé，将中文文本进行词法、句法分析，通过总结语义模式XML规则，使用XPath匹配的方法抽取出语义对象和语义关系。其实验方法如下：第一步，利用中文词法分析器（ictclas4j API）对中文文本进行中文自动分词和自动词性标注。第二步，定义XML模式匹配规则（Mappings）。如图2所示，每一个匹配规则都包含两个部分：XPath模式匹配条件（Conditions）和自动创建本体的操作（Operators）。软件能够通过XML模式匹配的方式将这些特征词汇和关联映射到领域本体库中的类、个体和属性等等语义内容；第三步，采取差分算法（chi-square）将词频低而领域相关度高的词抽取出来、将词频高领域相关度高的词剔除。差分算法实验的基准词库可以选用《人民日报》公开的1998年1月份语料库。一般来说，词和某领域的相关度，与它在基本词库统计表的词频成反比，而与它在软件的XML模式匹配得到的词频成正比。

2）基于机器学习的中文本体学习

基于规则的本体学习技术在语义对象提取效果较好，而对于语义关系效果一般。本发明采取以下几种基于机器学习的语义关系抽取方案：KIEV、BOA和NELL。这几种方法大同小异，其中首选BOA框架，因为它对于英语之外的其他语言提供接口支持，中文扩展灵活。BOA框架基本思路是，利用DBpedia等LOD关联数据和语料库作为背景知识库，对于给定语义关系从LOD中提取实例并从语料库中抽取中文本特征进行模式学习，再通过模式检索、排序、筛选等步骤，从语料库中匹配文本获得新的语义关系实例，转而再回馈输入LOD关联数据，这样形成迭代循环机器学习过程。基于机器学习的中文本体学习的具体内容，可以参照中国专利201010120134.9和中国专利201010134535.X 所公开的内容。

2）领域本体库的确立

根据不同的领域，使用OWL2对相应领域信息进行语义建模，构建相应的OWL2领域本体库；当然，如果有现成的领域本体库也可以直接采用；

领域本体库与专业领域有关，本发明仅以政治敏感性信息本体库的建立为例加以说明。

请参见图3，图3是使用Protégé对政治敏感信息领域OWL2本体库构建示意图。

首先，在领域专家的协助之下，使用OWL2对中文政治敏感信息进行语义建模，构建相应的OWL2领域本体库。如图3所示，本发明使用Protégé 进行政治敏感信息领域本体构建。首先要对对政治敏感信息本体库语义内容进行调研和归纳总结：如，

1）我国内政相关政治敏感信息。

2）我国外交相关政治敏感信息。

3）国共两党历史政治敏感信息。

4）其他政治敏感信息。

其次，利用Protégé对政治敏感信息领域构建以OWL2为基础的领域本体库，领域本体库的建库方法为现有技术，在这里不再赘述。

建好的领域本体库需要进行效果试验，其试验的方法可以从传统媒体或网络媒体等不同信息来源（例如，扫描来自国内出版社的各种人文社会政治类图书，利用Spider爬虫下载国内各大门户网站的新闻信息）中选取中文文本语料作为测试对象。然后将语法检查工具（LanguageTool）以插件形式安装嵌入到微软Word、金山WPS、Open Office等国内主流文字处理软件，让用户对语法检查工具（LanguageTool）中文语义校对模块在政治敏感信息领域应用的效果进行试用，根据反馈意见对此模型进行改进和优化。

将此案例应用过程中的遇到的问题和解决方法进行总结，为此模型推广到其他领域提供借鉴。

本体库的建立还可以参照《本体库的构建方法及应用研究》舒江波著。

3）建立模型

将上述第1）步和第2步所形成的中文语义校对关键技术以插件的形式整合到语法校验工具中或独立地开发一个中文语义校正软件；

本发明仅以在语法检查工具（LanguageTool）上建立中文语义校对模型为例来加以说明。本发明所保护的方法，不依赖于插件或是语法校验工具，可以是其它的实现形式，例如开发专门的语义校验软件等。

本发明将基于OWL2本体一致性验证推理的中文语义校对模型以插件的形式整合到语法检查工具（LanguageTool）语法校验工具中。具体可以从扩展XML规则或Java规则定制这两个角度进行整合。

1）扩展XML规则

语法检查工具（LanguageTool）提供一种XML框架机构用于编写语法错误规则。如图4所示，每条规则使用<rule>标记，通过<pattern>定义规则匹配模式。而每个模式由一组<token>组成，可以添加词性标注postag等属性。还可以添加regexp支持正则表达式规则匹配。错误提示信息由<message>定义，而纠正建议在<example>或<suggestion>中定义。为了让语法检查工具（LanguageTool）支持XML语义错误规则定义，需要增加相应的标签和属性以定义语义内容，例如：

l RDF三元组：<triple>

l 语义对象

n 类Class：type/class属性

n 个体Individual：<i>

l 语义关系

n 语义属性Datatype Property：dp属性

n 语义关联Object Property：op属性

XML语义错误规则定义制定之后，需要增加XML语义错误规则解析模块，即在org.语法检查工具（LanguageTool）.rules包中添加类似于针对语法错误规则patterns包，包括XML语义错误规则数据结构类SemanticRule及其解析匹配算法类PatternRuleHandler。然后需要增加OWL2推理机调用程序模块、OWL2领域本体库加载解析模块，使得语义错误在能够映射到OWL2本体一致性验证推理，也可建立相应的程序代码包。

2）Java规则定制

扩展XML规则方式需要改动语法检查工具（LanguageTool）部分核心代码，甚至语法检查工具（LanguageTool）整体架构也需要调整。这个需要项目组同语法检查工具（LanguageTool）组织合作研究，语义校对模块也需要得到对方的认可才能纳入正式发布版本中，不一定能够完全顺利实现，也不一定在短期内完成。所以，项目组也可另辟蹊径，只针对语法检查工具（LanguageTool）语法校验工具建立基于Java规则定制的中文语义校对机制。只在语法校验工具包org.语法检查工具（LanguageTool）.rules.zh里面添加相应功能，不影响其他语言校对程序包语法检查工具（LanguageTool）整体架构。

具体来说，首先需要研发继承于org.语法检查工具（LanguageTool）.rules.Rule类的语义校对规则子类，覆盖其getMatches()方法。然后同样需要增加OWL2推理机调用程序模块、OWL2领域本体库加载解析模块，使得语义错误在能够映射到OWL2本体一致性验证推理。这个过程将用到基于Jena、OWLAPI等OWL2本体处理引擎工具。

本发明中，所述语法校验工具可以是LanguageTool、微软Word、金山WPS或Open Office。

4）推理验证

在语法校验工具中，利用OWL2本身包含的基于描述逻辑的一致性推理验证机制，把提取得到的语义内容按照预定顺序和OWL2正确的领域本体库一起输入到推理机中逐次进行逻辑一致性验证推理，将推理结果中逻辑不一致的中文语义内容标示出中文语义错误标志。

具体地说，基于OWL2本体一致性验证推理的中文语义查错，可以从中文自然语言中提取的语义内容可能存在语义错误，而OWL2本身包含基于描述逻辑的一致性推理验证机制。把提取得到的语义内容按照预定顺序和OWL2正确的领域本体库一起输入到推理机中逐次进行一致性验证推理。最后，推理结果中逻辑不一致的中文语义内容即为检查出来的中文语义错误。这个过程中基本上可以使用OWL2已有的工具和技术来实现。

OWL2本体包括主语言OWL2-DL及易推理的子语言OWL2-EL、OWL2-QL和OWL2-RL。在OWL2本体标准里，主语言OWL2-DL具有很强的表达能力却并不具备易推理性，而它的三个子语言是易推理的但只有较弱的表达能力。本发明首先将对OWL2的三个子语言进行实验，选取本体一致性验证推理与中文语义查错最相关的推理规则。如图5所示，OWL2-EL的语义模型，需要对其中TBox和ABox一致性验证推理逐个测试并进行筛选，并建立其与常见中文语义错误之间的映射关系（参见图5），对于被检测的中文文本采取基于段落扫描缓冲区的逐段处理模式来处理，而不是传统中文语法校正的逐句处理模式。将每个段落中提取的若干RDF三元组与正确的OWL2领域本体库进行融合，利用选取的本体一致性验证推理规则在推理机中进行推理，两者产生一致性逻辑矛盾即为检测出来的中文语义错误。实验可供选择的推理机包括Pellet、Fact++或Racer等等。

针对备选OWL2本体一致性验证推理规则，可以利用本体修正（Ontology Revision）增量式验证推理机制，拟采取基于缓冲区和时间窗口的互动式推理排序方法对进行推理性能进行优化。具体来说，为每条推理规则建立影响度（Impact Ratio）关联机制，在推理缓冲区之内调度语义错误所映射的一致性验证逻辑错误，使影响度高的先进性推理运算，影响度低的根据前者运算采取跳过或简化等方法提高效率，完成一轮排序之后，时间窗口向后移动，最终完成所有的一致性验证推理。

5）通过推理结果解释与回溯为用户提供中文语义纠正建议。

本发明中，所述以插件的形式整合到语法校验工具中，是通过扩展XML规则或Java规则定制这两个角度进行整合的。或者，所述以插件的形式整合到语法校验工具中，是通过扩展XML规则和Java规则定制两者结合起来进行整合的。

OWL2推理机能够对逻辑不一致的中文语义错误提供解释（Explanation),包括具体有什么语义错误，语义错误类型是什么，为什么是语义错误。一方面向用户提供这些解释信息以便用户自行纠正，另一方面也可根据这些解释信息对OWL2中相应的正确中文语义内容进行回溯，进而自动形成中文语义纠正建议提供给用户进行修改。

请继续参见图6，OWL2推理机能够对逻辑不一致的中文语义错误提供解释（Explanation），包括具体有什么语义错误，语义错误类型是什么，为什么是语义错误。一方面向用户提供这些解释信息以便用户自行纠正，另一方面也可根据这些解释信息对OWL2中相应的正确中文语义内容进行回溯，进而自动形成中文语义纠正建议提供给用户选择。

本发明使用Protégé 进行实验，它可绑定Pellet、Fact++或Racer等常用OWL2推理机，还提供一致性验证推理解释功能。国家和地区是语义不相交的（Disjoint With语义约束），只有共和制国家才有总统（Domain语义约束），所以作为地区是不能有总统的（Inconsistency语义错误）”。

中文语义纠正首先需要本体推理回溯，即通过SPARQL语句查询知识库中正确语义内容。

本发明中，所述本体学习技术包括基于规则的中文本体学习或基于机器学习的中文本体学习。所述领域本体库是政治敏感性信息本体库。

本发明主要解决两个关键问题，一是非结构中文自然语言的语义化问题；OWL2本体一致性验证推理只能够检测结构化本体库中的逻辑错误，无法直接处理中文自然语言这样非结构化的信息。因此，将非结构中文自然语言转换成结构化OWL2本体是此模型得以实现的前提。针对这个问题，申请人提出基于本体学习的中文语义提取研究思路：第一，申请人在2006年已提出基于规则的中文本体学习思路，并研发了OntoLTCn软件，在中文历史领域取得了较好的效果；第二，本体学习技术经过若干年的发展，2011和2012年在基于机器学习的方法实现上研究成果已经非常丰富了，特别在语义关系提取这个瓶颈问题上有重大突破。本发明将综合利用基于规则和基于机器学习的方法来解决这个问题。二是增量式OWL2本体一致性验证推理优化问题；文本校对一般是按照逐句扫描、逐句查错的方式来操作。在申请人提出的中文语义校对模型中，也是按照迭代循环方式逐句进行语义提取和语义推理，这本质上是增量式（Incremental）OWL2本体一致性验证推理问题。在增量式验证推理过程中，提取的语义内容是实时的，提供给推理机的语义内容也是动态。如果仅仅采取简单逐次推理来做，那么某些领域本体库数据量较大情况下，中文语义校对性能将会无法满足要求。本发明将借用本体修正（Ontology Revision）增量式验证推理机制，拟采取基于缓冲区和时间窗口的互动式推理排序方法对进行推理性能进行优化。

Claims

1.一种基于本体一致性验证推理的中文语义校对方法，包括：

（1）语义提取

（2）领域本体库的确立

根据不同的领域，使用相应领域的本体库，或若无该领域的本体库，则使用相应领域信息进行语义建模，构建相应的领域本体库；

（3）建立模型

将上述第（1）步和第（2）步所形成的中文语义校对关键技术以插件形式整合到语法校验工具中或者独立地开发成一个中文语义校正软件；

（4）推理验证

2.根据权利要求1所述的基于本体一致性验证推理的中文语义校对方法，其特征在于：在所述第4）步后，还存在第5）步，通过推理结果解释与回溯为用户提供中文语义纠正建议。

3.根据权利要求1或2所述的基于本体一致性验证推理的中文语义校对方法，其特征在于：所述以插件的形式整合到语法校验工具中，是通过扩展XML规则或Java规则定制这两个角度进行整合的。

4.根据权利要求1或2所述的基于本体一致性验证推理的中文语义校对方法，其特征在于：所述本体学习技术包括基于规则的中文本体学习或基于机器学习的中文本体学习。

5.根据权利要求1或2所述的基于本体一致性验证推理的中文语义校对方法，其特征在于：所述语法校验工具是LanguageTool、微软Office、金山WPS或Open Office。

6.根据权利要求1或2所述的基于本体一致性验证推理的中文语义校对方法，其特征在于：所述领域本体库是政治敏感性信息本体库。