CN101710343A

CN101710343A - 一种基于文本挖掘的本体自动构建系统及方法

Info

Publication number: CN101710343A
Application number: CN200910250260A
Authority: CN
Inventors: 李春梅; 薛中玉; 李艾丹; 黄道雄; 范书德
Original assignee: Beijing Zhongjikehai Technology & Development Co Ltd
Current assignee: Beijing Zhongjikehai Technology & Development Co Ltd
Priority date: 2009-12-11
Filing date: 2009-12-11
Publication date: 2010-05-19

Abstract

本发明涉及本体构建领域，特别涉及一种基于文本挖掘的领域本体自动构建方法，以及包含该方法的本体自动构建系统。其中该系统主要包括：用于接收和处理用户提供相关资料的语料预处理子系统、用于分析和挖掘语料中相关知识的文本挖掘子系统和用于组织和搭建最终领域本体知识库的本体构建子系统。本发明所述的基于文本挖掘的本体自动构建系统和方法能够在较少人工干预的情况下，完成本体的自动构建，缩减本体构建周期的同时，节省人工构建本体时的大量人力、物力和财力投入；同时该系统和方法能够充分利用互联网上信息和用户拥有的电子资源，并进行很好地融合、推理和排歧，避免个别专家学者观点对本体知识库的影响。

Description

一种基于文本挖掘的本体自动构建系统及方法

技术领域

本发明涉及本体构建领域，特别涉及一种基于文本挖掘的领域本体自动构建方法，以及包含该方法的本体自动构建系统。

背景技术

“本体”(Ontology)最初是哲学领域的术语，是关于事物存在及其本质规律的学说。20世纪末，随着信息技术的发展，本体被引入人工智能、知识工程、图书情报等领域，用于构建大型集成的知识库系统，解决知识概念表示和知识组织体系方面的问题。在新的技术领域，本体被赋予更为具体的定义——共享概念模型的、明确的、形式化的规范说明。本体一般由概念(Concepts)、概念间关系(Relations)和规则(Rules)构成。

领域本体是指以一个特定的领域(如项目管理、汽车等)为描述对象的本体，提供该特定领域的概念定义和概念之间的关系、主要理论、基本原理以及领域中发生的活动等。

本体由其自身的特点，可以将人们广泛认可的各种类型知识转化为规范的、计算机可以理解的形式，为“计算机与人之间正常沟通与交流”提供语义支撑。因此，本体在人工智能、知识工程、图书情报、搜索引擎、信息系统以及计算机辅助设计等众多领域都有广泛的应用空间。但是，目前真正投入使用的本体及相关科研成果还很少。主要原因在于现有本体的构建以人工为主。其主要构建方法如下：

(1)需求分析。相关专家根据实际工程需要确定构建本体的专业领域和范畴，明确所构建的本体将覆盖的专业领域、清楚构建该本体的具体目的、对本体中的信息预回答的问题达成一致见解。

(2)计划制定。做好需求调研分析以后，领域专家和本体工程师将针对需求说明书中的各项要求，充分了解现有资源，制定出本体构建的“项目计划书”。该计划书主要包括：构建目标、构建方法、任务分配和时间要求等。

(3)领域分析。主要是搜集基础材料、对材料进行整理加工，并考察是否有可复用的现有本体。通过收集领域信息充分了解领域知识，得到该领域所有术语的清单。搜集材料的信息来源包括论文、手册、标准、专利、领域词典甚至是其他的现有本体。

(4)本体设计。主要包括：列出重要术语、确定核心概念、定义类(Class)和类的等级体系(Hierarchy)、定义类的属性、定义属性的约束和创建实例等。构建具有一定规模的本体是一个系统工程，每一个概念、关系或规则的添加都必须严格谨慎，应该基于一定的理论基础，遵循一定的领域知识，并考虑所添加概念、关系和规则的有用性以及系统的可行性。

(5)本体实现。本体实现是用形式化的方法将已定义好的本体从自然语言的表示格式转化成机器可理解的逻辑表达格式。该步骤主要依据“本体设计”形成的相关文档、依据和规范，利用本体编辑工具，完成本体概念细化，本体属性、实例、规则添加等工作，最终形成OWL(Web Ontology Language)本体文件。

(6)本体完善。使用本体编辑工具打开已构建的OWL本体文件，逐一对本体中各概念、关系和实例进行检查核对，找出其中的不一致、交叉、重复或错误，进行修改和完善，并将构建成的本体投入实际系统进行测试，发现问题随时召集相关专家进行进一步分析、修改和完善。

该项工作是一项非常复杂、庞大的系统工程，需要领域专家花费大量时间和精力，将相关领域的概念和关系进行梳理，并用规范化的模式进行表达。构建高质量的本体，还要求领域专家对相关领域的概念和关系具有清晰和全面的理解，期间涉及多位专家协助，专家间认识和理解不同时，还会出现不一致、自相矛盾等现象，需要逐一进行协调和确认，其工作量之大可想而知。本体构建工程的复杂性和智力密集性等特点成为影响本体应用和推广的主要瓶颈和难点。

文本挖掘是以计算语言学、统计数理分析为理论基础，结合机器学习和信息检索技术，从文本中发现和提取独立于用户信息需求的文档集中的隐含知识。最终提取知识中的概念和关系能够为本体的构建提供素材。通过开发文本挖掘结果分析工具和本体自动构建工具，能够实现本体的自动构建。能够将本体构建周期从几年缩短到当天完成，并大大减少人力、物力和资金的投入。

发明内容

本发明的主要目的在于提供一种基于文本挖掘的本体自动构建系统。旨在通过对相关领域文档进行文本挖掘，获取构建本体所需的领域概念、关系和实例等重要知识，通过文本挖掘结果分析工具和本体自动构建工具实现本体的自动构建，进而解决构建本体时开发周期过长，人力、物力和财力投入过大的瓶颈，以推动本体在人工智能、知识工程、图书情报、搜索引擎、信息系统以及计算机辅助设计等众多领域的广泛应用。

本发明的另一目的还在于通过将文本挖掘技术与对知识有严格要求的本体构建技术相结合，优化重组现有的文本挖掘算法，并探索新的获取文本中隐含知识的各类算法，以提高文本挖掘技术对相关知识的准确获取，为文本挖掘在其他领域的应用提供技术支撑。

为达到上述发明目的，本发明是通过下述技术方案实现的：

本发明实施例公开了一种基于文本挖掘的本体自动构建系统，其特征在于，该系统包括：用于提供丰富的人机交互接口的用户层，用于分析语料、挖掘知识和构建本体的系统工具层，用于存储和提供最初语料、中间产物和分析结果的数据资源层，其中系统工具层包括用于接收和处理用户提供相关资料的语料预处理子系统、用于分析和挖掘语料中相关知识的文本挖掘子系统和用于组织和搭建最终本体的本体构建子系统；

其中，用户层包括领域资料管理、规则模版管理、核心概念管理、三元组管理和本体文件管理等接口模块；

领域资料管理接口，用于接收用户确定的预构建本体的名称和核心概念，以及该领域的主题词表和领域相关语料；

规则模版管理接口，用于接收用户对系统默认设定的领域概念识别、核心语句抽取、本体继承关系提取、同义概念提取等相关规则模版进行的添加、修改和删除等操作；

核心概念管理接口，用于接收用户对系统提取的语料中的备选核心概念进行修改、添加、删除和确认等操作；

三元组管理接口，用于接收用户对三元组进行的编辑、删除和确认等操作，并返回最终的三元组序列；

本体文件管理接口，用于展示系统自动生成的本体文件，接收用户对本体的概念、数值属性、对象属性和实例进行的添加、修改和删除等操作，并返回用户最终的本体文件。

语料预处理子系统包括语料管理模块、网络爬虫模块、信息抽取模块、信息去噪模块；

语料管理模块，用于管理用户上传的各类语料资源，包括对上传语料的添加、删除、分类，并实现对单篇、多篇、单文件夹、多文件夹以及全部资源的选择，以便进行下一步的分析处理；

网络爬虫模块，用于对网页抓取引擎的设置和对网页抓取资源的监控，并实现对与用户设置的初始网址相关的网页的镜像抓取；

信息抽取模块，用于对选中的多种格式(包括pdf、word、ppt、txt、xls和网页等)的文件中的信息进行抽取；

信息去噪模块，用于去除各类文件中的无用信息(包括乱码、标签、页眉、页脚等)，并确保有用信息完整保留；

文本挖掘子系统包括概念统计模块、语句抽取模块、关系抽取模块和规则管理模块；

概念统计模块，用于统计用户所上传的语料中单词概念和组合概念的权重和领域相关性，最终识别和确定领域的相关概念，形成领域相关概念集，该模块还通过用户层的核心概念管理接口显示领域概念统计结果，并实现用户对领域概念进行的添加、编辑和删除等操作；

语句抽取模块，用于识别并抽取语料预处理结果中与领域相关的核心语句；

关系抽取模块，用于抽取核心语句中有用的领域相关的三元组关系，具体包括本体概念间的上下位继承关系、同义关系、属性关系和实例关系；

规则管理模块，用于实现用户对相关规则模版进行的添加、修改和删除等操作，使之更加适合用户所选择的技术领域和所上传的领域资料。

本体构建子系统包括知识优化模块、本体生成模块、去歧推理模块、本体管理模块；

知识优化模块，用于对包含本体概念间的上下位继承关系、同义关系、属性关系和实例关系的各条三元组进行自动分类整理，对抽取的各类三元组关系的领域相关性和有用性进行计算推理，识别并排除不相干、歧义和无用的三元组信息，并通过用户层的三元组管理接口返回用户进行必要的修改和确认；

本体生成模块，用于生成本体文件。通过调用Jena、KAON2等工具中添加本体类、属性和实例的API(Application Programming Interface)，将最终的三元组关系搭建成本体文件；

去歧推理模块，用于对本体文件进行一致性和完整性检测，找出并反馈生成本体文件中矛盾、重复、不一致和概念缺失等问题；

本体管理模块，用于对生成的本体文件进行编辑和修改，对本体中的元素进行添加、修改、查询和删除。

数据资源层包括全景语料库、用户语料库、自定义词典、知识提取库和统计术语库；

全景语料库，用于存储有代表性的尽量涵盖国民经济所有领域的各类语料，相关语料来源可以是较为规范的近年来全国各类期刊杂志的摘要信息；

用户语料库，用于存储用户上传的各类语料信息资源，包括通过用户设定的领域门户网站网址抓取的网页信息，以及文本预处理的结果信息；

自定义词典，用于记录并通过系统分析挖掘不断更新的领域相关概念集。作为系统分词、句法分析的自定义词典，以提高系统分析的准确率；

知识提取库，用于存储系统抽取的三元组信息；

统计术语库，用于存储对全景语料库和用户语料库中各类语料的术语进行统计分析的结果。

本发明实施例还公开了一种基于文本挖掘本体自动构建方法，其特征在于，该方法包括下述步骤：

A.接收用户输入、提交和上传的符合一定格式要求的本体名称、核心概念、主题词表等信息，构建初步的领域本体模型、核心三元组信息和用户自定义词典；

B.接收用户上传的语料库资源。如果提交了领域门户网站的网址，则调用网络爬虫工具，根据用户设置，获取相关页面资源，加入用户上传的语料库；

C.对语料库资源信息进行预处理，具体包括规则模版的设定、语料信息抽取、信息去重去噪等工作；

D.对预处理后的语料信息进行文本挖掘。具体包括对领域资源进行智能分词、词性标注、领域词汇标注和语法句法分析等文本挖掘的预处理，以及对领域概念的识别、相关语句的抽取、三元组关系抽取等文本的知识挖掘；

E.对文本挖掘结果进行分析推理，完成领域本体的自动构建，具体包括三元组关系优化、本体文件生成、本体编辑和完善以及本体文件下载等工作。

本发明实施例提供的基于文本挖掘的本体自动构建系统和方法，具有以下的优点：本发明所述的基于文本挖掘的本体自动构建系统和方法能够在很少人工干预的情况下，完成本体的自动构建，缩减本体构建周期的同时，节省人工构建本体时的大量人力、物力和财力投入；本发明所述的基于文本挖掘的本体自动构建系统和方法能够充分利用互联网上信息和用户拥有的电子资源，并进行很好地融合、推理和排歧，避免个别专家学者观点对本体知识的影响。

附图说明

根据下述附图及实施例的描述，可以充分说明本发明的特征及优点。在附图中：

图1是本发明实施例的一种基于文本挖掘的本体自动构建系统的结构图；

图2是本发明实施例的一种基于文本挖掘的本体自动构建系统的处理流程图；

图3是本发明实施例的一种基于文本挖掘的本体自动构建系统结构简图；

图4是本发明实施例的统计术语库构建处理流程图；

图5是本发明实施例的规则模版自学习处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下参照附图以及实施例，对本发明作进一步详细描述。应当理解，下述所举的实施例仅被用作解释本发明，并不用于限制本发明，即本发明的保护范围不限于下述的实施例，相反，根据本发明的发明构思，本领域普通技术人员可以进行适当改变，这些改变可以落入权利要求书所限定的发明范围之内。

本发明的基本思想是：本发明的一个实施例基于文本挖掘提供了一套本体自动构建的技术方案。如图3所示，包括领域资料收集302、语料资源处理303、文本知识挖掘304和本体自动构建305。首先通过用户上传和互联网信息抓取等多种途径获取构建本体所需的主题词表、领域文本信息等基础资料；第二，对所获得的领域文本信息进行预处理，去除标签、乱码、页眉和页脚等无用信息，同时确保有用信息被完整保留；第三，对经过预处理的语料信息进行文本的知识挖掘，包括领域概念的识别、核心语句的提取和各类知识关系的挖掘等；最后，将通过挖掘获得的概念、属性、关系和实例等知识搭建成本体知识库，返回最终用户。

图1示出了本发明提供的基于文本挖掘的本体自动构建系统包括：用户层109、系统工具层114和数据资源层133。

图1中的用户层109中的本体名称输入101、核心概念提交102、主题词表上传103和语料库上传104等同称为用户的领域资料管理接口模块。该模块提交的信息资料通过统一用户接口110传入系统工具层114，经语料预处理子系统111中的语料管理模块115的简单处理，如上传时间、上传类别、上传用户、上传领域等信息标记，最终通过统一数据访问接口127存入用户语料库129。利用本体名称输入101和核心概念提交102所上传的信息构建最初的本体模型；利用本体名称输入101、核心概念提交102和主题词表上传103所提交的信息搭建最初的用户自定义词典，通过统一数据访问接口127存入数据资源层133中的自定义词典130。用户可以通过语料库上传104输入该领域相关的门户网站网址，经语料预处理子系统111中网络爬虫模块116处理，获取该领域相关的互联网信息，一并存入用户语料库129。

用户完成资料上传后，通过语料管理模块115对用户所上传的领域资料进行修改、个别文件删除或重新上传等，最终选择和该领域相关性较强的资料进行下一步信息抽取处理。

信息抽取模块117能够实现对用户选择的用户语料库129中的Web页面、pdf、doc、ppt、html、excel、txt等常见的文本文件中信息进行抽取。信息去噪模块118能够将抽取的信息进行去噪处理，并保存为经统一命名的文本文件。例如信息抽取模块117抽取出如下信息(在“<抽取信息>”与“</抽取信息>”之间部分)：

<抽取信息><p>该工艺对COD的去除率均达到70￥？以上，色度去除率为99％，盐度达1000mg/L以下，硬度达220mg/L以下，出水水质达到印染废水的回用水质标准。</p>

</div>

<h4>关键词：</h4><p><a href＝″javascript:SearchByValue(3，′微电解反应器′)；″>微电解反应器</a><a href＝″javascript:SearchByValue(3，′印染废水′)；″>印染废水</a><ahref＝″javascript:SearchByValue(3，′深度处理′)；″>深度处理</a></p></抽取信息>。

经去噪处理后的结果如下(在“<去噪结果>”与“</去噪结果>”之间部分)：

<去噪结果>该工艺对COD的去除率均达到70以上，色度去除率为99％，盐度达1000mg/L以下，硬度达220mg/L以下，出水水质达到印染废水的回用水质标准。

关键词：微电解反应器印染废水深度处理</去噪结果>。

文本挖掘子系统112中的概念统计模块119实现对经预处理后的语料中的词汇进行统计分析，将分析计算结果存入统计术语库132，最终找出领域的简单词概念和组合概念，并更新自定义词典130，具体实现方法下文中详述。

语句抽取模块120抽取含有领域概念和关系抽取规则模版中关键词汇的相关语句；关系抽取模块121抽取出相关语句中的各种对构建本体有用的知识和关系，并通过统一数据访问接口127保存到知识提取库131。抽取的知识和关系具体包括层次继承关系、同义词关系、属性关系和实例关系等。相关例句如下：

继承关系：<核心语句>某些项目成果，如专利、论文、专著、标准、新产品、新技术等</核心语句>。

提取结果：<关系>专利is-a项目成果；论文is-a项目成果；专著is-a项目成果；标准is-a项目成果；新产品is-a项目成果；新技术is-a项目成果</关系>。

同义词关系：<核心语句>项目进度管理也称为项目时间管理，工作分解结构即WBS</核心语句>。

提取结果：<关系>项目进度管理same-as项目时间管理；工作分解结构same-as WBS</关系>。

表达同义关系的模版还有“简称|又称|又称为|亦称|又叫|也称|也称为|参见|见|亦作|全名|古之|今之|习称|俗称|称之为|即为|故称|原名|又名|即|谓之”等。

规则管理模块122实现对概念统计模块、语句抽取模块和关系抽取模块等相关规则和模版的添加、修改和删除等操作，其中总结规则和模版的统计算法将在下文中详述。

本体构建子系统113中的知识优化模块123实现对文本挖掘子系统112所提取的概念和关系等知识进行推理和优化，选出适合本体构建的知识，并返回用户层，经用户修改和确认后，导入本体生成模块124，生成初步的OWL本体文件。生成的本体文件，经去歧推理模块125，调用pellt、racer等推理工具，找出本体中的矛盾、重复、不一致等问题，自动校正后返回用户层。用户通过本体构建子系统113中的本体管理模块126实现本体文件查看、编辑和最终本体文件下载等操作。

图2示出了本发明实施例的基于文本挖掘的本体自动构建系统处理流程图。实线空心箭头代表系统处理的正向流向，虚线空心箭头代表当系统处理中间结果不理想时，返回前期步骤进行修改和校正，以期获得更好结果。具体步骤如下：

(1)本体名称输入201，接收用户确定的预构建本体的名称，并根据用户输入的本体名称创建一个含有顶层类概念的最初的本体文件。

(2)核心概念提交202，接收用户提交的在预构建本体中占有重要地位的一系列概念。构建的本体必须包含这些核心概念，并需要有一定程度的扩展，所输入的核心概念及下位概念应在本体所有概念中占有一定的规模。另外将用户输入的核心词汇添加到自定义词典130，统计术语库132中，并给统计术语库132中词汇权重和领域相关性等字段赋值。

(3)主题词表上传203，接收用户上传的用户所掌握的该领域的词汇集，生成主题词表，更新自定义词典130，将主题词表中的层次继承关系加入知识提取库131，为系统分词和领域相关度计算等模块提供依据。

(4)语料库上传204，接收用户上传的用户所掌握的该领域的相关语料。内容包括与领域有关的法律、法规、管理办法等政策文件，领域相关项目实施过程中产生的项目申请书、合同书、验收报告等科研文件，以及著作、论文、标准、研究报告和专利等成果文件。上传语料格式包括pdf、word、ppt、txt、xls和网页格式等，支持对该领域相关门户网站网址的输入，系统能够自动抓取该网站相关信息，作为语料的一部分加入用户语料库129。

(5)规则模版输入205，上传完用户语料库以后，用户可以通过“规则模版输入”，更新当前系统的领域概念识别模版、继承关系表达模版、同义词表达模版、属性表达模版、实例表达模版，也可以选择系统默认规则模版。当经过本处理流程的三元组推理212处理后发现所提取的三元组关系有用性和领域相关性均较小时，可以对规则模版库进行更新后再次处理。

(6)语料信息抽取206、信息去噪去重207、领域概念识别208等步骤的相关操作将在下文中统计术语库132构建流程中详细描述。通过领域概念识别后，如果发现所识别的领域概念和预构建领域本体的相关性均不大，则可以选择对本体名称、核心概念的重新输入以及领域主题词表的重新上传和修改。

(7)领域概念管理209，实现对识别的领域单词概念、组合概念、主题词表上传概念等进行分类、修改、添加和删除等管理，最终保存与该领域最相关的领域概念。

(8)相关语句识别210，实现对含有领域概念和关系抽取规则模版中关键词汇的相关语句的识别和抽取，并将抽取结果返回用户。如果发现所抽取的相关语句含有计划外乱码、杂乱符号或出现标题和下一句粘连等信息去噪去重未解决问题，则返回信息去噪去重207进行重新处理。

(9)三元组提取211，也即是知识的提取，主要包括本体层次继承关系、本体同义词关系、本体属性关系和本体实例关系等。

(10)三元组推理212，对提取的三元组关系进行推理，通过设定规则，进行三元组关系之间的一致性、冗余性检测，自动发现并删除多余、矛盾或错误的三元组关系，并将结果返回用户。经用户判断，如果整体符合要求，则进行下一步处理，如果所提取的三元组整体相关性较差，则返回规则模版输入205进行重新调整和校正。

(11)三元组管理213，对经自动推理判断后的三元组进行人工添加、修改和删除等操作，以提高生成本体文件的质量。

(12)本体文件生成214，利用系统前期步骤生成的三元组关系，搭建成初步的本体文件，并返回用户进行确认，如果与本体需求相差较大，则返回三元组提取步骤重新处理，如果基本符合本体需求，则进行下一步处理。

(13)本体文件管理215，实现对初步生成的本体文件的在线编辑，对本体中概念、关系和实例的添加、修改和删除等操作，最终保存修改后的本体文件。

(14)本体文件下载216，将最终生成的本体文件下载到用户本本地。

图4示出了图1中统计术语库132的构建流程，统计术语库132包括对尽量涵盖国民经济所有领域的全景语料库402中术语的统计分析结果和对用户语料库409的统计分析结果。对全景语料库402的处理属于系统预处理，需要在用户使用前完成。具体步骤详述如下：

(1)全景语料库402，本发明实施例的全景语料库的资料为近年来国内各技术领域相关核心期刊的所有论文摘要，按国民经济领域分支进行划分，共分为44大类，各领域标记为(D₁，D₂，...，D₄₄)，总规模为1000万字节。

(2)信息预处理403，用于对全景语料库401中的文本进行信息抽取、信息去噪等简单处理，并以句为单位进行下一步处理。

(3)智能分词404，调用分词工具，对通过步骤2)获得的经过信息去噪后的文档进行分词和词性标注。

(4)句法分析405，调用句法分析工具，获取每个句子中词与词之间的句法修饰关系，对满足独立句子结构块且符合“/noun+/noun”、“/adj+/noun”、“/adj+/noun+/noun”、“/v+/noun”、“/noun+/v”、“/noun+/noun+/noun”、“/v+/noun+/noun”、“/adj+/v+/noun”、“/noun+/v+/noun”等组合词结构的词组，标记为备选组合概念。作为备选组合概念字数也有一定限制，一般在3个与8个汉字之间。如“金融危机”、“次级贷款”、“贷款人”、“中国移动”、“个人信用公司”、“抵押贷款公司”、“专业融资公司”、“贷款担保公司”等。

独立句子结构块即在一个句子中，该结构块内的多个词中有且仅有一个词(被看作该句子结构块的中心词)依存于该结构块外句子的其它词，该结构块内的其他词直接或间接依存于该句子结构块的中心词。

如：“抵押贷款公司是一家独立法人机构。”

句法分析结果为：

“抵押/0/v/1/ATT 贷款/1/n/2/ATT 公司/2/n/3/SBV 是/3/v/ROOT/HED 一/4/m/5/QUN 家/5/q/8/ATT 独立/6/a/8/ATT 法人/7/n/8/ATT 机构/8/n/3/VOB 。/9/wp/-1”。

由斜杠“/”分开的各部分所代表的含义为：“词/词序/词性/依存词/依存关系”。其中v、n、m、q、a和wp分别代表动词、名词、数词、量词、形容词和标点符合，ATT、SBV、HED、QUN、VOB分别代表定语修饰语关系、主谓关系、句子中心词、数量关系和动宾关系。在该例句中抵押贷款公司和独立法人机构符合独立句子结构块要求，且有相应的组合词结构模版，因此标记为备选组合概念。

(5)词汇统计406，通过对全景语料库中各技术领域的语料进行分析，统计出所有单词词汇和备选组合概念在各技术领域出现的频率和总频率，并转化为每百万字节的标准频率f_i和总标准频率∑f_i。

(6)词类识别407，通过对单词词汇和备选组合概念的频率f_i和总频率∑f_i的相关计算，找出常用词、稀有词、一般词、领域单词概念、一般组合概念和领域组合概念等类别。具体方法如下：

a)常用词，如果词C的总频率∑f_i极大，高于一定值F_max，且在总频率中f_i的分布较为均匀，标准差S小于S_min，则认定词C为常用词，如：“是”、“你”、“我”、“他”等，如果备选组合概念中含有常用词，则该备选组合概念为组合概念的概率降低。

b)稀有词，如果词C的总频率∑f_i极小，小于一个定值F_min，且在总频率中f_i的分布较为均匀，标准差S小于S_min，则认定C为稀有词。

c)一般词，如果词C的总频率∑f_i在F_min和F_max之间，且在总频率中f_i的分布较为均匀，标准差S小于S_min，则认定词C为一般词。

d)领域单词概念，如果词C的总频率大于F_min，且在总频率中，f_i集中于个别领域D_i，则认定词C为领域D_i的领域单词概念。

e)一般组合概念，如果一个备选组合概念C不含有常用词，且该组合概念在全景语料库中出现的总频率大于一定值F_min，在各技术领域出现的频率f_i较为均匀，标准差S小于S_min，则认定该备选组合概念为一般组合概念。

f)领域组合概念，如果一个备选组合概念C不含有常用词，且该组合概念在全景语料库中出现的总频率大于一定值F_min′，在总频率f_i集中于个别领域D_i，则认定该备选组合概念C为领域D_i的领域专有组合概念。

完成对全景语料库的统计分析后，系统即可实现对用户上传语料的统计分析。用户语料处理单元408与全景语料预处理单元401所不同之处有用户语料库409、信息预处理410、词汇统计413和概念识别414。下面对这几个模块进行介绍，其他模块处理方法雷同，此处将不再累述。

(1)用户语料库409，用户语料库与全景语料库不同之处在于，该库文件格式复杂，包括Web页面、pdf、doc、txt、excel、ppt等多种格式。

(2)信息预处理410，由于用户语料库涉及多种格式文件，需要首先对各种文件内容进行提取，并进行信息的去噪处理，才能进行下一步智能分词。

(3)词汇统计413，由于用户上传的语料基本是关于一个技术领域，因此不必进行领域区分，但由于用户上传的各文档篇幅长短相差较大，为避免某个词集中于个别文档，需要统计出用户语料库中所有词汇和备选组合概念出现的频率和出现的文档篇数，并转化为每百万字节的标准频率f_i和每万篇文档出现篇数的标准文档篇数t。

(4)概念识别414，该步骤主要完成包括领域单词概念和领域组合概念在内的领域专有概念的识别。具体识别方法如下：

a)领域单词概念，如果一个词C的频率f_i大于一定值F_min，出现的标准文档篇数大于一定值T，且在全景语料库词汇统计中属于领域专有词的可以认定为词C为该领域的领域单词概念。一般用户上传的核心概念和主题词表则可直接认定为领域概念。

b)领域组合概念，如果一个备选组合概念C的频率f_i大于一定值F_min′，出现的标准文档篇数大于一定值T，且在全景语料库词汇统计中不属于一般组合概念的可以认定备选组合概念C为该领域的组合概念。

图5示出了与图1中规则管理模块122相关的规则模版统计算法的详细处理流程。该算法可以用于领域概念识别模版学习、继承关系表达模版学习、同义词表达模版学习、属性表达模版学习、实例表达模版学习等。

其基本思想是首先有一个较为规范的知识库(如同义词库)；其次通过正则表达式找出全景语料库中含有知识库中相关知识关系的句子(如含有同义词库中同义词对的所有表达句子)；通过自动聚类、统计，找出汉语中表达此种关系(如同义词关系)的所有表达方式(表达模版)；由于每种表达方式可能表达多种意思，需要选择出现概率较大的表达方式返回全景语料库进行验证，求出每种表达方式仅表达此一种关系(如同义词关系)的概率，选择概率较大的表达方法即为通过该规则模版统计算法自动选出的模版。

现以继承关系表达模版学习为例对该算法的执行进行详细描述，具体如下：

(1)全景语料库501，涵盖各个技术领域的期刊论文摘要。规范知识库502为包含词汇继承关系层次树库、同义词库、概念实例关系库等的规范的知识库。

(2)语料预处理503，对全景语料库501的处理和前文相同，在此不再累述；对规范知识库502的处理表现为提取规范知识库502中的所有概念和关系，建立一个关于知识关系的数据结构队列。

(3)相关语句提取504，采用正则表达式遍历经语料预处理后的全景语料库内容，找出含有规范知识库中继承关系概念对的句子，统一保存，并映射到知识库中的继承关系概念对上。

(4)句式自动聚类505，对抽取的相关语句进行智能分词、句法分析，识别并统计在相关语句中经常出现的词汇、词组和表达式，计算出每种表达方式在所有相关语句中所占比率f_i，选出比率大于一定值F的表达方式，作为表达该语义的备选句法模版。

(5)模版编辑校正506，对各备选句法模版进行人工核实、编辑和校正，删除干扰信息，保存提取的新的句法模版。

(6)模版验证507，由于每种表达方式可能用于表达多种意思，因此需要返回全景语料库验证该句法模版用来表达继承关系的句子所占概率，如果概率较大，则可认定该模版为通过该规则模版统计算法挖掘出的新的规则模版。

尽管上述已经详细地描述了本发明，应当理解本发明的实施例仅仅是示范性地图解了本发明的原理，在不脱离本发明构思和范围的情况下，本发明的实施例还有各种变化，替代和修改。这些改变都应该包含在本发明的范围内，不应被看作与本发明的精神和范围的脱离。

Claims

1.一种基于文本挖掘的本体自动构建系统，包括用于提供丰富的人机交互接口的用户层，用于分析语料、挖掘知识和构建本体的系统工具层，用于存储和提供最初语料、中间产物和分析结果的数据资源层；其中系统工具层包括用于接收和处理用户提供相关资料的语料预处理子系统、用于分析和挖掘语料中相关知识的文本挖掘子系统和用于组织和搭建最终领域本体的本体构建子系统。

2.根据权利要求1所述的基于文本挖掘的本体自动构建系统，其特征在于，所述的用户层包括领域资料管理、规则模版管理、核心概念管理、三元组管理和本体文件管理等接口模块。

所述的领域资料管理接口，用于接收用户确定的预构建本体的名称和核心概念，以及该领域的主题词表和领域相关语料。

所述的规则模版管理接口，用于接收用户对系统默认设定的领域概念识别、核心语句抽取、本体继承关系提取、同义概念提取等相关规则模版进行的添加、修改和删除等操作。

所述的核心概念管理接口，用于接收用户对系统提取的语料中的备选核心概念进行修改、添加、删除和确认等操作。

所述的三元组管理接口，用于接收用户对三元组进行的编辑、删除和确认等操作，并返回最终的三元组序列。

所述的本体文件管理接口，用于展示系统自动生成的本体文件，接收用户对本体的概念、数值属性、对象属性和实例进行的添加、修改和删除等操作，并返回用户最终的本体文件。

3.根据权利要求1所述的基于文本挖掘的本体自动构建系统，其特征在于，所述的语料预处理子系统包括语料管理模块、网络爬虫模块、信息抽取模块、信息去噪模块。

所述的语料管理模块，用于管理用户上传的各类语料资源，包括对上传语料的添加、删除、分类，并实现对单篇、多篇、单文件夹、多文件夹以及全部资源的选择，以便进行下一步的分析处理。

所述的网络爬虫模块，用于对网页抓取引擎的设置和对网页抓取资源的监控，并实现对与用户设置的初始网址相关的网页的镜像抓取。

所述的信息抽取模块，用于对选中的多种格式(包括pdf、word、ppt、txt、xls和网页等)的文件中的信息进行抽取。

所述的信息去噪模块，用于去除各类文件中的无用信息(包括乱码、标签、页眉、页脚等)，并确保有用信息完整保留。

4.根据权利要求1所述的基于文本挖掘的本体自动构建系统，其特征在于，所述的文本挖掘子系统包括概念统计模块、语句抽取模块、关系抽取模块和规则管理模块。

所述的概念统计模块，用于统计用户所上传的语料中简单概念和组合概念的权重和领域相关性，最终识别和确定领域的相关概念，形成领域相关概念集。该模块还通过用户层的核心概念管理接口显示领域概念统计结果，并实现用户对领域概念进行的添加、编辑和删除等操作。

所述的语句抽取模块，用于识别并抽取语料预处理结果中与领域相关的核心语句。

所述的关系抽取模块，用于抽取核心语句中有用的领域相关的三元组关系，具体包括本体概念间的上下位继承关系、同义关系、属性关系和实例关系。

所述的规则管理模块，用于实现用户对相关规则模版进行的添加、修改和删除等操作，使之更加适合用户所选择的技术领域和所上传的领域资料。

5.根据权利要求1所述的基于文本挖掘的本体自动构建系统，其特征在于，所述的本体构建子系统包括知识优化模块、本体生成模块、去歧推理模块、本体管理模块。

所述的知识优化模块，用于对包含本体概念间的上下位继承关系、同义关系、属性关系和实例关系的各条三元组进行自动分类整理，对抽取的各类三元组关系的领域相关性和有用性进行计算推理，识别并排除不相干、歧义和无用的三元组信息，并通过用户层的三元组管理接口返回用户进行必要的修改和确认。

所述的本体生成模块，用于生成本体文件。通过调用Jena、KAON2等工具中添加本体类、属性和实例的API(Application Programming Interface)，将最终的三元组关系搭建成本体文件。

所述的去歧推理模块，用于对本体文件进行一致性和完整性检测，找出并反馈生成本体文件中矛盾、重复、不一致和概念缺失等问题。

所述的本体管理模块，用于对生成的本体文件进行编辑和修改，对本体中的元素进行添加、修改、查询和删除。

6.根据权利要求1所述的基于文本挖掘的本体自动构建系统，其特征在于，所述的数据资源层包括全景语料库、用户语料库、自定义词典、知识提取库和统计术语库。

所述的全景语料库，用于存储有代表性的尽量涵盖国民经济所有领域的各类语料，相关语料来源可以是较为规范的近年来全国各类期刊杂志的摘要信息。

所述的用户语料库，用于存储用户上传的各类语料信息资源，包括通过用户设定的领域门户网站网址抓取的网页信息，以及文本预处理的结果信息。

所述的自定义词典，用于记录并通过系统分析挖掘不断更新的领域相关概念集。作为系统分词、句法分析的自定义词典，以提高系统分析的准确率。

所述的知识提取库，用于存储系统抽取的三元组信息。

所述的统计术语库，用于存储对全景语料库和用户语料库中各类语料的术语进行统计分析的结果。

7.一种如权利要求1所述基于文本挖掘的本体自动构建方法，其特征在于，所述的方法包括以下步骤：

A.接收用户输入、提交和上传的符合一定格式要求的本体名称、核心概念、主题词表等信息，构建初步的领域本体模型、核心三元组信息和用户自定义词典。

B.接收用户上传的语料库资源。如果提交了领域门户网站的网址，则调用网络爬虫工具，根据用户设置，获取相关页面资源，加入用户上传的语料库。

C.对语料库资源信息进行预处理，具体包括规则模版的设定、语料信息抽取、信息去重去噪等工作。

D.对预处理后的语料信息进行文本挖掘。具体包括对领域资源进行智能分词、词性标注、领域词汇标注和语法句法分析等文本挖掘的预处理，以及对领域概念的识别、相关语句的抽取、三元组关系抽取等文本的知识挖掘。

E.对文本挖掘结果进行分析推理，完成领域本体的自动构建。具体包括三元组关系优化、本体文件生成、本体编辑和完善以及本体文件下载等工作。