发明内容
本发明目的在于克服了采用传统语义排歧方法导致大量信息丧失的技术缺陷,提供一种本体半自动信息抽取处理装置。本发明实现了将面向都市农业行业领域的叙词表中现有知识体系,转化到具有概念化的显式规格的本体中的目的,是利用计算机设备推进农业现代化、信息化及标准化的信息处理设备。
本发明是通过以下技术方案实现的:
本发明包括:输入设备、存储器、规则库、中央处理器及输出设备,其中,输入设备、规则库的输出端与中央处理器连接,中央处理器与存储器通过数据总线连接,中央处理器的输出端与输出设备连接,用户通过输入设备输入领域叙词表及通用本体,并在规则库中保存领域专家自定义规则;中央处理器包括:核心本体种子概念筛选器、本体中概念间关系解析器、本体中概念间关系修正器、评价结果处理器,并依次连接在输入设备与输出设备之间;所述的中央处理器对用户的输入进行核心本体准则确立、概念间关系抽取、概念间关系修正、构建结果评价、构建结果形式化的核心功能,中央处理器对输入叙词表进行领域本体半自动构建的结果作为显式规格的本体通过输出设备进行输出及表达。
所述的输入设备用于接受用户输入的语料库、基本叙词表、领域专家自定义规则、通用本体等。
所述的存储器是硬盘或磁带机或其他数据存储设备,用于储存输入设备所产生的结构化数据(包括领域基本叙词表及通用本体)、构建运算分析过程中的部分中间结果(例如:核心本体概念集)及输出设备所产生的形式化的领域本体库。
所述的规则库包括用于确立领域核心本体的规则库、用于确定本体中概念间分类关系的规则库和用于本体概念间关系修正的规则库。
所述的核心本体种子概念筛选器包括:选择器、本体种子概念质量阈值控制器、过滤器和核心本体概念集存储器,输入设备连接到选择器,输入语料库信息,选择器、过滤器和核心本体概念集存储器依次连接,本体种子概念质量阈值控制器的输出端与过滤器连接,过滤器按照本体种子概念质量阀值控制器的设定要求,对选定的种子概念集进行过滤,同时把过滤后的结果输出到核心本体概念集存储器中,进行后续处理。
其中:由核心本体种子概念筛选器接收来自输入设备输入的语料库,初步选取核心本体种子概念集,选择器为基于领域相关度与一致度综合计算的概念确立核心本体种子概念,本体种子概念质量阈值控制器为可用于控制评估核心本体种子概念质量,过滤器为基于领域专家人工修正核心本体种子概念,核心本体概念集存储器为可用于保存核心本体概念集的。
所述的本体中概念间关系解析器包括:逻辑控制器、本体中概念间分类关系解析器、本体中概念间分类关系规则库、本体中概念间非分类关系解析器、本体中概念间非分类关系规则库、处理器和解析结果存储器,由逻辑控制器接收来自核心本体种子概念筛选器的输出,本体中概念间分类关系规则库和本体中概念间非分类关系规则库两者分别与本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者连接,逻辑控制器分别与本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者连接,本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者输出端依次连接到处理器和解析结果存储器,由本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者对本体中概念间关系进行抽取,并把抽取的结果输出到处理器中进行同步,最终结果输出到解析结果存储器中保存,进行后续处理。
所述的本体中概念间关系修正器包括:名词短语分析器、WordNet通用本体库、语义排歧器、自定义规则库、关系修正分析器、修正分析结果存储器,名词短语分析器接收来自本体中概念间关系解析器的输出,名词短语分析器依次与语义排歧器、关系修正分析器、修正分析结果存储器连接,WordNet通用本体库分别与名词短语分析器和语义排歧器连接,自定义规则库与关系修正分析器连接,关系修正分析器把修正的结果输出到修正分析结果存储器中保存,进行后续处理。
其中:修正分析结果存储器可用于保存修正分析结果。名词短语分析器生成概念集对应的短语中心词,输入到语义排歧器中进行语义排歧和词义匹配,排歧器的输出端与自定义规则库的输出端合并后输入本体中概念间关系的修正分析器中,并把修正的结果保存,进行后续处理。
所述的评价结果处理器包括:本体评价器、本体构建质量阈值控制器、形式化表达转换器、本体构建存储器,由本体评价器接收来自本体中概念间关系修正器中的输出,本体评价器依次与形式化表达转换器和本体构建存储器连接,本体构建质量阈值控制器与本体评价器连接。
其中:本体评价器为基于准确率和召回率综合分析,本体构建质量阈值控制器可用于控制本体构建质量,形式化表达转换器为基于可扩展性标记语言(XML)的对构建本体进行形式化表达,本体构建存储器可用于保存输出本体构建结果。由本体评价器接收来自本体中概念间关系修正器中修正分析结果存储器中的输出信息,采用准确率、召回率和F指数等指标对输入进行评价分析,把满足本体构建质量阈值控制器设定要求的本体片段输入到形式化表达转换器中进行基于XML的转换,并把处理完成后的本体输出到本体构建结果存储器中进行保存。
所述的输出设备用于输出构建完成的领域本体库。
本发明的工作原理如下:
根据农业领域公开的叙词表作为格式化数据来源通过输入设备进行输入。通过领域专家参与确定该领域本体处理过程中的相关规则并保存于规则库中。中央处理器中的筛选器基于领域相关度与一致度综合的计算方法确立领域核心本体概念集,作为进行领域本体扩展的基础。中央处理器中的解析器基于规则库中设定的规则集合,对本体中概念间分类关系及非分类关系进行抽取。中央处理器中的修正器基于关系的模糊性特征,面向通用本体WordNet,内置了基于模糊决策树的规则学习,生成及修正关系的算法,对本体中概念间分类及非分类关系进行修正。通过OWL进行领域本体的形式化表达,经过评价结果处理器后输出领域本体。通过上述方法及装置,从而达到将一个在语义上有歧义、缺乏表述能力的叙词表转换为一个在语义上富有丰富表达能力又没有歧义的领域本体并输出。上述工作原理的实施有利于增加叙词表中现有概念和关系的精确性,有助于减少人工参与程度,提高领域本体构建的效率和准确性。
具体实施方式
以下结合附图对本发明的实施例作详细说明:以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
图1示出了本发明总体配置图,本实施例的装置包括:输入设备101、存储器102、规则库103、中央处理器104、输出设备105。输入设备101的输出端与中央处理器连接,中央处理器103与存储器102的输出端连接,同时中央处理器103与规则库104的输出端连接,中央处理器103的输出端与输出设备105相连。用户通过输入设备101输入行业领域叙词表、用于生成核心本体的语料库和通用本体WordNet,同时用户通过规则库103输入本体中概念间关系(包括分类关系与非分类关系)自定义抽取规则及本体中概念间关系(包括分类关系与非分类关系)自定义修正规则。中央处理器104对输入的信息进行行业领域本体的半自动构建,并将最终的评价结果及形式化表达的领域本体由输出设备105输出。
其中,输入设备101要求输入结构化数据,可以是多种数据源,包括在线字典格式、关系型数据库格式、XML格式等。
储存器102是硬盘或磁带机或其他数据存储设备,用于储存输入设备所产生的结构化数据(包括领域基本叙词表及通用本体)、构建运算过程中的部分中间结果及输出设备所产生的领域本体库。
规则库103是用于保存本体中概念间关系(包括分类关系与非分类关系)自定义抽取规则及本体中概念间关系(包括分类关系与非分类关系)自定义修正规则,服务于领域本体半自动构建的运算及处理过程。
中央处理器104是本发明核心单元,用于实现对用户的输入进行核心本体确立、概念间关系抽取、概念间关系修正、评价构建结果的核心功能。
输出设备105是系统的输出装置,用于实现向用户输出满足构建要求的并做了形式化表达处理的领域本体库。
图2示出了本发明中央处理器104的详细内部硬件结构图。本发明中央处理器104包括核心本体种子概念筛选器202、本体中概念间关系解析器203、本体中概念间关系修正器204和评价结果处理器205。
输入设备101的输出端,与核心本体种子概念筛选器202连接,基于202输出的种子概念,经过循环迭代获取概念在语料库中出现的上下文,通过综合计算领域相关度与一致度的方式获取和更新领域概念并扩展核心本体。核心本体构建完成后,作为本体中概念间关系解析器203的输入,203对概念间分类关系的抽取采用基于名词短语词汇模式匹配规则,对概念间非分类关系的抽取基于领域专家定义规则。概念间关系抽取结果作为本体中概念间关系修正器204的输入,204通过面向通用本体库WordNet实现了基于模糊决策树的本体中概念间关系的修正。构建完成的领域本体库作为评价结果处理器205的输入,205评估构建完成的行业领域本体库的质量并进行形式化表达,205的输出端与输出设备105的输入端相连,最终通过105将构建完成的本体进行输出及展示。
图3示出了本发明核心本体种子概念筛选器202的内部硬件结构图。其具体结构包括:输入设备101、选择器302、过滤器303、本体种子概念质量阈值控制器304和核心本体概念集存储器305。
其中,302接收来自输入设备101的输入的语料库,由302得到初步选取的核心本体种子概念集,302的输出端与过滤器303连接,303根据本体种子概念质量阈值控制器304输入的阈值对初步选取的核心本体种子概念集进行过滤,其输出端与核心本体概念集存储器305与连接。
选择器302用于从语料库中获取面向行业领域的核心本体种子概念,种子概念在语料中出现的频率是选择的一个重要标准,如果种子概念在语料中出现的频率较低,那么它与目标概念之间共现的次数就更低,因此无法建立起源语言向量空间与目标语言向量空间之间的关系;而如果选择一个高频词作为种子概念,那它与所有目标概念都具有较高的共现关系,这样就不具有区分度。选取种子概念要考虑的因素由下式给定:
Seed(Ws,Wd)={(Ws,Wd)|Fsmin<F(Ws)<Fsmax,Fdmin<F(Wd)<Fdmax,(Ws,Wd)∈D
其中,Ws表示源概念,Wd表示目标概念,F(W)表示概念W在语料中出现的频率,Fsmin表示源概念种子词的最小频率,Fsmax表示源概念种子词的最大频率,Fdmin表示目标概念词的最小频率,Fdmax表示目标概念词的最大频率,D表示初始领域叙词表。
筛选得到的种子概念作为302的输出,进行后续处理。
过滤器303用于通过综合计算领域相关度与一致度的方式获取和更新领域核心本体种子概念。通过302的选取,虽然从候选术语集中除去了常用词和出现频率较低的词,但集合中还包括一定数量的和领域无关的词,它们常常出现在多个领域文集中但又不在停用词表中,这时必须对候选术语集进行过滤。过滤候选术语集的算法是首先确定术语对特定领域重要程度的量化公式,根据本体种子概念质量阈值控制器304设定的阈值W,对于每个术语,如果其量化公式的值大于规定的阈值W,则该术语被保留在候选术语集中。因此,当候选术语t对领域Dk的重要程度为TWt,k时:
TWt,k=αDRt,k+βDCt,k;α,β∈(0,1)
经过多次实验比较发现,α取值0.9左右,β的取值0.25~0.35之间时,TWt,k的计算结果比较接近实际状态。
过滤器303计算所得到的核心本体种子概念集作为输出并存储于核心本体概念集存储器305。
图4示出了本发明本体中概念间关系解析器204的内部硬件结构图。其具体结构包括:核心本体种子概念筛选器202、逻辑控制器402、本体中概念间分类关系解析器403、本体中概念间分类关系规则库404、本体中概念间非分类关系解析器405、本体中概念间非分类关系规则库406、处理器407和解析结果存储器408。
其中,经过核心本体种子概念筛选器202输入的领域叙词表经过逻辑控制器402,分别与本体中概念间分类关系解析器403及本体中概念间非分类关系解析器405连接。本体中概念分类关系规则库404与本体中概念间非分类关系规则库406则与对应的解析器连接。403与405的输出端与处理器407连接并进行本体中概念间关系的融合处理,结果输出到解析结果存储器408中。
本体中概念间的关系分为分类关系(Taxonomic Relation)和非分类关系(Non-taxonomicRelation)两种。分类关系被广泛的用于组织本体的知识,许多系统都把上下位关系(HyponymyRelation)作为分类关系来处理。下位/上位关系也称为从属/上属关系,子集/全集关系,一般使用<is-a>关系进行表述。像{Maple}是{Tree}的下位词,{Tree}是{Plant}的下位词,则:“A Maple is a(kindof)Tree”。
本体中概念间分类关系解析器403用于对于分类关系的解析及抽取,采用了基于词汇的模式(Pattern)匹配的算法进行。所谓模式也叫字符串是指那些以字符序列形式出现而且不能将这些字符分成相互独立的关键字的一种数据。例如,给定一个长度为n的字符串即文本正文Text={ti}(i=1,2,...,n),以及另一个长度为m(m≤n)的字符串通常称为模式Pattern={pj}(j=1,2,...,m),这里的ti和pj是字典表中的字符,{□}表示字符集合,要求找出模式在目标字符串中首次出现的起始位置(即下标)。一旦在正文中找到一个模式,则称它发生一次匹配。词汇句法模式的含义可以直观的从下面的例中看出来:设目标串为cdabfdbab,模式串为ab,则模式匹配后查找到目标串中与模式串相同的子串的首位置是3和8。由于本发明中所操作的目标字符串(名词词组)是从叙词表中读取的,因此略去对句法模式算法的分析。对词汇模式算法的基本思路是首先定义一些模式,应用词汇模式算法在目标字符串集合中寻找所定义的模式的关系。根据上述原理,本体中概念间分类关系规则库404中定义了中心词识别规则、相同中心词规则、传递性规则、扩展性规则、缩写词规则等。
本体中概念间非分类关系解析器405用于对于非分类关系的解析及抽取,采用了基于领域专家定义规则的方法进行。相对于分类关系而言,非分类关系的抽取就比较困难。如前所述,叙词表中的关系表示存在形式化程度不足、关系表达含糊等问题,因此,首先需要在领域专家的帮助下,对叙词表中存在的尽可能多的关系进行细化和规范,并将上述规则存入本体中概念间非分类关系规则库406中。下面给出一个非分类关系规则及应用的实例。
例:If X and Y are marked as“T*”in the concept type field,and X BT Y then X<subclassOf>Y;
例如,AGROVOC中的关系类型Rosaceae和Malus都是TP类,而且它们由BT关联,那么原来的关系Malus BT Rosaceae自动转换成Malus<subclassOf>Rosaceae。
处理器407将通过403及405解析得到的概念间关系进行融合,将结果输出至结果解析结果存储器408。
图5示出了本发明本体中概念间关系修正器204的内部硬件结构图。其具体结构包括:本体中概念间关系解析器203、名词短语分析器502、WordNet通用本体库503、语义排歧器504、自定义规则库505、本体中概念间关系修正分析器506和修正分析结果存储器507。
其中,名词短语分析器502接收来自本体中概念间关系解析器203的输入,由502生成相应的短语中心词,502的输出端与WordNet通用本体库503的输出端合并后输入语义排歧器504进行语义排歧和词义匹配。同时,规则库505存储由领域专家制定的自定义的关系修正规则。504与505输出端合并后输入本体中概念间关系修正分析器506,506的输出端与修正分析结果存储器507连接。
名词短语分析器502用于进行短语分析,抽取中心词。以AGROVOC叙词表为例,领域专家可以对存在的部分概念对进行更为明确的关系定义,并引入WordNet进行词义标注。例如,概念“Mutton”和“Sheep”可以被定义为:Mutton#1<madeFrom>Sheep#1,其中概念的“#id”参照WordNet中的词义说明。对于出现的复合名词,例如,概念“Rice”和“Rice Flour”,我们在定义关系的时候只提取其中心词,可以被定义为:Rice#1<usedToMake>Flour#1。
语义排歧器504用于根据WordNet通用本体库的查询结果,基于重合路径的相似度计算方法,对不同的词义对应不同的层次关系和路径进行排歧。给出计算公式如下所示:
其中,hj∈Hyponym(Wi)
similarity(x,y)=amount of the same path of x and y to root
经过语义排歧,我们可以从WordNet中得到每一个概念的完整的上下位关系,从而提取到概念相关的集合。
自定义规则库505用于存储领域专家自定义规则,本体中概念间关系修正分析器506是一个机器学习系统,在505保存的初始规则的指导下,对训练数据进行运算并同时对关系进行修正。推广到一般情况下,对于概念C1及C2,可以得到关于概念对C1和C2的特征向量抽象表达:
feature vector{{list of hypernym class of C1},{list of hypernym class of C2}}
将特征向量中的值转换为二进制进行表达,作为机器学习系统输入的训练数据,学习系统根据训练数据抽取相关的规则。以<madeFrom>关系为例,可以从上面的例子中学习到这样的规则:
训练数据1:sheep RT mutton,Swine RT Pork,Calf RT Veal
抽取规则1:If class X is animal#1 and class Y is meat#1,and X RT Y
Then X<usedToMake>Y
训练数据2:Rice RT Rice flour,Oat RT Oatmeal,Sugar RT Cane Sugar
抽取规则2:If class X is plant#2 and class Y is food#1,and X RT Y
Then X<usedToMake>Y
训练数据3:Castor beans RT Caster oil,Conntoseed RT Cottonseed oil
抽取规则3:If class X is fruitt#1 and class Y is oil#3,and X RT Y
Then X<usedToMake>Y
根据规则1可见,叙词表中原有的“Chicken RT Chicken meat”关系将被修正为Chicken<usedToMake>Chicken meat。
图6示出了本发明评价结果处理器205的控制流程图及内部硬件结构图。其具体结构包括:本体中概念间关系修正器204、修正分析结果存储器507、本体评价器602、本体构建质量阈值控制器603、形式化表达转换器604及本体构建结果存储器605。
其中,本体评价器602接收来自本体中概念间关系修正器204的输入,采用准确率(Precision)、召回率(Recall)和F指数(F-measure)来对输入结果进行评价分析,符合本体构建质量阈值控制器603对阈值设定要求的数据输入到形式化表达转换器604,形式化处理完成后将转换结果存入本体构建存储器605。
本体评价器602用于评估构建完成的行业领域本体库的质量。目前,还没有形成完善的本体评价理论,关于本体评价的研究内容尚不明确,现有的研究并没有给出完整的分析框架,也没有建立起切实可行的评价指标体系。对于本发明在本体抽取的评估方法中,我们采用在IF领域广泛使用的准确率(Precision)、召回率(Recall)和F指数(F-measure)。准确率指正确抽取的对象(例如:概念、关系等)占所有抽取对象的百分比,召回率指抽取的对象占语料库中所有对象的百分比,F指数指召回率和准确率的加权几何平均值,具体计算公式如下:
形式化表达转换器604用于将符合质量要求的本体库通过通用的本体描述语言进行表达及对本体进行图形化输出展示。目前有多种基于一阶逻辑的本体描述语言。对于Web上的应用程序而言,需要一个通用的标准语言来表示本体,以避免在各种描述语言之间的转换。由于XML已被认为是Web上数据交换的标准语言,因此,本发明采用了了基于XML语法的描述语言。
通过上述方式转换后的叙词表表达可以使其具备语义网所需要的本体的基本语义关系和推理功能,这不但可以使人们尽快体验到本体应用的优越性,也能够充分有效地利用人类已有知识,保持了科学的延续性和继承性。这样不仅可以加快本体的构建进程,同时也符合叙词表的发展方向。