CN102243649A - 本体半自动信息抽取处理装置 - Google Patents

本体半自动信息抽取处理装置 Download PDF

Info

Publication number
CN102243649A
CN102243649A CN2011101504717A CN201110150471A CN102243649A CN 102243649 A CN102243649 A CN 102243649A CN 2011101504717 A CN2011101504717 A CN 2011101504717A CN 201110150471 A CN201110150471 A CN 201110150471A CN 102243649 A CN102243649 A CN 102243649A
Authority
CN
China
Prior art keywords
notion
concepts
relationship
result
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101504717A
Other languages
English (en)
Other versions
CN102243649B (zh
Inventor
周培
肖杭
支月娥
李强
蒋磷蕾
詹学佳
彭勇政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Han Qin Machinery Manufacturing Co., Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN2011101504717A priority Critical patent/CN102243649B/zh
Publication of CN102243649A publication Critical patent/CN102243649A/zh
Application granted granted Critical
Publication of CN102243649B publication Critical patent/CN102243649B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息处理技术领域的本体半自动信息抽取处理装置。包括:输入设备、存储器、规则库、中央处理器及输出设备,其中,输入设备、规则库的输出端与中央处理器连接,中央处理器与存储器通过数据总线连接,中央处理器的输出端与输出设备连接,用户通过输入设备输入领域叙词表及通用本体,并在规则库中保存领域专家自定义规则;中央处理器对用户的输入进行核心本体准则确立、概念间关系抽取、概念间关系修正、构建结果评价、构建结果形式化的核心功能,对输入叙词表进行领域本体半自动构建的结果作为显式规格的本体通过输出设备进行输出及表达。本发明增加叙词表中现有概念和关系的精确性,减少人工参与程度,提高领域本体构建的效率和准确性。

Description

本体半自动信息抽取处理装置
技术领域
本发明涉及的是一种信息处理技术领域的信息抽取处理装置,特别是涉及一种本体半自动信息抽取处理装置。
背景技术
所谓本体,是共享概念模型的明确形式化规范说明,能够以一种明确的、形式化的方式来表示领域知识,提高异构系统之间的互操作性,促进知识共享。在计算机科学界,尤其是知识工程界,人们对本体的认识和定义经历了一个不断深化的过程。不同于哲学中的本体论概念,计算机科学中的本体有其特定的含义。
根据本体不同方面的属性(如形式化程度、目的和描述对象),可以对本体进行不同的分类。如根据本体的形式化程度不同,可以把本体分为高度非形式化的、结构非形式化的、半形式化的和严格形式化的类别。根据本体的描述对象不同,可以把本体分为特殊领域本体(如农业、医药、地理、金融等)、一般世界知识本体、问题求解本体和知识表示语言本体等。
针对不同类型的数据源需要采用不同的本体学习技术,文献根据数据源的结构化程度,将本体学习技术分为3大类:基于结构化数据的本体学习技术、基于非结构化数据的本体学习技术和基于半结构化数据的本体学习技术。
本发明基于结构化数据的领域本体学习技术,所谓的结构化数据主要包括关系数据库或面向对象数据库中的数据。随着数据库在信息管理领域的广泛应用,大量的数据通常存储在数据库中。而且这些数据一般都是面向主题(领域)的。因此,如何利用数据库中丰富的数据构建本体是一个很有意义的研究课题。
目前国内外对于都市农业领域本体构建的研究还不多,在现有的领域本体构建技术中,如:“基于叙词表的领域本体构建研究,现代图书情报技术,2006”,所述的基于结构化数据的本体学习的现有方法一般只考虑关系模式的语义,而没有进一步去挖掘大量元组中包含的语义信息,所以获取的概念数量和关系种类都非常有限。本发明基于叙词表进行领域本体生成方法的研究,通过采用领域相关度和领域一致度相结合的方法来对候选术语集进行过滤,实现了基于名词短语模式匹配规则的分类关系抽取方法,再以WordNet为参照通用本体运用模糊决策树算法对本体概念间关系进行修正,最后通过领域本体的形式化进行表达并输出,用半自动本体构建方法降低了人工参与程度并提高了准确率。
发明内容
本发明目的在于克服了采用传统语义排歧方法导致大量信息丧失的技术缺陷,提供一种本体半自动信息抽取处理装置。本发明实现了将面向都市农业行业领域的叙词表中现有知识体系,转化到具有概念化的显式规格的本体中的目的,是利用计算机设备推进农业现代化、信息化及标准化的信息处理设备。
本发明是通过以下技术方案实现的:
本发明包括:输入设备、存储器、规则库、中央处理器及输出设备,其中,输入设备、规则库的输出端与中央处理器连接,中央处理器与存储器通过数据总线连接,中央处理器的输出端与输出设备连接,用户通过输入设备输入领域叙词表及通用本体,并在规则库中保存领域专家自定义规则;中央处理器包括:核心本体种子概念筛选器、本体中概念间关系解析器、本体中概念间关系修正器、评价结果处理器,并依次连接在输入设备与输出设备之间;所述的中央处理器对用户的输入进行核心本体准则确立、概念间关系抽取、概念间关系修正、构建结果评价、构建结果形式化的核心功能,中央处理器对输入叙词表进行领域本体半自动构建的结果作为显式规格的本体通过输出设备进行输出及表达。
所述的输入设备用于接受用户输入的语料库、基本叙词表、领域专家自定义规则、通用本体等。
所述的存储器是硬盘或磁带机或其他数据存储设备,用于储存输入设备所产生的结构化数据(包括领域基本叙词表及通用本体)、构建运算分析过程中的部分中间结果(例如:核心本体概念集)及输出设备所产生的形式化的领域本体库。
所述的规则库包括用于确立领域核心本体的规则库、用于确定本体中概念间分类关系的规则库和用于本体概念间关系修正的规则库。
所述的核心本体种子概念筛选器包括:选择器、本体种子概念质量阈值控制器、过滤器和核心本体概念集存储器,输入设备连接到选择器,输入语料库信息,选择器、过滤器和核心本体概念集存储器依次连接,本体种子概念质量阈值控制器的输出端与过滤器连接,过滤器按照本体种子概念质量阀值控制器的设定要求,对选定的种子概念集进行过滤,同时把过滤后的结果输出到核心本体概念集存储器中,进行后续处理。
其中:由核心本体种子概念筛选器接收来自输入设备输入的语料库,初步选取核心本体种子概念集,选择器为基于领域相关度与一致度综合计算的概念确立核心本体种子概念,本体种子概念质量阈值控制器为可用于控制评估核心本体种子概念质量,过滤器为基于领域专家人工修正核心本体种子概念,核心本体概念集存储器为可用于保存核心本体概念集的。
所述的本体中概念间关系解析器包括:逻辑控制器、本体中概念间分类关系解析器、本体中概念间分类关系规则库、本体中概念间非分类关系解析器、本体中概念间非分类关系规则库、处理器和解析结果存储器,由逻辑控制器接收来自核心本体种子概念筛选器的输出,本体中概念间分类关系规则库和本体中概念间非分类关系规则库两者分别与本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者连接,逻辑控制器分别与本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者连接,本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者输出端依次连接到处理器和解析结果存储器,由本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者对本体中概念间关系进行抽取,并把抽取的结果输出到处理器中进行同步,最终结果输出到解析结果存储器中保存,进行后续处理。
所述的本体中概念间关系修正器包括:名词短语分析器、WordNet通用本体库、语义排歧器、自定义规则库、关系修正分析器、修正分析结果存储器,名词短语分析器接收来自本体中概念间关系解析器的输出,名词短语分析器依次与语义排歧器、关系修正分析器、修正分析结果存储器连接,WordNet通用本体库分别与名词短语分析器和语义排歧器连接,自定义规则库与关系修正分析器连接,关系修正分析器把修正的结果输出到修正分析结果存储器中保存,进行后续处理。
其中:修正分析结果存储器可用于保存修正分析结果。名词短语分析器生成概念集对应的短语中心词,输入到语义排歧器中进行语义排歧和词义匹配,排歧器的输出端与自定义规则库的输出端合并后输入本体中概念间关系的修正分析器中,并把修正的结果保存,进行后续处理。
所述的评价结果处理器包括:本体评价器、本体构建质量阈值控制器、形式化表达转换器、本体构建存储器,由本体评价器接收来自本体中概念间关系修正器中的输出,本体评价器依次与形式化表达转换器和本体构建存储器连接,本体构建质量阈值控制器与本体评价器连接。
其中:本体评价器为基于准确率和召回率综合分析,本体构建质量阈值控制器可用于控制本体构建质量,形式化表达转换器为基于可扩展性标记语言(XML)的对构建本体进行形式化表达,本体构建存储器可用于保存输出本体构建结果。由本体评价器接收来自本体中概念间关系修正器中修正分析结果存储器中的输出信息,采用准确率、召回率和F指数等指标对输入进行评价分析,把满足本体构建质量阈值控制器设定要求的本体片段输入到形式化表达转换器中进行基于XML的转换,并把处理完成后的本体输出到本体构建结果存储器中进行保存。
所述的输出设备用于输出构建完成的领域本体库。
本发明的工作原理如下:
根据农业领域公开的叙词表作为格式化数据来源通过输入设备进行输入。通过领域专家参与确定该领域本体处理过程中的相关规则并保存于规则库中。中央处理器中的筛选器基于领域相关度与一致度综合的计算方法确立领域核心本体概念集,作为进行领域本体扩展的基础。中央处理器中的解析器基于规则库中设定的规则集合,对本体中概念间分类关系及非分类关系进行抽取。中央处理器中的修正器基于关系的模糊性特征,面向通用本体WordNet,内置了基于模糊决策树的规则学习,生成及修正关系的算法,对本体中概念间分类及非分类关系进行修正。通过OWL进行领域本体的形式化表达,经过评价结果处理器后输出领域本体。通过上述方法及装置,从而达到将一个在语义上有歧义、缺乏表述能力的叙词表转换为一个在语义上富有丰富表达能力又没有歧义的领域本体并输出。上述工作原理的实施有利于增加叙词表中现有概念和关系的精确性,有助于减少人工参与程度,提高领域本体构建的效率和准确性。
附图说明
图1是基于叙词表的都市农业领域本体半自动构建方法及装置的总体配置图;
图2是本发明中央处理器单元的硬件结构图;
图3是本发明核心本体种子概念筛选器的内部硬件结构图;
图4是本发明本体中概念间关系解析器的内部硬件结构图;
图5是本发明本体中概念间关系修正器的内部硬件结果图;
图6是本发明本体评价结果处理器的内部硬件结构图。
具体实施方式
以下结合附图对本发明的实施例作详细说明:以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
图1示出了本发明总体配置图,本实施例的装置包括:输入设备101、存储器102、规则库103、中央处理器104、输出设备105。输入设备101的输出端与中央处理器连接,中央处理器103与存储器102的输出端连接,同时中央处理器103与规则库104的输出端连接,中央处理器103的输出端与输出设备105相连。用户通过输入设备101输入行业领域叙词表、用于生成核心本体的语料库和通用本体WordNet,同时用户通过规则库103输入本体中概念间关系(包括分类关系与非分类关系)自定义抽取规则及本体中概念间关系(包括分类关系与非分类关系)自定义修正规则。中央处理器104对输入的信息进行行业领域本体的半自动构建,并将最终的评价结果及形式化表达的领域本体由输出设备105输出。
其中,输入设备101要求输入结构化数据,可以是多种数据源,包括在线字典格式、关系型数据库格式、XML格式等。
储存器102是硬盘或磁带机或其他数据存储设备,用于储存输入设备所产生的结构化数据(包括领域基本叙词表及通用本体)、构建运算过程中的部分中间结果及输出设备所产生的领域本体库。
规则库103是用于保存本体中概念间关系(包括分类关系与非分类关系)自定义抽取规则及本体中概念间关系(包括分类关系与非分类关系)自定义修正规则,服务于领域本体半自动构建的运算及处理过程。
中央处理器104是本发明核心单元,用于实现对用户的输入进行核心本体确立、概念间关系抽取、概念间关系修正、评价构建结果的核心功能。
输出设备105是系统的输出装置,用于实现向用户输出满足构建要求的并做了形式化表达处理的领域本体库。
图2示出了本发明中央处理器104的详细内部硬件结构图。本发明中央处理器104包括核心本体种子概念筛选器202、本体中概念间关系解析器203、本体中概念间关系修正器204和评价结果处理器205。
输入设备101的输出端,与核心本体种子概念筛选器202连接,基于202输出的种子概念,经过循环迭代获取概念在语料库中出现的上下文,通过综合计算领域相关度与一致度的方式获取和更新领域概念并扩展核心本体。核心本体构建完成后,作为本体中概念间关系解析器203的输入,203对概念间分类关系的抽取采用基于名词短语词汇模式匹配规则,对概念间非分类关系的抽取基于领域专家定义规则。概念间关系抽取结果作为本体中概念间关系修正器204的输入,204通过面向通用本体库WordNet实现了基于模糊决策树的本体中概念间关系的修正。构建完成的领域本体库作为评价结果处理器205的输入,205评估构建完成的行业领域本体库的质量并进行形式化表达,205的输出端与输出设备105的输入端相连,最终通过105将构建完成的本体进行输出及展示。
图3示出了本发明核心本体种子概念筛选器202的内部硬件结构图。其具体结构包括:输入设备101、选择器302、过滤器303、本体种子概念质量阈值控制器304和核心本体概念集存储器305。
其中,302接收来自输入设备101的输入的语料库,由302得到初步选取的核心本体种子概念集,302的输出端与过滤器303连接,303根据本体种子概念质量阈值控制器304输入的阈值对初步选取的核心本体种子概念集进行过滤,其输出端与核心本体概念集存储器305与连接。
选择器302用于从语料库中获取面向行业领域的核心本体种子概念,种子概念在语料中出现的频率是选择的一个重要标准,如果种子概念在语料中出现的频率较低,那么它与目标概念之间共现的次数就更低,因此无法建立起源语言向量空间与目标语言向量空间之间的关系;而如果选择一个高频词作为种子概念,那它与所有目标概念都具有较高的共现关系,这样就不具有区分度。选取种子概念要考虑的因素由下式给定:
Seed(Ws,Wd)={(Ws,Wd)|Fsmin<F(Ws)<Fsmax,Fdmin<F(Wd)<Fdmax,(Ws,Wd)∈D
其中,Ws表示源概念,Wd表示目标概念,F(W)表示概念W在语料中出现的频率,Fsmin表示源概念种子词的最小频率,Fsmax表示源概念种子词的最大频率,Fdmin表示目标概念词的最小频率,Fdmax表示目标概念词的最大频率,D表示初始领域叙词表。
筛选得到的种子概念作为302的输出,进行后续处理。
过滤器303用于通过综合计算领域相关度与一致度的方式获取和更新领域核心本体种子概念。通过302的选取,虽然从候选术语集中除去了常用词和出现频率较低的词,但集合中还包括一定数量的和领域无关的词,它们常常出现在多个领域文集中但又不在停用词表中,这时必须对候选术语集进行过滤。过滤候选术语集的算法是首先确定术语对特定领域重要程度的量化公式,根据本体种子概念质量阈值控制器304设定的阈值W,对于每个术语,如果其量化公式的值大于规定的阈值W,则该术语被保留在候选术语集中。因此,当候选术语t对领域Dk的重要程度为TWt,k时:
TWt,k=αDRt,k+βDCt,k;α,β∈(0,1)
经过多次实验比较发现,α取值0.9左右,β的取值0.25~0.35之间时,TWt,k的计算结果比较接近实际状态。
过滤器303计算所得到的核心本体种子概念集作为输出并存储于核心本体概念集存储器305。
图4示出了本发明本体中概念间关系解析器204的内部硬件结构图。其具体结构包括:核心本体种子概念筛选器202、逻辑控制器402、本体中概念间分类关系解析器403、本体中概念间分类关系规则库404、本体中概念间非分类关系解析器405、本体中概念间非分类关系规则库406、处理器407和解析结果存储器408。
其中,经过核心本体种子概念筛选器202输入的领域叙词表经过逻辑控制器402,分别与本体中概念间分类关系解析器403及本体中概念间非分类关系解析器405连接。本体中概念分类关系规则库404与本体中概念间非分类关系规则库406则与对应的解析器连接。403与405的输出端与处理器407连接并进行本体中概念间关系的融合处理,结果输出到解析结果存储器408中。
本体中概念间的关系分为分类关系(Taxonomic Relation)和非分类关系(Non-taxonomicRelation)两种。分类关系被广泛的用于组织本体的知识,许多系统都把上下位关系(HyponymyRelation)作为分类关系来处理。下位/上位关系也称为从属/上属关系,子集/全集关系,一般使用<is-a>关系进行表述。像{Maple}是{Tree}的下位词,{Tree}是{Plant}的下位词,则:“A Maple is a(kindof)Tree”。
本体中概念间分类关系解析器403用于对于分类关系的解析及抽取,采用了基于词汇的模式(Pattern)匹配的算法进行。所谓模式也叫字符串是指那些以字符序列形式出现而且不能将这些字符分成相互独立的关键字的一种数据。例如,给定一个长度为n的字符串即文本正文Text={ti}(i=1,2,...,n),以及另一个长度为m(m≤n)的字符串通常称为模式Pattern={pj}(j=1,2,...,m),这里的ti和pj是字典表中的字符,{□}表示字符集合,要求找出模式在目标字符串中首次出现的起始位置(即下标)。一旦在正文中找到一个模式,则称它发生一次匹配。词汇句法模式的含义可以直观的从下面的例中看出来:设目标串为cdabfdbab,模式串为ab,则模式匹配后查找到目标串中与模式串相同的子串的首位置是3和8。由于本发明中所操作的目标字符串(名词词组)是从叙词表中读取的,因此略去对句法模式算法的分析。对词汇模式算法的基本思路是首先定义一些模式,应用词汇模式算法在目标字符串集合中寻找所定义的模式的关系。根据上述原理,本体中概念间分类关系规则库404中定义了中心词识别规则、相同中心词规则、传递性规则、扩展性规则、缩写词规则等。
本体中概念间非分类关系解析器405用于对于非分类关系的解析及抽取,采用了基于领域专家定义规则的方法进行。相对于分类关系而言,非分类关系的抽取就比较困难。如前所述,叙词表中的关系表示存在形式化程度不足、关系表达含糊等问题,因此,首先需要在领域专家的帮助下,对叙词表中存在的尽可能多的关系进行细化和规范,并将上述规则存入本体中概念间非分类关系规则库406中。下面给出一个非分类关系规则及应用的实例。
例:If X and Y are marked as“T”in the concept type field,and X BT Y then X<subclassOf>Y;
例如,AGROVOC中的关系类型Rosaceae和Malus都是TP类,而且它们由BT关联,那么原来的关系Malus BT Rosaceae自动转换成Malus<subclassOf>Rosaceae。
处理器407将通过403及405解析得到的概念间关系进行融合,将结果输出至结果解析结果存储器408。
图5示出了本发明本体中概念间关系修正器204的内部硬件结构图。其具体结构包括:本体中概念间关系解析器203、名词短语分析器502、WordNet通用本体库503、语义排歧器504、自定义规则库505、本体中概念间关系修正分析器506和修正分析结果存储器507。
其中,名词短语分析器502接收来自本体中概念间关系解析器203的输入,由502生成相应的短语中心词,502的输出端与WordNet通用本体库503的输出端合并后输入语义排歧器504进行语义排歧和词义匹配。同时,规则库505存储由领域专家制定的自定义的关系修正规则。504与505输出端合并后输入本体中概念间关系修正分析器506,506的输出端与修正分析结果存储器507连接。
名词短语分析器502用于进行短语分析,抽取中心词。以AGROVOC叙词表为例,领域专家可以对存在的部分概念对进行更为明确的关系定义,并引入WordNet进行词义标注。例如,概念“Mutton”和“Sheep”可以被定义为:Mutton#1<madeFrom>Sheep#1,其中概念的“#id”参照WordNet中的词义说明。对于出现的复合名词,例如,概念“Rice”和“Rice Flour”,我们在定义关系的时候只提取其中心词,可以被定义为:Rice#1<usedToMake>Flour#1。
语义排歧器504用于根据WordNet通用本体库的查询结果,基于重合路径的相似度计算方法,对不同的词义对应不同的层次关系和路径进行排歧。给出计算公式如下所示:
W i = arg max W i &Sigma; j = 1 n similarity ( W i , h j )
其中,hj∈Hyponym(Wi)
similarity(x,y)=amount of the same path of x and  y to root
经过语义排歧,我们可以从WordNet中得到每一个概念的完整的上下位关系,从而提取到概念相关的集合。
自定义规则库505用于存储领域专家自定义规则,本体中概念间关系修正分析器506是一个机器学习系统,在505保存的初始规则的指导下,对训练数据进行运算并同时对关系进行修正。推广到一般情况下,对于概念C1及C2,可以得到关于概念对C1和C2的特征向量抽象表达:
feature vector{{list of hypernym class of C1},{list of hypernym class of C2}}
将特征向量中的值转换为二进制进行表达,作为机器学习系统输入的训练数据,学习系统根据训练数据抽取相关的规则。以<madeFrom>关系为例,可以从上面的例子中学习到这样的规则:
训练数据1:sheep RT mutton,Swine RT Pork,Calf RT Veal
抽取规则1:If class X is animal#1 and class Y is meat#1,and X RT Y
Then X<usedToMake>Y
训练数据2:Rice RT Rice flour,Oat RT Oatmeal,Sugar RT Cane Sugar
抽取规则2:If class X is plant#2 and class Y is food#1,and X RT Y
Then X<usedToMake>Y
训练数据3:Castor beans RT Caster oil,Conntoseed RT Cottonseed oil
抽取规则3:If class X is fruitt#1 and class Y is oil#3,and X RT Y
Then X<usedToMake>Y
根据规则1可见,叙词表中原有的“Chicken RT Chicken meat”关系将被修正为Chicken<usedToMake>Chicken meat。
图6示出了本发明评价结果处理器205的控制流程图及内部硬件结构图。其具体结构包括:本体中概念间关系修正器204、修正分析结果存储器507、本体评价器602、本体构建质量阈值控制器603、形式化表达转换器604及本体构建结果存储器605。
其中,本体评价器602接收来自本体中概念间关系修正器204的输入,采用准确率(Precision)、召回率(Recall)和F指数(F-measure)来对输入结果进行评价分析,符合本体构建质量阈值控制器603对阈值设定要求的数据输入到形式化表达转换器604,形式化处理完成后将转换结果存入本体构建存储器605。
本体评价器602用于评估构建完成的行业领域本体库的质量。目前,还没有形成完善的本体评价理论,关于本体评价的研究内容尚不明确,现有的研究并没有给出完整的分析框架,也没有建立起切实可行的评价指标体系。对于本发明在本体抽取的评估方法中,我们采用在IF领域广泛使用的准确率(Precision)、召回率(Recall)和F指数(F-measure)。准确率指正确抽取的对象(例如:概念、关系等)占所有抽取对象的百分比,召回率指抽取的对象占语料库中所有对象的百分比,F指数指召回率和准确率的加权几何平均值,具体计算公式如下:
Precision = correct extracted all extracted
Recall = correct extracted all corpus
Fmeasure = 2 &times; Precision &times; Recall Precision + Recall
形式化表达转换器604用于将符合质量要求的本体库通过通用的本体描述语言进行表达及对本体进行图形化输出展示。目前有多种基于一阶逻辑的本体描述语言。对于Web上的应用程序而言,需要一个通用的标准语言来表示本体,以避免在各种描述语言之间的转换。由于XML已被认为是Web上数据交换的标准语言,因此,本发明采用了了基于XML语法的描述语言。
通过上述方式转换后的叙词表表达可以使其具备语义网所需要的本体的基本语义关系和推理功能,这不但可以使人们尽快体验到本体应用的优越性,也能够充分有效地利用人类已有知识,保持了科学的延续性和继承性。这样不仅可以加快本体的构建进程,同时也符合叙词表的发展方向。

Claims (5)

1.一种本体半自动信息抽取处理装置,其特征在于,包括:输入设备、存储器、规则库、中央处理器及输出设备,其中,输入设备、规则库的输出端与中央处理器连接,中央处理器与存储器通过数据总线连接,中央处理器的输出端与输出设备连接,用户通过输入设备输入领域叙词表及通用本体,并在规则库中保存领域专家自定义规则;中央处理器包括:核心本体种子概念筛选器、本体中概念间关系解析器、本体中概念间关系修正器、评价结果处理器,并依次连接在输入设备与输出设备之间;所述的中央处理器对用户的输入进行核心本体准则确立、概念间关系抽取、概念间关系修正、构建结果评价、构建结果形式化的核心功能,中央处理器对输入叙词表进行领域本体半自动构建的结果作为显式规格的本体通过输出设备进行输出及表达。
2.根据权利要求1所述的本体半自动信息抽取处理装置,其特征是,所述的核心本体种子概念筛选器包括:选择器、本体种子概念质量阈值控制器、过滤器和核心本体概念集存储器,输入设备连接到选择器,输入语料库信息,选择器、过滤器和核心本体概念集存储器依次连接,本体种子概念质量阈值控制器的输出端与过滤器连接,过滤器按照本体种子概念质量阀值控制器的设定要求,对选定的种子概念集进行过滤,同时把过滤后的结果输出到核心本体概念集存储器中,进行后续处理。
3.根据权利要求1所述的本体半自动信息抽取处理装置,其特征是,所述的本体中概念间关系解析器包括:逻辑控制器、本体中概念间分类关系解析器、本体中概念间分类关系规则库、本体中概念间非分类关系解析器、本体中概念间非分类关系规则库、处理器和解析结果存储器,由逻辑控制器接收来自核心本体种子概念筛选器的输出,本体中概念间分类关系规则库和本体中概念间非分类关系规则库两者分别与本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者连接,逻辑控制器分别与本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者连接,本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者输出端依次连接到处理器和解析结果存储器,由本体中概念间分类关系解析器和本体中概念间非分类关系解析器两者对本体中概念间关系进行抽取,并把抽取的结果输出到处理器中进行同步,最终结果输出到解析结果存储器中保存,进行后续处理。
4.根据权利要求1所述的本体半自动信息抽取处理装置,其特征是,所述的本体中概念间关系修正器包括:名词短语分析器、WordNet通用本体库、语义排歧器、自定义规则库、关系修正分析器、修正分析结果存储器,名词短语分析器接收来自本体中概念间关系解析器的输出,名词短语分析器依次与语义排歧器、关系修正分析器、修正分析结果存储器连接,WordNet通用本体库分别与名词短语分析器和语义排歧器连接,自定义规则库与关系修正分析器连接,关系修正分析器把修正的结果输出到修正分析结果存储器中保存,进行后续处理。
5.根据权利要求1所述的本体半自动信息抽取处理装置,其特征是,所述的评价结果处理器包括:本体评价器、本体构建质量阈值控制器、形式化表达转换器、本体构建存储器,由本体评价器接收来自本体中概念间关系修正器中的输出,本体评价器依次与形式化表达转换器和本体构建存储器连接,本体构建质量阈值控制器与本体评价器连接。
CN2011101504717A 2011-06-07 2011-06-07 本体半自动信息抽取处理装置 Expired - Fee Related CN102243649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101504717A CN102243649B (zh) 2011-06-07 2011-06-07 本体半自动信息抽取处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101504717A CN102243649B (zh) 2011-06-07 2011-06-07 本体半自动信息抽取处理装置

Publications (2)

Publication Number Publication Date
CN102243649A true CN102243649A (zh) 2011-11-16
CN102243649B CN102243649B (zh) 2013-01-09

Family

ID=44961704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101504717A Expired - Fee Related CN102243649B (zh) 2011-06-07 2011-06-07 本体半自动信息抽取处理装置

Country Status (1)

Country Link
CN (1) CN102243649B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982095A (zh) * 2012-10-31 2013-03-20 中国运载火箭技术研究院 一种基于叙词表的本体自动生成系统及其方法
CN103279458A (zh) * 2013-02-22 2013-09-04 电子科技大学 一种领域本体的构建及实例化方法
CN104102847A (zh) * 2014-07-25 2014-10-15 中国科学技术信息研究所 汉语叙词表构建系统
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置
CN107292396A (zh) * 2017-08-14 2017-10-24 南宁学院 一种水电设备报修消息处理方法
CN107704602A (zh) * 2017-10-16 2018-02-16 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN111324673A (zh) * 2018-12-14 2020-06-23 中国航天系统工程有限公司 一种基于多源异构数据处理的森林生态系统的评价系统
CN112445779A (zh) * 2020-11-20 2021-03-05 杭州费尔斯通科技有限公司 一种基于WordNet的关系数据库本体构建方法
CN113312910A (zh) * 2021-05-25 2021-08-27 华南理工大学 一种基于主题模型的本体学习方法、系统、装置及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916903A (zh) * 2005-08-16 2007-02-21 国际商业机器公司 用于管理电子信息的信息共享系统和方法
CN101699444A (zh) * 2009-10-20 2010-04-28 武汉大学 基于形式概念分析的遥感信息处理服务分类本体构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916903A (zh) * 2005-08-16 2007-02-21 国际商业机器公司 用于管理电子信息的信息共享系统和方法
CN101699444A (zh) * 2009-10-20 2010-04-28 武汉大学 基于形式概念分析的遥感信息处理服务分类本体构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《计算机工程与设计》 20071031 孙倩等 基于叙词表的领域本体构建方法研究 第2部分 1 第28卷, 第20期 *
《计算机科学》 20071231 徐力斌等 基于WordNet 和自然语言处理技术的半自动领域本体构建 第2-3部分 1 第34卷, 第6期 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982095B (zh) * 2012-10-31 2015-08-19 中国运载火箭技术研究院 一种基于叙词表的本体自动生成系统及其方法
CN102982095A (zh) * 2012-10-31 2013-03-20 中国运载火箭技术研究院 一种基于叙词表的本体自动生成系统及其方法
CN103279458A (zh) * 2013-02-22 2013-09-04 电子科技大学 一种领域本体的构建及实例化方法
CN103279458B (zh) * 2013-02-22 2015-11-25 电子科技大学 一种领域本体的构建及实例化方法
CN104102847B (zh) * 2014-07-25 2017-11-10 中国科学技术信息研究所 汉语叙词表构建系统
CN104102847A (zh) * 2014-07-25 2014-10-15 中国科学技术信息研究所 汉语叙词表构建系统
CN110442417A (zh) * 2016-01-08 2019-11-12 第四范式(北京)技术有限公司 特征抽取方法、机器学习方法及其装置
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置
CN105653522B (zh) * 2016-01-21 2019-04-05 中国农业大学 一种针对植物领域的非分类关系识别方法
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN107292396A (zh) * 2017-08-14 2017-10-24 南宁学院 一种水电设备报修消息处理方法
CN107292396B (zh) * 2017-08-14 2020-05-05 南宁学院 一种水电设备报修消息处理方法
CN107704602A (zh) * 2017-10-16 2018-02-16 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN107704602B (zh) * 2017-10-16 2021-02-02 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN111324673A (zh) * 2018-12-14 2020-06-23 中国航天系统工程有限公司 一种基于多源异构数据处理的森林生态系统的评价系统
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN110287482B (zh) * 2019-05-29 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN112445779A (zh) * 2020-11-20 2021-03-05 杭州费尔斯通科技有限公司 一种基于WordNet的关系数据库本体构建方法
CN112445779B (zh) * 2020-11-20 2021-10-08 杭州费尔斯通科技有限公司 一种基于WordNet的关系数据库本体构建方法
CN113312910A (zh) * 2021-05-25 2021-08-27 华南理工大学 一种基于主题模型的本体学习方法、系统、装置及介质

Also Published As

Publication number Publication date
CN102243649B (zh) 2013-01-09

Similar Documents

Publication Publication Date Title
CN102243649B (zh) 本体半自动信息抽取处理装置
Zhang et al. Knowledge guided capsule attention network for aspect-based sentiment analysis
Zhong A theory of semantic information
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
CN109284396A (zh) 医学知识图谱构建方法、装置、服务器及存储介质
Ruiz-Martínez et al. BioOntoVerb: A top level ontology based framework to populate biomedical ontologies from texts
Al-Arfaj et al. Ontology construction from text: challenges and trends
US10628743B1 (en) Automated ontology system
CN109241199A (zh) 一种面向金融知识图谱发现的方法
Lenz et al. Semantic textual similarity measures for case-based retrieval of argument graphs
CN112183059A (zh) 一种中文结构化事件抽取方法
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
Huang et al. Logic tensor network with massive learned knowledge for aspect-based sentiment analysis
CN114707516A (zh) 一种基于对比学习的长文本语义相似度计算方法
Amiridze et al. Anti-unification and natural language processing
Benslimane et al. Deriving Conceptual Schema from Domain Ontology: A Web Application Reverse Engineering Approach.
JP2021111303A (ja) ラベル付ペトリネットを用いた深層格意味の表現方法
KR102363131B1 (ko) 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템
Yaguinuma et al. A meta-ontology for modeling fuzzy ontologies and its use in classification tasks based on fuzzy rules
Fan et al. A summary of aspect-based sentiment analysis
Seneviratne et al. Inductive logic programming in an agent system for ontological relation extraction
Yanling et al. Research on entity recognition and knowledge graph construction based on TCM medical records
Cheng et al. Democratizing Financial Knowledge Graph Construction by Mining Massive Brokerage Research Reports.
CN106681982B (zh) 英文长篇小说摘要生成方法
Liu et al. PrimeNet: A Framework for Commonsense Knowledge Representation and Reasoning Based on Conceptual Primitives

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANGHAI HANSHEN CO., LTD.

Free format text: FORMER OWNER: SHANGHAI JIAO TONG UNIVERSITY

Effective date: 20150528

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200240 MINHANG, SHANGHAI TO: 201901 BAOSHAN, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20150528

Address after: 201901, No. 258, Yue Yue Road, Shanghai, Baoshan District

Patentee after: Shanghai Han Qin Machinery Manufacturing Co., Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Patentee before: Shanghai Jiao Tong University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130109

Termination date: 20150607

EXPY Termination of patent right or utility model