CN104573009A - 一种领域知识库属性扩展的方法 - Google Patents
一种领域知识库属性扩展的方法 Download PDFInfo
- Publication number
- CN104573009A CN104573009A CN201510010013.1A CN201510010013A CN104573009A CN 104573009 A CN104573009 A CN 104573009A CN 201510010013 A CN201510010013 A CN 201510010013A CN 104573009 A CN104573009 A CN 104573009A
- Authority
- CN
- China
- Prior art keywords
- pattern
- attribute
- spermotype
- corpus
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种领域知识库属性扩展的方法,包括建立属性要素框架,再通过参考《同义词词林》扩展属性词,从而作为种子集合。将已有的、并且词性标注和经过Gate标注的属性信息作为种子属性集合,设计种子模式,选择与种子模式匹配的内容信息,将这些特征词按照给定的文本模式结构进行模式化表示,从而生成新的文本模式,再用这些自动获取的文本模式来抽取新的特征属性,并将新的特征属性加入属性特征种子集合,不断重复这段过程从而完善扩充属性信息,本发明能提高领域知识库属性扩展覆盖面和精确度,进而提高领域知识库的质量,同时该方法简单高效。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种领域知识库属性扩展的方法。
背景技术
自动查询扩展又可以分为全局的查询扩展和局部的查询扩展。局部查询扩展是从第一次查询的返回结果中抽取某一部分文档,对检索词和文档进行重新计算,再生成新的检索词,再次进行检索。已经证明这种方法对信息检索的效果有所改善,但存在的问题是,如果在一次自动扩展的结果集中选取的是与所需的领域知识无关的内容,或者前一次扩展效果不佳时,那么此方法将无法获得更好的结果。并且,二次扩展将影响搜索引擎的效率。基于全局的查询扩展方法通常建立同义词典或者相关语义词典,利用词典对种子属性进行相应的扩展。词典可以自动、手工或二者结合的方式建立。全局查询扩展方式不受前一次查询结果的限制,查询速度快,算法较为独立。但是,现有方法对扩展项中属性扩展方法不够科学,覆盖面和精确度都不够。
发明内容
本发明的目的在于解决选取的种子属性较少,而领域知识的建立需要庞大的属性信息,因而需要利用种子属性设计算法不断拓展完善属性信息以达到领域知识的全面、准确的问题。本发明提出一种领域知识库属性扩展的方法,包括以下步骤:
一种领域知识库属性扩展的方法,包括如下步骤:
步骤S1:人工设置种子;
步骤S2:对语料库中的语句分句、分词并进行词性标注;
步骤S3:设计种子模式,在语料库中选新模式;
步骤S4:语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式,
对模式进行编辑距离算法评价,设定阈值,若小于该阈值则忽略该模式;若大于
等于该阈值则选取该模式加入模式集;
步骤S5:用选到的模式作为种子模式再到语料库中获取属性模式;
步骤S6:对属性模式进行评价,选取大于阈值的模式加入模式集;
步骤S7:重复步骤S4到步骤S6,直到不再产生新的属性信息,则迭代终止并跳
转步骤S8,否则转步骤S4;
步骤S8:输出属性信息集合。
优选地,所述编辑距离算法评价即模式匹配度计算公式为:
其中所述Seed指代种子模式,所述Candidate指代待选模式,所述操作数指采用编辑距离方法后,两个模式Seed与Candidate转化需要的操作次数,所述长度是指种子模式和待选模式的汉字个数。
优选地,所述设定相似度也即阈值为0.3,若相似度计算后的阈值小于0.3则忽略该模式,若相似度计算后的阈值大于等于0.3则选取该模式加人模式集。
进一步优选地,所述步骤S1人工设置种子,包括:
从经过步骤S101、S102、S103后已经分词并且进行属性标注的语料库中,人工选择词汇作为种子;
利用《同义词林》建立公共卫生突发事件触发词典获得同义词,将获取的同义词
与人工选择的词汇一起作为种子,也作为最初的触发词汇。
更进一步,所述步骤S2对生语料库中的语句分句、分词并进行词性标注步骤包括:
使用ICTCLAS软件对搜集到的相关文档或者生语料库进行分词和词性标注处理。
非限制性的,所述步骤S3设计种子模式,在语料库中选新的模式包括:
设计种子模式是通过大量阅读文章,归纳分析重要语句信息的表达,从而总结出种子模式;然后选择与种子模式匹配的内容信息,将这些步骤S1中的触发词汇按照给定的文本模式结构进行模式化表示,从而生成新的文本模式。
优选地,步骤S4语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式Candidate,对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式,若大于等于阈值则选取该模式加人模式集;
具体包括根据步骤S3的新的文本模式,在未寻找种子的语料库或者是步骤S2中处理过的生语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式。
对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式,若大于等于阈值则选取该模式加人种子模式集。
进一步地,所述步骤S5用选到的模式作为种子模式再到语料库中获取属性模式步骤:
是指将步骤S4中符合相似度要求的候选模式作为种子模式即作为评价标准,从经过步骤S2处理的生语料库以及之前选取种子的语料库中选取含有触发词的语句,提取触发词语句模式作为属性模式。
更进一步,所述步骤S6对属性模式进行评价,选取大于阈值的模式加入模式集包括:
对步骤S5中的属性模式采用编辑距离的算法进行评价,其中,步骤S5中选到的模式作为种子模式,步骤S5中属性模式作为待选模式,根据步骤S1043中的编辑距离算法进行评价,选取大于或者等于阈值的模式加入种子模式集。
本发明的有益效果:依靠种子信息去选择新的与之匹配的相关信息。在本发明中称为“信息的半自动抽取”,通过这种半自动的方法从网络数据和相关文献中抽取大量公共卫生突发事件文本信息,大大提高了效率和内容覆盖率。
本发明将局部的查询扩展方法和全局的查询扩展方法相结合,充分利用领域内可描述的知识,充分挖掘与各触发词相关的属性信息,使得新增加的各项关联性更加紧密、覆盖面更广,进而提高领域知识库的质量,本发明特别适用于公共卫生突发事件领域知识库的建立,使得公共卫生突发事件领域知识库的建立更加简单高效。
附图说明
根据下述附图及实施例的描述,可以充分说明本发明的特征及优点,在附图中:
图1是一种公共卫生突发事件领域知识库的构建方法的流程图;
图2是对文本信息进行处理,形成一个标准的信息标注体系步骤的流程图;
图3是属性扩展的一种实施方式的流程图;
图4是属性扩展的另一种实施方式的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下参照附图以及实施例,对本发明作进一步详细描述。应当理解,下述所举的实施例仅被用作解释本发明,并不用于限制本发明,即本发明的保护范围不限于下述的实施例,相反,根据本发明的发明构思,本领域普通技术人员可以进行适当改变,这些改变可以落入权利要求书所限定的发明范围之内。
为了清晰描述公共卫生突发事件知识架构,首先确定领域本体的重要概念以及概念间的关系:
领域本体包含了一个领域内的概念、术语、规则以及概念间的关系,也为此领域提供了知识共享的基础,从而更好地进行领域内的知识研究和扩展。
本体就是描述特定知识领域概念、概念属性、及概念间的关系,或在该领域里占主导地位的理论、关系的约束。
如图1所示,本发明的第一实施方式提供了一种公共卫生突发事件领域知识库的构建方法,包括如下步骤:
步骤S101,分析公共卫生突发事件生命周期所涉及的领域,搜集公共卫生突发事件相关文档,整理形成语料库,所述领域至少为一个。
在上述步骤中,首先分析公共卫生突发事件生命周期所涉及的各个领域确定应用领域和信息覆盖范围;其次,通过人工上传和/或互联网信息等一种或多种途径从各类文献、媒体报道、Web文档中获取构建本体所需的公共卫生突发事件要素领域文本信息等语料基础资料,所述基础资料的内容包括与各个领域有关的法律、法规、管理办法等政策文件,以及与各领域相关项目实施过程中产生的项目申请书、合同书、验收报告等科研文件,以及著作、论文、标准、研究报告和专利等成果文件。例如,对于公共卫生突发事件要素领域领域而言,意味着,搜集从医学领域的病原体基因型到公共卫生领域的流行病学分析,再到突发事件的相关应急处理相关的文档。可选地,上述人工上传的语料格式包括pdf、word、ppt、txt、xls和网页格式等。
整理形成语料库的步骤优选为:首先,对选择的语料库的文本文件中信息进行抽取获得文本信息。其中,文本文件的格式可以是Web页面、pdf、doc、ppt、html、excel、txt等。其次,对所获得的领域文本信息进行预处理,和/或去除标签、乱码、页眉和页脚等无用信息,确保有用信息被完整保留。将处理后获得的文本信息作为语料库。
步骤S102,通过提取句子中的词和短语,构成知识库的属性与属性值,从而构建事件框架。
示意性地,可以利用ICTCLAS软件进行词性标注,提取句子中的词或者短语,,属性例如“临床症状”、“宿主”、“治疗药物”等等。在此基础上,建立公共突发事件基础属性框架,即事件框架,此框架在之后可进一步的完善和扩充。框架是一种描述对象属性并反映相关对象间各种关系的数据结构和知识单位。通过框架表示公共突发事件的事件属性不仅可以表现出知识内部结构关系,还能够描述知识间的层次关系。
本发明中,优选的事件框架设计如下:
本发明在公共卫生突发事件属性信息的结构化表达和属性信息抽取的实现过程中,以此作为公共突发事件属性框架的基本内容,也是种子属性集合中的组成元素。种子模式的设计是以词性的形式体现的,因此分词与词性标也是种子模式设计的必备条件。
步骤S103,对语料库的文本信息进行处理,形成标准的信息标注体系。该步骤如图2所示进一步包括以下步骤:
步骤S1031,将文本信息分割成小文本。
所述将文本信息分割成小文本是指通过搜集公共突发事件相关文档,对文档进行分割处理。例如,对于医学领域而言,意味着,搜集从医学领域的病原体基因型到公共卫生领域的流行病学分析,再到突发事件的相关应急处理相关的文档,将文档中相关内容人工分解为句子或者小文本。
步骤S1032,对小文本进行分词处理和词性标注。
所述对小文本进行分词处理和词性标注的方法可以是人工基于分词处理方法进行分词处理和词性标注,也可以采用机器进行自动分词和词性标注。例如,采用中国科学院计算机语言所的开源版汉语分词软件ICTCLAS对相关文档进行分词和词性标注预处理,通过选择文档中一段相关文字,可利用ICTCLAS软件进行词性标注。示意性地,可见名词有“症状”,因此症状可作为公共突发事件一个重要属性,名词“上海”、“安徽”等可作为属性“发病地域”的内容。
在另一个示意性的实施方式中,以对以下文本信息进行分词处理和词性标注进行说明:央广网北京1月5日消息(记者车丽)据中国之声《全国新闻联播》报道,继上海市昨天报告一例人感染H7N9禽流感病例后,浙江省卫生计生委今天通报,浙江省4号新确诊了1例人感染H7N9禽流感宾利,广州市卫生局今天透露广州增城溢出肉菜市场检出3份样本H7N9病毒呈阳性,暂时还没有法相人感染。中国疾病控中心专家表示:这次出现的新病例是散发病例,H7N9不会集中大规模爆发,提示公众不必恐慌,只要不去活禽市场,不接触活禽,就能有效预防。
利用ICTCLAS软件分词处理和词性标注结果为:央/v广/a网/n北京/n 1月/t 5日/t消息/n(/w记者/n车丽/n)/w据/p中国/n之/u声/n《/w全国/n新闻/n联播/v》/w报道/v,/w继/v上海市/n昨天/t报告/n一/m例/q人/n感染/v H7N9/x禽流感/n病例/n后/f,/w浙江省/n卫生/a计生委/n今天/t通报/v,/w浙江省/n 4/n号/q新/a确诊/v了/u 1/a例/n人/n感染/v H7N9/x禽流感/n病例/n,/w广州/n市/n卫生局/n今天/t透露/v,/w广州/n增城/n一/m处/q肉/n菜/n市场/n检/v出/v 3/n份/q样本/n H7N9/x病毒/n呈/v阳性/n,/w暂时/d还/d没有/d发现/v人/n感染/v。/w中国/n疾/a控/v中心/n专家/n表示/v:/w这/r次/q出现/v的/u新/a病例/n是/v散发/v病例/n,/w H7N9/x不/d会/v集中/v大规模/d爆发/v,/w提示/v公众/n不必/d恐慌/a,/w只要/c不/d去/v活/v禽/n市场/n,/w不/d接触/v活/v禽/n,/w就/d能/v有效/a预防/v。/w
其中/n,/ns,/m,/v,/q,/t,/a等等表示/前面词的词性,/n表示名词,/ns表示地名,/m表示数词,/v表示动词,/q表示量词,/t表示时间词,/a表示形容词,/w表示标点符号,/x表示字符串,/d表示副词,/c表示连词,/u表示助词,/p表示介词,/f表示方位词,/r表示代词,如“散发/v”,表示散发的词性为动词。
步骤S1033,进行属性信息标注。
需要强调的是,在本发明中公共卫生突发事件的属性信息包含属性名AttrName和属性值AttrValue两个部分。
在第一种情形下,以相关报道中的句子为单位进行属性标注,所述标注形成标签,标签进一步包括主标签,主标签包括属性名AttrName和属性值AttrValue。属性值AttrValue可以是名词性词汇,也可以是表程度的副词(例如“轻微”、“重度”);对于部分没有属性值的属性,只标注属名AttrName。在第二种情形下,所述属性名和属性值可以通过人工分析然后编辑;在另一种情形下,可以采用机器学习的方法,从大规模一般语料库中获取属性和属性值,也可以从各种字典对词汇意义的描述中人工分析和提取属性和属性值,用计算机按照模式自动抽取获得。
所述属性信息进一步可包括:type:属性的类型;typecode:属性的分类代码。
例如对于以下句子:人感染H7N9和H5N1的临床症状很像。比如都会出现病毒性 肺炎,起病急,病程早期均有38℃以上高热、咳嗽等呼吸道感染症状。属性标注结果如下:
<AttrName type=“临床症状”typecode=“10002”>病毒性肺炎</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>高热</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>38℃</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>咳嗽</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>呼吸道感染</AttrName〉
语料的属性信息标注是是文本识别和信息抽取的基础,优选地,本发明利用谢菲尔德大学开发的GATE(General Architecture for Text Engineering)开源版自然语言处理软件平台,为公共卫生突发事件语料标注提供一定的标注框架和标注数据管理方案。经过GATE预处理和标注后的语料可统一存储为xml格式。由于采用GATE软件进行语料标注是公开内容,此处不再详细叙述。
由于公共卫生突发事件涉及领域广泛,信息量大而且散乱,事件缺乏参考的分类标准,给公共卫生突发事件属性信息的结构化表达和抽取带来了极大的障碍。为此,本发明设计公共突发事件属性分类体系,如下表1,使事件的属性描述更加规范化和标准化,将散乱在文本中的相关信息经过搜集整理聚类,形成一个标准的信息标注体系。
表1 公共卫生突发事件信息分类体系
序号 | 代码 | 类型 | 备注 |
1 | 10000 | 基本信息 | |
2 | 10001 | 宿主 |
3 | 10002 | 临床症状 | |
4 | 10003 | 治疗预防 | 治疗手段,预防措施 |
5 | 10004 | 传播途径 | |
6 | 10005 | 时间 | |
7 | 10006 | 发病地域 | |
8 | 20000 | 引发后果 | |
9 | 20001 | 病患死亡 | |
10 | 20002 | 家禽死亡 | |
11 | 20003 | 经济损失 | |
12 | 30000 | 疾控措施 | |
13 | 30001 | 政府疾控 | 发布疫情信息,引导舆论 |
14 | 30002 | 医疗资助 | 开展救治,引导预防 |
公共卫生突发事件发生蔓延十分迅速,它的突发性决定了需要在有限的时间内作出正确的重大的应急决定,尽可能早的在突发事件生命周期得早期快速控制,以将突发事件的破坏性和蔓延性降到最低程度。本发明的公共卫生突发事件属性信息分类体系就是参考事件生命周期而设计的,这样不仅方便扩充,还能够根据事件的发展随时作调整,减小修改的工作量。
步骤S104,将已经得到的属性信息作为种子属性,并设计种子模式,依靠这些种子属性去选择新的与之匹配的相关信息,得到更多属性信息。该步骤可以概括为属性扩展,其中一个实施方式如图3所示可以进一步包括以下步骤:
步骤S1041,获取同义词;
步骤S1042,设计通用种子模式;
步骤S1043,评价通用种子模式;
步骤S1044,选择新的属性信息。
所述获取同义词步骤包括本发明参考《同义词林》,通过词汇的定义标码可以获取词汇的所有相关同义词。公共卫生突发事件涉及内容广泛,包括了临床症状,宿主,患者死亡,经济损失,疾控措施等诸多信息。例如,表示疾控措施词汇“调动”在《同义词林》中,部分相关同义词有“调派”、“调配”、“调控”等,经过参考可以得到更多的同义词汇。通过定义标码可以找到同义词。
《同义词林》词汇定义示例:
调派1Hc03C04=
调配1Hc03C04=
调控1Hc03C11#
以找到的种子属性及同义词作为触发词汇。触发词汇是用于计算得到更多属性词汇的基础词汇,是拓展出来属性信息的基本含义与构成形式。
表2 属性触发词汇词典示例
所述设计种子模式步骤包括,通过大量阅读文章,归纳分析重要语句信息的表达,从而总结出高质量高标准的种子模式,借助ICTCLAS分词的词性标注,设计出通用种子模式。
由于语句表达的多样性,句式繁多,因此模式的设计需要不断总结、修改,当然有些触发词的表达模式很难确定其固定的模式。表3总结了一些触发词的高频表达方式。本发明对于种子模式的设计可以获得高质量的种子集合,再通过过扩展算法,从大量文档中抽取出相似的属性信息来可以完善公共突发事件的属性框架。
表3 分类体系种子模式示例
备注:
word为触发词汇,\S为非空格字符,
/n,/ns,/m,/v,/q,/nt,/a为词性,
/n名词,/ns地名,/m数词,/v动词,/q量词,/nt时间词,/a形容词
所述评价种子模式步骤,优选采用编辑距离方法,即Levenshtein Distance算法。编辑距离方法衡量依据是是指两个字符串转为对方所需要的最少编辑操作次数。次数越少则匹配度越高,此处的匹配度也可以理解为相似度,待选模式与候选模式意义相同。
此处将列举两个实例来具体描述模式相似度计算方法:
示例1:Seed:word+/m+/n Candidate:word+/m+/
Seed指代种子模式,Candidate指代待选模式。
表4
其中表格的右下角3*3格,先从上到下再从左到右,依次为A、B、C、D、E、F、G、H、I处。Seed的每一位标码为1,2,3,Candidate每一位也标码为1,2,3.
表4描述了编辑距离算法的基本计算过程,A处是Seed的第一位与Candidate的第一位比较,比较一次则A处左侧和上侧的值分别加1,两侧均是1+1=2,由于第一位均是触发词word,内容相同,则A处左上角为0+0=0,加得的三个值分别是0,1,1,选最小的0,此为A处的值,代表此位相同,无需操作。接下来B处,是Seed的第一位与Candidate的第二位比较,同上,B处的左侧和上侧的值分别加1,即左侧:2+1=3,上侧0+1=1,由于两位内容不同,因此B处左上角为1+1=2,加得三个值分别是2,3,1,选最小的1,此为B处的值,代表此位不同。依次逐列自上而下比较,最后到I处,得三个加值分别为1,2,2,选最小1,此为I值,也是两个模式Seed与Candidate转化需要的操作次数。操作数越小,匹配度越高。
A处:表示word和word 需要有0个操作。表示此处值一样
B处:表示word+/m和word 需要有1个操作。
C处:表示word+/m+/n和word 需要有2个操作。
D处:表示word和word+/m 需要有1个操作。
E处:表示word+/m和word+/m 需要有0个操作。表示此处值一样
F处:表示word+/m+/n和word+/m 需要有1个操作。
G处:表示word和word+/m+/q 需要有2个操作。
H处:表示word+/m和word+/m+/q 需要有1个操作。
I处:表示word+/m+/n和word+/m+/q 需要有1个操作。
此例Seed和Candidate长度均为3,操作数为1,则匹配度为1-1/3=0.666。
示例2:Seed:组织专家会诊 Candidate:组织各省专家会诊
表5
如表5所示,本例按上述算法步骤得出最终操作数为2,即删去“各”“省”即可将Candidate转化为Seed。本例Seed长度为6,Candidate长度为8,按照匹配度公式,取最大长度为5,操作数为2。因此本例匹配度为1-2/8=0.75。
当匹配度大于或者等于0.3时默认符合要求,可以加入种子模式,若小于则忽略该候选模式。
由于评价种子模式步骤中候选模式的质量对于模式获取的整个过程是十分重要,直接影响最后的结果。因此,必须通过一定标准衡量候选模式与种子模式间的匹配度也就是相似度,才能选择出最优的候选模式进入模式集,才能保证模式集的准确性和高质量。
所述选择新的属性信息步骤包括,在语料库中寻找含有触发词汇的语句,提取触发词语句模式作为待选模式将已经通过种子评价步骤,并且符合要求的候选模式加入之前的种子模式,用选到的模式作为种子模式再到语料库中获取属性模式,得到新的属性信息,该属性信息又可以寻找触发词汇,再到语料库中寻找含有触发词汇的语句,重复上述过程,直至不在产生新的属性。
在另一个具体实施方式中,所述属性扩展的内容包括:
通过对信息的搜集分析来手工建立一个的公共卫生突发事件属性要素框架,再通过参考《同义词词林》扩展属性词,从而作为种子集合。将已有的、并且词性标注和经过Gate标注的属性信息作为种子属性集合,设计种子模式,选择与种子模式匹配的内容信息,将这些特征词按照给定的文本模式结构进行模式化表示,从而生成新的文本模式,再用这些自动获取的文本模式来抽取新的特征属性,并将新的特征属性加入属性特征种子集合,不断重复这段过程从而完善扩充属性信息。
在另一个具体实施方式中,所述属性扩展的内容包括:
通过对信息的搜集分析来手工建立一个的公共卫生突发事件属性要素框架,再通过参考《同义词词林》扩展属性词,从而作为种子集合。将已有的、并且词性标注和经过Gate标注的属性信息作为种子属性集合,设计种子模式,选择与种子模式匹配的内容信息,将这些特征词按照给定的文本模式结构进行模式化表示,从而生成新的文本模式,再用这些自动获取的文本模式来抽取新的特征属性,并将新的特征属性加入属性特征种子集合,不断重复这段过程从而完善扩充属性信息。
所述属性扩展的具体步骤如图4所示包括如下步骤:
步骤S1:所述人工设置种子,包括:
从经过步骤S101、S102、S103后已经分词并且进行属性标注的语料库中,人工选择词汇作为种子,主要从已建立的属性要素框架中选择。优选地,如步骤S1041,手工抽取信息并参考《同义词林》建立的公共卫生突发事件触发词典,将获取的同义词与人工选择的词汇一起作为种子,也作为最初的触发词汇。例如,表示疾控措施词汇“调动”在《同义词林》中,部分相关同义词有“调派”、“调配”、“调控”等,经过参考可以得到更多的同义词汇。通过定义标码可以找到同义词,这些都作为触发词或者说是触发词汇。
如果种子词义涵盖范围过大,将导致扩展后的属性不够精确,同时处理时间过长。如果种子词义涵盖范围过小,将导致扩展后的属性过于细化不够全面。以H7N9流感事件为例,例如名词“上海”、“安徽”等可作为属性“发病地域”的内容,以此作为H7N9流感事件属性框架的基本内容,也是种子属性集合中的组成元素。种子模式的设计是以词性的形式体现的,提取句子中的名词和名词短语,在名词性质中提取一般性和特征性属性,例如公共卫生突发事件的属性为时间、发病地域、宿主、传播途径、治疗预防、病死人数、经济损失、禽业经济损失、餐饮业经济损失、发布疫情信息、更新疫情信息、科普预防、知识引导舆论、开展救治等。
考虑到属性信息所表达的含义,以及属性信息在自然语言中的歧义性和模糊性。用上述方法确定的种子模式以及框架词义范围较为适中,便于后续的属性信息的扩充和细化。
步骤S2:所述对生语料库中的语句分句、分词并进行词性标注步骤包括:
生语料库是指当发生新的公共卫生突发事件或者在原有的语料基础上又出现了新的或者是生的语料所构成的相关文档,这时需要从中找出属性信息来完善属性框架,进而更新完善领域知识库,优选地,使用ICTCLAS软件对搜集到的相关文档或者生语料库进行分词和词性标注处理。
步骤S3:设计种子模式,在语料库中选新的模式。
具体为设计种子模式,如政府疾控的种子模式设计为/n+word+/m+/n,其中/n表示名词,/m表示数词,word表示触发词汇,+表示前后词紧挨着。由于语句表达等多样性,句式繁多,因此模式的设计需要不断总结、修改,当然有些触发词的表达模式很难确定其固定的模式。设计通用种子模式,通用模式在步骤S1042中具体描述过,此处不在详细叙述。
然后选择与种子模式匹配的内容信息,将这些步骤S1中的触发词汇按照给定的文本模式结构进行模式化表示,从而生成新的文本模式,给定的文本模式即为设计的通用种子模式。
步骤S4:语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式Candidate,对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式。若大于等于阈值则选取该模式加人模式集;
步骤S4具体包括根据步骤S3的新的文本模式,在未寻找种子的语料库或者是步骤S2中处理过的生语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式。
任何一个计算本体概念相似度的算法都不可能解决所有问题,对于不同的应用,概念之间的相似度也不同,因此应根据具体领域设计相关算法和确定相关参数。本发明针对公共卫生突发事件领域,设计了衡量相似度的方法。本发明采用编辑距离方法。编辑距离方法衡量依据是是指两个字符串转为对方所需要的最少编辑操作次数。次数越少则匹配度越高。所述操作数指采用编辑距离方法后,两个模式Seed与Candidate转化需要的操作次数,所述长度是指种子模式和待选模式的汉字个数。编辑距离方法已在步骤S1043中有过具体描述,此处不再详细说明。
对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式。若大于等于阈值则选取该模式加人种子模式集。
步骤S5:所述用选到的模式作为种子模式再到语料库中获取属性模式步骤:
是指将步骤S4中符合相似度要求的候选模式作为种子模式即作为评价标准,从经过步骤S2处理的生语料库以及之前选取种子的语料库中选取含有触发词的语句,提取触发词语句模式作为属性模式。
所述属性模式是指与种子模式或者待选模式的模式相同或者相近的模式化表达的属性,属性模式与属性信息形式上是一样的,区别在于属性模式是一种结构化表达,属性信息必须满足属性模式。
步骤S6:对属性模式进行评价,选取大于阈值的模式加入模式集:
对步骤S5中的属性模式采用编辑距离的算法进行评价,其中,步骤S5中选到的模式作为种子模式,步骤S5中属性模式作为待选模式,根据步骤S1043中的编辑距离算法进行评价,选取大于或者等于阈值的模式加入种子模式集。
优选地,阈值为0.3。
所述步骤S4、S6中的模式集,也可以理解为种子模式集或者是属性模式集,其都可作为属性信息。
步骤S7:重复步骤S4到步骤S6,直到不再产生新的属性信息,则迭代终止并跳转S8,否则转S4:
例如“咳嗽”这个触发词在不同的语料中有不同的表达方式,但核心词都包含咳嗽,通过在语料库中不断地迭代筛选,将“咳嗽”相关的属性信息都找出来,从而完善整个属性框架。
初始属性模式集内容比较少,通过该步骤,随着循环的进行会越来越丰富,本发明是属性模式不断完善、丰富的过程。
步骤S8:输出属性信息集合。
本步骤S8的属性信息包括属性和属性值。
本发明只需要提供少量公共卫生突发事件的语料库,通过属性扩展方法,可以快速处理大量生的语料库,从中抽取出全面准确的属性信息,这样可以方便的根据新的突发事件及时的更新内容。
在属性扩展步骤完成以后,进行公共突发事件领域本体的构建,
步骤S105,利用属性信息,构建公共卫生突发事件领域本体。公共卫生突发事件领域本体模型构建可以进一步包括步骤如下:
步骤S1051:通过分析领域,确定应用领域和信息覆盖范围。
步骤S1052:收集相关信息,提取领域内具有代表性及影响力的专业术语和概念,设计出概念下的属性分类。
步骤S1053:使用本体构建工具,定义领域本体的类以及其下子类、类之间的关系。
本发明从公共卫生突发事件生命周期的角度分析,更能从逻辑角度清晰地分析概念间的关系。在以下实施方式中,将使用Protégé建模进行本发明实施过程的简要描述。
首先定义类以及类的层次关系,可以简明的表达出本体结构,使领域知识的层次关系体现的清晰直观。本体模型包含了描述公共卫生突发事件的三项主要信息:基本信息、引发后果、疾控措施。
所述基本信息类包含了公共突发事件的基本信息,如流感发病的时间地点,患者或者疑似病例的临床症状,流感病毒的宿主及传播途径,还有正常人预防流感的措施,以及患者的治疗。
所述引发后果类包含了公共卫生突发事件爆发的整个生命周期所造成的影响。
所述疾控措施类包含了对于应急情况的各方面措施。
在已经建立的公共卫生突发事件本体模型基础上,在对其下子类进行完善扩展,依据步骤S101、步骤S102、步骤S103、步骤S104所获得的属性信息集合,从而已经设计了事件框架或者说是信息框架,也就是本体的结构体系模型,该本体模型包含了描述公共卫生突发事件的三项主要信息:基本信息、引发后果、疾控措施。使用Protégé4.1.0建模。
使用Protégé4.1.0建模,对象属性(Object propeties)是用来描述两个类之间的关系(包括层级关系和非层级关系),例如“加强免疫力预防发烧”,“预防”则是连接临床症状类和治疗预防类的对象属性(见表6)。数据属性(Data Properties)指定了作用域(Domain)和值域(Range)。下表列举了部分公共卫生突发事件本体之间的对象属性,包含层级关系以及非层级关系,并且说明了其对应的作用域以及值域。OWL语言对于对象属性的命名和定义没有严格的约束,而且支持中文,为了更清楚地表达对象属性的含义,更清晰地表达两个类之间的关系,本发明对象属性的命名也用了中文,形象描述了类之间的作用关系。
表6 公共卫生突发事件部分对象属性
Protégé建模时的本体描述语言是OWL,建模完成后,对应的OWL文档自动描述公共卫生突发事件类的层次关系以及各类之间的关系等内容。所以OWL描述语言能够让建立的本体的完善和维护更加方便。
因为Protégé具体建模过程为公开内容,此处不再详细描述。
公共卫生突发事件领域本体模型构建完成即公共卫生突发事件领域知识库的构建完成。
尽管上述已经详细地描述了本发明,应当理解本发明的实施例仅仅是示范性地图解了本发明的原理,在不脱离本发明构思和范围的情况下,本发明的实施例还有各种变化,替代和修改。这些改变都应该包含在本发明的范围内,不应被看作与本发明的精神和范围的脱离。
Claims (9)
1.一种领域知识库属性扩展的方法,包括如下步骤:
步骤S1:人工设置种子;
步骤S2:对语料库中的语句分句、分词并进行词性标注;
步骤S3:设计种子模式,在语料库中选新模式;
步骤S4:语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式,对模式进行编辑距离算法评价,设定阈值,若小于该阈值则忽略该模式;若大于等于该阈值则选取该模式加入模式集;
步骤S5:用选到的模式作为种子模式再到语料库中获取属性模式;
步骤S6:对属性模式进行评价,选取大于阈值的模式加入模式集;
步骤S7:重复步骤S4到步骤S6,直到不再产生新的属性信息,则迭代终止并跳转步骤S8,否则转步骤S4;
步骤S8:输出属性信息集合。
2.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述编辑距离算法评价即模式匹配度计算公式为:
其中所述Seed指代种子模式,所述Candidate指代待选模式,所述操作数指采用编辑距离方法后,两个模式Seed与Candidate转化需要的操作次数,所述长度是指种子模式和待选模式的汉字个数。
3.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述设定相似度也即阈值为0.3,若相似度计算后的阈值小于0.3则忽略该模式,若相似度计算后的阈值大于等于0.3则选取该模式加人模式集。
4.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述步骤S1人工设置种子,包括:
从经过步骤S101、S102、S103后已经分词并且进行属性标注的语料库中,人工选择词汇作为种子;
利用《同义词林》建立公共卫生突发事件触发词典获得同义词,将获取的同义词与人工选择的词汇一起作为种子,也作为最初的触发词汇。
5.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述步骤S2对生语料库中的语句分句、分词并进行词性标注步骤包括:
使用ICTCLAS软件对搜集到的相关文档或者生语料库进行分词和词性标注处理。
6.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述步骤S3设计种子模式,在语料库中选新的模式包括:
设计种子模式是通过大量阅读文章,归纳分析重要语句信息的表达,从而总结出种子模式;
然后选择与种子模式匹配的内容信息,将这些步骤S1中的触发词汇按照给定的文本模式结构进行模式化表示,从而生成新的文本模式。
7.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
步骤S4语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式Candidate,对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式,若大于等于阈值则选取该模式加人模式集;
具体包括根据步骤S3的新的文本模式,在未寻找种子的语料库或者是步骤S2中处理过的生语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式。
对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式,若大于等于阈值则选取该模式加人种子模式集。
8.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述步骤S5用选到的模式作为种子模式再到语料库中获取属性模式步骤:
是指将步骤S4中符合相似度要求的候选模式作为种子模式即作为评价标准,从经过步骤S2处理的生语料库以及之前选取种子的语料库中选取含有触发词的语句,提取触发词语句模式作为属性模式。
9.根据权利要求1所述的领域知识库属性扩展的方法,其特征在于:
所述步骤S6对属性模式进行评价,选取大于阈值的模式加入模式集包括:
对步骤S5中的属性模式采用编辑距离的算法进行评价,其中,步骤S5中选到的模式作为种子模式,步骤S5中属性模式作为待选模式,根据步骤S1043中的编辑距离算法进行评价,选取大于或者等于阈值的模式加入种子模式集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510010013.1A CN104573009B (zh) | 2015-01-08 | 2015-01-08 | 一种领域知识库属性扩展的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510010013.1A CN104573009B (zh) | 2015-01-08 | 2015-01-08 | 一种领域知识库属性扩展的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573009A true CN104573009A (zh) | 2015-04-29 |
CN104573009B CN104573009B (zh) | 2018-08-24 |
Family
ID=53089071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510010013.1A Expired - Fee Related CN104573009B (zh) | 2015-01-08 | 2015-01-08 | 一种领域知识库属性扩展的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573009B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869056A (zh) * | 2016-03-31 | 2016-08-17 | 比美特医护在线(北京)科技有限公司 | 信息处理方法和装置 |
CN106095956A (zh) * | 2016-06-15 | 2016-11-09 | 北京智能管家科技有限公司 | 支持信息裂变查询方法及装置 |
CN108170664A (zh) * | 2017-11-29 | 2018-06-15 | 有米科技股份有限公司 | 基于重点关键词的关键词拓展方法和装置 |
CN108573694A (zh) * | 2018-02-01 | 2018-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
CN110008351A (zh) * | 2019-03-08 | 2019-07-12 | 浙江大学 | 一种面向隐式冲突检测的结构化功能知识补全方法 |
CN112668324A (zh) * | 2020-12-04 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 语料数据处理方法、装置、电子设备及存储介质 |
CN113255742A (zh) * | 2021-05-08 | 2021-08-13 | 广西东创大数据有限公司 | 一种政策匹配度计算方法、系统、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339551A (zh) * | 2007-07-05 | 2009-01-07 | 日电(中国)有限公司 | 自然语言查询需求扩展设备及其方法 |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN102200983A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 属性提取装置和方法 |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
-
2015
- 2015-01-08 CN CN201510010013.1A patent/CN104573009B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339551A (zh) * | 2007-07-05 | 2009-01-07 | 日电(中国)有限公司 | 自然语言查询需求扩展设备及其方法 |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN102200983A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 属性提取装置和方法 |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
Non-Patent Citations (1)
Title |
---|
贾真 等: "面向中文网络百科的属性和属性值抽取", 《北京大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869056A (zh) * | 2016-03-31 | 2016-08-17 | 比美特医护在线(北京)科技有限公司 | 信息处理方法和装置 |
CN106095956A (zh) * | 2016-06-15 | 2016-11-09 | 北京智能管家科技有限公司 | 支持信息裂变查询方法及装置 |
CN108170664A (zh) * | 2017-11-29 | 2018-06-15 | 有米科技股份有限公司 | 基于重点关键词的关键词拓展方法和装置 |
CN108573694A (zh) * | 2018-02-01 | 2018-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
CN110008351A (zh) * | 2019-03-08 | 2019-07-12 | 浙江大学 | 一种面向隐式冲突检测的结构化功能知识补全方法 |
CN110008351B (zh) * | 2019-03-08 | 2021-05-18 | 浙江大学 | 一种面向隐式冲突检测的结构化功能知识补全方法 |
CN112668324A (zh) * | 2020-12-04 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 语料数据处理方法、装置、电子设备及存储介质 |
CN112668324B (zh) * | 2020-12-04 | 2023-12-08 | 北京达佳互联信息技术有限公司 | 语料数据处理方法、装置、电子设备及存储介质 |
CN113255742A (zh) * | 2021-05-08 | 2021-08-13 | 广西东创大数据有限公司 | 一种政策匹配度计算方法、系统、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104573009B (zh) | 2018-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573006A (zh) | 一种公共卫生突发事件领域知识库的构建方法 | |
CN104573009A (zh) | 一种领域知识库属性扩展的方法 | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
Cremaschi et al. | A fully automated approach to a complete semantic table interpretation | |
Tablan et al. | Mímir: An open-source semantic search framework for interactive information seeking and discovery | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN106126620A (zh) | 基于机器学习的中文自动文摘方法 | |
CN103324700B (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN103473280A (zh) | 一种网络可比语料的挖掘方法及装置 | |
CN102117281A (zh) | 一种构建领域本体的方法 | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
Prudhomme et al. | Automatic Integration of Spatial Data into the Semantic Web. | |
Li et al. | A coarse-to-fine collective entity linking method for heterogeneous information networks | |
CN104063382B (zh) | 面向油气管道领域的多策略融合的标准术语处理方法 | |
Qian et al. | Fine-grained entity typing without knowledge base | |
CN112328855A (zh) | 多源军事装备知识关联组织方法 | |
Chen et al. | Research on micro-blog sentiment polarity classification based on SVM | |
Qiu et al. | Review of development and construction of Uyghur knowledge graph | |
Belliardo et al. | Leave no Place Behind: Improved Geolocation in Humanitarian Documents | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents | |
Chen et al. | Construction Methods of Knowledge Mapping for Full Service Power Data Semantic Search System | |
Tian et al. | Text-enhanced question answering over knowledge graph | |
Jung et al. | A fusion of the period characterized and hierarchical bayesian techniques for efficient cluster analysis of time series data | |
Zhang et al. | Topic level disambiguation for weak queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180824 Termination date: 20190108 |
|
CF01 | Termination of patent right due to non-payment of annual fee |