CN104573006A - 一种公共卫生突发事件领域知识库的构建方法 - Google Patents

一种公共卫生突发事件领域知识库的构建方法 Download PDF

Info

Publication number
CN104573006A
CN104573006A CN201510009769.4A CN201510009769A CN104573006A CN 104573006 A CN104573006 A CN 104573006A CN 201510009769 A CN201510009769 A CN 201510009769A CN 104573006 A CN104573006 A CN 104573006A
Authority
CN
China
Prior art keywords
public health
information
attribute
knowledge base
health emergencies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510009769.4A
Other languages
English (en)
Inventor
王理
张远鹏
钱旦敏
姚敏
邵劲松
蓝俊
董建成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN201510009769.4A priority Critical patent/CN104573006A/zh
Publication of CN104573006A publication Critical patent/CN104573006A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种公共卫生突发事件领域知识库的构建方法。包括如下步骤:分析公共卫生突发事件生命周期所涉及的各个领域,搜集相关文档,获得语料库;通过提取句子中属性信息,构建事件框架;对文本信息进行处理,形成标准的信息标注体系;将已经得到的属性信息作为种子属性,并设计种子模式,依靠这些种子信息去选择新的与之匹配的相关信息,得到更多属性信息;利用属性信息,构建公共卫生突发事件领域本体。本发明的领域知识库构建方法构建的公共卫生突发事件领域知识库,更加准确和全面,简单高效,有助于生成和执行新的应急预案,这不仅为突发事件的应急处理提供了标准参考,还能够提高应急处理的效率,为之后的科研工作提供了参考。

Description

一种公共卫生突发事件领域知识库的构建方法
技术领域
本发明涉及信息技术领域,尤其涉及一种公共卫生突发事件领域知识库的构建方法。
背景技术
随着社会的流动性和复杂性的迅速增加,从医学领域到公共卫生领域,很多突发性事件不仅会造成各种损失还会造成社会动荡,公共卫生突发事件是一类特殊的事件,它涉及基础医学,公共卫生,应急处理,社会心理学等诸多领域,而且由于疫情变化快,所以它的信息更新十分迅速,这就表示它的信息归纳是非常复杂的。例如H7N9疫情爆发,这一流感事件不仅危害人类健康,还造成了全球恐慌,而后又引起了一系列的经济损失,每天都有新的感染死亡病例,每天都有治疗药物与疫苗研究都有新的进展,每天都有新的经济损失被计算。因此,必须要进行大量相关文章的通篇阅读和语义理解,根据各类时新报道及时更新公共卫生突发事件信息。公共卫生突发事件领域知识库一方面包括已经存在的认知了的多领域知识,还包含了经验性知识。它可以将公共卫生突发事件中产生的信息以整合了的系统准确有组织的知识的形式反馈给疾控工作者。转化为统一的表达形式的知识便于疾控工作者在之后可能发生的突发事件时进行高效率的知识共享、交流和协同工作,有助于生成和执行新的应急预案。这不仅为突发事件的应急处理提供了标准参考,还能够提高应急处理的效率,为之后的科研工作提供了参考。而经验参考的规范化系统化表示就是领域知识增强了面向公共卫生突发事件演化应用的表达能力。在疫情事件发生后,通过参考完善的公共卫生突发事件领域知识,可以使政府在应对未来可能发生的各类突发疫情的应对和控制更加有序、更加成熟、更加有效,将损失减小到最小。
建立有关的公共卫生突发事件领域知识库,从基础概念间的关系,到疾病爆发、流行、逐步消退的过程中蕴含的规律,再到采取的公共卫生疾控措施,这一系列数据信息中蕴含着大量领域知识,经过分析与抽取,建立完备的公共卫生突发事件领域知识,消除公共卫生及医学领域的专业术语及相关概念的歧义性,清楚的表现出领域知识的组织结构,有益于之后的突发事件处理、预防以及学术研究公共卫生突发事件近年来频发发生,造成的社会影响深远而宽泛。因此公共卫生突发事件领域知识库的构建显得尤为重要。
领域知识库是指在此领域内的概念信息、概念信息之间的相互关系以及有关约束的集合。领域知识库为领域信息的采集、结构化存储和信息挖掘分析提供了模型支持和标准,有利于对信息的快速分析和处理。由于公共卫生突发事件涉及领域广泛,每个领域的内容是相关联的,同时又是独立的,必须定义相关的属性来解释内容,同时也可以阐明各领域之间的关系。
“本体”(Ontology)最初是哲学领域的术语,是关于事物存在及其本质规律的学说。20世纪末,随着信息技术的发展,本体被引入人工智能、知识工程、图书情报等领域,用于构建大型集成的知识库系统,解决知识概念表示和知识组织体系方面的问题。领域本体是指以一个特定的领域(如项目管理、汽车等)为描述对象的本体,提供该特定领域的概念定义和概念之间的关系、主要理论、基本原理以及领域中发生的活动等。
网络文本中公共卫生突发事件信息的描述语句一般较长,而且由于公共卫生突发事件涉及诸多领域,所以事件组成要素的类型和信息量繁多复杂,而且医学领域的特殊约束性,有相当多的专有学术名词和概念,这使事件要素的抽取工作非常复杂,手工抽取的工作量非常大且信息涵盖范围不够全面。目前关于对公共卫生突发事件领域知识建立的研究还处于初步阶段,应用目前已有的领域知识库构建方法构建的公共卫生领域知识库,因为专有名词较多,关联性不紧密等自身领域特点,往往不够深入全面,导致准确性和全面性都还有待完善。
发明内容
为了解决上述问题,本发明提供了一种公共卫生突发事件领域知识库的构建方法,包括如下步骤:
步骤S101:分析公共卫生突发事件生命周期所涉及的领域,搜集公共卫生突发事件相关文档,整理形成语料库;
步骤S102:通过提取句子中的名词和名词短语,构建事件框架;
步骤S103:对语料库的文本信息进行处理,形成标准的信息标注体系;
步骤S104:将已经得到的属性信息作为种子属性,并设计种子模式,依靠这些种子信息去选择新的与之匹配的相关信息,得到更多属性信息;
步骤S105:利用属性信息,构建公共卫生突发事件领域本体。
所述步骤S101中分析公共卫生突发事件生命周期所涉及的领域,搜集公共卫生突发事件相关文档进一步包括:
分析公共卫生突发事件生命周期所涉及的各个领域确定应用领域和信息覆盖范围;
通过人工上传和/或互联网信息获取构建本体所需的语料基础资料;所述基础资料的内容包括以下至少一个:与领域有关的法律、法规、管理办法、与各领域相关项目实施过程中产生的项目申请书、合同书、验收报告、著作、论文、标准、研究报告和专利。
所述步骤S101中整理形成语料库的步骤为:
对选择的语料库的文本文件中信息进行抽取获得文本信息;
对所获得的领域文本信息进行预处理,和/或去除标签、乱码、页眉和页脚,将处理后获得的文本信息作为语料库。
所述对选择的语料库的文本文件中信息进行抽取获得文本信息的步骤包括:
在语料库中寻找含有触发词汇的语句,提取触发词语句模式作为待选模式将已经通过种子评价步骤,并且符合要求的候选模式加入之前的种子模式,用选到的模式作为种子模式再到语料库中获取属性模式,得到新的属性信息。
本发明的有益效果:
1.本发明是一种公共卫生突发事件要素信息的半自动抽取方法,所谓半自动抽取,即是在建立的框架基础上运用分词软件和扩展概念算法的信息抽取方法。
2.通过提取句子中的名词和名词短语,构建事件框架;其中采用ICTCLAS软件进行处理,特别适合公共卫生突发事件领域,可以方便快捷的进行后续处理,构建的框架对公共卫生突发事件领域知识库的建立起到很好的促进以及保障全面性和准确性的作用。本发明框架的建立更加科学,规范,以及同义词扩展更加准确,领域建立准确性更高。
3.本发明形成的标准的信息标注体系是根据公共卫生突发事件生命周期及发展规律建立,使得公共卫生突发事件领域知识库的更加全面,准确。
4.将已经得到的属性信息作为种子属性,并设计种子模式,依靠这些种子信息去选择新的与之匹配的相关信息,得到更多属性信息,通过该步骤可以将语料库中的相关属性信息全部筛选出来使得公共卫生突发事件领域知识库更加准确、全面,简单,高效。
5.采用《同义词林》扩展触发词,结合人工挑选的的属性标注体系中的属性信息,使得种子的质量非常高,同时方法也很简便,操作简单,保障了公共卫生突发事件领域知识库更加准确、全面。
6.采用本发明建立的公共卫生突发事件领域知识库简单高效,能够及时根据新的突发事件更新领域知识库,从而节省了时间,提高应急处理效率,为防治救灾赢得宝贵时间。
附图说明
根据下述附图及实施例的描述,可以充分说明本发明的特征及优点,在附图中:
图1是一种公共卫生突发事件领域知识库的构建方法的流程图;
图2是对文本信息进行处理,形成一个标准的信息标注体系步骤的流程图;
图3是属性扩展一种实施方式的流程图;
图4是属性扩展的另一种实施方式的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下参照附图以及实施例,对本发明作进一步详细描述。应当理解,下述所举的实施例仅被用作解释本发明,并不用于限制本发明,即本发明的保护范围不限于下述的实施例,相反,根据本发明的发明构思,本领域普通技术人员可以进行适当改变,这些改变可以落入权利要求书所限定的发明范围之内。
为了清晰描述公共卫生突发事件知识架构,首先确定领域本体的重要概念以及概念间的关系:
领域本体包含了一个领域内的概念、术语、规则以及概念间的关系,也为此领域提供了知识共享的基础,从而更好地进行领域内的知识研究和扩展。
本体就是描述特定知识领域概念、概念属性、及概念间的关系,或在该领域里占主导地位的理论、关系的约束。
如图1所示,本发明的第一实施方式提供了一种公共卫生突发事件领域知识库的构建方法,包括如下步骤:
步骤S101,分析公共卫生突发事件生命周期所涉及的领域,搜集公共卫生突发事件相关文档,整理形成语料库,所述领域至少为一个。
在上述步骤中,首先分析公共卫生突发事件生命周期所涉及的各个领域确定应用领域和信息覆盖范围;其次,通过人工上传和/或互联网信息等一种或多种途径从各类文献、媒体报道、Web文档中获取构建本体所需的公共卫生突发事件要素领域文本信息等语料基础资料,所述基础资料的内容包括与各个领域有关的法律、法规、管理办法等政策文件,以及与各领域相关项目实施过程中产生的项目申请书、合同书、验收报告等科研文件,以及著作、论文、标准、研究报告和专利等成果文件。例如,对于公共卫生突发事件要素领域领域而言,意味着,搜集从医学领域的病原体基因型到公共卫生领域的流行病学分析,再到突发事件的相关应急处理相关的文档。可选地,上述人工上传的语料格式包括pdf、word、ppt、txt、xls和网页格式等。
整理形成语料库的步骤优选为:首先,对选择的语料库的文本文件中信息进行抽取获得文本信息。其中,文本文件的格式可以是Web页面、pdf、doc、ppt、html、excel、txt等。其次,对所获得的领域文本信息进行预处理,和/或去除标签、乱码、页眉和页脚等无用信息,确保有用信息被完整保留。将处理后获得的文本信息作为语料库。
步骤S102,通过提取句子中的词和短语,构成知识库的属性与属性值,从而构建事件框架。
示意性地,可以利用ICTCLAS软件进行词性标注,提取句子中的词或者短语,,属性例如“临床症状”、“宿主”、“治疗药物”等等。在此基础上,建立公共突发事件基础属性框架,即事件框架,此框架在之后可进一步的完善和扩充。框架是一种描述对象属性并反映相关对象间各种关系的数据结构和知识单位。通过框架表示公共突发事件的事件属性不仅可以表现出知识内部结构关系,还能够描述知识间的层次关系。
本发明中,优选的事件框架设计如下:
本发明在公共卫生突发事件属性信息的结构化表达和属性信息抽取的实现过程中,以此作为公共突发事件属性框架的基本内容,也是种子属性集合中的组成元素。种子模式的设计是以词性的形式体现的,因此分词与词性标也是种子模式设计的必备条件。
步骤S103,对语料库的文本信息进行处理,形成标准的信息标注体系。该步骤如图2所示进一步包括以下步骤:
步骤S1031,将文本信息分割成小文本。
所述将文本信息分割成小文本是指通过搜集公共突发事件相关文档,对文档进行分割处理。例如,对于医学领域而言,意味着,搜集从医学领域的病原体基因型到公共卫生领域的流行病学分析,再到突发事件的相关应急处理相关的文档,将文档中相关内容人工分解为句子或者小文本。
步骤S1032,对小文本进行分词处理和词性标注。
所述对小文本进行分词处理和词性标注的方法可以是人工基于分词处理方法进行分词处理和词性标注,也可以采用机器进行自动分词和词性标注。例如,采用中国科学院计算机语言所的开源版汉语分词软件ICTCLAS对相关文档进行分词和词性标注预处理,通过选择文档中一段相关文字,可利用ICTCLAS软件进行词性标注。示意性地,可见名词有“症状”,因此症状可作为公共突发事件一个重要属性,名词“上海”、“安徽”等可作为属性“发病地域”的内容。
在另一个示意性的实施方式中,以对以下文本信息进行分词处理和词性标注进行说明:央广网北京1月5日消息(记者车丽)据中国之声《全国新闻联播》报道,继上海市昨天报告一例人感染H7N9禽流感病例后,浙江省卫生计生委今天通报,浙江省4号新确诊了1例人感染H7N9禽流感宾利,广州市卫生局今天透露广州增城溢出肉菜市场检出3份样本H7N9病毒呈阳性,暂时还没有法相人感染。中国疾病控中心专家表示:这次出现的新病例是散发病例,H7N9不会集中大规模爆发,提示公众不必恐慌,只要不去活禽市场,不接触活禽,就能有效预防。
利用ICTCLAS软件分词处理和词性标注结果为:央/v广/a网/n北京/n 1月/t 5日/t消息/n(/w记者/n车丽/n)/w据/p中国/n之/u声/n《/w全国/n新闻/n联播/v》/w报道/v,/w继/v上海市/n昨天/t报告/n一/m例/q人/n感染/v H7N9/x禽流感/n病例/n后/f,/w浙江省/n卫生/a计生委/n今天/t通报/v,/w浙江省/n 4/n号/q新/a确诊/v了/u 1/a例/n人/n感染/v H7N9/x禽流感/n病例/n,/w广州/n市/n卫生局/n今天/t透露/v,/w广州/n增城/n一/m处/q肉/n菜/n市场/n检/v出/v 3/n份/q样本/n H7N9/x病毒/n呈/v阳性/n,/w暂时/d还/d没有/d发现/v人/n感染/v。/w中国/n疾/a控/v中心/n专家/n表示/v:/w这/r次/q出现/v的/u新/a病例/n是/v散发/v病例/n,/w H7N9/x不/d会/v集中/v大规模/d爆发/v,/w提示/v公众/n不必/d恐慌/a,/w只要/c不/d去/v活/v禽/n市场/n,/w不/d接触/v活/v禽/n,/w就/d能/v有效/a预防/v。/w
其中/n,/ns,/m,/v,/q,/t,/a等等表示/前面词的词性,/n表示名词,/ns表示地名,/m表示数词,/v表示动词,/q表示量词,/t表示时间词,/a表示形容词,/w表示标点符号,/x表示字符串,/d表示副词,/c表示连词,/u表示助词,/p表示介词,/f表示方位词,/r表示代词,如“散发/v”,表示散发的词性为动词。
步骤S1033,进行属性信息标注。
需要强调的是,在本发明中公共卫生突发事件的属性信息包含属性名AttrName和属性值AttrValue两个部分。
在第一种情形下,以相关报道中的句子为单位进行属性标注,所述标注形成标签,标签进一步包括主标签,主标签包括属性名AttrName和属性值AttrValue。属性值AttrValue可以是名词性词汇,也可以是表程度的副词(例如“轻微”、“重度”);对于部分没有属性值的属性,只标注属名AttrName。在第二种情形下,所述属性名和属性值可以通过人工分析然后编辑;在另一种情形下,可以采用机器学习的方法,从大规模一般语料库中获取属性和属性值,也可以从各种字典对词汇意义的描述中人工分析和提取属性和属性值,用计算机按照模式自动抽取获得。
所述属性信息进一步可包括:type:属性的类型;typecode:属性的分类代码。
例如对于以下句子:人感染H7N9和H5N1的临床症状很像。比如都会出现病毒性 肺炎,起病急,病程早期均有38℃以上高热咳嗽呼吸道感染症状。属性标注结果如下:
<AttrName type=“临床症状”typecode=“10002”>病毒性肺炎</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>高热</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>38℃</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>咳嗽</AttrName〉
<AttrName type=“临床症状”typecode=“10002”>呼吸道感染</AttrName〉
语料的属性信息标注是是文本识别和信息抽取的基础,优选地,本发明利用谢菲尔德大学开发的GATE(General Architecture for Text Engineering)开源版自然语言处理软件平台,为公共卫生突发事件语料标注提供一定的标注框架和标注数据管理方案。经过GATE预处理和标注后的语料可统一存储为xml格式。由于采用GATE软件进行语料标注是公开内容,此处不再详细叙述。
由于公共卫生突发事件涉及领域广泛,信息量大而且散乱,事件缺乏参考的分类标准,给公共卫生突发事件属性信息的结构化表达和抽取带来了极大的障碍。为此,本发明设计公共突发事件属性分类体系,如下表1,使事件的属性描述更加规范化和标准化,将散乱在文本中的相关信息经过搜集整理聚类,形成一个标准的信息标注体系。
表1 公共卫生突发事件信息分类体系
公共卫生突发事件发生蔓延十分迅速,它的突发性决定了需要在有限的时间内作出正确的重大的应急决定,尽可能早的在突发事件生命周期得早期快速控制,以将突发事件的破坏性和蔓延性降到最低程度。本发明的公共卫生突发事件属性信息分类体系就是参考事件生命周期而设计的,这样不仅方便扩充,还能够根据事件的发展随时作调整,减小修改的工作量。
步骤S104,将已经得到的属性信息作为种子属性,并设计种子模式,依靠这些种子属性去选择新的与之匹配的相关信息,得到更多属性信息。该步骤可以概括为属性扩展,其中一个实施方式如图3所示可以进一步包括以下步骤:
步骤S1041,获取同义词;
步骤S1042,设计通用种子模式;
步骤S1043,评价通用种子模式;
步骤S1044,选择新的属性信息。
所述获取同义词步骤包括本发明参考《同义词林》,通过词汇的定义标码可以获取词汇的所有相关同义词。公共卫生突发事件涉及内容广泛,包括了临床症状,宿主,患者死亡,经济损失,疾控措施等诸多信息。例如,表示疾控措施词汇“调动”在《同义词林》中,部分相关同义词有“调派”、“调配”、“调控”等,经过参考可以得到更多的同义词汇。通过定义标码可以找到同义词。
《同义词林》词汇定义示例:
调派1Hc03C04=
调配1Hc03C04=
调控1Hc03C11#
以找到的种子属性及同义词作为触发词汇。触发词汇是用于计算得到更多属性词汇的基础词汇,是拓展出来属性信息的基本含义与构成形式。
表2 属性触发词汇词典示例
所述设计种子模式步骤包括,通过大量阅读文章,归纳分析重要语句信息的表达,从而总结出高质量高标准的种子模式,借助ICTCLAS分词的词性标注,设计出通用种子模式。
由于语句表达的多样性,句式繁多,因此模式的设计需要不断总结、修改,当然有些触发词的表达模式很难确定其固定的模式。表3总结了一些触发词的高频表达方式。本发明对于种子模式的设计可以获得高质量的种子集合,再通过扩展算法,从大量文档中抽取出相似的属性信息来可以完善公共突发事件的属性框架。
表3 分类体系种子模式示例
备注:
word为触发词汇,\S为非空格字符,
/n,/ns,/m,/v,/q,/nt,/a为词性,
/n名词,/ns地名,/m数词,/v动词,/q量词,/nt时间词,/a形容词
所述评价种子模式步骤,优选采用编辑距离方法,即Levenshtein Distance算法。编辑距离方法衡量依据是是指两个字符串转为对方所需要的最少编辑操作次数。次数越少则匹配度越高,此处的匹配度也可以理解为相似度,待选模式与候选模式意义相同。
此处将列举两个实例来具体描述模式相似度计算方法:
示例1:Seed:word+/m+/n      Candidate:word+/m+/
Seed指代种子模式,Candidate指代待选模式。
表4
其中表格的右下角3*3格,先从上到下再从左到右,依次为A、B、C、D、E、F、G、H、I处。Seed的每一位标码为1,2,3,Candidate每一位也标码为1,2,3.
表4描述了编辑距离算法的基本计算过程,A处是Seed的第一位与Candidate的第一位比较,比较一次则A处左侧和上侧的值分别加1,两侧均是1+1=2,由于第一位均是触发词word,内容相同,则A处左上角为0+0=0,加得的三个值分别是0,1,1,选最小的0,此为A处的值,代表此位相同,无需操作。接下来B处,是Seed的第一位与Candidate的第二位比较,同上,B处的左侧和上侧的值分别加1,即左侧:2+1=3,上侧0+1=1,由于两位内容不同,因此B处左上角为1+1=2,加得三个值分别是2,3,1,选最小的1,此为B处的值,代表此位不同。依次逐列自上而下比较,最后到I处,得三个加值分别为1,2,2,选最小1,此为I值,也是两个模式Seed与Candidate转化需要的操作次数。操作数越小,匹配度越高。
A处:表示word和word               需要有0个操作。表示此处值一样
B处:表示word+/m和word            需要有1个操作。
C处:表示word+/m+/n和word         需要有2个操作。
D处:表示word和word+/m            需要有1个操作。
E处:表示word+/m和word+/m         需要有0个操作。表示此处值一样
F处:表示word+/m+/n和word+/m      需要有1个操作。
G处:表示word和word+/m+/q         需要有2个操作。
H处:表示word+/m和word+/m+/q      需要有1个操作。
I处:表示word+/m+/n和word+/m+/q   需要有1个操作。
此例Seed和Candidate长度均为3,操作数为1,则匹配度为1-1/3=0.666。
示例2:Seed:组织专家会诊               Candidate:组织各省专家会诊
表5
如表5所示,本例按上述算法步骤得出最终操作数为2,即删去“各”“省”即可将Candidate转化为Seed。本例Seed长度为6,Candidate长度为8,按照匹配度公式,取最大长度为5,操作数为2。因此本例匹配度为1-2/8=0.75。
当匹配度大于或者等于0.3时默认符合要求,可以加入种子模式,若小于则忽略该候选模式。
由于评价种子模式步骤中候选模式的质量对于模式获取的整个过程十分重要,直接影响最后的结果。因此,必须通过一定标准衡量候选模式与种子模式间的匹配度也就是相似度,才能选择出最优的候选模式进入模式集,才能保证模式集的准确性和高质量。
所述选择新的属性信息步骤包括,在语料库中寻找含有触发词汇的语句,提取触发词语句模式作为待选模式将已经通过种子评价步骤,并且符合要求的候选模式加入之前的种子模式,用选到的模式作为种子模式再到语料库中获取属性模式,得到新的属性信息,该属性信息又可以寻找触发词汇,再到语料库中寻找含有触发词汇的语句,重复上述过程,直至不在产生新的属性。
在另一个具体实施方式中,所述属性扩展的内容包括:
通过对信息的搜集分析来手工建立一个的公共卫生突发事件属性要素框架,再通过参考《同义词词林》扩展属性词,从而作为种子集合。将已有的、并且词性标注和经过Gate标注的属性信息作为种子属性集合,设计种子模式,选择与种子模式匹配的内容信息,将这些特征词按照给定的文本模式结构进行模式化表示,从而生成新的文本模式,再用这些自动获取的文本模式来抽取新的特征属性,并将新的特征属性加入属性特征种子集合,不断重复这段过程从而完善扩充属性信息。
所述属性扩展的具体步骤如图4所示包括如下步骤:
步骤S1:所述人工设置种子,包括:
从经过步骤S101、S102、S103后已经分词并且进行属性标注的语料库中,人工选择词汇作为种子,主要从已建立的属性要素框架中选择。优选地,如步骤S1041,手工抽取信息并参考《同义词林》建立的公共卫生突发事件触发词典,将获取的同义词与人工选择的词汇一起作为种子,也作为最初的触发词汇。例如,表示疾控措施词汇“调动”在《同义词林》中,部分相关同义词有“调派”、“调配”、“调控”等,经过参考可以得到更多的同义词汇。通过定义标码可以找到同义词,这些都作为触发词或者说是触发词汇。
如果种子词义涵盖范围过大,将导致扩展后的属性不够精确,同时处理时间过长。如果种子词义涵盖范围过小,将导致扩展后的属性过于细化不够全面。以H7N9流感事件为例,例如名词“上海”、“安徽”等可作为属性“发病地域”的内容,以此作为H7N9流感事件属性框架的基本内容,也是种子属性集合中的组成元素。种子模式的设计是以词性的形式体现的,提取句子中的名词和名词短语,在名词性质中提取一般性和特征性属性,例如公共卫生突发事件的属性为时间、发病地域、宿主、传播途径、治疗预防、病死人数、经济损失、禽业经济损失、餐饮业经济损失、发布疫情信息、更新疫情信息、科普预防、知识引导舆论、开展救治等。
考虑到属性信息所表达的含义,以及属性信息在自然语言中的歧义性和模糊性。用上述方法确定的种子模式以及框架词义范围较为适中,便于后续的属性信息的扩充和细化。
步骤S2:所述对生语料库中的语句分句、分词并进行词性标注步骤包括:
生语料库是指当发生新的公共卫生突发事件或者在原有的语料基础上又出现了新的或者是生的语料所构成的相关文档,这时需要从中找出属性信息来完善属性框架,进而更新完善领域知识库,优选地,使用ICTCLAS软件对搜集到的相关文档或者生语料库进行分词和词性标注处理。
步骤S3:设计种子模式,在语料库中选新的模式。
具体为设计种子模式,如政府疾控的种子模式设计为/n+word+/m+/n,其中/n表示名词,/m表示数词,word表示触发词汇,+表示前后词紧挨着。由于语句表达等多样性,句式繁多,因此模式的设计需要不断总结、修改,当然有些触发词的表达模式很难确定其固定的模式。设计通用种子模式,通用模式在步骤S1042中具体描述过,此处不在详细叙述。
然后选择与种子模式匹配的内容信息,将这些步骤S1中的触发词汇按照给定的文本模式结构进行模式化表示,从而生成新的文本模式,给定的文本模式即为设计的通用种子模式。
步骤S4:语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式Candidate,对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式。若大于等于阈值则选取该模式加人模式集;
步骤S4具体包括根据步骤S3的新的文本模式,在未寻找种子的语料库或者是步骤S2中处理过的生语料库中寻找含有触发词的语句,提取触发词语句模式作为待选模式。
任何一个计算本体概念相似度的算法都不可能解决所有问题,对于不同的应用,概念之间的相似度也不同,因此应根据具体领域设计相关算法和确定相关参数。本发明针对公共卫生突发事件领域,设计了衡量相似度的方法。本发明采用编辑距离方法。编辑距离方法衡量依据是是指两个字符串转为对方所需要的最少编辑操作次数。次数越少则匹配度越高。所述操作数指采用编辑距离方法后,两个模式Seed与Candidate转化需要的操作次数,所述长度是指种子模式和待选模式的汉字个数。编辑距离方法已在步骤S1043中有过具体描述,此处不再详细说明。
对待选模式进行编辑距离算法评价,设定阈值0.3,若小于阈值则忽略该模式。若大于等于阈值则选取该模式加人种子模式集。
步骤S5:所述用选到的模式作为种子模式再到语料库中获取属性模式步骤:是指将步骤S4中符合相似度要求的候选模式作为种子模式即作为评价标准,从经过步骤S2处理的生语料库以及之前选取种子的语料库中选取含有触发词的语句,提取触发词语句模式作为属性模式。
所述属性模式是指与种子模式或者待选模式的模式相同或者相近的模式化表达的属性,属性模式与属性信息形式上是一样的,区别在于属性模式是一种结构化表达,属性信息必须满足属性模式。
步骤S6:对属性模式进行评价,选取大于阈值的模式加入模式集:
对步骤S5中的属性模式采用编辑距离的算法进行评价,其中,步骤S5中选到的模式作为种子模式,步骤S5中属性模式作为待选模式,根据步骤S1043中的编辑距离算法进行评价,选取大于或者等于阈值的模式加入种子模式集。
优选地,阈值为0.3。
所述步骤S4、S6中的模式集,也可以理解为种子模式集或者是属性模式集,其都可作为属性信息。
步骤S7:重复步骤S4到步骤S6,直到不再产生新的属性信息,则迭代终止并跳转S8,否则转S4:
例如“咳嗽”这个触发词在不同的语料中有不同的表达方式,但核心词都包含咳嗽,通过在语料库中不断地迭代筛选,将“咳嗽”相关的属性信息都找出来,从而完善整个属性框架。
初始属性模式集内容比较少,通过该步骤,随着循环的进行会越来越丰富,本发明是属性模式不断完善、丰富的过程。
步骤S8:输出属性信息集合。
本步骤S8的属性信息包括属性和属性值。
本发明只需要提供少量公共卫生突发事件的语料库,通过属性扩展方法,可以快速处理大量生的语料库,从中抽取出全面准确的属性信息,这样可以方便的根据新的突发事件及时的更新内容。
在属性扩展步骤完成以后,进行公共突发事件领域本体的构建,
步骤S105,利用属性信息,构建公共卫生突发事件领域本体。公共卫生突发事件领域本体模型构建可以进一步包括步骤如下:
步骤S1051:通过分析领域,确定应用领域和信息覆盖范围。
步骤S1052:收集相关信息,提取领域内具有代表性及影响力的专业术语和概念,设计出概念下的属性分类。
步骤S1053:使用本体构建工具,定义领域本体的类以及其下子类、类之间的关系。
本发明从公共卫生突发事件生命周期的角度分析,更能从逻辑角度清晰地分析概念间的关系。在以下实施方式中,将使用Protégé建模进行本发明实施过程的简要描述。
首先定义类以及类的层次关系,可以简明的表达出本体结构,使领域知识的层次关系体现的清晰直观。本体模型包含了描述公共卫生突发事件的三项主要信息:基本信息、引发后果、疾控措施。
所述基本信息类包含了公共突发事件的基本信息,如流感发病的时间地点,患者或者疑似病例的临床症状,流感病毒的宿主及传播途径,还有正常人预防流感的措施,以及患者的治疗。
所述引发后果类包含了公共卫生突发事件爆发的整个生命周期所造成的影响。
所述疾控措施类包含了对于应急情况的各方面措施。
在已经建立的公共卫生突发事件本体模型基础上,在对其下子类进行完善扩展,依据步骤S101、步骤S102、步骤S103、步骤S104所获得的属性信息集合,从而已经设计了事件框架或者说是信息框架,也就是本体的结构体系模型,该本体模型包含了描述公共卫生突发事件的三项主要信息:基本信息、引发后果、疾控措施。使用Protégé4.1.0建模。
使用Protégé4.1.0建模,对象属性(Object propeties)是用来描述两个类之间的关系(包括层级关系和非层级关系),例如“加强免疫力预防发烧”,“预防”则是连接临床症状类和治疗预防类的对象属性(见表6)。数据属性(Data Properties)指定了作用域(Domain)和值域(Range)。下表列举了部分公共卫生突发事件本体之间的对象属性,包含层级关系以及非层级关系,并且说明了其对应的作用域以及值域。OWL语言对于对象属性的命名和定义没有严格的约束,而且支持中文,为了更清楚地表达对象属性的含义,更清晰地表达两个类之间的关系,本发明对象属性的命名也用了中文,形象描述了类之间的作用关系。
表6 公共卫生突发事件部分对象属性
Protégé建模时的本体描述语言是OWL,建模完成后,对应的OWL文档自动描述公共卫生突发事件类的层次关系以及各类之间的关系等内容。所以OWL描述语言能够让建立的本体的完善和维护更加方便。
因为Protégé具体建模过程为公开内容,此处不再详细描述。
公共卫生突发事件领域本体模型构建完成即公共卫生突发事件领域知识库的构建完成。
尽管上述已经详细地描述了本发明,应当理解本发明的实施例仅仅是示范性地图解了本发明的原理,在不脱离本发明构思和范围的情况下,本发明的实施例还有各种变化,替代和修改。这些改变都应该包含在本发明的范围内,不应被看作与本发明的精神和范围的脱离。

Claims (10)

1.一种公共卫生突发事件领域知识库的构建方法,其特征在于,包括如下步骤:
步骤S101:分析公共卫生突发事件生命周期所涉及的领域,搜集公共卫生突发事件相关文档,整理形成语料库;
步骤S102:通过提取句子中的名词和名词短语,构建事件框架;
步骤S103:对语料库的文本信息进行处理,形成标准的信息标注体系;
步骤S104:将已经得到的属性信息作为种子属性,并设计种子模式,依靠这些种子信息去选择新的与之匹配的相关信息,得到更多属性信息;
步骤S105:利用属性信息,构建公共卫生突发事件领域本体。
2.根据权利要求1所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:
所述步骤S101中分析公共卫生突发事件生命周期所涉及的领域,搜集公共卫生突发事件相关文档进一步包括:
分析公共卫生突发事件生命周期所涉及的各个领域确定应用领域和信息覆盖范围;通过人工上传和/或互联网信息获取构建本体所需的语料基础资料;所述基础资料的内容包括以下至少一个:与领域有关的法律、法规、管理办法、与各领域相关项目实施过程中产生的项目申请书、合同书、验收报告、著作、论文、标准、研究报告和专利。
3.根据权利要求1所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:所述步骤S101中整理形成语料库的步骤为:
对选择的语料库的文本文件中信息进行抽取获得文本信息;
对所获得的领域文本信息进行预处理,和/或去除标签、乱码、页眉和页脚,将处理后获得的文本信息作为语料库。
4.根据权利要求1所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:步骤S103包括:
将文本信息分割成小文本;
对小文本进行分词处理和词性标注;
分词处理和词性标注后进行属性信息标注。
5.根据权利要求4所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:所述将文本信息分割成小文本是指通过搜集公共突发事件相关文档,对文档进行分割处理。
6.根据权利要求1所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:步骤S104包括:
获取同义词;
设计通用种子模式;
评价通用种子模式;
选择新的属性信息。
7.根据权利要求1所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:步骤S105包括:
通过分析领域,确定应用领域和信息覆盖范围;
收集相关信息,提取领域内具有代表性及影响力的专业术语和概念,也设计出概念下的属性分类;
使用本体构建工具构建本体,定义领域本体的类以及其下子类、类之间的关系。
8.根据权利要求1和6所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:公共卫生突发事件的属性信息包含属性名和属性值两个部分,以相关的句子为单位进行属性标注,主要标签是属性名AttrName和属性值AttrValue。
9.根据权利要求1所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:所述标准的信息标注体系为:
序号 代码 类型 备注 1 10000 基本信息   2 10001 宿主   3 10002 临床症状   4 10003 治疗预防 治疗手段,预防措施 5 10004 传播途径   6 10005 时间   7 10006 发病地域   8 20000 引发后果   9 20001 病患死亡   10 20002 家禽死亡   11 20003 经济损失   12 30000 疾控措施   13 30001 政府疾控 发布疫情信息,引导舆论 14 30002 医疗资助 开展救治,引导预防
10.根据权利要求6所述的一种公共卫生突发事件领域知识库的构建方法,其特征在于:
所述选择新的属性信息步骤包括,在语料库中寻找含有触发词汇的语句,提取触发词语句模式作为待选模式将已经通过种子评价步骤,并且符合要求的候选模式加入之前的种 子模式,用选到的模式作为种子模式再到语料库中获取属性模式,得到新的属性信息,该属性信息又可以寻找触发词汇,再到语料库中寻找含有触发词汇的语句,重复上述过程,直至不在产生新的属性。
CN201510009769.4A 2015-01-08 2015-01-08 一种公共卫生突发事件领域知识库的构建方法 Pending CN104573006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510009769.4A CN104573006A (zh) 2015-01-08 2015-01-08 一种公共卫生突发事件领域知识库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510009769.4A CN104573006A (zh) 2015-01-08 2015-01-08 一种公共卫生突发事件领域知识库的构建方法

Publications (1)

Publication Number Publication Date
CN104573006A true CN104573006A (zh) 2015-04-29

Family

ID=53089068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510009769.4A Pending CN104573006A (zh) 2015-01-08 2015-01-08 一种公共卫生突发事件领域知识库的构建方法

Country Status (1)

Country Link
CN (1) CN104573006A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN105630899A (zh) * 2015-12-21 2016-06-01 南通大学 一种公共卫生事件预警知识库的构建方法
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106469203A (zh) * 2016-08-31 2017-03-01 北京联创众升科技有限公司 一种突发事件数据的筛选方法及装置
RU2638013C2 (ru) * 2015-08-20 2017-12-08 Сяоми Инк. Способ и устройство построения базы знаний
CN107832444A (zh) * 2017-11-21 2018-03-23 北京百度网讯科技有限公司 基于搜索日志的事件发现方法及装置
CN107844609A (zh) * 2017-12-14 2018-03-27 武汉理工大学 一种基于文体和词表的突发事件信息抽取方法及系统
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN110704717A (zh) * 2019-09-04 2020-01-17 中国科学院计算技术研究所 基于动力学模型的网络突发事件检测方法及系统
CN112036129A (zh) * 2020-08-24 2020-12-04 国网北京市电力公司 一种配电网应急演练方案数字化辅助设计系统及方法
CN112035500A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 知识库的更新方法、装置、服务器和计算机存储介质
CN113158688A (zh) * 2021-05-11 2021-07-23 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
CN113360480A (zh) * 2021-08-06 2021-09-07 中国测绘科学研究院 地震防治主题库构建方法、系统、电子设备及存储介质
CN114282534A (zh) * 2021-12-30 2022-04-05 南京大峡谷信息科技有限公司 一种基于要素信息抽取的气象灾害事件聚合方法
CN116777712A (zh) * 2023-08-22 2023-09-19 山东省计算中心(国家超级计算济南中心) 突发公共卫生事件标准自动映射方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073548A1 (en) * 2002-10-09 2004-04-15 Myung-Eun Lim System and method of extracting event sentences from documents
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
CN103699689A (zh) * 2014-01-09 2014-04-02 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073548A1 (en) * 2002-10-09 2004-04-15 Myung-Eun Lim System and method of extracting event sentences from documents
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
CN103699689A (zh) * 2014-01-09 2014-04-02 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于楠 等: "领域知识库的构建机制", 《第二届全国学生计算语言学研讨会》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2638013C2 (ru) * 2015-08-20 2017-12-08 Сяоми Инк. Способ и устройство построения базы знаний
US10331648B2 (en) 2015-08-20 2019-06-25 Xiaomi Inc. Method, device and medium for knowledge base construction
CN105426358B (zh) * 2015-11-09 2018-08-31 中国农业大学 一种针对海量新闻的疾病名词自动识别方法
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN105630899B (zh) * 2015-12-21 2019-11-08 南通大学 一种公共卫生事件预警知识库的构建方法
CN105630899A (zh) * 2015-12-21 2016-06-01 南通大学 一种公共卫生事件预警知识库的构建方法
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN105808768B (zh) * 2016-03-19 2019-03-26 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106202561B (zh) * 2016-07-29 2019-10-01 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106469203A (zh) * 2016-08-31 2017-03-01 北京联创众升科技有限公司 一种突发事件数据的筛选方法及装置
CN106469203B (zh) * 2016-08-31 2019-07-23 北京联创众升科技有限公司 一种突发事件数据的筛选方法及装置
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN107832444B (zh) * 2017-11-21 2021-08-13 北京百度网讯科技有限公司 基于搜索日志的事件发现方法及装置
CN107832444A (zh) * 2017-11-21 2018-03-23 北京百度网讯科技有限公司 基于搜索日志的事件发现方法及装置
CN107844609A (zh) * 2017-12-14 2018-03-27 武汉理工大学 一种基于文体和词表的突发事件信息抽取方法及系统
CN109585024B (zh) * 2018-11-14 2021-03-09 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN110704717A (zh) * 2019-09-04 2020-01-17 中国科学院计算技术研究所 基于动力学模型的网络突发事件检测方法及系统
CN112036129A (zh) * 2020-08-24 2020-12-04 国网北京市电力公司 一种配电网应急演练方案数字化辅助设计系统及方法
CN112035500B (zh) * 2020-09-01 2024-01-26 中国银行股份有限公司 知识库的更新方法、装置、服务器和计算机存储介质
CN112035500A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 知识库的更新方法、装置、服务器和计算机存储介质
CN113158688A (zh) * 2021-05-11 2021-07-23 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
CN113158688B (zh) * 2021-05-11 2023-12-01 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
CN113360480B (zh) * 2021-08-06 2022-04-08 中国测绘科学研究院 地震防治主题库构建方法、系统、电子设备及存储介质
CN113360480A (zh) * 2021-08-06 2021-09-07 中国测绘科学研究院 地震防治主题库构建方法、系统、电子设备及存储介质
CN114282534A (zh) * 2021-12-30 2022-04-05 南京大峡谷信息科技有限公司 一种基于要素信息抽取的气象灾害事件聚合方法
CN116777712A (zh) * 2023-08-22 2023-09-19 山东省计算中心(国家超级计算济南中心) 突发公共卫生事件标准自动映射方法及系统

Similar Documents

Publication Publication Date Title
CN104573006A (zh) 一种公共卫生突发事件领域知识库的构建方法
Wang et al. Exploring graph neural networks for semantic enrichment: Room type classification
CN104573009B (zh) 一种领域知识库属性扩展的方法
Tablan et al. Mímir: An open-source semantic search framework for interactive information seeking and discovery
Cremaschi et al. A fully automated approach to a complete semantic table interpretation
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN103473280B (zh) 一种网络可比语料的挖掘方法
CN103176963B (zh) 基于crf++汉语句义结构模型自动标注方法
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
CN102117281A (zh) 一种构建领域本体的方法
Wei et al. From web resources to agricultural ontology: a method for semi-automatic construction
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
Boujelben et al. A hybrid method for extracting relations between Arabic named entities
CN103116636B (zh) 基于特征空间分解的文本大数据主题挖掘方法和装置
Biryaltsev et al. Methods for analyzing semantic data of electronic collections in mathematics
Chen et al. Construction Methods of Knowledge Mapping for Full Service Power Data Semantic Search System
Olegovich Dorodnykh et al. Using the Semantic Annotation of Web Table Data for Knowledge Base Construction
Tian et al. Text-enhanced question answering over knowledge graph
Salatino et al. Ontology Extraction and Usage in the Scholarly Knowledge Domain 1
Rui et al. Visualization and Forecast Analysis of Science and Technology Intelligence Based on Knowledge Graph
Qi et al. Semantic retrieval system based on corn ontology
Zhong et al. Research on the knowledge organization and visualization of ethnic minority cultural information resources
JP5696555B2 (ja) プログラム及び情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429