CN103049490B - 知识网络节点间属性生成系统及生成方法 - Google Patents

知识网络节点间属性生成系统及生成方法 Download PDF

Info

Publication number
CN103049490B
CN103049490B CN201210518554.1A CN201210518554A CN103049490B CN 103049490 B CN103049490 B CN 103049490B CN 201210518554 A CN201210518554 A CN 201210518554A CN 103049490 B CN103049490 B CN 103049490B
Authority
CN
China
Prior art keywords
knowledge network
rule
engine
base
network nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210518554.1A
Other languages
English (en)
Other versions
CN103049490A (zh
Inventor
杨伟锋
宋传宝
张作职
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201210518554.1A priority Critical patent/CN103049490B/zh
Publication of CN103049490A publication Critical patent/CN103049490A/zh
Application granted granted Critical
Publication of CN103049490B publication Critical patent/CN103049490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识网络节点间属性关系生成系统及生成方法。该生成系统包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库,其中首先将预定领域的非结构化文本通过去标签模块进行预处理,然后由分词引擎对处理后的文本进行分词处理,形成有确切语义的词汇;词汇输入规则引擎中,规则引擎调用规则库中的规则,对知识网络节点之间的属性关系进行判别,并将判别后的结果输入知识网络库中。利用本发明可以通过机器生成的方式获得知识网络节点间的属性关系,从而解决由人工生成预定领域的知识网络节点间属性关系存在的工作量大、更新不及时的问题。

Description

知识网络节点间属性生成系统及生成方法
技术领域
本发明涉及一种知识网络节点间属性关系的生成系统及生成方法,尤其涉及一种针对预定领域的知识网络,基于规则组合实现的知识网络节点间属性关系生成系统及生成方法,属于信息抽取技术领域。
背景技术
随着互联网的发展,一个典型的信息抽取应用是从无结构化或者半结构化的文本中,通过信息抽取技术提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。从应用的广泛程度以及研究的深入程度来看,信息抽取技术主要包含两个方面:命名实体识别技术和实体关系抽取技术。命名实体识别技术的目标是识别文本中包含的各种命名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取技术的目标主要是发现和识别隐含在实体与实体之间的关系。
目前,人们利用知识网络来研究人及企业间的知识传播、合作及创新行为,表示各类知识资源,分析个人及组织知识体系的结构、组成等。其中,知识网络节点是组成知识网络的基本单元,具有独立性、继承性、变异性、多维性等特点。知识网络节点可以多向成簇。即每一个知识网络节点都可同其他知识网络节点通过多种多样的形象、属性、关系相连,这种多维性来源于构成知识网络节点的知识单元内在构成元素、结构和外在形态的多元性。因此,在构建知识网络的过程中,生成并利用知识网络节点间的属性关系是一项十分重要的工作。但是,利用人工生成预定领域的知识网络节点间属性关系存在工作量大、更新不及时的问题,亟需采取技术措施加以解决。
生成知识网络节点间属性关系的关键在于命名实体的关系挖掘,即上述的实体关系抽取技术。在这一领域内,目前有多种不同的技术方案。例如深圳腾讯公司在公开号为102129427A的中国发明专利申请中,公开了一种词关系挖掘方法和装置。该方法包括:获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频;根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值;根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。该技术方案的实质是统计判别,即在指定两个词间的备选关系中判别,从而提高了挖掘的词关系的正确率,改善了用户的使用体验。
目前,现有的实体关系抽取技术仍然面临着很多困难。例如成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的信息抽取系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果不尽如人意。
发明内容
本发明所要解决的技术问题在于提供一种知识网络节点间属性关系生成系统及生成方法。
为实现上述的发明目的,本发明采用下述的技术方案:
一种知识网络节点间属性生成系统,包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库;
所述非结构化文本库与所述去标签模块连接,所述去标签模块连接所述分词引擎,所述分词引擎与所述规则引擎连接,所述规则引擎分别与所述规则库和所述知识网络库连接;
所述分词引擎向所述规则引擎提供有确切语义的词汇;
所述规则引擎从所述规则库中获得进行属性关系判断的规则,对所述词汇生成知识网络节点间的属性关系,并将知识网络节点以及知识网络节点之间的属性关系存储在所述知识网络库中。
其中较优地,所述知识网络节点间属性生成系统中还包括辅助概念树;所述辅助概念树与所述规则库连接,用于向所述规则库提供知识支持。
其中较优地,在所述知识网络库中,所述知识网络节点拥有预定领域知识术语的词形及预定领域的类别属性。
其中较优地,在所述知识网络库中,所述知识网络节点之间的属性关系通过节点之间的关系边表示。
一种知识网络节点间属性生成方法,基于上述的知识网络节点间属性生成系统实现,其中首先将预定领域的非结构化文本通过去标签模块进行预处理,然后由分词引擎对处理后的文本进行分词处理,形成有确切语义的词汇;
所述词汇输入规则引擎中,所述规则引擎调用规则库中的规则,对知识网络节点之间的属性关系进行判别,并将判别后的结果输入知识网络库中。
其中较优地,在所述规则库中,利用规则组合的方式表达预定的逻辑判断。
其中较优地,所述规则引擎选择所述规则库中需要激活的规则,并按照预定的顺序运行所激活的规则。
利用本发明可以通过机器生成的方式获得知识网络节点间的属性关系,从而解决由人工生成预定领域的知识网络节点间属性关系存在的工作量大、更新不及时的问题,有效节省人工创建的时间、节约创建的成本。
附图说明
图1是本发明所提供的知识网络节点间属性关系生成系统的结构示意图;
图2是一个医药领域的知识网络示例图;
图3是图2所示的医药领域知识网络中,知识网络节点的示例图;
图4是图2所示的医药领域知识网络中,知识网络节点间属性关系的生成界面示例图;
图5是本知识网络节点间属性关系生成方法中,属性表达方式的示意图。
具体实施方式
下面结合附图和具体实施例,对本发明所采用的技术方案做进一步的详细说明。
本发明提供了一种针对预定领域的知识网络,基于规则组合的知识网络节点间属性关系生成系统,同时也提供了相应的知识网络节点间属性关系生成方法。如图1所示,该知识网络节点间属性关系生成系统包括非结构化文本库、去标签模块、分词引擎、规则库、辅助概念树、规则引擎和知识网络库等,其中非结构化文本库作为属性关系挖掘的训练集,可以从预定领域相关的网页上直接采集任意文本。去标签模块与非结构化文本库连接,从中接收非结构化的任意文本并完成相应的文本标签去除任务,形成整洁有意义的文本。分词引擎连接去标签模块,将经去标签模块预处理后的文本进行分词处理,生成有确切语义的词汇。该分词引擎连接规则引擎,规则引擎分别与规则库和知识网络库进行连接。规则库用于存储大量属性关系的判别规则,是规则引擎进行属性关系判断的支撑单元。该规则库与辅助概念树进行连接。辅助概念树是规则库的知识支持,用以构建灵活的规则组合。上述规则引擎是由通过分词处理的数据驱动的逻辑判断引擎。该规则引擎利用所激活的规则,实现高效的属性关系判断。知识网络库用于存储预定领域的知识网络节点以及由规则引擎识别出的知识网络节点之间的属性关系。上述去标签模块、分词引擎等可以采用计算机自然语言处理领域的成熟算法,以软件或者固件方式实现。非结构化文本库、规则库、辅助概念树和知识网络库等可以以非易失性存储器方式实现。这些是本领域技术人员都能掌握的惯用技术手段,在此就不详细说明了。
生成知识网络节点间属性关系是通过规则形式表达,应用规则引擎实现的逻辑判断。在知识网络库中的初始内容中,知识网络节点是预定领域,例如医药领域、天文领域、环境领域等的知识点。这些知识网络节点拥有预定领域知识术语的词形及预定领域的类别属性。这些词形和类别属性是后续进行规则判断的必须部分。例如图2显示了一个医药领域的知识网络库示例,其中初始的知识网络节点是医药领域相关的类别名称节点,例如有检查项目、疾病症状、药品、疾病部位、病因、疾病名称等。每个类别名称节点下,又有各自的子节点,指向具体的子节点。图3是图2所示的医药领域知识网络中,知识网络节点的示例图。其中疾病类别节点下的子节点,指向各个具体的疾病名称。
在生成知识网络节点间属性关系的过程中,首先将从预定领域相关的网页上直接采集的非结构化文本(即初始的领域网络知识)通过去标签模块进行预处理,然后由分词引擎对处理后的文本进行分词处理,通过分词处理形成有确切语义的词汇,以此文本数据驱动规则引擎进行属性判别处理。规则引擎随即调用规则库中的规则,对文本数据中蕴含的知识网络节点间属性关系进行判别,并将判别后的结果输入知识网络库中。例如在图4所示的节点属性生成界面中有肠道传染病,其是疾病类别中的一个节点,而恶心、呕吐、腹痛、腹泻、食欲不振、头痛、肢体疼痛等是疾病症状类别中的节点。在一个句子中如果存在符合如下规则的数据,则创建知识网络节点间的属性关系:<疾病名称>“会有有引起”<治病症状>,具体如下文中的示例:
大多数肠道传染病发病会有恶心呕吐腹痛腹泻食欲不振胃肠道症状肠道传染病,有些伴有发热、头痛肢体疼痛全身中毒症状,若治疗不及时,可引起严重的并发症,甚至导致死亡。
如图5所示,在预定领域的知识网络库中,知识网络节点之间的属性关系可以通过节点之间的关系边表示。例如在图5中,知识网络节点i与知识网络节点j之间存在属性关系a,知识网络节点i与知识网络节点k之间存在属性关系b等。
在本发明中,利用规则组合的方式表示复杂的逻辑判断,并通过规则引擎按一定顺序运行激活的规则,实现知识网络节点间的属性判别。例如在规则库中预先保存规则a、规则b、规则c和规则d,这些规则分别表示某种逻辑判断关系,例如大于、小于、等于、且、或等等。这些规则的有效组合,基本上能够表达任何复杂的逻辑判断。这样能够对属于不同类别的多个知识网络节点对同时进行判别,无需指定哪对知识网络节点的哪种属性。另一方面,规则引擎根据需要选择规则库中需要激活的规则,例如规则a和规则c,并按照预定的顺序运行所激活的规则,例如先运行规则c再运行规则a。因此,在面对复杂的逻辑判断的情况下,使用者完全可以利用上述的规则组合机制来满足描述各种复杂逻辑判断的需要。属性关系的定义完全包含于规则组合之中,可按类别存储、加载,应用灵活。
在知识网络节点间属性关系判别处理的过程中,本发明通过文本数据驱动规则引擎,将装载至规则引擎的规则有条件的激活,从而采用规则组合的方式表达属性关系的逻辑判断,利用规则引擎实现属性关系的判别。本发明能够实现机器挖掘属性关系,能够批量挖掘知识网络节点对的属性关系,从而节省人工创建的时间。规则库中的规则可以方便地更新,从而对不同领域的应用提供了通用的解决方案,使不同领域的知识网络节点间的属性关系创建得以有效实施。
以上对本发明所述的知识网络节点间属性生成系统及生成方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (7)

1.一种知识网络节点间属性生成系统,其特征在于包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库;
所述非结构化文本库与所述去标签模块连接,所述去标签模块连接所述分词引擎,所述分词引擎与所述规则引擎连接,所述规则引擎分别与所述规则库和所述知识网络库连接;
所述去标签模块对非结构化文本进行预处理,所述分词引擎向所述规则引擎提供有确切语义的词汇;
所述规则引擎从所述规则库中获得进行属性关系判断的规则,对所述词汇生成知识网络节点间的属性关系,并将知识网络节点以及知识网络节点之间的属性关系存储在所述知识网络库中;其中,
在所述规则库中,利用规则组合的方式表达预定的逻辑判断,通过规则引擎按照预定的顺序运行所激活的规则,实现知识网络节点间的属性判别。
2.如权利要求1所述的知识网络节点间属性生成系统,其特征在于:
所述知识网络节点间属性生成系统中还包括辅助概念树;所述辅助概念树与所述规则库连接,用于向所述规则库提供知识支持。
3.如权利要求1所述的知识网络节点间属性生成系统,其特征在于:
在所述知识网络库中,所述知识网络节点拥有预定领域知识术语的词形及预定领域的类别属性。
4.如权利要求1所述的知识网络节点间属性生成系统,其特征在于:
在所述知识网络库中,所述知识网络节点之间的属性关系通过节点之间的关系边表示。
5.一种知识网络节点间属性生成方法,基于权利要求1所述的知识网络节点间属性生成系统实现,其特征在于:
首先将预定领域的非结构化文本通过去标签模块进行预处理,然后由分词引擎对处理后的文本进行分词处理,形成有确切语义的词汇;
所述词汇输入规则引擎中,所述规则引擎调用规则库中的规则,对知识网络节点之间的属性关系进行判别,并将判别后的结果输入知识网络库中。
6.如权利要求5所述的知识网络节点间属性生成方法,其特征在于:
在所述规则库中,利用规则组合的方式表达预定的逻辑判断。
7.如权利要求5所述的知识网络节点间属性生成方法,其特征在于:
所述规则引擎选择所述规则库中需要激活的规则,并按照预定的顺序运行所激活的规则。
CN201210518554.1A 2012-12-05 2012-12-05 知识网络节点间属性生成系统及生成方法 Active CN103049490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210518554.1A CN103049490B (zh) 2012-12-05 2012-12-05 知识网络节点间属性生成系统及生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210518554.1A CN103049490B (zh) 2012-12-05 2012-12-05 知识网络节点间属性生成系统及生成方法

Publications (2)

Publication Number Publication Date
CN103049490A CN103049490A (zh) 2013-04-17
CN103049490B true CN103049490B (zh) 2016-09-07

Family

ID=48062131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210518554.1A Active CN103049490B (zh) 2012-12-05 2012-12-05 知识网络节点间属性生成系统及生成方法

Country Status (1)

Country Link
CN (1) CN103049490B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550253B (zh) * 2015-12-09 2021-02-12 上海优扬新媒信息技术有限公司 一种类型关系的获取方法及装置
CN108804408A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 基于领域专家知识体系的信息抽取系统及信息抽取方法
JP6370961B2 (ja) * 2017-05-10 2018-08-08 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
CN108829728A (zh) * 2018-05-10 2018-11-16 杭州依图医疗技术有限公司 一种医学术语库的存储方法和装置
CN110674943A (zh) * 2019-09-16 2020-01-10 上海云从企业发展有限公司 一种金融知识网络管理方法、系统、介质和设备
CN110718305A (zh) * 2019-10-11 2020-01-21 叮当快药科技集团有限公司 基于医药知识体系自动梳理药品标签的方法和装置
CN113420564B (zh) * 2021-06-21 2022-11-22 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257530B2 (en) * 2002-02-27 2007-08-14 Hongfeng Yin Method and system of knowledge based search engine using text mining
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
CN102799577B (zh) * 2012-08-17 2016-08-03 苏州大学 一种中文实体间语义关系抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于改进规则引擎的农业知识推荐系统;余文姣等;《计算机工程与设计》;20120630;第33卷(第6期);第2295-2299页 *
基于规则和本体的实体关系抽取系统研究;朱姗等;《情报杂志》;20101231;第29卷;第142-143,162页 *

Also Published As

Publication number Publication date
CN103049490A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
CN103049490B (zh) 知识网络节点间属性生成系统及生成方法
CN106021444B (zh) 用于分析和合成复杂知识表示的系统和方法
CN107038229B (zh) 一种基于自然语义分析的用例提取方法
KR101061391B1 (ko) 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及系统
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US20140250045A1 (en) Authoring system for bayesian networks automatically extracted from text
CN104050256A (zh) 基于主动学习的问答方法及采用该方法的问答系统
CN112199961B (zh) 一种基于深度学习的知识图谱获取方法
Mehndiratta et al. Identification of sarcasm using word embeddings and hyperparameters tuning
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP2018005690A (ja) 情報処理装置及びプログラム
Pavlić et al. Graph-based formalisms for knowledge representation
Goel et al. Towards a virtual librarian for biologically inspired design
Haripriya et al. A survey of sarcasm detection in social media
CN109815497A (zh) 基于句法依存的人物属性抽取方法
CN112800244A (zh) 一种中医药及民族医药知识图谱的构建方法
Zschech et al. Towards a text-based recommender system for data mining method selection
Schubert NLog-like inference and commonsense reasoning
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
Huang et al. Commonsense reasoning in a deeper way: By discovering relations between predicates
Bisikalo et al. System of computational linguistic on base of the figurative text comprehension
Zhu et al. Information extraction research review
Nayak et al. Knowledge graph from informal text: architecture, components, algorithms and applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Attribute generation system and generation method among knowledge network nodes

Effective date of registration: 20161128

Granted publication date: 20160907

Pledgee: Beijing technology intellectual property financing Company limited by guarantee

Pledgor: Beijing Hylanda Software Technology Co., Ltd.

Registration number: 2016990001028

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20180410

Granted publication date: 20160907

Pledgee: Beijing technology intellectual property financing Company limited by guarantee

Pledgor: Beijing Hylanda Software Technology Co., Ltd.

Registration number: 2016990001028

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190827

Address after: Room 322-323, No. 1, Rongyuan Road, Huayuan Industrial Zone, Tianjin Binhai New Area, 300384

Patentee after: Tianjin mass information technology Limited by Share Ltd

Address before: 100080 Beijing, Haidian District, West Zijin Digital Park, building 3, room 11, floor 1108

Patentee before: Beijing Hylanda Software Technology Co., Ltd.