CN109446337B - 一种知识图谱构建方法和装置 - Google Patents

一种知识图谱构建方法和装置 Download PDF

Info

Publication number
CN109446337B
CN109446337B CN201811098792.5A CN201811098792A CN109446337B CN 109446337 B CN109446337 B CN 109446337B CN 201811098792 A CN201811098792 A CN 201811098792A CN 109446337 B CN109446337 B CN 109446337B
Authority
CN
China
Prior art keywords
tree
knowledge graph
word
processed
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811098792.5A
Other languages
English (en)
Other versions
CN109446337A (zh
Inventor
魏凯
刘成成
姜春宇
刘寒
闫树
马鹏玮
王妙琼
冯橙
卿苏德
杨白雪
王卓
张奕卉
张启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN201811098792.5A priority Critical patent/CN109446337B/zh
Publication of CN109446337A publication Critical patent/CN109446337A/zh
Application granted granted Critical
Publication of CN109446337B publication Critical patent/CN109446337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种知识图谱构建方法和装置,该方法包括:获取公安文本数据;将所述公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;对过滤后的待处理数据集中的词进行去重;将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。该方法能够节省人工、时间成本,并提高建立知识图谱的效率。

Description

一种知识图谱构建方法和装置
技术领域
本发明涉及计算机应用技术领域,特别涉及一种知识图谱构建方法和装置。
背景技术
“数字经济”时代,数据的重要性堪比石油,随着大数据技术的不断成熟,各种信息资源呈指数增长,各行各业巨大的数据储藏库正在逐渐生成。社会安全信息服务同样离不开大量公安数据的支撑,这类数据包括涉案人员数据、大情报数据、通讯地址数据、在逃人员抓获方式数据等,公安数据类别丰富,应用目标复杂,数据来源密级较高,类别涉及结构化数据、半结构化数据和非结构化数据。值得强调的是,公安数据的关联关系是帮助公安人员解决案件的重要分析素材,然而大量的文本式非结构化数据的关联关系检索效率低下,分析仍然要依靠专业人工手动化处理。
知识图谱技术是助推“数据→信息→知识”进化的重要手段,其意义在于在盘根错节的数据海洋中进行梳理和串联,让以前模糊的世界变得更加清晰,形成网状的结构化的新一代语义知识库,进而满足轻量存储(知识存储)、快速检索(知识检索)、可视化展示(知识表现)、交互问答(知识提取)、推理演算(知识分析)等智能化需求。
传统的信息标签构建尤其是针对专业术语等知识体系的知识图谱构建一般要依靠“手工人力”等标注性处理方式,甚至衍生了大量的数据标注服务商、数据标注工作室以及相应的数据标注者,公安数据标签体系是典型的场景之一,当前的解决方案较为传统。具体执行步骤如下:
步骤1:标签获取。通过调查研究,访谈需求,根据现有的业务规则,获取数据,并手动配置知识标签,标签包括人、物、事件等。
步骤2:标签域分类。标签是基于数据层,体现业务层的媒介,因此,还要通过有经验的人工按照公安业务需要的数据,进行标签筛选,进而体现数据公安业务有用特征值。
步骤3:标签应用。按照情报分析、人员亲密度分析等公安业务数据处理需求,利用数据标签体系进行数据的检索分析,以获取数据关联关系。
现有的公安数据关联关系解决方法人力和时间成本较高、效率低下、质量无法进行科学保障,对于公安应用支撑强度不高,公安业务人员引用数据的技术门槛较高,环节复杂。
发明内容
有鉴于此,本申请提供一种知识图谱构建方法和装置,能够节省人工、时间成本,并提高建立知识图谱的效率。
为解决上述技术问题,本申请的技术方案是这样实现的:
一种知识图谱构建方法,该方法包括:
获取公安文本数据;
将所述公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;
清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;
对过滤后的待处理数据集中的词进行去重;
将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。
一种知识图谱构建装置,该装置包括:获取单元、处理单元和建立单元;
所述获取单元,用于获取公安文本数据;
所述处理单元,用于将所述获取单元获取的公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;对过滤后的待处理数据集中的词进行去重;
所述建立单元,用于将所述处理单元去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。
由上面的技术方案可知,本申请中以公安文本数据作为原始文本数据材料,按照原本章节体系结构进行切词分词,然后经过词性、口语语料库、标点符号语料库以及重复词、同义词过滤,从而按照过滤后的各词所在章节体系对应的标题编号形成更准确有效的树型知识图谱。该方案能够节省人工、时间成本,并提高建立知识图谱的效率。
附图说明
图1为本申请实施例中知识图谱构建流程示意图;
图2为本申请实施例中建立的树型知识图谱结构示意图;
图3为本申请实施例中应用于上述技术的装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
本申请实施例中提供一种知识图谱构建方法,该方法是以公安文本数据作为原始文本数据材料,按照原本章节体系结构进行切词分词,然后经过词性、口语语料库、标点符号语料库以及重复词、同义词过滤,从而按照过滤后的各词所在章节体系对应的标题编号形成更准确有效的树型知识图谱。该方案能够节省人工、时间成本,并提高建立知识图谱的效率。
下面结合附图,详细说明本申请实施例中实现知识图谱构建过程。
需要说明的是,本申请实施例中所涉及的执行知识图谱构建主体的设备可以包括但不限于个人计算机(Personal Computer,PC)、个人数字助理(Personal DigitalAssistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、手机等。
下述实施例的执行主体可以为知识图谱建立装置,该装置可以位于本地设备的应用,或者还可以为位于本地设备的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。
参见图1,图1为本申请实施例中知识图谱构建流程示意图。具体步骤为:
步骤101,获取公安文本数据。
本申请实施例中获取的公安文本数据为下述任一或任意组合公安系统库获取公安文本数据:
人口库、法人库、空间地理库、宏观经济库、审批证照库。
也可以是案件数据、涉案人员数据、异常物品数据等。
具体实现时,公安文本数据的来源不限于上述所给出的公安系统库。
步骤102,将所述公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号。
本申请实施例中切词分词的方式按照现有实现即可,这里并不限制具体实现方式。
步骤103,清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤。
口语语料库一般包括人称代词、冗余词汇等,一般用oralword代指;
标点符号语料库包括错误词汇、量词、无意义词表等,一般用stopword代指。
步骤104,对过滤后的待处理数据集中的词进行去重。
建立树型知识图谱的词中在公安文本数据中出现次数大于1时,使用该词对应的级别最高的标题编号作为该词的标题编号进行树型知识图谱的建立。
也就是说在对待处理数据集中的词进行去重时,针对重复的词为其记录的标题编号为该词在公安文本数据中级别最高的标题编号。
本申请实施例中标题编号以1、1.1、1.2、1.11、1.21等为例,则1的标题编号级别最高。也就是说在文本中位置越靠前对应的标题编号级别越高。
步骤105,将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。
在对过滤后的待处理数据集中的词进行去重后,遍历去重后的待处理数据集中的各词,若确定存在同义词,则将对应级别不是最高的标题编号的词过滤掉,并使用经过同义词过滤的待处理数据集中的词建立树型知识图谱;若确定不存在同义词,则将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。
对应标题编号级别最大的词作为树型知识图谱的根节点;对应标题编号级别最小的词作为树型知识图谱的叶子节点。
上述实施例中针对一个文本生成一个树型知识图谱,如果存在多个如N个相关联的文本,则先分别生成一个树型知识图谱,再通过决策森林算法将N个树型知识图谱生成一个树型知识图谱。
在具体实现时,也可以不限于使用决策森林算法,可以使用已有算法将多个树型知识图谱生成一个树型知识图谱,本申请对此并不进行限制。
本申请实施例中建立知识图谱是为了使用知识图谱,在知识图谱中节点之间的跨度用于表示两个节点之间亲密度,下面给出本申请实施例中树型知识图谱中树节点之间的跨度计算过程如下:
针对一个树型知识图谱中任意两个树节点之间的跨度为:
当两个树节点在同一个树枝上时,两个树节点之间的跨度为两个树节点的深度的差值的绝对值;
当两个树节点不在同一树枝上时,两个树节点之间的跨度为两个树节点的深度的值的和;其中,每个树节点的深度为对应词所对应的标题编号的级别对应的数值。
参见图2,图2为本申请实施例中建立的树型知识图谱结构示意图。图2中以20个树节点(词、知识点)为例,每个树节点使用其对应的标题编号进行标识,其对应的内容为对应的词。
标题编号为1的树节点为根节点;标题编号为1.1.1.1.2.1、1.1.1.1.2.2、1.2.1.1、1.2.1.2、1.2.2.1、1.2.2.2和1.2.2.3的树节点为叶子节点。
通过每一个叶子知识点的索引标号(标题编号)中点“.”的个数来取得每一个命中知识点的深度,的深度便是“Depth(1.1)=Pointsnumber(1.1)+1=2”,“1.2.2”的深度是“Depth(1.2.2)=Pointsnumber(1.2.2)+1=3”,“1.1.1.1.2.2”的深度是“Depth(1.1.1.1.2.2)=Pointsnumber(1.1.1.1.2.2)+1=6”。
如图2所示,“1.1”和“1.1.1.1.2.2”在同一个树枝上,则他们的跨度计算方法如“Span(1.1,1.1.1.1.2.2)=|Depth(1.1)-Depth(1.1.1.1.2.2)|=|2-6|=4”;
而树节点“1.2.2”和“1.1.1.1.2.2”不在同一个树枝上,它们的共同叶子节点“1”应该被找到进行利用,他们的跨度的计算方法则为“Span(1,1.1.1.1.2.2)+Span(1,1.2.2)=5+2=7”,以此类推。
在具体实现时,还可以根据实际需要为不同树节点之间设置权重,当针对相邻两个树节点之间设置有权重时,每个树节点的深度为对应词所对应的标题编号的级别对应的数值,与该节点到根节点的最短路径上所设置的所有权重的乘积。
如根据实际需要在树节点1.1和1.1.1之间设置权重0.3,在1.1.1.1.2.2和1.1.1.1.2之间设置权重0.5,则Depth(1.1.1.1.2.2)=1×0.5+1+1+1×0.3+1+1=4.8。
本申请实施例中在建立树型知识图谱之后,还可以为每个树节点对应的词建立同义词库;使用输入的词在树型知识图谱中匹配时,针对每个输入词针对每个树节点对应的同义词库进行匹配。
也可以不针对树节点对应的词建立同义词库,只是使用输入的词在树型知识图谱中匹配时,匹配到输入词的同义词即可。
基于同样的发明构思,本申请还提出一种知识图谱构建装置。参见图3,图3为本申请实施例中应用于上述技术的装置结构示意图。该装置包括:获取单元301、处理单元302和建立单元303;
获取单元301,用于获取公安文本数据;
处理单元302,用于将获取单元301获取的公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;对过滤后的待处理数据集中的词进行去重;
建立单元303,用于将处理单元302去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
综上所述,本申请是以公安文本数据作为原始文本数据材料,按照原本章节体系结构进行切词分词,然后经过词性、口语语料库、标点符号语料库以及重复词、同义词过滤,从而按照过滤后的各词所在章节体系对应的标题编号形成更准确有效的树型知识图谱。该方案能够节省人工、时间成本,并提高建立知识图谱的效率。
中文自然语言处理的智能化文本数据处理技术,即通过中文自然语言处理切词分词并通过已有的口语语料库和标点符号语料库过滤掉非专业技术名词的口语及标点符号内容以及重复词汇,并进行同义词转换,形成知识图谱链接关系的同时并按照自动化规则进行智能性标号处理。
在处理公安文本类数据信息的时候,保留原本章节名词层级的关联关系,如相等关系、相似关系、自己关系或其他关系等,名词提取采用自然语言处理切词分词技术。
公安文本数据知识图谱中涉及的标号可代表公安数据内容的深度和位置,可供计算公安数据名词和公安数据名词的跨度关系、远近关系以及血缘关系等使用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种知识图谱构建方法,其特征在于,该方法包括:
获取公安文本数据;
将所述公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;
清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;
对过滤后的待处理数据集中的词进行去重;
将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱;
其中,所述方法进一步包括:
建立树型知识图谱的词中在公安文本数据中出现次数大于1时,使用该词对应的级别最高的标题编号作为该词的标题编号进行树型知识图谱的建立。
2.根据权利要求1所述的方法,其特征在于,对应标题编号级别最大的词作为树型知识图谱的根节点;对应标题编号级别最小的词作为树型知识图谱的叶子节点。
3.根据权利要求1所述的方法,其特征在于,所述对过滤后的待处理数据集中的词进行去重之后,所述将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱之前,所述方法进一步包括:
遍历去重后的待处理数据集中的每个词,若确定存在同义词,则将对应级别不是最高的标题编号的词过滤掉,并使用经过同义词过滤的待处理数据集中的词建立树型知识图谱;若确定不存在同义词,则将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。
4.根据权利要求1所述的方法,其特征在于,
针对N个相关联的公安数据文本生成的N个树型知识图谱,通过决策森林算法生成一个树型知识图谱;其中,N为大于1的整数。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
针对一个树型知识图谱中任意两个树节点之间的跨度为:
当两个树节点在同一个树枝上时,两个树节点之间的跨度为两个树节点的深度的差值的绝对值;
当两个树节点不在同一树枝上时,两个树节点之间的跨度为两个树节点的深度的值的和。
6.根据权利要求5所述的方法,其特征在于,每个树节点的深度为对应词所对应的标题编号的级别对应的数值。
7.根据权利要求6所述的方法,其特征在于,当针对相邻两个树节点之间设置有权重时,每个树节点的深度为对应词所对应的标题编号的级别对应的数值,与该节点到根节点的最短路径上所设置的所有权重的乘积。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法进一步包括:
为树节点对应的每个词构建同义词库;
使用输入的词在树型知识图谱中匹配时,针对每个输入词针对每个树节点对应的同义词库进行匹配。
9.一种知识图谱构建装置,其特征在于,该装置包括:获取单元、处理单元和建立单元;
所述获取单元,用于获取公安文本数据;
所述处理单元,用于将所述获取单元获取的公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;对过滤后的待处理数据集中的词进行去重;
所述建立单元,用于将所述处理单元去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱;
其中,所述建立单元,具体用于建立树型知识图谱的词中在公安文本数据中出现次数大于1时,使用该词对应的级别最高的标题编号作为该词的标题编号进行树型知识图谱的建立。
CN201811098792.5A 2018-09-19 2018-09-19 一种知识图谱构建方法和装置 Active CN109446337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811098792.5A CN109446337B (zh) 2018-09-19 2018-09-19 一种知识图谱构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811098792.5A CN109446337B (zh) 2018-09-19 2018-09-19 一种知识图谱构建方法和装置

Publications (2)

Publication Number Publication Date
CN109446337A CN109446337A (zh) 2019-03-08
CN109446337B true CN109446337B (zh) 2020-10-13

Family

ID=65530586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811098792.5A Active CN109446337B (zh) 2018-09-19 2018-09-19 一种知识图谱构建方法和装置

Country Status (1)

Country Link
CN (1) CN109446337B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866089B (zh) * 2019-11-14 2023-04-28 国家电网有限公司 基于同义多语境分析的机器人知识库构建系统及方法
CN112015792B (zh) * 2019-12-11 2023-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN113407678B (zh) * 2021-06-30 2023-08-01 竹间智能科技(上海)有限公司 知识图谱构建方法、装置和设备
CN113836317A (zh) * 2021-09-26 2021-12-24 中国农业银行股份有限公司 知识视图的生成方法及系统
CN114238654B (zh) * 2021-12-15 2024-10-29 科大讯飞股份有限公司 一种知识图谱的构建方法、装置和计算机可读存储介质
CN118093788B (zh) * 2024-04-22 2024-07-02 成都同步新创科技股份有限公司 一种基于大模型的中小企业知识库的构建与搜索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447104A (zh) * 2015-11-12 2016-03-30 中国建设银行股份有限公司 一种知识地图生成方法及装置
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107704637A (zh) * 2017-11-20 2018-02-16 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628490B2 (en) * 2015-11-05 2020-04-21 Microsoft Technology Licensing, Llc Techniques for digital entity correlation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447104A (zh) * 2015-11-12 2016-03-30 中国建设银行股份有限公司 一种知识地图生成方法及装置
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107704637A (zh) * 2017-11-20 2018-02-16 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
公安文本情报的智能化处理方法与实践;白继峰,张蕾华;《山西警察学院学报》;20180731;第26卷(第3期);第90-94页 *

Also Published As

Publication number Publication date
CN109446337A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446337B (zh) 一种知识图谱构建方法和装置
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN105095195B (zh) 基于知识图谱的人机问答方法和系统
US10740398B2 (en) Structuring incoherent nodes by superimposing on a base knowledge graph
US7461056B2 (en) Text mining apparatus and associated methods
Cheng et al. An economical scan design for sequential logic test generation
Varini et al. ClimaText: A dataset for climate change topic detection
CN116775847A (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
Valerio et al. Using automatically generated concept maps for document understanding: A human subjects experiment
Utama Sentiment analysis in airline tweets using mutual information for feature selection
Tho et al. A comparison of lexicon-based and transformer-based sentiment analysis on code-mixed of low-resource languages
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
Owoeye et al. Classification of extremist text on the web using sentiment analysis approach
Soni et al. Emotion based social media text classification using optimized improved ID3 classifier
Khritankov et al. Discovering text reuse in large collections of documents: A study of theses in history sciences
CN114116953A (zh) 基于词向量的高效率语义拓展检索方法、装置及存储介质
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质
Fuller et al. Structuring, recording, and analyzing historical networks in the china biographical database
Tiwari et al. Sentiment analysis of digital India using lexicon approach
Utami et al. Query Reformulation for Indonesian Question Answering System Using Word Embedding of Word2Vec
CN112541105A (zh) 一种关键词生成方法、舆情监测方法、装置、设备和介质
Khadilkar et al. A Knowledge Graph Based Approach for Automatic Speech and Essay Summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant