CN111723215A

CN111723215A - 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Info

Publication number: CN111723215A
Application number: CN202010563744.XA
Authority: CN
Inventors: 邢潇; 卓子寒; 谷杰铭; 张翀; 张奕欣; 吕欣润
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-09-29
Anticipated expiration: 2040-06-19
Also published as: CN111723215B

Abstract

本发明提供了一种基于文本挖掘的生物技术信息知识图谱构建装置与方法。包括数据采集模块，用于从互联网上收集生物技术信息数据，作为装置的输入源；数据抽取模块，用于对采集的生物半结构化、非结构化信息数据抽取，生成结构化的数据；数据清理模块，用于对生物技术信息数据进行预处理操作，生成标准的数据；知识融合模块，用于将抽取之后的碎片化信息单元进行知识整合，形成一个完整的生物技术信息知识库数据；知识图谱维护模块，用于对已存储的知识图谱数据进行维护操作；实现对海量信息进行自动、高效的分析、挖掘和处理等有益效果。

Description

基于文本挖掘的生物技术信息知识图谱构建装置与方法

技术领域

本发明涉及一种基于文本挖掘的生物技术信息知识图谱构建装置与方法，属于计算机技术领域。

背景技术

本当前国内外各种生物技术快速发展，生物信息数据的总量随着技术的发展也在快速增长。随着生物技术信息数据的指数式增长，人工发现数据相关性的难度也将呈指数式增长，目前仅通过人力无法有效对海量数据进行对比和联系。为了适应生物技术的发展，需要加强对生物技术信息治理，构建完善的监管体系。为了有效的实现这个目标，需要对收集的生物技术信息进行深层次的挖掘与分析，探寻其中的隐含规律与复杂联系，以支撑满足各项监管需求的应用。

本当前生物信息数据种类繁杂，现有的自然语言处理技术在生物技术信息领域还比较落后，无法对对海量信息进行自动、高效的分析、挖掘和处理，无法自动对海量数据进行关键信息抽取、归类和索引，构建生物技术信息关系网络。因此，本发明提出来一种基于文本挖掘的生物技术信息知识图谱构建装置与方法。

发明内容

本本发明的目的在于克服现有技术的不足，提供一种基于文本挖掘的生物技术信息知识图谱构建装置与方法。

本为解决上述技术问题，本发明提出的一种基于文本挖掘的生物技术信息知识图谱构建装置，主要包含数据采集模块、数据抽取模块、数据清理模块、知识融合模块和知识图谱维护模块五大模块。

本通过数据采集模块来完成生物技术信息数据的获取；通过数据抽取模块完成非结构化文本信息的信息提取；通过数据清理模块完成数据的清洗；通过知识融合模块，最终形成完整的生物技术信息知识图谱；并通过知识图谱维护模块，完成对生物技术信息知识图谱数据的维护，实现对海量信息进行自动、高效的分析、挖掘和处理。

所述的数据采集模块，用于从互联网上公开数据集和行业内部数据库中，通过网络爬虫和etl等相关技术，获取结构化、半结构化、非结构化的生物技术信息数据；

所述的数据抽取模块，通过借助自然语言处理等技术提取结构化信息，从异构数据源中自动抽取实体、关系、属性信息得到候选知识单元；

所述的数据清理模块，是对采集的结构化数据和抽取模块抽取的结构化信息等数据，进行数据的转换和清洗，形成标准化的数据单元；

所述的知识融合模块，用于对抽取后的信息单元进行实体对齐、实体链接、知识合并，将碎片化的数据单元进行整合，最终生成生物技术信息的知识图谱数据；

所述的知识图谱维护模块，用于对生成的生物技术信息知识图谱数据进行检索和维护。

本本发明的有益效果在于，1.针对海量生物信息数据种类繁杂、不完整、不一致的特点，提高数据挖掘的质量，对生物信息数据进行数据预处理；2.针对生物信息数据种类多，关系复杂的特点，使用图数据库进行数据存储，便于后续的关联性分析和处理；3.针对中文非结构化文本数据进行处理，利用中文分词、命名实体识别、实体关系抽取等技术进行自然语言处理，获取计算机可以理解的知识特征；4.针对为了适应大数据时代下的技术生态，构建有效的生物技术信息数据挖掘体系，基于大数据技术的生物技术信息知识图谱，对海量信息进行自动、高效的分析、挖掘和处理。

附图说明

本图1为本发明的结构流程图。

具体实施方式

本下面结合附图1对本发明的优选实施例作进一步说明，主要包含数据采集模块、数据抽取模块、数据清理模块、知识融合模块和知识图谱维护模块五大模块。通过数据采集模块来完成生物技术信息数据的获取；通过数据抽取模块完成非结构化文本信息的信息提取；通过数据清理模块完成数据的清洗；通过知识融合模块，最终形成完整的生物技术信息知识图谱；并通过知识图谱维护模块，完成对生物技术信息知识图谱数据的维护，实现对海量信息进行自动、高效的分析、挖掘和处理。

本所述的数据采集模块，用于从互联网上公开数据集和行业内部数据库中，通过网络爬虫和etl等相关技术，获取结构化、半结构化、非结构化的生物技术信息数据；

本发明包括以下步骤：

步骤1，通过数据采集模块完成生物技术信息数据的获取；

步骤2，通过数据抽取模块完成非结构化文本信息的信息提取；

步骤3，通过数据清理模块完成数据的清洗；

步骤4，通过知识融合模块，最终形成完整的生物技术信息知识图谱；

步骤5，通过知识图谱维护模块，完成对生物技术信息知识图谱数据的维护。

所述的数据采集模块包括网络爬虫和行业内部数据库抽取两个部分；

被数据采集模块所采集的生物技术信息数据来源主要包括：(1)通过网络爬虫脚本程序，按照既定的规则，自动从互联网上抓取公开的、半公开的网站数据；主要包括网页、json、xml格式的非结构化和半结构化的数据；(2)行业内部数据库，通常以结构化数据的方式存储，主要通过ETL工具从不同的异构数据源中将数据抽取。

所述的数据抽取模块主要用于将采集的非结构化数据进行文本的分析挖掘，从中提取出结构化的信息，形成候选的知识单元；主要包括文本分词、命名实体识别、实体关系抽取三个步骤；

步骤1文本分词，通过以下步骤提高生物技术信息实现较好的中文分词效果准确度：

S11、构建生物技术信息领域词库，

采用商用输入法的生物技术领域相关词库，结合百度百科、维基百科、中国生物技术发展中心、国家信息部门类网站等相关网站公开的语料内容，建立生物技术信息分析词库；区别于传统词库，上述方式构建的词库中包含了大量领域专业术语和专有名词，为分词方法提供了更具针对性的词库支撑，使得在分词阶段即可获取大量有效实体名称，极大减少了在命名实体识别过程中的计算量，同时能为命名实体识别中相似度计算方法提供更多参考；该词库的准备同时提升了后续工作的识别性能、降低计算成本；

S12、基于S11，通过双向最大匹配算法+N-gram模型校验的方式实现生物技术信息中文分词，N-gram语言模型的形式化表达为:

P(w1,w2,…,wm)＝P(w1)P(w2|w1)P(w3|w1,w2)…P(wm|w1,…,wm-1)

式中，(w1,w2,…,wm)表示由w1,w2,…,wm，这m个词w组成的序列；

其中，P(w1,w2,…,wm)表示该序列是一个句子的概率，根据概率计算的链式规则获得等号右边的项；即基于双向最大匹配算法和N-gram语言模型的校验方式，解决了切分歧义中的交集型歧义；

步骤2命名实体识别，包括生物技术信息冷门词、新词的命名实体识别：

S21、基于词库相似度计算，目标是识别与词库中已录入词相似度高的命名实体，包括基于N-gram拼接的分词结果重组和最小编辑距离计算：

N-gram拼接包括:在已录入的分词结果中，以每N个分词为一组，重新组合为新的待判断序列，N的取值为2,3,4...；由于中文分词所采用的算法是基于正向、逆向最大匹配算法，所以未能通过分词识别出的命名实体，必然是被拆分打散成更小粒度的词，而不可能是作为子字符串存在于一个更长的词中；通过N-gram拼接能够将被打散的命名实体重新组合起来，使待识别命名实体可以作为一个整体出现在计算过程中；

最小编辑距离计算方法:采用最小编辑距离来表示两个词在字符组成层面的相似程度；即两个词看起来有多像；编辑距离指一个词转换成另一个词所需要的编辑操作次数，编辑操作包括:字符的替换、插入、删除；

S22、基于Bi-LSTM+CRF的命名实体识别，采用Bi-LSTM(双向长短期记忆网络)+CRF的方法，配合对标注语料的数据增强，进行命名实体识别工作；主要包含下面三个步骤：数据增强、BI-LSTM、CRF；

S221、数据增强:为尽量避免深度学习的过度拟合情况，本装置采用N-gram拼接模型，随机地对各个句子进行bigram、trigram拼接，最后与原始句子一起作为训练语料，这种数据增强方法显著提升了深度网络模型性能；

S222、Bi-LSTM:与中文分词采用双向最大匹配算法的原则类似，双向长短期记忆网络是为了填补单向识别时的差错；

S223、以Bi-LSTM的输出结果作为CRF所需求的输入，限制过度拟合；既免除了CRF模型对特征工程的人工工作量需求，又能利用CRF的特性对Bi-LSTM训练结果进行调整，进一步降低了过度拟合的可能性；

步骤3实体关系抽取，针对生物技术信息数据分为结构化部分和非结构化部分两种类型，分别设计实体关系抽取方法；实体间关系指每两个实体组成的实体对之间的实体关系；

S31、基于模式匹配的结构化数据实体关系抽取方法：

针对结构化数据，其本身已经给出了各个实体对之间的相关描述，最直接有效的实体关系抽取方法就是对数据进行整体分析后给出抽取模式。针对生物技术信息数据进行分析，采用基于模式匹配的结构化数据实体关系抽取方法；

S32、基于依存句法特征分析+SVM的非结构化数据实体关系抽取方法：

首先，针对生物技术信息非结构化数据，即成段的文本数据，采用SVM来训练文本中实体对的相关特征对于该实体对间关系的影响；SVM(支持向量机)是一种可用于分类和回归问题的、较为复杂的机器学习算法模型；

设给定的训练数据集为:T＝{(x1,y1),(x2,y2),...,(xn,yn)}，

其中xi为特征向量，yi所属类别的标签,(xi,yi)为一个样本点；SVM的目标是在特征空间中找到一个分离超平面，能够将各样本特征划分到不同的类别中；对于简单的线性可分问题，其分离超平面函数可假设为wx+b＝0(w为法向量,b为截距)，可用(w,b)来表示，这就是支持向量。可以想象，符合这样条件的超平面可能会有多个，也即存在多组(w,b)数据，需要继续从中找出能够使间隔最大的一组(w,b)作为最终结果，以此确定分离超平面。对于特征复杂、线性不可分的问题，则需要在此基础上引入核函数的概念来确定分离超曲面，该核函数应该能够将高维的特征数据映射到低维空间，从而降低计算的复杂度，常用的核函数有多项式核函数、高斯核函数、神经网络核函数、RBF核函数；

其次，考虑SVM所需提供的实体特征来源，引入依存句法分析，将句法分析结果作为实体的特征，交由SVM训练；依存句法分析通过分析语言单位内成分之问的依存关系揭示其句法结构，主张句子中核心谓词是支配其它成分的中心成分，而其本身却不受其他任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。由于句子中的命名实体必定会作为一个短语结构出现在依存结构中，那么，这种依存关系也必然会反映出相应实体之间的关系特征。在所有谓词中，核心谓词对获取实体边界、承接实体关系起着关键作用。句子中命名实体与核心谓词的平均距离和命名实体与普通谓词的平均距离有明显差异。

采用句法特征分析+SVM实体关系抽取方法，即针对标注语料，利用句法分析将上述实体关系特征提取出来，作为SVM的训练数据，实现对实体关系的分类。

数据清理模块，主要对采集和抽取的数据单元，剔除掉无用的脏数据、对缺失值进行填充、数据标准化、数据归一化操作，主要包括缺失值清洗、格式清洗、脏数据清洗三个步骤；

(1)缺失值清洗：确定缺失值范围，对每个字段都计算其缺失值比例，然后按照缺失比例和字段重要性对数据进行删除或填充；去除不需要的字段；填充缺失内容，以业务知识或经验推测填充缺失值，以同一指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值；

(2)格式清洗：将包括时间、日期、数值、全半角的格式不一致数据，统一处理成一致的格式；去除内容中存在的不符字符，去除内容中存在的不符数据；

(3)脏数据清洗：去除重复数据；去除不合理数据；修正矛盾内容；去除非需求数据。知识融合模块，对清理后的数据单元进行知识整合，将来自多个来源的关于同一个实体或概念的描述信息融合，形成一个完整的生物技术信息知识库数据，即知识图谱；

知识图谱本身是一个个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看，知识图谱在本质上是一种概念网络，其中的节点表示物理世界的实体(或概念)，而实体间的各种语义关系则构成网络中的边。在生物技术信息知识融合过程中，所面临的主要问题是实体对齐。实体对齐，是指对于异构数据源中的各个实体，找出其属于现实世界中的同一实体。针对该问题，本发明采用基于实体相似度计算的实体对齐方法，及基于外部语料的实体相似度检测来实现实体对齐：

(1)基于实体相似度计算的实体对齐方法：

首先，通过命名实体识别和实体关系抽取工作，已经获得了文本中的实体名称以及实体之间的关系；文本中识别出的每一个实体都需要对齐到知识图谱中的实体上去，实现知识图谱实体的归类或扩充；

其次，进行实体相似度计算，对齐过程中实体相似度，主要从以下三个方面进行考量:

(a)字符相似度:即两个实体名词长得相像程度，依然采用最小编辑距离来计算实体相似度；典型情况出现在相同实体的不同书写方式上，如“精确医疗”和“精准医疗”。

(b)包含相似度:若两个实体之间存在字面上的包含与被包含关系，则两者相似度增加；这一点是对字符相似度的补充。典型情况表现在公司的全称与简称上。

(c)属性相似度:由于在文本中已经完成了实体关系的抽取，与待对齐实体相关联的其他实体则成为了该实体的属性，同样的，在知识图谱中，以每一个实体为核心，与其相关联的其他实体也可以成为其属性的一部分。当两个实体属性高度重合，尤其某些重要属性重合时，认为二者是同一实体；典型情况出现在同名人物上；

(2)基于外部语料的实体相似度检测方法：

在某些情况下，同一实体的表达形式差异过大，在字符相似度、包含相似度上都只有较低相似度时，同时由于文本内容的影响，也无法获取足够的实体属性，属性相似度依然较低；引入Tencent AI Lab发布的大规模高质量中文词向量数据集，作为实体对齐工作的参考信息。上述相似度较低的实体，通过调用该数据集，查阅在海量互联网文档中，与其相关度高的同义词，以此间接的增加待对齐实体和知识图谱中实体的相似度，或者以此来确信待对齐实体在图谱中没有高相似度实体，以实现图谱实体的扩充。例如:“华大”一词，其本身是“深圳华大基因股份有限公司”的缩写。但是由于两者字符长度差距过大，以及文本中信息不足，使得二者相似度过低无法实现“华大”到“深圳华大基因股份有限公司”的实体对齐。此时，我们需要通过调用上述数据集，进行“华大”一词的同义词筛查，以增加其与知识图谱中实体的相似度，或者用以确认该实体应该是否作为新节点补充进图谱中。通过调用大规模高质量词向量数据集，我们获得“华大”的同义词有“深圳华大基因”，“华大基因”，“华大基因股份有限公司”，该结果迅速提升了“华大”与“深圳华大基因股份有限公司”的相似度，实现实体对齐；

实体链接(entity linking)：对于从非结构化数据(如文本)或半结构化数据(如表格)中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项，从知识库中选出一组候选实体对象，然后通过相似度计算将指称项链接到正确的实体对象。

知识图谱维护模块，给用户提供一个可视化操作界面，用于对已存储的知识图谱数据进行数据的检索、查看以及数据的添加、修改、删除等维护操作；主要包括检索、查看、添加、修改、删除五个步骤：

步骤1、数据检索：通过在装置的知识图谱维护模块搜索框中输入关键字，进行知识图谱的查询检索，返回图谱的节点名称、属性、关系信息，以图谱的形式进行展示；

步骤2、数据查看：通过在知识图谱维护模块的展示界面中以图谱的形式进行展示，展示节点的名称、子属性、关联节点以及关系名称和关系属性信息；

步骤3、数据添加：通过知识图谱维护模块中节点添加功能，将未涵盖的知识和不断产生的新知识融合到已有的知识图谱中；

步骤4、数据修改：通过知识图谱维护模块中节点修改功能，将未涵盖的知识和不断产生的新知识融合到已有的知识图谱中；

步骤5、数据删除：通过知识图谱维护模块中节点删除功能，将已过时的或者废弃的知识从已有的知识图谱中删除。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于文本挖掘的生物技术信息知识图谱构建装置，其特征在于：

包括数据采集模块、数据抽取模块、数据清理模块、知识融合模块和和知识图谱维护模块；

2.基于文本挖掘的生物技术信息知识图谱构建方法，其特征在于包括以下步骤：

步骤1，通过数据采集模块完成生物技术信息数据的获取；

步骤3，通过数据清理模块完成数据的清洗；

3.根据权利要求2所述的基于文本挖掘的生物技术信息知识图谱构建方法，其特征在于：

被数据采集模块所采集的生物技术信息数据来源主要包括：

(1)通过网络爬虫脚本程序，按照既定的规则，自动从互联网上抓取公开的、半公开的网站数据；

(2)行业内部数据库，通常以结构化数据的方式存储，主要通过ETL工具从不同的异构数据源中将数据抽取。

4.根据权利要求2所述的基于文本挖掘的生物技术信息知识图谱构建方法，其特征在于：所述的数据抽取模块主要用于将采集的非结构化数据进行文本的分析挖掘，从中提取出结构化的信息，形成候选的知识单元；主要包括文本分词、命名实体识别、实体关系抽取三个步骤；

S11、构建生物技术信息领域词库，

采用商用输入法的生物技术领域相关词库，结合相关网站公开的语料内容，建立生物技术信息分析词库；词库中包含了大量领域专业术语和专有名词，为分词方法提供了更具针对性的词库支撑，使得在分词阶段即可获取大量有效实体名称，极大减少了在命名实体识别过程中的计算量，同时能为命名实体识别中相似度计算方法提供更多参考；

(w1,w2,…,wm)＝P(w1)P(w2|w1)P(w3|w1,w2)…P(wm|w1,…,wm-1)；

式中，(w1,w2,…,wm)表示由w1,w2,…,wm，这m个词w组成的序列；

N-gram拼接包括:在已录入的分词结果中，以每N个分词为一组，重新组合为新的待判断序列，N的取值为2,3,4...；

最小编辑距离计算方法:采用最小编辑距离来表示两个词在字符组成层面的相似程度；编辑距离指一个词转换成另一个词所需要的编辑操作次数，编辑操作包括:字符的替换、插入、删除；

S22、基于Bi-LSTM+CRF的命名实体识别，采用Bi-LSTM，及CRF的方法，配合对标注语料的数据增强，进行命名实体识别工作；主要包含下面三个步骤：数据增强、BI-LSTM、CRF；

S222、Bi-LSTM:双向长短期记忆网络是为了填补单向识别时的差错；

S223、以Bi-LSTM的输出结果作为CRF所需求的输入，限制过度拟合；

步骤3实体关系抽取，

针对生物技术信息数据分为结构化部分和非结构化部分两种类型，分别设计实体关系抽取方法；实体间关系指每两个实体组成的实体对之间的实体关系；

S31、基于模式匹配的结构化数据实体关系抽取方法：

针对生物技术信息数据进行分析，采用基于模式匹配的结构化数据实体关系抽取方法；

首先，针对生物技术信息非结构化数据，即成段的文本数据，采用SVM来训练文本中实体对的相关特征对于该实体对间关系的影响；

设给定的训练数据集为:T＝{(x1,y1),(x2,y2),...,(xn,yn)}，

其中xi为特征向量，yi所属类别的标签,(xi,yi)为一个样本点；SVM的目标是在特征空间中找到一个分离超平面，能够将各样本特征划分到不同的类别中；对于简单的线性可分问题，其分离超平面函数可假设为wx+b＝0(w为法向量,b为截距)，可用(w,b)来表示，即支持向量；

其次，考虑SVM所需提供的实体特征来源，引入依存句法分析，将句法分析结果作为实体的特征，交由SVM训练；依存句法分析通过分析语言单位内成分之问的依存关系揭示其句法结构，主张句子中核心谓词是支配其它成分的中心成分，而其本身却不受其他任何成分的支配，所有受支配成分都以某种依存关系从属于支配者；

5.根据权利要求2所述的基于文本挖掘的生物技术信息知识图谱构建方法，其特征在于：数据清理模块，主要对采集和抽取的数据单元，剔除掉无用的脏数据、对缺失值进行填充、数据标准化、数据归一化操作，主要包括缺失值清洗、格式清洗、脏数据清洗三个步骤；

(1)缺失值清洗：确定缺失值范围，对每个字段都计算其缺失值比例，然后按照缺失比例和字段重要性对数据进行删除或填充；去除不需要的字段；填充缺失内容，以业务知识或经验推测填充缺失值，以同一指标的计算结果填充缺失值、以不同指标的计算结果填充缺失值；

(2)格式清洗：将格式不一致数据，统一处理成一致的格式；去除内容中存在的不符字符，去除内容中存在的不符数据；

(3)脏数据清洗：去除重复数据；去除不合理数据；修正矛盾内容；去除非需求数据。

6.根据权利要求2所述的基于文本挖掘的生物技术信息知识图谱构建方法，其特征在于：知识融合模块，对清理后的数据单元进行知识整合，将来自多个来源的关于同一个实体或概念的描述信息融合，形成一个完整的生物技术信息知识库数据，即知识图谱；采用基于实体相似度计算的实体对齐方法，及基于外部语料的实体相似度检测来实现实体对齐：

(1)基于实体相似度计算的实体对齐方法：

(a)字符相似度:即两个实体名词长得相像程度，依然采用最小编辑距离来计算实体相似度；

(b)包含相似度:若两个实体之间存在字面上的包含与被包含关系，则两者相似度增加；

(c)属性相似度:由于在文本中已经完成了实体关系的抽取，与待对齐实体相关联的其他实体则成为了该实体的属性，同样的，在知识图谱中，以每一个实体为核心，与其相关联的其他实体也可以成为其属性的一部分。当两个实体属性高度重合，尤其某些重要

(2)基于外部语料的实体相似度检测方法：

在某些情况下，同一实体的表达形式差异过大，在字符相似度、包含相似度上都只有较低相似度时，同时由于文本内容的影响，也无法获取足够的实体属性，属性相似度依然较低；引入Tencent AILab发布的大规模高质量中文词向量数据集，作为实体对齐工作的参考信息。

7.根据权利要求2所述的基于文本挖掘的生物技术信息知识图谱构建方法，其特征在于：知识图谱维护模块，给用户提供一个可视化操作界面，用于对已存储的知识图谱数据进行数据的检索、查看以及维护操作；主要包括检索、查看、添加、修改、删除五个步骤：