CN117291265A - 一种基于文本大数据的知识图谱构建方法 - Google Patents

一种基于文本大数据的知识图谱构建方法 Download PDF

Info

Publication number
CN117291265A
CN117291265A CN202311582684.6A CN202311582684A CN117291265A CN 117291265 A CN117291265 A CN 117291265A CN 202311582684 A CN202311582684 A CN 202311582684A CN 117291265 A CN117291265 A CN 117291265A
Authority
CN
China
Prior art keywords
text
knowledge
word
word segmentation
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311582684.6A
Other languages
English (en)
Other versions
CN117291265B (zh
Inventor
董爱平
戴晔
李彩荣
刘世闻
王飞
顾璇
严典范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Fengyun Technology Service Co ltd
Original Assignee
Jiangsu Fengyun Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Fengyun Technology Service Co ltd filed Critical Jiangsu Fengyun Technology Service Co ltd
Priority to CN202311582684.6A priority Critical patent/CN117291265B/zh
Publication of CN117291265A publication Critical patent/CN117291265A/zh
Application granted granted Critical
Publication of CN117291265B publication Critical patent/CN117291265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供一种基于文本大数据的知识图谱构建方法,知识图谱本体结构包含实体、属性及实体间关系,所述方法包括:获取文本数据集,其中,文本数据集包含多条文本信息;利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,其中,知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取;基于抽取的知识进行知识融合和存储,完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量,从而高效实现垂直领域知识图谱的构建。

Description

一种基于文本大数据的知识图谱构建方法
技术领域
本申请涉及大数据领域,具体而言,涉及一种基于文本大数据的知识图谱构建方法。
背景技术
在数据大量增长的形势下,文本数据也占有不小的比例,且文本数据的知识密度高,具有很强的挖掘价值。例如,可以通过对数据的挖掘实现横向领域或某一垂直领域的知识图谱的构建,从而利用构建的知识图谱完成更贴近实际的应用,例如智能问答软件。
现有的基于文本大数据的知识图谱构建方式,通常是采用Bert-BGRU-CRF联合的模型,整体处理过程复杂,数据处理过程中计算量极大,运行效率低,难以应用于垂直领域知识图谱的高效构建。
发明内容
本申请实施例的目的在于提供一种基于文本大数据的知识图谱构建方法,以高效地实现垂直领域知识图谱的构建。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种基于文本大数据的知识图谱构建方法,知识图谱本体结构包含实体、属性及实体间关系,所述方法包括:获取文本数据集,其中,文本数据集包含多条文本信息;利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,其中,知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取;基于抽取的知识进行知识融合和存储,完成知识图谱的构建。
结合第一方面,在第一方面的第一种可能的实现方式中,知识抽取模型包括分词单元、编码单元、解码单元、抽取单元,利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,包括:利用分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,采用HanLP工具作为文本信息的分词单元,利用分词单元对文本信息进行分词,得到分词结果,包括:
对文本信息进行分词:
其中,为输入的文本信息,/>表示文本信息/>的分词结果,/>对应文本信息/>的语义依赖树,呈有向无环图,/>为节点集合,/>为边集。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果,包括:
对分词结果进行向量化,对于分词结果中的第/>个词语/>,假设由/>个单字组成,单字分别由/>表示,则词语/>的特征值/>为:
则:
其中,为文本信息/>的特征向量;
使用图卷积神经网络对特征向量进行重编码,最终得到文本重编码结果:
其中,为文本重编码结果,图卷积神经网络共有/>层,每层/>个单元,/>为图卷积神经网络的第/>层中每个单元的输出构成的序列向量,/>为图卷积神经网络的第/>层中第/>个单元的输出,/>为图卷积神经网络的第/>层中第/>个单元与第/>层中第/>个单元之间的权重,/>为图卷积神经网络的第/>层中第/>个单元的输出,/>为图卷积神经网络的第/>层中第/>个单元的偏置项,/>为图卷积神经网络的输入。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,采用LSTM作为解码单元,利用解码单元对文本重编码结果进行解码,得到解码结果,包括:
采用LSTM对文本重编码结果进行解码:
其中,为第/>个时间步的输出门,/>为激活函数,/>、/>和/>为权重,分别控制当前输入对输出门的影响程度、前一时刻的隐藏状态对输出门的影响程度和当前时刻的LSTM单元状态对输出门的影响程度,/>,/>为当前时间步的LSTM单元状态,/>为偏置向量,用于调整输出门的输出值;/>为第/>个时间步的LSTM最终输出,/>为解码结果。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,采用全连接层和改进的softmax函数构建抽取单元,全连接层与解码单元连接,标签模型采用四元组,利用抽取单元对解码结果进行标签概率计算,得到标签序列,包括:
采用全连接层对解码器的输出进行线性变换,得到向量/>
其中,为与标签数量相关的向量,/>权重矩阵,/>为偏置项,/>
采用改进的softmax函数计算标签的概率:
其中,为从随机噪声分布中采样的变量,/>为控制噪声大小的控制参数,/>为第个四元组,四元组/>中/>为词语位置标签,表示词语在句子中的位置;/>为指标类型标签,表示词语的属性类型;/>为主宾类型标签,表示词语的词性;/>为关系类型标签,表示句子中三元组的关系类型;/>为标签序列。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,对标签序列进行重排序,最终确定出实体、属性及实体间关系,包括:对标签序列中的各词对应的词语位置标签/>和主宾类型标签/>进行分析,确定出实体;对标签序列/>中的各词对应的关系类型标签/>进行分析,确定出实体间关系;对标签序列/>中的各词对应的指标类型标签/>计算TF-IDF值,按照TF-IDF值对指标类型标签/>进行重排序,确定出属性。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,对标签序列中的各词对应的指标类型标签/>计算TF-IDF值,按照TF-IDF值对指标类型标签/>进行重排序,确定出属性,包括:
对于标签序列中的各词对应的指标类型标签/>采用以下公式计算TF-IDF值:
其中,为标签序列/>中的第/>个词对应的指标类型标签,/>为指标类型标签在与第/>个实体在文本信息/>中共同出现的频次,/>为指标类型标签/>与文本信息/>中所有实体在文本信息/>中共同出现的频次,/>为指标类型标签/>在整个语料库中出现的总频次,/>为指标类型标签/>在文本信息/>中出现的总频次;
利用TF-IDF值对指标类型标签进行重排序,以确定出属性。
结合第一方面,在第一方面的第八种可能的实现方式中,基于抽取的知识进行知识融合和存储,完成知识图谱的构建,包括:对抽取的知识进行知识融合;采用Neo4j图数据库对知识融合后的知识进行存储。
结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,对抽取的知识进行知识融合,包括:采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧,完成知识融合。
有益效果
1.本方案通过设计的知识抽取模型对文本数据集中的文本信息进行知识抽取(利用分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系),提取出实体、属性及实体间关系,进一步进行知识融合和存储,完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量,从而高效实现垂直领域知识图谱的构建。
2.编码时引入图卷积,解码时利用LSTM实现,可以实现编解码的错时同步运行,提高运行效率。而在解码单元后连接全连接层,使用改进的softmax函数计算标签的概率,将解码输出映射为四元组标签相关的向量,以便构建标签序列。之后通过对标签序列的分析即可高效准确地确定出三元组(实体、属性、实体间关系),并且,在对属性(对应指标类型标签)进行分析地过程中,进一步计算TF-IDF值进行重排序,以便确定出属性,这样确定的属性,还可以反映有效性和重要性,在垂直领域的知识图谱(垂直领域内,知识图谱中实体的属性数量繁多、精细,且通常属性重要性差异不小,传统的知识图谱罗列属性的方式无法反映属性重要性)中,能够更可靠地形成更具知识反映能力的知识图谱。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为知识抽取模型的示意图。
图2为基于文本大数据的知识图谱构建方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本方案中的文本大数据的知识图谱构建方案,关键步骤(即知识抽取)主要依赖于知识抽取模型,因此,为了便于对本方案的理解,此处先对设计的知识抽取模型进行介绍。
请参阅图1,图1为知识抽取模型的示意图。
在本实施例中,知识抽取模型被设计为包含分词单元、编码单元、解码单元、抽取单元,通过将文本信息输入分词单元,利用分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系。
示例性的,采用HanLP工具(HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用,HanLP主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等)作为文本信息的分词单元,利用分词单元对文本信息进行分词,得到分词结果,包括:
对文本信息进行分词:
, (1)
, (2)
, (3)
其中,为输入的文本信息,/>表示文本信息/>的分词结果,/>对应文本信息/>的语义依赖树(呈有向无环图),/>为节点集合,/>为边集。
而编码单元可以采用图卷积神经网络,以便利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果。
示例性的,可以利用编码单元对分词结果进行向量化,对于分词结果中的第/>个词语/>,假设由/>个单字组成,单字分别由/>表示,则词语/>的特征值/>为:
, (4)
则:, (5)
其中,为文本信息/>的特征向量。
向量化后,可以使用图卷积神经网络对特征向量进行重编码,最终得到文本重编码结果:
, (6)
, (7)
, (8)
; (9)
其中,为文本重编码结果,图卷积神经网络共有/>层,每层/>个单元,/>为图卷积神经网络的第/>层中每个单元的输出构成的序列向量,/>为图卷积神经网络的第/>层中第/>个单元的输出,/>为图卷积神经网络的第/>层中第/>个单元与第/>层中第/>个单元之间的权重,/>为图卷积神经网络的第/>层中第/>个单元的输出,/>为图卷积神经网络的第/>层中第/>个单元的偏置项,/>为图卷积神经网络的输入。
可以采用LSTM(Long Short-Term Memory,长短期记忆网络)作为解码单元,那么,对于文本重编码结果的解码,可以采用以下方式进行:
利用LSTM对文本重编码结果进行解码:
, (10)
, (11)
, (12)
其中,为第/>个时间步的输出门,/>为激活函数,/>、/>和/>为权重,分别控制当前输入对输出门的影响程度、前一时刻的隐藏状态对输出门的影响程度和当前时刻的LSTM单元状态对输出门的影响程度,/>,/>为当前时间步的LSTM单元状态,/>为偏置向量,用于调整输出门的输出值;/>为第/>个时间步的LSTM最终输出,/>为解码结果。
本实施例中,知识图谱本体结构设计为包含实体、属性及实体间关系,而标签模型采用四元组,/>为词语位置标签,表示词语在句子中的位置;/>为指标类型标签,表示词语的属性类型;/>为主宾类型标签,表示词语的词性;/>为关系类型标签,表示句子中三元组的关系类型。
抽取单元的构建,可以采用全连接层和改进的softmax函数实现,利用全连接层与解码单元连接。
示例性的,可以采用全连接层对解码器的输出进行线性变换,得到向量/>
, (13)
其中,为与标签数量相关的向量(例如,针对四元组标签,向量包含词语对应的四个标签),/>为权重矩阵,/>为偏置项,/>
然后,采用改进的softmax函数计算标签的概率:
, (14)
, (15)
, (16)
其中,为从随机噪声分布中采样的变量,/>为控制噪声大小的控制参数,/>为第个四元组,四元组/>中/>为词语位置标签,表示词语在句子中的位置;/>为指标类型标签,表示词语的属性类型;/>为主宾类型标签,表示词语的词性;/>为关系类型标签,表示句子中三元组的关系类型;/>为标签序列。公式(15)表示四元组的构成,每四个标签形成一个四元组。
得到标签序列后,可以利用抽取单元对标签序列中的各词对应的词语位置标签和主宾类型标签/>进行分析,确定出实体(例如主语型实体和宾语型实体)。以及,可以对标签序列/>中的各词对应的关系类型标签/>进行分析,确定出实体间关系。还可以对标签序列/>中的各词对应的指标类型标签/>计算TF-IDF值,按照TF-IDF值对指标类型标签/>进行重排序,确定出属性(可以一定程度上揭示属性的有效性和重要性)。
具体的,对于标签序列中的各词对应的指标类型标签/>,采用以下公式计算TF-IDF值:/>, (17)
其中,为标签序列/>中的第/>个词对应的指标类型标签,/>为指标类型标签在与第/>个实体在文本信息/>中共同出现的频次,/>为指标类型标签/>与文本信息/>中所有实体在文本信息/>中共同出现的频次,/>为指标类型标签/>在整个语料库中出现的总频次,/>为指标类型标签/>在文本信息/>中出现的总频次。
然后便可以利用TF-IDF值对指标类型标签进行重排序(例如按照概率从大到小排列),在确定出属性的同时,可以通过其对应的概率大小,形成包含权重的属性(后期构建图谱时还可以利用权重为属性划分占比区域,直观反映属性的重要性)。
至此,即完成了对知识抽取模型的介绍。以下将对利用此知识抽取模型实现的基于文本大数据的知识图谱构建方法进行介绍。知识抽取模型可以配置在服务器内,通过服务器运行基于文本大数据的知识图谱构建方法。
请参阅图2,图2为基于文本大数据的知识图谱构建方法的流程图。在本实施例中,基于文本大数据的知识图谱构建方法可以包括步骤S10、步骤S20和步骤S30。
首先,服务器可以运行步骤S10。
步骤S10:获取文本数据集,其中,文本数据集包含多条文本信息。
在本实施例中,服务器可以获取文本数据集,文本数据集可以包含多条文本信息。此处,对于文本数据的获取,可以是来源于存储的文本文档,也可以是通过对PDF进行转档、对图片进行识别的方式获得的文档。而每个文档视为一个文本数据,而对文本数据进行分句(例如采用自然语言工具包NLTK实现分句),可以得到以句子为单位的文本信息(分句后的文本信息,也可以具有标识,反映该文本信息来源的文本数据)。
得到文本数据集后,服务器可以运行步骤S20。
步骤S20:利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,其中,知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取。
在本实施例中,服务器可以将文本信息输入预设的知识抽取模型中,利用知识抽取模型的分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系。具体的知识抽取过程可以参阅前文介绍,此处不再赘述。
抽取出实体、属性及实体间关系后,服务器可以运行步骤S30。
步骤S30:基于抽取的知识进行知识融合和存储,完成知识图谱的构建。
在本实施例中,服务器可以对抽取的知识进行知识融合,以便提高知识的准确性。例如,可以采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧,完成知识融合。
完成知识融合后,服务器可以采用Neo4j图数据库对知识融合后的知识进行存储,从而完成知识图谱的构建。
综上所述,本申请实施例提供一种基于文本大数据的知识图谱构建方法,通过设计的知识抽取模型对文本数据集中的文本信息进行知识抽取(利用分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系),提取出实体、属性及实体间关系,进一步进行知识融合和存储,完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量,从而高效实现垂直领域知识图谱的构建。编码时引入图卷积,解码时利用LSTM实现,可以实现编解码的错时同步运行,提高运行效率。而在解码单元后连接全连接层,使用改进的softmax函数计算标签的概率,将解码输出映射为四元组标签相关的向量,以便构建标签序列。之后通过对标签序列的分析即可高效准确地确定出三元组(实体、属性、实体间关系),并且,在对属性(对应指标类型标签)进行分析地过程中,进一步计算TF-IDF值进行重排序,以便确定出属性,这样确定的属性,还可以反映有效性和重要性,在垂直领域的知识图谱(垂直领域内,知识图谱中实体的属性数量繁多、精细,且通常属性重要性差异不小,传统的知识图谱罗列属性的方式无法反映属性重要性)中,能够更可靠地形成更具知识反映能力的知识图谱。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于文本大数据的知识图谱构建方法,其特征在于,知识图谱本体结构包含实体、属性及实体间关系,所述方法包括:
获取文本数据集,其中,文本数据集包含多条文本信息;
利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,其中,知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取;
基于抽取的知识进行知识融合和存储,完成知识图谱的构建。
2.根据权利要求1所述的基于文本大数据的知识图谱构建方法,其特征在于,知识抽取模型包括分词单元、编码单元、解码单元、抽取单元,利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,包括:
利用分词单元对文本信息进行分词,得到分词结果;
利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;
利用解码单元对文本重编码结果进行解码,得到解码结果;
利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系。
3.根据权利要求2所述的基于文本大数据的知识图谱构建方法,其特征在于,采用HanLP工具作为文本信息的分词单元,利用分词单元对文本信息进行分词,得到分词结果,包括:
对文本信息进行分词:
其中,为输入的文本信息,/>表示文本信息/>的分词结果,/>对应文本信息/>的语义依赖树,呈有向无环图,/>为节点集合,/>为边集。
4.根据权利要求3所述的基于文本大数据的知识图谱构建方法,其特征在于,利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果,包括:
对分词结果进行向量化,对于分词结果中的第/>个词语/>,假设由/>个单字组成,单字分别由/>表示,则词语/>的特征值/>为:
则:
其中,为文本信息/>的特征向量;
使用图卷积神经网络对特征向量进行重编码,最终得到文本重编码结果:
其中,为文本重编码结果,图卷积神经网络共有/>层,每层/>个单元,
为图卷积神经网络的第/>层中每个单元的输出构成的序列向量,/>为图卷积神经网络的第/>层中第/>个单元的输出,/>为图卷积神经网络的第/>层中第/>个单元与第/>层中第/>个单元之间的权重,/>为图卷积神经网络的第/>层中第/>个单元的输出,/>为图卷积神经网络的第/>层中第/>个单元的偏置项,/>为图卷积神经网络的输入。
5.根据权利要求4所述的基于文本大数据的知识图谱构建方法,其特征在于,采用LSTM作为解码单元,利用解码单元对文本重编码结果进行解码,得到解码结果,包括:
采用LSTM对文本重编码结果进行解码:
其中,为第/>个时间步的输出门,/>为激活函数,/>、/>和/>为权重,分别控制当前输入对输出门的影响程度、前一时刻的隐藏状态对输出门的影响程度和当前时刻的LSTM单元状态对输出门的影响程度,/>,/>为当前时间步的LSTM单元状态,/>为偏置向量,用于调整输出门的输出值;/>为第/>个时间步的LSTM最终输出,/>为解码结果。
6.根据权利要求5所述的基于文本大数据的知识图谱构建方法,其特征在于,采用全连接层和改进的softmax函数构建抽取单元,全连接层与解码单元连接,标签模型采用四元组,利用抽取单元对解码结果进行标签概率计算,得到标签序列,包括:
采用全连接层对解码器的输出进行线性变换,得到向量/>
其中,为与标签数量相关的向量,/>为权重矩阵,/>为偏置项,/>
采用改进的softmax函数计算标签的概率:
其中,为从随机噪声分布中采样的变量,/>为控制噪声大小的控制参数,/>为第/>个四元组,四元组/>中/>为词语位置标签,表示词语在句子中的位置;/>为指标类型标签,表示词语的属性类型;/>为主宾类型标签,表示词语的词性;/>为关系类型标签,表示句子中三元组的关系类型;/>为标签序列。
7.根据权利要求6所述的基于文本大数据的知识图谱构建方法,其特征在于,对标签序列进行重排序,最终确定出实体、属性及实体间关系,包括:
对标签序列中的各词对应的词语位置标签/>和主宾类型标签/>进行分析,确定出实体;
对标签序列中的各词对应的关系类型标签/>进行分析,确定出实体间关系;
对标签序列中的各词对应的指标类型标签/>计算TF-IDF值,按照TF-IDF值对指标类型标签/>进行重排序,确定出属性。
8.根据权利要求7所述的基于文本大数据的知识图谱构建方法,其特征在于,对标签序列中的各词对应的指标类型标签/>计算TF-IDF值,按照TF-IDF值对指标类型标签/>进行重排序,确定出属性,包括:
对于标签序列中的各词对应的指标类型标签/>采用以下公式计算TF-IDF值:
其中,为标签序列/>中的第/>个词对应的指标类型标签,/>为指标类型标签/>在与第/>个实体在文本信息/>中共同出现的频次,/>为指标类型标签/>与文本信息/>中所有实体在文本信息/>中共同出现的频次,/>为指标类型标签/>在整个语料库中出现的总频次,/>为指标类型标签/>在文本信息/>出现的总频次;
利用TF-IDF值对指标类型标签进行重排序,以确定出属性。
9.根据权利要求1所述的基于文本大数据的知识图谱构建方法,其特征在于,基于抽取的知识进行知识融合和存储,完成知识图谱的构建,包括:
对抽取的知识进行知识融合;
采用Neo4j图数据库对知识融合后的知识进行存储。
10.根据权利要求9所述的基于文本大数据的知识图谱构建方法,其特征在于,对抽取的知识进行知识融合,包括:
采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧,完成知识融合。
CN202311582684.6A 2023-11-24 2023-11-24 一种基于文本大数据的知识图谱构建方法 Active CN117291265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311582684.6A CN117291265B (zh) 2023-11-24 2023-11-24 一种基于文本大数据的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311582684.6A CN117291265B (zh) 2023-11-24 2023-11-24 一种基于文本大数据的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN117291265A true CN117291265A (zh) 2023-12-26
CN117291265B CN117291265B (zh) 2024-02-09

Family

ID=89252106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311582684.6A Active CN117291265B (zh) 2023-11-24 2023-11-24 一种基于文本大数据的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN117291265B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
KR20220019461A (ko) * 2020-08-10 2022-02-17 경기대학교 산학협력단 그래프 신경망을 이용한 지식 그래프 기반 질문 응답 시스템
CN116401376A (zh) * 2023-04-04 2023-07-07 中国电子科技集团公司第三十八研究所 一种面向工艺性检查的知识图谱构建方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220019461A (ko) * 2020-08-10 2022-02-17 경기대학교 산학협력단 그래프 신경망을 이용한 지식 그래프 기반 질문 응답 시스템
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN116401376A (zh) * 2023-04-04 2023-07-07 中国电子科技集团公司第三十八研究所 一种面向工艺性检查的知识图谱构建方法及系统

Also Published As

Publication number Publication date
CN117291265B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN114936287A (zh) 预训练语言模型的知识注入方法和相应的交互系统
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN112800244A (zh) 一种中医药及民族医药知识图谱的构建方法
CN117291265B (zh) 一种基于文本大数据的知识图谱构建方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN114661912A (zh) 基于无监督句法分析的知识图谱构建方法、装置及设备
CN113408289A (zh) 一种多特征融合的供应链管理实体知识抽取的方法及系统
CN112966502A (zh) 一种基于长难句化简的电力专利文本实体关系抽取方法
CN111581339A (zh) 基于树状lstm对生物医学文献的基因事件的抽取方法
Gouws Deep unsupervised feature learning for natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant