CN114911945A - 基于知识图谱的多价值链数据管理辅助决策模型构建方法 - Google Patents

基于知识图谱的多价值链数据管理辅助决策模型构建方法 Download PDF

Info

Publication number
CN114911945A
CN114911945A CN202210381595.4A CN202210381595A CN114911945A CN 114911945 A CN114911945 A CN 114911945A CN 202210381595 A CN202210381595 A CN 202210381595A CN 114911945 A CN114911945 A CN 114911945A
Authority
CN
China
Prior art keywords
word
text set
initial
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210381595.4A
Other languages
English (en)
Inventor
刘晓瑛
王宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210381595.4A priority Critical patent/CN114911945A/zh
Publication of CN114911945A publication Critical patent/CN114911945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及知识图谱构建技术领域,特别是指一种基于知识图谱的多价值链数据管理辅助决策模型构建方法,方法包括:对企业各业务系统中存储的原始运维文本进行结构化抽取,得到数据集;将数据集划分为初始训练文本集和初始测试文本集,对初始训练文本集以及初始测试文本集进行预处理;对预处理后的初始训练文本集进行文本向量化,得到训练文本集,将训练文本集和测试文本集数值化;基于训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练;根据训练完毕的实体抽取模型和关系抽取模型,对测试文本集进行实体类别抽取以及关系类别抽取;将抽取得到的知识构建为知识图谱。采用本发明,实现知识图谱的可视化展示,实现快速响应。

Description

基于知识图谱的多价值链数据管理辅助决策模型构建方法
技术领域
本发明涉及知识图谱构建技术领域,特别是指一种基于知识图谱的多价值链数据管理辅助决策模型构建方法。
背景技术
协同生产驱使企业在生产、服务、销售、供应等价值链中作为核心节点与其他企业进行数据的交互,复杂的价值链交叉导致企业需要大量的相关文档,包括需求分析、产品设计、产品制造、三包服务、部件采购、客户需求等对企业运维活动的文本化记录,这些文本知识构成企业运维数据管理领域的多价值链数据空间,具有极高的知识挖掘、融合、管理和应用价值。
各类运维文档创建于不同的业务系统,且具备相异的字段特征,即便一系列跨业务文档描述的是针对同一业务的健康管理工作,但文档之间的多源异构性造成了各类文档数据之间形成了孤岛,知识不能得到有效的融合和关联。为此,需要从庞杂的运维设备文档中提取出针对同一业务的管理知识,并将各种运维文档关联在一起,构建为知识图谱存储于数据库中;当运维人员对特定业务知识进行搜索,数据库可关联返回全种类业务文档及其对应的健康管理业务描述,从而实现了以知识节点为核心的相关文档知识检索、推理和关联,即构建企业多价值链数据管理辅助决策模型。
基于知识图谱的企业多价值链数据管理辅助决策模型构建,其技术难点主要在于以下方面:一是针对各类运维业务文档进行多价值链业务知识抽取,具体是如何从多源异构的全业务运维文档中,针对性地选择有价值的业务知识作为具体研究对象,即面向多价值链领域的文本知识挖掘问题;二是多价值链知识图谱的构建及可视化展示的技术实现问题;三是基于多价值链知识图谱,实现多价值链数据管理知识的检索、匹配、推荐和重用功能。
发明内容
本发明实施例提供了一种基于知识图谱的多价值链数据管理辅助决策模型构建方法及装置。所述技术方案如下:
一方面,提供了一种基于知识图谱的多价值链数据管理辅助决策模型构建方法,该方法由基于知识图谱的多价值链数据管理辅助决策模型构建装置实现,该方法包括:
S1、对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集;
S2、将所述数据集划分为初始训练文本集和初始测试文本集,对所述初始训练文本集进行预处理,得到预处理后的初始训练文本集,对所述初始测试文本集进行预处理,得到测试文本集;
S3、对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将所述训练文本集和所述测试文本集数值化;
S4、基于所述训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练,得到训练完毕的实体抽取模型和关系抽取模型;
S5、根据训练完毕的实体抽取模型,对所述测试文本集进行实体类别抽取;根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取;
S6、将抽取得到的知识构建为知识图谱,将所述知识图谱存储到数据库中。
可选地,所述S2中的对所述初始训练文本集进行预处理,包括:
对所述初始训练文本集进行中文分词处理以及停用词过滤处理;
所述S2中的对所述初始测试文本集进行预处理,包括:
对所述初始测试文本集进行中文分词处理以及停用词过滤处理;
其中,所述中文分词处理以及停用词过滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果;其中,所述待分词文本为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库,剔除所述分词结果中的噪声词。
可选地,所述S3中的对预处理后的初始训练文本集进行文本向量化,包括:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
可选地,所述Word2Vec词向量化模型的训练过程包括:
构建初始Word2Vec词向量化模型,所述初始Word2Vec词向量化模型的输入层变量定义为中心词前后各m个词语的上下文窗口组成的词序列,所述词序列表示为x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m),所述初始Word2Vec词向量化模型的输出向量定义为多个预测词语分别对应的概率
Figure BDA0003593117310000033
其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量,c表示窗口规模;
定义损失函数为交叉熵损失函数,如下公式(1):
Figure BDA0003593117310000031
其中,y表示目标向量,j表示目标向量分布数量,|V|表示分布空间;
基于所述交叉熵损失函数,采用随机梯度下降法更新初始Word2Vec词向量化模型中的参数,得到训练完毕的Word2Vec词向量化模型。
可选地,所述实体抽取模型为Bi-LSTM-CRF模型,所述Bi-LSTM-CRF模型包括Bi-LSTM子模型以及CRF子模型;
所述Bi-LSTM子模型用于抽取文本的前向特征以及后向特征;
所述CRF子模型用于预测标注序列的全局标签,输出一系列标注序列的联合概率分布。
可选地,所述Bi-LSTM子模型的训练过程包括:
根据下述公式(2)对Bi-LSTM子模型进行训练;
Figure BDA0003593117310000032
其中,ti表示词语序列的第k个词,ΘLSTM表示的是两个反向的LSTM层,Θx表示的是输入词向量,Θs表示的是Bi-LSTM模型训练过程中的Softmax分类器,在向前学习的过程中,用给定前k-1个词语序列来预测第k个词语,在后向学习的过程中,用第k个词语之后的N-k个词语序列来对第k个词语进行预测。
可选地,所述关系抽取模型为卷积神经网络;
所述根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取,包括:
采用卷积神经网络对多价值链实体之间的关系进行抽取,所述卷积神经网络包括输入层、卷积层、池化层以及全连接层;
所述输入层的输入形式定义为如下述公式(3);
Figure BDA0003593117310000041
其中,n表示输入句子的字长,vx表示输入句子中的第x个字向量,
Figure BDA0003593117310000042
符号表示字与字之间的连接关系;
所述卷积层的卷积核定义为一个窗口大小等于h×k的卷积核w∈Rh*k,其中,R表示数据空间,h和k表示数据空间的维度;
通过卷积层进行卷积计算后,句中第i个字的语义特征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h-1+bias)……(4)
其中,bias表示偏移参数,f表示激励函数,w表示卷积核,vi~i+h-1表示输入句子中的第i个到第i+h-1个字向量;
通过卷积计算,句子v1~n转换为特征映射c如下式(5)所示:
c=[c1,c2,...,cn-h-1]……(5)
通过池化层进行计算,将特征映射转化为c=max(c);
通过全连接层,将转化后的特征映射进行关系分类和输出。
另一方面,提供了一种基于知识图谱的多价值链数据管理辅助决策模型构建装置,该装置用于实现基于知识图谱的多价值链数据管理辅助决策模型构建方法,该装置包括:
提取模块,用于对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集;
预处理模块,用于将所述数据集划分为初始训练文本集和初始测试文本集,对所述初始训练文本集进行预处理,得到预处理后的初始训练文本集,对所述初始测试文本集进行预处理,得到测试文本集;
处理模块,用于对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将所述训练文本集和所述测试文本集数值化;
训练模块,用于基于所述训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练,得到训练完毕的实体抽取模型和关系抽取模型;
抽取模块,用于根据训练完毕的实体抽取模型,对所述测试文本集进行实体类别抽取;根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取;
存储模块,用于将抽取得到的知识构建为知识图谱,将所述知识图谱存储到数据库中。
可选地,所述预处理模块,用于:
对所述初始训练文本集进行中文分词处理以及停用词过滤处理;
所述S2中的对所述初始测试文本集进行预处理,包括:
对所述初始测试文本集进行中文分词处理以及停用词过滤处理;
其中,所述中文分词处理以及停用词过滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果;其中,所述待分词文本为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库,剔除所述分词结果中的噪声词。
可选地,所述处理模块,用于:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
可选地,所述处理模块,用于:
构建初始Word2Vec词向量化模型,所述初始Word2Vec词向量化模型的输入层变量定义为中心词前后各m个词语的上下文窗口组成的词序列,所述词序列表示为x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m),所述初始Word2Vec词向量化模型的输出向量定义为多个预测词语分别对应的概率
Figure BDA0003593117310000051
其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量,c表示窗口规模;
定义损失函数为交叉熵损失函数,如下公式(1):
Figure BDA0003593117310000052
其中,y表示目标向量,j表示目标向量分布数量,|V|表示分布空间;
基于所述交叉熵损失函数,采用随机梯度下降法更新初始Word2Vec词向量化模型中的参数,得到训练完毕的Word2Vec词向量化模型。
可选地,所述实体抽取模型为Bi-LSTM-CRF模型,所述Bi-LSTM-CRF模型包括Bi-LSTM子模型以及CRF子模型;
所述Bi-LSTM子模型用于抽取文本的前向特征以及后向特征;
所述CRF子模型用于预测标注序列的全局标签,输出一系列标注序列的联合概率分布。
可选地,所述抽取模块,用于:
根据下述公式(2)对B i-LSTM子模型进行训练;
Figure BDA0003593117310000061
其中,ti表示词语序列的第k个词,ΘLSTM表示的是两个反向的LSTM层,Θx表示的是输入词向量,Θs表示的是Bi-LSTM模型训练过程中的Softmax分类器,在向前学习的过程中,用给定前k-1个词语序列来预测第k个词语,在后向学习的过程中,用第k个词语之后的N-k个词语序列来对第k个词语进行预测。
可选地,所述关系抽取模型为卷积神经网络;
所述抽取模块,用于:
采用卷积神经网络对多价值链实体之间的关系进行抽取,所述卷积神经网络包括输入层、卷积层、池化层以及全连接层;
所述输入层的输入形式定义为如下述公式(3);
Figure BDA0003593117310000062
其中,n表示输入句子的字长,vx表示输入句子中的第x个字向量,
Figure BDA0003593117310000063
符号表示字与字之间的连接关系;
所述卷积层的卷积核定义为一个窗口大小等于h×k的卷积核w∈Rh*k,其中,R表示数据空间,h和k表示数据空间的维度;
通过卷积层进行卷积计算后,句中第i个字的语义特征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h-1+bias)……(4)
其中,bias表示偏移参数,f表示激励函数,w表示卷积核,vi~i+h-1表示输入句子中的第i个到第i+h-1个字向量;
通过卷积计算,句子v1~n转换为特征映射c如下式(5)所示:
c=[c1,c2,...,cn-h-1]……(5)
通过池化层进行计算,将特征映射转化为c=max(c);
通过全连接层,将转化后的特征映射进行关系分类和输出。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于知识图谱的多价值链数据管理辅助决策模型构建方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于知识图谱的多价值链数据管理辅助决策模型构建方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,首先是知识图谱的可视化展示。知识图谱存储在数据库中,包含了大量的实体、实体属性和实体之间的关系,通过以语义网络的形式有机地组织这些领域概念之间的语义逻辑,借助“结点-连线-结点”的绘图,直观地呈现出复杂知识之间的内、外部逻辑,便于用户理解、推理、记忆和运用图谱中的知识。
然后是基于知识图谱的语义搜索。核心思路是通过在系统中集成前述知识图谱构建过程中的相关知识抽取技术,包括文本分词、去停用词、文本向量化、实体抽取、关系抽取等,对用户输入的搜索文本进行预处理和信息抽取,提取出用户意图,然后转换为知识图谱在数据库中的查询语句,在图谱数据库中通过图搜索路径算法进行匹配,最终获得图谱中与用户符合语义的目标实体和关系知识,并将它们按相关度排序返回给用户界面进行可视化展示。
最后是基于知识图谱的数据管理。大数据背景下,知识就是企业宝贵的数据资产,而从复杂文本抽取出来的高度结构化、高度浓缩化的知识以图谱的形式存储在数据库中,将为企业基于知识图谱的上层应用开发和数据海量增广提供基础支持。此外,知识图谱存储在图数据库中,其采用的图式存储结构相较于传统的关系型存储结构的关联查询效率更高,且其通过高效的图式路径搜索算法,可实现百万级别的数据秒级导入和查询,可达到人机互动过程中的所见即所得,实现快速响应。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于知识图谱的多价值链数据管理辅助决策模型构建方法流程图;
图2是本发明实施例提供的多价值链知识图谱连通各类型多价值链文档数据孤岛的示意图;
图3是本发明实施例提供的一基于知识图谱的多价值链数据管理辅助决策模型构建方法流程图;
图4是本发明实施例提供的一种面向多价值链文本的最大正向匹配分词算法流程图;
图5是本发明实施例提供的一种Bi-LSTM-CRF实体抽取模型进行多价值链文本序列标注的示意图;
图6是本发明实施例提供的一种使用卷积神经网络关系抽取模型进行多价值链文本关系抽取的示意图;
图7是本发明实施例提供的一种知识图谱多价值链数据管理的辅助决策应用示意图;
图8是本发明实施例提供的一种基于知识图谱的多价值链数据管理辅助决策模型构建装置框图;
图9是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种基于知识图谱的多价值链数据管理辅助决策模型构建方法,该方法可以由基于知识图谱的多价值链数据管理辅助决策模型构建装置实现。如图1所示的基于知识图谱的多价值链数据管理辅助决策模型构建方法流程图,该方法的处理流程可以包括如下的步骤:
S1、对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集;
S2、将数据集划分为初始训练文本集和初始测试文本集,对初始训练文本集进行预处理,得到预处理后的初始训练文本集,对初始测试文本集进行预处理,得到测试文本集;
S3、对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将训练文本集和测试文本集数值化;
S4、基于训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练,得到训练完毕的实体抽取模型和关系抽取模型;
S5、根据训练完毕的实体抽取模型,对测试文本集进行实体类别抽取;根据训练完毕的关系抽取模型,对测试文本集进行关系类别抽取;
S6、将抽取得到的知识构建为知识图谱,将知识图谱存储到数据库中。
可选地,S2中的对初始训练文本集进行预处理,包括:
对初始训练文本集进行中文分词处理以及停用词过滤处理;
S2中的对初始测试文本集进行预处理,包括:
对初始测试文本集进行中文分词处理以及停用词过滤处理;
其中,中文分词处理以及停用词过滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果;其中,待分词文本为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库,剔除分词结果中的噪声词。
可选地,S3中的对预处理后的初始训练文本集进行文本向量化,包括:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
可选地,Word2Vec词向量化模型的训练过程包括:
构建初始Word2Vec词向量化模型,初始Word2Vec词向量化模型的输入层变量定义为中心词前后各m个词语的上下文窗口组成的词序列,词序列表示为x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m),初始Word2Vec词向量化模型的输出向量定义为多个预测词语分别对应的概率
Figure BDA0003593117310000101
其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量,c表示窗口规模;
定义损失函数为交叉熵损失函数,如下公式(1):
Figure BDA0003593117310000102
其中,y表示目标向量,j表示目标向量分布数量,|V|表示分布空间;
基于交叉熵损失函数,采用随机梯度下降法更新初始Word2Vec词向量化模型中的参数,得到训练完毕的Word2Vec词向量化模型。
可选地,实体抽取模型为Bi-LSTM-CRF模型,Bi-LSTM-CRF模型包括Bi-LSTM子模型以及CRF子模型;
Bi-LSTM子模型用于抽取文本的前向特征以及后向特征;
CRF子模型用于预测标注序列的全局标签,输出一系列标注序列的联合概率分布。
可选地,Bi-LSTM子模型的训练过程包括:
根据下述公式(2)对Bi-LSTM子模型进行训练;
Figure BDA0003593117310000103
其中,ti表示词语序列的第k个词,ΘLSTM表示的是两个反向的LSTM层,Θx表示的是输入词向量,Θs表示的是Bi-LSTM模型训练过程中的Softmax分类器,在向前学习的过程中,用给定前k-1个词语序列来预测第k个词语,在后向学习的过程中,用第k个词语之后的N-k个词语序列来对第k个词语进行预测。
可选地,关系抽取模型为卷积神经网络;
根据训练完毕的关系抽取模型,对测试文本集进行关系类别抽取,包括:
采用卷积神经网络对多价值链实体之间的关系进行抽取,卷积神经网络包括输入层、卷积层、池化层以及全连接层;
输入层的输入形式定义为如下述公式(3);
Figure BDA0003593117310000111
其中,n表示输入句子的字长,vx表示输入句子中的第x个字向量,
Figure BDA0003593117310000112
符号表示字与字之间的连接关系;
卷积层的卷积核定义为一个窗口大小等于h×k的卷积核w∈Rh*k,其中,R表示数据空间,h和k表示数据空间的维度;
通过卷积层进行卷积计算后,句中第i个字的语义特征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h-1+bias)……(4)
其中,bias表示偏移参数,f表示激励函数,w表示卷积核,vi~i+h-1表示输入句子中的第i个到第i+h-1个字向量;
通过卷积计算,句子v1~n转换为特征映射c如下式(5)所示:
c=[c1,c2,...,cn-h-1]……(5)
通过池化层进行计算,将特征映射转化为c=max(c);
通过全连接层,将转化后的特征映射进行关系分类和输出。
本发明实施例中,首先是知识图谱的可视化展示。知识图谱存储在数据库中,包含了大量的实体、实体属性和实体之间的关系,通过以语义网络的形式有机地组织这些领域概念之间的语义逻辑,借助“结点-连线-结点”的绘图,直观地呈现出复杂知识之间的内、外部逻辑,便于用户理解、推理、记忆和运用图谱中的知识。
然后是基于知识图谱的语义搜索。核心思路是通过在系统中集成前述知识图谱构建过程中的相关知识抽取技术,包括文本分词、去停用词、文本向量化、实体抽取、关系抽取等,对用户输入的搜索文本进行预处理和信息抽取,提取出用户意图,然后转换为知识图谱在数据库中的查询语句,在图谱数据库中通过图搜索路径算法进行匹配,最终获得图谱中与用户符合语义的目标实体和关系知识,并将它们按相关度排序返回给用户界面进行可视化展示。
最后是基于知识图谱的数据管理。大数据背景下,知识就是企业宝贵的数据资产,而从复杂文本抽取出来的高度结构化、高度浓缩化的知识以图谱的形式存储在数据库中,将为企业基于知识图谱的上层应用开发和数据海量增广提供基础支持。此外,知识图谱存储在图数据库中,其采用的图式存储结构相较于传统的关系型存储结构的关联查询效率更高,且其通过高效的图式路径搜索算法,可实现百万级别的数据秒级导入和查询,可达到人机互动过程中的所见即所得,实现快速响应。
本发明实施例提供了一种基于知识图谱的多价值链数据管理辅助决策模型构建方法,该方法可以由基于知识图谱的多价值链数据管理辅助决策模型构建装置实现。首先,先介绍一下知识图谱的相关知识:
构建知识图谱中不仅要抽取领域中的一系列以实体形式存在的知识,还包括抽取出各类实体之间的关联关系,才能将整个语义网络逻辑清晰地表现出来,知识图谱构建使用的三元组{实体1,关系,实体2}用来连接两个实体,或{实体,属性名称,属性值}用来描述单个实体的内在属性特征。
一个知识图谱样例包含的语义信息为:企业、产品、部件、订单、故障等文档的固定字段或者自由文本描述包含了涉及的多价值链数据。如此,由企业为核心,关联所有对应的业务文档。这样就构成了一个融合多业务价值链的多价值链数据管理知识图谱。
与传统数据库按照结构化的表存储方式来进行数据关联不同,如图2所示,知识图谱按照语义网络的方式表达知识间的关系,突破数据之间的壁垒,构建更多样且高效的关联,摆脱原本因低质量数据造成的文档孤岛状态。通过对文档字段的结构化抽取,扩展了与文档实体关联的运维业务描述实体,而前述文本知识抽取实现了实体和关系的补全,至此多价值链数据管理全业务知识图谱的构建完成。
多价值链知识图谱构建的核心思路是:采集大量业务文档中的自由长文本构成数据集,利用知识抽取技术对这些文本内容进行实体抽取和关系抽取,识别出其中包含的企业、产品、部件、订单、故障等运维对象实体,以及这些实体之间的关系、与对应文档实体之间的关系,最终构建成为多价值链知识图谱,而通过后续对文档的运维业务字段和属性字段进行简单的规则提取,添加进知识图谱中,最终实现了生产-服务-供应-销售的运维业务总体数据集成。
其中,本发明提出的知识图谱构建方案应用了有监督学习理论,构建图谱的知识三元组是由计算机根据文本数据集分别依次训练实体抽取模型和关系抽取模型,并根据训练好的模型将测试文本数据集分别依次进行指定实体类别和关系类别抽取的过程。在这个构建图谱的知识抽取过程中,多价值链知识点实体类别和关系类别是已知的。
基于上述思路,如图3所示的基于知识图谱的多价值链数据管理辅助决策模型构建方法流程图,该方法的处理流程可以包括如下的步骤:
S1、对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集。
S2、将数据集划分为初始训练文本集和初始测试文本集,对初始训练文本集进行预处理,得到预处理后的初始训练文本集,对初始测试文本集进行预处理,得到测试文本集。
可选地,该步骤中的预处理可以包括中文分词处理以及停用词过滤处理。
(1)中文分词处理可以包括以下步骤:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果。其中,待分词文本为初始训练文本集或初始测试文本集。
一种可行的实施方式中,由于与开放领域分词的广泛度要求相比,多价值链领域分词更强调准确性,因此,本发明采用了构建专家词典的分词方法对多价值链业务文本进行分词,采用的词典通过解析文档中的词级或短文本字段值,对这些词语或短语进行抽取,并结合企业积累的术语词库以及开放领域的通用词库,由此构建了领域的专业分词词库。基于该领域分词词库,本发明采用了基于专家词典的最大前/后向匹配算法,对多价值链文本数据集进行遍历句子分词。
最大前/后向匹配算法分别用正向和逆向的最大匹配算法对待分词文本进行切分,并采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则选择最好的分词结果。其中,最大正向与最大逆向匹配算法的核心思想相同,故在此只对最大正向匹配算法进行阐述,其算法流程图如下图4所示。
在图4中,模型输入为:待切分文本Text、最大切分字符串长度MaxLen,词典Dict和待输出的分词结果ws(初始化为空)。开启循环判断Text是否为空,若Text为空,说明待切分文本己完成切分,输出分词结果ws;若Text不为空,则从Text左边开始,取长度不大于MaxLen的字符串wx,遍历查询词典Dict,若wx在D ict中,则作如下更新:ws值更新为原ws加上wx和词分隔符“/”,Text值更新为原Text值减去wx,继续开始新一轮循环——判断Text是否为空;若遍历查询词典后wx不在词典中,则将wx值更新为原wx值删除最右一个字符,接着判断wx是否为单字词,若wx为单字词,再按上述方式更新ws值和Text值后继续开启新一轮循环;若wx不是单字词,则再次判断更新后的wx值是否在词典中,重复循环迭代,直到最终输出分词结果ws。
(2)停用词过滤处理可以包括以下步骤:
基于预先构建的常用中文停用词库,剔除分词结果中的噪声词。
一种可行的实施方式中,经过文本分词,文本已经被切分成词语的形式,但其中包含了大量低质量数据,被称为停用词,这些词汇对于文本语义的影响很小,因此,过滤停用词有利于减小数据量,进而降低后续工作对文本处理的计算量。通用的停用词表包括数词、量词以及“的/地/在/和”等连词、副词等,这些词语在分词结果中大量出现,并且对上下文语义几乎无影响,因此进行剔除。
本发明使用的开放领域中文停用词表包括:哈工大停用词库、百度停用词库和四川大学机器智能实验室停用词表,这些词表基本完整涵盖开放领域绝大部分中文停用词,利用上述完备的常用停用库,可以有效剔除掉大多数对构建多价值链知识图谱无关的噪声词,去除停用词之后的运维文本的特征词数量大大减小,在后续计算中一来可达到降维的效果,提升模型计算速度,二来也可以较大程度上提高基于词向量模型进行后续知识抽取的准确度。
S3、对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将训练文本集和测试文本集数值化。
一种可行的实施方式中,多价值链文本经过分词、去停用词后,得到了一系列离散的中文词汇,这些词汇是人类语言,只能读懂0和1的计算机无法理解和计算。因此,要将自然语言词汇转换为一定维度的数字向量,以输入数学模型进行概率计算,这就是文本的向量化表示。
可选地,S3中的对预处理后的初始训练文本集进行文本向量化,可以包括以下步骤:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
可选地,Word2Vec词向量化模型的训练过程包括以下步骤S31-S33:
S31、构建初始Word2Vec词向量化模型,初始Word2Vec词向量化模型的输入层变量定义为中心词前后各m个词语的上下文窗口组成的词序列,词序列表示为x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m),初始Word2Vec词向量化模型的输出向量定义为多个预测词语分别对应的概率
Figure BDA0003593117310000152
其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量,c表示窗口规模。
S32、定义损失函数为交叉熵损失函数,如下公式(1):
Figure BDA0003593117310000151
其中,y表示目标向量,j表示目标向量分布数量,|V|表示分布空间;
S33、基于交叉熵损失函数,采用随机梯度下降法更新初始Word2Vec词向量化模型中的参数,得到训练完毕的Word2Vec词向量化模型。
一种可行的实施方式中,本发明使用的文本向量化方法Word2Vec词向量化模型,它基于词典训练数据集获得分布式词向量,模型结构如上图5所示,分为输入层、隐藏层和输出层。定义模型的输入层变量为中心词前后各m个词语的上下文窗口(x(c-m),...,x(c-1),x(c+1),...,x(c+m)),输出向量为各预测词语的概率
Figure BDA0003593117310000161
目标向量为y(或表示为x(c))。模型的训练目标就是利用给定上下文成功预测输出词为目标中心词。其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量。
模型中的系数为两个矩阵
Figure BDA0003593117310000162
Figure BDA0003593117310000163
其中的n表示词向量的维度,|V1|表示词典的大小。第一个系数矩阵W是输入词矩阵,它将输入向量映射到隐藏层,它的第i列表示词语wi的n维嵌入向量vi;同样地,第二个系数矩阵W′为输出向量矩阵(output word matrix),它的第i行表示词语wi的n维嵌入向量ui,它将隐藏层映射到输出向量。因此,对于一个词语xi,它将学习两个向量(即vi和ui)。
以下对Word2Vec的运行过程进行详述:
首先,2m个独热向量编码x(c-m),...,x(c-1),x(c+1),...,x(c+m)分别乘以输入词矩阵W,然后求这些向量的平均值,即为隐藏层的输入。其计算公式如下步骤(1.1):
Figure BDA0003593117310000164
接着,将
Figure BDA0003593117310000165
乘以输出词矩阵W′(此处的W′为上一层的输出)的每一列,得到输出层对应每个结点的输入,计算公式如下式子(1.2)所示,其中
Figure BDA0003593117310000166
表示W′的第j列,T表示矩阵转置:
Figure BDA0003593117310000167
最后计算输出层的输出
Figure BDA0003593117310000168
的每个结点yj的概率,计算公式如下公式(1.3):
Figure BDA0003593117310000169
Word2Vec模型训练系数矩阵W和W'过程中的目标,是使得输出向量
Figure BDA00035931173100001610
与目标向量y的相似度更高,p表示概率。我们利用交叉熵来衡量两个向量之间的相似度。因此,损失函数可表示为下式(1):
Figure BDA00035931173100001611
至此我们就获得了Word2Vec的损失计算公式。基于上述的损失函数计算公式,词向量算法模型采用随机梯度下降法更新模型参数,最终收敛得到词嵌入表示。
S4、基于训练文本集,对初始实体抽取模型进行训练,得到训练完毕的实体抽取模型,基于训练完毕的实体抽取模型,对测试文本集进行实体类别抽取。
一种可行的实施方式中,多价值链文本通过分词、去停用词的预处理和词向量化的数值化转换后,获得了向量数据表征,多价值链文本内容及其语义描述被抽象成了数字统计特征量,如何从这些数字量中表征的信息,抽取出原始文本中包含的实体知识和关系知识,是将本发明中将多价值链文本知识抽取成知识图谱要着重解决的技术重难点。
实体抽取任务实质上就是一个序列标注任务。序列标注任务是指输入一个中文句子,模型将句中每个字对应一个标记,最终输出这个句子的标注序列。我们的模型基于训练好的参数文件,利用输入序列的上下文语义的特征,最终输出一系列标注序列的联合概率分布,取其中的最大分布作为模型的预测结果。
可选地,实体抽取模型为Bi-LSTM-CRF模型,B i-LSTM-CRF模型包括Bi-LSTM子模型以及CRF子模型。
(1)Bi-LSTM子模型用于抽取文本的前向特征以及后向特征。
(2)CRF子模型用于预测标注序列的全局标签,输出一系列标注序列的联合概率分布。
一种可行的实施方式中,本发明采用的实体抽取模型是Bi-LSTM-CRF模型,这个模型的核心部分在于LSTM,LSTM就是基于传统RNN的结构,再新增了遗忘门、输入门、输出门共三个门在每一个隐藏层神经元细胞之上,以此取舍前一个神经元细胞传达过来的历史特征,进而实现了传统RNN存储长序列重要特征的优化。
其中,遗忘门的作用是控制当前时刻输入xt和上一个隐藏层的输出ht-1被遗忘的程度,计算可以表示为下式(2.1),其中Wf、Uf和bf分别为关于遗忘门的输入xt的权重矩阵,上一个隐藏层的输出ht-1的权重矩阵和偏移向量,σ为sigmoid激活函数。
ft=σ(Wfxt+Ufht-1+bf)……(2.1)
输入门的作用是控制当前时刻输入xt和上一个隐藏层的输出ht-1更新到记忆细胞的程度,计算可以表示为下式(2.2),其中Wi,Ui和bi分别为关于输入门的输入xt的权重矩阵,上一个隐藏层的输出ht-1的权重矩阵和偏移向量,σ为sigmoid激活函数。
it=σ(Wixt+Uiht-1+bi)……(2.2)
Figure BDA0003593117310000181
为候选记忆细胞,Ct为当前时刻RNN神经元细胞的状态,其包含了序列的历史信息,计算过程可以表示为下列两个式子(2.3)以及(2.4),其中Wi,Ui和bi分别为关于历史记忆状态的输入xt的权重矩阵,上一个隐藏层的输出ht-1的权重矩阵和偏移向量。
Figure BDA0003593117310000182
Figure BDA0003593117310000183
输出门的作用是控制当前时刻输入xt和当前神经元细胞的输出ht-1取决于当前记忆细胞的程度,计算可以表示为下列两个式子(2.5)以及(2.6),其中Wo,Uo和bo分别为关于输出门的输入xt的权重矩阵,上一个隐藏层的输出ht-1的权重矩阵和偏移向量,σ为sigmoid激活函数。
ot=σ(Woxt+UoHt-1+bo)……(2.5)
Ht=ot·tanh(Ct)……(2.6)
在序列标注任务中,当前字的上下文语义都会对本字的标注产生影响。所以本发明在利用LSTM模型进行序列标注时,将单层LSTM模型改进为双层反向的LSTM模型,即Bi-LSTM,以此分别学习当前时间段的正向特征和反向特征,正向LSTM将特征进行从前往后传输,而反向的LSTM将特征进行从后往前传输;接着按照位置一一对应,拼接双层LSTM的输出;最后通过全连接层,输出最终标注序列。
可选地,Bi-LSTM子模型的训练过程包括:
根据下述公式(2)对Bi-LSTM子模型进行训练。
Figure BDA0003593117310000184
其中,N表示词语序列的个数,ti表示词语序列的第k个词,ΘLSTM表示的是两个反向的LSTM层,Θx表示的是输入词向量,Θs表示的是Bi-LSTM模型训练过程中的Softmax分类器,在向前学习的过程中,用给定前k-1个词语序列来预测第k个词语,在后向学习的过程中,用第k个词语之后的N-k个词语序列来对第k个词语进行预测。
Bi-LSTM可以通过利用其神经网络的训练自动构建特征节省人工,但缺点是没有考虑到输出的标注序列之间的关系,即只考虑了单个字对应序列的概率最大化,而没有考虑全局概率最大化。因为在序列标注任务中,标注之间是有一定的关系的,比如前一个字为B-PRT标记,而当前字为M-EQP标记的概率应等于零,这一点Bi-LSTM模型是无法学习出来的。本发明结合了Bi-LSTM算法和CRF算法的方法,首先通过Bi-LSTM层抽取文本的前后向特征,然后通过CRF层预测标注序列的全局标签,自此既充分发挥了Bi-LSTM模型上下文语义特征的自动构建效果,又能对全局标签结果概率最大化,避免预测出非法的标注序列。
S5、基于训练文本集,对初始关系抽取模型进行训练,得到训练完毕的关系抽取模型。基于训练完毕的关系抽取模型,对测试文本集进行关系类别抽取。
可选地,关系抽取模型为卷积神经网络。
根据训练完毕的关系抽取模型,对测试文本集进行关系类别抽取,包括:
采用卷积神经网络对多价值链实体之间的关系进行抽取,卷积神经网络包括输入层、卷积层、池化层以及全连接层。
输入层的输入形式定义为如下述公式(3)。
Figure BDA0003593117310000191
其中,n表示输入句子的字长,vx表示输入句子中的第x个字向量,
Figure BDA0003593117310000192
符号表示字与字之间的连接关系。
卷积层的卷积核定义为一个窗口大小等于h×k的卷积核w∈Rh*k,其中,R表示数据空间,h和k分别表示数据空间的维度。
通过卷积层进行卷积计算后,句中第i个字的语义特征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h-1+bias)……(4)
其中,bias表示偏移参数,f表示激励函数,w表示卷积核,vi~i+h-1表示输入句子中的第i个到第i+h-1个字向量。
通过卷积计算,句子v1~n转换为特征映射c如下式(5)所示:
c=[c1,c2,...,cn-h-1]……(5)
通过池化层进行计算,将特征映射转化为c=max(c)。
通过全连接层,将转化后的特征映射进行关系分类和输出。
一种可行的实施方式中,基于模型训练的多价值链文本关系抽取工作可以描述为:首先将多价值链文本进行待抽取关系类别的标注,这是人工标注给机器进行学习和训练的先验知识;接着进行文本分词、去停用词和向量化,获取文本的词向量表示;根据已经抽取出的多价值链文本中的实体,利用机器学习方法或神经网络模型进行多价值链文本集合中实体之间的关系抽取,最终多价值链文本中的实体及其抽取出的关系构成{实体1,关系,实体2}三元组形式,从而构建成为知识图谱。其中,获取嵌入词向量和抽取多价值链文本中实体的技术已在上述进行了讲述。
本发明使用了卷积神经网络对多价值链实体之间的关系进行抽取。类比于图像,对于一个中文句子,空间局部特征是非常重要的特征,可以将中文句子视为一种一维图像矩阵(即为向量),但其空间特征不是真正的图像矩阵那样稀疏,文本矩阵中每一维都表征句子中的字/词,它们之间具有大量语义信息。而基于卷积神经网络模型的关系抽取,就是输入这个表征句子及句中字词的一维矩阵,对句中实体之间的关系进行分类。本发明使用卷积神经网络对多价值链文本进行关系抽取的模型结构如图6所示。
对图6进行分析,首先是输入层,输入一个字长为n的句子,其中vx表示句中的第x个字向量。则可将输入句子表示为如下式的形式,其中,
Figure BDA0003593117310000202
符号表示字与字之间的连接关系:
Figure BDA0003593117310000201
接着是卷积层,定义一个窗口大小等于h×k的卷积核w∈Rh*k,在文本知识抽取任务中,它一条边的长度始终等于字向量的维度N。通过卷积计算后,句中第i个字的语义特征值ci表示为如下式的形式:
ci=f(w·vi~i+h-1+bias)……(4)
上式中,bias表示偏移参数,f表示激励函数,如Tanh函数、Sigmoid函数等。
通过卷积计算,句子v1~n转换为特征映射c如下式所示:
c=[c1,c2,...,cn-h-1]……(5)
再接着,通过池化层进行计算,将特征映射转化为c=max(c),即用每个特征映射中的最大值表示整个特征映射,并使得计算量大大降低。以上为单个卷积核提取句子中每个字特征的算法过程,卷积神经网络通常使用多个具有不同窗口大小的卷积核来同时抽取多个特征。
最后是全连接层,通过该层利用这些抽取出来的特征进行关系分类和输出的操作。
S6、将抽取得到的知识构建为知识图谱,将知识图谱存储到数据库中。
一种可行的实施方式中,完成了多价值链文档的实体抽取和关系抽取后,即已获得本发明旨在构建的多价值链知识图谱的三元组数据。由于企业、产品、订单、故障等实体之间的关系十分复杂,且彼此之间包含大量的关联数据,并且日常运行以及进行各类多价值链数据管理工作,都是以各企业及其关联知识之间繁杂的关系为核心。因此,对比传统关系型数据库在表达多关联数据上的低性能表现,本发明选择了可高效存储和查询数据间复杂关系的图数据库,将抽取出的多价值链知识三元组数据在图数据库Neo4j中进行高效存储和高性能查询。
首先在官网下载相应Neo4j版本,并进行相关环境的部署;接着利用Neo4j原生的数据库查询语言:Cypher语言,进行知识三元组数据的批量导入和存储,最终完成了基于Neo4j图数据库的多价值链知识图谱构建工作。
正如上文所述,图数据库的优势在于利用图结构存储数据,即存储的方式就是一个个实体节点及其之间的关系连线,不仅实现了数据库中相关多价值链文档对应运维知识的“所见即所得”,而且基于图数据结构的节点查询操作可以利用极高效率的图路径搜索算法,实现对大批量的数据及其复杂关联的高性能查询。综合以上优势,Neo4j的部署对于基于知识图谱的多价值链数据管理辅助决策模型提供了极佳的数据库支撑。
图7为一个基于本发明构建的知识图谱进行多价值链数据管理的辅助决策应用示意图,包括了多价值链知识可视化、多价值链语义搜索、多价值链据管理三个方面的功能。
首先是知识图谱的可视化展示。知识图谱存储在数据库中,包含了大量的实体、实体属性和实体之间的关系,通过以语义网络的形式有机地组织这些领域概念之间的语义逻辑,借助“结点-连线-结点”的绘图,直观地呈现出复杂知识之间的内、外部逻辑,便于用户理解、推理、记忆和运用图谱中的知识。另外,在知识图谱可视化的应用中,通常做法是根据用户的请求来返回相应的子图谱,而非直接将完整的知识图谱呈现给用户界面,这样不仅没有达到便于用户理解的目的,而且海量数据之间纷繁复杂互连反而会干扰用户的注意力,导致其抓不住重点,这样就丢失了知识图谱的优势。
然后是基于知识图谱的语义搜索。核心思路是通过在系统中集成前述知识图谱构建过程中的相关知识抽取技术,包括文本分词、去停用词、文本向量化、实体抽取、关系抽取等,对用户输入的搜索文本进行预处理和信息抽取,提取出用户意图,然后转换为知识图谱在数据库中的查询语句,在图谱数据库中通过图搜索路径算法进行匹配,最终获得图谱中与用户符合语义的目标实体和关系知识,并将它们按相关度排序返回给用户界面进行可视化展示。
最后是基于知识图谱的数据管理。大数据背景下,知识就是企业宝贵的数据资产,而从复杂文本抽取出来的高度结构化、高度浓缩化的知识以图谱的形式存储在数据库中,将为企业基于知识图谱的上层应用开发和数据海量增广提供基础支持。此外,知识图谱存储在图数据库中,其采用的图式存储结构相较于传统的关系型存储结构的关联查询效率更高,且其通过高效的图式路径搜索算法,可实现百万级别的数据秒级导入和查询,可达到人机互动过程中的所见即所得,实现快速响应。
图8是根据一示例性实施例示出的一种基于知识图谱的多价值链数据管理辅助决策模型构建装置框图。参照图8,该装置800包括:提取模块810、预处理模块820、处理模块830、训练模块840、抽取模块850以及存储模块860;
提取模块810,用于对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集;
预处理模块820,用于将所述数据集划分为初始训练文本集和初始测试文本集,对所述初始训练文本集进行预处理,得到预处理后的初始训练文本集,对所述初始测试文本集进行预处理,得到测试文本集;
处理模块830,用于对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将所述训练文本集和所述测试文本集数值化;
训练模块840,用于基于所述训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练,得到训练完毕的实体抽取模型和关系抽取模型;
抽取模块850,用于根据训练完毕的实体抽取模型,对所述测试文本集进行实体类别抽取;根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取;
存储模块860,用于将抽取得到的知识构建为知识图谱,将所述知识图谱存储到数据库中。
可选地,所述预处理模块820,用于:
对所述初始训练文本集进行中文分词处理以及停用词过滤处理;
所述S2中的对所述初始测试文本集进行预处理,包括:
对所述初始测试文本集进行中文分词处理以及停用词过滤处理;
其中,所述中文分词处理以及停用词过滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果;其中,所述待分词文本为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库,剔除所述分词结果中的噪声词。
可选地,所述处理模块830,用于:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
可选地,所述处理模块830,用于:
构建初始Word2Vec词向量化模型,所述初始Word2Vec词向量化模型的输入层变量定义为中心词前后各m个词语的上下文窗口组成的词序列,所述词序列表示为x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m),所述初始Word2Vec词向量化模型的输出向量定义为多个预测词语分别对应的概率
Figure BDA0003593117310000231
其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量,c表示窗口规模;
定义损失函数为交叉熵损失函数,如下公式(1):
Figure BDA0003593117310000241
其中,y表示目标向量,j表示目标向量分布数量,|V|表示分布空间;
基于所述交叉熵损失函数,采用随机梯度下降法更新初始Word2Vec词向量化模型中的参数,得到训练完毕的Word2Vec词向量化模型。
可选地,所述实体抽取模型为Bi-LSTM-CRF模型,所述Bi-LSTM-CRF模型包括Bi-LSTM子模型以及CRF子模型;
所述B i-LSTM子模型用于抽取文本的前向特征以及后向特征;
所述CRF子模型用于预测标注序列的全局标签,输出一系列标注序列的联合概率分布。
可选地,所述抽取模块850,用于:
根据下述公式(2)对B i-LSTM子模型进行训练;
Figure BDA0003593117310000242
其中,ti表示词语序列的第k个词,ΘLSTM表示的是两个反向的LSTM层,Θx表示的是输入词向量,Θs表示的是Bi-LSTM模型训练过程中的Softmax分类器,在向前学习的过程中,用给定前k-1个词语序列来预测第k个词语,在后向学习的过程中,用第k个词语之后的N-k个词语序列来对第k个词语进行预测。
可选地,所述关系抽取模型为卷积神经网络;
所述抽取模块850,用于:
采用卷积神经网络对多价值链实体之间的关系进行抽取,所述卷积神经网络包括输入层、卷积层、池化层以及全连接层;
所述输入层的输入形式定义为如下述公式(3);
Figure BDA0003593117310000243
其中,n表示输入句子的字长,vx表示输入句子中的第x个字向量,
Figure BDA0003593117310000244
符号表示字与字之间的连接关系;
所述卷积层的卷积核定义为一个窗口大小等于h×k的卷积核w∈Rh*k,其中,R表示数据空间,h和k表示数据空间的维度;
通过卷积层进行卷积计算后,句中第i个字的语义特征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h-1+bias)……(4)
其中,bias表示偏移参数,f表示激励函数,w表示卷积核,vi~i+h-1表示输入句子中的第i个到第i+h-1个字向量;
通过卷积计算,句子v1~n转换为特征映射c如下式(5)所示:
c=[c1,c2,...,cn-h-1]……(5)
通过池化层进行计算,将特征映射转化为c=max(c);
通过全连接层,将转化后的特征映射进行关系分类和输出。
图9是本发明实施例提供的一种电子设备的结构示意图,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centra l processingunits,CPU)901和一个或一个以上的存储器902,其中,所述存储器902中存储有至少一条指令,所述至少一条指令由所述处理器901加载并执行以实现上述基于知识图谱的多价值链数据管理辅助决策模型构建方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于知识图谱的多价值链数据管理辅助决策模型构建方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识图谱的多价值链数据管理辅助决策模型构建方法,其特征在于,所述方法包括:
S1、对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集;
S2、将所述数据集划分为初始训练文本集和初始测试文本集,对所述初始训练文本集进行预处理,得到预处理后的初始训练文本集,对所述初始测试文本集进行预处理,得到测试文本集;
S3、对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将所述训练文本集和所述测试文本集数值化;
S4、基于所述训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练,得到训练完毕的实体抽取模型和关系抽取模型;
S5、根据训练完毕的实体抽取模型,对所述测试文本集进行实体类别抽取;根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取;
S6、将抽取得到的知识构建为知识图谱,将所述知识图谱存储到数据库中。
2.根据权利要求1所述的方法,其特征在于,所述S2中的对所述初始训练文本集进行预处理,包括:
对所述初始训练文本集进行中文分词处理以及停用词过滤处理;
所述S2中的对所述初始测试文本集进行预处理,包括:
对所述初始测试文本集进行中文分词处理以及停用词过滤处理;
其中,所述中文分词处理以及停用词过滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果;其中,所述待分词文本为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库,剔除所述分词结果中的噪声词。
3.根据权利要求1所述的方法,其特征在于,所述S3中的对预处理后的初始训练文本集进行文本向量化,包括:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
4.根据权利要求3所述的方法,其特征在于,所述Word2Vec词向量化模型的训练过程包括:
构建初始Word2Vec词向量化模型,所述初始Word2Vec词向量化模型的输入层变量定义为中心词前后各m个词语的上下文窗口组成的词序列,所述词序列表示为x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m),所述初始Word2Vec词向量化模型的输出向量定义为多个预测词语分别对应的概率
Figure FDA0003593117300000021
其中,词序列x(c-m),...,x(c-1),x(c),x(c+1),...,x(c+m)均为独热编码向量,c表示窗口规模;
定义损失函数为交叉熵损失函数,如下公式(1):
Figure FDA0003593117300000022
其中,y表示目标向量,j表示目标向量分布数量,|V|表示分布空间;
基于所述交叉熵损失函数,采用随机梯度下降法更新初始Word2Vec词向量化模型中的参数,得到训练完毕的Word2Vec词向量化模型。
5.根据权利要求1所述的方法,其特征在于,所述实体抽取模型为Bi-LSTM-CRF模型,所述Bi-LSTM-CRF模型包括Bi-LSTM子模型以及CRF子模型;
所述Bi-LSTM子模型用于抽取文本的前向特征以及后向特征;
所述CRF子模型用于预测标注序列的全局标签,输出一系列标注序列的联合概率分布。
6.根据权利要求5所述的方法,其特征在于,所述Bi-LSTM子模型的训练过程包括:
根据下述公式(2)对Bi-LSTM子模型进行训练;
Figure FDA0003593117300000023
其中,tk表示词语序列的第k个词,ΘLSTM表示的是两个反向的LSTM层,Θx表示的是输入词向量,Θs表示的是Bi-LSTM模型训练过程中的Softmax分类器,p表示概率,在向前学习的过程中,用给定前k-1个词语序列来预测第k个词语,在后向学习的过程中,用第k个词语之后的N-k个词语序列来对第k个词语进行预测。
7.根据权利要求1所述的方法,其特征在于,所述关系抽取模型为卷积神经网络;
所述根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取,包括:
采用卷积神经网络对多价值链实体之间的关系进行抽取,所述卷积神经网络包括输入层、卷积层、池化层以及全连接层;
所述输入层的输入形式定义为如下述公式(3);
Figure FDA0003593117300000031
其中,n表示输入句子的字长,vx表示输入句子中的第x个字向量,
Figure FDA0003593117300000032
符号表示字与字之间的连接关系;
所述卷积层的卷积核定义为一个窗口大小等于h×k的卷积核w∈Rh*k,其中,R表示数据空间,h和k表示数据空间的维度;
通过卷积层进行卷积计算后,句中第i个字的语义特征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h-1+bias)……(4)
其中,bias表示偏移参数,f表示激励函数,w表示卷积核,vi~i+h-1表示输入句子中的第i个到第i+h-1个字向量;
通过卷积计算,句子v1~n转换为特征映射c如下式(5)所示:
c=[c1,c2,...,cn-h-1]……(5)
通过池化层进行计算,将特征映射转化为c=max(c);
通过全连接层,将转化后的特征映射进行关系分类和输出。
8.一种基于知识图谱的多价值链数据管理辅助决策模型构建装置,其特征在于,所述装置包括:
提取模块,用于对企业各业务系统中存储的原始运维文本进行结构化抽取,将抽取出的自由长文本类型字段制作成文本数据挖掘的数据集;
预处理模块,用于将所述数据集划分为初始训练文本集和初始测试文本集,对所述初始训练文本集进行预处理,得到预处理后的初始训练文本集,对所述初始测试文本集进行预处理,得到测试文本集;
处理模块,用于对预处理后的初始训练文本集进行文本向量化,提取文本的特征,得到训练文本集,将所述训练文本集和所述测试文本集数值化;
训练模块,用于基于所述训练文本集,对初始实体抽取模型以及初始关系抽取模型进行训练,得到训练完毕的实体抽取模型和关系抽取模型;
抽取模块,用于根据训练完毕的实体抽取模型,对所述测试文本集进行实体类别抽取;根据训练完毕的关系抽取模型,对所述测试文本集进行关系类别抽取;
存储模块,用于将抽取得到的知识构建为知识图谱,将所述知识图谱存储到数据库中。
9.根据权利要求8所述的装置,其特征在于,所述预处理模块,用于:
对所述初始训练文本集进行中文分词处理以及停用词过滤处理;
所述S2中的对所述初始测试文本集进行预处理,包括:
对所述初始测试文本集进行中文分词处理以及停用词过滤处理;
其中,所述中文分词处理以及停用词过滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词文本进行切分,采用大颗粒度词语数目最大化、非词典词语和单字词语数目最小化的原则,确定分词结果;其中,所述待分词文本为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库,剔除所述分词结果中的噪声词。
10.根据权利要求8所述的装置,其特征在于,所述处理模块,用于:
基于训练完毕的Word2Vec词向量化模型,得到预处理后的初始训练文本集的目标中心词,完成文本向量化。
CN202210381595.4A 2022-04-13 2022-04-13 基于知识图谱的多价值链数据管理辅助决策模型构建方法 Pending CN114911945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210381595.4A CN114911945A (zh) 2022-04-13 2022-04-13 基于知识图谱的多价值链数据管理辅助决策模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210381595.4A CN114911945A (zh) 2022-04-13 2022-04-13 基于知识图谱的多价值链数据管理辅助决策模型构建方法

Publications (1)

Publication Number Publication Date
CN114911945A true CN114911945A (zh) 2022-08-16

Family

ID=82765441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210381595.4A Pending CN114911945A (zh) 2022-04-13 2022-04-13 基于知识图谱的多价值链数据管理辅助决策模型构建方法

Country Status (1)

Country Link
CN (1) CN114911945A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN115641149A (zh) * 2022-08-27 2023-01-24 北京华宜信科技有限公司 一种定制化数据资产估值方法
CN116226408A (zh) * 2023-03-27 2023-06-06 中国科学院空天信息创新研究院 农产品生长环境知识图谱构建方法及装置、存储介质
CN116340530A (zh) * 2023-02-17 2023-06-27 江苏科技大学 基于机械知识图谱的智能设计方法
CN116975256A (zh) * 2023-07-28 2023-10-31 三峡大学 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641149A (zh) * 2022-08-27 2023-01-24 北京华宜信科技有限公司 一种定制化数据资产估值方法
CN115641149B (zh) * 2022-08-27 2023-06-27 北京华宜信科技有限公司 一种定制化数据资产估值方法
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN115510245B (zh) * 2022-10-14 2024-05-14 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN116340530A (zh) * 2023-02-17 2023-06-27 江苏科技大学 基于机械知识图谱的智能设计方法
CN116226408A (zh) * 2023-03-27 2023-06-06 中国科学院空天信息创新研究院 农产品生长环境知识图谱构建方法及装置、存储介质
CN116226408B (zh) * 2023-03-27 2023-12-19 中国科学院空天信息创新研究院 农产品生长环境知识图谱构建方法及装置、存储介质
CN116975256A (zh) * 2023-07-28 2023-10-31 三峡大学 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN116975256B (zh) * 2023-07-28 2024-01-16 三峡大学 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统

Similar Documents

Publication Publication Date Title
Torfi et al. Natural language processing advancements by deep learning: A survey
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
CN112487189B (zh) 一种图卷积网络增强的隐式篇章文本关系分类方法
Zhang et al. Aspect-based sentiment analysis for user reviews
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN113204967B (zh) 简历命名实体识别方法及系统
CN113196277A (zh) 用于检索自然语言文档的系统
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN115757773A (zh) 一种多价值链问题文本分类方法和装置
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN115827871A (zh) 互联网企业分类的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination