CN114239828A - 一种基于因果关系的供应链事理图谱构建方法 - Google Patents

一种基于因果关系的供应链事理图谱构建方法 Download PDF

Info

Publication number
CN114239828A
CN114239828A CN202111076868.6A CN202111076868A CN114239828A CN 114239828 A CN114239828 A CN 114239828A CN 202111076868 A CN202111076868 A CN 202111076868A CN 114239828 A CN114239828 A CN 114239828A
Authority
CN
China
Prior art keywords
event
events
supply chain
causal
causal relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111076868.6A
Other languages
English (en)
Inventor
苏杭西子
肖克
曹志富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuyun Data Service Co ltd
Original Assignee
Fuyun Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuyun Data Service Co ltd filed Critical Fuyun Data Service Co ltd
Priority to CN202111076868.6A priority Critical patent/CN114239828A/zh
Publication of CN114239828A publication Critical patent/CN114239828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于因果关系的供应链事理图谱构建方法,涉及供应链事件的因果关系构建,具体步骤包括文本预处理、因果事件解析、事件分类、事件抽取、事件融合和事件存储。主要目的是通过构建一个描述供应链事件之间因果关系的供应链事理图谱,揭示事件间的因果逻辑演化规律与模式,有利于帮助判断供应链事件发展方向和结果的可能性,对供应链相关事件的真实性进行判别,分析供应链管理质量绩效低下的问题,找出原因,进行供应链管理。利用neo4j图数据库和mongodb数据库,完成图谱的高效查询和存储,帮助每个节点企业制定改进措施,完成改进,最终实现供应链管理的效率和效益。

Description

一种基于因果关系的供应链事理图谱构建方法
技术领域
本发明涉及供应链事件的因果关系构建,具体是涉及一种基于因果关系的供应链事理图谱构建方法。
背景技术
供应链管理是一种新型的管理模式,这种开放式的管理模式成为众多跨国企业关注的焦点。对供应链管理方法的研究不断深入,这些方法既抓住企业核心竞争力;;产品和市场,又利用企业外部资源快速响应市场需求。然而,由于供应链自身具有的一些特性:用户需求特性,动态特性,复杂特性,合作特性,信息特性,虚拟特性等,致使对供应链各接点企业共同的管理质量很难确定。
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、因果逻辑上相继发生的演化规律和模式是一种十分有价值的知识。然而,当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。目前构建事理图谱的方法尚在探索阶段,且不成熟,事理图谱的一般定义是一个有向有环图,现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。
发明内容
为克服目前现有技术的不足,本发明提供一种基于因果关系的供应链事理图谱构建方法,通过文本预处理、因果抽取、事件分类、事件表示、事件融合和事件存储,这六个处理过程,以从完整的文本数据中提取出各事件的主体及其之间的因果逻辑演化关系。该方法的具体步骤如下:
一种基于因果关系的供应链事理图谱构建方法,该构建方法步骤如下:
S1:文本预处理;
S2:因果事件解析;
S3:事件分类;
S4:事件抽取;
S5:事件融合;
S6:事件存储,
其中步骤S1将供应链相关文本数据分别进行长句切分、指代消解,并在保留因果关系的基础上进行依存句法分析,提取出长句的三元组信息作为候选句,
其中步骤S2根据因果知识库对供应链相关文本数据的因果关系识别,生成原因事件句子集、结果事件句子集和关联词集,
其中步骤S3将一段文本所抽取的因果事件句子集作为整体,基于TextCNN 算法判断该事件的所属类别,一共定义了4大类别,分别为真实事件、预测事件、规律事件和非事件,
其中步骤S4剔除非事件类型的数据后,基于引入了字+词+词性+依存句法特征的BiLSTM+CRF算法对真实事件、预测事件和规律事件进行事件核心要素抽取,主要定义了供应链相关事件的主体、动作和客体三大要素,
其中步骤S5对供应链相关事件的原因和结果事件分别进行word2vec相似度计算和LDA聚类,并采用马尔科夫链算法结合因果事件类别计算其事件的转移概率,作为事件关系权重值,
其中S6利用Neo4j图数据库存储供应链相关事件核心要素和事件关系,利用mongodb数据库存储事件id和事件源信息。
优选地,其中S1文本预处理具体步骤如下:
S1.1:长句切分;
S1.2:指代消除;
S1.3:依存句法分析,
其中S1.1长句切分,利用篇章级的供应链相关文本数据中的长句切分标点符号及换行符作为分割点,对文本进行切割处理;
其中S1.2指代消解,采用膨胀卷积算法对文本中的指示名词进行指代消解,和设置规则对指示代词进行指代消解;
其中S1.3依存句法分析,根据长句中的依存特征,抽取以谓词为中心的事实三元组;保留因果关系,初步抽取核心事实,剔除长句中其他的冗余噪声数。
优选地,其中S2因果事件解析具体步骤如下:
S2.1:因果知识库建立;
S2.2:因果关系识别,
其中S2.1因果知识库建立,因果知识库由因果联结词库构成,因果联结词即在中文中能够作为因果联结成分的词,
其中S2.2因果关系识别,基于前一步所建立的因果知识库,分别提取出原因事件句子集、结果事件句子集及因果联结词集。
优选地,其中S3事件分类的具体步骤如下:
S3.1:事件类型定义;
S3.2:不平衡类别处理;
S3.3:利用TextCNN算法对事件分类,
其中S3.1事件类型定义,根据事件特性和事件的真实性,预先对事件定义了四个类别:真实事件、预测事件、规律事件和非事件;
其中S3.2不平衡类别处理采用如下两种方法:
(1)增加分类器模型的损失函数权重:通过设置多组不同的损失函数权重进行微调,比较选取获得最好结果的权重;
(2)数据增强:通过语义联想及同义词替换标注事件数据的部分形容词和名词,自动批量生成原小样本数据,
其中S3.3利用TextCNN算法对事件分类,通过一维卷积来获取句子中 n-gram的特征表示。
优选地,其中真实事件定义为原因和结果都为事件,且结果事件是已经真实发生了的;其中预测事件定义为原因和结果都为事件,且结果事件是预测可能会发生的;其中规律事件定义为原因和结果都为事件,根据历史规律或专家观点,推断出的规律事件;其中非事件定义为原因或结果有一个或都不是事件,或原因和结果事件不构成因果关系。
优选地,其中S4事件要素抽取的具体步骤如下:
S4.1:事件要素定义;
S4.2:字+词+词性+依存特征融合;
S4.3:利用BiLSTM+CRF对事件要素进行抽取,
其中S4.1事件要素定义,事件表示是将含有事件信息的非结构化文本以结构化的形式呈现出来,根据事理图谱的研究对象为谓词性事件及其关系,考虑到供应链事件类型的不完备性,将供应链相关事件要素定义为主体、动作、客体三大要素;
其中S4.2字+词+词性+依存特征融合,提取出句子的字、词、词性、依存句法特征,并将其拼接融合后再传入词嵌入层,
其中S4.3利用BiLSTM+CRF对事件要素进行抽取,BiLSTM层预测的所有分数被馈送到CRF层,CRF层则选择具有最高预测分数的标签序列作为最佳答案进行抽取。
优选地,其中S5事件融合的具体步骤如下:
S5.1:Word2vec相似度计算;
S5.2:LDA聚类;
S5.3:Markov Chain概率转移,
其中S5.1Word2vec相似度计算,使用word2vec生成词向量,并计算事件间的相似关系,
其中S5.2LDA聚类,使用LDA进行事件主题模型挖掘,并计算事件主体相似度,
其中S5.3Markov Chain概率转移,使用Markov Chain算法,结合事件类别权重计算事件转移概率,表示事件逻辑关系的演变权重。
优选地,其中S6事件存储的具体步骤如下:
S6.1:Neo4j;
S6.2:Mongodb,
其中S6.1采用Neo4j存储供应链相关事件核心要素和事件关系;
其中S6.2利用mongodb数据库存储供应链相关事件id和事件源信息。
有益效果:本发明提供了一种基于因果关系的供应链事理图谱构建方法,通过构建一个描述供应链事件之间因果关系的供应链事理图谱,揭示事件间的因果逻辑演化规律与模式,有利于帮助判断供应链事件发展方向和结果的可能性,分析供应链管理质量绩效低下的问题,找出原因,进行供应链管理。帮助每个节点企业制定改进措施,完成改进,最终实现供应链管理的效率和效益。本发明不仅采用word2vec和LDA算法对事件进行相似度计算和聚类分析,同时根据供应链因果事件类别设置权重,基于马尔科夫链算法对事件转移概率进行了计算,有助于用户判断事件因果逻辑演化关系的可信力度。本发明将neo4j 图数据库与mongodb数据库相结合,能够有效地分摊数据库存储压力,同时利用其特性可以对图谱进行高效检索。
附图说明
图1为本发明的供应链因果事理图谱构建流程图;
图2为本发明的TextCNN原理图;
图3为本发明的BiLSTM+CRF原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种基于因果关系的供应链事理图谱构建方法,包括如下步骤:
S1:文本预处理;
S2:因果事件解析;
S3:事件分类;
S4:事件抽取;
S5:事件融合;
S6:事件存储,
步骤S1将供应链相关文本数据分别进行长句切分、指代消解,并在保留因果关系的基础上进行依存句法分析,提取出长句的三元组信息作为候选句。
S1文本预处理具体步骤如下:
S1.1:长句切分,利用篇章级的供应链相关文本数据中的长句切分标点符号及换行符作为分割点,对文本进行切割处理;
S1.2:指代消除;采用膨胀卷积算法对文本中的指示名词进行指代消解,和设置规则对指示代词进行指代消解;
S1.3:依存句法分析,根据长句中的依存特征,抽取以谓词为中心的事实三元组;保留因果关系,初步抽取核心事实,剔除长句中其他的冗余噪声数。
步骤S2根据因果知识库对供应链相关文本数据的因果关系识别,生成原因事件句子集、结果事件句子集和关联词集。
S2因果事件解析具体步骤如下:
S2.1:因果知识库建立,因果知识库由因果联结词库构成,因果联结词即在中文中能够作为因果联结成分的词,根据因果事件表达顺序,设为以下两大规则(根据联结词词性又各分为4小类):
规则一:<原因>在前,<结果>在后
(1){原因事件},<连词>{结果事件},例:{下雨了}<因此/故/使得…>{带伞}。
(2){原因事件},<动词>{结果事件},例:{下雨了}<导致/造成/致使…>{带伞}。
(3)<连词>{原因事件},{结果事件},例:<由于/因为/依据…>{下雨了},{带伞}。
(4)<连词1>{原因事件},<连词2>{结果事件},例:<因为/由于/既然…>{下雨了},<所以/因此/就…>{带伞}。
规则二:<结果>在前,<原因>在后
(1){结果事件},<连词>{原因事件},例:{带伞}<因为/因/依据…>{下雨了}。
(2){结果事件},<介词>{原因事件},例:{带伞}<为了/在于/出于…>{下雨了}。
(3){结果事件},<复合词>{原因事件},例:{带伞}<的原因是/的原因有…>{下雨了}。
(4)<连词1>{结果事件},<连词2>{原因事件},例:<所以/因此…>{带伞}, <是因为/是由于…>{下雨了}。
S2.2:因果关系识别,基于前一步所建立的因果知识库,分别提取出原因事件句子集、结果事件句子集及因果联结词集。
步骤S3将一段文本所抽取的因果事件句子集作为整体,基于TextCNN算法判断该事件的所属类别,一共定义了4大类别,分别为真实事件、预测事件、规律事件和非事件。
S3事件分类的具体步骤如下:
S3.1:事件类型定义,根据事件特性和事件的真实性,预先对事件定义了四个类别:真实事件、预测事件、规律事件和非事件,其中:
(1)真实事件:原因和结果都为事件,且结果事件是已经真实发生了的;
(2)预测事件:原因和结果都为事件,且结果事件是预测可能会发生的;
(3)规律事件:原因和结果都为事件,根据历史规律或专家观点,推断出的规律事件;
(4)非事件:原因或结果有一个或都不是事件,或原因和结果事件不构成因果关系。
S3.2:不平衡类别处理,通过对大量的文本进行标注后发现,预测事件和规律事件这两个类别的数据量极少,在生成训练集时,出现严重的数据类别不平衡问题,对此,采用以下两个方法进行处理:
(1)增加分类器模型的损失函数权重:通过设置多组不同的损失函数权重进行微调,比较选取能够获得最好结果的权重;
(2)数据增强:通过语义联想及同义词替换标注事件数据的部分形容词和名词,自动批量生成原小样本数据。
S3.3:利用TextCNN算法对事件分类,对于事件分类问题,最核心的是抽取文本的特征。因为由S2处理后,抽取出的因果事件文本大多是短文本,故本发明使用对文本浅层特征的抽取能力很强的TextCNN算法来实现事件分类。 TextCNN是通过一维卷积来获取句子中n-gram的特征表示,如图2所示,TextCNN 算法的原理图。其中:
(1)Embedding:Textcnn使用预先训练好的词向量作embedding layer。对于数据集里的所有词,因为每个词都可以表征成一个向量,因此我们可以得到一个词嵌入矩阵,词嵌入矩阵里的每一行都是词向量,它既可以是静态 (static)的,也就是固定不变。可以是非静态(non-static)的,也就是可以根据反向传播更新。
(2)Convolution:可以把词向量矩阵看成是一幅图像,使用卷积神经网络去提取特征。由于句子中相邻的单词关联性总是很高的,因此可以使用一维卷积,即文本卷积与图像卷积的不同之处在于只在文本序列的一个方向(垂直) 做卷积,卷积核的宽度固定为词向量的维度d。高度是超参数,可以设置。对句子单词每个可能的窗口做卷积操作得到特征图(feature map)。
(3)Polling:不同尺寸的卷积核得到的特征图(feature map)大小也是不一样的,因此对每个feature map使用池化函数,使它们的维度相同。
(4)FullConnection and Softmax:最后接一层全连接的softmax层,输出每个类别的概率。
步骤S4剔除非事件类型的数据后,基于引入了字+词+词性+依存句法特征的BiLSTM+CRF算法对真实事件、预测事件和规律事件进行事件核心要素抽取,主要定义了供应链相关事件的主体、动作和客体三大要素。
S4事件要素抽取的具体步骤如下:
S4.1:事件要素定义,事件表示是将含有事件信息的非结构化文本以结构化的形式呈现出来,根据事理图谱的研究对象为谓词性事件及其关系,考虑到供应链事件类型的不完备性,将供应链相关事件要素定义为主体、动作、客体三大要素,其中:
1)主体:即表示事件的主体对象,主要说明的人或事物,一般由名词、代词、数词、动名词、动词不定式等充当;
(2)动作:即表示事件的动作、状态或特征、行为;
(3)客体:即表示主体动作行为的对象,跟在及物动词或介词之后,能作宾语的有名词,代词,动名词,数词,动词不定式等。
S4.2:字+词+词性+依存特征融合,在一般的元素识别任务中,多为字或词的形式作为特征传入词嵌入层。但根据中文表达习惯和语法信息,词性及依存句法特征均能够帮助定位事件元素,故此,提取出句子的字、词、词性、依存句法特征,并将其拼接融合后再传入词嵌入层,以助学习到更多的语义特征信息。
S4.3:利用BiLSTM+CRF对事件要素进行抽取,双向循环神经网络(BiLSTM) 的基本思想是提出每一个训练序列向前和向后分别是两个LSTM,而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。BiLSTM后接一个softmax层,可以输出各个label的概率。但是softmax层的输出是相互独立的,虽然BiLSTM学习到了上下文的信息,但是输出相互之间并没有影响,它只是在每一步挑选一个最大概率值的label 输出。这样就会导致如B-Subject后再接一个B-Subject的问题。而CRF中有转移特征,即它会考虑输出label之间的顺序性,所以采用BiLSTM+CRF的方法去抽取事件元素,让CRF作为BiLSTM的输出层。
如图3所示,BiLSTM+CRF的原理图,其中BiLSTM层的输出是每个标签的分数。例如,对于w0,BiLSTM节点的输出为0.9(B-Subject)、0.1(I-Subject)、 0.07(B-Action)、0.06(I-Action)、0.12(B-Object),0.86(I-Object)和 0.7(O)。这些分数将是CRF层的输入。故,BiLSTM层预测的所有分数被馈送到 CRF层,CRF层则选择具有最高预测分数的标签序列作为最佳答案。
步骤S5对供应链相关事件的原因和结果事件分别进行word2vec相似度计算和LDA聚类,并采用马尔科夫链算法结合因果事件类别计算其事件的转移概率,作为事件关系权重值,
S5事件融合的具体步骤如下:
S5.1:Word2vec相似度计算,word2vec是谷歌开源的一种词嵌入工具,它能生成词向量,通过词向量可以很好地度量词与词之间的相似性。word2vec采用的模型包含了连续词袋模型(CBOW)和Skip-Gram模型。通过它可以在大数据量上进行高效训练从而得到词向量。本发明将抽取事件核心要素的事件表示,使用word2vec生成词向量,并计算事件间的相似关系;
S5.2:LDA聚类,隐含狄利克雷分配(Latent Dirichlet Allocation,LDA) 是一种主题模型即从所给文档中挖掘潜在主题。本发明使用LDA进行事件主题模型挖掘,并计算事件主体相似度;
S5.3:Markov Chain概率转移,马尔可夫链(Markov chain,MC)为状态空间中经过从一个状态到另一个状态的转换的随机过程。在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。本发明使用Markov Chain算法,结合事件类别权重(真实事件:1,预测事件0.5,规律事件0.7)来计算事件转移概率,用以表示事件逻辑关系的演变权重。
S6利用Neo4j图数据库存储供应链相关事件核心要素和事件关系,利用 mongodb数据库存储事件id和事件源信息,
S6事件存储的具体步骤如下:
S6.1:Neo4j,Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。本发明采用Neo4j存储供应链相关事件核心要素和事件关系。
S6.2:Mongodb,MongoDB是一个基于分布式文件存储的数据库,Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。利用mongodb数据库存储供应链相关事件id和事件源信息。
首先,本方法结合实际应用,优化了事件分类定义问题,提出了真实事件、预测事件、规律事件和非事件的定义,优化了其应用价值,同时也是有效进行下一步事件抽取和事件概率转移计算的基础。其次,在事件表示的问题中,引入字+词+词性+依存特征,基于BiLSTM+CRF算法进行供应链相关事件核心要素抽取,该方法可扩展性好,且支持各领域内的事件抽取,兼容性强。然后,在事件融合方法中,分别使用Word2vec和LDA算法对事件进行相似性计算和主题聚类,以便对相似事件进行对齐,并使用Markov Chain计算事件转移概率,用以表示供应链相关事件逻辑关系的演变权重。最后,在事件存储方法中,利用了Neo4j图数据库和Mongodb数据库分别存储供应链相关事件核心及事件间的因果关系和事件源,并以事件id将两个数据库进行链接,既优化了事件的存储结构,又可在图谱中扩展事件的源文本,提升了该供应链因果事理图谱的可信度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个引用结构”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于因果关系的供应链事理图谱构建方法,该构建方法步骤如下:
S1:文本预处理;
S2:因果事件解析;
S3:事件分类;
S4:事件抽取;
S5:事件融合;
S6:事件存储,
所述步骤S1将供应链相关文本数据分别进行长句切分、指代消解,并在保留因果关系的基础上进行依存句法分析,提取出长句的三元组信息作为候选句,
所述步骤S2根据因果知识库对供应链相关文本数据的因果关系识别,生成原因事件句子集、结果事件句子集和关联词集,
所述步骤S3将一段文本所抽取的因果事件句子集作为整体,基于TextCNN算法判断该事件的所属类别,一共定义了4大类别,分别为真实事件、预测事件、规律事件和非事件,
所述步骤S4剔除非事件类型的数据后,基于引入了字+词+词性+依存句法特征的BiLSTM+CRF算法对真实事件、预测事件和规律事件进行事件核心要素抽取,主要定义了供应链相关事件的主体、动作和客体三大要素,
所述步骤S5对供应链相关事件的原因和结果事件分别进行word2vec相似度计算和LDA聚类,并采用马尔科夫链算法结合因果事件类别计算其事件的转移概率,作为事件关系权重值,
所述S6利用Neo4j图数据库存储供应链相关事件核心要素和事件关系,利用mongodb数据库存储事件id和事件源信息。
2.根据权利要求1所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述S1文本预处理具体步骤如下:
S1.1:长句切分;
S1.2:指代消除;
S1.3:依存句法分析,
所述S1.1长句切分,利用篇章级的供应链相关文本数据中的长句切分标点符号及换行符作为分割点,对文本进行切割处理;
所述S1.2指代消解,采用膨胀卷积算法对文本中的指示名词进行指代消解,和设置规则对指示代词进行指代消解;
所述S1.3依存句法分析,根据长句中的依存特征,抽取以谓词为中心的事实三元组;保留因果关系,初步抽取核心事实,剔除长句中其他的冗余噪声数。
3.根据权利要求1所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述S2因果事件解析具体步骤如下:
S2.1:因果知识库建立;
S2.2:因果关系识别,
所述S2.1因果知识库建立,因果知识库由因果联结词库构成,因果联结词即在中文中能够作为因果联结成分的词,
所述S2.2因果关系识别,基于前一步所建立的因果知识库,分别提取出原因事件句子集、结果事件句子集及因果联结词集。
4.根据权利要求1所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述S3事件分类的具体步骤如下:
S3.1:事件类型定义;
S3.2:不平衡类别处理;
S3.3:利用TextCNN算法对事件分类,
所述S3.1事件类型定义,根据事件特性和事件的真实性,预先对事件定义了四个类别:真实事件、预测事件、规律事件和非事件;
所述S3.2不平衡类别处理采用如下两种方法:
(1)增加分类器模型的损失函数权重:通过设置多组不同的损失函数权重进行微调,比较选取获得最好结果的权重;
(2)数据增强:通过语义联想及同义词替换标注事件数据的部分形容词和名词,自动批量生成原小样本数据,
所述S3.3利用TextCNN算法对事件分类,通过一维卷积来获取句子中n-gram的特征表示。
5.根据权利要求4所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述真实事件定义为原因和结果都为事件,且结果事件是已经真实发生了的;所述预测事件定义为原因和结果都为事件,且结果事件是预测可能会发生的;所述规律事件定义为原因和结果都为事件,根据历史规律或专家观点,推断出的规律事件;所述非事件定义为原因或结果有一个或都不是事件,或原因和结果事件不构成因果关系。
6.根据权利要求1所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述S4事件要素抽取的具体步骤如下:
S4.1:事件要素定义;
S4.2:字+词+词性+依存特征融合;
S4.3:利用BiLSTM+CRF对事件要素进行抽取,
所述S4.1事件要素定义,事件表示是将含有事件信息的非结构化文本以结构化的形式呈现出来,根据事理图谱的研究对象为谓词性事件及其关系,考虑到供应链事件类型的不完备性,将供应链相关事件要素定义为主体、动作、客体三大要素;
所述S4.2字+词+词性+依存特征融合,提取出句子的字、词、词性、依存句法特征,并将其拼接融合后再传入词嵌入层,
所述S4.3利用BiLSTM+CRF对事件要素进行抽取,BiLSTM层预测的所有分数被馈送到CRF层,CRF层则选择具有最高预测分数的标签序列作为最佳答案进行抽取。
7.根据权利要求1所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述S5事件融合的具体步骤如下:
S5.1:Word2vec相似度计算;
S5.2:LDA聚类;
S5.3:Markov Chain概率转移,
所述S5.1Word2vec相似度计算,使用word2vec生成词向量,并计算事件间的相似关系,
所述S5.2LDA聚类,使用LDA进行事件主题模型挖掘,并计算事件主体相似度,
所述S5.3Markov Chain概率转移,使用Markov Chain算法,结合事件类别权重计算事件转移概率,表示事件逻辑关系的演变权重。
8.根据权利要求1所述一种基于因果关系的供应链事理图谱构建方法,其特征在于,所述S6事件存储的具体步骤如下:
S6.1:Neo4j;
S6.2:Mongodb,
所述S6.1采用Neo4j存储供应链相关事件核心要素和事件关系;
所述S6.2利用mongodb数据库存储供应链相关事件id和事件源信息。
CN202111076868.6A 2021-09-14 2021-09-14 一种基于因果关系的供应链事理图谱构建方法 Pending CN114239828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111076868.6A CN114239828A (zh) 2021-09-14 2021-09-14 一种基于因果关系的供应链事理图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111076868.6A CN114239828A (zh) 2021-09-14 2021-09-14 一种基于因果关系的供应链事理图谱构建方法

Publications (1)

Publication Number Publication Date
CN114239828A true CN114239828A (zh) 2022-03-25

Family

ID=80742973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111076868.6A Pending CN114239828A (zh) 2021-09-14 2021-09-14 一种基于因果关系的供应链事理图谱构建方法

Country Status (1)

Country Link
CN (1) CN114239828A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730660A (zh) * 2023-01-06 2023-03-03 粤港澳大湾区数字经济研究院(福田) 基于因果解耦的链接生成方法和相关装置
CN116578597A (zh) * 2023-07-11 2023-08-11 荣耀终端有限公司 一种原因事件构建方法、电子设备及存储介质
CN116957535A (zh) * 2023-07-07 2023-10-27 华能澜沧江水电股份有限公司 知识图谱驱动的水电工程bim应急响应自动推送方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730660A (zh) * 2023-01-06 2023-03-03 粤港澳大湾区数字经济研究院(福田) 基于因果解耦的链接生成方法和相关装置
CN115730660B (zh) * 2023-01-06 2023-05-16 粤港澳大湾区数字经济研究院(福田) 基于因果解耦的链接生成方法和相关装置
CN116957535A (zh) * 2023-07-07 2023-10-27 华能澜沧江水电股份有限公司 知识图谱驱动的水电工程bim应急响应自动推送方法及系统
CN116578597A (zh) * 2023-07-11 2023-08-11 荣耀终端有限公司 一种原因事件构建方法、电子设备及存储介质
CN116578597B (zh) * 2023-07-11 2024-03-15 荣耀终端有限公司 一种原因事件构建方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Chan et al. A text-based decision support system for financial sequence prediction
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
WO2018151856A1 (en) Intelligent matching system with ontology-aided relation extraction
CN110532328B (zh) 一种文本概念图构造方法
WO2002025479A1 (en) A document categorisation system
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
Yeasmin et al. Study of abstractive text summarization techniques
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Arbaaeen et al. Natural language processing based question answering techniques: A survey
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN112270189B (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN117591969A (zh) 一种基于ipc标签共现的规则检核方法及系统
US11983185B2 (en) Systems and methods for machine learning-based query context generation and query response handling
Nguyen et al. A model of convolutional neural network combined with external knowledge to measure the question similarity for community question answering systems
Girija et al. A comparative review on approaches of aspect level sentiment analysis
Kuttiyapillai et al. Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques
Hao Naive Bayesian Prediction of Japanese Annotated Corpus for Textual Semantic Word Formation Classification
Lei et al. A Multilabel Learning-based Automatic Annotation Method for Semantic Roles in English Text
Bhatnagar et al. A review of common approaches to sentiment analysis and community detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination