CN117114739B

CN117114739B - 一种企业供应链信息挖掘方法、挖掘系统及存储介质

Info

Publication number: CN117114739B
Application number: CN202311270225.4A
Authority: CN
Inventors: 王建; 李�浩; 王佐成; 吕孝忠; 孙昕
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-05-03
Anticipated expiration: 2043-09-27
Also published as: CN117114739A

Abstract

本发明属于数据应用与图谱构建技术领域，尤其涉及一种企业供应链信息挖掘方法、挖掘系统及存储介质。挖掘方法包括：S1，从各大平台抓取财经新闻，并对财经新闻进行预处理后，得到新闻文本数据；S2，分别从各篇新闻文本数据中抽取实体、实体间的关系、时间标记，并形成“第一实体‑时间标记‑关系‑第二实体”的四元组结构，并对抽取模型进行优化；S3，将各四元组结构进行标准化后，输出标准化四元组结构；S4，通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱；且重复S1～S3，产生新的标准化四元组结构，通过新的标准化四元组结构更新网状供应链图谱。本发明对企业的供应链信息进行高效的挖掘，降低挖掘过程中的人工成本。

Description

一种企业供应链信息挖掘方法、挖掘系统及存储介质

技术领域

本发明属于供应链图谱构建技术领域，尤其涉及一种企业供应链信息挖掘方法、挖掘系统及存储介质。

背景技术

供应链是从产品或者服务的供应出发，提高和整合供应商和制造商的供应过程，供应链的连接往往是产业链生成的基础，而产业链条正是多重供应链条的复合体。近年来，随着技术的不断发展和市场竞争的加剧，产业竞争更多的是供应链的竞争，如何持续的挖掘并更新目标企业的供应链信息至关重要。

目前企业供应链信息往往依靠收集包含有企业的财务报表、采购订单、库存记录、物流等信息的财经新闻，并对人工从挖掘财经新闻中的目标企业供应链相关信息再进行整合，最终形成目标企业的供应链。

但是采用人工挖掘财经新闻并整合成目标企业供应链的过程耗时长、人工成本高、时效性差。

发明内容

本发明的目的是克服上述现有技术的不足，提供一种企业供应链信息挖掘方法，能够对目标企业的供应链信息进行高效的挖掘，降低挖掘过程中的人工成本。

为实现上述目的，本发明采用了以下技术方案：

一种企业供应链信息挖掘方法，包括以下步骤：

S1，从各大平台抓取财经新闻，并对财经新闻进行预处理后，得到新闻文本数据；

S2，分别从各篇新闻文本数据中抽取实体、实体间的关系、时间标记，并形成“第一实体-时间标记-关系-第二实体”的四元组结构；并在形成四元组结构的同时，对抽取实体、实体间的关系、时间标记的抽取模型进行优化；

S3，将各四元组结构进行标准化后，输出标准化四元组结构；

S4，通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱；同时重复S1～S3，产生新的标准化四元组结构，通过新的标准化四元组结构更新网状供应链图谱。

优选的，S1中具体还包括以下子步骤：

S11，将从各大平台抓取的财经新闻与新闻数据库内的已存储的财经新闻进行比对，若当前抓取的财经新闻与新闻数据库内已存储的财经新闻内容重复，则丢弃当前财经新闻，否则将当前抓取的财经新闻的副本存储于新闻数据库内，同时，对当前抓取的财经新闻进行数据清洗；

S12，对当前财经新闻进行数据清洗，去除各篇财经新闻中的非法字符，纠正拼写错误后形成新闻文本数据；

非法字符指非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。

优选的，S2中具体还包括以下子步骤：

S21，预先定义实体类型、实体间的关系类型、时间标记；

实体类型为公司名称；实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系；时间标记为实体间的关系类型开始的时间或存续的时间段，若当前新闻文本数据中未记载实体间的关系类型开始的时间或存续的时间段，则以当前新闻文本数据所对应的财经新闻的发布时间作为时间标记；

产品包括原料、部件、销售、技术、物流、存放场地这些供应链中存在的物品或服务；

S22，根据预先定义的实体类型、实体间的关系类型、时间标记，选取若干条新闻文本数据，对这些新闻文本数据中的实体、实体间的关系、时间标记进行人工标注后形成训练数据集，采用具有监督学习算法的抽取模型基于训练数据集进行训练，使用训练后的抽取模型在未标注的新闻文本数据中抽取实体、实体间的关系、时间标记，形成“第一实体-时间标记-关系-第二实体”的四元组结构。

优选的，S22中具体还包括以下子步骤：

S221，选取若干条新闻文本数据，人工标注这些新闻文本数据中的实体、实体间的关系、时间标记在对应新闻文本数据中的索引位置后形成训练数据集，采用监督学习算法的抽取模型基于训练数据集进行初步训练，来训练抽取模型从新闻文本数据中抽取出实体、实体间的关系、时间标记，并输出对应索引位置；

S222，初步训练结束后，使用抽取模型正式进行实体、实体间的关系、时间标记的抽取：

将当前未标注的新闻文本数据送入抽取模型内，抽取模型将当前新闻文本数据从左往右依次转化为对应的内容集C，C＝{C₁，C₂，...，C_j，...，C_m}，其中，Cj表示当前内容集C中的第j位所对应的字符；1≤j≤m，且j、m均为正整数，

抽取模型根据预先定义的实体类型、实体间的关系类型、时间标记，设定当前专利文本数据的提示集P(k)，P(k)＝{P_k1，P_k2，...，P_ki，...，P_kn}，其中，Pi表示提示集P中第i个位置对应的字符，1≤i≤n，且i、n均为正整数，

新闻文本数据的每个汉字、标点均分别对应内容集C内的一个字符，连续的阿拉伯数字对应内容集C内的一个字符；

S223，抽取模型在当前内容集C中抽取N个满足提示集P的四元组结构，将第r个四元组结构，记为S_r，其中1≤r≤N，且r、N均为正整数：

抽取模型基于提示集P在内容集C中确定四元组结构S_r中的第一实体、第二实体、时间标记和关系所对应的单个字符或连续字符，并分别记录当前四元组结构中的第一实体、第二实体、时间标记和关系在内容集C中的四个起始索引位置y^start和四个结束索引位置y^end，再根据各个起始索引位置y^start和结束索引位置y^end在容集C所对应的新闻文本数据中找到文本内容后，输出四元组结构S_r，

内容集C中的连续字符则从左往右起将第一个字符在内容集C中的位置记为起始索引位置y^start，将最后一个字符在内容集C中的位置记为结束索引位置y^end；内容集C中的单个字符Cj所对应的起始索引位置y^start和结束索引位置y^end相同，均为第j位；起始索引位置y^start和结束索引位置y^end对应到新闻文本数据中的位置也从左往右数起；

S224，基于当前新闻文本数据的所输出的四元组结构，计算损失函数，来对抽取模型进行优化。

优选的，S224中具体还包括以下子步骤：

S224a，采用编码器对输入，即提示集P、内容集C进行编码后，输出为隐层向量表示集H，

H＝Encoder([CLS]，P1，P2，...，Pn，[SEP]，C1，C2，...，Cm，[SEP])＝{H1，H2，...，Hk，...，H(m+n+3)}，

其中，[CLS]表示句子的开始字符；[SEP]表示句子间的分割符以及句子的结尾字符；Encoder表示编码器的编码处理，编码处理后的输出与输入的元素个数相同，输入为(m+n+3)个元素，经编码处理后，输出的隐层向量也是(m+n+3)个，Hk表示输出的第k个隐层向量表示，1≤k≤(m+n+3)，且k、m、n均为正整数；

S224b，随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>

S224c，将经过Softmax函数计算，得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据开头的概率向量p_start；将/>经过Softmax函数计算，得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据结尾的概率向量p_end：

S224d，基于当前新闻文本数据和输出的N个四元组结构，计算当前抽取模型的损失函数L_θ：

其中，S_r表示当前新闻文本数据在步骤S222所输出的第r个四元组结构；N为当前新闻文本数据所输出的四元组结构的总个数，其中1≤r≤N，且r、N均为正整数；表示在概率向量p_start里分别取出与四元组结构S_r中的四个起始索引位置y^start相同的维度的向量值，/>表示在概率向量p_end里分别取出与四元组结构S_r中的四个结束索引位置y^end相同的维度的向量值。

S224e，对损失函数L_θ求导后得到梯度方向，再根据梯度下降的方向不断调整抽取模型内的参数，再回到S221，用调整后的抽取模型从下一条新闻文本数据中抽取并形成四元组结构。

优选的，S3中具体还包括以下子步骤：

S31，双塔模型分为共享编码器、比较层、输出层这三个部分，从四元组结构中任意抽取一个实体，作为标准实体，将其余各四元组结构中的实体作为候选实体；将标准实体和候选实体分别送入共享编码器内处理生成对应的表征向量u和v；

S32，将表征向量u和v送至比较层中，通过拼接函数contact得到特征值S，同时计算表征向量u和v的相似性得分SCORE：

S＝concat(u，v，u⊙v)

⊙表示对应位置处相乘；

，其中，u·v表示表征向量u和v进行点乘，|u||v|表示表征向量u的模长乘以表征向量v的模长；

S33，将表征向量u和v的相似性得分SCORE、特征值S送至输出层中，相似性得分SCORE低于输出层的设定阈值，则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体不是同一含义，则输出层直接输出原四元组结构；若相似性得分SCORE在输出层的设定阈值以上，则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体表示同一含义，输出层使用标准实体替代当前候选实体，将当前四元组结构输出为标准化四元组结构，即输出“第一标准实体-时间标记-关系-第二标准实体”后；更换送入共享编码器内的候选实体，重新回到并执行S31。

优选的，S31中还包括以下子步骤：

S311，在共享编码器内预先设定好实体所包含字符的标准长度L，分别将候选实体、标准实体超过标准长度L的部分截断，短于标准长度L的缺位之处补0，将候选实体处理为标准长度L的第一文本d1，将标准实体处理为标准长度L的第二文本d2；

S312，对第一文本d1进行关键点检测，确定起始关键点和结束关键点的索引位置，分别记为x_start、x_end；同时，使用BERT模型分别将第一文本d1、第二文本d2转化为隐藏特征向量h₁、h₂：

h₁＝BERT(d1)＝{h_1，1，...，h_1，t，...，h_1，L}，

h₂＝BERT(d2)＝{h_2，1，...，h_2，t，...，h_2，L}，

隐藏层特征向量h₁、h₂均为L个维度的向量，h_1，t表示第一文本d1中从左往右起第t个字符所对应维度上的隐藏特征向量，h_2，t表示第二文本d2中从左往右起第t个字符所对应维度上的隐藏特征向量；

S313，根据S312中记录的起始关键点索引位置x_start、结束关键点的索引位置x_end在隐藏特征向量h₁中分别找到对应位置的隐藏特征向量将隐藏特征向量以及它们之间的隐藏特征向量取出，形成聚合特征向量h₁′：

其中，x_start≤w≤x_end，且w为正整数，h_1，g′表示聚合特征向量集h₁′中第g个维度上的聚合特征向量值，1≤g＜q，2≤q，且g、q为正整数；

S314，分别对聚合特征向量h₁′、隐藏特征向量h₂分别进行池化操作，生成表征向量u和v：

优选的，在S33后还有步骤S34：

S34，输出层中还包括分类器，分类器使用softmax激活函数对特征值S进行计算，输出当前标准实体和候选实体所对应的概率值p：

其中，表示张量积的计算，W_class表示分类器的权重参数，

再基于概率值p计算双塔模型的损失函数loss:loss＝-∑_c＝1log(p_c)，

将一对表征向量u和v所对应的标准实体和候选实体记为一对标准化样本，p_c表示第c对标准化样本所对应的概率值，再使用Adam优化算法对损失函数loss进行求解，朝着损失函数loss梯度下降方向进行迭代，优化双塔模型的结构，并使用优化后的双塔模型回到并执行S31。

本发明还提供一种企业供应链信息挖掘系统，包括：

抓取模块、预处理模块、抽取模块、标准化模块、图谱生成模块；

抓取模块用于从各大平台抓取财经新闻，并将抓取的财经新闻送至预处理模块内；预处理模块用于对财经新闻进行预处理后生成新闻文本数据后送入抽取模块内；抽取模块从新闻文本数据中抽取实体、实体间的关系、时间标记来形成四元组结构后，送入标准化模块内；标准化模块用于将各四元组结构进行标准化形成标准化四元组结构，输出至图谱生成模块；图谱生成模块基于标准化四元组结构生成/更新网状供应链图谱；

各模块被编程或配置以执行上述的一种企业供应链信息挖掘方法的步骤。

本发明还提供一种计算机可读存储介质，计算机可读存储介质内存储有被编程或配置以执行上述的一种企业供应链信息挖掘方法的计算机程序。

本发明的有益效果在于：

(1)本发明相较于现有技术中，利用人工整合、挖掘财经新闻中的目标企业供应链相关信息，以逐步形成企业供应链而言，本发明通过大量抓取各种平台的财经新闻，并将非结构化财经新闻预处理成新闻文本数据，并从新闻文本数据内高效、准确地抽取与企业供应链直接相关的实体、实体间的关系、时间标记，以形成“第一实体-时间标记-关系-第二实体”的四元组结构，再将四元组结构标准化，以避免不同新闻中对同一企业有不同称呼的影响，最终将标准化四元组结构相同的实体进行合并来构成结构状的网状供应链图谱，并根据标准化四元组结构的时间顺序，不断更新网状供应链图谱。

(2)本发明在从当前新闻文本数据中抽取并形成四元组结构的同时，直接利用生成的四元组结构来计算当前抽取模型的损失函数，基于损失函数来优化从新一条新闻文本数据中抽取并形成四元组结构的抽取模型，提高四元组结构中实体、实体间的关系、时间标记的准确性，缩短输出四元组结构的时间。也即本发明不仅可以及时从新发布的财经新闻中得到目标企业具有时效性的四元组结构，而且在得到目标企业的四元组结构的过程中，也在不断提高后续生成的四元组结构的准确性和效率。

(3)本发明对双塔模型进行了创新，在判断标准实体与候选实体是否为同一含义的过程中，结合了关键点检测，进一步缩小了候选实体的关键信息，进行了表征信息的聚合，保留主要特征的同时减少参数和计算量；再将与标准实体为同一含义的候选实体替换成标准实体，转化为标准化四元组结构再输出的同时，也直接利用当前标准实体与候选实体来计算当前双塔模型的损失函数，基于损失函数优化双塔模型，进一步提高双塔模型判断候选实体与标准实体是否为同一含义的准确性，以及提高输出标准化四元组结构的效率，解决了四元组结构中相同实体因名称不同而影响后续网状供应链图谱的问题。

(4)本发明的一种企业供应链信息挖掘方法，可以对目标企业的供应链信息进行高效的挖掘，大大缩短对目标企业供应链信息挖掘的周期，降低挖掘过程中的人工成本，且挖掘形成的网状供应链图谱不仅结构性强、便于查看，且准确性高，还因本发明具备实时更新的功能，使得本发明的网状供应链图谱具有极高的时效性，为各企业的市场开拓，或竞品公司的供应链分析提供了坚实的基础。

附图说明

图1为本发明的一种企业供应链信息挖掘方法的流程图；

图2为本发明供应链信息挖掘方法与人工挖掘之间的效率对比折线图；

图3为本发明供应链信息挖掘方法与人工挖掘所得到供应链信息的准确率对比折线图；

图4为本发明一种企业供应链信息挖掘方法所得到的示例网状供应链图谱。

具体实施方式

为使本发明的技术方案更加清晰明确，下面结合附图对本发明进行清楚、完整地描述，本领域普通技术人员在没有做出创造性劳动前提下对本发明技术方案的技术特征进行等价替换和常规推理得出的方案均落入本发明的保护范围。

如图1所示的一种企业供应链信息挖掘方法的流程图，包括以下步骤：

在S1中，还包括以下子步骤：

S11，将从各大平台抓取的财经新闻与新闻数据库内的已存储的财经新闻进行比对，若当前抓取的财经新闻与新闻数据库内已存储的财经新闻内容重复，则丢弃当前财经新闻，否则将当前抓取的财经新闻的副本存储于新闻数据库内，同时，对当前抓取的财经新闻进行数据清洗。

在S11中，新闻数据库的存在用于对新抓取的财经新闻进行预处理的第一步，也就是去重，内容重复的财经新闻只有一篇能够保留在新闻数据库内，这避免了同一篇财经新闻在后续步骤中被重复的处理，达到减少计算开销和内存占用的目的。

本实施例中，抓取财经新闻的平台包括但不限于新浪财经新闻，华尔街见闻，东方财富新闻。

S12，对当前财经新闻进行数据清洗，去除各篇财经新闻中的非法字符，纠正拼写错误后形成新闻文本数据。

非法字符指空格、图片、下划线、反斜杠等非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。

对各篇财经新闻进行数据清洗后，可以将财经新闻转化为高准确性、高完整性的新闻文本数据，便于后续抽取实体和实体间的关系。

在本实施例中，一篇财经新闻形成一条新闻文本数据。

在S2中，还包括以下子步骤：

S21，预先定义实体类型、实体间的关系类型、时间标记，本发明中的实体类型为公司名称；实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系；时间标记为实体间的关系类型开始的时间或存续的时间段，若当前新闻文本数据中未记载实体间的关系类型开始的时间或存续的时间段，则以当前新闻文本数据所对应的财经新闻的发布时间作为时间标记。

产品供应关系的定义为：第一实体为第二实体提供产品。

否定产品供应关系：第一实体否认为第二实体提供产品。

潜在产品供应关系：第一实体在未来可能为第二实体提供产品。

产品包括但不限于原料、部件、销售、技术、物流、存放场地这些供应链中存在的物品或服务。

在S22中，还包括以下用于详细描述从当前新闻文本数据中抽取并形成四元组结构的子步骤：

将当前未标注的新闻文本数据送入抽取模型内，抽取模型将当前新闻文本数据从左往右依次转化为对应的内容集C，C＝{C₁,C₂,...,C_j,...,C_m}，其中，Cj表示当前内容集C中的第j位所对应的字符；1≤j≤m，且j、m均为正整数；

抽取模型根据预先定义的实体类型、实体间的关系类型、时间标记，设定当前专利文本数据的提示集P(k)，P(k)＝{P_k1,P_k2,...,P_ki,...,P_kn}，其中,Pi表示提示集P中第i个位置对应的字符,1≤i≤n，且i、n均为正整数；

本实施例中，新闻文本数据的每个汉字、标点均分别对应内容集C内的一个字符，连续的阿拉伯数字对应内容集C内的一个字符。

例如：当前新闻文本数据为“福耀玻璃12月30日在互动平台上表示，公司为上海特斯拉提供车窗及三角窗汽车玻璃”，则内容集C＝{C1,C2,...,Cj,...,C36}＝{福,耀,玻,璃,12,月,30,日,在,互,动,平,台,上,表,示,，,公,司,为,上,海,特,斯,拉,提,供,车,窗,及,三,角,窗,汽,车,玻,璃}。

提示集P所包含的内容是技术人员根据四元组结构预先设定的字符提取规则，本发明中也就是公司名称，实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系中的任意一种，以及时间标记。

S223，抽取模型在当前内容集C中抽取N个满足提示集P的四元组结构，将第r个四元组结构，记为S_r,其中1≤r≤N，且r、N均为正整数：

抽取模型基于提示集P在内容集C中确定四元组结构S_r中的第一实体、第二实体、时间标记和关系所对应的单个字符或连续字符，并分别记录当前四元组结构中的第一实体、第二实体、时间标记和关系在内容集C中的四个起始索引位置y^start和四个结束索引位置y^end，再根据各个起始索引位置y^start和结束索引位置y^end在容集C所对应的新闻文本数据中找到文本内容后，输出四元组结构S_r。

内容集C中的单个字符Cj所对应的起始索引位置y^start和结束索引位置y^end相同，均为第j位；而内容集C中的连续字符则从左往右起将第一个字符在内容集C中的位置记为起始索引位置y^start，将最后一个字符在内容集C中的位置记为结束索引位置y^end；起始索引位置y^start和结束索引位置y^end对应到新闻文本数据中的位置也是从左往右数起。

如连续字符“Cj，C(j+1)，C(j+2)”的起始索引位置y^start为第j位，结束索引位置y^end为第(j+2)位。

以“福耀玻璃12月30日在互动平台上表示，公司为上海特斯拉提供车窗及三角窗汽车玻璃”为例，其内容集C中不存在否定产品供应关系和潜在产品供应关系，当提示集P中的实体间的关系类型为否定产品供应关系时，抽取模型不会输出基于当前内容集C在该提示集P下的四元组结构。

基于训练集训练采用监督学习算法的抽取模型为现有技术，这里不再赘述。

在S224中还包括以下子步骤：

其中，[CLS]表示句子的开始字符；[SEP]表示句子间的分割符以及句子的结尾字符；Encoder表示编码器的编码处理，编码处理后的输出与输入的元素个数相同，本发明中，输入为(m+n+3)个元素，经编码处理后，输出的隐层向量也是(m+n+3)个，Hk表示输出的第k个隐层向量表示，1≤k≤(m+n+3)，且k、m、n均为正整数。

采用编码器对输入进行编码处理为现有技术，这里不再赘述。

在本发明中，随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>以及基于线性权重法进行映射均为现有技术，这里不再赘述。

本实施例中，根据梯度下降的方向所不断调整抽取模型内的参数包括：将提示集P、内容集C内的字符转化成向量形式的编码参数；如何基于提示集P来确定内容集C中各四元组结构里的4种起始索引位置y^start和4种结束索引位置y^end的抽取参数等。

本发明在从当前新闻文本数据中抽取并形成四元组结构的同时，直接利用生成的四元组结构来计算当前抽取模型的损失函数，基于损失函数来优化从新一条新闻文本数据中抽取并形成四元组结构的抽取模型，提高四元组结构中实体、实体间的关系、时间标记的准确性，缩短输出四元组结构的时间。也即本发明不仅可以及时从新发布的财经新闻中得到目标企业具有时效性的四元组结构，而且在得到目标企业的四元组结构的过程中，也在不断提高后续生成的四元组结构的准确性和效率。

在执行S22及其子步骤之后，虽然形成了“第一实体-时间标记-关系-第二实体”的四元组结构，但是相同的实体，也就是同一个企业，会因为最初的财经新闻撰写人习惯不同，而存在不同的企业名称，这就不利于后续我们将各四元组结构中相同的实体进行合并来构成网状供应链图谱。比如“福耀”，在不同的四元组结构中，对应的企业名称就有“福耀玻璃工业集团股份有限公司”、“江苏福耀汽车饰件有限公司”等，所以，本发明在步骤S3中将各四元组结构进行标准化，使不同四元组结构中相同实体的公司名称相同。

在S3中还包括以下内容：

S31，双塔模型分为共享编码器、比较层、输出层这三个部分，从四元组结构中任意抽取一个实体，作为标准实体，将其余各四元组结构中的实体作为候选实体；将标准实体和候选实体分别送入共享编码器内处理生成对应的表征向量u和v。

在S31中还包括以下子步骤：

S311，在共享编码器内预先设定好实体所包含字符的标准长度L，分别将候选实体、标准实体超过标准长度L的部分截断，短于标准长度L的缺位之处补0，将候选实体处理为标准长度L的第一文本d1,将标准实体处理为标准长度L的第二文本d2；

h₁＝BERT(d1)＝{h_1，1，...，h_1，t，...，h_1，L}，

h₂＝BERT(d2)＝{h_2，1，...，h_2，t，...，h_2，L}，

隐藏层特征向量h₁、h₂均为L个维度的向量，h_1，t表示第一文本d1中从左往右起第t个字符所对应维度上的隐藏特征向量，h_2，t表示第二文本d2中从左往右起第t个字符所对应维度上的隐藏特征向量。

其中，x_start≤w≤x_end，且w为正整数，h_1，g′表示聚合特征向量集h₁′中第g个维度上的聚合特征向量值，1≤g＜q，2≤q，且g、q为正整数。

因为隐藏特征向量h₂源自于第二文本d2，而第二文本d2是源自于标准实体，所以隐藏特征向量h₂不需要如S313输出聚合特征向量。

S＝concat(u，v，u⊙v)

其中，⊙表示对应位置处相乘；

，其中，u·v表示表征向量u和v进行点乘，|u||v|表示表征向量u的模长乘以表征向量v的模长。

本实施例中输出层的设定阈值为0.7。

可选的，在S33后还有步骤S34：

其中，表示张量积的计算，W_class表示分类器的权重参数，W_class由技术人员根据双塔模型的标准化效果进行设定，

本发明对双塔模型进行了创新，在判断标准实体与候选实体是否为同一含义的过程中，结合了关键点检测，进一步缩小了候选实体的关键信息，进行了表征信息的聚合，保留主要特征的同时减少参数和计算量；再将与标准实体为同一含义的候选实体替换成标准实体，转化为标准化四元组结构再输出的同时，也直接利用当前标准实体与候选实体来计算当前双塔模型的损失函数，基于损失函数优化双塔模型，进一步提高双塔模型判断候选实体与标准实体是否为同一含义的准确性，以及提高输出标准化四元组结构的效率，解决了四元组结构中相同实体因名称不同而影响后续网状供应链图谱的问题。

在步骤S4中还包括以下子步骤：

S41，将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱；

S42，重复S1～S3，若新产生的标准化四元组结构中所包含的第一实体或第二实体不存在于当前网状供应链图谱内，则将第一实体或第二实体与当前网状供应链图谱内已存在的实体进行合并，以扩展当前网状供应链图谱；若新产生的标准化四元组结构中所包含的第一实体和第二实体均已存在于当前网状供应链图谱内，但新产生的标准化四元组结构中所包含的第一实体和第二实体的关系不同于当前网状供应链图谱内对应已存在的两个实体间的关系，则比较新产生的标准化四元组结构所包含的时间信息是否晚于当前网状供应链图谱内对应相同的两个实体间关系的时间信息，若早于，则丢弃新产生的标准化四元组结构，若晚于，则将网状供应链图谱内对应相同的两个实体间的关系替换成新产生的标准化四元组结构中第一实体和第二实体间的关系，以更新当前网状供应链图谱。

相较于现有技术中，利用人工整合、挖掘财经新闻中的目标企业供应链相关信息，以逐步形成企业供应链而言，本发明通过大量抓取各种平台的财经新闻，并将非结构化财经新闻预处理成新闻文本数据，并从新闻文本数据内高效、准确地抽取与企业供应链直接相关的实体、实体间的关系、时间标记，以形成“第一实体-时间标记-关系-第二实体”的四元组结构，再将四元组结构标准化，以避免不同新闻中对同一企业有不同称呼的影响，最终将标准化四元组结构相同的实体进行合并来构成结构状的网状供应链图谱，并根据标准化四元组结构的时间顺序，不断更新网状供应链图谱。本发明的一种企业供应链信息挖掘方法，可以对目标企业的供应链信息进行高效的挖掘，大大缩短对目标企业供应链信息挖掘的周期，降低挖掘过程中的人工成本，且挖掘形成的网状供应链图谱不仅结构性强、便于查看，且准确性高，还因本发明具备实时更新的功能，使得本发明的网状供应链图谱具有极高的时效性，为各企业的市场开拓，或竞品公司的供应链分析提供了坚实的基础。

例如：

第一条新闻文本数据“福耀玻璃2019年12月30日在互动平台上表示，公司为上海特斯拉提供车窗及三角窗汽车玻璃”。

第二条新闻文本数据“宁德时代为特斯拉供应动力电池”，该财经新闻发布日期为2022年2月17日。

第三条新闻文本数据“金力永磁为特斯拉供应电机磁钢”，该财经新闻发布日期为2021年9月22日。

本发明的企业供应链信息挖掘方法会先基于这三条新闻文本数据，对应生成“福耀玻璃-2019年12月30日-提供车窗及三角窗汽车玻璃-上海特斯拉”、“宁德时代-2022年2月17日-供应动力电池-特斯拉”、“金力永磁-2021年9月22日-供应电机磁钢-特斯拉”这三个四元组结构；再将各四元组结构标准化后，输出为“福耀玻璃-2019年12月30日-提供车窗及三角窗汽车玻璃-特斯拉”、“宁德时代-2022年2月17日-供应动力电池-特斯拉”、“金力永磁-2021年9月22日-供应电机磁钢-特斯拉”这三个标准四元组结构，最后将各个标准化四元组结构中相同的实体，即“特斯拉”进行合并来构成网状供应链图谱，如图4所示。

任意抓取500篇财经新闻，分别采用本发明的企业供应链信息挖掘方法和人工挖掘的方法，来形成目标企业的网状供应链图谱/供应链信息，以高质量、多次复核的人工检验结果为标准，分别得到如图2所示的本发明供应链信息挖掘方法与人工挖掘之间的效率对比折线图，以及图3所示的本发明供应链信息挖掘方法与人工挖掘所得到供应链信息的准确率对比折线图，从图2～图3可以直观的看出，采用本发明的企业供应链信息挖掘方法进行企业的供应链信息挖掘，得到供应链信息的效率明显高于人工挖掘；随着财经新闻数量(即基础信息量)的增多，所得到供应链信息的准确性也在不断稳定提升，尤其是在财经新闻数量(即基础信息量)超过300条后，其准确性明显超过人工挖掘，而人工挖掘所得到的供应链信息准确率不稳定，这与人工挖掘的评判标准不统一有关系，并且随着财经新闻数量(即基础信息量)增大，人工挖掘的准确性明显降低。

本发明还提供一种企业供应链信息挖掘系统，包括：

抓取模块用于从各大平台抓取财经新闻，并将抓取的财经新闻送至预处理模块内；

预处理模块用于对财经新闻进行预处理后生成新闻文本数据后送入抽取模块内；

抽取模块从新闻文本数据中抽取实体、实体间的关系、时间标记来形成四元组结构后，送入标准化模块内；

标准化模块用于将各四元组结构进行标准化形成标准化四元组结构，输出至图谱生成模块；

图谱生成模块基于标准化四元组结构生成/更新网状供应链图谱；

各模块被编程或配置以执行上述企业供应链信息挖掘方法的步骤。

本发明还提供一种计算机可读存储介质，存储有被编程或配置以执行上述企业供应链信息挖掘方法的计算机程序。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种企业供应链信息挖掘方法，其特征在于，包括以下步骤：

S4，通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱；同时重复S1～S3，产生新的标准化四元组结构，通过新的标准化四元组结构更新网状供应链图谱；

S1中具体还包括以下子步骤：

非法字符指非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符；

S2中具体还包括以下子步骤：

S21，预先定义实体类型、实体间的关系类型、时间标记；

S22，根据预先定义的实体类型、实体间的关系类型、时间标记，选取若干条新闻文本数据，对这些新闻文本数据中的实体、实体间的关系、时间标记进行人工标注后形成训练数据集，采用具有监督学习算法的抽取模型基于训练数据集进行训练，使用训练后的抽取模型在未标注的新闻文本数据中抽取实体、实体间的关系、时间标记，形成“第一实体-时间标记-关系-第二实体”的四元组结构；

S22中具体还包括以下子步骤：

将当前未标注的新闻文本数据送入抽取模型内，抽取模型将当前新闻文本数据从左往右依次转化为对应的内容集C，C＝{C₁,C₂,...,C_j,...,Cm}，其中，Cj表示当前内容集C中的第j位所对应的字符；1≤j≤m，且j、m均为正整数，

抽取模型根据预先定义的实体类型、实体间的关系类型、时间标记，设定当前专利文本数据的提示集P，P＝{P₁,P₂,...,P_i,...,P_n}，其中，P_i表示提示集P中第i个位置对应的字符，1≤i≤n，且i、n均为正整数，

S224，基于当前新闻文本数据的所输出的四元组结构，计算损失函数，来对抽取模型进行优化；

S224中具体还包括以下子步骤：

H＝Encoder([CLS],P1,P2,...,Pn,[SEP],C1,C2,...,Cm,[SEP])＝{H1,H2,...,Hk,...,H(m+n+3)},

S224b，随机初始化得到开始空间的线性变化权重结束空间的线性变化权重将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>

S224c，将经过Softmax函数计算，得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据开头的概率向量p_start；将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据结尾的概率向量p_end：

其中，S_r表示当前新闻文本数据在步骤S223所输出的第r个四元组结构；N为当前新闻文本数据所输出的四元组结构的总个数，其中1≤r≤N，且r、N均为正整数；表示在概率向量p_start里分别取出与四元组结构S_r中的四个起始索引位置y^start相同的维度的向量值，/>表示在概率向量p_end里分别取出与四元组结构S_r中的四个结束索引位置y^end相同的维度的向量值。

2.根权利要求1所述的一种企业供应链信息挖掘方法，其特征在于，S3中具体还包括以下子步骤：

S＝concat(u,v,u⊙v)

其中，⊙表示对应位置处相乘；

3.根权利要求2所述的一种企业供应链信息挖掘方法，其特征在于，S31中还包括以下子步骤：

h₁＝BERT(d1)＝{h_1,1,…,h_1,t,…,h_1,L}，

h₂＝BERT(d2)＝{h_2,1,…,h_2,t,…,h_2,L}，

隐藏层特征向量h₁、h₂均为L个维度的向量，h_1,t表示第一文本d1中从左往右起第t个字符所对应维度上的隐藏特征向量，h_2,t表示第二文本d2中从左往右起第t个字符所对应维度上的隐藏特征向量；

S313，根据S312中记录的起始关键点索引位置x_start、结束关键点的索引位置x_end在隐藏特征向量h₁中分别找到对应位置的隐藏特征向量将隐藏特征向量以及它们之间的隐藏特征向量取出，形成聚合特征向量h₁'：

其中，x_start≤w≤x_end，且w为正整数，h_1,g'表示聚合特征向量集h₁'中第g个维度上的聚合特征向量值，1≤g＜q，2≤q，且g、q为正整数；

S314，分别对聚合特征向量h₁'、隐藏特征向量h₂分别进行池化操作，生成表征向量u和v：

4.根权利要求3所述的一种企业供应链信息挖掘方法，其特征在于，在S33后还有步骤S34：

其中，表示张量积的计算，W_class表示分类器的权重参数，

将一对表征向量u和v所对应的标准实体和候选实体记为一对标准化样本，p_c表示第c对标准化样本所对应的概率值p，再使用Adam优化算法对损失函数loss进行求解，朝着损失函数loss梯度下降方向进行迭代，优化双塔模型的结构，并使用优化后的双塔模型回到并执行S31。

5.一种企业供应链信息挖掘系统，其特征在于，包括：

各模块被编程或配置以执行如权利要求1-4中任意一项所述的一种企业供应链信息挖掘方法的步骤。

6.一种计算机可读存储介质，其特征在于：计算机可读存储介质存储有被编程或配置以执行如权利要求1-4中任意一项所述的一种企业供应链信息挖掘方法的计算机程序。