CN117114739B - 一种企业供应链信息挖掘方法、挖掘系统及存储介质 - Google Patents
一种企业供应链信息挖掘方法、挖掘系统及存储介质 Download PDFInfo
- Publication number
- CN117114739B CN117114739B CN202311270225.4A CN202311270225A CN117114739B CN 117114739 B CN117114739 B CN 117114739B CN 202311270225 A CN202311270225 A CN 202311270225A CN 117114739 B CN117114739 B CN 117114739B
- Authority
- CN
- China
- Prior art keywords
- entity
- news
- text data
- entities
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005065 mining Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 67
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 118
- 230000006870 function Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 25
- 238000012512 characterization method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000002994 raw material Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 3
- 238000009412 basement excavation Methods 0.000 abstract 1
- 239000011521 glass Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据应用与图谱构建技术领域,尤其涉及一种企业供应链信息挖掘方法、挖掘系统及存储介质。挖掘方法包括:S1,从各大平台抓取财经新闻,并对财经新闻进行预处理后,得到新闻文本数据;S2,分别从各篇新闻文本数据中抽取实体、实体间的关系、时间标记,并形成“第一实体‑时间标记‑关系‑第二实体”的四元组结构,并对抽取模型进行优化;S3,将各四元组结构进行标准化后,输出标准化四元组结构;S4,通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱;且重复S1~S3,产生新的标准化四元组结构,通过新的标准化四元组结构更新网状供应链图谱。本发明对企业的供应链信息进行高效的挖掘,降低挖掘过程中的人工成本。
Description
技术领域
本发明属于供应链图谱构建技术领域,尤其涉及一种企业供应链信息挖掘方法、挖掘系统及存储介质。
背景技术
供应链是从产品或者服务的供应出发,提高和整合供应商和制造商的供应过程,供应链的连接往往是产业链生成的基础,而产业链条正是多重供应链条的复合体。近年来,随着技术的不断发展和市场竞争的加剧,产业竞争更多的是供应链的竞争,如何持续的挖掘并更新目标企业的供应链信息至关重要。
目前企业供应链信息往往依靠收集包含有企业的财务报表、采购订单、库存记录、物流等信息的财经新闻,并对人工从挖掘财经新闻中的目标企业供应链相关信息再进行整合,最终形成目标企业的供应链。
但是采用人工挖掘财经新闻并整合成目标企业供应链的过程耗时长、人工成本高、时效性差。
发明内容
本发明的目的是克服上述现有技术的不足,提供一种企业供应链信息挖掘方法,能够对目标企业的供应链信息进行高效的挖掘,降低挖掘过程中的人工成本。
为实现上述目的,本发明采用了以下技术方案:
一种企业供应链信息挖掘方法,包括以下步骤:
S1,从各大平台抓取财经新闻,并对财经新闻进行预处理后,得到新闻文本数据;
S2,分别从各篇新闻文本数据中抽取实体、实体间的关系、时间标记,并形成“第一实体-时间标记-关系-第二实体”的四元组结构;并在形成四元组结构的同时,对抽取实体、实体间的关系、时间标记的抽取模型进行优化;
S3,将各四元组结构进行标准化后,输出标准化四元组结构;
S4,通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱;同时重复S1~S3,产生新的标准化四元组结构,通过新的标准化四元组结构更新网状供应链图谱。
优选的,S1中具体还包括以下子步骤:
S11,将从各大平台抓取的财经新闻与新闻数据库内的已存储的财经新闻进行比对,若当前抓取的财经新闻与新闻数据库内已存储的财经新闻内容重复,则丢弃当前财经新闻,否则将当前抓取的财经新闻的副本存储于新闻数据库内,同时,对当前抓取的财经新闻进行数据清洗;
S12,对当前财经新闻进行数据清洗,去除各篇财经新闻中的非法字符,纠正拼写错误后形成新闻文本数据;
非法字符指非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。
优选的,S2中具体还包括以下子步骤:
S21,预先定义实体类型、实体间的关系类型、时间标记;
实体类型为公司名称;实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系;时间标记为实体间的关系类型开始的时间或存续的时间段,若当前新闻文本数据中未记载实体间的关系类型开始的时间或存续的时间段,则以当前新闻文本数据所对应的财经新闻的发布时间作为时间标记;
产品包括原料、部件、销售、技术、物流、存放场地这些供应链中存在的物品或服务;
S22,根据预先定义的实体类型、实体间的关系类型、时间标记,选取若干条新闻文本数据,对这些新闻文本数据中的实体、实体间的关系、时间标记进行人工标注后形成训练数据集,采用具有监督学习算法的抽取模型基于训练数据集进行训练,使用训练后的抽取模型在未标注的新闻文本数据中抽取实体、实体间的关系、时间标记,形成“第一实体-时间标记-关系-第二实体”的四元组结构。
优选的,S22中具体还包括以下子步骤:
S221,选取若干条新闻文本数据,人工标注这些新闻文本数据中的实体、实体间的关系、时间标记在对应新闻文本数据中的索引位置后形成训练数据集,采用监督学习算法的抽取模型基于训练数据集进行初步训练,来训练抽取模型从新闻文本数据中抽取出实体、实体间的关系、时间标记,并输出对应索引位置;
S222,初步训练结束后,使用抽取模型正式进行实体、实体间的关系、时间标记的抽取:
将当前未标注的新闻文本数据送入抽取模型内,抽取模型将当前新闻文本数据从左往右依次转化为对应的内容集C,C={C1,C2,...,Cj,...,Cm},其中,Cj表示当前内容集C中的第j位所对应的字符;1≤j≤m,且j、m均为正整数,
抽取模型根据预先定义的实体类型、实体间的关系类型、时间标记,设定当前专利文本数据的提示集P(k),P(k)={Pk1,Pk2,...,Pki,...,Pkn},其中,Pi表示提示集P中第i个位置对应的字符,1≤i≤n,且i、n均为正整数,
新闻文本数据的每个汉字、标点均分别对应内容集C内的一个字符,连续的阿拉伯数字对应内容集C内的一个字符;
S223,抽取模型在当前内容集C中抽取N个满足提示集P的四元组结构,将第r个四元组结构,记为Sr,其中1≤r≤N,且r、N均为正整数:
抽取模型基于提示集P在内容集C中确定四元组结构Sr中的第一实体、第二实体、时间标记和关系所对应的单个字符或连续字符,并分别记录当前四元组结构中的第一实体、第二实体、时间标记和关系在内容集C中的四个起始索引位置ystart和四个结束索引位置yend,再根据各个起始索引位置ystart和结束索引位置yend在容集C所对应的新闻文本数据中找到文本内容后,输出四元组结构Sr,
内容集C中的连续字符则从左往右起将第一个字符在内容集C中的位置记为起始索引位置ystart,将最后一个字符在内容集C中的位置记为结束索引位置yend;内容集C中的单个字符Cj所对应的起始索引位置ystart和结束索引位置yend相同,均为第j位;起始索引位置ystart和结束索引位置yend对应到新闻文本数据中的位置也从左往右数起;
S224,基于当前新闻文本数据的所输出的四元组结构,计算损失函数,来对抽取模型进行优化。
优选的,S224中具体还包括以下子步骤:
S224a,采用编码器对输入,即提示集P、内容集C进行编码后,输出为隐层向量表示集H,
H=Encoder([CLS],P1,P2,...,Pn,[SEP],C1,C2,...,Cm,[SEP])={H1,H2,...,Hk,...,H(m+n+3)},
其中,[CLS]表示句子的开始字符;[SEP]表示句子间的分割符以及句子的结尾字符;Encoder表示编码器的编码处理,编码处理后的输出与输入的元素个数相同,输入为(m+n+3)个元素,经编码处理后,输出的隐层向量也是(m+n+3)个,Hk表示输出的第k个隐层向量表示,1≤k≤(m+n+3),且k、m、n均为正整数;
S224b,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>
S224c,将经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据开头的概率向量pstart;将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据结尾的概率向量pend:
S224d,基于当前新闻文本数据和输出的N个四元组结构,计算当前抽取模型的损失函数Lθ:
其中,Sr表示当前新闻文本数据在步骤S222所输出的第r个四元组结构;N为当前新闻文本数据所输出的四元组结构的总个数,其中1≤r≤N,且r、N均为正整数;表示在概率向量pstart里分别取出与四元组结构Sr中的四个起始索引位置ystart相同的维度的向量值,/>表示在概率向量pend里分别取出与四元组结构Sr中的四个结束索引位置yend相同的维度的向量值。
S224e,对损失函数Lθ求导后得到梯度方向,再根据梯度下降的方向不断调整抽取模型内的参数,再回到S221,用调整后的抽取模型从下一条新闻文本数据中抽取并形成四元组结构。
优选的,S3中具体还包括以下子步骤:
S31,双塔模型分为共享编码器、比较层、输出层这三个部分,从四元组结构中任意抽取一个实体,作为标准实体,将其余各四元组结构中的实体作为候选实体;将标准实体和候选实体分别送入共享编码器内处理生成对应的表征向量u和v;
S32,将表征向量u和v送至比较层中,通过拼接函数contact得到特征值S,同时计算表征向量u和v的相似性得分SCORE:
S=concat(u,v,u⊙v)
⊙表示对应位置处相乘;
,其中,u·v表示表征向量u和v进行点乘,|u||v|表示表征向量u的模长乘以表征向量v的模长;
S33,将表征向量u和v的相似性得分SCORE、特征值S送至输出层中,相似性得分SCORE低于输出层的设定阈值,则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体不是同一含义,则输出层直接输出原四元组结构;若相似性得分SCORE在输出层的设定阈值以上,则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体表示同一含义,输出层使用标准实体替代当前候选实体,将当前四元组结构输出为标准化四元组结构,即输出“第一标准实体-时间标记-关系-第二标准实体”后;更换送入共享编码器内的候选实体,重新回到并执行S31。
优选的,S31中还包括以下子步骤:
S311,在共享编码器内预先设定好实体所包含字符的标准长度L,分别将候选实体、标准实体超过标准长度L的部分截断,短于标准长度L的缺位之处补0,将候选实体处理为标准长度L的第一文本d1,将标准实体处理为标准长度L的第二文本d2;
S312,对第一文本d1进行关键点检测,确定起始关键点和结束关键点的索引位置,分别记为xstart、xend;同时,使用BERT模型分别将第一文本d1、第二文本d2转化为隐藏特征向量h1、h2:
h1=BERT(d1)={h1,1,...,h1,t,...,h1,L},
h2=BERT(d2)={h2,1,...,h2,t,...,h2,L},
隐藏层特征向量h1、h2均为L个维度的向量,h1,t表示第一文本d1中从左往右起第t个字符所对应维度上的隐藏特征向量,h2,t表示第二文本d2中从左往右起第t个字符所对应维度上的隐藏特征向量;
S313,根据S312中记录的起始关键点索引位置xstart、结束关键点的索引位置xend在隐藏特征向量h1中分别找到对应位置的隐藏特征向量将隐藏特征向量以及它们之间的隐藏特征向量取出,形成聚合特征向量h1′:
其中,xstart≤w≤xend,且w为正整数,h1,g′表示聚合特征向量集h1′中第g个维度上的聚合特征向量值,1≤g<q,2≤q,且g、q为正整数;
S314,分别对聚合特征向量h1′、隐藏特征向量h2分别进行池化操作,生成表征向量u和v:
优选的,在S33后还有步骤S34:
S34,输出层中还包括分类器,分类器使用softmax激活函数对特征值S进行计算,输出当前标准实体和候选实体所对应的概率值p:
其中,表示张量积的计算,Wclass表示分类器的权重参数,
再基于概率值p计算双塔模型的损失函数loss:loss=-∑c=1log(pc),
将一对表征向量u和v所对应的标准实体和候选实体记为一对标准化样本,pc表示第c对标准化样本所对应的概率值,再使用Adam优化算法对损失函数loss进行求解,朝着损失函数loss梯度下降方向进行迭代,优化双塔模型的结构,并使用优化后的双塔模型回到并执行S31。
本发明还提供一种企业供应链信息挖掘系统,包括:
抓取模块、预处理模块、抽取模块、标准化模块、图谱生成模块;
抓取模块用于从各大平台抓取财经新闻,并将抓取的财经新闻送至预处理模块内;预处理模块用于对财经新闻进行预处理后生成新闻文本数据后送入抽取模块内;抽取模块从新闻文本数据中抽取实体、实体间的关系、时间标记来形成四元组结构后,送入标准化模块内;标准化模块用于将各四元组结构进行标准化形成标准化四元组结构,输出至图谱生成模块;图谱生成模块基于标准化四元组结构生成/更新网状供应链图谱;
各模块被编程或配置以执行上述的一种企业供应链信息挖掘方法的步骤。
本发明还提供一种计算机可读存储介质,计算机可读存储介质内存储有被编程或配置以执行上述的一种企业供应链信息挖掘方法的计算机程序。
本发明的有益效果在于:
(1)本发明相较于现有技术中,利用人工整合、挖掘财经新闻中的目标企业供应链相关信息,以逐步形成企业供应链而言,本发明通过大量抓取各种平台的财经新闻,并将非结构化财经新闻预处理成新闻文本数据,并从新闻文本数据内高效、准确地抽取与企业供应链直接相关的实体、实体间的关系、时间标记,以形成“第一实体-时间标记-关系-第二实体”的四元组结构,再将四元组结构标准化,以避免不同新闻中对同一企业有不同称呼的影响,最终将标准化四元组结构相同的实体进行合并来构成结构状的网状供应链图谱,并根据标准化四元组结构的时间顺序,不断更新网状供应链图谱。
(2)本发明在从当前新闻文本数据中抽取并形成四元组结构的同时,直接利用生成的四元组结构来计算当前抽取模型的损失函数,基于损失函数来优化从新一条新闻文本数据中抽取并形成四元组结构的抽取模型,提高四元组结构中实体、实体间的关系、时间标记的准确性,缩短输出四元组结构的时间。也即本发明不仅可以及时从新发布的财经新闻中得到目标企业具有时效性的四元组结构,而且在得到目标企业的四元组结构的过程中,也在不断提高后续生成的四元组结构的准确性和效率。
(3)本发明对双塔模型进行了创新,在判断标准实体与候选实体是否为同一含义的过程中,结合了关键点检测,进一步缩小了候选实体的关键信息,进行了表征信息的聚合,保留主要特征的同时减少参数和计算量;再将与标准实体为同一含义的候选实体替换成标准实体,转化为标准化四元组结构再输出的同时,也直接利用当前标准实体与候选实体来计算当前双塔模型的损失函数,基于损失函数优化双塔模型,进一步提高双塔模型判断候选实体与标准实体是否为同一含义的准确性,以及提高输出标准化四元组结构的效率,解决了四元组结构中相同实体因名称不同而影响后续网状供应链图谱的问题。
(4)本发明的一种企业供应链信息挖掘方法,可以对目标企业的供应链信息进行高效的挖掘,大大缩短对目标企业供应链信息挖掘的周期,降低挖掘过程中的人工成本,且挖掘形成的网状供应链图谱不仅结构性强、便于查看,且准确性高,还因本发明具备实时更新的功能,使得本发明的网状供应链图谱具有极高的时效性,为各企业的市场开拓,或竞品公司的供应链分析提供了坚实的基础。
附图说明
图1为本发明的一种企业供应链信息挖掘方法的流程图;
图2为本发明供应链信息挖掘方法与人工挖掘之间的效率对比折线图;
图3为本发明供应链信息挖掘方法与人工挖掘所得到供应链信息的准确率对比折线图;
图4为本发明一种企业供应链信息挖掘方法所得到的示例网状供应链图谱。
具体实施方式
为使本发明的技术方案更加清晰明确,下面结合附图对本发明进行清楚、完整地描述,本领域普通技术人员在没有做出创造性劳动前提下对本发明技术方案的技术特征进行等价替换和常规推理得出的方案均落入本发明的保护范围。
如图1所示的一种企业供应链信息挖掘方法的流程图,包括以下步骤:
S1,从各大平台抓取财经新闻,并对财经新闻进行预处理后,得到新闻文本数据;
S2,分别从各篇新闻文本数据中抽取实体、实体间的关系、时间标记,并形成“第一实体-时间标记-关系-第二实体”的四元组结构;并在形成四元组结构的同时,对抽取实体、实体间的关系、时间标记的抽取模型进行优化;
S3,将各四元组结构进行标准化后,输出标准化四元组结构;
S4,通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱;同时重复S1~S3,产生新的标准化四元组结构,通过新的标准化四元组结构更新网状供应链图谱。
在S1中,还包括以下子步骤:
S11,将从各大平台抓取的财经新闻与新闻数据库内的已存储的财经新闻进行比对,若当前抓取的财经新闻与新闻数据库内已存储的财经新闻内容重复,则丢弃当前财经新闻,否则将当前抓取的财经新闻的副本存储于新闻数据库内,同时,对当前抓取的财经新闻进行数据清洗。
在S11中,新闻数据库的存在用于对新抓取的财经新闻进行预处理的第一步,也就是去重,内容重复的财经新闻只有一篇能够保留在新闻数据库内,这避免了同一篇财经新闻在后续步骤中被重复的处理,达到减少计算开销和内存占用的目的。
本实施例中,抓取财经新闻的平台包括但不限于新浪财经新闻,华尔街见闻,东方财富新闻。
S12,对当前财经新闻进行数据清洗,去除各篇财经新闻中的非法字符,纠正拼写错误后形成新闻文本数据。
非法字符指空格、图片、下划线、反斜杠等非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。
对各篇财经新闻进行数据清洗后,可以将财经新闻转化为高准确性、高完整性的新闻文本数据,便于后续抽取实体和实体间的关系。
在本实施例中,一篇财经新闻形成一条新闻文本数据。
在S2中,还包括以下子步骤:
S21,预先定义实体类型、实体间的关系类型、时间标记,本发明中的实体类型为公司名称;实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系;时间标记为实体间的关系类型开始的时间或存续的时间段,若当前新闻文本数据中未记载实体间的关系类型开始的时间或存续的时间段,则以当前新闻文本数据所对应的财经新闻的发布时间作为时间标记。
产品供应关系的定义为:第一实体为第二实体提供产品。
否定产品供应关系:第一实体否认为第二实体提供产品。
潜在产品供应关系:第一实体在未来可能为第二实体提供产品。
产品包括但不限于原料、部件、销售、技术、物流、存放场地这些供应链中存在的物品或服务。
S22,根据预先定义的实体类型、实体间的关系类型、时间标记,选取若干条新闻文本数据,对这些新闻文本数据中的实体、实体间的关系、时间标记进行人工标注后形成训练数据集,采用具有监督学习算法的抽取模型基于训练数据集进行训练,使用训练后的抽取模型在未标注的新闻文本数据中抽取实体、实体间的关系、时间标记,形成“第一实体-时间标记-关系-第二实体”的四元组结构。
在S22中,还包括以下用于详细描述从当前新闻文本数据中抽取并形成四元组结构的子步骤:
S221,选取若干条新闻文本数据,人工标注这些新闻文本数据中的实体、实体间的关系、时间标记在对应新闻文本数据中的索引位置后形成训练数据集,采用监督学习算法的抽取模型基于训练数据集进行初步训练,来训练抽取模型从新闻文本数据中抽取出实体、实体间的关系、时间标记,并输出对应索引位置;
S222,初步训练结束后,使用抽取模型正式进行实体、实体间的关系、时间标记的抽取:
将当前未标注的新闻文本数据送入抽取模型内,抽取模型将当前新闻文本数据从左往右依次转化为对应的内容集C,C={C1,C2,...,Cj,...,Cm},其中,Cj表示当前内容集C中的第j位所对应的字符;1≤j≤m,且j、m均为正整数;
抽取模型根据预先定义的实体类型、实体间的关系类型、时间标记,设定当前专利文本数据的提示集P(k),P(k)={Pk1,Pk2,...,Pki,...,Pkn},其中,Pi表示提示集P中第i个位置对应的字符,1≤i≤n,且i、n均为正整数;
本实施例中,新闻文本数据的每个汉字、标点均分别对应内容集C内的一个字符,连续的阿拉伯数字对应内容集C内的一个字符。
例如:当前新闻文本数据为“福耀玻璃12月30日在互动平台上表示,公司为上海特斯拉提供车窗及三角窗汽车玻璃”,则内容集C={C1,C2,...,Cj,...,C36}={福,耀,玻,璃,12,月,30,日,在,互,动,平,台,上,表,示,,,公,司,为,上,海,特,斯,拉,提,供,车,窗,及,三,角,窗,汽,车,玻,璃}。
提示集P所包含的内容是技术人员根据四元组结构预先设定的字符提取规则,本发明中也就是公司名称,实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系中的任意一种,以及时间标记。
S223,抽取模型在当前内容集C中抽取N个满足提示集P的四元组结构,将第r个四元组结构,记为Sr,其中1≤r≤N,且r、N均为正整数:
抽取模型基于提示集P在内容集C中确定四元组结构Sr中的第一实体、第二实体、时间标记和关系所对应的单个字符或连续字符,并分别记录当前四元组结构中的第一实体、第二实体、时间标记和关系在内容集C中的四个起始索引位置ystart和四个结束索引位置yend,再根据各个起始索引位置ystart和结束索引位置yend在容集C所对应的新闻文本数据中找到文本内容后,输出四元组结构Sr。
内容集C中的单个字符Cj所对应的起始索引位置ystart和结束索引位置yend相同,均为第j位;而内容集C中的连续字符则从左往右起将第一个字符在内容集C中的位置记为起始索引位置ystart,将最后一个字符在内容集C中的位置记为结束索引位置yend;起始索引位置ystart和结束索引位置yend对应到新闻文本数据中的位置也是从左往右数起。
如连续字符“Cj,C(j+1),C(j+2)”的起始索引位置ystart为第j位,结束索引位置yend为第(j+2)位。
以“福耀玻璃12月30日在互动平台上表示,公司为上海特斯拉提供车窗及三角窗汽车玻璃”为例,其内容集C中不存在否定产品供应关系和潜在产品供应关系,当提示集P中的实体间的关系类型为否定产品供应关系时,抽取模型不会输出基于当前内容集C在该提示集P下的四元组结构。
基于训练集训练采用监督学习算法的抽取模型为现有技术,这里不再赘述。
S224,基于当前新闻文本数据的所输出的四元组结构,计算损失函数,来对抽取模型进行优化。
在S224中还包括以下子步骤:
S224a,采用编码器对输入,即提示集P、内容集C进行编码后,输出为隐层向量表示集H,
H=Encoder([CLS],P1,P2,...,Pn,[SEP],C1,C2,...,Cm,[SEP])={H1,H2,...,Hk,...,H(m+n+3)},
其中,[CLS]表示句子的开始字符;[SEP]表示句子间的分割符以及句子的结尾字符;Encoder表示编码器的编码处理,编码处理后的输出与输入的元素个数相同,本发明中,输入为(m+n+3)个元素,经编码处理后,输出的隐层向量也是(m+n+3)个,Hk表示输出的第k个隐层向量表示,1≤k≤(m+n+3),且k、m、n均为正整数。
采用编码器对输入进行编码处理为现有技术,这里不再赘述。
S224b,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>
在本发明中,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>以及基于线性权重法进行映射均为现有技术,这里不再赘述。
S224c,将经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据开头的概率向量pstart;将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据结尾的概率向量pend:
S224d,基于当前新闻文本数据和输出的N个四元组结构,计算当前抽取模型的损失函数Lθ:
其中,Sr表示当前新闻文本数据在步骤S222所输出的第r个四元组结构;N为当前新闻文本数据所输出的四元组结构的总个数,其中1≤r≤N,且r、N均为正整数;表示在概率向量pstart里分别取出与四元组结构Sr中的四个起始索引位置ystart相同的维度的向量值,/>表示在概率向量pend里分别取出与四元组结构Sr中的四个结束索引位置yend相同的维度的向量值。
S224e,对损失函数Lθ求导后得到梯度方向,再根据梯度下降的方向不断调整抽取模型内的参数,再回到S221,用调整后的抽取模型从下一条新闻文本数据中抽取并形成四元组结构。
本实施例中,根据梯度下降的方向所不断调整抽取模型内的参数包括:将提示集P、内容集C内的字符转化成向量形式的编码参数;如何基于提示集P来确定内容集C中各四元组结构里的4种起始索引位置ystart和4种结束索引位置yend的抽取参数等。
本发明在从当前新闻文本数据中抽取并形成四元组结构的同时,直接利用生成的四元组结构来计算当前抽取模型的损失函数,基于损失函数来优化从新一条新闻文本数据中抽取并形成四元组结构的抽取模型,提高四元组结构中实体、实体间的关系、时间标记的准确性,缩短输出四元组结构的时间。也即本发明不仅可以及时从新发布的财经新闻中得到目标企业具有时效性的四元组结构,而且在得到目标企业的四元组结构的过程中,也在不断提高后续生成的四元组结构的准确性和效率。
在执行S22及其子步骤之后,虽然形成了“第一实体-时间标记-关系-第二实体”的四元组结构,但是相同的实体,也就是同一个企业,会因为最初的财经新闻撰写人习惯不同,而存在不同的企业名称,这就不利于后续我们将各四元组结构中相同的实体进行合并来构成网状供应链图谱。比如“福耀”,在不同的四元组结构中,对应的企业名称就有“福耀玻璃工业集团股份有限公司”、“江苏福耀汽车饰件有限公司”等,所以,本发明在步骤S3中将各四元组结构进行标准化,使不同四元组结构中相同实体的公司名称相同。
在S3中还包括以下内容:
S31,双塔模型分为共享编码器、比较层、输出层这三个部分,从四元组结构中任意抽取一个实体,作为标准实体,将其余各四元组结构中的实体作为候选实体;将标准实体和候选实体分别送入共享编码器内处理生成对应的表征向量u和v。
在S31中还包括以下子步骤:
S311,在共享编码器内预先设定好实体所包含字符的标准长度L,分别将候选实体、标准实体超过标准长度L的部分截断,短于标准长度L的缺位之处补0,将候选实体处理为标准长度L的第一文本d1,将标准实体处理为标准长度L的第二文本d2;
S312,对第一文本d1进行关键点检测,确定起始关键点和结束关键点的索引位置,分别记为xstart、xend;同时,使用BERT模型分别将第一文本d1、第二文本d2转化为隐藏特征向量h1、h2:
h1=BERT(d1)={h1,1,...,h1,t,...,h1,L},
h2=BERT(d2)={h2,1,...,h2,t,...,h2,L},
隐藏层特征向量h1、h2均为L个维度的向量,h1,t表示第一文本d1中从左往右起第t个字符所对应维度上的隐藏特征向量,h2,t表示第二文本d2中从左往右起第t个字符所对应维度上的隐藏特征向量。
S313,根据S312中记录的起始关键点索引位置xstart、结束关键点的索引位置xend在隐藏特征向量h1中分别找到对应位置的隐藏特征向量将隐藏特征向量以及它们之间的隐藏特征向量取出,形成聚合特征向量h1′:
其中,xstart≤w≤xend,且w为正整数,h1,g′表示聚合特征向量集h1′中第g个维度上的聚合特征向量值,1≤g<q,2≤q,且g、q为正整数。
S314,分别对聚合特征向量h1′、隐藏特征向量h2分别进行池化操作,生成表征向量u和v:
因为隐藏特征向量h2源自于第二文本d2,而第二文本d2是源自于标准实体,所以隐藏特征向量h2不需要如S313输出聚合特征向量。
S32,将表征向量u和v送至比较层中,通过拼接函数contact得到特征值S,同时计算表征向量u和v的相似性得分SCORE:
S=concat(u,v,u⊙v)
其中,⊙表示对应位置处相乘;
,其中,u·v表示表征向量u和v进行点乘,|u||v|表示表征向量u的模长乘以表征向量v的模长。
S33,将表征向量u和v的相似性得分SCORE、特征值S送至输出层中,相似性得分SCORE低于输出层的设定阈值,则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体不是同一含义,则输出层直接输出原四元组结构;若相似性得分SCORE在输出层的设定阈值以上,则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体表示同一含义,输出层使用标准实体替代当前候选实体,将当前四元组结构输出为标准化四元组结构,即输出“第一标准实体-时间标记-关系-第二标准实体”后;更换送入共享编码器内的候选实体,重新回到并执行S31。
本实施例中输出层的设定阈值为0.7。
可选的,在S33后还有步骤S34:
S34,输出层中还包括分类器,分类器使用softmax激活函数对特征值S进行计算,输出当前标准实体和候选实体所对应的概率值p:
其中,表示张量积的计算,Wclass表示分类器的权重参数,Wclass由技术人员根据双塔模型的标准化效果进行设定,
再基于概率值p计算双塔模型的损失函数loss:loss=-∑c=1log(pc),
将一对表征向量u和v所对应的标准实体和候选实体记为一对标准化样本,pc表示第c对标准化样本所对应的概率值,再使用Adam优化算法对损失函数loss进行求解,朝着损失函数loss梯度下降方向进行迭代,优化双塔模型的结构,并使用优化后的双塔模型回到并执行S31。
本发明对双塔模型进行了创新,在判断标准实体与候选实体是否为同一含义的过程中,结合了关键点检测,进一步缩小了候选实体的关键信息,进行了表征信息的聚合,保留主要特征的同时减少参数和计算量;再将与标准实体为同一含义的候选实体替换成标准实体,转化为标准化四元组结构再输出的同时,也直接利用当前标准实体与候选实体来计算当前双塔模型的损失函数,基于损失函数优化双塔模型,进一步提高双塔模型判断候选实体与标准实体是否为同一含义的准确性,以及提高输出标准化四元组结构的效率,解决了四元组结构中相同实体因名称不同而影响后续网状供应链图谱的问题。
在步骤S4中还包括以下子步骤:
S41,将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱;
S42,重复S1~S3,若新产生的标准化四元组结构中所包含的第一实体或第二实体不存在于当前网状供应链图谱内,则将第一实体或第二实体与当前网状供应链图谱内已存在的实体进行合并,以扩展当前网状供应链图谱;若新产生的标准化四元组结构中所包含的第一实体和第二实体均已存在于当前网状供应链图谱内,但新产生的标准化四元组结构中所包含的第一实体和第二实体的关系不同于当前网状供应链图谱内对应已存在的两个实体间的关系,则比较新产生的标准化四元组结构所包含的时间信息是否晚于当前网状供应链图谱内对应相同的两个实体间关系的时间信息,若早于,则丢弃新产生的标准化四元组结构,若晚于,则将网状供应链图谱内对应相同的两个实体间的关系替换成新产生的标准化四元组结构中第一实体和第二实体间的关系,以更新当前网状供应链图谱。
相较于现有技术中,利用人工整合、挖掘财经新闻中的目标企业供应链相关信息,以逐步形成企业供应链而言,本发明通过大量抓取各种平台的财经新闻,并将非结构化财经新闻预处理成新闻文本数据,并从新闻文本数据内高效、准确地抽取与企业供应链直接相关的实体、实体间的关系、时间标记,以形成“第一实体-时间标记-关系-第二实体”的四元组结构,再将四元组结构标准化,以避免不同新闻中对同一企业有不同称呼的影响,最终将标准化四元组结构相同的实体进行合并来构成结构状的网状供应链图谱,并根据标准化四元组结构的时间顺序,不断更新网状供应链图谱。本发明的一种企业供应链信息挖掘方法,可以对目标企业的供应链信息进行高效的挖掘,大大缩短对目标企业供应链信息挖掘的周期,降低挖掘过程中的人工成本,且挖掘形成的网状供应链图谱不仅结构性强、便于查看,且准确性高,还因本发明具备实时更新的功能,使得本发明的网状供应链图谱具有极高的时效性,为各企业的市场开拓,或竞品公司的供应链分析提供了坚实的基础。
例如:
第一条新闻文本数据“福耀玻璃2019年12月30日在互动平台上表示,公司为上海特斯拉提供车窗及三角窗汽车玻璃”。
第二条新闻文本数据“宁德时代为特斯拉供应动力电池”,该财经新闻发布日期为2022年2月17日。
第三条新闻文本数据“金力永磁为特斯拉供应电机磁钢”,该财经新闻发布日期为2021年9月22日。
本发明的企业供应链信息挖掘方法会先基于这三条新闻文本数据,对应生成“福耀玻璃-2019年12月30日-提供车窗及三角窗汽车玻璃-上海特斯拉”、“宁德时代-2022年2月17日-供应动力电池-特斯拉”、“金力永磁-2021年9月22日-供应电机磁钢-特斯拉”这三个四元组结构;再将各四元组结构标准化后,输出为“福耀玻璃-2019年12月30日-提供车窗及三角窗汽车玻璃-特斯拉”、“宁德时代-2022年2月17日-供应动力电池-特斯拉”、“金力永磁-2021年9月22日-供应电机磁钢-特斯拉”这三个标准四元组结构,最后将各个标准化四元组结构中相同的实体,即“特斯拉”进行合并来构成网状供应链图谱,如图4所示。
任意抓取500篇财经新闻,分别采用本发明的企业供应链信息挖掘方法和人工挖掘的方法,来形成目标企业的网状供应链图谱/供应链信息,以高质量、多次复核的人工检验结果为标准,分别得到如图2所示的本发明供应链信息挖掘方法与人工挖掘之间的效率对比折线图,以及图3所示的本发明供应链信息挖掘方法与人工挖掘所得到供应链信息的准确率对比折线图,从图2~图3可以直观的看出,采用本发明的企业供应链信息挖掘方法进行企业的供应链信息挖掘,得到供应链信息的效率明显高于人工挖掘;随着财经新闻数量(即基础信息量)的增多,所得到供应链信息的准确性也在不断稳定提升,尤其是在财经新闻数量(即基础信息量)超过300条后,其准确性明显超过人工挖掘,而人工挖掘所得到的供应链信息准确率不稳定,这与人工挖掘的评判标准不统一有关系,并且随着财经新闻数量(即基础信息量)增大,人工挖掘的准确性明显降低。
本发明还提供一种企业供应链信息挖掘系统,包括:
抓取模块、预处理模块、抽取模块、标准化模块、图谱生成模块;
抓取模块用于从各大平台抓取财经新闻,并将抓取的财经新闻送至预处理模块内;
预处理模块用于对财经新闻进行预处理后生成新闻文本数据后送入抽取模块内;
抽取模块从新闻文本数据中抽取实体、实体间的关系、时间标记来形成四元组结构后,送入标准化模块内;
标准化模块用于将各四元组结构进行标准化形成标准化四元组结构,输出至图谱生成模块;
图谱生成模块基于标准化四元组结构生成/更新网状供应链图谱;
各模块被编程或配置以执行上述企业供应链信息挖掘方法的步骤。
本发明还提供一种计算机可读存储介质,存储有被编程或配置以执行上述企业供应链信息挖掘方法的计算机程序。
本发明未详细描述的技术、形状、构造部分均为公知技术。
Claims (6)
1.一种企业供应链信息挖掘方法,其特征在于,包括以下步骤:
S1,从各大平台抓取财经新闻,并对财经新闻进行预处理后,得到新闻文本数据;
S2,分别从各篇新闻文本数据中抽取实体、实体间的关系、时间标记,并形成“第一实体-时间标记-关系-第二实体”的四元组结构;并在形成四元组结构的同时,对抽取实体、实体间的关系、时间标记的抽取模型进行优化;
S3,将各四元组结构进行标准化后,输出标准化四元组结构;
S4,通过将各个标准化四元组结构中相同的实体进行合并来构成网状供应链图谱;同时重复S1~S3,产生新的标准化四元组结构,通过新的标准化四元组结构更新网状供应链图谱;
S1中具体还包括以下子步骤:
S11,将从各大平台抓取的财经新闻与新闻数据库内的已存储的财经新闻进行比对,若当前抓取的财经新闻与新闻数据库内已存储的财经新闻内容重复,则丢弃当前财经新闻,否则将当前抓取的财经新闻的副本存储于新闻数据库内,同时,对当前抓取的财经新闻进行数据清洗;
S12,对当前财经新闻进行数据清洗,去除各篇财经新闻中的非法字符,纠正拼写错误后形成新闻文本数据;
非法字符指非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符;
S2中具体还包括以下子步骤:
S21,预先定义实体类型、实体间的关系类型、时间标记;
实体类型为公司名称;实体间的关系类型为产品供应关系、否定产品供应关系、潜在产品供应关系;时间标记为实体间的关系类型开始的时间或存续的时间段,若当前新闻文本数据中未记载实体间的关系类型开始的时间或存续的时间段,则以当前新闻文本数据所对应的财经新闻的发布时间作为时间标记;
产品包括原料、部件、销售、技术、物流、存放场地这些供应链中存在的物品或服务;
S22,根据预先定义的实体类型、实体间的关系类型、时间标记,选取若干条新闻文本数据,对这些新闻文本数据中的实体、实体间的关系、时间标记进行人工标注后形成训练数据集,采用具有监督学习算法的抽取模型基于训练数据集进行训练,使用训练后的抽取模型在未标注的新闻文本数据中抽取实体、实体间的关系、时间标记,形成“第一实体-时间标记-关系-第二实体”的四元组结构;
S22中具体还包括以下子步骤:
S221,选取若干条新闻文本数据,人工标注这些新闻文本数据中的实体、实体间的关系、时间标记在对应新闻文本数据中的索引位置后形成训练数据集,采用监督学习算法的抽取模型基于训练数据集进行初步训练,来训练抽取模型从新闻文本数据中抽取出实体、实体间的关系、时间标记,并输出对应索引位置;
S222,初步训练结束后,使用抽取模型正式进行实体、实体间的关系、时间标记的抽取:
将当前未标注的新闻文本数据送入抽取模型内,抽取模型将当前新闻文本数据从左往右依次转化为对应的内容集C,C={C1,C2,...,Cj,...,Cm},其中,Cj表示当前内容集C中的第j位所对应的字符;1≤j≤m,且j、m均为正整数,
抽取模型根据预先定义的实体类型、实体间的关系类型、时间标记,设定当前专利文本数据的提示集P,P={P1,P2,...,Pi,...,Pn},其中,Pi表示提示集P中第i个位置对应的字符,1≤i≤n,且i、n均为正整数,
新闻文本数据的每个汉字、标点均分别对应内容集C内的一个字符,连续的阿拉伯数字对应内容集C内的一个字符;
S223,抽取模型在当前内容集C中抽取N个满足提示集P的四元组结构,将第r个四元组结构,记为Sr,其中1≤r≤N,且r、N均为正整数:
抽取模型基于提示集P在内容集C中确定四元组结构Sr中的第一实体、第二实体、时间标记和关系所对应的单个字符或连续字符,并分别记录当前四元组结构中的第一实体、第二实体、时间标记和关系在内容集C中的四个起始索引位置ystart和四个结束索引位置yend,再根据各个起始索引位置ystart和结束索引位置yend在容集C所对应的新闻文本数据中找到文本内容后,输出四元组结构Sr,
内容集C中的连续字符则从左往右起将第一个字符在内容集C中的位置记为起始索引位置ystart,将最后一个字符在内容集C中的位置记为结束索引位置yend;内容集C中的单个字符Cj所对应的起始索引位置ystart和结束索引位置yend相同,均为第j位;起始索引位置ystart和结束索引位置yend对应到新闻文本数据中的位置也从左往右数起;
S224,基于当前新闻文本数据的所输出的四元组结构,计算损失函数,来对抽取模型进行优化;
S224中具体还包括以下子步骤:
S224a,采用编码器对输入,即提示集P、内容集C进行编码后,输出为隐层向量表示集H,
H=Encoder([CLS],P1,P2,...,Pn,[SEP],C1,C2,...,Cm,[SEP])={H1,H2,...,Hk,...,H(m+n+3)},
其中,[CLS]表示句子的开始字符;[SEP]表示句子间的分割符以及句子的结尾字符;Encoder表示编码器的编码处理,编码处理后的输出与输入的元素个数相同,输入为(m+n+3)个元素,经编码处理后,输出的隐层向量也是(m+n+3)个,Hk表示输出的第k个隐层向量表示,1≤k≤(m+n+3),且k、m、n均为正整数;
S224b,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>
S224c,将经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据开头的概率向量pstart;将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Hk属于当前新闻文本数据结尾的概率向量pend:
S224d,基于当前新闻文本数据和输出的N个四元组结构,计算当前抽取模型的损失函数Lθ:
其中,Sr表示当前新闻文本数据在步骤S223所输出的第r个四元组结构;N为当前新闻文本数据所输出的四元组结构的总个数,其中1≤r≤N,且r、N均为正整数;表示在概率向量pstart里分别取出与四元组结构Sr中的四个起始索引位置ystart相同的维度的向量值,/>表示在概率向量pend里分别取出与四元组结构Sr中的四个结束索引位置yend相同的维度的向量值。
S224e,对损失函数Lθ求导后得到梯度方向,再根据梯度下降的方向不断调整抽取模型内的参数,再回到S221,用调整后的抽取模型从下一条新闻文本数据中抽取并形成四元组结构。
2.根权利要求1所述的一种企业供应链信息挖掘方法,其特征在于,S3中具体还包括以下子步骤:
S31,双塔模型分为共享编码器、比较层、输出层这三个部分,从四元组结构中任意抽取一个实体,作为标准实体,将其余各四元组结构中的实体作为候选实体;将标准实体和候选实体分别送入共享编码器内处理生成对应的表征向量u和v;
S32,将表征向量u和v送至比较层中,通过拼接函数contact得到特征值S,同时计算表征向量u和v的相似性得分SCORE:
S=concat(u,v,u⊙v)
其中,⊙表示对应位置处相乘;
,其中,u·v表示表征向量u和v进行点乘,|u||v|表示表征向量u的模长乘以表征向量v的模长;
S33,将表征向量u和v的相似性得分SCORE、特征值S送至输出层中,相似性得分SCORE低于输出层的设定阈值,则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体不是同一含义,则输出层直接输出原四元组结构;若相似性得分SCORE在输出层的设定阈值以上,则输出层判定第一文本d1和第二文本d2对应的标准实体与候选实体表示同一含义,输出层使用标准实体替代当前候选实体,将当前四元组结构输出为标准化四元组结构,即输出“第一标准实体-时间标记-关系-第二标准实体”后;更换送入共享编码器内的候选实体,重新回到并执行S31。
3.根权利要求2所述的一种企业供应链信息挖掘方法,其特征在于,S31中还包括以下子步骤:
S311,在共享编码器内预先设定好实体所包含字符的标准长度L,分别将候选实体、标准实体超过标准长度L的部分截断,短于标准长度L的缺位之处补0,将候选实体处理为标准长度L的第一文本d1,将标准实体处理为标准长度L的第二文本d2;
S312,对第一文本d1进行关键点检测,确定起始关键点和结束关键点的索引位置,分别记为xstart、xend;同时,使用BERT模型分别将第一文本d1、第二文本d2转化为隐藏特征向量h1、h2:
h1=BERT(d1)={h1,1,…,h1,t,…,h1,L},
h2=BERT(d2)={h2,1,…,h2,t,…,h2,L},
隐藏层特征向量h1、h2均为L个维度的向量,h1,t表示第一文本d1中从左往右起第t个字符所对应维度上的隐藏特征向量,h2,t表示第二文本d2中从左往右起第t个字符所对应维度上的隐藏特征向量;
S313,根据S312中记录的起始关键点索引位置xstart、结束关键点的索引位置xend在隐藏特征向量h1中分别找到对应位置的隐藏特征向量将隐藏特征向量以及它们之间的隐藏特征向量取出,形成聚合特征向量h1':
其中,xstart≤w≤xend,且w为正整数,h1,g'表示聚合特征向量集h1'中第g个维度上的聚合特征向量值,1≤g<q,2≤q,且g、q为正整数;
S314,分别对聚合特征向量h1'、隐藏特征向量h2分别进行池化操作,生成表征向量u和v:
4.根权利要求3所述的一种企业供应链信息挖掘方法,其特征在于,在S33后还有步骤S34:
S34,输出层中还包括分类器,分类器使用softmax激活函数对特征值S进行计算,输出当前标准实体和候选实体所对应的概率值p:
其中,表示张量积的计算,Wclass表示分类器的权重参数,
再基于概率值p计算双塔模型的损失函数loss:loss=-∑c=1log(pc),
将一对表征向量u和v所对应的标准实体和候选实体记为一对标准化样本,pc表示第c对标准化样本所对应的概率值p,再使用Adam优化算法对损失函数loss进行求解,朝着损失函数loss梯度下降方向进行迭代,优化双塔模型的结构,并使用优化后的双塔模型回到并执行S31。
5.一种企业供应链信息挖掘系统,其特征在于,包括:
抓取模块、预处理模块、抽取模块、标准化模块、图谱生成模块;
抓取模块用于从各大平台抓取财经新闻,并将抓取的财经新闻送至预处理模块内;
预处理模块用于对财经新闻进行预处理后生成新闻文本数据后送入抽取模块内;
抽取模块从新闻文本数据中抽取实体、实体间的关系、时间标记来形成四元组结构后,送入标准化模块内;
标准化模块用于将各四元组结构进行标准化形成标准化四元组结构,输出至图谱生成模块;
图谱生成模块基于标准化四元组结构生成/更新网状供应链图谱;
各模块被编程或配置以执行如权利要求1-4中任意一项所述的一种企业供应链信息挖掘方法的步骤。
6.一种计算机可读存储介质,其特征在于:计算机可读存储介质存储有被编程或配置以执行如权利要求1-4中任意一项所述的一种企业供应链信息挖掘方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311270225.4A CN117114739B (zh) | 2023-09-27 | 2023-09-27 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311270225.4A CN117114739B (zh) | 2023-09-27 | 2023-09-27 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117114739A CN117114739A (zh) | 2023-11-24 |
CN117114739B true CN117114739B (zh) | 2024-05-03 |
Family
ID=88794926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311270225.4A Active CN117114739B (zh) | 2023-09-27 | 2023-09-27 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117114739B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421416B (zh) * | 2023-12-19 | 2024-03-26 | 数据空间研究院 | 交互检索方法、装置和电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN109614495A (zh) * | 2018-08-08 | 2019-04-12 | 广州初星科技有限公司 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
CN110298403A (zh) * | 2019-07-02 | 2019-10-01 | 郭刚 | 一种财经新闻中企业主体的情感分析方法和系统 |
CN110990587A (zh) * | 2019-12-04 | 2020-04-10 | 电子科技大学 | 基于主题模型的企业关系发现方法及系统 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN111723215A (zh) * | 2020-06-19 | 2020-09-29 | 国家计算机网络与信息安全管理中心 | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 |
CN112347245A (zh) * | 2020-09-29 | 2021-02-09 | 徐佳慧 | 面向投融资领域机构的观点挖掘方法、装置和电子设备 |
CN112948510A (zh) * | 2021-04-21 | 2021-06-11 | 央视国际网络无锡有限公司 | 一种媒体行业知识图谱的构建方法 |
CN113254549A (zh) * | 2021-06-21 | 2021-08-13 | 中国人民解放军国防科技大学 | 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 |
CN113592568A (zh) * | 2021-09-30 | 2021-11-02 | 深圳前海环融联易信息科技服务有限公司 | 一种商机挖掘方法、装置、计算机设备及存储介质 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN116628212A (zh) * | 2022-11-25 | 2023-08-22 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
-
2023
- 2023-09-27 CN CN202311270225.4A patent/CN117114739B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN109614495A (zh) * | 2018-08-08 | 2019-04-12 | 广州初星科技有限公司 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
CN110298403A (zh) * | 2019-07-02 | 2019-10-01 | 郭刚 | 一种财经新闻中企业主体的情感分析方法和系统 |
CN110990587A (zh) * | 2019-12-04 | 2020-04-10 | 电子科技大学 | 基于主题模型的企业关系发现方法及系统 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN111723215A (zh) * | 2020-06-19 | 2020-09-29 | 国家计算机网络与信息安全管理中心 | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 |
CN112347245A (zh) * | 2020-09-29 | 2021-02-09 | 徐佳慧 | 面向投融资领域机构的观点挖掘方法、装置和电子设备 |
CN112948510A (zh) * | 2021-04-21 | 2021-06-11 | 央视国际网络无锡有限公司 | 一种媒体行业知识图谱的构建方法 |
CN113254549A (zh) * | 2021-06-21 | 2021-08-13 | 中国人民解放军国防科技大学 | 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 |
CN113592568A (zh) * | 2021-09-30 | 2021-11-02 | 深圳前海环融联易信息科技服务有限公司 | 一种商机挖掘方法、装置、计算机设备及存储介质 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN116628212A (zh) * | 2022-11-25 | 2023-08-22 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117114739A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117114739B (zh) | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 | |
CN113312501A (zh) | 基于知识图谱的安全知识自助查询系统的构建方法及装置 | |
CN111709235A (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN113627266B (zh) | 基于Transformer时空建模的视频行人重识别方法 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN113254594A (zh) | 一种面向智慧电厂的安全知识图谱构建方法及系统 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN111860596A (zh) | 基于深度学习的无监督路面裂缝分类方法及模型建立方法 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
CN116541755A (zh) | 一种基于时序图表征学习的金融行为模式分析预测方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN114462466A (zh) | 一种面向深度学习的数据去偏方法 | |
CN118036726A (zh) | 基于启发式信息和图神经网络的知识图谱链接预测方法 | |
CN113569048A (zh) | 一种基于企业经营范围自动划分所属行业的方法及系统 | |
CN117077631A (zh) | 一种基于知识图谱的工程应急预案生成方法 | |
CN117150148A (zh) | 一种基于预训练模型的社交网络舆情态势监控方法 | |
CN116805010A (zh) | 面向装备制造的多数据链集成与融合知识图谱构建方法 | |
CN117291085A (zh) | 基于贝叶斯多模态神经网络的高速公路沥青路面养护方案决策方法 | |
CN116310581A (zh) | 一种半监督变化检测洪涝识别方法 | |
CN116541523A (zh) | 一种基于大数据的法律判决舆情分类方法 | |
CN111460160B (zh) | 一种基于强化学习的流式文本数据的事件聚类方法 | |
CN113610194A (zh) | 一种数字档案自动分类方法 | |
CN117009921B (zh) | 一种数据融合引擎的优化数据处理方法及系统 | |
CN116028596B (zh) | 一种实体匹配分块的实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |