CN111597820A - Ict供应链招投标项目与企业产品实体匹配方法 - Google Patents

Ict供应链招投标项目与企业产品实体匹配方法 Download PDF

Info

Publication number
CN111597820A
CN111597820A CN202010393829.8A CN202010393829A CN111597820A CN 111597820 A CN111597820 A CN 111597820A CN 202010393829 A CN202010393829 A CN 202010393829A CN 111597820 A CN111597820 A CN 111597820A
Authority
CN
China
Prior art keywords
entity
matched
ict
bid item
supply chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010393829.8A
Other languages
English (en)
Inventor
罗森林
蔡成成
吴舟婷
杨俊楠
潘丽敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010393829.8A priority Critical patent/CN111597820A/zh
Publication of CN111597820A publication Critical patent/CN111597820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及ICT供应链招投标项目与企业产品实体匹配方法,属于自然语言处理与机器学习领域。主要为了解决ICT领域招投标项目和企业产品之间由于描述角度不同而造成的匹配困难问题。本发明首先根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;将由词嵌入向量序列表示的待匹配的实体对分别传递至LSTM孪生网络,由模型最终隐藏状态编码得到实体对最终语义向量表示;后使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度,根据阈值得到匹配结果。在ICT招投标项目知识库与企业官网产品知识库构建的数据集上对本技术方案及经典方案进行对比实验,结果表明该方法进一步提升了正确率和F1值,获得了更好的实体匹配效果。

Description

ICT供应链招投标项目与企业产品实体匹配方法
技术领域
本发明涉及ICT供应链招投标项目与企业产品实体匹配方法,属于自然语言处理与机器学习领域。
背景技术
针对ICT招投标领域来说,招投标平台的招投标信息内容通常是由于招标方从客户的视角、基于功能需求对所需的ICT招投标项目进行描述,而供应商往往依据研发过程中产品的迭代情况,从技术的角度对企业产品进行描述,因此造成招投标项目和企业产品之间匹配困难。
早期实体匹配研究大多采用基于字符串相似度的匹配方法,但仅仅考虑了字符串的统计信息,忽略了文本语义信息,继而提出的基于知识库和语料库的相似度计算方法,借助单词语义网络加入单词语义信息或从巨大的语料库中学习出语义信息,再到后来使用混合相似度结合起来作为特征,但均存在需要人工抽取特征,依赖专家领域知识,人工成本高的缺点。
针对以上困难,深度学习能够自动学习特征表示,避免了人工设计特征的缺陷,采用孪生网络进行句子交互,可比较实体间深度语义信息。CNN可通过将不同窗口大小的差异局部信息进行整合来推断句子的相似性,但是无法捕捉自然语言序列的时序信息,且需要大量的标签数据来训练网络;RNN模型在序列信息的学习上已被证明具有完备的结构特性,但其无法避免由梯度消失引起的权重矩阵优化困难;LSTM弥补了RNN梯度消失的缺陷,通过使用可存储跨长输入序列信息的内存单元来学习远程依赖关系,可学习深度语义特征。因此提出一种使用LSTM孪生网络作为编码器,基于曼哈顿距离的度量函数计算待匹配实体对空间相似度的实体匹配方法。
发明内容
本发明的目的是针对ICT领域招投标项目和企业产品之间由于描述角度不同而造成的匹配困难的问题,构建一种基于LSTM孪生网络的实体匹配模型。
本发明的设计原理为:首先根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;将由词嵌入向量序列表示的待匹配的实体对分别传递至LSTM孪生网络,更新每个序列索引处隐藏状态,由模型最终隐藏状态编码得到实体对最终语义向量表示;后使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度;最后根据阈值得到待匹配实体对的匹配结果。
本发明的技术方案是通过如下步骤实现的:
步骤1,根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示。
步骤2,将由词嵌入向量表示的待匹配的实体对分别传递至LSTM孪生网络,更新每个序列索引处隐藏状态,由模型最终隐藏状态编码得到实体对最终语义向量表示。
步骤3,使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度。
步骤4,根据阈值判别得到待匹配实体对的实体匹配结果。
有益效果
相比于基于特征工程的实体匹配方法,本发明拥有更强语义特征学习能力,且LSTM可更好的提供长距离依存关系,使之拥有更高的准确率和召回率。
相比于基于RNN的实体匹配方法,本发明使用可存储跨长输入序列信息的内存单元来学习远程依赖关系,避免了RNN的缺陷。
相比于基于简单神经网络的实体匹配方法,本发明利用孪生网络抽取招投标项目和企业产品之间的一致语义信息,更好地实现实体匹配。
附图说明
图1为本发明LSTM孪生网络模型原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
在基于ICT招投标项目知识库与企业官网产品知识库构建的数据集上对本技术方案以及经典解决方案进行实验。数据集共8939条数据,其中正例834条,负例8105条。每条数据分为三个字段:招投标项目名称、企业产品名称及描述、标签。
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 10,64位;服务器的具体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
具体流程为:
步骤1,根据中文维基百科预训练所得的word2vec词向量表,查表获得目标实体词嵌入向量表示。
Figure BDA0002486589840000031
对应于句子中第i个词的k维词向量。
步骤2,长度为n的句子则表示为:
Figure BDA0002486589840000032
其中
Figure BDA0002486589840000033
表示拼接操作,xi:i+j表示xi,xi+1,…,,xi+j的串联,将由词嵌入向量序列表示的待匹配实体对分别传递至LSTM孪生网络,两个网络共享参数,通过公式(1)-(6)更新每个序列索引处隐藏状态。
it=sigmoid(Wixt+Uiht-1+bi
if=sigmoid(Wfxt+Ufht-1+bf
Figure BDA0002486589840000034
Figure BDA0002486589840000035
io=sigmoid(Woxt+Uoht-1+bo
ht=ot⊙tanh(ct)
由模型最终隐藏状态编码
Figure BDA0002486589840000036
得到句子最终语义向量表示。
步骤3,利用基于曼哈顿距离的距离度量函数计算待匹配实体对的空间相似度,距离度量函数为:
Figure BDA0002486589840000037
步骤4,根据阈值判别得到待匹配实体对的匹配结果,其中阈值设为0.5。

Claims (4)

1.ICT领域供应链招投标项目与企业产品实体匹配方法,其特征在于所述方法包括如下步骤:
步骤1,根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;
步骤2,将由词嵌入向量表示的待匹配的实体对分别传递至LSTM孪生网络,更新每个序列索引处隐藏状态,由模型最终隐藏状态编码得到实体对最终语义向量表示;
步骤3,使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度;
步骤4,根据阈值判别得到待匹配实体对的实体匹配结果。
2.根据权利要求1所述的ICT领域供应链招投标项目与企业产品实体匹配方法,其特征在于:步骤2中长度为n的句子则表示为:
Figure FDA0002486589830000011
(其中
Figure FDA0002486589830000012
表示拼接操作,xi:i+j表示xi,xi+1,...,xi+j的串联),将由单词嵌入向量序列的待匹配实体对分别传递至LSTM孪生网络,两个网络共享权重通过公式(1)-(6):
it=sigmoid(Wixt+Uiht-1+bi (1)
if=sigmoid(Wfxt+Ufht-1+bf (2)
Figure FDA0002486589830000013
Figure FDA0002486589830000014
io=sigmoid(Woxt+Uoht-1+bo (5)
ht=ot⊙tanh(ct) (6)
更新每个序列索引处隐藏状态。
3.根据权利要求1所述的ICT领域供应链招投标项目与企业产品实体匹配方法,其特征在于,步骤3中基于曼哈顿距离的距离度量函数,捕获招投标项目和企业产品实体之间的相似性,其中相似性度量函数(目标函数)为:
Figure FDA0002486589830000015
4.根据权利要求1所述的ICT领域供应链招投标项目与企业产品实体匹配方法,其特征在于,步骤4中根据阈值得到待匹配实体对的匹配结果,其中阈值设为0.5,当距离大于阈值,则视为匹配成功。
CN202010393829.8A 2020-05-11 2020-05-11 Ict供应链招投标项目与企业产品实体匹配方法 Pending CN111597820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393829.8A CN111597820A (zh) 2020-05-11 2020-05-11 Ict供应链招投标项目与企业产品实体匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393829.8A CN111597820A (zh) 2020-05-11 2020-05-11 Ict供应链招投标项目与企业产品实体匹配方法

Publications (1)

Publication Number Publication Date
CN111597820A true CN111597820A (zh) 2020-08-28

Family

ID=72185245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393829.8A Pending CN111597820A (zh) 2020-05-11 2020-05-11 Ict供应链招投标项目与企业产品实体匹配方法

Country Status (1)

Country Link
CN (1) CN111597820A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328555A (zh) * 2020-11-25 2021-02-05 国网重庆招标有限公司 一种招标文件的快速生成方法
CN113326380A (zh) * 2021-08-03 2021-08-31 国能大渡河大数据服务有限公司 基于深度神经网络的设备量测数据处理方法、系统及终端
CN116977021A (zh) * 2023-07-21 2023-10-31 上海则一供应链管理有限公司 基于大数据的系统对接自动推单方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328555A (zh) * 2020-11-25 2021-02-05 国网重庆招标有限公司 一种招标文件的快速生成方法
CN112328555B (zh) * 2020-11-25 2022-11-04 国家电网有限公司 一种招标文件的快速生成方法
CN113326380A (zh) * 2021-08-03 2021-08-31 国能大渡河大数据服务有限公司 基于深度神经网络的设备量测数据处理方法、系统及终端
CN116977021A (zh) * 2023-07-21 2023-10-31 上海则一供应链管理有限公司 基于大数据的系统对接自动推单方法
CN116977021B (zh) * 2023-07-21 2024-04-30 上海则一供应链管理有限公司 基于大数据的系统对接自动推单方法

Similar Documents

Publication Publication Date Title
CN112214599B (zh) 基于统计学和预训练语言模型的多标签文本分类方法
CN112084790B (zh) 一种基于预训练卷积神经网络的关系抽取方法及系统
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
WO2022057776A1 (zh) 一种模型压缩方法及装置
CN111597820A (zh) Ict供应链招投标项目与企业产品实体匹配方法
CN112800776B (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN107590177B (zh) 一种结合监督学习的中文文本分类方法
Wang et al. Chinese text sentiment analysis using LSTM network based on L2 and Nadam
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN108416059B (zh) 图像描述模型的训练方法和装置、设备、介质
CN109344399A (zh) 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN113312452A (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN111104509A (zh) 一种基于概率分布自适应的实体关系分类方法
Li et al. High-order semantic role labeling
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
US11537918B2 (en) Systems and methods for document similarity matching
CN111881671A (zh) 一种属性词提取方法
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115982403A (zh) 一种多模态哈希检索方法及装置
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828

RJ01 Rejection of invention patent application after publication