CN111597820A - Ict供应链招投标项目与企业产品实体匹配方法 - Google Patents
Ict供应链招投标项目与企业产品实体匹配方法 Download PDFInfo
- Publication number
- CN111597820A CN111597820A CN202010393829.8A CN202010393829A CN111597820A CN 111597820 A CN111597820 A CN 111597820A CN 202010393829 A CN202010393829 A CN 202010393829A CN 111597820 A CN111597820 A CN 111597820A
- Authority
- CN
- China
- Prior art keywords
- entity
- matched
- ict
- bid item
- supply chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及ICT供应链招投标项目与企业产品实体匹配方法,属于自然语言处理与机器学习领域。主要为了解决ICT领域招投标项目和企业产品之间由于描述角度不同而造成的匹配困难问题。本发明首先根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;将由词嵌入向量序列表示的待匹配的实体对分别传递至LSTM孪生网络,由模型最终隐藏状态编码得到实体对最终语义向量表示;后使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度,根据阈值得到匹配结果。在ICT招投标项目知识库与企业官网产品知识库构建的数据集上对本技术方案及经典方案进行对比实验,结果表明该方法进一步提升了正确率和F1值,获得了更好的实体匹配效果。
Description
技术领域
本发明涉及ICT供应链招投标项目与企业产品实体匹配方法,属于自然语言处理与机器学习领域。
背景技术
针对ICT招投标领域来说,招投标平台的招投标信息内容通常是由于招标方从客户的视角、基于功能需求对所需的ICT招投标项目进行描述,而供应商往往依据研发过程中产品的迭代情况,从技术的角度对企业产品进行描述,因此造成招投标项目和企业产品之间匹配困难。
早期实体匹配研究大多采用基于字符串相似度的匹配方法,但仅仅考虑了字符串的统计信息,忽略了文本语义信息,继而提出的基于知识库和语料库的相似度计算方法,借助单词语义网络加入单词语义信息或从巨大的语料库中学习出语义信息,再到后来使用混合相似度结合起来作为特征,但均存在需要人工抽取特征,依赖专家领域知识,人工成本高的缺点。
针对以上困难,深度学习能够自动学习特征表示,避免了人工设计特征的缺陷,采用孪生网络进行句子交互,可比较实体间深度语义信息。CNN可通过将不同窗口大小的差异局部信息进行整合来推断句子的相似性,但是无法捕捉自然语言序列的时序信息,且需要大量的标签数据来训练网络;RNN模型在序列信息的学习上已被证明具有完备的结构特性,但其无法避免由梯度消失引起的权重矩阵优化困难;LSTM弥补了RNN梯度消失的缺陷,通过使用可存储跨长输入序列信息的内存单元来学习远程依赖关系,可学习深度语义特征。因此提出一种使用LSTM孪生网络作为编码器,基于曼哈顿距离的度量函数计算待匹配实体对空间相似度的实体匹配方法。
发明内容
本发明的目的是针对ICT领域招投标项目和企业产品之间由于描述角度不同而造成的匹配困难的问题,构建一种基于LSTM孪生网络的实体匹配模型。
本发明的设计原理为:首先根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;将由词嵌入向量序列表示的待匹配的实体对分别传递至LSTM孪生网络,更新每个序列索引处隐藏状态,由模型最终隐藏状态编码得到实体对最终语义向量表示;后使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度;最后根据阈值得到待匹配实体对的匹配结果。
本发明的技术方案是通过如下步骤实现的:
步骤1,根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示。
步骤2,将由词嵌入向量表示的待匹配的实体对分别传递至LSTM孪生网络,更新每个序列索引处隐藏状态,由模型最终隐藏状态编码得到实体对最终语义向量表示。
步骤3,使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度。
步骤4,根据阈值判别得到待匹配实体对的实体匹配结果。
有益效果
相比于基于特征工程的实体匹配方法,本发明拥有更强语义特征学习能力,且LSTM可更好的提供长距离依存关系,使之拥有更高的准确率和召回率。
相比于基于RNN的实体匹配方法,本发明使用可存储跨长输入序列信息的内存单元来学习远程依赖关系,避免了RNN的缺陷。
相比于基于简单神经网络的实体匹配方法,本发明利用孪生网络抽取招投标项目和企业产品之间的一致语义信息,更好地实现实体匹配。
附图说明
图1为本发明LSTM孪生网络模型原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
在基于ICT招投标项目知识库与企业官网产品知识库构建的数据集上对本技术方案以及经典解决方案进行实验。数据集共8939条数据,其中正例834条,负例8105条。每条数据分为三个字段:招投标项目名称、企业产品名称及描述、标签。
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 10,64位;服务器的具体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
具体流程为:
步骤2,长度为n的句子则表示为:其中表示拼接操作,xi:i+j表示xi,xi+1,…,,xi+j的串联,将由词嵌入向量序列表示的待匹配实体对分别传递至LSTM孪生网络,两个网络共享参数,通过公式(1)-(6)更新每个序列索引处隐藏状态。
it=sigmoid(Wixt+Uiht-1+bi
if=sigmoid(Wfxt+Ufht-1+bf
io=sigmoid(Woxt+Uoht-1+bo
ht=ot⊙tanh(ct)
步骤3,利用基于曼哈顿距离的距离度量函数计算待匹配实体对的空间相似度,距离度量函数为:
步骤4,根据阈值判别得到待匹配实体对的匹配结果,其中阈值设为0.5。
Claims (4)
1.ICT领域供应链招投标项目与企业产品实体匹配方法,其特征在于所述方法包括如下步骤:
步骤1,根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;
步骤2,将由词嵌入向量表示的待匹配的实体对分别传递至LSTM孪生网络,更新每个序列索引处隐藏状态,由模型最终隐藏状态编码得到实体对最终语义向量表示;
步骤3,使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度;
步骤4,根据阈值判别得到待匹配实体对的实体匹配结果。
4.根据权利要求1所述的ICT领域供应链招投标项目与企业产品实体匹配方法,其特征在于,步骤4中根据阈值得到待匹配实体对的匹配结果,其中阈值设为0.5,当距离大于阈值,则视为匹配成功。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010393829.8A CN111597820A (zh) | 2020-05-11 | 2020-05-11 | Ict供应链招投标项目与企业产品实体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010393829.8A CN111597820A (zh) | 2020-05-11 | 2020-05-11 | Ict供应链招投标项目与企业产品实体匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111597820A true CN111597820A (zh) | 2020-08-28 |
Family
ID=72185245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010393829.8A Pending CN111597820A (zh) | 2020-05-11 | 2020-05-11 | Ict供应链招投标项目与企业产品实体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597820A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328555A (zh) * | 2020-11-25 | 2021-02-05 | 国网重庆招标有限公司 | 一种招标文件的快速生成方法 |
CN113326380A (zh) * | 2021-08-03 | 2021-08-31 | 国能大渡河大数据服务有限公司 | 基于深度神经网络的设备量测数据处理方法、系统及终端 |
CN116977021A (zh) * | 2023-07-21 | 2023-10-31 | 上海则一供应链管理有限公司 | 基于大数据的系统对接自动推单方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
CN108932342A (zh) * | 2018-07-18 | 2018-12-04 | 腾讯科技(深圳)有限公司 | 一种语义匹配的方法、模型的学习方法及服务器 |
CN110879802A (zh) * | 2019-10-28 | 2020-03-13 | 同济大学 | 一种日志模式提取及匹配方法 |
-
2020
- 2020-05-11 CN CN202010393829.8A patent/CN111597820A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
CN108932342A (zh) * | 2018-07-18 | 2018-12-04 | 腾讯科技(深圳)有限公司 | 一种语义匹配的方法、模型的学习方法及服务器 |
CN110879802A (zh) * | 2019-10-28 | 2020-03-13 | 同济大学 | 一种日志模式提取及匹配方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328555A (zh) * | 2020-11-25 | 2021-02-05 | 国网重庆招标有限公司 | 一种招标文件的快速生成方法 |
CN112328555B (zh) * | 2020-11-25 | 2022-11-04 | 国家电网有限公司 | 一种招标文件的快速生成方法 |
CN113326380A (zh) * | 2021-08-03 | 2021-08-31 | 国能大渡河大数据服务有限公司 | 基于深度神经网络的设备量测数据处理方法、系统及终端 |
CN116977021A (zh) * | 2023-07-21 | 2023-10-31 | 上海则一供应链管理有限公司 | 基于大数据的系统对接自动推单方法 |
CN116977021B (zh) * | 2023-07-21 | 2024-04-30 | 上海则一供应链管理有限公司 | 基于大数据的系统对接自动推单方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214599B (zh) | 基于统计学和预训练语言模型的多标签文本分类方法 | |
CN112084790B (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
CN111597820A (zh) | Ict供应链招投标项目与企业产品实体匹配方法 | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
Wang et al. | Chinese text sentiment analysis using LSTM network based on L2 and Nadam | |
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
CN108416059B (zh) | 图像描述模型的训练方法和装置、设备、介质 | |
CN109344399A (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN113312452A (zh) | 基于多任务学习的篇章级文本连贯性分类方法 | |
CN111104509A (zh) | 一种基于概率分布自适应的实体关系分类方法 | |
Li et al. | High-order semantic role labeling | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
US11537918B2 (en) | Systems and methods for document similarity matching | |
CN111881671A (zh) | 一种属性词提取方法 | |
CN114358201A (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN115982403A (zh) | 一种多模态哈希检索方法及装置 | |
WO2022228127A1 (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200828 |
|
RJ01 | Rejection of invention patent application after publication |