CN110532353B - 基于深度学习的文本实体匹配方法、系统、装置 - Google Patents

基于深度学习的文本实体匹配方法、系统、装置 Download PDF

Info

Publication number
CN110532353B
CN110532353B CN201910793713.0A CN201910793713A CN110532353B CN 110532353 B CN110532353 B CN 110532353B CN 201910793713 A CN201910793713 A CN 201910793713A CN 110532353 B CN110532353 B CN 110532353B
Authority
CN
China
Prior art keywords
sequence
text
vector
word vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910793713.0A
Other languages
English (en)
Other versions
CN110532353A (zh
Inventor
张东祥
聂雨杨
陈李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Avanti Technology Co ltd
Original Assignee
Hainan Avanti Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Avanti Technology Co ltd filed Critical Hainan Avanti Technology Co ltd
Priority to CN201910793713.0A priority Critical patent/CN110532353B/zh
Publication of CN110532353A publication Critical patent/CN110532353A/zh
Application granted granted Critical
Publication of CN110532353B publication Critical patent/CN110532353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于数据库检索领域,具体涉及一种基于深度学习的文本实体匹配方法、系统、装置,旨在解决现有文本实体匹配方法匹配准确率低的问题。本系统方法包括获取待匹配的第一、第二文本,并进行词嵌入得到第一、第二词向量序列;通过基于自注意力机制的双向门控循环单元得到第一、第二语义向量序列;通过基于互注意力机制的高速路神经网络和门控网络得到第一、第二词向量序列中每个词向量的总结表示,构建总结序列;基于全局注意力机制获取第一、第二词向量序列的总结向量表示;基于总结向量表示,通过高速路神经网络得到最终总结向量表示,并通过Softmax分类器得到文本的匹配结果。本发明提高了文本实体匹配的准确率。

Description

基于深度学习的文本实体匹配方法、系统、装置
技术领域
本发明属于数据库检索领域,具体涉及一种基于深度学习的文本实体匹配方法、系统、装置。
背景技术
实体匹配是数据管理中的一个长期难题。实体匹配即从同一数据源或者从不同数据源中找出所有代表同一实体的记录或者标识的过程,其目的是识别出数据集中描述同一真实世界实体的元组。传统地方法就是基于字符串匹配,即基于两个记录之间的字符串相似度来判断他们俩是否属于同一个实体。这种方法的缺点是需要两个单词写得完全一样,才能被当做两个记录共同的字符串。但是在实体匹配数据集中,有很多单词拼写都可能有问题,比如单词“microsoft”,在一个记录中写成了“microsof”,另一个记录中写成了“micro-soft”,都不能被匹配上,匹配准确率较低。随着技术的不断进步,出现了基于机器学习的匹配方式,例如Magellan:Toward Building Entity Matching ManagemengtSystems,主要通过先提取特征,根据判别器,判断两个记录是否匹配。相比于传统的匹配方法,准确度有了很大的提高,但是很大程度上依赖于人工给出的特征。后来深度学习的出现,使得自然语言处理领域有了长足的发展动力,深度学习可以自动地找出这个分类问题所需要的重要特征。但现有基于深度学习的方法只是利用了循环神经网络与注意力机制得到局部的语境信息,没有利用实体匹配任务所特有的多语境信息,所以应用到一些领域的时候,准确度还有很大的提升空间。因此,本发明提出了一种基于深度学习的文本实体匹配方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有文本实体匹配方法匹配准确率低的问题,本发明第一方面,提出了一种基于深度学习的文本实体匹配方法,该方法包括:
步骤S10,获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
步骤S20,采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000021
第二语义向量序列
Figure GDA0003240830900000022
步骤S30,将eA作为输入序列,将eB作为背景序列,将
Figure GDA0003240830900000023
作为输入融合序列,将
Figure GDA0003240830900000024
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建总结序列;
步骤S40,基于全局注意力机制获取所述总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
步骤S50,将eB作为输入序列,将eA作为背景序列,将
Figure GDA0003240830900000025
作为输入融合序列,将
Figure GDA0003240830900000026
作为背景关联序列,通过步骤S30、步骤S40的方法,得到eB的总结向量表示SB
步骤S60,基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
在一些优选的实施方式中,步骤S10中“对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB”,其方法为:通过FastText算法对所述第一文本、所述第二文本进行词嵌入,生成第一词向量序列eA、第二词向量序列eB
在一些优选的实施方式中,步骤S20中“采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000031
第二语义向量序列
Figure GDA0003240830900000032
”,其方法为:
基于eA、eB,通过所述双向门控循环单元Bi-GRU分别进行编码得到第一编码序列、第二编码序列;
基于自注意力机制分别得到所述第一编码序列、所述第二编码序列中每个词向量关于该编码序列的权重,对每个词向量进行加权平均得到上下文语义向量;
分别基于所述第一编码序列得到的上下文语义向量、所述第二编码序列得到的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000039
第二语义向量序列
Figure GDA00032408309000000310
在一些优选的实施方式中,步骤S30中“通过基于互注意力机制的高速路神经网络得到融合序列”,其方法为:
基于互注意力机制Pair-Attention获取所述输入序列关于所述背景序列的权重矩阵,根据该权重矩阵和所述背景关联序列得到词向量关联序列;
基于所述词向量关联序列、所述输入融合序列,通过高速路神经网络进行融合得到融合序列。
在一些优选的实施方式中,“基于所述词向量关联序列、所述输入融合序列,通过高速路神经网络进行融合得到融合序列”,其方法为:
uA=Highway([x,y,|x-y|,xe y])
其中,uA为融合序列,x为自变量,代表输入融合序列,y为因变量,代表词向量关联序列,Highway代表高速路神经网络。
在一些优选的实施方式中,步骤S40中“基于全局注意力机制获取所述总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA”,其方法为:
Figure GDA0003240830900000041
Figure GDA0003240830900000042
其中,λi为每个词向量的总结表示的权重,
Figure GDA0003240830900000043
为每个词的总结表示,cx为全局背景向量,预定义的学习参数,i为下标值。
在一些优选的实施方式中,步骤S60中“通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果”,其方法为:通过Softmax分类器获取所述第一文本与所述第二文本的匹配概率、不匹配概率;若所述匹配概率大于所述不匹配概率,则所述第一文本与所述第二文本描述的是同一实体,否则,不是同一实体。
本发明的第二方面,提出了一种基于深度学习的文本实体匹配系统,该系统包括词嵌入模块、上下文编码模块、关联融合模块、加权模块、重复模块、输出模块;
所述的词嵌入模块,配置为获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
所述上下文编码模块,配置为采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000044
第二语义向量序列
Figure GDA0003240830900000045
所述关联融合模块,配置为将eA作为输入序列,将eB作为背景序列,将
Figure GDA0003240830900000046
作为输入融合序列,将
Figure GDA0003240830900000047
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建总结序列;
所述加权模块,配置为基于全局注意力机制获取所述总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
所述重复模块,配置为将eB作为输入序列,将eA作为背景序列,将
Figure GDA0003240830900000051
作为输入融合序列,将
Figure GDA0003240830900000052
作为背景关联序列,通过所述关联融合模块、所述加权模块的方法,得到eB的总结向量表示SB
所述输出模块,配置为基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于深度学习的文本实体匹配方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于深度学习的文本实体匹配方法。
本发明的有益效果:
本发明提高了文本实体匹配的准确率。在本发明中,使用FastText算法作为词嵌入模型,避免出现未注册词(不在词库中的词)的情况,提高对文本识别率。通过自注意力机制(Self-Attention)与双向门控循环单元Bi-GRU组合,在对词向量进行编码的过程中,能够结合上下文信息,确保理解文本中每个词的含义。再通过互注意力机制(Pair-Attention)和高速路神经网络的组合,获取两个文本中词与词的关系。最后,通过全局注意力机制(Global-Attention)和高速路神经网络的组合,得到两个文本实体的总结向量表示,即相似性表示。通过三种注意力机制充分挖掘两个文本实体之间的局部语境信息和多语境信息,从而提高对文本实体匹配的准确率。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于深度学习的文本实体匹配方法的流程示意图;
图2是本发明一种实施例的基于深度学习的文本实体匹配系统的框架示意图;
图3是本发明一种实施例的基于深度学习的文本实体匹配方法的具体实施示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于深度学习的文本实体匹配方法,如图1所示,包括以下步骤:
步骤S10,获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
步骤S20,采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000071
第二语义向量序列
Figure GDA0003240830900000072
步骤S30,将eA作为输入序列,将eB作为背景序列,将
Figure GDA0003240830900000073
作为输入融合序列,将
Figure GDA0003240830900000074
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建总结序列;
步骤S40,基于全局注意力机制获取所述总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
步骤S50,将eB作为输入序列,将eA作为背景序列,将
Figure GDA0003240830900000075
作为输入融合序列,将
Figure GDA0003240830900000076
作为背景关联序列,通过步骤S30、步骤S40的方法,得到eB的总结向量表示SB
步骤S60,基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
为了更清晰地对本发明基于深度学习的文本实体匹配方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
步骤S10,获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
实体匹配(实体辨识)英文为Entity Resolution or Entity Matching orDuplicate Detection,目的是在所有的记录中找到属于同一个entity的记录,记录即记载实体信息的文本。如表1所示:
表1
Figure GDA0003240830900000081
如表1所示有六条记录,id1、id2表示编号,value表示实体的记录,每条记录代表一个商品信息,实体匹配的目标就是去找到属于同一个实体的记录。比如表中,就要找到左边的1和右边的1,左边的2和右边的3是属于同一个实体的。
在本实施例中,先获取一个数据集,该数据集包含两个集合(集合A、集合B),两个集合中各自有m个记录和n个记录,我们每次的输入是从两个集合中各自取出一个记录,判断他们是否属于同一个现实世界的实体。记两个记录为TextA、TextB。记录在下述内容中替换为文本。所述TextA为第一文本,所述TextB为第二文本。
在自然语言处理(NLP)中,我们经常将词映射到包含数值的向量中,以便机器可以理解它。词嵌入是一种映射,允许具有相似含义的单词具有相似的表示。但在ER任务(实体匹配任务)数据集中可能会有单词拼写错误等不规范情况,如果使用词级别的词嵌入模型会有很多的“未注册词”(指的是不在词库里的词)。因此在本发明中,采用基于FastText预训练模型作为词向量嵌入模型,FastText是基于字符级别的词嵌入,不会产生“未注册词”的情况。
如图3所示,将TextA、TextB进行词嵌入生成第一词向量序列eA、第二词向量序列eB。图3中其余部分在下述步骤中展开说明。其中,假设词向量为d维,TextA的序列长度为n,
Figure GDA0003240830900000091
对于TextB,假设TextB的序列长度为m,
Figure GDA0003240830900000092
将eA作为第一词向量序列,将eB作为第二词向量序列。
步骤S20,采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000093
第二语义向量序列
Figure GDA0003240830900000094
由于在英文中存在很多的一词多义情况,在词嵌入中,同一个词的嵌入结果是一样的,这样无法区分一词多义。比如“Apple”,可能既代表一种水果,也代表苹果公司。所以需要结合上下文信息才能确定这个词的意思。在本实施例中,我们采用了双向GRU作为文本编码(Context Encoding)的编码器,对于一个词的嵌入(Embedding)向量,能够结合到上下文的信息。但在实体匹配任务中,一个句子可能是由好几个无关的短语拼接起来的,所以这样的上下文信息也有可能对原始的词嵌入信息造成干扰和“污染”。所以在这样的情况下,我们增加了一个门控机制,对信息流传输做了一个控制。具体处理步骤如下:
步骤S21,基于所述第一词向量序列eA、所述第二词向量序列eB,通过所述双向门控循环单元Bi-GRU分别进行编码得到第一编码序列、第二编码序列。如式(1)(2)(3)所示:
Figure GDA0003240830900000095
Figure GDA0003240830900000096
Figure GDA0003240830900000097
其中,
Figure GDA0003240830900000098
为前向GRU,
Figure GDA0003240830900000099
为后向GRU,
Figure GDA00032408309000000910
为词向量经前向GRU的输出,
Figure GDA00032408309000000911
为词向量经后向GRU的输出,
Figure GDA00032408309000000912
为词向量经前向GRU的输出和词向量经后向GRU的输出的拼接,即编码向量,i为下标值,
Figure GDA0003240830900000101
为词向量。
把每一个
Figure GDA0003240830900000102
进行拼接,得到TextA的编码序列
Figure GDA0003240830900000103
输入eB,得到TextB的编码序列hB。将hA作为第一编码序列,将hB作为第二编码序列。
步骤S22,基于自注意力机制分别得到所述第一编码序列、所述第二编码序列中每个词向量关于该编码序列的权重,对每个词向量进行加权平均得到上下文语义向量,构建语义向量序列。其求解过程如公式(4)(5)所示:
α=softmax((hA)T.hA) (4)
Figure GDA0003240830900000104
其中,
Figure GDA0003240830900000105
α为自注意力机制的权重矩阵,
Figure GDA0003240830900000106
Figure GDA0003240830900000107
为语义向量序列,T为矩阵转置操作。基于hB,得到语义向量序列
Figure GDA0003240830900000108
Figure GDA0003240830900000109
作为第一语义向量序列,将
Figure GDA00032408309000001010
作为第二语义向量序列。
步骤S30,将eA作为输入序列,将eB作为背景序列,将
Figure GDA00032408309000001011
作为输入融合序列,将
Figure GDA00032408309000001012
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建总结序列。
在本实施例中,我们将所述第一词向量序列eA作为输入序列,将所述第二词向量序列eB作为背景序列,将所述第一语义向量序列
Figure GDA00032408309000001013
作为输入融合序列,将第二语义向量序列
Figure GDA00032408309000001014
作为背景关联序列。
步骤S31,基于互注意力机制Pair-Attention获取所述输入序列关于所述背景序列的权重矩阵,根据该权重矩阵和所述背景关联序列得到词向量关联序列。其求解过程如公式(6)(7)所示:
β=softmax((eA)TwpeB) (6)
Figure GDA0003240830900000111
其中,β为互注意力机制的权重矩阵,
Figure GDA0003240830900000112
为预设的权重矩阵,pA为词向量关联序列。
步骤S32,基于所述词向量关联序列、所述输入融合序列,通过高速路神经网络进行融合得到融合序列。其求解过程如公式(8)所示:
Figure GDA0003240830900000113
y=pA
uA=Highway([x,y,|x-y|,xe y]) (8)
其中,x、y为自变量和因变量,uA为融合序列,Highway为高速路神经网络。步骤S32,即图3中的Fusion步骤。
步骤S33,根据该融合序列和所述输入序列,通过门控网络得到所述输入序列中每个词向量的总结表示,构建总结序列。
门控机制(门控网络:Gated-Control Network(简写为GCN))的目的在于控制信息的传输,将两者输入后,通过控制两部分信息的传输,来得到输出。其求解过程如公式(9)所示:
vA=Gate2(eA,uA) (9)
其中,vA为总结序列,Gate2为门控机制。
上述的总结表示,优选的也可以描述为相似性表示。
本实施例中的门控网络:Gated-Control Network,可以参考Min Tang andJiaran Cai and Hankz Hankui Zhuo*,"Multi-Matching Network for Multiple ChoiceReading Comprehension",Association for the Advancement of ArtificialIntelligence,2019。此处不再展开详述。
步骤S40,基于全局注意力机制获取所述总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
之前步骤的都是基于“word”这个级别进行操作,我们现在要将一个序列由一个一个的词表示vA变成序列的一个向量表示sA,这个向量融合了每个词的信息。然而,每个词对于句义的贡献是不一样的,所以我们不能直接把每个词的表示直接加起来得到句子的表示,我们需要先求每个词的重要性(权重),然后根据整个权重对每个词的信息做一个加权和,最终获得句子的表示。
基于全局注意力机制获取所述总结序列中每个词向量的权重,进行加权和得到序列的总结向量表示。其求解过程如公式(10)(11)所示:
Figure GDA0003240830900000121
Figure GDA0003240830900000122
其中,λi为每个词向量的总结表示的权重,
Figure GDA0003240830900000123
为每个词向量的总结表示,cx为全局背景向量。
上述的全局背景向量为预定义学习参数,在初始化的时候随机初始化的一个表示,然后在训练过程中依靠反向传播算法来不断调整该向量的值。
步骤S50,将eB作为输入序列,将eA作为背景序列,将
Figure GDA0003240830900000124
作为输入融合序列,将
Figure GDA0003240830900000125
作为背景关联序列,通过步骤S30、步骤S40的方法,得到eB的总结向量表示SB
在本实施例中,将所述第二词向量序列eB作为输入序列,将所述第一词向量序列eA作为背景序列,将所述第二语义向量序列
Figure GDA0003240830900000126
作为输入融合序列,将第一语义向量序列
Figure GDA0003240830900000127
作为背景关联序列。执行步骤S30,步骤S40,依次得到词向量关联序列pB、融合序列uB、总结序列vB,进而得到总结向量表示SB
步骤S60,基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
在本实施例中,基于高速路神经网络Highway Network将总结向量表示SA、所述总结向量表示SB进行融合,得到最终总结向量表示,即包含了两个输入序列的相似性表示。其求解过程如公式(12)所示:
s=Highway([x,y,|x-y|,xe y]) (12)
其中,x=sA,y=sB,s为最终总结向量表示。
基于最终总结向量表示,我们使用一个线性层和一个softmax函数,生成一个二维的向量来代表匹配结果。其求解过程如公式(13)所示:
o=softmax(w0s+b) (13)
其中,
Figure GDA0003240830900000131
o为匹配结果,w0为输出层的权重矩阵,是一个学习的参数,b为偏置项。
比如输出[0.2,0.8],第一个元素代表不匹配的概率,第二个元素代表匹配的概率,所以只要第二个元素大于第一个元素,就代表判断两个记录为匹配,否则不匹配。其中个,图3中的p表示概率。
本发明第二实施例的一种基于深度学习的文本实体匹配系统,如图2所示,包括:词嵌入模块100、上下文编码模块200、关联融合模块300、加权模块400、重复模块500、输出模块600;
所述的词嵌入模块100,配置为获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
所述上下文编码模块200,配置为采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure GDA0003240830900000141
第二语义向量序列
Figure GDA0003240830900000142
所述关联融合模块300,配置为将eA作为输入序列,将eB作为背景序列,将
Figure GDA0003240830900000143
作为输入融合序列,将
Figure GDA0003240830900000144
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建总结序列;
所述加权模块400,配置为基于全局注意力机制获取所述总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
所述重复模块500,配置为将eB作为输入序列,将eA作为背景序列,将
Figure GDA0003240830900000145
作为输入融合序列,将
Figure GDA0003240830900000146
作为背景关联序列,通过所述关联融合模块300、所述加权模块400的方法,得到eB的总结向量表示SB
所述输出模块600,配置为基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考签署方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于深度学习的文本实体匹配系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于深度学习的文本实体匹配方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于深度学习的文本实体匹配方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的文本实体匹配方法,其特征在于,该方法包括以下步骤:
步骤S10,获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
步骤S20,采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure FDA0003248330670000011
第二语义向量序列
Figure FDA0003248330670000012
步骤S30,将eA作为输入序列,将eB作为背景序列,将
Figure FDA0003248330670000013
作为输入融合序列,将
Figure FDA0003248330670000014
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建第一总结序列;
步骤S40,基于全局注意力机制获取所述第一总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
步骤S50,将eB作为输入序列,将eA作为背景序列,将
Figure FDA0003248330670000015
作为输入融合序列,将
Figure FDA0003248330670000016
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eB,通过门控网络得到eB中每个词向量的总结表示,构建第二总结序列;基于全局注意力机制获取所述第二总结序列中每个词向量的总结表示的权重,进行加权和得到eB的总结向量表示SB
步骤S60,基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
2.根据权利要求1所述的基于深度学习的文本实体匹配方法,其特征在于,步骤S10中“对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB”,其方法为:通过FastText算法对所述第一文本、所述第二文本进行词嵌入,生成第一词向量序列eA、第二词向量序列eB
3.根据权利要求1所述的基于深度学习的文本实体匹配方法,其特征在于,步骤S20中“采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure FDA0003248330670000021
第二语义向量序列
Figure FDA0003248330670000022
其方法为:
基于eA、eB,通过所述双向门控循环单元Bi-GRU分别进行编码得到第一编码序列、第二编码序列;
基于自注意力机制分别得到所述第一编码序列、所述第二编码序列中每个词向量关于该编码序列的权重,对每个词向量进行加权平均得到上下文语义向量;
分别基于所述第一编码序列得到的上下文语义向量、所述第二编码序列得到的上下文语义向量,构建第一语义向量序列
Figure FDA0003248330670000023
第二语义向量序列
Figure FDA0003248330670000024
4.根据权利要求1所述的基于深度学习的文本实体匹配方法,其特征在于,步骤S30中“通过基于互注意力机制的高速路神经网络得到融合序列”,其方法为:
基于互注意力机制Pair-Attention获取所述输入序列关于所述背景序列的权重矩阵,根据该权重矩阵和所述背景关联序列得到词向量关联序列;
基于所述词向量关联序列、所述输入融合序列,通过高速路神经网络进行融合得到融合序列。
5.根据权利要求4中所述的基于深度学习的文本实体匹配方法,其特征在于,“基于所述词向量关联序列、所述输入融合序列,通过高速路神经网络进行融合得到融合序列”,其方法为:
uA=Highway([x,y,|x-y|,xey])
其中,uA为融合序列,x为自变量,代表输入融合序列,y为因变量,代表词向量关联序列,Highway代表高速路神经网络。
6.根据权利要求1所述的基于深度学习的文本实体匹配方法,其特征在于,步骤S40中“基于全局注意力机制获取所述第一总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA”,其方法为:
Figure FDA0003248330670000031
Figure FDA0003248330670000032
其中,λi为每个词向量的总结表示的权重,
Figure FDA0003248330670000033
为每个词向量的总结表示,cx为全局背景向量,预定义的学习参数,i为下标值。
7.根据权利要求1所述的基于深度学习的文本实体匹配方法,其特征在于,步骤S60中“通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果”,其方法为:通过Softmax分类器获取所述第一文本与所述第二文本的匹配概率、不匹配概率;若所述匹配概率大于所述不匹配概率,则所述第一文本与所述第二文本描述的是同一实体,否则,不是同一实体。
8.一种基于深度学习的文本实体匹配系统,其特征在于,该系统包括词嵌入模块、上下文编码模块、关联融合模块、加权模块、重复模块、输出模块;
所述的词嵌入模块,配置为获取待实体匹配的第一文本、第二文本,并对所述第一文本、所述第二文本进行词嵌入生成第一词向量序列eA、第二词向量序列eB
所述上下文编码模块,配置为采用基于自注意力机制的双向门控循环单元Bi-GRU分别提取eA、eB中每个词向量的上下文语义向量,构建第一语义向量序列
Figure FDA0003248330670000041
第二语义向量序列
Figure FDA0003248330670000042
所述关联融合模块,配置为将eA作为输入序列,将eB作为背景序列,将
Figure FDA0003248330670000043
作为输入融合序列,将
Figure FDA0003248330670000044
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eA,通过门控网络得到eA中每个词向量的总结表示,构建第一总结序列;
所述加权模块,配置为基于全局注意力机制获取所述第一总结序列中每个词向量的总结表示的权重,进行加权和得到eA的总结向量表示SA
所述重复模块,配置为将eB作为输入序列,将eA作为背景序列,将
Figure FDA0003248330670000045
作为输入融合序列,将
Figure FDA0003248330670000046
作为背景关联序列,通过基于互注意力机制的高速路神经网络得到融合序列,并根据该融合序列和eB,通过门控网络得到eB中每个词向量的总结表示,构建第二总结序列;基于全局注意力机制获取所述第二总结序列中每个词向量的总结表示的权重,进行加权和得到eB的总结向量表示SB
所述输出模块,配置为基于SA、SB,通过高速路神经网络得到最终总结向量表示,并根据该表示,通过Softmax分类器得到所述第一文本、所述第二文本的实体匹配结果。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的基于深度学习的文本实体匹配方法。
10.一种处理设置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的基于深度学习的文本实体匹配方法。
CN201910793713.0A 2019-08-27 2019-08-27 基于深度学习的文本实体匹配方法、系统、装置 Active CN110532353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910793713.0A CN110532353B (zh) 2019-08-27 2019-08-27 基于深度学习的文本实体匹配方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910793713.0A CN110532353B (zh) 2019-08-27 2019-08-27 基于深度学习的文本实体匹配方法、系统、装置

Publications (2)

Publication Number Publication Date
CN110532353A CN110532353A (zh) 2019-12-03
CN110532353B true CN110532353B (zh) 2021-10-15

Family

ID=68664324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910793713.0A Active CN110532353B (zh) 2019-08-27 2019-08-27 基于深度学习的文本实体匹配方法、系统、装置

Country Status (1)

Country Link
CN (1) CN110532353B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145914B (zh) * 2019-12-30 2023-08-04 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111368552B (zh) * 2020-02-26 2023-09-26 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111415750B (zh) * 2020-03-18 2021-06-01 浙江网新恩普软件有限公司 一种基于规则的用户信息结构化和快速检索的方法及系统
CN111597224B (zh) * 2020-04-17 2023-09-15 北京百度网讯科技有限公司 结构化信息的生成方法、装置、电子设备和存储介质
CN111563192B (zh) * 2020-04-28 2023-05-30 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111666375B (zh) * 2020-05-20 2023-07-04 上海携旅信息技术有限公司 文本相似度的匹配方法、电子设备和计算机可读介质
CN112287978B (zh) * 2020-10-07 2022-04-15 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN112185567B (zh) * 2020-11-30 2021-06-04 成都信息工程大学 中医临床辅助辨证模型的建立方法及系统
CN112528672B (zh) * 2020-12-14 2021-07-30 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112948537A (zh) * 2021-01-25 2021-06-11 昆明理工大学 一种融入文档词权重的跨境民族文化文本检索方法
CN115374285B (zh) * 2022-10-26 2023-02-07 思创数码科技股份有限公司 政务资源目录主题分类方法及系统
CN117744785A (zh) * 2024-02-19 2024-03-22 北京博阳世通信息技术有限公司 基于网络采集数据的时空知识图谱智能构建方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671918B2 (en) * 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法

Also Published As

Publication number Publication date
CN110532353A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
Dahouda et al. A deep-learned embedding technique for categorical features encoding
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN112966074A (zh) 一种情感分析方法、装置、电子设备以及存储介质
WO2019043379A1 (en) CONTROL OF FACTS
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
JP2005158010A (ja) 分類評価装置・方法及びプログラム
CN113254678B (zh) 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN108664512B (zh) 文本对象分类方法及装置
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
Patel et al. Dynamic lexicon generation for natural scene images
Budhiraja et al. A supervised learning approach for heading detection
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Malik et al. A Novel Hybrid Clustering Approach Based on Black Hole Algorithm for Document Clustering
US20230138491A1 (en) Continuous learning for document processing and analysis
CN116303881A (zh) 一种基于自监督表示学习的企业单位地址匹配方法及装置
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
Pratheek et al. Prediction of answer keywords using char-RNN
CN113822018A (zh) 实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant