CN113836942B - 一种基于隐关键词的文本匹配方法 - Google Patents

一种基于隐关键词的文本匹配方法 Download PDF

Info

Publication number
CN113836942B
CN113836942B CN202111150632.2A CN202111150632A CN113836942B CN 113836942 B CN113836942 B CN 113836942B CN 202111150632 A CN202111150632 A CN 202111150632A CN 113836942 B CN113836942 B CN 113836942B
Authority
CN
China
Prior art keywords
vector
text
word
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111150632.2A
Other languages
English (en)
Other versions
CN113836942A (zh
Inventor
赵天成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Linker Technology Co ltd
Honglong Technology Hangzhou Co ltd
Original Assignee
Honglong Technology Hangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honglong Technology Hangzhou Co ltd filed Critical Honglong Technology Hangzhou Co ltd
Publication of CN113836942A publication Critical patent/CN113836942A/zh
Application granted granted Critical
Publication of CN113836942B publication Critical patent/CN113836942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于隐关键词的文本匹配方法,基于的模型包括词向量和句子编码器,方法包括以下步骤:S1、输入为x和x’,用词向量将x和y转换为一系列的向量ex=E(x)和ey=E(x’);S2、把词向量e输入句子编码器,得到包含上下文信息的向量h;S3、根据h和概率公式计算每个词属于关键词的概率;S4、计算文本的关键词向量;S5、得到文本的最终向量,通过余弦夹角计算两个文本的匹配度。本方案可以让文本匹配变得更加精准,并且不需要额外的人工标注。

Description

一种基于隐关键词的文本匹配方法
技术领域
本发明涉及人工智能领域,尤其是涉及一种基于隐关键词的文本匹配方法。
背景技术
文本匹配是一个重要的人工智能任务,大量的业务场景需要通过对于语义建模实现准确高效的文本匹配。例如智能搜索、商品推荐,对话系统、智能客服、问答系统、翻译系统等都需要利用文本匹配实现其核心功能。传统的文本匹配系统依赖于双塔结构(dualencoder)来计算两端文本之间的相关性,但是因为双塔结构完全依赖于单个向量来表达一句话的语义,因此匹配的误报率往往偏高,影响在实际产品中的性能。
发明内容
本发明主要是提供一种准确度较高的基于隐关键词的文本匹配方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于隐关键词的文本匹配方法,基于的模型包括词向量矩阵E和句子编码器F,方法包括以下步骤:
S1、输入为第一文本x和第二文本y,用词向量矩阵E对x和y进行转换得到第一词向量ex=E(x)和第二词向量ey=E(y);
S2、把第一词向量ex和第二词向量ey分别输入句子编码器F进行编码,得到第一编码向量集和第二编码向量集,第一编码向量集中的每个编码向量与第一文本中的每个词对应,第二编码向量集中的每个编码向量与第二文本中的每个词对应;
S3、根据第一编码向量集中的每个编码向量计算所对应的词属于关键词的概率;根据第二编码向量集中的每个编码向量计算所对应的词属于关键词的概率;
S4、从第一文本中采样得到第一关键词,根据第一文本中每个词属于关键词的概率计算每个词的关键词的概率预期值,第一文本中所有词的关键词的概率预期值构成第一文本的关键词向量;同样方法得到第二文本的关键词向量;
S5、将第一编码向量集和第一文本的关键词向量进行拼接得到第一文本的最终向量,将第二编码向量集和第二文本的关键词向量进行拼接得到第二文本的最终向量,依据第一文本的最终向量和第二文本的最终向量通过余弦夹角计算两个文本的匹配度,如果匹配度大于阈值则认为第一文本和第二文本匹配。
作为优选,词向量矩阵E是V×D的矩阵,V是词表的大小,D是词向量的大小。
作为优选,句子编码器F为LSTM模型或者Transformer模型。
作为优选,步骤S4中,计算第一文本中每个词属于关键词的概率p(wi|x)通过如下公式计算得到:
Figure BDA0003286952190000021
式中,wi表示第i个词,x为关键词,K为句子所包含的词数,e是自然常数,hi是句子编码器针对第i个词输出的编码向量,T是矩阵转置操作,W是第i个词的词向量。同理,计算第二文本中每个词属于关键词的概率p(wi|y)也通过同样方式得到。
作为优选,基于隐关键词的文本匹配方法还包括模型训练过程,模型训练过程具体为:
采集一个人工标注的数据集,包含人工配对好的相关句子xi和yi;人工标注的数据作为正样本,而同一个批量中其他句子作为负样本;用交叉熵作为损失函数并且配合SGD对模型进行优化:
Figure BDA0003286952190000022
式中,gi是第i个样本(包括正样本和负样本)的匹配度,g*表示所有正样本的匹配度平均值,B是所采集的数据集中的文本数量。
作为优选,所述训练过程中,采用mini-batch的方法进行训练,每次处理一个小批量的数据,数据通过gumbel softmax的方式采样得到。
本发明带来的实质性效果是,提出了一种新颖的神经网络语义匹配架构,可以让文本匹配变得更加精准,并且不需要额外的人工标注。
附图说明
图1是本发明的一种流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本方案的模型包括:
1.词向量E:词向量矩阵是一个V×D的矩阵,其中V是词表的大小而D是词向量的大小;
2.句子编码器F:利用LSTM或者Transformer等模型,对于一个句子进行编码,输出关于每一个词的编码向量hi
3.关键词注意力机制:针对每一个编码向量hi,我们利用MLP W计算每一个词属于关键词的未归一化概率。具体来说我们通过softmax和W来计算如下概率
Figure BDA0003286952190000031
其中K是句子的长度。
根据上述三个模块,我们通过如下步骤计算两句话的匹配度(图1):
输入为x和x’,我们首先用词向量将x和y转换为一系列的向量ex=E(x)和ey=E(x’);
把词向量e输入句子编码器,得到包含上下文信息的向量h。
根据h和上述公式计算每个词属于关键词的概率。
1.下面会有两种模式:随机模式和确定模式
2.随机模式:根据p(wi|x)的概率,我们通过采样的方式选择n个关键词,为了后续让这个步骤可以被训练,我们采用gumbel softmax的方式进行采样,得到单词z,我们在此从E中获取z的词向量获得输出fz
3.确定模式:我们直接利用p(wi|x)计算关键词的概率预期值,作为输出向量fz
得到fz后,文本的最终向量表达为f=[pooling(h),fz],也就是F的输出和关键词的向量拼接。
最后,两个文本的匹配度可通过余弦夹角获得:
s=cosine-similarity(fx,fy)
我们根据如下步骤训练上述模型。首先,我们需要采集一个人工标注的数据集,也就是有人工配对好的相关句子xi,yi,i∈S,其中xi和yi是相关的句子。在训练的过程中,我们会用mini-batch的方法进行训练,也就是每次我们处理一个小批量的数据。我们将人工标注的数据作为正样本,而同一个批量中其他句子作为负样本。此外,在训练模式下我们会采用随机模式对于z进行采样。我们用交叉熵作为损失函数并且配合SGD对模型进行优化:
Figure BDA0003286952190000041
其中B是该批量的大小。
模型使用在模型训练完成之后,我们使用确定模式对于z进行计算。给定任意两端文本,我们都可以根据上述推理计算他们的匹配值。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了向量、编码器、概率等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (5)

1.一种基于隐关键词的文本匹配方法,其特征在于,基于的模型包括词向量矩阵E和句子编码器F,方法包括以下步骤:
S1、输入为第一文本x和第二文本y,用词向量矩阵E对x和y进行转换得到第一词向量ex=E(x)和第二词向量ey=E(y);
S2、把第一词向量ex和第二词向量ey分别输入句子编码器F进行编码,得到第一编码向量集和第二编码向量集,第一编码向量集中的每个编码向量与第一文本中的每个词对应,第二编码向量集中的每个编码向量与第二文本中的每个词对应;
S3、根据第一编码向量集中的每个编码向量计算所对应的词属于关键词的概率;根据第二编码向量集中的每个编码向量计算所对应的词属于关键词的概率;
S4、从第一文本中采样得到第一关键词,根据第一文本中每个词属于关键词的概率计算每个词的关键词的概率预期值,第一文本中所有词的关键词的概率预期值构成第一文本的关键词向量;同样方法得到第二文本的关键词向量;
S5、将第一编码向量集和第一文本的关键词向量进行拼接得到第一文本的最终向量,将第二编码向量集和第二文本的关键词向量进行拼接得到第二文本的最终向量,依据第一文本的最终向量和第二文本的最终向量通过余弦夹角计算两个文本的匹配度,如果匹配度大于阈值则认为第一文本和第二文本匹配;
步骤S4中,计算第一文本中每个词属于关键词的概率p(wi|x)通过如下公式计算得到:
Figure FDA0003733219370000011
式中,wi表示第i个词,x为关键词,K为句子所包含的词数,e是自然常数,hi是句子编码器针对第i个词输出的编码向量,T是矩阵转置操作,W是第i个词的词向量。
2.根据权利要求1所述的一种基于隐关键词的文本匹配方法,其特征在于,词向量矩阵E是V×D的矩阵,V是词表的大小,D是词向量的大小。
3.根据权利要求1所述的一种基于隐关键词的文本匹配方法,其特征在于,句子编码器F为LSTM模型或者Transformer模型。
4.根据权利要求1所述的一种基于隐关键词的文本匹配方法,其特征在于,还包括模型训练过程,模型训练过程具体为:
采集一个人工标注的数据集,包含人工配对好的相关句子xi和yi;人工标注的数据作为正样本,而同一个批量中其他句子作为负样本;用交叉熵作为损失函数并且配合SGD对模型进行优化:
Figure FDA0003733219370000021
式中,gi是第i个样本的匹配度,g*表示所有正样本的匹配度平均值,B是所采集的数据集中的文本数量。
5.根据权利要求4所述的一种基于隐关键词的文本匹配方法,其特征在于,所述训练过程中,采用mini-batch的方法进行训练,每次处理一个小批量的数据,数据通过gumbelsoftmax的方式采样得到。
CN202111150632.2A 2021-02-08 2021-09-29 一种基于隐关键词的文本匹配方法 Active CN113836942B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110171682 2021-02-08
CN2021101716822 2021-02-08

Publications (2)

Publication Number Publication Date
CN113836942A CN113836942A (zh) 2021-12-24
CN113836942B true CN113836942B (zh) 2022-09-20

Family

ID=78967581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111150632.2A Active CN113836942B (zh) 2021-02-08 2021-09-29 一种基于隐关键词的文本匹配方法

Country Status (1)

Country Link
CN (1) CN113836942B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN110413730A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度检测方法、装置、计算机设备和存储介质
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1270258C (zh) * 2002-12-20 2006-08-16 中国科学院计算技术研究所 快速内容分析的多关键词匹配方法
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN109189820B (zh) * 2018-07-30 2021-08-31 北京信息科技大学 一种煤矿安全事故本体概念抽取方法
CN111310436B (zh) * 2020-02-11 2022-02-15 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置及电子设备
CN112182166B (zh) * 2020-10-29 2023-03-10 腾讯科技(深圳)有限公司 一种文本匹配方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN110413730A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度检测方法、装置、计算机设备和存储介质
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders;Tiancheng Zhao et al;《arXiv》;20170531;第1-11页 *
深度文本匹配综述;庞亮 等;《计算机学报》;20170430;第40卷(第4期);第985-1003页 *

Also Published As

Publication number Publication date
CN113836942A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN107798624B (zh) 一种软件问答社区中的技术标签推荐方法
CN112000791A (zh) 一种电机故障知识抽取系统及方法
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN114925157B (zh) 一种基于预训练模型的核电站维修经验文本匹配方法
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN116341562A (zh) 一种基于Unilm语言模型的相似问题生成方法
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN113705242B (zh) 面向教育咨询服务的智能语义匹配方法和装置
CN118364111A (zh) 一种基于大语言模型文本增强的人格检测方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN113836942B (zh) 一种基于隐关键词的文本匹配方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113792550B (zh) 预测答案的确定方法及装置、阅读理解方法及装置
CN115658881A (zh) 基于因果关系的序列到序列文本摘要生成方法及系统
CN115630140A (zh) 一种基于文本特征融合的英语阅读材料难度判断的方法
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221026

Address after: 310000 Room 303, building 3, No. 399, Qiuyi Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Honglong Technology (Hangzhou) Co.,Ltd.

Patentee after: HANGZHOU LINKER TECHNOLOGY CO.,LTD.

Address before: 310000 room 31191, 3 / F, building 1, No. 88, Puyan Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Honglong Technology (Hangzhou) Co.,Ltd.

TR01 Transfer of patent right