CN116542234A - 一种基于分治关键词和意图的细粒度文本语义匹配方法 - Google Patents
一种基于分治关键词和意图的细粒度文本语义匹配方法 Download PDFInfo
- Publication number
- CN116542234A CN116542234A CN202310209180.3A CN202310209180A CN116542234A CN 116542234 A CN116542234 A CN 116542234A CN 202310209180 A CN202310209180 A CN 202310209180A CN 116542234 A CN116542234 A CN 116542234A
- Authority
- CN
- China
- Prior art keywords
- keywords
- text semantic
- training
- intention
- conquer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000009826 distribution Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于,包括以下步骤:步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,这里使用NLP领域的bert预训练模型;步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图,其中关键词表示动作和实体之类的事实信息,事实信息是应该严格匹配的。本提供了一种基于分治关键词和意图的细粒度文本语义匹配方法,方便文本语义匹配。
Description
技术领域
本发明涉及文本检索技术领域,具体地讲,涉及一种基于分治关键词和意图的细粒度文本语义匹配方法。
背景技术
文本匹配用于获取两篇文本的相关或者相似程度,是自然语言处理领域的一个核心技术,能够有效表示和抽取文本的语义信息,在信息检索、信息抽取、自动问答等领域都有重要的意义。
目前文本语义匹配缺点1:文本语义匹配往往粒度较粗,进行语义相似度判断时,会使模型忽略细节部分的信息和知识,造成模型的误判;缺点2:文本语义匹配对于字面相似语义不相似的文本往往容易错误判定。
发明内容
本发明要解决的技术问题是提供一种基于分治关键词和意图的细粒度文本语义匹配方法,方便文本语义匹配。
本发明采用如下技术方案实现发明目的:
一种基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于,包括以下步骤:
步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,这里使用NLP领域的bert预训练模型;
步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图;
步骤三:采用分治的策略:将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理;
步骤四:训练和推理:在训练阶段,采用所述步骤三中的方式进行训练,在推理阶段,不采用提取关键词和意图,直接将两个句子拼接输入模型进行推理即可。
作为对本技术方案的进一步限定,所述步骤二的关键词表示像动作和实体之类的事实信息,他们是应该严格匹配的;其中意图表达了抽象的概念他们可以有不同的表达方式,通过区分意图和关键词,将匹配过程划分为两个更简单的子任务去完成,这里对于如何提取出关键词,由于缺少标签数据进行训练,采用通过引入外部知识库自动提取实体生成关键词的方式,所有提取的实体自动标记为关键词;
作为对本技术方案的进一步限定,所述步骤一中,使用中文预训练模型bert-wwm;
给定两个句子:
和/>
其中:和/>分别表示句子里的第i个字符;
使用分类器y=ξ(Sa,Sb)来预测Sa和Sb的语义等价关系;
其中:la和lb分别表示句子的长;
y表示两个句子的关系;
将两个句子Sa和Sb进行连接得到Sa,b=[Sa;wsep;Sb],
其中:wsep是分割符。
作为对本技术方案的进一步限定,将Sa,b=[Sa;wsep;Sb]输入预训练模型按照如下式:
[hcls;Ha,b]=PLM([wcls;Sa,b]) (1)
P(y|Sa,Sb)=Softmax(hcls·WT) (2)
其中:wcls是一个特殊字符位于每句话的开头;
hcls是每句话的一个句向量表示,预测的时候使用一层全连接层进行输出;
Ha,b表示隐层向量;
W∈RK×H表示可训练的权重,其中K表示标签的数量;
最终的分类损失表示如下:
作为对本技术方案的进一步限定,所述步骤二的具体流程如下:
步骤二一:首先通过NLTK识别出名词,动词,形容词等可能的关键词;
步骤二二:将可能的关键词以此纳入外部知识图谱进行实体匹配,若匹配成功则为关键词,若匹配失败则不为关键词;
步骤二三:按照上述方式匹配成功的为关键词,句子除了关键词剩下的部分认为是意图,这样就获得了关键词和意图的弱标签信息。
作为对本技术方案的进一步限定,添加一个辅助的训练目标强迫模型学会区分关键词和意图表示;
将Ha,b分解为两部分,分别为和/>分别对应关键词和意图的表示;
其中:Nk和Ni分别表示关键词和意图的token数量;
关键词与意图分类的loss定义如下:
其中:Wds∈R1×H为可训练参数;
和/>是通过/>和/>进行average-pooling得到;
通过上述的loss可以更好的让模型学习如何区分关键词和意图。
作为对本技术方案的进一步限定,所述步骤三的具体流程为:
假设每个子问题和原始的目标有相同的解,那么原始问题的概率分布Qy可由两个子问题的联合概率分布P(yk,yi)派生出来,公式如下:
其中:cn和cm反应了匹配度;
cm>cn表示cm有更高的匹配分数相比于cn;
为了建模子问题,重用式(2),获得关键词和意图的条件概率分布和/>
其中:Sk和Si分别表示意图和关键词被mask之后的句子表示。
作为对本技术方案的进一步限定,依据独立子问题的假设,yk和yi的联合条件概率分布如下式:
最后,原问题和子问题的联合概率分布的KL散度表示loss如下:
最终训练loss为上述3个loss相加而得:
作为对本技术方案的进一步限定,所述步骤四中,采用所述步骤三中的方式为训练loss。
作为对本技术方案的进一步限定,两个句子的关系包括匹配、部分匹配及完全匹配
与现有技术相比,本发明的优点和积极效果是:
1、针对缺点1,本发明着重解决文本语义匹配粒度较粗的问题,细化文本语义匹配的粒度为文本匹配,关键词匹配,意图匹配,细化语义相似度判断的粒度。
2、本发明提出了一种基于分治关键词和意图的细粒度文本语义匹配方法与系统,解决了文本语义匹配粒度较粗,进行语义相似度判断时,会使模型忽略细节部分的信息和知识,造成模型的误判问题。
3、针对缺点2本发明着重解决如何提升文本语义匹配的精度和泛化能力。通过引入关键词,意图的多维度多粒度匹配训练,提升文本语义匹配系统的精度和泛化性。
4、本发明提出了一种基于分治关键词和意图的细粒度文本语义匹配方法与系统,解决了语义匹配对于字面相似语义不相似的文本往往容易错误判定问题。
5、本发明通过细化文本语义匹配粒度为文本匹配,关键词匹配,意图匹配,细化语义相似度判断的粒度;通过引入关键词,意图的多维度多粒度匹配训练,提升文本语义匹配系统的精度和泛化性。
具体实施方式
下面对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
本发明包括以下步骤:
步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,这里使用NLP领域的bert预训练模型;
所述步骤一中,使用中文预训练模型bert-wwm;
给定两个句子:
和/>
其中:和/>分别表示句子里的第i个字符;
使用分类器y=ξ(Sa,Sb)来预测Sa和Sb的语义等价关系;
其中:la和lb分别表示句子的长;
y表示两个句子的关系;
两个句子的关系包括匹配、部分匹配及完全匹配。
将两个句子Sa和Sb进行连接得到Sa,b=[Sa;wsep;Sb],
其中:wsep是分割符;
将Sa,b=[Sa;wsep;Sb]输入预训练模型按照如下式:
[hcls;Ha,b]=PLM([wcls;Sa,b]) (1)
P(y|Sa,Sb)=Softmax(hcls·WT) (2)
其中:wcls是一个特殊字符位于每句话的开头;
hcls是每句话的一个句向量表示,预测的时候使用一层全连接层进行输出;
Ha,b表示隐层向量;
W∈RK×H表示可训练的权重,其中K表示标签的数量;
最终的分类损失表示如下:
步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图,其中关键词表示像动作和实体之类的事实信息,该事实信息是应该严格匹配的;其中意图表达了抽象的概念、可以有不同的表达方式。通过区分意图和关键词,将匹配过程划分为两个更简单的子任务去完成,这里对于如何提取出关键词,由于缺少标签数据进行训练,采用通过引入外部知识库自动提取实体生成关键词的方式,所有提取的实体自动标记为关键词;
所述步骤二的具体流程如下:
步骤二一:首先通过NLTK识别出名词,动词,形容词等可能的关键词;
步骤二二:将可能的关键词以此纳入外部知识图谱进行实体匹配,若匹配成功则为关键词,若匹配失败则不为关键词;
步骤二三:按照上述方式匹配成功的为关键词,句子除了关键词剩下的部分认为是意图,这样就获得了关键词和意图的弱标签信息。
添加一个辅助的训练目标强迫模型学会区分关键词和意图表示;
将Ha,b分解为两部分,分别为和/>分别对应关键词和意图的表示;
其中:Nk和Ni分别表示关键词和意图的token数量;
关键词与意图分类的loss定义如下:
其中:Wds∈R1×H为可训练参数;
和/>是通过/>和/>进行average-pooling得到;
通过上述的loss可以更好的让模型学习如何区分关键词和意图。
步骤三:采用分治的策略:将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理;
所述步骤三的具体流程为:
假设每个子问题和原始的目标有相同的解,那么原始问题的概率分布Qy可由两个子问题的联合概率分布P(yk,yi)派生出来,公式如下:
其中:cn和cm反应了匹配度;
cm>cn表示cm有更高的匹配分数相比于cn;
为了建模子问题,重用式(2),获得关键词和意图的条件概率分布和/>
其中:Sk和Si分别表示意图和关键词被mask之后的句子表示;
依据独立子问题的假设,yk和yi的联合条件概率分布如下式:
最后,原问题和子问题的联合概率分布的KL散度表示loss如下:
最终训练loss为上述3个loss相加而得:
步骤四:训练和推理;在训练阶段,采用所述步骤三中的方式进行训练,在推理阶段,不采用提取关键词和意图,直接将两个句子拼接输入模型进行推理即可。
所述步骤四中,采用所述步骤三中的方式为训练loss。
以上公开的仅为本发明的具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (10)
1.一种基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于,包括以下步骤:
步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,所述预训练模型包括NLP领域的bert预训练模型;
步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图;
步骤三:采用分治的策略:将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理;
步骤四:训练和推理:在训练阶段,采用所述步骤三中的方式进行训练,在推理阶段,不采用提取关键词和意图,直接将两个句子拼接输入模型进行推理即可。
2.根据权利要求1所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤二的关键词为事实信息,所述事实信息包括动作和实体信息;所述意图为抽象概念表达,通过区分意图和关键词,将匹配过程划分为两个子任务去完成。
3.根据权利要求1所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤一中,使用中文预训练模型bert-wwm;
给定两个句子:
和/>
其中:和/>分别表示句子里的第i个字符;
使用分类器y=ξ(Sa,Sb)来预测Sa和Sb的语义等价关系;
其中:la和lb分别表示句子的长;
y表示两个句子的关系;
将两个句子Sa和Sb进行连接得到Sa,b=[Sa;wsep;Sb],
其中:wsep是分割符。
4.根据权利要求3所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:将Sa,b=[Sa;wsep;Sb]输入预训练模型按照如下式:
[hcls;Ha,b]=PLM([wcls;Sa,b]) (1)
P(y|Sa,Sb)=Softmax(hcls·WT) (2)
其中:wcls是一个特殊字符位于每句话的开头;
hcls是每句话的一个句向量表示,预测的时候使用一层全连接层进行输出;
Ha,b表示隐层向量;
W∈RK×H表示可训练的权重,其中K表示标签的数量;
最终的分类损失表示如下:
5.根据权利要求4所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤二的具体流程如下:
步骤二一:首先通过NLTK识别出可能的关键词,所述可能的关键词包括名词,动词,形容词;
步骤二二:将可能的关键词以此纳入外部知识图谱进行实体匹配,若匹配成功则为关键词,若匹配失败则不为关键词;
步骤二三:按照上述方式匹配成功的为关键词,句子除了关键词剩下的部分为意图,以获得关键词和意图的弱标签信息。
6.根据权利要求5所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:添加一个辅助的训练目标强迫模型学会区分关键词和意图表示;
将Ha,b分解为两部分,分别为和/>分别对应关键词和意图的表示;
其中:Nk和Ni分别表示关键词和意图的token数量;
关键词与意图分类的loss定义如下:
其中:Wds∈R1×H为可训练参数;
和/>是通过/>和/>进行average-pooling得到;
通过所述loss让模型学习如何区分关键词和意图。
7.根据权利要求6所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤三的具体流程为:
假设每个子问题和原始的目标有相同的解,则原始问题的概率分布Qy可由两个子问题的联合概率分布P(yk,yi)派生出来,公式如下:
其中:cn和cm反应了匹配度;
cm>cn表示cm有更高的匹配分数相比于cn;
为了建模子问题,重用式(2),获得关键词和意图的条件概率分布和
其中:Sk和Si分别表示意图和关键词被mask之后的句子表示。
8.根据权利要求7所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:
依据独立子问题的假设,yk和yi的联合条件概率分布如下式:
最后,原问题和子问题的联合概率分布的KL散度表示loss如下:
最终训练loss为上述3个loss相加而得:
9.根据权利要求8所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤四中,采用所述步骤三中的方式为训练loss。
10.根据权利要求8所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:两个句子的关系包括匹配、部分匹配及完全匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310209180.3A CN116542234A (zh) | 2023-03-07 | 2023-03-07 | 一种基于分治关键词和意图的细粒度文本语义匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310209180.3A CN116542234A (zh) | 2023-03-07 | 2023-03-07 | 一种基于分治关键词和意图的细粒度文本语义匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116542234A true CN116542234A (zh) | 2023-08-04 |
Family
ID=87451262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310209180.3A Pending CN116542234A (zh) | 2023-03-07 | 2023-03-07 | 一种基于分治关键词和意图的细粒度文本语义匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542234A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117371456A (zh) * | 2023-10-10 | 2024-01-09 | 国网江苏省电力有限公司南通供电分公司 | 一种基于特征融合的多模态讽刺检测方法及系统 |
-
2023
- 2023-03-07 CN CN202310209180.3A patent/CN116542234A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117371456A (zh) * | 2023-10-10 | 2024-01-09 | 国网江苏省电力有限公司南通供电分公司 | 一种基于特征融合的多模态讽刺检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | RpBERT: a text-image relation propagation-based BERT model for multimodal NER | |
Lopez et al. | Deep Learning applied to NLP | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
Wang et al. | Improving weakly supervised visual grounding by contrastive knowledge distillation | |
CN109271537B (zh) | 一种基于蒸馏学习的文本到图像生成方法和系统 | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
Zhang et al. | Image-enhanced multi-level sentence representation net for natural language inference | |
CN116542234A (zh) | 一种基于分治关键词和意图的细粒度文本语义匹配方法 | |
Liu et al. | A generalized idiom usage recognition model based on semantic compatibility | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
Wang et al. | Mcml: A novel memory-based contrastive meta-learning method for few shot slot tagging | |
Nair et al. | Knowledge graph based question answering system for remote school education | |
CN112528653A (zh) | 短文本实体识别方法和系统 | |
Yu et al. | Cross-Domain Slot Filling as Machine Reading Comprehension. | |
Pal et al. | To transfer or not to transfer: Misclassification attacks against transfer learned text classifiers | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
Pragst et al. | Comparative study of sentence embeddings for contextual paraphrasing | |
Polat et al. | Unsupervised term discovery for continuous sign language | |
Hsu et al. | An interpretable generative adversarial approach to classification of latent entity relations in unstructured sentences | |
Zhang et al. | Learning a grammar inducer from massive uncurated instructional videos | |
El-Gayar | Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction | |
Hao | Naive Bayesian Prediction of Japanese Annotated Corpus for Textual Semantic Word Formation Classification | |
Wang et al. | PAIC: Parallelised attentive image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |