CN112784010A - 一种基于多模型非线性融合的中文句子相似度计算方法 - Google Patents

一种基于多模型非线性融合的中文句子相似度计算方法 Download PDF

Info

Publication number
CN112784010A
CN112784010A CN202110001501.1A CN202110001501A CN112784010A CN 112784010 A CN112784010 A CN 112784010A CN 202110001501 A CN202110001501 A CN 202110001501A CN 112784010 A CN112784010 A CN 112784010A
Authority
CN
China
Prior art keywords
sentence
model
similarity
word
sen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110001501.1A
Other languages
English (en)
Inventor
张培颖
黄兴哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202110001501.1A priority Critical patent/CN112784010A/zh
Publication of CN112784010A publication Critical patent/CN112784010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模型非线性融合的句子相似度计算方法,属于中文自然语言处理领域。针对现有的神经网络模型对句子特征提取过于细致,缺少对重点内容的突出问题。本发明基于传统的统计方法来实现对句子特征的粗粒度提取并结合注意力机制使用卷积神经网络对提取内容进行重点突出。模型综合考虑了三种句子相似度计算模型的评估结果对其进行了非线性融合。基于改进的杰卡德系数算法和IF‑IDF算法实现对句子特征的粗粒度提取,基于word2vec_CNN的句子相似度计算方法实现对提取的关键特征的突出。本发明在蚂蚁金服数据集上做了大量的实验验证了模型的有效性。

Description

一种基于多模型非线性融合的中文句子相似度计算方法
技术领域
本发明为一种算法,涉及到中文信息提取和句子相似度计算领域。
背景技术
句子相似度分析是自然语言处理领域的基础性任务,被广泛的应用于自动问答系统,机器翻译系统以及推荐系统中,面向中文的自然语言处理技术对我国人工智能技术的发展至关重要。随着自媒体在生活中的深入,个人言论对社会舆论的牵引越来越严重。自然语言处理技术能够做到在个人言论引导社会舆论之前对其进行控制,过滤从而净化网络环境。
句子相似度计算技术发展历程可以分为三个阶段。一是基于统计的方法计算句子相似度,二是基于语言模型利用预训练的词向量来计算句子之间的相似度。传统的基于统计的方法是通过对句子中表层信息的统计来实现的。比如,计算句子对中共现词的数目,计算序列的长度等,这种基于表层信息的方式在精确度上有待进一步地提升。基于语言模型利用预训练的词向量来计算句子之间相似度的方式使得句子相似度分析任务的精度有了很大的提升,这类语言模型通过监督或者无监督的方式从大量的语料库中学习出词或者句子的向量表示来表征自然语言序列。常见的语言模型包括word2vec,BERT等。word2vec语言模型由Mikolov等人提出,它是一种包含了输入层,隐藏层和输出层的多层神经网络结构,通过将自然语言序列使用TF-IDF算法转化为向量作为深度学习模型输入的形式来获取词向量。这种方式相比于传统的TF-IDF算法解决了矩阵的特征稀疏问题,避免了维度灾难现象。word2vec语言模型对词向量的训练包括两种方式。一种是CBOW(Continuous BagofWords)连续词袋模型,该模型是在已知当前词上下文的前提下来预测当前词。另一种是Skip-gram模型,该模型与CBOW相反,是在已知当前词的情况下来推测上下文。但是,这种模型不能表示一词多义问题。此外,对句子特征粒度的提取也过于细致无法突出句子中代表语义的主要特征。谷歌提出的预训练模型BERT基于前人的研究解决了一词多义问题。此外,BERT可以使用无监督的方式训练词向量,其预训练加微调的模型结构使得其刷新了自然语言处理领域11项任务的精确度。BERT模型基于多层Transformer结构,抛弃了传统的卷积神经网络和循环神经网络,融合了多头注意力机制有效地解决了自然语言处理中长序列的单词依赖问题。虽然这些模型取得了不错的效果,但是对句子序列的分析粒度过于细致,对句子中语法,语序等特征的提取过于模糊且训练语言模型往往需要花费较多的时间。
基于前人的研究,我们提出了多模型非线性融合方法来计算中文语句的相似度,该模型同时融合了多种语义计算模型的计算结果,并对传统的杰卡德算法进行了改进,通过浅层神经网络来给出模型对语义评估的最终结果。其通过注意力机制实现了对特征提取粒度的把控,通过多模型融合的方式对计算结果进行了择优。实验结果表明,多模型非线性融合的中文句子相似度计算方法精确度有进一步的提升。
发明内容
本发明目的是解决中文句子相似度计算领域对句子特征提取粒度过于细致,缺少对主要重点内容的突出,多种算法对句子相似度计算任务优点难以进行有效融合的问题。
为解决以上问题提出了基于多模型非线性融合的中文句子相似度计算方法,其主要技术方案如下:
S1.对杰卡德系数算法进行了改进,不同的句子成分对句子语义的影响不同,改进的杰卡德系数算法除了统计句子对中的共现词外加入了对句子成分的考虑;
S2.基于传统的IF-IDF算法将自然语言序列根据单词频率提取为向量计算中文句子语义相似度;
S3.基于注意力的word2vec-CNN模型使用神经网络来计算中文句子的语义相似度,模型中融合了对句子之间互信息,多特征的提取;
S4.基于以上三种模型,采用加权系数对模型输出结果进行加权,输入到浅层全连接神经网络中学习各模型更贴合真实语义的计算结果。
其中,改进的杰卡德系数算法在传统杰卡德系数算法的基础上增加了对句子成分的考虑,传统的杰卡德系数算法通过简单的比对句子对的分词结果中共现词的数目来给出句子的语义相似度,但是不同的句子成分对语义的影响是不同的,我们提出的模型中基于此特征对传统的杰卡德系数算法进行了改进。基于先前的研究经验,模型中主要考虑了句子的主干成分,包括主语、谓语、宾语、定语和状语,具体的语义计算公式如下所示。
Figure BDA0002881489380000021
其中,Jaccard_Sim代表语义计算结果,α为加权系数,SenA∩SenB为句子对的分词结果集合中共现词的数目,SenA∪SenB为句子对分词结果的并集。α的值根据共现词集合中具有相同句子成分的单词数目来给出。因为只有连续的语法成分才会影响到句子的语义,当共现词集合的数目小于3时,不考虑共现词中句子成分对语义的影响,此时,调节因子α=1,调节因子α的计算公式如下所示。
Figure BDA0002881489380000022
其中,count代表共现词集合中具有相同句子成分的共现词数目。当共现词集合中没有相同句子成分的单词时调节因子α的值为1。
TF-IDF算法通过将句子中的词转换为向量的形式来计算句子对的语义相似度。TF代表一个词对句子的重要性。然而,在句子中一个词出现的次数越多并不能说明其对语义就越重要,IDF代表一个词在文档中出现的频率,其用来消除常见词对TF-IDF算法评判结果的影响。
在模型中,计算句子对之间TF-IDF相似度值的公式如下所示。
Figure BDA0002881489380000031
其中,term(wi)代表词wi在文本中出现的次数,SenA∪SenB代表SenA和SenB的并集,T代表句子对中词的总个数。
基于注意力的word2vec-CNN模型使用神经网络来计算中文句子的语义相似度,模型中通过语义嵌入和位置嵌入的方式来提取句子中的多特征对原始的句子矩阵进行加权。在句子输入到神经网络之前对句子对之间的互信息进行关联,利用关联后获取的注意力向量与原始矩阵相乘得到卷积神经网络最终的输入。模型中使用的位置嵌入和语义嵌入的计算公式如下所示。
Figure BDA0002881489380000032
其中,set(A)和set(B)分别为句子的分词结果集合,使用余弦距离公式计算两个词之间的相似度。
Figure BDA0002881489380000033
其中,wi和wj为句子对中的共现词,pos(wi)代表单词wi在句子A中的位置,pos(wj)代表单词wj在句子B中的位置。在获取到位置矩阵和语义矩阵之后对两个特征矩阵进行合并,并分别按照行和列对计算结果求和得到注意力向量。
Figure BDA0002881489380000034
Figure BDA0002881489380000035
最后将获取到的向量分别与原始的句子矩阵相乘得到卷积神经网络最终的输入。
在获取到上述三种句子相似度计算模型在数据集上的结果之后,采用sigmoid函数对F1值进行归一化。
[a,b,c]=sigmoid(Jaccard_sim,word2vec_CNN,IF-IDF) (8)将获取到的a,b,c作为权重因子对各模型计算结果进行加权,对加权之后的结果构建成向量的形式输入到浅层全连接神经网络中来得出模型最终的输出。
本发明公开了一种基于多模型非线性融合的句子相似度计算方法,该方法对各模型的计算结果进行了融合,实现了对句子特征粗粒度的提取。
附图说明
图1为一种基于多模型非线性融合的句子相似度计算方法结构图。
图2为三种模型的实验结果图。
图3为一种基于多模型非线性融合的句子相似度计算方法与相关方法的性能对比图。
图4为选取的具体句子对。
图5为具体句子对语义评估结果。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施实例对本发明做进一步的阐述。
图1为一种基于多模型非线性融合的中文句子相似度计算方法结构图,该图描述了模型包括的三种结构,分别为基于句子成分的杰卡德系数算法,TF-IDF算法以及基于word2vec-CNN的句子相似度计算模型。图中描述了模型处理句子对的流程以及浅层全连接神经网络的结构。
在具体的计算过程中,将分词后的句子分别按照基于句子成分的杰卡德系数算法,TF-IDF算法计算语义相似度,并将分词结果利用预训练的词向量映射为矩阵的形式按照基于word2vec-CNN的句子相似度计算方法计算句子对的语义相似度。模型中使用的加权系数a,b,c根据各模型的计算结果来获得。浅层全连接神经网络使用Adam优化器来训练模型的参数,使用平方误差损失函数来统计预测结果与实际结果之间的损失,模型中使用的训练数据为蚂蚁金服金融语料库。
图2为三种模型的实验结果图,该图中展示了基于句子成分的杰卡德系数算法,TF-IDF算法以及基于word2vec-CNN的句子相似度计算模型在蚂蚁金融语料库上的实验结果,根据该实验结果借助公式(8)来确定模型中的加权系数a,b,c。根据图二中的实验结果选取三种模型的F1值输入到sigmiod函数中进行归一化得出a,b,c的值分别为0.38,0.40,0.22。在模型的计算中,均采用该组加权系数对各模型的输出进行加权。
图3和图5分别为基于多模型非线性融合的中文句子相似度计算方法在蚂蚁金融数据集上与其它相关模型的实验结果对比图。图3表明一种基于多模型非线性融合的中文句子相似度计算方法性能优于其它模型。图5展示了在具体句子对上三种模型和一种基于多模型非线性融合的中文句子相似度计算方法给出的语义评估结果。
实施例中的方案并非用以限制本发明的专利保护范围,凡未脱离本发明的等效实施或变更,均包含于本案例的专利范围中。

Claims (5)

1.一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述方法应该包括以下步骤:
S1.基于改进的杰卡德系数算法加入对句子成分的考虑来计算句子对之间的杰卡德系数相似度;
S2.基于传统的IF-IDF算法将自然语言序列根据单词频率提取为向量计算中文句子语义相似度;
S3.融合句子对之间的互信息和多特征,基于注意力的word2vec-CNN模型使用卷积神经网络来计算中文句子的语义相似;
S4.基于以上三种模型,采用加权系数对模型输出结果进行加权,输入到浅层全连接神经网络中学习各模型更贴合真实语义的计算结果。
2.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S1具体过程为:
将分词结果使用改进的杰卡德系数算法来从共现词集合中考虑句子成分对语义的影响衡量句子对之间的语义相似度,
Figure FDA0002881489370000011
其中,Jaccard_Sim代表语义计算结果,α为加权系数,SenA∩SenB为句子对的分词结果集合中共现词的数目,SenA∪SenB为句子对分词结果的并集,α的值根据共现词集合中具有相同句子成分的单词数目来给出,因为只有连续的语法成分才会影响到句子的语义,当共现词集合的数目小于3时,不考虑共现词中句子成分对语义的影响,此时,调节因子α=1,调节因子α的计算公式如下所示。
Figure FDA0002881489370000012
其中,count代表共现词集合中具有相同句子成分的共现词数目,当共现词集合中没有相同句子成分的单词时调节因子α的值为1。
3.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S2具体过程为:
将传统的IF-IDF算法应用于句子对的语义评估问题中,以句子作为基本的衡量单元来构建句子的IF-IDF向量,计算其语义相似度,
Figure FDA0002881489370000021
其中,term(wi)代表词wi在文本中出现的次数,SenA∪SenB代表SenA和SenB的并集,T代表句子对中词的总个数。
4.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S3具体过程为:
根据句子对之间的互信息和多特征生成加权向量对原始的句子矩阵进行加权输入到卷积神经网络中计算句子的语义相似度,其过程分别包括语义嵌入和位置嵌入,
Figure FDA0002881489370000022
其中,set(A)和set(B)分别为句子的分词结果集合,使用余弦距离公式计算两个词之间的相似度,
Figure FDA0002881489370000025
其中,wi和wj为句子对中的共现词,pos(wi)代表单词wi在句子A中的位置,pos(wj)代表单词wj在句子B中的位置,在获取到位置矩阵和语义矩阵之后对两个特征矩阵进行合并,并分别按照行和列对计算结果求和得到注意力向量,
Figure FDA0002881489370000023
Figure FDA0002881489370000024
最后将获取到的向量分别与原始的句子矩阵相乘得到卷积神经网络最终的输入。
5.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S4具体过程为:
在获取到以上三种模型在数据集上的性能结果之后,使用sigmoid函数对其进行归一化,
[a,b,c]=sigmoid(Jaccard_sim,word2vec_CNN,IF-IDF) (8)
将获取到的a,b,c作为权重因子对各模型计算结果进行加权,对加权之后的结果构建成向量的形式输入到浅层全连接神经网络中来得出模型最终的输出。
CN202110001501.1A 2021-01-04 2021-01-04 一种基于多模型非线性融合的中文句子相似度计算方法 Pending CN112784010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110001501.1A CN112784010A (zh) 2021-01-04 2021-01-04 一种基于多模型非线性融合的中文句子相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001501.1A CN112784010A (zh) 2021-01-04 2021-01-04 一种基于多模型非线性融合的中文句子相似度计算方法

Publications (1)

Publication Number Publication Date
CN112784010A true CN112784010A (zh) 2021-05-11

Family

ID=75753740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001501.1A Pending CN112784010A (zh) 2021-01-04 2021-01-04 一种基于多模型非线性融合的中文句子相似度计算方法

Country Status (1)

Country Link
CN (1) CN112784010A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344755A (zh) * 2021-08-09 2021-09-03 江苏羽驰区块链科技研究院有限公司 面向学术不端场景的用户画像和区块链技术取证方法
CN113392630A (zh) * 2021-07-01 2021-09-14 浙江工业大学 一种基于语义分析的中文句子相似度计算方法和系统
CN113887584A (zh) * 2021-09-16 2022-01-04 同济大学 一种基于社交媒体数据的应急交通策略评估方法
CN116071641A (zh) * 2023-04-06 2023-05-05 中国石油大学(华东) 一种水下图像中文描述生成方法、装置、设备及存储介质
CN116881738A (zh) * 2023-09-06 2023-10-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392630A (zh) * 2021-07-01 2021-09-14 浙江工业大学 一种基于语义分析的中文句子相似度计算方法和系统
CN113344755A (zh) * 2021-08-09 2021-09-03 江苏羽驰区块链科技研究院有限公司 面向学术不端场景的用户画像和区块链技术取证方法
CN113887584A (zh) * 2021-09-16 2022-01-04 同济大学 一种基于社交媒体数据的应急交通策略评估方法
CN113887584B (zh) * 2021-09-16 2022-07-05 同济大学 一种基于社交媒体数据的应急交通策略评估方法
CN116071641A (zh) * 2023-04-06 2023-05-05 中国石油大学(华东) 一种水下图像中文描述生成方法、装置、设备及存储介质
CN116071641B (zh) * 2023-04-06 2023-08-04 中国石油大学(华东) 一种水下图像中文描述生成方法、装置、设备及存储介质
CN116881738A (zh) * 2023-09-06 2023-10-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法
CN116881738B (zh) * 2023-09-06 2024-02-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法

Similar Documents

Publication Publication Date Title
Wang et al. A deep learning approach for credit scoring of peer-to-peer lending using attention mechanism LSTM
CN112784010A (zh) 一种基于多模型非线性融合的中文句子相似度计算方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
Sun et al. A general framework for content-enhanced network representation learning
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
ALRashdi et al. Deep learning and word embeddings for tweet classification for crisis response
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN110619121A (zh) 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN117474703A (zh) 基于社交网络的话题智能推荐方法
CN117094291A (zh) 基于智能写作的自动新闻生成系统
Fei et al. Deep Learning Structure for Cross‐Domain Sentiment Classification Based on Improved Cross Entropy and Weight
CN115934951A (zh) 一种网络热点话题用户情绪预测方法
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN114357166B (zh) 一种基于深度学习的文本分类方法
Ji et al. Research on semantic similarity calculation methods in Chinese financial intelligent customer service
CN113361652A (zh) 一种面向个体收入预测的去偏方法及装置
Yun et al. Combining vector space features and convolution neural network for text sentiment analysis
Di et al. Text classification of COVID-19 reviews based on pre-training language model
Xianlun et al. Deep global-attention based convolutional network with dense connections for text classification
CN112633008A (zh) 基于多特征注意力的卷积神经网络句子相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210511