CN112784010A - 一种基于多模型非线性融合的中文句子相似度计算方法 - Google Patents
一种基于多模型非线性融合的中文句子相似度计算方法 Download PDFInfo
- Publication number
- CN112784010A CN112784010A CN202110001501.1A CN202110001501A CN112784010A CN 112784010 A CN112784010 A CN 112784010A CN 202110001501 A CN202110001501 A CN 202110001501A CN 112784010 A CN112784010 A CN 112784010A
- Authority
- CN
- China
- Prior art keywords
- sentence
- model
- similarity
- word
- sen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000007619 statistical method Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 239000010410 layer Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- NZMOFYDMGFQZLS-UHFFFAOYSA-N terazosin hydrochloride dihydrate Chemical compound [H+].O.O.[Cl-].N=1C(N)=C2C=C(OC)C(OC)=CC2=NC=1N(CC1)CCN1C(=O)C1CCCO1 NZMOFYDMGFQZLS-UHFFFAOYSA-N 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模型非线性融合的句子相似度计算方法,属于中文自然语言处理领域。针对现有的神经网络模型对句子特征提取过于细致,缺少对重点内容的突出问题。本发明基于传统的统计方法来实现对句子特征的粗粒度提取并结合注意力机制使用卷积神经网络对提取内容进行重点突出。模型综合考虑了三种句子相似度计算模型的评估结果对其进行了非线性融合。基于改进的杰卡德系数算法和IF‑IDF算法实现对句子特征的粗粒度提取,基于word2vec_CNN的句子相似度计算方法实现对提取的关键特征的突出。本发明在蚂蚁金服数据集上做了大量的实验验证了模型的有效性。
Description
技术领域
本发明为一种算法,涉及到中文信息提取和句子相似度计算领域。
背景技术
句子相似度分析是自然语言处理领域的基础性任务,被广泛的应用于自动问答系统,机器翻译系统以及推荐系统中,面向中文的自然语言处理技术对我国人工智能技术的发展至关重要。随着自媒体在生活中的深入,个人言论对社会舆论的牵引越来越严重。自然语言处理技术能够做到在个人言论引导社会舆论之前对其进行控制,过滤从而净化网络环境。
句子相似度计算技术发展历程可以分为三个阶段。一是基于统计的方法计算句子相似度,二是基于语言模型利用预训练的词向量来计算句子之间的相似度。传统的基于统计的方法是通过对句子中表层信息的统计来实现的。比如,计算句子对中共现词的数目,计算序列的长度等,这种基于表层信息的方式在精确度上有待进一步地提升。基于语言模型利用预训练的词向量来计算句子之间相似度的方式使得句子相似度分析任务的精度有了很大的提升,这类语言模型通过监督或者无监督的方式从大量的语料库中学习出词或者句子的向量表示来表征自然语言序列。常见的语言模型包括word2vec,BERT等。word2vec语言模型由Mikolov等人提出,它是一种包含了输入层,隐藏层和输出层的多层神经网络结构,通过将自然语言序列使用TF-IDF算法转化为向量作为深度学习模型输入的形式来获取词向量。这种方式相比于传统的TF-IDF算法解决了矩阵的特征稀疏问题,避免了维度灾难现象。word2vec语言模型对词向量的训练包括两种方式。一种是CBOW(Continuous BagofWords)连续词袋模型,该模型是在已知当前词上下文的前提下来预测当前词。另一种是Skip-gram模型,该模型与CBOW相反,是在已知当前词的情况下来推测上下文。但是,这种模型不能表示一词多义问题。此外,对句子特征粒度的提取也过于细致无法突出句子中代表语义的主要特征。谷歌提出的预训练模型BERT基于前人的研究解决了一词多义问题。此外,BERT可以使用无监督的方式训练词向量,其预训练加微调的模型结构使得其刷新了自然语言处理领域11项任务的精确度。BERT模型基于多层Transformer结构,抛弃了传统的卷积神经网络和循环神经网络,融合了多头注意力机制有效地解决了自然语言处理中长序列的单词依赖问题。虽然这些模型取得了不错的效果,但是对句子序列的分析粒度过于细致,对句子中语法,语序等特征的提取过于模糊且训练语言模型往往需要花费较多的时间。
基于前人的研究,我们提出了多模型非线性融合方法来计算中文语句的相似度,该模型同时融合了多种语义计算模型的计算结果,并对传统的杰卡德算法进行了改进,通过浅层神经网络来给出模型对语义评估的最终结果。其通过注意力机制实现了对特征提取粒度的把控,通过多模型融合的方式对计算结果进行了择优。实验结果表明,多模型非线性融合的中文句子相似度计算方法精确度有进一步的提升。
发明内容
本发明目的是解决中文句子相似度计算领域对句子特征提取粒度过于细致,缺少对主要重点内容的突出,多种算法对句子相似度计算任务优点难以进行有效融合的问题。
为解决以上问题提出了基于多模型非线性融合的中文句子相似度计算方法,其主要技术方案如下:
S1.对杰卡德系数算法进行了改进,不同的句子成分对句子语义的影响不同,改进的杰卡德系数算法除了统计句子对中的共现词外加入了对句子成分的考虑;
S2.基于传统的IF-IDF算法将自然语言序列根据单词频率提取为向量计算中文句子语义相似度;
S3.基于注意力的word2vec-CNN模型使用神经网络来计算中文句子的语义相似度,模型中融合了对句子之间互信息,多特征的提取;
S4.基于以上三种模型,采用加权系数对模型输出结果进行加权,输入到浅层全连接神经网络中学习各模型更贴合真实语义的计算结果。
其中,改进的杰卡德系数算法在传统杰卡德系数算法的基础上增加了对句子成分的考虑,传统的杰卡德系数算法通过简单的比对句子对的分词结果中共现词的数目来给出句子的语义相似度,但是不同的句子成分对语义的影响是不同的,我们提出的模型中基于此特征对传统的杰卡德系数算法进行了改进。基于先前的研究经验,模型中主要考虑了句子的主干成分,包括主语、谓语、宾语、定语和状语,具体的语义计算公式如下所示。
其中,Jaccard_Sim代表语义计算结果,α为加权系数,SenA∩SenB为句子对的分词结果集合中共现词的数目,SenA∪SenB为句子对分词结果的并集。α的值根据共现词集合中具有相同句子成分的单词数目来给出。因为只有连续的语法成分才会影响到句子的语义,当共现词集合的数目小于3时,不考虑共现词中句子成分对语义的影响,此时,调节因子α=1,调节因子α的计算公式如下所示。
其中,count代表共现词集合中具有相同句子成分的共现词数目。当共现词集合中没有相同句子成分的单词时调节因子α的值为1。
TF-IDF算法通过将句子中的词转换为向量的形式来计算句子对的语义相似度。TF代表一个词对句子的重要性。然而,在句子中一个词出现的次数越多并不能说明其对语义就越重要,IDF代表一个词在文档中出现的频率,其用来消除常见词对TF-IDF算法评判结果的影响。
在模型中,计算句子对之间TF-IDF相似度值的公式如下所示。
其中,term(wi)代表词wi在文本中出现的次数,SenA∪SenB代表SenA和SenB的并集,T代表句子对中词的总个数。
基于注意力的word2vec-CNN模型使用神经网络来计算中文句子的语义相似度,模型中通过语义嵌入和位置嵌入的方式来提取句子中的多特征对原始的句子矩阵进行加权。在句子输入到神经网络之前对句子对之间的互信息进行关联,利用关联后获取的注意力向量与原始矩阵相乘得到卷积神经网络最终的输入。模型中使用的位置嵌入和语义嵌入的计算公式如下所示。
其中,set(A)和set(B)分别为句子的分词结果集合,使用余弦距离公式计算两个词之间的相似度。
其中,wi和wj为句子对中的共现词,pos(wi)代表单词wi在句子A中的位置,pos(wj)代表单词wj在句子B中的位置。在获取到位置矩阵和语义矩阵之后对两个特征矩阵进行合并,并分别按照行和列对计算结果求和得到注意力向量。
最后将获取到的向量分别与原始的句子矩阵相乘得到卷积神经网络最终的输入。
在获取到上述三种句子相似度计算模型在数据集上的结果之后,采用sigmoid函数对F1值进行归一化。
[a,b,c]=sigmoid(Jaccard_sim,word2vec_CNN,IF-IDF) (8)将获取到的a,b,c作为权重因子对各模型计算结果进行加权,对加权之后的结果构建成向量的形式输入到浅层全连接神经网络中来得出模型最终的输出。
本发明公开了一种基于多模型非线性融合的句子相似度计算方法,该方法对各模型的计算结果进行了融合,实现了对句子特征粗粒度的提取。
附图说明
图1为一种基于多模型非线性融合的句子相似度计算方法结构图。
图2为三种模型的实验结果图。
图3为一种基于多模型非线性融合的句子相似度计算方法与相关方法的性能对比图。
图4为选取的具体句子对。
图5为具体句子对语义评估结果。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施实例对本发明做进一步的阐述。
图1为一种基于多模型非线性融合的中文句子相似度计算方法结构图,该图描述了模型包括的三种结构,分别为基于句子成分的杰卡德系数算法,TF-IDF算法以及基于word2vec-CNN的句子相似度计算模型。图中描述了模型处理句子对的流程以及浅层全连接神经网络的结构。
在具体的计算过程中,将分词后的句子分别按照基于句子成分的杰卡德系数算法,TF-IDF算法计算语义相似度,并将分词结果利用预训练的词向量映射为矩阵的形式按照基于word2vec-CNN的句子相似度计算方法计算句子对的语义相似度。模型中使用的加权系数a,b,c根据各模型的计算结果来获得。浅层全连接神经网络使用Adam优化器来训练模型的参数,使用平方误差损失函数来统计预测结果与实际结果之间的损失,模型中使用的训练数据为蚂蚁金服金融语料库。
图2为三种模型的实验结果图,该图中展示了基于句子成分的杰卡德系数算法,TF-IDF算法以及基于word2vec-CNN的句子相似度计算模型在蚂蚁金融语料库上的实验结果,根据该实验结果借助公式(8)来确定模型中的加权系数a,b,c。根据图二中的实验结果选取三种模型的F1值输入到sigmiod函数中进行归一化得出a,b,c的值分别为0.38,0.40,0.22。在模型的计算中,均采用该组加权系数对各模型的输出进行加权。
图3和图5分别为基于多模型非线性融合的中文句子相似度计算方法在蚂蚁金融数据集上与其它相关模型的实验结果对比图。图3表明一种基于多模型非线性融合的中文句子相似度计算方法性能优于其它模型。图5展示了在具体句子对上三种模型和一种基于多模型非线性融合的中文句子相似度计算方法给出的语义评估结果。
实施例中的方案并非用以限制本发明的专利保护范围,凡未脱离本发明的等效实施或变更,均包含于本案例的专利范围中。
Claims (5)
1.一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述方法应该包括以下步骤:
S1.基于改进的杰卡德系数算法加入对句子成分的考虑来计算句子对之间的杰卡德系数相似度;
S2.基于传统的IF-IDF算法将自然语言序列根据单词频率提取为向量计算中文句子语义相似度;
S3.融合句子对之间的互信息和多特征,基于注意力的word2vec-CNN模型使用卷积神经网络来计算中文句子的语义相似;
S4.基于以上三种模型,采用加权系数对模型输出结果进行加权,输入到浅层全连接神经网络中学习各模型更贴合真实语义的计算结果。
2.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S1具体过程为:
将分词结果使用改进的杰卡德系数算法来从共现词集合中考虑句子成分对语义的影响衡量句子对之间的语义相似度,
其中,Jaccard_Sim代表语义计算结果,α为加权系数,SenA∩SenB为句子对的分词结果集合中共现词的数目,SenA∪SenB为句子对分词结果的并集,α的值根据共现词集合中具有相同句子成分的单词数目来给出,因为只有连续的语法成分才会影响到句子的语义,当共现词集合的数目小于3时,不考虑共现词中句子成分对语义的影响,此时,调节因子α=1,调节因子α的计算公式如下所示。
其中,count代表共现词集合中具有相同句子成分的共现词数目,当共现词集合中没有相同句子成分的单词时调节因子α的值为1。
4.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S3具体过程为:
根据句子对之间的互信息和多特征生成加权向量对原始的句子矩阵进行加权输入到卷积神经网络中计算句子的语义相似度,其过程分别包括语义嵌入和位置嵌入,
其中,set(A)和set(B)分别为句子的分词结果集合,使用余弦距离公式计算两个词之间的相似度,
其中,wi和wj为句子对中的共现词,pos(wi)代表单词wi在句子A中的位置,pos(wj)代表单词wj在句子B中的位置,在获取到位置矩阵和语义矩阵之后对两个特征矩阵进行合并,并分别按照行和列对计算结果求和得到注意力向量,
最后将获取到的向量分别与原始的句子矩阵相乘得到卷积神经网络最终的输入。
5.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于,所述S4具体过程为:
在获取到以上三种模型在数据集上的性能结果之后,使用sigmoid函数对其进行归一化,
[a,b,c]=sigmoid(Jaccard_sim,word2vec_CNN,IF-IDF) (8)
将获取到的a,b,c作为权重因子对各模型计算结果进行加权,对加权之后的结果构建成向量的形式输入到浅层全连接神经网络中来得出模型最终的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001501.1A CN112784010A (zh) | 2021-01-04 | 2021-01-04 | 一种基于多模型非线性融合的中文句子相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001501.1A CN112784010A (zh) | 2021-01-04 | 2021-01-04 | 一种基于多模型非线性融合的中文句子相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112784010A true CN112784010A (zh) | 2021-05-11 |
Family
ID=75753740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110001501.1A Pending CN112784010A (zh) | 2021-01-04 | 2021-01-04 | 一种基于多模型非线性融合的中文句子相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784010A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344755A (zh) * | 2021-08-09 | 2021-09-03 | 江苏羽驰区块链科技研究院有限公司 | 面向学术不端场景的用户画像和区块链技术取证方法 |
CN113392630A (zh) * | 2021-07-01 | 2021-09-14 | 浙江工业大学 | 一种基于语义分析的中文句子相似度计算方法和系统 |
CN113887584A (zh) * | 2021-09-16 | 2022-01-04 | 同济大学 | 一种基于社交媒体数据的应急交通策略评估方法 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116881738A (zh) * | 2023-09-06 | 2023-10-13 | 华南理工大学 | 一种应用于电网行业的项目申报文档的相似度检测方法 |
-
2021
- 2021-01-04 CN CN202110001501.1A patent/CN112784010A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392630A (zh) * | 2021-07-01 | 2021-09-14 | 浙江工业大学 | 一种基于语义分析的中文句子相似度计算方法和系统 |
CN113344755A (zh) * | 2021-08-09 | 2021-09-03 | 江苏羽驰区块链科技研究院有限公司 | 面向学术不端场景的用户画像和区块链技术取证方法 |
CN113887584A (zh) * | 2021-09-16 | 2022-01-04 | 同济大学 | 一种基于社交媒体数据的应急交通策略评估方法 |
CN113887584B (zh) * | 2021-09-16 | 2022-07-05 | 同济大学 | 一种基于社交媒体数据的应急交通策略评估方法 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116071641B (zh) * | 2023-04-06 | 2023-08-04 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116881738A (zh) * | 2023-09-06 | 2023-10-13 | 华南理工大学 | 一种应用于电网行业的项目申报文档的相似度检测方法 |
CN116881738B (zh) * | 2023-09-06 | 2024-02-13 | 华南理工大学 | 一种应用于电网行业的项目申报文档的相似度检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A deep learning approach for credit scoring of peer-to-peer lending using attention mechanism LSTM | |
CN112784010A (zh) | 一种基于多模型非线性融合的中文句子相似度计算方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
Sun et al. | A general framework for content-enhanced network representation learning | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
ALRashdi et al. | Deep learning and word embeddings for tweet classification for crisis response | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110321563A (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110619121A (zh) | 基于改进深度残差网络和注意力机制的实体关系抽取方法 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN117474703A (zh) | 基于社交网络的话题智能推荐方法 | |
CN117094291A (zh) | 基于智能写作的自动新闻生成系统 | |
Fei et al. | Deep Learning Structure for Cross‐Domain Sentiment Classification Based on Improved Cross Entropy and Weight | |
CN115934951A (zh) | 一种网络热点话题用户情绪预测方法 | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 | |
Ji et al. | Research on semantic similarity calculation methods in Chinese financial intelligent customer service | |
CN113361652A (zh) | 一种面向个体收入预测的去偏方法及装置 | |
Yun et al. | Combining vector space features and convolution neural network for text sentiment analysis | |
Di et al. | Text classification of COVID-19 reviews based on pre-training language model | |
Xianlun et al. | Deep global-attention based convolutional network with dense connections for text classification | |
CN112633008A (zh) | 基于多特征注意力的卷积神经网络句子相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210511 |