CN110532557A - 一种无监督的文本相似度计算方法 - Google Patents

一种无监督的文本相似度计算方法 Download PDF

Info

Publication number
CN110532557A
CN110532557A CN201910807636.XA CN201910807636A CN110532557A CN 110532557 A CN110532557 A CN 110532557A CN 201910807636 A CN201910807636 A CN 201910807636A CN 110532557 A CN110532557 A CN 110532557A
Authority
CN
China
Prior art keywords
tfidf
model
sentence
training
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910807636.XA
Other languages
English (en)
Other versions
CN110532557B (zh
Inventor
吴超
宋颖毅
柯文俊
陈旭
陈静
王坤龙
杨雨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201910807636.XA priority Critical patent/CN110532557B/zh
Publication of CN110532557A publication Critical patent/CN110532557A/zh
Application granted granted Critical
Publication of CN110532557B publication Critical patent/CN110532557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种无监督的文本相似度计算方法,其中,包括:步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;步骤二:编码层网络,挖掘句子的语义信息;步骤三:进行基于TFIDF融合的模型改进,包括:在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层。本发明将深度神经网络模型(Bi‑LSTM)用于语料库的无监督训练,得到语言模型,通过无监督的训练方式,可以充分地利用大规模的语料库的信息,从而提高文本匹配的准确率,提升信息检索的精度。

Description

一种无监督的文本相似度计算方法
技术领域
本发明涉及一种通信方法,特别涉及一种无监督的文本相似度计算方法。
背景技术
随着大数据时代的到来,信息爆炸式增长,信息的检索与匹配在各个领域中发挥着越来越重要的作用。而这其中的关键技术之一就是文本相似度计算技术。传统的文本相似度计算方式主要是基于字符串的方法和基于语料库的方法。基于字符串的方法是从字面层次对文本进行比较,以字符串共现和重复程度为相似度的衡量标准;基于语料库的方法是利用从语料库中获取的信息来进行文本相似度计算。基于语料库的方法主要是基于神经网络的方法,经过有监督学习的算法得到训练分类器,利用此分类器计算短文本之间的相似度分数。
基于字符串的方法将字符或词语作为独立的知识单元考虑,并未考虑词语本身的含义和词语之间的关系,因而这种方法对于表达方式不同但具有相同含义的情况,无法精确计算。基于有监督的神经网络的方法,虽然可以很好地利用语义信息,但是训练分类器的好坏很大程度取决于训练样本的精度,而标签数据的构建是一个耗时耗力的工作,有监督的方式越来越难以满足信息高速增长的要求。
发明内容
本发明的目的就是提出一种无监督的文本相似度计算方法,以解决上述现有技术的问题。
本发明一种无监督的文本相似度计算方法,其中,包括:步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;步骤二:编码层网络,挖掘句子的语义信息;步骤三:进行基于TFIDF融合的模型改进,包括:在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层;归一化的TFIDF算法包括:输入:问答集分词结果S,其中,si是第i个问题分词结果。记为第i个问题分词结果si中的第j个词汇;输入问答集中句子的分词结果集合s;针对集合s中的每一个问句si,取并集,获得所有的分词词汇集合W,其中k为集合s中所有词汇的个数:W=[w1,w2,w3,...,wk];计算集合W中每一个词汇wp的归一化TF-IDF值:其中,TFIDF(wp)为词汇wp的TF-IDF值,为集合W所有词汇的TF-IDF之和;wp的TF-IDF值TFIDF(wp)计算如下:TF值:TF(wp)=nw/ns,其中,nw表示wp在该句子中出现的次数,ns表示该句子中的词汇总数;IDF值IDF(wp)=log N/Nw,其中,N表示句子总数,Nw表示含有该词汇的句子总数;计算wp的TF-IDF值:TFIDF(wp)=TF(wp)*IDF(wp);输出:基于TF-IDF的词汇归一化结果集合;进行编码层TFIDF的融合包括:通过对LSTM门控结构分析,输入门控制着进入网络的信息量,将TFIDF的信息添加进入输入门,并用其控制信息的记忆;对输入门计算更新为如下:it=σ(ωi[ht-1,xt]+bi);i′t=it*softmax(tfidf(t));表示层TFIDF的融合,在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值;模型的表示层计算更新为如下:h′t=ht*softmax(tfidf(t));其中,ht为时间步t时刻的输出。
根据本发明的无监督的文本相似度计算方法的一实施例,其中,采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。
根据本发明的无监督的文本相似度计算方法的一实施例,其中,Word2Vector包括:训练模型CBOW和训练模型Skip_gram。
根据本发明的无监督的文本相似度计算方法的一实施例,其中,BERT模型训练层包括预训练语言模型阶段和根据具体语义标注任务的模型改造阶段,其中在预训练阶段中,采用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达,以期获取准确的语言模型。
根据本发明的无监督的文本相似度计算方法的一实施例,其中,步骤二选用了Bi-LSTM网络来进行编码和训练。
根据本发明的无监督的文本相似度计算方法的一实施例,其中,LSTM细胞结构包括:LSTM通过三种门结构来对信息进行筛选,以此来控制信息输出,分别为遗忘门、输入门和输出门,LSTM隐藏层内部信息更新包括:ft为t时刻遗忘门输出的值,遗忘门是控制历史信息对当前细胞单元状态的影响,计算公式如下:ft=σ(ωf[ht-1,xt]+bf);it为t时刻输入门输出的值,输入门的作用是当前的输入信息对当前细胞单元状态的影响,计算公式如下:it=σ(ωi[ht-1,xt]+bi);当前细胞状态单元的候选值,通过得到当前时刻细胞单元的状态值Ct,计算公式如下:Ot为当前细胞状态单元的输出候选值,由输出门进行控制,通过Ot与Ct进行结合得到细胞单元在该时刻的输出ht,计算公式如下:Ot=σ(ωo[ht-1,xt]+bo);ht=Ot*tanh(Ct)。
本发明将深度神经网络模型(Bi-LSTM)用于语料库的无监督训练,得到语言模型,从而提取文本的语义信息;同时,融合TF-IDF加权技术,在考虑语义信息的同时,充分利用文本的词频统计信息,实现句子最终的向量表示;最后,通过计算文本间向量表示的空间距离来计算文本的相似度。通过无监督的训练方式,可以充分地利用大规模的语料库的信息,从而提高文本匹配的准确率,提升信息检索的精度。
附图说明
图1所示为网络总体模型框架示意图;
图2所示为Word2Vector模型示意图;
图3所示为Bert模型结构示意图;
图4所示为LSTM细胞结构示意图;
图5所示为Bi-LSTM网络结构示意图;
图6所示为编码层改进网络模型结构图;
图7所示为表示层改进网络模型结构示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为网络总体模型框架示意图,如图1所示,无监督的文本相似度计算方法包括:
步骤一:嵌入层模型预训练包括:
对问答语料的预处理,可以得到由词组成的问题集,由于神经网络只能接受数值型数据,无法直接处理中文词组,需要对问题集合中的所有词进行预训练,生成可以满足模型需要的词向量。
基于神经网络的Word embedding词嵌入方法在词语的语义表示上表现出非常好的性能,Word embedding词嵌入方法是一种将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术,把每一个词语嵌入到另一个空间,使离散的词汇和实数域的特征向量之间形成单射映射关系,最终得到每个词语在另外一个空间中的表示。本发明主要采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。
(1)Word2Vector包括:
图2所示为Word2Vector模型示意图,如图2所示,与现有one-hot词向量表示方法相比,Word2vector词向量的维度更低(100-300维)。词向量维度的降低,大大降低了计算的复杂度,不会造成向量维度灾难。并且由于Word2vector词向量是根据词汇所在上下文计算出的,充分利用了上下文的语义信息,通过它计算得到两个词汇的相似程度准确性更高。Word2vector包含了两种训练模型,分别是CBOW(Continuous Bag Of Words Model)和Skip_gram。
(2)BERT模型
图3所示为Bert模型结构示意图,如图3所示,BERT(Bidirectional EncoderRepresentation from Transformers),是一种新型的语言模型,通过联合调节所有层中的双向Transformer来训练深度双向表示。BERT模型训练层包括两个阶段,分别是预训练语言模型阶段和根据具体语义标注任务的模型改造阶段,其中在预训练阶段中,采用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达,以期获取准确的语言模型。
与Word2Vector相比,BERT使用了Transformer而不是BI-LSTM做Encoder,可以有更深的层数、具有更好并行性。并且线性的Transformer比LSTM更易免受MASK标记影响,只需要通过self-attention减小MASK标记权重即可;而LSTM类似黑盒模型,很难确定其内部对于MASK标记的处理方式。不同于Word2Vector模型产生的上下文无关的静态向量,BERT能够很好的利用上下文信息,为每个词产生动态的向量,可以很好的解决Word2Vector模型对于一词多义的缺点。
步骤二:编码层网络包括:
经过嵌入层模型预训练,生成了问句的每个词的向量表示;而编码层网络的主要目的是挖掘句子的语义信息,通过最终训练好的语言模型去更好地预测出句子的语义表示。为了更好的捕捉句子长距离的依存关系的信息,选用了Bi-LSTM网络来进行编码和训练;
(1)LSTM细胞结构包括:
图4所示为LSTM细胞结构示意图,如图4所示,LSTM通过三种门结构来对信息进行筛选,以此来控制信息输出,分别为遗忘门(inputgate)、输入门(forgetgate)、输出门(outputgate)。LSTM隐藏层内部信息更新如下:
ft为t时刻遗忘门输出的值,遗忘门主要的作用是控制历史信息对当前细胞单元状态的影响,计算公式如下:
ft=σ(ωf[ht-1,xt]+bf)
it为t时刻输入门输出的值,输入门的主要作用是当前的输入信息对当前细胞单元状态的影响,计算公式如下:
it=σ(ωi[ht-1,xt]+bi)
当前细胞状态单元的候选值,通过得到当前时刻细胞单元的状态值Ct,计算公式如下:
Ot为当前细胞状态单元的输出候选值,由输出门进行控制。通过Ot与Ct进行结合得到该细胞单元在该时刻的输出ht,计算公式如下:
Ot=σ(ωo[ht-1,xt]+bo)
ht=Ot*tanh(Ct)
(2)Bi-LSTM
图5所示为Bi-LSTM网络结构示意图,如图5所示,
单向LSTM网络的传递过程中的单向决定了网络只能很好地挖掘和利用词语的上文信息,而对于词语下文信息难以利用,因此,本发明引入了双向神经网络(Bi-LSTM)。通过对两个方向的信息的融合,模型的输出能够很好地利用词语的上下文信息。
步骤三:基于TFIDF融合的模型改进
通过对于LSTM神经元结构的分析,可以看出,通过遗忘门、输入门和输出门的控制,LSTM模型可以很好的学习文本序列中远距离依赖的特性,因此LSTM神经网络模型可以很好地表征文本的整个语义信息。但是,LSTM默认对于所有时刻的信息同等看待,也就是说缺少对于信息权重的概念。
为了将TFIDF融合到使用模型预测的过程中,在每条问句输入到神经网络的同时,需要对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示。采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层。
(1)归一化的TFIDF算法包括:
对于每个样本中的元素而言,常规的TF-IDF值在数量级上差别过大,会出现不同权重的元素对于整个样本的影响差别显著,这就违背了本发明使用TF-IDF值的目的,因此对其进行归一化处理,使得每个词语对应的归一化TF-IDF值都处于区间(0,1)之内。
算法1:归一化的TF-IDF算法
(2)编码层TFIDF的融合包括:
图6所示为编码层改进网络模型结构图,如图6所示,通过对LSTM门控结构分析,其中的输入门的主要作用就是控制着进入网络的信息量,也就是说控制着与老记忆合并的新记忆的量。因此本发明的改进思想是将TFIDF的信息添加进入输入门,并用其控制信息的记忆。而其他门结构采用与LSTM相同的结构进行。
针对输入门计算更新为如下:
it=σ(ωi[ht-1,xt]+bi)
i′t=it*softmax(tfidf(t))
(3)表示层TFIDF的融合
图7所示为表示层改进网络模型结构示意图,如图7所示,相比原始LSTM网络结构和编码层融合网络结构,在表示层添加TFIDF值并不改变网络结构,只是在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值,从而增加对信息的筛选,针对每次输入的语句可以抓取关键信息,对输入语句在语料库中进行精确匹配。
模型的表示层计算更新为如下:
h′t=ht*softmax(tfidf(t))
其中,ht为时间步t时刻的输出。
为了能充分地利用文本特征与语义特征,本发明提出了一种新的语义相似度计算模型,将双向长短期记忆网络神经网络模型(Bi-LSTM)与TF-IDF加权技术相结合。
本发明将深度神经网络模型(Bi-LSTM)用于语料库的无监督训练,得到语言模型,从而提取文本的语义信息;同时,融合TF-IDF加权技术,在考虑语义信息的同时,充分利用文本的词频统计信息,实现句子最终的向量表示;最后,通过计算文本间向量表示的空间距离来计算文本的相似度。通过无监督的训练方式,可以充分地利用大规模的语料库的信息,从而提高文本匹配的准确率,提升信息检索的精度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种无监督的文本相似度计算方法,其特征在于,包括:
步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;
步骤二:编码层网络,挖掘句子的语义信息;
步骤三:进行基于TFIDF融合的模型改进,包括:
在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层;
归一化的TFIDF算法包括:
输入:问答集分词结果S,其中,si是第i个问题分词结果。记为第i个问题分词结果si中的第j个词汇;
输入问答集中句子的分词结果集合s;
针对集合s中的每一个问句si,取并集,获得所有的分词词汇集合W,其中k为集合s中所有词汇的个数:
W=[w1,w2,w3,...,wk];
计算集合W中每一个词汇wp的归一化TF-IDF值:
其中,TFIDF(wp)为词汇wp的TF-IDF值,为集合W所有词汇的TF-IDF之和;
wp的TF-IDF值TFIDF(wp)计算如下:
TF值:TF(wp)=nw/ns,其中,nw表示wp在该句子中出现的次数,ns表示该句子中的词汇总数;
IDF值IDF(wp)=logN/Nw,其中,N表示句子总数,Nw表示含有该词汇的句子总数;
计算wp的TF-IDF值:
TFIDF(wp)=TF(wp)*IDF(wp);
输出:基于TF-IDF的词汇归一化结果集合;
进行编码层TFIDF的融合包括:
通过对LSTM门控结构分析,输入门控制着进入网络的信息量,将TFIDF的信息添加进入输入门,并用其控制信息的记忆;
对输入门计算更新为如下:
it=σ(ωi[ht-1,xt]+bi):
i′t=it*softmax(tfidf(t)):
表示层TFIDF的融合,在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值;
模型的表示层计算更新为如下:
h′t=ht*softmax(tfidf(t));
其中,ht为时间步t时刻的输出。
2.如权利要求1所述的无监督的文本相似度计算方法,其特征在于,采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。
3.如权利要求2所述的无监督的文本相似度计算方法,其特征在于,Word2Vector包括:训练模型CBOW和训练模型Skip_gram。
4.如权利要求2所述的无监督的文本相似度计算方法,其特征在于,BERT模型训练层包括预训练语言模型阶段和根据具体语义标注任务的模型改造阶段,其中在预训练阶段中,采用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达,以期获取准确的语言模型。
5.如权利要求1所述的无监督的文本相似度计算方法,其特征在于,步骤二选用了Bi-LSTM网络来进行编码和训练。
6.如权利要求5所述的无监督的文本相似度计算方法,其特征在于,LSTM细胞结构包括:
LSTM通过三种门结构来对信息进行筛选,以此来控制信息输出,分别为遗忘门、输入门和输出门,LSTM隐藏层内部信息更新包括:
ft为t时刻遗忘门输出的值,遗忘门是控制历史信息对当前细胞单元状态的影响,计算公式如下:
ft=σ(ωf[ht-1,xt]+bf):
it为t时刻输入门输出的值,输入门的作用是当前的输入信息对当前细胞单元状态的影响,计算公式如下:
it=σ(ωi[ht-1,xt]+bi):
当前细胞状态单元的候选值,通过得到当前时刻细胞单元的状态值Ct,计算公式如下:
Ot为当前细胞状态单元的输出候选值,由输出门进行控制,通过Ot与Ct进行结合得到细胞单元在该时刻的输出ht,计算公式如下:
Ot=σ(ωo[ht-1,xt]+bo);
ht=Ot*tanh(Ct)。
CN201910807636.XA 2019-08-29 2019-08-29 一种无监督的文本相似度计算方法 Active CN110532557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910807636.XA CN110532557B (zh) 2019-08-29 2019-08-29 一种无监督的文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910807636.XA CN110532557B (zh) 2019-08-29 2019-08-29 一种无监督的文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN110532557A true CN110532557A (zh) 2019-12-03
CN110532557B CN110532557B (zh) 2023-07-28

Family

ID=68665068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910807636.XA Active CN110532557B (zh) 2019-08-29 2019-08-29 一种无监督的文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN110532557B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111737475A (zh) * 2020-07-21 2020-10-02 南京擎盾信息科技有限公司 一种无监督的网络舆情垃圾长文本识别方法
CN112347796A (zh) * 2020-11-10 2021-02-09 内蒙古工业大学 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN112949284A (zh) * 2019-12-11 2021-06-11 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113591474A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113743081A (zh) * 2021-09-03 2021-12-03 西安邮电大学 技术服务信息的推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101584A (zh) * 2018-07-23 2018-12-28 湖南大学 一种将深度学习与数学分析相结合的句子分类改进方法
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现系统
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN109101584A (zh) * 2018-07-23 2018-12-28 湖南大学 一种将深度学习与数学分析相结合的句子分类改进方法
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949284A (zh) * 2019-12-11 2021-06-11 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN112949284B (zh) * 2019-12-11 2022-11-04 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111326157B (zh) * 2020-01-20 2023-09-08 抖音视界有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111737475A (zh) * 2020-07-21 2020-10-02 南京擎盾信息科技有限公司 一种无监督的网络舆情垃圾长文本识别方法
CN111737475B (zh) * 2020-07-21 2021-06-22 南京擎盾信息科技有限公司 一种无监督的网络舆情垃圾长文本识别方法
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN112347796A (zh) * 2020-11-10 2021-02-09 内蒙古工业大学 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN113268561B (zh) * 2021-04-25 2021-12-14 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113591474A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113591474B (zh) * 2021-07-21 2024-04-05 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113743081A (zh) * 2021-09-03 2021-12-03 西安邮电大学 技术服务信息的推荐方法
CN113743081B (zh) * 2021-09-03 2023-08-01 西安邮电大学 技术服务信息的推荐方法

Also Published As

Publication number Publication date
CN110532557B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110532557A (zh) 一种无监督的文本相似度计算方法
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
Wang et al. Multilayer dense attention model for image caption
Zhong et al. A building regulation question answering system: A deep learning methodology
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN113743133B (zh) 融合词粒度概率映射信息的汉越跨语言摘要方法
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Li et al. Dual CNN for relation extraction with knowledge-based attention and word embeddings
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Song et al. Classification of traditional chinese medicine cases based on character-level bert and deep learning
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN116796744A (zh) 一种基于深度学习的实体关系抽取方法及系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114065760A (zh) 基于预训练语言模型的法律文本类案检索方法及系统
Shang A computational intelligence model for legal prediction and decision support
Zhou et al. Named entity recognition of ancient poems based on Albert-BiLSTM-MHA-CRF model
Han et al. Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation.
Huang et al. Attention-based bidirectional long short-term memory networks for Chinese named entity recognition
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
Zheng et al. Distantly supervised named entity recognition with Spy-PU algorithm
CN114579734A (zh) 基于gcn网络融合要素关联图的汉越新闻抽取式摘要方法
Lin et al. Hierarchical attention network with pairwise loss for Chinese zero pronoun resolution
Zhang et al. Named Entity Recognition for Terahertz Domain Knowledge Graph based on Albert-BiLSTM-CRF
CN112230990A (zh) 一种基于层级注意力神经网络的程序代码查重方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant