CN110347790B - 基于注意力机制的文本查重方法、装置、设备及存储介质 - Google Patents

基于注意力机制的文本查重方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110347790B
CN110347790B CN201910529271.9A CN201910529271A CN110347790B CN 110347790 B CN110347790 B CN 110347790B CN 201910529271 A CN201910529271 A CN 201910529271A CN 110347790 B CN110347790 B CN 110347790B
Authority
CN
China
Prior art keywords
target language
language word
vector
word vectors
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910529271.9A
Other languages
English (en)
Other versions
CN110347790A (zh
Inventor
杜翠凤
刘丽娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201910529271.9A priority Critical patent/CN110347790B/zh
Publication of CN110347790A publication Critical patent/CN110347790A/zh
Application granted granted Critical
Publication of CN110347790B publication Critical patent/CN110347790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种基于注意力机制的文本查重方法、装置、设备及存储介质,该方法包括:对接收到的待查重语料进行预处理,获得待查重语料的词向量;通过注意力模型对词向量进行处理,获得待查重语料的目标语言词向量;根据各个目标语言词向量之间的相似度,从目标语言词向量中选择至少一个词向量作为关键词向量;计算以关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;根据预设的窗口内的目标语言词向量及其贡献率,将预设的窗口内的目标语言词向量进行相似度的拼接;对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得待查重语料的查重结果,该方法能够避免由于中文翻译导致无法准确查重的问题,提高文本查重的准确性。

Description

基于注意力机制的文本查重方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于注意力机制的文本查重方法、装置、设备及存储介质。
背景技术
文本查重(论文查重)是指用一定的算法将论文和数据库中已收录的论文进行对比,从而获知论文中哪些部分涉嫌抄袭。传统的文本查重技术一般是判断一句话中有6-7个汉字(13个字符)重复(不是连续的汉字)就认定为文本重复。
但是传统的文本查重实际上是依据单个汉字的重复度对汉语之间进行向量查询,因此存在一个严重的缺陷:对于将中文翻译成其他语言,然后又将其他语言进行中文翻译的文本,其能够避开中文的检索,使用传统的文本查重方法无法准确查重。
发明内容
针对上述问题,本发明的目的在于提供一种基于注意力机制的文本查重方法、装置、设备及存储介质,其充分考虑了文本的语义层面,避免由于中文翻译导致无法准确查重的问题,提高文本查重的准确性。
第一方面,本发明实施例提供了一种基于注意力机制的文本查重方法,包括以下步骤:
对接收到的待查重语料进行预处理,获得所述待查重语料的词向量;
通过预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量;
根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量;
计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;
根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接;
对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果。
优选地,所述对接收到的待查重语料进行预处理,获得所述待查重语料的词向量,具体包括:
对接收到的待查重语料进行分词;
将分词后的待查重语料进行编码,获得所述待查重语料的词向量。
优选地,所述方法还包括:
采用预先采集的源语言对应的第一样本语料、目标语言对应的第二样本语料对预先构建的循环神经网络进行模型训练,构建所述注意力模型;其中,所述循环神经网络包括注意力机制。
优选地,所述根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量,具体包括:
将第i个目标语言词向量与其他目标语言词向量进行相似性计算,得到第i个目标语言词向量与其他目标语言词向量的相似度;
将第i个目标语言词向量与其他目标语言词向量的相似度进行累加计算,得到第i个目标语言词向量的综合相似度;
根据所述目标语言词向量的综合相似度,对所述目标语言词向量进行排序;
提取位于排序列表前N个目标语言词向量,作为关键词向量;其中,N≥1。
优选地,所述计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率,具体包括:
计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率;
所述根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接,包括:
根据第k个目标语言词向量对所述关键词向量的贡献率,对第k个目标语言词向量赋权;
将赋权后的目标语言词向量进行相似度的拼接。
优选地,所述计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率,具体包括:
根据公式(1),计算第k个目标语言词向量对所述关键词向量的贡献率;
Figure GDA0003005957310000031
其中,wt表示2D+1长度的窗口内的关键词向量,wk表示2D+1长度的窗口内的第k个目标语言词向量。
第二方面,本发明实施例提供了一种基于注意力机制的文本查重装置,包括:
预处理模块,用于对接收到的待查重语料进行预处理,获得所述待查重语料的词向量;
目标语言词向量获取模块,用于通过预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量;
关键词向量选择模块,用于根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量;
贡献率计算模块,用于计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;
词向量拼接模块,用于根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接;
相似度计算模块,用于对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果。
优选地,所述预处理模块包括:
分词单元,用于对接收到的待查重语料进行分词;
编码单元,用于将分词后的待查重语料进行编码,获得所述待查重语料的词向量。
第三方面,本发明实施例提供了一种基于注意力机制的文本查重设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的基于注意力机制的文本查重方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的基于注意力机制的文本查重方法。
以上实施例具有如下有益效果:
通过对接收到的待查重语料进行预处理,获得所述待查重语料的词向量;预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量,结合注意力机制,对待查重的源语言的语料进行有重点的翻译,得到目标语言对应的词向量,例如将中文语料翻译成英文的词向量,充分考虑了文本的语义层面;根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量;计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接;对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果;通过计算目标语言中最相关的词向量的相关性,进而找出待查重语料的关键词语,并针对关键词语划分窗口,以窗口内的关键词语为中心,采用中心聚焦的方式计算窗口内词语的贡献率,结合贡献率将词语进行拼接,从而实现待查重语料(句子、文本)的相似度计算,避免由于中文翻译导致无法准确查重的问题,提高文本查重的准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的基于注意力机制的文本查重方法的流程示意图;
图2是本发明第二实施例提供的基于注意力机制的文本查重装置的结构示意图;
图3是本发明第三实施例提供的基于注意力机制的文本查重设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明第一实施例提供了一种基于注意力机制的文本查重方法,其可由基于注意力机制的文本查重设备来执行,并包括以下步骤:
S11:对接收到的待查重语料进行预处理,获得所述待查重语料的词向量。
在本发明实施例中,所述基于注意力机制的文本查重设备可为电脑、手机、平板电脑、笔记本电脑或者服务器等计算设备,所述基于注意力机制的文本查重方法可作为其中一个功能模块集成与所述基于注意力机制的文本查重设备上,由所述基于注意力机制的文本查重设备来执行。
需要说明的是,在本发明实施例中对待查重语料的预处理方式不做具体的限定,例如可以采用共现矩阵、SVD(奇异值分解)、语言模型(language model)、CBOW(ContinuousBag-of-Word)模型等对待查重语料进行预处理,生成词向量。
S12:通过预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量。
在本发明实施例中,所述注意力模型包括注意力机制和RNN(循环神经网络,Recurrent Neural Network)。采用注意力机制影响预处理后得到的词向量,然后采用RNN将词向量进行有重点的翻译,将源语言(中文)的语料转化成目标语言(英文等其他语言)对应的词向量,充分考虑了文本的语义层面,少了很多中文的歧义。同时,采用注意力机制的方式生成了一个新的目标语言词向量,不仅考量了整个句子的分布(采用了整个隐含层h计算)和上下文的信息,而且通过注意力机制关注重点关注的词语,提升了目标语言向量生成的准确率。
S13:根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量。
S14:计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率。
S15:根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接。
S16:对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果。
在本发明实施例中,需要说明的是词向量之间有相似度,例如国王与王后,男人和女人这些词向量的相似度较高,而国王与王后的词向量之间的相似度比国王与平民的词向量之间的相似度高,因此可以通过对整个待查重文本(句子)的词语相似度进行遍历比较,得出相似度最高的词语。例如:词语A与词语B的相似度为0.9,词语A与词语C的相似度为0.8,那么词语A与整个句子其他词语的相似度可以通过累加得出,由此,可以构建出所有目标语言词向量的相似度,并进行排序,从而从待查重语料中定位出1或2个关键词向量。采用窗口中心聚焦的方式计算以关键词向量为中心的预设的窗口的其他目标语言词向量的贡献率,并依据该贡献率对预设的窗口的目标语言词向量进行加权,然后拼接窗口内的目标语言词向量,进而实现句子相似度的计算。通过关键词向量的窗口进行句子相似度的计算能够突出关键词语的相似度,而不是传统的采用加权平均的方法计算整个句子的相似度,强化了关键词语的贡献程度,减少句子相似度计算过程中的干扰,提升了文本查重的识别能力,同时提高文本查询的速度。
在一种可选的实施例中,S11:对接收到的待查重语料进行预处理,获得所述待查重语料的词向量,具体包括:
对接收到的待查重语料进行分词;
将分词后的待查重语料进行编码,获得所述待查重语料的词向量。
以一中文的句子“人工智能的发展促进了智慧城市应用的智能化”作为待查重语料,经过分词处理得到“人工智能/的/发展/促进/了/智慧城市/应用/的/智能化”;然后分词后的句子输入进去编码单元encoder中,其中,编码单元encoder保存了共现矩阵、SVD(奇异值分解)、语言模型(language model)、CBOW(Continuous Bag-of-Word)模型等至少一种词向量生成算法和深度神经网络(RNN、CNN);通过编码单元encoder将分词后的句子压缩成一个高维的上下文向量,得到了一个句子的embedding;然后采用深度神经网络将句子表示成一个高维向量,即深度神经网络中最高层的隐含向量。
在一种可选的实施例中,所述方法还包括:
采用预先采集的源语言对应的第一样本语料、目标语言对应的第二样本语料对预先构建的循环神经网络进行模型训练,构建所述注意力模型;其中,所述循环神经网络包括注意力机制。
在本发明实施例中,采用源语言(中文)的第一样本语料作为输入值,目标语言(英文)的第二样本语料作为输出值,对循环神经网络(BP神经网络)和注意力机制进行模型训练,得出网络权重,从而构建出注意力机制模型。
在一种可选的实施例中,S13:根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量,具体包括:
将第i个目标语言词向量与其他目标语言词向量进行相似性计算,得到第i个目标语言词向量与其他目标语言词向量的相似度;
将第i个目标语言词向量与其他目标语言词向量的相似度进行累加计算,得到第i个目标语言词向量的综合相似度;
根据所述目标语言词向量的综合相似度,对所述目标语言词向量进行排序;
提取位于排序列表前N个目标语言词向量,作为关键词向量;其中,N≥1。
例如:词语A与词语B的相似度为0.9,词语A与词语C的相似度为0.8,那么词语A与整个句子其他词语的相似度可以通过累加得出,由此,可以构建出所有目标语言词向量的相似度,并进行排序,从而从待查重语料中定位出1或2个关键词向量。
在一种可选的实施例中,所述计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率,具体包括:
计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率;
所述根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接,包括:
根据第k个目标语言词向量对所述关键词向量的贡献率,对第k个目标语言词向量赋权;
将赋权后的目标语言词向量进行相似度的拼接。
在一种可选的实施例中,所述计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率,具体包括:
根据公式(1),计算第k个目标语言词向量对所述关键词向量的贡献率;
Figure GDA0003005957310000091
其中,wt表示2D+1长度的窗口内的关键词向量,wk表示2D+1长度的窗口内的第k个目标语言词向量。
在本发明实施例中,2≤D≤4。在[t-D,t+D]内,公式(1)的第一部分:表示两词向量相似度的大小,词语i与词语j的向量相似度越大,说明它们之间越有可能是说明同一个主题;第二部分表示两词向量位置的远近,如果词语i与词语j越近,说明它们之间的相似性越大。
例如,将预设的窗口内的目标语言词向量进行相似度的拼接,得到[β1w1;β2w2;β3w3;…;βnwn]。之后根据[β1w1;β2w2;β3w3;…;βnwn]与目标语言语料进行相似性计算,得出查重结果,在本发明实施例中,对相似性计算的方法不做具体的限定,例如可以是采用向量空间模型(VSM)、编辑距离计算、杰卡德系数计算、TF计算、TFIDF计算、Word2Vec计算等;若拼接后的目标语言词向量与目标语言语料相似度大于预设阈值,例如0.8,得出文本重复的查重结果,反之,得到不重复的查重结果。
相对于现有技术,本发明实施例的有益效果在于:
1、相对于传统文本查重上的对汉语(源语言)之间进行向量查询,考虑国人喜欢将中文翻译成其他语言,然后又将其他语言进行中文翻译,以此避开中文的检索的方法,本发明实施例通过注意力机制结合RNN将源语言转化成目标语言词向量,少了很多中文的歧义,并通过计算目标语言中最相关的词向量的相关性,进而找出该句子的关键词向量,针对关键词向量划分窗口,以窗口内的词语为中心,采用中心聚焦的方式计算窗口内词语的贡献率,并结合贡献率将目标语言词向量进行拼接,之后通过句子的相似度计算实现文本查询,避免由于中文翻译导致无法准确查重的问题,提高文本查重的准确性。
2、本发明实施例采用目标语言的关键词向量的窗口进行句子相似度的计算能够突出关键词语的相似度,相对于传统的采用加权平均的方法计算整个句子的相似度,强化了关键词语的贡献程度,减少句子相似度计算过程中的非关键词语的干扰,提升了文本查重的识别能力。
3、本发明实施例采用注意力机制的方式生成了一个新的目标语言词向量,不仅考量了整个句子的分布(采用了整个隐含层h计算)和上下文的信息,而且通过注意力机制关注重点关注的词语,提升了目标语言向量生成的准确率。
请参阅图2,本发明第二实施例提供了一种基于注意力机制的文本查重装置,包括:
预处理模块1,用于对接收到的待查重语料进行预处理,获得所述待查重语料的词向量;
目标语言词向量获取模块2,用于通过预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量;
关键词向量选择模块3,用于根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量;
贡献率计算模块4,用于计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;
词向量拼接模块5,用于根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接;
相似度计算模块6,用于对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果。
在一种可选的实施例中,所述预处理模块1包括:
分词单元,用于对接收到的待查重语料进行分词;
编码单元,用于将分词后的待查重语料进行编码,获得所述待查重语料的词向量。
在一种可选的实施例中,所述装置还包括:
模型构建模块,用于采用预先采集的源语言对应的第一样本语料、目标语言对应的第二样本语料对预先构建的循环神经网络进行模型训练,构建所述注意力模型;其中,所述循环神经网络包括注意力机制。
在一种可选的实施例中,所述关键词向量选择模块3包括:
第一相似度计算单元,用于将第i个目标语言词向量与其他目标语言词向量进行相似性计算,得到第i个目标语言词向量与其他目标语言词向量的相似度;
第二相似度单元,用于将第i个目标语言词向量与其他目标语言词向量的相似度进行累加计算,得到第i个目标语言词向量的综合相似度;
排序单元,用于根据所述目标语言词向量的综合相似度,对所述目标语言词向量进行排序;
关键词向量提取单元,用于提取位于排序列表前N个目标语言词向量,作为关键词向量;其中,N≥1。
在一种可选的实施例中,所述贡献率计算模块4包括:
目标语言词向量贡献率计算单元,用于计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率;
所述词向量拼接模块5包括:
向量赋权单元,用于根据第k个目标语言词向量对所述关键词向量的贡献率,对第k个目标语言词向量赋权;
向量拼接单元,用于将赋权后的目标语言词向量进行相似度的拼接。
在一种可选的实施例中,所述目标语言词向量贡献率计算单元,用于根据公式(1),计算第k个目标语言词向量对所述关键词向量的贡献率;
Figure GDA0003005957310000111
其中,wt表示2D+1长度的窗口内的关键词向量,wk表示2D+1长度的窗口内的第k个目标语言词向量。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
参见图3,是本发明第三实施例提供的基于注意力机制的文本查重设备的示意图。如图3所示,该基于注意力机制的文本查重设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的基于注意力机制的文本查重方法,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如预处理模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于注意力机制的文本查重设备中的执行过程。
所述基于注意力机制的文本查重设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于注意力机制的文本查重设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是基于注意力机制的文本查重设备的示例,并不构成对基于注意力机制的文本查重设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所称处理器11可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器11是所述基于注意力机制的文本查重设备的控制中心,利用各种接口和线路连接整个基于注意力机制的文本查重设备的各个部分。
所述存储器15可用于存储所述计算机程序和/或模块,所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于注意力机制的文本查重设备的各种功能。所述存储器15可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器15可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于注意力机制的文本查重设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明第四实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一实施例中任意一项所述的基于注意力机制的文本查重方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种基于注意力机制的文本查重方法,其特征在于,包括以下步骤:
对接收到的待查重语料进行预处理,获得所述待查重语料的词向量;
通过预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量;
根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量;
计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;
根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接;
对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果;
所述方法还包括:
采用预先采集的源语言对应的第一样本语料、目标语言对应的第二样本语料对预先构建的循环神经网络进行模型训练,构建所述注意力模型;其中,所述循环神经网络包括注意力机制;
所述计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率,具体包括:
计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率;
所述计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率,具体包括:
根据公式(1),计算第k个目标语言词向量对所述关键词向量的贡献率;
Figure FDA0002987232090000011
其中,wt表示2D+1长度的窗口内的关键词向量,wk表示2D+1长度的窗口内的第k个目标语言词向量。
2.如权利要求1所述的基于注意力机制的文本查重方法,其特征在于,所述对接收到的待查重语料进行预处理,获得所述待查重语料的词向量,具体包括:
对接收到的待查重语料进行分词;
将分词后的待查重语料进行编码,获得所述待查重语料的词向量。
3.如权利要求1所述的基于注意力机制的文本查重方法,其特征在于,所述根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量,具体包括:
将第i个目标语言词向量与其他目标语言词向量进行相似性计算,得到第i个目标语言词向量与其他目标语言词向量的相似度;
将第i个目标语言词向量与其他目标语言词向量的相似度进行累加计算,得到第i个目标语言词向量的综合相似度;
根据所述目标语言词向量的综合相似度,对所述目标语言词向量进行排序;
提取位于排序列表前N个目标语言词向量,作为关键词向量;其中,N≥1。
4.如权利要求1所述的基于注意力机制的文本查重方法,其特征在于,所述根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接,包括:
根据第k个目标语言词向量对所述关键词向量的贡献率,对第k个目标语言词向量赋权;
将赋权后的目标语言词向量进行相似度的拼接。
5.一种基于注意力机制的文本查重装置,其特征在于,包括:
预处理模块,用于对接收到的待查重语料进行预处理,获得所述待查重语料的词向量;
目标语言词向量获取模块,用于通过预先构建的注意力模型对所述词向量进行处理,获得所述待查重语料的目标语言词向量;
关键词向量选择模块,用于根据各个目标语言词向量之间的相似度,从所述目标语言词向量中选择至少一个词向量作为关键词向量;
贡献率计算模块,用于计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率;
词向量拼接模块,用于根据所述预设的窗口内的目标语言词向量及其贡献率,将所述预设的窗口内的目标语言词向量进行相似度的拼接;
相似度计算模块,用于对拼接后的目标语言词向量与目标语言语料进行相似度计算,获得所述待查重语料的查重结果;
所述装置还包括:
模型构建模块,用于采用预先采集的源语言对应的第一样本语料、目标语言对应的第二样本语料对预先构建的循环神经网络进行模型训练,构建所述注意力模型;其中,所述循环神经网络包括注意力机制;
所述贡献率计算模块包括:
目标语言词向量贡献率计算单元,用于计算所述预设的窗口内的第k个目标语言词向量对所述关键词向量的贡献率;
所述目标语言词向量贡献率计算单元,用于根据公式(1),计算第k个目标语言词向量对所述关键词向量的贡献率;
Figure FDA0002987232090000031
其中,wt表示2D+1长度的窗口内的关键词向量,wk表示2D+1长度的窗口内的第k个目标语言词向量。
6.如权利要求5所述的基于注意力机制的文本查重装置,其特征在于,所述预处理模块包括:
分词单元,用于对接收到的待查重语料进行分词;
编码单元,用于将分词后的待查重语料进行编码,获得所述待查重语料的词向量。
7.一种基于注意力机制的文本查重设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的基于注意力机制的文本查重方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的基于注意力机制的文本查重方法。
CN201910529271.9A 2019-06-18 2019-06-18 基于注意力机制的文本查重方法、装置、设备及存储介质 Active CN110347790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910529271.9A CN110347790B (zh) 2019-06-18 2019-06-18 基于注意力机制的文本查重方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910529271.9A CN110347790B (zh) 2019-06-18 2019-06-18 基于注意力机制的文本查重方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110347790A CN110347790A (zh) 2019-10-18
CN110347790B true CN110347790B (zh) 2021-08-10

Family

ID=68182308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910529271.9A Active CN110347790B (zh) 2019-06-18 2019-06-18 基于注意力机制的文本查重方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110347790B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159331B (zh) * 2019-11-14 2021-11-23 中国科学院深圳先进技术研究院 文本的查询方法、文本查询装置以及计算机存储介质
CN111339241B (zh) * 2020-02-18 2024-02-13 北京百度网讯科技有限公司 一种问题查重方法、装置以及电子设备
CN111611809B (zh) * 2020-05-26 2023-04-18 西藏大学 一种基于神经网络的汉语语句相似度计算方法
CN111753516B (zh) * 2020-06-29 2024-04-16 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN112015903B (zh) * 2020-10-22 2021-01-22 广州华多网络科技有限公司 题目判重方法、装置、存储介质、计算机设备
CN112527969B (zh) * 2020-12-22 2022-11-15 上海浦东发展银行股份有限公司 增量意图聚类方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
CN109034378A (zh) * 2018-09-04 2018-12-18 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN109284510A (zh) * 2017-07-21 2019-01-29 北京搜狗科技发展有限公司 一种文本处理方法、系统和一种用于文本处理的装置
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284510A (zh) * 2017-07-21 2019-01-29 北京搜狗科技发展有限公司 一种文本处理方法、系统和一种用于文本处理的装置
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
CN109034378A (zh) * 2018-09-04 2018-12-18 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法

Also Published As

Publication number Publication date
CN110347790A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN109344413B (zh) 翻译处理方法、装置、计算机设备和计算机可读存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN108538286A (zh) 一种语音识别的方法以及计算机
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN116628186B (zh) 文本摘要生成方法及系统
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
CN112307190A (zh) 医学文献排序方法、装置、电子设备及存储介质
CN115994535A (zh) 文本处理方法及装置
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
CN116090450A (zh) 一种文本处理方法及计算设备
CN114818727A (zh) 关键句抽取方法及装置
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN114818665A (zh) 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant