CN112651221A - 一种数据处理方法、装置和用于数据处理的装置 - Google Patents

一种数据处理方法、装置和用于数据处理的装置 Download PDF

Info

Publication number
CN112651221A
CN112651221A CN201910960199.5A CN201910960199A CN112651221A CN 112651221 A CN112651221 A CN 112651221A CN 201910960199 A CN201910960199 A CN 201910960199A CN 112651221 A CN112651221 A CN 112651221A
Authority
CN
China
Prior art keywords
document
documents
vector
calculation model
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910960199.5A
Other languages
English (en)
Inventor
龚良泉
叶祺
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201910960199.5A priority Critical patent/CN112651221A/zh
Publication of CN112651221A publication Critical patent/CN112651221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:对文档进行预处理,得到所述文档对应的文档向量;将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;根据所述文档计算模型的输出,确定所述文档对应的文档数值;通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。本发明实施例可以简化文档比较的计算过程,进一步提高过滤重复文档的效率和准确性。

Description

一种数据处理方法、装置和用于数据处理的装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
背景技术
随着互联网技术的发展,人们可以通过检索系统或者推荐系统获取各种网络资源。
由于不同网站的文档经常来自转发或者借鉴,网络中存在文章内容相同或者相似的情况。因此,在检索系统或者推荐系统中,需要对内容相同或相似的文章进行筛选过滤,以向用户提供多样化的网络资源。
然而,以往的人工编辑的去重方法需要消耗大量的人力成本,并且对于新闻类需要实时推送的网络资源,人工操作去重的时效性较低。而一般的去重算法,需要对文章进行分词,整理成词表,对于工业级几十万、甚至上百万的词表,不仅在计算过程中内存占用率较高,容易导致内存溢出,而且会影响去重计算的准确性和效率。
发明内容
本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以提高过滤重复文档的效率和准确性。
为了解决上述问题,本发明实施例公开了一种数据处理方法,所述方法包括:
对文档进行预处理,得到所述文档对应的文档向量;
将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
根据所述文档计算模型的输出,确定所述文档对应的文档数值;
通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
另一方面,本发明实施例公开了一种数据处理装置,所述装置包括:
文档处理模块,用于对文档进行预处理,得到所述文档对应的文档向量;
数据输入模块,用于将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
数值确定模块,用于根据所述文档计算模型的输出,确定所述文档对应的文档数值;
文档比较模块,用于通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对文档进行预处理,得到所述文档对应的文档向量;
将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
根据所述文档计算模型的输出,确定所述文档对应的文档数值;
通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例将文档转换为文档向量,相对于工业级词表,向量不仅占用较小的内存,而且可以提高计算的效率和准确性,进而可以提高过滤重复文档的效率和准确性。此外,本发明实施例通过文档计算模型,将文档向量进一步转换为文档数值,通过比较文档数值之间的相似度,判断文档是否重复。也即,本发明实施例将文档的比较过程,转换为数值的比较过程,可以简化文档比较的计算过程,进一步提高过滤重复文档的效率和准确性。再者,本发明实施例的所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型,根据大量样本数据训练得到的文档计算模型,能够提高将文档向量转换为文档数值的准确性,可以进一步保证文档比较的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明的一种数据处理装置实施例的结构框图;
图3是本发明实施例的一种用于数据处理的装置800的框图;及
图4是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、对文档进行预处理,得到所述文档对应的文档向量;
步骤102、将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
步骤103、根据所述文档计算模型的输出,确定所述文档对应的文档数值;
步骤104、通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
本发明实施例的数据处理方法可用于识别重复文档。可以理解,本发明实施例对所述文档的具体来源不加以限制。例如,所述文档可以为搜索引擎爬取的网页文档、或者可以为用户本地存储的文档、或者还可以为用户通过即时通讯应用发送或者接收的文档等。本发明实施例对所述文档的具体类型不加以限制,例如,所述文档包括但不限于:HTML(Hyper Text Markup Language,超文本标记语言)页面文档、Word(微软文字处理程序)文档、TXT(文本格式)文档等。
本发明实施例的数据处理方法可运行于电子设备,所述电子设备包括但不限于:个人计算机、中型计算机、计算机集群、服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture Experts Group Audio LayerIV)播放器、膝上型便携计算机、车载电脑、机顶盒、智能电视机、可穿戴设备等等。
针对在文档包含工业级词表的情况下,导致占用较大的内存以及影响计算准确性的问题,本发明实施例首先对文档进行预处理,得到文档对应的文档向量。相对于工业级词表,向量不仅占用较小的内存,而且可以提高计算的效率和准确性。例如,可以将一篇文档表示成一个200维的向量。
其中,所述预处理具体可以包括如下操作步骤:首先,对文档进行分词处理;然后,对分词处理得到的分词进行过滤,以过滤掉其中的停用词和标点符号等,得到分词序列;最后,对分词序列进行向量转换,得到该文档对应的文档向量。
当然,本发明实施例对于将文档转换为向量的具体方式不加以限制。例如,对文档进行分词得到分词序列之后,可以利用词向量模型(如Word2vec或者Glove)确定分词序列中每个分词的向量表示,对每个分词的向量进行加权求和,得到该文档的文档向量。
在对文档进行预处理,得到所述文档对应的文档向量之后,可以将所述文档向量输入文档计算模型,根据所述文档计算模型的输出,确定所述文档对应的文档数值。其中,所述文档数值可以为整数值或者二进制值,经过文档计算模型的计算,可以将文档向量进一步转换为一个数值。由于相同或者相似的文档具有相同或相似的向量表示,因此,根据相同或相似的向量表示计算得到的文档数值,也相同或者相似。由此,通过计算至少两个文档分别对应的文档数值之间的相似度,可以确定所述至少两个文档中是否存在重复文档。需要说明的是,所述重复文档可以为内容完全相同的文档。或者,相同内容所占比例满足预设比例的两篇文档,也可以认为是重复文档。
在本发明的一种可选实施例中,步骤104通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档,具体可以包括:
在所述文档数值为整数值的情况下,若所述至少两个文档对应的整数值中,存在整数值相同的至少两个第一文档,则确定所述至少两个第一文档为重复文档;或者
在所述文档数值为二进制值的情况下,若所述至少两个文档对应的二进制值中,存在二进制值的差异位数小于第二预设值的至少两个第二文档,则确定所述至少两个第二文档为重复文档。
以判断两个文档是否为重复文档为例,假设需要判断文档A和文档B是否为重复文档,则首先分别对文档A和文档B进行预处理,得到文档A对应的文档向量A1和文档B对应的文档向量B1。然后,将文档向量A1输入文档计算模型,根据文档计算模型的输出,确定文档A对应的文档数值A2;同样地,将文档向量B1输入文档计算模型,根据文档计算模型的输出,确定文档B对应的文档数值B2。
第一种情况,文档数值A2和文档数值B2为整数值,则判断文档数值A2和文档数值B2是否相同,若相同,则确定文档A和文档B为重复文档。
第二种情况,文档数值A2和文档数值B2为二进制值,则确定文档数值A2和文档数值B2的二进制值的差异位数。假设文档数值A2的十进制表示为“100”,文档数值B2的十进制表示为“110”,则将文档数值A2和文档数值B2分别按位展开可以得到文档数值A2的二进制表示为“01100100”,以及文档数值B2的二进制表示为“01101110”。可以看出,“01100100”和“01101110”中有两位的值不同,也即差异位数为2。在实际应用中,可以预先设置第二预设值,如果两个文档的二进制值的差异位数小于该第二预设值,说明这两个二进制值较为接近,进而可以确定这两个文档为重复文档。
参照表1,示出了一种文档A和文档B的具体示意。如表1所示,文档A和文档B分别包括三段文本。
表1
Figure BDA0002228660890000061
通过本发明实施例的数据处理方法,可以确定上述表1中的文档A对应的文档数值A2和文档B对应的文档数值B2相同,因此,可以确定该文档A和该文档B为重复文档。
在本发明的一种可选实施例中,所述对文档进行预处理,得到所述文档对应的文档向量的步骤之后,所述方法还可以包括:对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量。
步骤102中所述将所述文档向量输入文档计算模型,具体可以包括:将所述文档对应的二值化向量输入文档计算模型。
为了进一步提高文档计算模型的计算速度,本发明实施例在对文档进行预处理,得到所述文档对应的文档向量之后,还可以对所述文档向量进行二值化处理,得到所述文档对应的二值化向量,并且将所述文档对应的二值化向量输入文档计算模型进行计算,以得到文档对应的文档数值。
在本发明的一种可选实施例中,所述对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量,具体可以包括:
将所述文档对应的文档向量的每一个维度向量中,大于第一预设值的维度向量设置为第一数值,小于第一预设值的维度向量设置为第二数值,得到所述文档对应的二值化向量。
在本发明的一种应用示例中,对于文档向量的每一个维度向量,分别与第一预设值(假设第一预设值为0)进行比较,如果当前维度向量大于0,则将当前维度向量设置为第一数值(假设第一数值为1),如果当前维度向量小于0,则将当前维度向量设置为第二数值(假设第二数值为0),直到该文档向量的所有维度向量转换完成,即可将该文档向量转换为一个仅包含0或者1的二值化向量。
可以理解,本发明实施例对所述第一预设值的具体数值不加以限制。例如,所述第一预设值还可以为当前文档对应的文档向量所有维度向量的平均值。所述第一数值和所述第二数值可以为0或1。
在本发明的一种可选实施例中,步骤103根据所述文档计算模型的输出,确定所述文档对应的文档数值,具体可以包括:
步骤S1031、获取所述文档计算模型的隐层输出数据;
步骤S1032、对所述隐层输出数据进行二值化处理,得到所述文档对应的文档数值。
在本发明实施例中,所述文档计算模型可以为深层神经网络模型,在将所述文档对应的文档向量(或者二值化向量)输入所述文档计算模型之后,可以获取所述文档计算模型的隐层输出数据。
在本发明的一种可选实施例中,所述文档计算模型可以包括多个隐层,所述获取所述文档计算模型的隐层输出数据,具体可以包括:获取最靠近输出层的隐层输出数据。
需要说明的是,所述文档计算模型可以包括多个隐层,所述步骤S1032可以不用获取所述文档计算模型所有隐层输出的数据。比如,若所述文档计算模型包含多个隐层,可以只获取其中一个隐层生成的隐层输出数据。在有多个隐层的情况下,可以获取任一隐层的隐层输出数据。作为一种优选的实施方式,可以获取最靠近输出层的隐层输出数据。
文档向量在文档计算模型的逐层处理过程中,虽然数据在变换,但是主要的特征仍然会被保留下来,并且越靠近输出层越能体现更加深层的特征,如语义方面的特征。因此,获取最靠近输出层的隐层输出数据可以体现文档的深层特征,进而可以从语义等深层特征反应文档的比较结果,以进一步提高文档比较的准确性。
所述隐层输出数据可以为一个向量,对该向量进行二值化表示,可以得到所述文档对应的文档数值。以所述隐层输出数据为一个64维向量为例,可以将该64维向量中大于0的维度向量设置为1,小于0的维度向量设置为0,进而可以将该64维向量的每一个维度向量转换为0或者1,最后可以将该每一个维度向量为0或者1的64维向量转换为一个整数值或者二进制值,得到该文档对应的文档数值。
在本发明的一种可选实施例中,所述文档计算模型可以包括自编码器。
其中,自编码器可以为一个深层神经网络模型,通过对自编码器进行训练,可以实现一种输入等于输出(在实际应用中,允许一定的误差)的非线性机器学习算法。
在本发明实施例中,所述自编码器可以包含至少一个隐层,输入所述自编码器的文档向量依次经过输入层、各隐层、以及输出层。每层都可以包含多个节点,每个节点会对来自上层节点的数据进行计算。隐层的节点计算得到的数据即为所述隐层输出数据,其反应了所述自编码器的输入与输出的中间状态,本发明实施例根据该隐层输出数据,可以确定输入所述自编码器的文档向量对应的文档数值。
在具体应用中,自编码器的隐层数值存在分布不可控的问题,其中,分布不可控是指自编码器的隐层输出可以是一个多维向量,但是每一维的数值可能具有较大的差异。例如,隐层输出一个100维的向量,其中最大值可能为100,最小值可能为-100,导致各个维度的数值分布非常无序,如果不对隐层数值进行控制,将会影响计算结果的准确性。为解决该问题,本发明实施例的所述文档计算模型可以包括变分自编码器。
在本发明的一种可选实施例中,所述文档计算模型可以包括变分自编码器;则在所述变分自编码器的输入为文档向量的情况下,所述变分自编码器为将平方误差损失作为损失函数训练得到;或者,在所述变分自编码器的输入为二值化向量的情况下,所述变分自编码器为将最大KL(Kullback-Leibler Divergence,相对熵)损失作为损失函数训练得到。
自编码器和变分自编码器的网络结构很相似,自编码器对隐层没有特殊的处理,而变分自编码器对隐层有一个重定向的操作,可以解决自编码器的隐层数值分布不可控的问题。
在本发明实施例中,针对输入文档计算模型的数据可以为文档向量或者二值化向量的两种情况,对于这两种不同类型的输入数据,在所述文档计算模型为变分自编码器的情况下,在训练所述变分自编码器的过程中可以采用不同的损失函数。
具体地,可以收集用于训练变分自编码器的文档样本,对文档样本进行预处理,得到所述文档样本对应的文档向量。在根据所述文档样本对应的文档向量训练变分自编码器的情况下,由于希望训练得到的变分自编码器的输入等于输出,因此,希望变分自编码器输出的向量和输入的向量的平方差误差越小越好,则可以将平方误差损失作为损失函数,将所述文档样本对应的文档向量输入初始的变分自编码器进行学习训练,得到训练完成的变分自编码器。
可选地,在得到所述文档样本对应的文档向量之后,还可以对所述文档样本对应的文档向量进行二值化处理,得到所述文档样本对应的二值化向量,并且根据该二值化向量训练变分自编码器。在这种情况下,由于希望训练得到的变分自编码器的输入等于输出,因此,希望变分自编码器输出的向量和输入的向量的KL距离越小越好,则可以将最大KL损失作为损失函数,将所述文档样本对应的二值化向量输入初始的变分自编码器进行学习训练,得到训练完成的变分自编码器。
通过上述两种不同类型的输入数据和对应的损失函数,可以训练得到与输入数据类型相对应的变分自编码器(也即文档计算模型)。
可选地,本发明实施例的所述文档计算模型也可以采用自编码器。在采用自编码器的情况下,可以通过增加损失函数来约束隐层的分布,比如添加一项用于约束隐层分布的损失函数,来解决自编码器的隐层数值分布不可控的问题。
同样地,在所述文档计算模型为自编码器时,也存在输入数据为文档向量或者二值化向量的两种情况。针对这两种不同类型的输入数据,自编码器的训练过程与变分自编码器的训练过程类似,此处不再进行赘述。区别在于,在训练所述自编码器的过程中增加了用于约束隐层分布的损失函数。
具体地,在所述自编码器的输入为文档向量的情况下,为了防止自编码器的隐层数值分布不可控,需要限制自编码器的隐层分布与正太分布尽可能地相似。因此,在将平方误差损失作为训练自编码器的损失函数的基础上,还可以增加用于约束隐层分布的损失函数。例如,可以将计算隐层分布和正太分布之间的最大KL损失作为新增的损失函数,添加到训练所述自编码器的过程中。
同理,在所述自编码器的输入为二值化向量的情况下,为了防止自编码器的隐层数值分布不可控,需要限制自编码器的隐层分布与二值化分布尽可能地相似。因此,在将最大KL损失作为损失函数的基础上,还可以增加用于约束隐层分布的损失函数。例如,可以将计算隐层分布和二值分布之间的最大KL损失作为新增的损失函数,添加到训练所述自编码器的过程中。
可以理解,在本发明实施例中,还可以在所述深层神经网络模型中添加其它更多的损失函数,训练的过程中同时最小化多个损失函数,以进一步提高文档计算模型的准确性。
综上,本发明实施例将文档转换为文档向量,相对于工业级词表,向量不仅占用较小的内存,而且可以提高计算的效率和准确性,进而可以提高过滤重复文档的效率和准确性。此外,本发明实施例通过文档计算模型,将文档向量进一步转换为文档数值,通过比较文档数值之间的相似度,判断文档是否重复。也即,本发明实施例将文档的比较过程,转换为数值的比较过程,可以简化文档比较的计算过程,进一步提高过滤重复文档的效率和准确性。再者,本发明实施例的所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型,根据大量样本数据训练得到的文档计算模型,能够提高将文档向量转换为文档数值的准确性,可以进一步保证文档比较的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图2,示出了本发明的一种数据处理装置实施例的结构框图,所述装置具体可以包括:
文档处理模块201,用于对文档进行预处理,得到所述文档对应的文档向量;
数据输入模块202,用于将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
数值确定模块203,用于根据所述文档计算模型的输出,确定所述文档对应的文档数值;
文档比较模块204,用于通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
可选地,所述装置还可以包括:
二值化模块,用于对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量;
所述数据输入模块,具体用于将所述文档对应的二值化向量输入文档计算模型。
可选地,所述二值化模块,具体用于将所述文档对应的文档向量的每一个维度向量中,大于第一预设值的维度向量设置为第一数值,小于第一预设值的维度向量设置为第二数值,得到所述文档对应的二值化向量。
可选地,所述数值确定模块203,具体可以包括:
数据获取子模块,用于获取所述文档计算模型的隐层输出数据;
数据计算子模块,用于对所述隐层输出数据进行二值化处理,得到所述文档对应的文档数值。
可选地,所述文档计算模型包括多个隐层,所述数据获取子模块,具体用于获取最靠近输出层的隐层输出数据。
可选地,所述文档比较模块204,具体可以包括:
第一比较子模块,用于在所述文档数值为整数值的情况下,若所述至少两个文档对应的整数值中,存在整数值相同的至少两个第一文档,则确定所述至少两个第一文档为重复文档;或者
第二比较子模块,用于在所述文档数值为二进制值的情况下,若所述至少两个文档对应的二进制值中,存在二进制值的差异位数小于第二预设值的至少两个第二文档,则确定所述至少两个第二文档为重复文档。
可选地,所述文档计算模型可以包括变分自编码器或自编码器。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对文档进行预处理,得到所述文档对应的文档向量;将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;根据所述文档计算模型的输出,确定所述文档对应的文档数值;通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
图3是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:对文档进行预处理,得到所述文档对应的文档向量;将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;根据所述文档计算模型的输出,确定所述文档对应的文档数值;通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
本发明实施例公开了A1、一种数据处理方法,包括:
对文档进行预处理,得到所述文档对应的文档向量;
将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
根据所述文档计算模型的输出,确定所述文档对应的文档数值;
通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
A2、根据A1所述的方法,所述对文档进行预处理,得到所述文档对应的文档向量的步骤之后,所述方法还包括:
对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量;
所述将所述文档向量输入文档计算模型,包括:
将所述文档对应的二值化向量输入文档计算模型。
A3、根据A2所述的方法,所述对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量,包括:
将所述文档对应的文档向量的每一个维度向量中,大于第一预设值的维度向量设置为第一数值,小于第一预设值的维度向量设置为第二数值,得到所述文档对应的二值化向量。
A4、根据A1所述的方法,所述根据所述文档计算模型的输出,确定所述文档对应的文档数值,包括:
获取所述文档计算模型的隐层输出数据;
对所述隐层输出数据进行二值化处理,得到所述文档对应的文档数值。
A5、根据A4所述的方法,所述文档计算模型包括多个隐层,所述获取所述文档计算模型的隐层输出数据,包括:
获取最靠近输出层的隐层输出数据。
A6、根据A1所述的方法,所述通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档,包括:
在所述文档数值为整数值的情况下,若所述至少两个文档对应的整数值中,存在整数值相同的至少两个第一文档,则确定所述至少两个第一文档为重复文档;或者
在所述文档数值为二进制值的情况下,若所述至少两个文档对应的二进制值中,存在二进制值的差异位数小于第二预设值的至少两个第二文档,则确定所述至少两个第二文档为重复文档。
A7、根据A1至A6中任一所述的方法,所述文档计算模型包括变分自编码器或自编码器。
本发明实施例公开了B8、一种数据处理装置,包括:
文档处理模块,用于对文档进行预处理,得到所述文档对应的文档向量;
数据输入模块,用于将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
数值确定模块,用于根据所述文档计算模型的输出,确定所述文档对应的文档数值;
文档比较模块,用于通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
B9、根据B8所述的装置,所述装置还包括:
二值化模块,用于对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量;
所述数据输入模块,具体用于将所述文档对应的二值化向量输入文档计算模型。
B10、根据B9所述的装置,所述二值化模块,具体用于将所述文档对应的文档向量的每一个维度向量中,大于第一预设值的维度向量设置为第一数值,小于第一预设值的维度向量设置为第二数值,得到所述文档对应的二值化向量。
B11、根据B8所述的装置,所述数值确定模块,包括:
数据获取子模块,用于获取所述文档计算模型的隐层输出数据;
数据计算子模块,用于对所述隐层输出数据进行二值化处理,得到所述文档对应的文档数值。
B12、根据B11所述的装置,所述文档计算模型包括多个隐层,所述数据获取子模块,具体用于获取最靠近输出层的隐层输出数据。
B13、根据B8所述的装置,所述文档比较模块,包括:
第一比较子模块,用于在所述文档数值为整数值的情况下,若所述至少两个文档对应的整数值中,存在整数值相同的至少两个第一文档,则确定所述至少两个第一文档为重复文档;或者
第二比较子模块,用于在所述文档数值为二进制值的情况下,若所述至少两个文档对应的二进制值中,存在二进制值的差异位数小于第二预设值的至少两个第二文档,则确定所述至少两个第二文档为重复文档。
B14、根据B8至B13中任一所述的装置,所述文档计算模型包括变分自编码器或自编码器。
本发明实施例公开了C15、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对文档进行预处理,得到所述文档对应的文档向量;
将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
根据所述文档计算模型的输出,确定所述文档对应的文档数值;
通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
C16、根据C15所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量;
所述将所述文档向量输入文档计算模型,包括:
将所述文档对应的二值化向量输入文档计算模型。
C17、根据C16所述的装置,所述对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量,包括:
将所述文档对应的文档向量的每一个维度向量中,大于第一预设值的维度向量设置为第一数值,小于第一预设值的维度向量设置为第二数值,得到所述文档对应的二值化向量。
C18、根据C15所述的装置,所述根据所述文档计算模型的输出,确定所述文档对应的文档数值,包括:
获取所述文档计算模型的隐层输出数据;
对所述隐层输出数据进行二值化处理,得到所述文档对应的文档数值。
C19、根据C18所述的装置,所述文档计算模型包括多个隐层,所述获取所述文档计算模型的隐层输出数据,包括:
获取最靠近输出层的隐层输出数据。
C20、根据C15所述的装置,所述通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档,包括:
在所述文档数值为整数值的情况下,若所述至少两个文档对应的整数值中,存在整数值相同的至少两个第一文档,则确定所述至少两个第一文档为重复文档;或者
在所述文档数值为二进制值的情况下,若所述至少两个文档对应的二进制值中,存在二进制值的差异位数小于第二预设值的至少两个第二文档,则确定所述至少两个第二文档为重复文档。
C21、根据C15至C20中任一所述的装置,所述文档计算模型包括变分自编码器或自编码器。
本发明实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A7中一个或多个所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
对文档进行预处理,得到所述文档对应的文档向量;
将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
根据所述文档计算模型的输出,确定所述文档对应的文档数值;
通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
2.根据权利要求1所述的方法,其特征在于,所述对文档进行预处理,得到所述文档对应的文档向量的步骤之后,所述方法还包括:
对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量;
所述将所述文档向量输入文档计算模型,包括:
将所述文档对应的二值化向量输入文档计算模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述文档对应的文档向量进行二值化处理,得到所述文档对应的二值化向量,包括:
将所述文档对应的文档向量的每一个维度向量中,大于第一预设值的维度向量设置为第一数值,小于第一预设值的维度向量设置为第二数值,得到所述文档对应的二值化向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文档计算模型的输出,确定所述文档对应的文档数值,包括:
获取所述文档计算模型的隐层输出数据;
对所述隐层输出数据进行二值化处理,得到所述文档对应的文档数值。
5.根据权利要求4所述的方法,其特征在于,所述文档计算模型包括多个隐层,所述获取所述文档计算模型的隐层输出数据,包括:
获取最靠近输出层的隐层输出数据。
6.根据权利要求1所述的方法,其特征在于,所述通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档,包括:
在所述文档数值为整数值的情况下,若所述至少两个文档对应的整数值中,存在整数值相同的至少两个第一文档,则确定所述至少两个第一文档为重复文档;或者
在所述文档数值为二进制值的情况下,若所述至少两个文档对应的二进制值中,存在二进制值的差异位数小于第二预设值的至少两个第二文档,则确定所述至少两个第二文档为重复文档。
7.根据权利要求1至6中任一所述的方法,其特征在于,所述文档计算模型包括变分自编码器或自编码器。
8.一种数据处理装置,其特征在于,所述装置包括:
文档处理模块,用于对文档进行预处理,得到所述文档对应的文档向量;
数据输入模块,用于将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
数值确定模块,用于根据所述文档计算模型的输出,确定所述文档对应的文档数值;
文档比较模块,用于通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
9.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对文档进行预处理,得到所述文档对应的文档向量;
将所述文档向量输入文档计算模型,所述文档计算模型为根据收集的文档样本训练得到的深层神经网络模型;
根据所述文档计算模型的输出,确定所述文档对应的文档数值;
通过计算至少两个文档分别对应的文档数值之间的相似度,确定所述至少两个文档中是否存在重复文档。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中任意一项所述的数据处理方法。
CN201910960199.5A 2019-10-10 2019-10-10 一种数据处理方法、装置和用于数据处理的装置 Pending CN112651221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910960199.5A CN112651221A (zh) 2019-10-10 2019-10-10 一种数据处理方法、装置和用于数据处理的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910960199.5A CN112651221A (zh) 2019-10-10 2019-10-10 一种数据处理方法、装置和用于数据处理的装置

Publications (1)

Publication Number Publication Date
CN112651221A true CN112651221A (zh) 2021-04-13

Family

ID=75343502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910960199.5A Pending CN112651221A (zh) 2019-10-10 2019-10-10 一种数据处理方法、装置和用于数据处理的装置

Country Status (1)

Country Link
CN (1) CN112651221A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817230A (zh) * 2022-06-29 2022-07-29 深圳市乐易网络股份有限公司 一种数据流过滤方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817230A (zh) * 2022-06-29 2022-07-29 深圳市乐易网络股份有限公司 一种数据流过滤方法及系统

Similar Documents

Publication Publication Date Title
US20170154104A1 (en) Real-time recommendation of reference documents
CN111145756B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN107621886B (zh) 一种输入推荐方法、装置及电子设备
CN108227950B (zh) 一种输入方法和装置
CN108073606B (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN109144285B (zh) 一种输入方法和装置
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN107515870B (zh) 一种搜索方法和装置、一种用于搜索的装置
CN112784142A (zh) 一种信息推荐方法及装置
CN113705210A (zh) 一种文章大纲生成方法、装置和用于生成文章大纲的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN112541110A (zh) 一种信息推荐方法、装置和电子设备
CN114168798A (zh) 文本存储管理与检索方法及装置
CN112307281A (zh) 一种实体推荐方法及装置
CN110232181B (zh) 评论分析方法及装置
CN108268507B (zh) 一种基于浏览器的处理方法、装置及电子设备
CN109918624B (zh) 一种网页文本相似度的计算方法和装置
CN107436896B (zh) 一种输入推荐方法、装置及电子设备
CN112651221A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN110147426B (zh) 一种查询文本的分类标签确定方法及相关装置
CN112052395A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination