CN114328885A - 一种信息处理方法、装置及计算机可读存储介质 - Google Patents

一种信息处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN114328885A
CN114328885A CN202111485271.7A CN202111485271A CN114328885A CN 114328885 A CN114328885 A CN 114328885A CN 202111485271 A CN202111485271 A CN 202111485271A CN 114328885 A CN114328885 A CN 114328885A
Authority
CN
China
Prior art keywords
processed
word
vector
target
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111485271.7A
Other languages
English (en)
Inventor
石志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111485271.7A priority Critical patent/CN114328885A/zh
Publication of CN114328885A publication Critical patent/CN114328885A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质,本申请实施例通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标待处理文本对进行去重处理。以此,通过将主成分向量移除,高效且准确的实现大数据的去重。本申请实施例的技术方案可以应用到云计算、地图、大数据、人工智能等领域,提升了信息处理的效率和准确性。

Description

一种信息处理方法、装置及计算机可读存储介质
技术领域
本申请涉及信息处理技术领域,具体涉及一种信息处理方法、装置及计算机可读存储介质。
背景技术
随着互联网的发展和计算机的广泛应用,互联网中充斥着大量重复的文本内容,特别是一些训练数据和广告等业务领域,如果存在大量重复的文本内容,不仅会降低整体的文本质量,还会浪费大量的存储资源。
现有技术中,为了节省存储资源,需要去除重复的文本内容,例如,基于人工将多个文本进行两两比较,将重复的文本去除,或者,通过一些文本算法比较文本之间的相似性,将相似的文本去除,达到去重的效果。
在对现有技术的研究和实践过程中,本申请的发明人发现,现有技术中,在面对海量待去除文本时,人工的方式会浪费大量的时间,而文本算法比较方式往往只能判断文本的构成是否重复,无法从语义上进行去重,导致信息处理的效率和准确性较低。
发明内容
本申请实施例提供一种信息处理方法、装置及计算机可读存储介质,可以提升信息处理的效率和准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息处理方法,包括:
获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;
将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;
基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;
将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;
计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
一种信息处理装置,包括:
获取单元,用于获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;
分词单元,用于将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;
第一计算单元,用于基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;
移除单元,用于将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;
第二计算单元,用于计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
在一些实施例中,所述移除单元,包括:
组合子单元,用于将每个句子向量进行组合,得到句子向量矩阵;
分析子单元,用于对所述句子向量矩阵进行主成分分析处理,得到主成分向量矩阵;
移除子单元,用于将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵,得到目标句子向量矩阵,所述目标句子向量矩阵中包含多个目标句子向量。
在一些实施例中,所述移除子单元,用于:
获取所述主成分向量矩阵对应的转置矩阵;
计算所述句子向量矩阵中的每个句子向量与所述主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。
在一些实施例中,所述第二计算单元,用于:
将计算后的目标句子向量矩阵进行拆分,得到多条目标句子向量;
计算每个目标句子向量之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
在一些实施例中,所述获取单元,用于:
获取待处理文本集,所述待处理文本集中包含多个待处理文本;
将每一待处理文本中的停用词移除,得到移除之后的多个目标待处理文本生成目标待处理文本集。
在一些实施例中,所述分词单元,用于:
按照不同的词长度对应的滑动窗口依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机执行上述信息处理方法中的步骤。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
本申请实施例通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。以此,通过分词处理生成语义表达准确的句子向量,且将句子向量的主成分向量移除,使向量之间的差异更明显,使得在进行句子相似性判断时,可以更好的区分不同的语句,相对于现有的人工文本去重的方式,本申请实施例可以实现自动且准确的文本去重方式,提升了信息处理的效率和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息处理系统的场景示意图;
图2是本申请实施例提供的信息处理方法的流程示意图;
图3是本申请实施例提供的信息处理方法的另一流程示意图;
图4为本申请实施例提供的开源集群计算框架的结构示意图;
图5是本申请实施例提供的信息处理方法的另一流程示意图
图6是本申请实施例提供的信息处理装置的结构示意图;
图7是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种信息处理方法、装置、及计算机可读存储介质。
请参阅图1,图1为本申请实施例所提供的信息处理系统的场景示意图,包括:终端、和服务器(该信息处理系统还可以包括除终端之外的其他终端,终端具体个数在此处不作限定),终端与服务器之间可以通过通信网络连接,该通信网络,可以包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。终端可以通过通信网络与服务器进行信息交互,比如终端在运行包含各类推送信息的应用,例如视频、短视频、微博和广告等应用时,终端可以将需要进行去重处理的目标待处理文本集发送至服务器。
该信息处理系统可以包括信息处理装置,该信息处理装置具体可以集成在服务器中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在图1中,该服务器主要用于获取目标待处理文本集,该目标待处理文本集中包含多个目标待处理文本;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理,并将去重处理后的目标待处理文本集发送至终端进行显示。
该信息处理系统还可以包括终端,该终端可以安装各种用户需要的应用,例如视频、短视频、微博和广告等各类应用,例如,终端可以将需要进行去重的目标待处理文本集发送至服务器,并且还可以接收服务器返回的去重处理后目标待处理文本集,由于将重复的文本去除,可以节省存储资源,并且提升整体的文本质量,可以实现后续更好的处理效果。
需要说明的是,图1所示的信息处理系统的场景示意图仅仅是一个示例,本申请实施例描述的信息处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着信息处理系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
在步骤101中,获取目标待处理文本集。
其中,该目标待处理文本集中包含多个目标待处理文本,每一目标待处理文本可以理解为一条句子,在相关技术中,实际的推荐业务,例如文章、广告、或者新闻等文本推荐中,为了达到更好的推荐效果,需要将一些重复的文本删除,而且,随着人工智能的发展,一些重复的训练数据,例如重复的用户画像会导致训练效率变慢,可以理解的是,在本申请的具体实施方式中,涉及到用户画像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。并且重复内容的堆叠也会导致服务器存储空间的浪费,增加不必要的成本。
为了解决上述问题,本申请实施例可以获取目标待处理文本集,该目标待处理文本集中可以包含多个待处理文本,例如1000条或者10000条,每一目标待处理文本均为一条语句,例如“汤姆追杰瑞”等。
在一实施方式中,本申请实施例可以通过云技术获取目标待处理文本集,云技术(Cloud technology)为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施方式中,该获取目标待处理文本集,可以包括:
(1)获取待处理文本集,该待处理文本集中包含多个待处理文本;
(2)将每一待处理文本中的停用词移除,得到移除之后的多个目标待处理文本生成目标待处理文本集。
其中,可以获取待处理文本集,该处理文本集中包含多个待处理文本,该待处理文本为未经过优化的文本,例如“汤姆喜欢追杰瑞~”,该数量可以为1000个或者10000个,此处不做数量限定。
进一步的,该停用词可以包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字,由于该停用词对于句子的表达没有实质性帮助,以此,本申请实施例可以将每一待处理文本中的停用词移除进行优化,得到移除之后的多个目标待处理文本生成目标待处理文本集,例如,将“汤姆喜欢追杰瑞~”优化为“汤姆喜欢追杰瑞”,以此,使得移除之后的多个目标待处理文本以更少的文字表达准确的意思,减少后续运算量,提升信息处理的效率。
在步骤102中,将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
在相关技术中,直接通过哈希(hash)算法判断目标待处理文本之间的相似性,往往只能判断文本之间构成是否重复,而无法判断文本之间的语义是否重复,而在实际的处理过程中,文本构成之间不同的文本其实也可以表达相同的意思,例如“汤姆追杰瑞”和“杰瑞被汤姆追”,两者之间在构成上不同,但是,语义是相同的意思,相关技术无法实现此场景去重,会导致去重的效果不佳。
在本申请实施例中,可以采用统计语言模型的算法(N-Gram)实现将每个待处理文本根据不同的词长度依次进行分词处理,其具体实现方式包括:将句子里面的内容按照字节进行大小为N的滑动窗口操作,形成长度是N的字节片段序列,该模型基于马尔可夫假设,即第N个词的出现只与前面N-1个词相关,而与其他任何词都不相关,整句的概率就是各个词出现概率的乘积,基于此思想,后续可以求出每个目标待处理文本的目标句子向量。
以此,可以将每个目标待处理文本根据不同的词长度,例如2个词、3个词等依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合,例如目标待处理文本1可以具有2个词、3个词长度对应的分词集合,目标待处理文本2也可以具有2个词、3个词长度对应的分词集合,依次类推,实现每个目标待处理文本在每种词长度都有对应的分词集合。该词长度的数量可以由用户设定,例如词长度2、3和4或者词长度2、3、4和5,具体还可以根据不同的应用场景配置,此处不做具体限定。
在一些实施方式中,将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合,包括:
(1)按照不同的词长度对应的滑动窗口依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
其中,该N-Gram可以包含二元的2-Gram以及三元的3-Gram等等,该2-Gram代表词长度为2对应的滑动窗口,3-Gram代表词长度为3对应的滑动窗口,相应的,N-Gram代表词长度为N对应的滑动窗口,基于此,可以按照不同词长度对应的滑动窗口依次对每个目标待处理文本Si(i代表文本数量)进行分词处理,将同一目标待处理文本的2-Gram的词语放到词语集合b2、3-Gram的词语放到词语集合b3以及将N-Gram的词语放到词语集合bn中,因此,将每个目标待处理文本拆分为N-Gram的数据集合Si={b2,b3,…,bn}。
例如,目标待处理文本为“汤姆追杰瑞”,按照2-Gram对应的滑动窗口进行分词处理,可以得到该目标待处理文本“汤姆追杰瑞”对应词长度为2的分词集合(汤姆,姆追,追杰,杰瑞),依次类推,可以得到目标待处理文本“汤姆追杰瑞”对应每种词长度下的分词集合。
在步骤103中,基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量。
其中,为了得到每个目标待处理文本相应的句子向量,首先可以将同一目标待处理文本中的分词分别转化为相应的向量,该向量可以理解为词转化为词语转化的向量,即将word(词语)映射到一个新的空间中,并以多维的连续实数的向量进行表示叫做词向量(Word Embedding),为自然语言处理(NLP)中的一组语言建模和特征学习技术的统称。其中来自词汇表的单词或短语被映射到实数的向量。它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
在一实施方式中,本申请实施例可以通过语言模型算法,例如word2vec算法来将每个分词集合中分词转化为对应的向量,例如将分词“汤姆”转化为[0.01,0.23,0.89,…0.92],生成所有分词对应的词向量词典,该word2vec算法可以将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。
进一步的,可以通过该word2vec算法将同一目标待处理文本中每个分词集合中的分词均转化为向量,进而将同一分词集合中的全部分词对应的向量组合,得到每个分词集合对应的词向量,该词向量可以表达以对应词长度进行分词的分词集合表达的分词句子向量,该分词句子向量由于为不同分词对应的向量表达组成,所以可以识别语义接近的不同的句子,并且,由于同一目标待处理文本包含多个分词集合,所以本申请实施例可以继续将同一目标待处理文本的多个分词集合对应的分词句子向量继续组合,形成该目标待处理文本相应的句子向量,该句子向量因为进一步融合了多个词长度的分词集合的分词句子向量,所以表达该目标待处理文本的语义会更加准确,可以使得后续去重更准确。
在一实施方式中,该基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量,可以包括:
(1)依次计算每个目标待处理文本对应每个分词集合的词向量;
(2)根据每个分词集合对应的词长度,为每个词向量设置不同的权重;
(3)将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量。
其中,可以通过word2vec算法依次计算每个目标待处理文本对应每个分词集合中每一分词对应的向量,进而可以将同一目标待处理文本中同一分词集合中每一分词对应的向量进行统计,得到同一目标待处理文本中每个分词集合的词向量。容易理解的是,由于不同的词长度进行分词的场景下,词长度越长的词出现的词频越低,而词长度越短的词出现的词频越高,在实际应用中,词频越大的词的重要性往往较低,反而,词频越小的词的重要性往往越高。以此,可以根据每个分词集合对应的词长度,为每个分词集合对应的词向量设置相应的权重,分词集合对应的词长度越小,其对应设置的权重越小,相反的,分词集合对应的词长度越大,其对应设置的权重越大,例如对于2个词的分词集合可以设置权重0.2,3个词的分词集合可以设置权重0.3,4个词的分词集合可以设置权重0.5。
进一步的,可以将同一目标待处理文本的每个词向量按照对应的权重进行调节,并将调节之后的每个词向量组合,得到每个目标待处理文本相应的句子向量。
在步骤104中,将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量。
其中,不同的目标待处理文本之间可能存在相关性,例如目标待处理文本“汤姆是个坏人”以及目标待处理文本“汤姆是个好人”之间都存在“是个”的共同信息,以此,导致目标待处理文本转化之后句子向量之间也存在共同信息,为了实现后续更好的判断两个目标待处理文本之间的相似性,可以将该共同信息移除,该共同信息可以为主成分向量,在一实施方式中,该主成分向量可以为通过对全部句子向量进行主成分分析方法(PrincipalComponent Analysis,PCA)得到的,该主成分分析方法为是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,该k维小于n维,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征,可用于提取数据的主要特征分量。
该主成分向量为全部句子向量中分析出的重要主成分向量,即为全部句子向量对应的共同信息,本申请实施例可以在每个句子向量中移除该主成分向量,即将每个句子向量中的共同信息移除,得到移除处理之后的多个目标句子向量,目标句子向量由于移除了共同信息,因此,目标句子向量之间的差异表达更明显,可以使得后续去重处理更准确。
在一实施方式中,该将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量,可以包括:
(1)将每个句子向量进行组合,得到句子向量矩阵;
(2)对该句子向量矩阵进行主成分分析处理,得到主成分向量矩阵;
(3)将该句子向量矩阵中的每个句子向量依次移除该主成分向量矩阵,得到目标句子向量矩阵,该目标句子向量矩阵中包含多个目标句子向量。
其中,可以获取每个句子向量Wi,将全部句子向量Wi传输到Reduce算子进行聚合,该Reduce算子用于将多维张量数据,在某一维度上执行特定的计算,从而达到降低维度的目的,以此可以得到句子向量矩阵X,X={W1,W2、W3、…、Wi},矩阵的维度为(i,d),该n为所有文本的数量,d为每个句子向量的大小。
进一步的,对该矩阵X通过PCA工具进行主成分分析,得到主成分矩阵μ,该主成分矩阵μ为矩阵X的在降维后的重要组成矩阵,也可以理解为矩阵X的共同信息,以此,可以将该句子向量矩阵中的每个句子向量依次移除该主成分向量矩阵,得到移除共同信息的目标句子向量矩阵,该目标句子向量矩阵中包含多个目标句子向量。
在一实施方式中,该将该句子向量矩阵中的每个句子向量依次移除该主成分向量矩阵,得到目标句子向量矩阵,可以包括:
(1.1)获取该主成分向量矩阵对应的转置矩阵;
(1.2)计算该句子向量矩阵中的每个句子向量与该主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。
其中,可以获取该主成分向量矩阵对应的转置矩阵,该转置矩阵为将矩阵的行列互换得到的新矩阵称为转置矩阵,转置矩阵的行列式不变。为了更好的描述计算过程,请一并参阅如下公式:
Figure BDA0003397319750000111
其中,该
Figure BDA0003397319750000112
为目标句子向量矩阵,μ为主成分矩阵,μT为主成分矩阵的转置矩阵,以此,通过上述公式,计算该句子向量矩阵中每个句子向量wi与该主成分矩阵μ、转置矩阵μT和对应的句子相应wi的乘积的差值,得到计算后的目标句子向量矩阵
Figure BDA0003397319750000113
在步骤105中,计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
其中,不同的目标句子向量之间的空间距离越近,两者越相似,空间距离越远,两者越不相似,在一实施方式中,可以通过欧式距离或者余弦相似度来计算该相似度,该预设阈值为界定每两个目标句子向量对应的两个目标待处理文本是否为同一文本的临界值。
以此,由于每个目标句子向量都移除了共同信息,以此,目标句子向量之间表达差异更明显,计算出的每个目标句子向量之间的相似度更准确,可以将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对判定为相同的文本,将判定为相同的待处理文本对中的任一目标待处理文本删除,实现精准去重,由于本申请实施例对于目标句子向量的表达的语义更为准确,且通过去除主成分向量使得目标句子向量之间的差异更为显著,可以使得相似度计算更加准确,实现较好的去重效果。
由上述可知,本申请实施例通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。以此,通过分词处理生成语义表达准确的句子向量,且将句子向量的主成分向量移除,使向量之间的差异更明显,使得在进行句子相似性判断时,可以更好的区分不同的语句,相对于现有的人工文本去重的方式,本申请实施例可以实现自动且准确的文本去重方式,提升了信息处理的效率和准确性。
以下将举例作进一步详细说明。
在本实施例中,将以该信息处理装置具体集成在服务器中为例进行说明。
请参阅图3,图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取待处理文本集,将每一待处理文本中的停用词移除,得到移除之后的多个目标待处理文本生成目标待处理文本集。
其中,本申请实施例中的服务器可以为使用云技术的云服务器,可以集成开源集群计算框架,例如Spark引擎,该Spark引擎为一种专为大数据处理设计的快速通用计算引擎,请一并参阅图4所示,图4为本申请实施例提供的开源集群计算框架的结构示意图。
该应用层A可以包括结构化数据的程序包(Spark SQL)、流式计算的组件(SparkStreaming)、机器学习的程序库(MLlib(machine learning))和图操作和计算的工具集合(Graph X),该结构化数据的程序包是Spark用来操作结构化数据的程序包,通过该SparkSQL,可以使用SQL方言来查询数据,该Spark SQL支持多种数据源,比如数据仓库工具(Hive)表等。该流式计算的组件是Spark提供的对实时数据进行流式计算的组件,提供了用来操作数据流的应用程序编程接口(Application Programming Interface,API)。该机器学习的程序库提供常见的机器学习功能的程序库,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。该图操作和计算的工具集合为控制图、并行图操作和计算的一组算法和工具的集合。
该核心数据计算层B可以包括开源集群计算框架的代码功能层(Spark Core),实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与存储系统交互等模块,该Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Datasets,RDD)的API定义。
该资源调度层C可以包括本地运行模式、开源的通用资源管理系统(YARN)以及开源分布式资源管理框架(Mesos)等等,用于进行资源管理。
数据资源层D可以包括分布式文件系统(Hadoop Distributed File System,HDFS)或者分布式的、面向列的开源数据库(HBase)等等。
通过上述的Spark引擎可以实现分布式的对数据进行迭代式处理,提供高效处理数据流的运算速度,且该Spark支持多种开发语言的API,可以快速构建不同的应用。
以此,服务器可以通过Spark引擎加载分布式文件系统上的待处理文本集合以及实现后续运算处理,该待处理文本集中包含多个待处理文本,例如某一待处理文本为“小汤姆喜欢追杰瑞~”,该数量可以为1000个或者10000个,此处不做数量限定。
进一步的,可以将每一待处理文本中的停用词移除进行优化,得到移除之后的多个目标待处理文本生成目标待处理文本集,例如,将“小汤姆喜欢追杰瑞~”优化为“汤姆喜欢追杰瑞”,以此,使得移除之后的多个目标待处理文本以更少的文字表达准确的意思,减少后续运算量,提升信息处理的效率。
在步骤202中,服务器按照不同的词长度对应的滑动窗口依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
其中,假设该目标待处理文本为Si,i为第几条目标待处理文本,可以根据N-Gram对应的N种不同的词长度对应的滑动窗口,以此对每个目标待处理文本进行分词处理,例如N=4,2-Gram代表词长度为2对应的滑动窗口,3-Gram代表词长度为3对应的滑动窗口,4-Gram代表词长度为4对应的滑动窗口,基于此,可以将同一目标待处理文本的2-Gram的词语放到词语集合b2、3-Gram的词语放到词语集合b3以及将4-Gram的词语放到词语集合b4中,因此,将每个目标待处理文本拆分为N-Gram的数据集合Si={b2,b3,…,bn},n=4。即每个目标待处理文本对应可以有4个分词集合。
在步骤203中,服务器获取每个分词集合中每个分词对应的向量和词频信息,将同一目标待处理文本中每个分词集合中每个分词的向量和对应的词频信息进行计算,得到每个目标待处理文本对应每个分词集合的词向量。
在实际应用中,词频越大的词的重要性往往较低,反而,词频越小的词的重要性往往越高,以此,需要获取每个分词集合中每个分词对应的向量和词频信息,该向量信息可以为通过word2vec算法对每个分词进行计算得到。该词频信息为该分词在所有分词中出现的概率,例如分词“杰瑞”在所有100个分词中出现了20次,那么该分词“杰瑞”的词频信息为0.2。
进一步的,为了更好的说明本申请实施例,可以一并参阅如下公式:
Figure BDA0003397319750000141
其中,该g2为任一目标待处理文本在词长度为2对应分词集合的词向量,该α为超参数,即已知参数,该vw为词长度为2对应分级集合中每一分词的向量,w为分词数量,该pw为每一分词的词频,基于上述公式,将每一分词的向量vw除以该分词的词频并进行求和,使得出现词频越高的分词的比重越低,出现词频越低的分词的比重越高,符合实际的应用,最后得到每个分词集合表达词义更好的词向量,依次类推,可以算出词长度为3对应分词集合的词向量以及词长度为4对应分词集合的词向量。
在步骤204中,服务器根据每个分词集合对应的词长度,为每个词向量设置不同的权重信息。
其中,可以根据每个分词集合对应的词长度,为每个分词集合对应的词向量设置相应的权重,分词集合对应的词长度越小,其对应设置的权重越小,相反的,分词集合对应的词长度越大,其对应设置的权重越大,例如对于2个词的分词集合可以设置权重0.2,3个词的分词集合可以设置权重0.3,4个词的分词集合可以设置权重0.5。
在步骤205中,服务器将每个目标待处理文本的每个词向量和对应的权重进行相乘,得到每个目标待处理文本对应的多个乘积,将同一目标待处理文本对应的多个乘积求和,得到每个目标待处理文本相应的句子向量。
其中,为了更好的说明本申请实施例,可以一并参阅如下公式:
Figure BDA0003397319750000151
该Wi为句子向量,i的数量等于目标待处理文本的数量,gi为任一目标待处理文本在词长度为i对应分词集合的词向量,该βi为词长度为i对应分词集合的权重,依次,将同一目标待处理文本的每个词向量gi和对应的权重βi进行相乘,并将同一待处理文本的乘积进行求和,得到每个目标待处理文本相应的句子向量Wi
在步骤206中,服务器将每个句子向量进行组合,得到句子向量矩阵,对句子向量矩阵进行主成分分析处理,得到主成分向量矩阵。
其中,可以获取每个句子向量Wi,将全部句子向量Wi传输到Reduce算子进行聚合,降低维度,以此可以得到句子向量矩阵X,X={W1,W2、W3、…、Wi},矩阵的维度为(i,d),该n为所有文本的数量,d为每个句子向量的大小。
进一步的,对该句子向量矩阵X通过PCA工具进行主成分分析,得到主成分矩阵μ,该主成分矩阵μ为矩阵X的在降维后的重要组成矩阵,也可以理解为矩阵X包含的共同信息。
在步骤207中,服务器获取主成分向量矩阵对应的转置矩阵,计算句子向量矩阵中的每个句子向量与主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。
其中,可以获取该主成分向量矩阵μ对应的转置矩阵μT,该转置矩阵μT为将矩阵的行列互换得到的新矩阵称为转置矩阵,转置矩阵μT的行列式不变。为了更好的描述计算过程,请一并参阅如下公式:
Figure BDA0003397319750000152
其中,该
Figure BDA0003397319750000153
为目标句子向量矩阵,μ为主成分矩阵,μT为主成分矩阵的转置矩阵,以此,通过上述公式,计算该句子向量矩阵中每个句子向量wi与该主成分矩阵μ、转置矩阵μT和对应的句子相应wi的乘积的差值,减去主成分矩阵μ,移除所有句子的共有信息相应的主成分向量,得到计算后的目标句子向量矩阵
Figure BDA0003397319750000161
保留下来的目标句子向量矩阵
Figure BDA0003397319750000162
更能够表征其本身与其他目标句子向量矩阵之间的差异,经过上述变换后矩阵X被转换为
Figure BDA0003397319750000163
Figure BDA0003397319750000164
在步骤208中,服务器将计算后的目标句子向量矩阵进行拆分,得到多条目标句子向量,计算每个目标句子向量之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
其中,服务器可以将
Figure BDA0003397319750000165
进行拆分,得到多条目标句子向量
Figure BDA0003397319750000166
每一目标句子向量
Figure BDA0003397319750000167
可以标识相应的文本id,该文本id关联相应的目标待处理文本(即语句),不同的目标句子向量之间的余弦相似度越接近,相应的目标待处理文本的语义越接近,不同的目标句子向量之间的余弦相似度越不接近,相应的目标待处理文本的语义越不接近,该预设余弦阈值为界定两个目标句子向量对应的两个目标待处理文本是否为同一文本的临界值。
以此,可以计算任意两个目标句子向量
Figure BDA0003397319750000168
之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理,即直接过滤目标句子向量对关联的两个文本id中的任意一个文本id,最终,实现将所有具有重复文本内容的目标待处理文本去重,由于目标句子向量的生成结合了语义,且通过主成分分析去除了共有信息,以此,使得目标句子向量之间的相似度计算更为准确,实现更全面的去重效果。
由上述可知,本申请实施例通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。以此,通过分词处理生成语义表达准确的句子向量,且将句子向量的主成分向量移除,使向量之间的差异更明显,使得在进行句子相似性判断时,可以更好的区分不同的语句,相对于现有的人工文本去重的方式,本申请实施例可以实现自动且准确的文本去重方式,提升了信息处理的效率和准确性。
进一步的,由于为不同分词以及分词集合按照实际应用设置不同的权重,使得目标语句向量的表达更符合语句的语义表达,进一步的提升了信息处理的准确性。
以下将举例作再进一步详细说明。
在本实施例中,将以该信息处理装置具体集成在服务器中为例进行说明。
请参阅图5,图5为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括:
在步骤11中,Spark引擎读取并解析分布式文件系统数据。
其中,可以通过Spark引擎加载分布式文件系统上的日志文本数据,得到待处理文本集合,该待处理文本集合中包含多个待处理文本,通过Map算子(分布式计算程序)解析每一待处理文本,并对每一待处理文本进行分词,并加载停用词词典,去掉文本中的停用词,得到目标待处理文本。
在步骤12中,对每条目标待处理文本进行分词和N-Gram分组。
其中,可以将同一目标待处理文本的2-Gram的词语放到词语集合b2、3-Gram的词语放到词语集合b3以及将4-Gram的词语放到词语集合b4中,因此,将每个目标待处理文本拆分为N-Gram的数据集合Si={b2,b3,...,bn},并且不同的N-gram集合设置不同的权重,例如2-gram的集合权重设置为β2,N-gram的集合权重设置为βn,不同的权重集合{β2,β3,...βn}。
在步骤13中,使用word2vec算法训练词向量。
其中,通过word2vec算法对每个分词进行训练并计算得到每个分词的向量。
在步骤14中,计算所有分词的词频信息。
其中,计算每个N-gram集合中不同的分词w的词频pw,并将每个分词w和词频pw的映射关系保存到hdfs路径中。
在步骤15中,词语加权求和得到句子向量。
其中,从hdfs路径中加载得到词向量字典,然后将每个N-gram集合中不同分词w映射为相应的词向量vw,vw的长度为d。
求2-gram的词语集合b2的词向量g2
Figure BDA0003397319750000171
其中,该g2为任一目标待处理文本在词长度为2对应分词集合的词向量,该α为超参数,即已知参数,该vw为词长度为2对应分级集合中每一分词的向量,w为分词数量,该pw为每一分词的词频,基于上述公式,将每一分词的向量vw除以该分词的词频并进行求和,使得出现词频越高的分词的比重越低,出现词频越低的分词的比重越高,符合实际的应用,最后得到每个分词集合表达词义更好的词向量。
求2-gram的词语集合b3的词向量g3
Figure BDA0003397319750000181
其中,该g3为任一目标待处理文本在词长度为3对应分词集合的词向量,该α为超参数,即已知参数,该vw为词长度为3对应分级集合中每一分词的向量,w为分词数量,该pw为每一分词的词频,基于上述公式,将每一分词的向量vw除以该分词的词频并进行求和,使得出现词频越高的分词的比重越低,出现词频越低的分词的比重越高,符合实际的应用,最后得到每个分词集合表达词义更好的词向量,以此,对于每一目标待处理文本Si={b2,b3,...,bn}而言,Si的句子向量为Wi
Figure BDA0003397319750000182
该Wi为句子的向量,i的数量等于目标待处理文本的数量,gi为任一目标待处理文本在词长度为i对应分词集合的词向量,该βi为词长度为i对应分词集合的权重,依次,将同一目标待处理文本的每个词向量gi和对应的权重θi进行相乘,并将同一待处理文本的乘积进行求和,得到每个目标待处理文本相应的句子向量Wi
在步骤16中,通过PCA主成分析得到主成分向量。
其中,可以获取每个句子向量Wi,将全部句子向量Wi传输到Reduce算子进行聚合,降低维度,以此可以得到句子向量矩阵X,X={W1,W2、W3、...、Wi},矩阵的维度为(i,d),该n为所有文本的数量,d为每个句子向量的大小。
进一步的,对该句子向量矩阵X通过PCA工具进行主成分分析,得到主成分矩阵μ,该主成分矩阵μ为矩阵X的在降维后的重要组成矩阵,也可以理解为矩阵X包含的共同信息。
在步骤17中,通过句子向量对主成分向量进行修正。
其中,对于X={W1,W2、W3、…、Wi},中的每一个句子向量Wi,减去主要成分矩阵μ。
Figure BDA0003397319750000191
其中,该
Figure BDA0003397319750000192
为目标句子向量矩阵,μ为主成分矩阵,μT为主成分矩阵的转置矩阵,以此,通过上述公式,计算该句子向量矩阵中每个句子向量wi与该主成分矩阵μ、转置矩阵μT和对应的句子相应wi的乘积的差值,减去主成分矩阵μ,移除所有句子的共有信息相应的主成分向量,得到计算后的目标句子向量矩阵
Figure BDA0003397319750000193
保留下来的目标句子向量矩阵
Figure BDA0003397319750000194
更能够表征其本身与其他目标句子向量矩阵之间的差异,经过上述变换后矩阵X被转换为
Figure BDA0003397319750000195
Figure BDA0003397319750000196
在步骤18中,计算句子向量的相似度判断是否重复,并过滤输出最终结果。
其中,通过Map算子将
Figure BDA0003397319750000197
进行拆分,得到多条目标句子向量
Figure BDA0003397319750000198
每一目标句子向量
Figure BDA0003397319750000199
可以标识相应的文本id,该文本id关联相应的目标待处理文本(即语句)。
以此,可以计算任意两个目标句子向量
Figure BDA00033973197500001910
之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理,即直接过滤目标句子向量对关联的两个文本id中的任意一个文本id,最终,实现将所有具有重复文本内容的目标待处理文本去重,由于目标句子向量的生成结合了语义,且通过主成分分析去除了共有信息,以此,使得目标句子向量之间的相似度计算更为准确,实现更全面的去重效果。
为便于更好的实施本申请实施例提供的信息处理方法,本申请实施例还提供一种基于上述信息处理方法的装置。其中名词的含义与上述信息处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图6,图6为本申请实施例提供的信息处理装置的结构示意图,其中该信息处理装置可以包括获取单元301、分词单元302、第一计算单元303、移除单元304及第二计算单元305等。
获取单元301,用于获取目标待处理文本集,该目标待处理文本集中包含多个目标待处理文本。
在一些实施例中,该获取单元301,用于:
获取待处理文本集,该待处理文本集中包含多个待处理文本;
将每一待处理文本中的停用词移除,得到移除之后的多个目标待处理文本生成目标待处理文本集。
分词单元302,用于将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
在一些实施例中,该分词单元,用于:
按照不同的词长度对应的滑动窗口依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
第一计算单元303,用于基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量。
在一些实施例中,该第一计算单元,包括:
第一计算子单元,用于依次计算每个目标待处理文本对应每个分词集合的词向量;
设置子单元,用于根据每个分词集合对应的词长度,为每个词向量设置不同的权重;
第二计算子单元,用于将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量。
在一些实施例中,该第一计算子单元,用于:
获取每个分词集合中每个分词对应的向量和词频信息;
将同一目标待处理文本中每个分词集合中每个分词的向量和对应的词频信息进行计算,得到每个目标待处理文本对应每个分词集合的词向量。
在一些实施例中,该第二计算子单元,用于:
将每个目标待处理文本的每个词向量和对应的权重进行相乘,得到每个目标待处理文本对应的多个乘积;
将同一目标待处理文本对应的多个乘积求和,得到每个目标待处理文本相应的句子向量。
移除单元304,用于将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量。
在一些实施例中,该移除单元304,包括:
组合子单元,用于将每个句子向量进行组合,得到句子向量矩阵;
分析子单元,用于对该句子向量矩阵进行主成分分析处理,得到主成分向量矩阵;
移除子单元,用于将该句子向量矩阵中的每个句子向量依次移除该主成分向量矩阵,得到目标句子向量矩阵,该目标句子向量矩阵中包含多个目标句子向量。
在一些实施例中,该移除子单元,用于:
获取该主成分向量矩阵对应的转置矩阵;
计算该句子向量矩阵中的每个句子向量与该主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。
第二计算单元305,用于计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
在一些实施例中,该第二计算单元305,用于:
将计算后的目标句子向量矩阵进行拆分,得到多条目标句子向量;
计算每个目标句子向量之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
由上述可知,本申请实施例通过获取单元301获取目标待处理文本集;分词单元302将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;第一计算单元303基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;移除单元304将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;第二计算单元305计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。以此,通过分词处理生成语义表达准确的句子向量,且将句子向量的主成分向量移除,使向量之间的差异更明显,使得在进行句子相似性判断时,可以更好的区分不同的语句,相对于现有的人工文本去重的方式,本申请实施例可以实现自动且准确的文本去重方式,提升了信息处理的效率和准确性。
本申请实施例还提供一种服务器,如图7所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标待处理文本集,该目标待处理文本集中包含多个目标待处理文本;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对信息处理方法的详细描述,此处不再赘述。
由上述可知,本申请实施例的服务器可以通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。以此,通过分词处理生成语义表达准确的句子向量,且将句子向量的主成分向量移除,使向量之间的差异更明显,使得在进行句子相似性判断时,可以更好的区分不同的语句,相对于现有的人工文本去重的方式,本申请实施例可以实现自动且准确的文本去重方式,提升了信息处理的效率和准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取目标待处理文本集,该目标待处理文本集中包含多个目标待处理文本;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种信息处理方法、装置及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种信息处理方法,其特征在于,包括:
获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;
将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;
基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;
将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;
计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
2.根据权利要求1所述的信息处理方法,其特征在于,所述基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量,包括:
依次计算每个目标待处理文本对应每个分词集合的词向量;
根据每个分词集合对应的词长度,为每个词向量设置不同的权重;
将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量。
3.根据权利要求2所述的信息处理方法,其特征在于,所述依次计算每个目标待处理文本对应每个分词集合的词向量,包括:
获取每个分词集合中每个分词对应的向量和词频信息;
将同一目标待处理文本中每个分词集合中每个分词的向量和对应的词频信息进行计算,得到每个目标待处理文本对应每个分词集合的词向量。
4.根据权利要求2所述的信息处理方法,其特征在于,所述将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量,包括:
将每个目标待处理文本的每个词向量和对应的权重进行相乘,得到每个目标待处理文本对应的多个乘积;
将同一目标待处理文本对应的多个乘积求和,得到每个目标待处理文本相应的句子向量。
5.根据权利要求1所述的信息处理方法,其特征在于,所述将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量,包括:
将每个句子向量进行组合,得到句子向量矩阵;
对所述句子向量矩阵进行主成分分析处理,得到主成分向量矩阵;
将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵,得到目标句子向量矩阵,所述目标句子向量矩阵中包含多个目标句子向量。
6.根据权利要求5所述的信息处理方法,其特征在于,所述将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵,得到目标句子向量矩阵,包括:
获取所述主成分向量矩阵对应的转置矩阵;
计算所述句子向量矩阵中的每个句子向量与所述主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。
7.根据权利要求6所述的信息处理方法,其特征在于,所述计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理,包括:
将计算后的目标句子向量矩阵进行拆分,得到多条目标句子向量;
计算每个目标句子向量之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
8.根据权利要求1至7任一项所述的信息处理方法,其特征在于,所述获取目标待处理文本集,包括:
获取待处理文本集,所述待处理文本集中包含多个待处理文本;
将每一待处理文本中的停用词移除,得到移除之后的多个目标待处理文本生成目标待处理文本集。
9.根据权利要求1至7任一项所述的信息处理方法,其特征在于,所述将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合,包括:
按照不同的词长度对应的滑动窗口依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
10.一种信息处理装置,其特征在于,包括:
获取单元,用于获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;
分词单元,用于将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;
第一计算单元,用于基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;
移除单元,用于将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;
第二计算单元,用于计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
11.根据权利要求10所述的信息处理装置,其特征在于,所述第一计算单元,用于:
第一计算子单元,用于依次计算每个目标待处理文本对应每个分词集合的词向量;
设置子单元,用于根据每个分词集合对应的词长度,为每个词向量设置不同的权重;
第二计算子单元,用于将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量。
12.根据权利要求11所述的信息处理装置,其特征在于,所述第一计算子单元,用于:
获取每个分词集合中每个分词对应的向量和词频信息;
将同一目标待处理文本中每个分词集合中每个分词的向量和对应的词频信息进行计算,得到每个目标待处理文本对应每个分词集合的词向量。
13.根据权利要求11所述的信息处理装置,其特征在于,所述第二计算子单元,用于:
将每个目标待处理文本的每个词向量和对应的权重进行相乘,得到每个目标待处理文本对应的多个乘积;
将同一目标待处理文本对应的多个乘积求和,得到每个目标待处理文本相应的句子向量。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的信息处理方法中的步骤。
15.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现权利要求1至9任一项所述的信息处理方法中的步骤。
CN202111485271.7A 2021-12-07 2021-12-07 一种信息处理方法、装置及计算机可读存储介质 Pending CN114328885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111485271.7A CN114328885A (zh) 2021-12-07 2021-12-07 一种信息处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111485271.7A CN114328885A (zh) 2021-12-07 2021-12-07 一种信息处理方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114328885A true CN114328885A (zh) 2022-04-12

Family

ID=81049646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111485271.7A Pending CN114328885A (zh) 2021-12-07 2021-12-07 一种信息处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114328885A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034206A (zh) * 2022-06-20 2022-09-09 科大国创云网科技有限公司 一种客服热点事件发现方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034206A (zh) * 2022-06-20 2022-09-09 科大国创云网科技有限公司 一种客服热点事件发现方法及系统

Similar Documents

Publication Publication Date Title
US10565244B2 (en) System and method for text categorization and sentiment analysis
WO2022134759A1 (zh) 关键词生成方法、装置、电子设备及计算机存储介质
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
JP5936698B2 (ja) 単語意味関係抽出装置
Khuc et al. Towards building large-scale distributed systems for twitter sentiment analysis
US20160306794A1 (en) System and method for training a machine translation system
CN110298035B (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
KR102354127B1 (ko) 데이터 모델을 구축하는 방법, 장치, 기기 및 매체
US11580119B2 (en) System and method for automatic persona generation using small text components
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
US11599518B2 (en) Efficient embedding table storage and lookup
US20200004786A1 (en) Corpus generating method and apparatus, and human-machine interaction processing method and apparatus
Zhang et al. Hotel reviews sentiment analysis based on word vector clustering
CN105677862A (zh) 一种抓取网页内容的方法及装置
EP3928221A1 (en) System and method for text categorization and sentiment analysis
WO2022141872A1 (zh) 文献摘要生成方法、装置、计算机设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Nodarakis et al. Using hadoop for large scale analysis on twitter: A technical report
CN114328885A (zh) 一种信息处理方法、装置及计算机可读存储介质
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
CN112084776A (zh) 相似文章的检测方法、装置、服务器和计算机存储介质
Sruthi et al. Reduced feature based sentiment analysis on movie reviews using key terms
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
Smith et al. Classification of text to subject using LDA
Ingole et al. Text summarization using expectation maximization clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination