CN116341566A - 文本去重方法、装置、电子设备及存储介质 - Google Patents

文本去重方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116341566A
CN116341566A CN202310612468.5A CN202310612468A CN116341566A CN 116341566 A CN116341566 A CN 116341566A CN 202310612468 A CN202310612468 A CN 202310612468A CN 116341566 A CN116341566 A CN 116341566A
Authority
CN
China
Prior art keywords
text
similar
texts
pairs
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310612468.5A
Other languages
English (en)
Other versions
CN116341566B (zh
Inventor
华娇娇
唐华云
赵凌
黄山
杨昂
王延昭
高兰兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Bond Jinke Information Technology Co ltd
Original Assignee
China Bond Jinke Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Bond Jinke Information Technology Co ltd filed Critical China Bond Jinke Information Technology Co ltd
Priority to CN202310612468.5A priority Critical patent/CN116341566B/zh
Publication of CN116341566A publication Critical patent/CN116341566A/zh
Application granted granted Critical
Publication of CN116341566B publication Critical patent/CN116341566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本去重方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:获取多篇文本和每篇文本中的目标主体名称;基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;对每个相似文本集进行去重处理,得到目标文本。本发明可以提升文本去重的准确率。

Description

文本去重方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本去重方法、装置、电子设备及存储介质。
背景技术
对于某一领域的文本,其中蕴含了大量该领域的信息,深度挖掘这些文本,可以探索出该领域的发展规律。然而,针对同一事件,由于不同机构、作者、来源和领域导致采访方式、内容、文章描述形式、侧重点以及对信息加工表达均不同,这将导致多篇文本中存在大量冗余信息,而且重复的形式(比如语义完全一致、语义部分交叠、语义包含等)较为复杂。
对于上述情况,通过文本相似度分析,可以快速过滤语义表达相似的文本。然而,现有的文本去重过程中用到的文本相似度分析方法,不擅长涉及短文本的编码,对于涉及短文本编码与长文本编码之间的相似度,以及短文本编码与短文本编码之间的相似度的分析,会产生较多的问题,从而导致文本去重的准确率较低。
发明内容
本发明提供一种文本去重方法、装置、电子设备及存储介质,用以解决现有技术中文本去重的准确率较低的缺陷,实现提升文本去重的准确率的目的。
本发明提供一种文本去重方法,包括:
获取多篇文本和每篇所述文本中的目标主体名称;
基于所述多篇文本,确定多个第一相似文本对;所述第一相似文本对中的两篇所述文本之间的距离小于预设距离;
从所述多个第一相似文本对中筛选出多个第二相似文本对;所述第二相似文本对中的两篇所述文本分别对应的所述目标主体名称存在交集;
基于所述多个第二相似文本对中的各所述文本之间的相似度,确定多个相似文本集;
对每个所述相似文本集进行去重处理,得到目标文本。
根据本发明提供的一种文本去重方法,所述基于所述多个第二相似文本对中的各所述文本之间的相似度,确定多个相似文本集,包括:
基于所述多个第二相似文本对中的任意两篇所述文本之间的相似度,确定构建图谱的节点和节点的连接关系;
基于所述节点和所述节点的连接关系,构建所述图谱;
针对所述图谱中的每个连通图,将所述连通图对应的多篇所述文本归集为所述相似文本集。
根据本发明提供的一种文本去重方法,所述基于所述多个第二相似文本对中的任意两篇所述文本之间的相似度,确定构建图谱的节点和节点的连接关系,包括:
在所述多个第二相似文本对中的任意两篇所述文本之间的相似度大于预设阈值的情况下,将所述任意两篇所述文本分别确定为两个节点,且所述两个节点互相连通;
所述基于所述节点和所述节点的连接关系,构建所述图谱,包括:
根据任意两个节点的互相连通关系进行拓扑连接构建所述图谱。
根据本发明提供的一种文本去重方法,所述对每个所述相似文本集进行去重处理,得到目标文本,包括:
从每个所述相似文本集中确定出符合以下任意一个预设条件的所述目标文本:字数最多、字数最少以及目标主体名称的数量最多;
针对每个所述相似文本集,保留所述目标文本,并剔除其他文本。
根据本发明提供的一种文本去重方法,所述基于所述多篇文本,确定多个第一相似文本对,包括:
计算每篇所述文本的相似哈希编码;
基于所述多篇文本,确定多个文本对;所述文本对包括两篇不同的所述文本;
针对每个所述文本对,基于所述文本对中的两篇所述文本的相似哈希编码,计算所述文本对的距离;
将所述距离小于所述预设距离的所述文本对确定为所述第一相似文本对。
根据本发明提供的一种文本去重方法,所述计算每篇所述文本的相似哈希编码,包括:
获取每篇所述文本经切割后得到的多个词语;
统计每个所述词语的词频和逆向文件频率,并将所述词语的词频和逆向文件频率之间的乘积确定为所述词语的权重;
将所述多个词语按照所述权重从大到小进行排序,并将排序靠前的预设数量的所述词语确定为所述文本的关键词语;
计算每个所述关键词语的哈希编码;
将所述关键词语的哈希编码中的0赋值为-1,得到第一编码;
将所述第一编码中的每一位编码分别与所述关键词语的所述权重相乘,得到第二编码;
将所述文本的多个所述关键词语分别对应的所述第二编码按位求和,得到第三编码;
将所述第三编码中大于或等于0的编码赋值为1,小于0的编码赋值为0,得到所述文本的相似哈希编码。
根据本发明提供的一种文本去重方法,所述基于所述文本对中的两篇所述文本的相似哈希编码,计算所述文本对的距离,包括:
将所述文本对中的两篇所述文本的相似哈希编码按位进行异或操作,得到第四编码;
统计所述第四编码中1的个数,并基于所述第四编码中1的个数确定所述文本对的距离。
本发明还提供一种文本去重装置,包括:
文本获取模块,用于获取多篇文本和每篇所述文本中的目标主体名称;
第一确定模块,用于基于所述多篇文本,确定多个第一相似文本对;所述第一相似文本对中的两篇所述文本之间的距离小于预设距离;
文本筛选模块,用于从所述多个第一相似文本对中筛选出多个第二相似文本对;所述第二相似文本对中的两篇所述文本分别对应的所述目标主体名称存在交集;
第二确定模块,用于基于所述多个第二相似文本对中的各所述文本之间的相似度,确定多个相似文本集;
文本去重模块,用于对每个所述相似文本集进行去重处理,得到目标文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的文本去重方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的文本去重方法的步骤。
本发明提供的文本去重方法、装置、电子设备及存储介质,首先,获取多篇文本和每篇文本中的目标主体名称;基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;可以初步地筛选出多个第一相似文本对;而后,从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;可以进一步过滤掉没有相同目标主体名称的第一相似文本对,从而筛选出多个具有相同目标主体名称的第二相似文本对;最后,基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;对每个相似文本集进行去重处理,得到目标文本。由于在文本去重的过程中,针对初步筛选出的多个第一相似文本对,进一步筛选出多个具有相同目标主体名称的第二相似文本对,可以提升文本去重的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本去重方法的流程示意图;
图2是本发明实施例提供的文本去重方法的具体流程示意图;
图3是本发明实施例提供的预处理算法和相似哈希算法的流程示意图;
图4是本发明实施例提供的图谱的示意图;
图5是本发明实施例提供的文本去重装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图3描述本发明的文本去重方法。
请参照图1,图1是本发明实施例提供的文本去重方法的流程示意图。如图1所示,该文本去重方法可以包括以下步骤:
步骤101、获取多篇文本和每篇文本中的目标主体名称;
步骤102、基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;
步骤103、从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;
步骤104、基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;
步骤105、对每个相似文本集进行去重处理,得到目标文本。
在步骤101中,目标主体名称可以为文本中所涉及领域的主体名称。例如:对于债券领域,目标主体名称可以为发债主体名称。
示例性地,对于债券领域,针对每一条新闻,可以通过爬虫和命名实体识别等技术获取多篇文本和每篇文本中的发债主体名称。其中,每篇文本中发债主体名称的数量可以为一个或多个。
可选地,如图2所示,在获取多篇文本(例如:文本1和文本2)之后,可以对每篇文本进行预处理,得到预处理后的文本。
具体地,如图3所示,预处理算法可以包括:1)针对文本2,将文本2中的新闻标题和正文进行合并;2)利用正则表达式,将文本中的非汉字成分(比如字母、标点符号、数字等)进行剔除;3)利用分词工具将文本段落切割成多个词语。
需要说明的是,分词工具可以为结巴(Jieba)工具、SnowNLP工具、PKUse工具、THULAC工具、HanLP工具、FoolNLTK工具、LTP工具、CoreNLP工具、BaiduLac工具或NLPIR工具等分词工具,本实施例不限于此。
在步骤102中,针对多篇文本中的每两篇不同的文本,计算这两篇文本之间的距离,然后判断该距离是否小于预设距离,如果该距离小于预设距离,则认为这两篇文本的相似度比较接近,可以组合成一个第一相似文本对,从而初步筛选出多个第一相似文本对。
需要说明的是,距离可以为汉明距离、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦距离或杰卡德距离等,本实施例不限于此。
在步骤103中,针对每个第一相似文本对,确定第一相似文本对中两篇文本的目标主体名称。然后判断这两篇文本的目标主体名称是否存在交集,即这两篇文本是否有相同的目标主体名称。若是,则将第一相似文本对判定为第二相似文本对。遍历完所有的第一相似文本对,从而二次筛选出多个第二相似文本对。
本步骤可以进一步过滤掉没有相同目标主体名称的第一相似文本对,从而筛选出多个具有相同目标主体名称的第二相似文本对。
在步骤104中,多个第二相似文本对包括多个文本,这些文本可以根据相互之间的相似度归集为多个相似文本集。
在步骤105中,如图2所示,针对每个相似文本集,由于相似文本集中的各文本之间的相似度较高,保留一篇比较有代表性的文本,作为目标文本。在展示时,由多个相似文本集分别对应的目标文本,以及不属于相似文本集的其他文本构成最终的文本展示列表。
本实施例提供的文本去重方法,首先,获取多篇文本和每篇文本中的目标主体名称;基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;可以初步地筛选出多个第一相似文本对;而后,从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;可以进一步过滤掉没有相同目标主体名称的第一相似文本对,从而筛选出多个具有相同目标主体名称的第二相似文本对;最后,基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;对每个相似文本集进行去重处理,得到目标文本。由于在文本去重的过程中,针对初步筛选出的多个第一相似文本对,进一步筛选出多个具有相同目标主体名称的第二相似文本对,可以提升文本去重的准确率。
在一种实施例中,步骤104可以包括以下子步骤:
步骤1041、基于多个第二相似文本对中的任意两篇文本之间的相似度,确定构建图谱的节点和节点的连接关系;
步骤1042、基于节点和节点的连接关系,构建图谱;
步骤1043、针对图谱中的每个连通图,将连通图对应的多篇文本归集为相似文本集。
在步骤1041中,针对多个第二相似文本对中的任意两篇文本,计算这两篇文本之间的相似度。多个第二相似文本对中的文本为节点,文本之间的相似度为节点的连接关系。节点的连接关系可以包括:互相连通关系和无连接。
可选地,在多个第二相似文本对中的任意两篇文本之间的相似度大于预设阈值的情况下,将任意两篇文本分别确定为两个节点,且两个节点互相连通。
在步骤1042中,可选地,根据任意两个节点的互相连通关系进行拓扑连接构建图谱。也即,对于任意两个节点,如果这两个节点的连接关系为互相连通关系,则连接这两个节点;如果这两个节点的连接关系为无连接,则不连接这两个节点;遍历完所有节点后,形成如图4所示的无向图,图谱构建完成。
在步骤1043中,如图4所示,图谱中包括三个连通图,针对每个连通图,将该连通图对应的多篇文本归集为一个相似文本集,最终得到三个相似文本集,即相似文本集1、相似文本集2和相似文本集3。
在本实施例中,基于图谱进行相似文本集的归并,可以充分挖掘相似文本集之间的关联,从而能够进一步提高召回率。
在一种实施例中,步骤105可以包括以下子步骤:
步骤1051、从每个相似文本集中确定出符合以下任意一个预设条件的目标文本:字数最多、字数最少以及目标主体名称的数量最多;
步骤1052、针对每个相似文本集,保留目标文本,并剔除其他文本。
在步骤1051中,针对每个相似文本集,由于相似文本集中的各文本之间的相似度较高,保留一篇比较有代表性的文本,也即符合预设条件的文本,作为目标文本。
例如:从每个相似文本集中确定出字数最多的文本,作为目标文本。也即,将最长文本作为比较有代表性的文本。由于最长文本的语义最为丰富,可以最大程度地保留相似文本集中的语义信息,从而进一步完善文本去重系统的展示功能。
或者,从每个相似文本集中确定出字数最少的文本,作为目标文本。也即,将最短文本作为比较有代表性的文本。由于最短文本最为简洁,便于快速阅读以获取信息。
或者,从每个相似文本集中确定出目标主体名称数量最多的文本,作为目标文本。也即,将目标主体名称数量最多的作为比较有代表性的文本。由于该文本中目标主体名称数量最多,认为该文本中对于目标主体最为关注,可以得到对于目标主体关注度最高的文本。
需要说明的是,本实施例不限于上述三种目标文本筛选方案,还可以为其他目标文本筛选方案。
在步骤1052中,针对每个相似文本集,保留一篇比较有代表性的文本,作为目标文本,然后剔除其他文本,以实现相似文本集中多个相似文本的去除处理。
在本实施例中,提出了三种目标文本筛选方案,可以满足对于展示的不同需求。例如:筛选出字数最多的文本,可以满足对于文本语义最丰富的需求。筛选出字数最少的文本,可以满足对于文本最简洁的需求。筛选出目标主体名称数量最多的文本,可以满足对于文本关注度最高的需求。
在一种实施例中,步骤102可以包括以下子步骤:
步骤1021、计算每篇文本的相似哈希编码;
步骤1022、基于多篇文本,确定多个文本对;文本对包括两篇不同的文本;
步骤1023、针对每个文本对,基于文本对中的两篇文本的相似哈希编码,计算文本对的距离;
步骤1024、将距离小于预设距离的文本对确定为第一相似文本对。
在步骤1021中,采用相似哈希算法计算每篇文本的相似哈希编码。
在步骤1022中,将多篇文本中每两篇不同的文本组合为一个文本对。
例如:有A、B和C这三篇文本,其组合后的文本对为:(A,B),(A,C),以及(B,C)。
在步骤1023中,针对每个文本对,获取文本对中的两篇文本的相似哈希编码,计算这两个相似哈希编码之间的距离,即为文本对的距离。
在步骤1024中,判断每个文本对的距离是否小于预设距离,如果该文本对的距离小于预设距离,则认为该文本对中的两篇文本较为相似,将该文本对判定为第一相似文本对。
在本实施例中,针对每个文本对,通过判定该文本对中的两篇文本的相似哈希编码之间的距离是否小于预设距离,来对多个文本对进行初步的筛选。
对于上述步骤1021,作为一种可能的实施方式,步骤1021包括以下子步骤:
步骤10211、获取每篇文本经切割后得到的多个词语;
步骤10212、统计每个词语的词频和逆向文件频率,并将该词语的词频和逆向文件频率之间的乘积确定为词语的权重;
步骤10213、将多个词语按照权重从大到小进行排序,并将排序靠前的预设数量的词语确定为文本的关键词语;
步骤10214、计算每个关键词语的哈希编码;
步骤10215、将关键词语的哈希编码中的0赋值为-1,得到第一编码;
步骤10216、将第一编码中的每一位编码分别与关键词语的权重相乘,得到第二编码;
步骤10217、将文本的多个关键词语分别对应的第二编码按位求和,得到第三编码;
步骤10218、将第三编码中大于或等于0的编码赋值为1,小于0的编码赋值为0,得到文本的相似哈希编码。
下面结合图3对步骤10211-步骤10218进行详细说明。
在步骤10211中,通过分词工具可将每篇文本切割为多个词语,获取每篇文本经切割后得到的多个词语。
在步骤10212中,词频(TF)指的是某一词语在一篇文本中的出现次数。可通过以下表达式(1)对词频进行标准化:
Figure SMS_1
(1)
其中,
Figure SMS_2
表示词频,/>
Figure SMS_3
表示某一词语在一篇文本中的出现次数,
Figure SMS_4
表示该文本的总词数。
逆向文件频率(IDF)指的是某一词语在所有文本中出现的频率的倒数。可通过以下表达式(2)计算逆向文件频率(IDF):
Figure SMS_5
(2)
其中,IDF表示逆向文件频率,
Figure SMS_6
表示文本的总篇数,/>
Figure SMS_7
表示包含该词语的文本数。
其中,如果一个词语越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文本都不包含该词语)。log表示对得到的值取对数。
统计每个词语的词频(TF)和逆向文件频率(IDF),计算该词语的词频(TF)和逆向文件频率(IDF)之间的乘积,即该词语的词频-逆向文件频率(TF-IDF)指标。
TF-IDF指标的原理为:某一词语在一篇文本中出现的频率高,并且在其他文本中很少出现,则认为该词语具有很好的类别区分能力,适合用来分类。
基于TF-IDF指标的原理,可将每个词语的TF-IDF指标确定为该词语的权重。
在步骤10213中,示例性地,针对每篇文本,将该文本的多个词语按照权重从大到小进行排序,并挑选前n个词语作为该文本的关键词语,也即该文本中重点关注的词语。
在步骤10214中,利用哈希算法,计算每篇文本中的每个关键词语的哈希编码,该哈希编码为64位“0”和“1”表示的编码。
在步骤10215中,将关键词语的哈希编码中的0赋值为-1,变成64位“-1”和“1”表示的第一编码。
在步骤10216中,针对每个关键词语,令第一编码中的每一位编码与该关键词语的权重相乘,得到第二编码。
在步骤10217中,针对每篇文本,该文本的每个关键词语均有对应的第二编码。将该文本的多个关键词语分别对应的第二编码按位求和,得到第三编码。
在步骤10218中,由于第三编码中可能会有非整数,将第三编码中大于或等于0的编码赋值为1,小于0的编码赋值为0,以实现对于第三编码的二值化处理,可以获得64位“0”和“1”表示的相似哈希编码,作为每篇文本的数值编码。
在本实施例中,可以通过相似哈希算法快速准确地计算出每篇文本的相似哈希编码。
对于上述步骤1023,作为一种可能的实施方式,步骤1023包括以下子步骤:
步骤10231、将文本对中的两篇文本的相似哈希编码按位进行异或操作,得到第四编码;
步骤10232、统计第四编码中1的个数,并基于第四编码中1的个数确定文本对的距离。
在步骤10231中,针对每个文本对中的两篇文本,将这两篇文本的相似哈希编码按位进行异或操作,得到64位的第四编码。
在步骤10232中,统计异或操作后得到的第四编码中1的个数。即为该文本对的汉明距离。
在本实施例中,可以基于每个文本对中的两篇文本的相似哈希编码,快速计算出该文本对的汉明距离。
下面对本发明提供的文本去重装置进行描述,下文描述的文本去重装置与上文描述的文本去重方法可相互对应参照。
请参照图5,图5是本发明实施例提供的文本去重装置的结构示意图。如图5所示,该文本去重装置可以包括:
文本获取模块10,用于获取多篇文本和每篇文本中的目标主体名称;
第一确定模块20,用于基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;
文本筛选模块30,用于从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;
第二确定模块40,用于基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;
文本去重模块50,用于对每个相似文本集进行去重处理,得到目标文本。
可选地,第二确定模块40,包括:
节点确定单元,用于基于多个第二相似文本对中的任意两篇文本之间的相似度,确定构建图谱的节点和节点的连接关系;
图谱构建单元,用于基于节点和节点的连接关系,构建图谱;
归集单元,用于针对图谱中的每个连通图,将连通图对应的多篇文本归集为相似文本集。
可选地,节点确定单元,具体用于:
在多个第二相似文本对中的任意两篇文本之间的相似度大于预设阈值的情况下,将任意两篇文本分别确定为两个节点,且两个节点互相连通;
图谱构建单元,具体用于:
根据任意两个节点的互相连通关系进行拓扑连接构建图谱。
可选地,文本去重模块50,具体用于:
从每个相似文本集中确定出符合以下任意一个预设条件的目标文本:字数最多、字数最少以及目标主体名称的数量最多;
针对每个相似文本集,保留目标文本,并剔除其他文本。
可选地,第一确定模块20,包括:
编码计算单元,用于计算每篇文本的相似哈希编码;
第一确定单元,用于基于多篇文本,确定多个文本对;文本对包括两篇不同的文本;
距离计算单元,用于针对每个文本对,基于文本对中的两篇文本的相似哈希编码,计算文本对的距离;
第二确定单元,用于将距离小于预设距离的文本对确定为第一相似文本对。
可选地,编码计算单元,具体用于:
获取每篇文本经切割后得到的多个词语;
统计每个词语的词频和逆向文件频率,并将词语的词频和逆向文件频率之间的乘积确定为词语的权重;
将多个词语按照权重从大到小进行排序,并将排序靠前的预设数量的词语确定为文本的关键词语;
计算每个关键词语的哈希编码;
将关键词语的哈希编码中的0赋值为-1,得到第一编码;
将第一编码中的每一位编码分别与关键词语的权重相乘,得到第二编码;
将文本的多个关键词语分别对应的第二编码按位求和,得到第三编码;
将第三编码中大于或等于0的编码赋值为1,小于0的编码赋值为0,得到文本的相似哈希编码。
可选地,距离计算单元,具体用于:
将文本对中的两篇文本的相似哈希编码按位进行异或操作,得到第四编码;
统计第四编码中1的个数,并基于第四编码中1的个数确定文本对的距离。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行文本去重方法,该方法包括:
获取多篇文本和每篇文本中的目标主体名称;
基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;
从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;
基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;
对每个相似文本集进行去重处理,得到目标文本。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本去重方法,该方法包括:
获取多篇文本和每篇文本中的目标主体名称;
基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;
从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;
基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;
对每个相似文本集进行去重处理,得到目标文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本去重方法,该方法包括:
获取多篇文本和每篇文本中的目标主体名称;
基于多篇文本,确定多个第一相似文本对;第一相似文本对中的两篇文本之间的距离小于预设距离;
从多个第一相似文本对中筛选出多个第二相似文本对;第二相似文本对中的两篇文本分别对应的目标主体名称存在交集;
基于多个第二相似文本对中的各文本之间的相似度,确定多个相似文本集;
对每个相似文本集进行去重处理,得到目标文本。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本去重方法,其特征在于,包括:
获取多篇文本和每篇所述文本中的目标主体名称;
基于所述多篇文本,确定多个第一相似文本对;所述第一相似文本对中的两篇所述文本之间的距离小于预设距离;
从所述多个第一相似文本对中筛选出多个第二相似文本对;所述第二相似文本对中的两篇所述文本分别对应的所述目标主体名称存在交集;
基于所述多个第二相似文本对中的各所述文本之间的相似度,确定多个相似文本集;
对每个所述相似文本集进行去重处理,得到目标文本。
2.根据权利要求1所述的文本去重方法,其特征在于,所述基于所述多个第二相似文本对中的各所述文本之间的相似度,确定多个相似文本集,包括:
基于所述多个第二相似文本对中的任意两篇所述文本之间的相似度,确定构建图谱的节点和节点的连接关系;
基于所述节点和所述节点的连接关系,构建所述图谱;
针对所述图谱中的每个连通图,将所述连通图对应的多篇所述文本归集为所述相似文本集。
3.根据权利要求2所述的文本去重方法,其特征在于,
所述基于所述多个第二相似文本对中的任意两篇所述文本之间的相似度,确定构建图谱的节点和节点的连接关系,包括:
在所述多个第二相似文本对中的任意两篇所述文本之间的相似度大于预设阈值的情况下,将所述任意两篇所述文本分别确定为两个节点,且所述两个节点互相连通;
所述基于所述节点和所述节点的连接关系,构建所述图谱,包括:
根据任意两个节点的互相连通关系进行拓扑连接构建所述图谱。
4.根据权利要求1至3任一项所述的去重方法,其特征在于,所述对每个所述相似文本集进行去重处理,得到目标文本,包括:
从每个所述相似文本集中确定出符合以下任意一个预设条件的所述目标文本:字数最多、字数最少以及目标主体名称的数量最多;
针对每个所述相似文本集,保留所述目标文本,并剔除其他文本。
5.根据权利要求1至3任一项所述的文本去重方法,其特征在于,所述基于所述多篇文本,确定多个第一相似文本对,包括:
计算每篇所述文本的相似哈希编码;
基于所述多篇文本,确定多个文本对;所述文本对包括两篇不同的所述文本;
针对每个所述文本对,基于所述文本对中的两篇所述文本的相似哈希编码,计算所述文本对的距离;
将所述距离小于所述预设距离的所述文本对确定为所述第一相似文本对。
6.根据权利要求5所述的文本去重方法,其特征在于,所述计算每篇所述文本的相似哈希编码,包括:
获取每篇所述文本经切割后得到的多个词语;
统计每个所述词语的词频和逆向文件频率,并将所述词语的词频和逆向文件频率之间的乘积确定为所述词语的权重;
将所述多个词语按照所述权重从大到小进行排序,并将排序靠前的预设数量的所述词语确定为所述文本的关键词语;
计算每个所述关键词语的哈希编码;
将所述关键词语的哈希编码中的0赋值为-1,得到第一编码;
将所述第一编码中的每一位编码分别与所述关键词语的所述权重相乘,得到第二编码;
将所述文本的多个所述关键词语分别对应的所述第二编码按位求和,得到第三编码;
将所述第三编码中大于或等于0的编码赋值为1,小于0的编码赋值为0,得到所述文本的相似哈希编码。
7.根据权利要求5所述的文本去重方法,其特征在于,所述基于所述文本对中的两篇所述文本的相似哈希编码,计算所述文本对的距离,包括:
将所述文本对中的两篇所述文本的相似哈希编码按位进行异或操作,得到第四编码;
统计所述第四编码中1的个数,并基于所述第四编码中1的个数确定所述文本对的距离。
8.一种文本去重装置,其特征在于,包括:
文本获取模块,用于获取多篇文本和每篇所述文本中的目标主体名称;
第一确定模块,用于基于所述多篇文本,确定多个第一相似文本对;所述第一相似文本对中的两篇所述文本之间的距离小于预设距离;
文本筛选模块,用于从所述多个第一相似文本对中筛选出多个第二相似文本对;所述第二相似文本对中的两篇所述文本分别对应的所述目标主体名称存在交集;
第二确定模块,用于基于所述多个第二相似文本对中的各所述文本之间的相似度,确定多个相似文本集;
文本去重模块,用于对每个所述相似文本集进行去重处理,得到目标文本。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的文本去重方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本去重方法的步骤。
CN202310612468.5A 2023-05-29 2023-05-29 文本去重方法、装置、电子设备及存储介质 Active CN116341566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310612468.5A CN116341566B (zh) 2023-05-29 2023-05-29 文本去重方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310612468.5A CN116341566B (zh) 2023-05-29 2023-05-29 文本去重方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116341566A true CN116341566A (zh) 2023-06-27
CN116341566B CN116341566B (zh) 2023-10-20

Family

ID=86880724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310612468.5A Active CN116341566B (zh) 2023-05-29 2023-05-29 文本去重方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116341566B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180268A1 (zh) * 2015-05-13 2016-11-17 阿里巴巴集团控股有限公司 一种文本聚合方法及装置
CN110162630A (zh) * 2019-05-09 2019-08-23 深圳市腾讯信息技术有限公司 一种文本去重的方法、装置及设备
CN110837555A (zh) * 2019-11-11 2020-02-25 苏州朗动网络科技有限公司 海量文本去重筛选的方法、设备和存储介质
CN112287655A (zh) * 2020-09-30 2021-01-29 北京三快在线科技有限公司 匹配文本去重方法、装置、电子设备
CN114282511A (zh) * 2021-10-26 2022-04-05 腾讯科技(深圳)有限公司 一种文本去重方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180268A1 (zh) * 2015-05-13 2016-11-17 阿里巴巴集团控股有限公司 一种文本聚合方法及装置
CN110162630A (zh) * 2019-05-09 2019-08-23 深圳市腾讯信息技术有限公司 一种文本去重的方法、装置及设备
CN110837555A (zh) * 2019-11-11 2020-02-25 苏州朗动网络科技有限公司 海量文本去重筛选的方法、设备和存储介质
CN112287655A (zh) * 2020-09-30 2021-01-29 北京三快在线科技有限公司 匹配文本去重方法、装置、电子设备
CN114282511A (zh) * 2021-10-26 2022-04-05 腾讯科技(深圳)有限公司 一种文本去重方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN116341566B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN108427720B (zh) 系统日志分类方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN110162750B (zh) 文本相似度检测方法、电子设备及计算机可读存储介质
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN111159184B (zh) 元数据追溯方法、装置及服务器
CN105975453A (zh) 评论标签提取方法和装置
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
CN112527948B (zh) 基于句子级索引的数据实时去重方法及系统
CN111797247B (zh) 基于人工智能的案件推送方法、装置、电子设备及介质
Assery et al. Comparing learning-based methods for identifying disaster-related tweets
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备
CN113408660A (zh) 图书聚类方法、装置、设备和存储介质
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN114707003A (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN116341566B (zh) 文本去重方法、装置、电子设备及存储介质
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
CN114547233A (zh) 数据查重方法、装置及电子设备
CN111159996B (zh) 基于文本指纹算法的短文本集合相似度比较方法及系统
CN111428482B (zh) 一种信息识别方法和装置
CN114490667A (zh) 多维度的数据分析方法、装置、电子设备及介质
CN112733537A (zh) 文本去重方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant