CN113641800A - 一种文本查重方法、装置、设备及可读存储介质 - Google Patents

一种文本查重方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113641800A
CN113641800A CN202111206944.0A CN202111206944A CN113641800A CN 113641800 A CN113641800 A CN 113641800A CN 202111206944 A CN202111206944 A CN 202111206944A CN 113641800 A CN113641800 A CN 113641800A
Authority
CN
China
Prior art keywords
text
searched
data
preset
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111206944.0A
Other languages
English (en)
Other versions
CN113641800B (zh
Inventor
王东晋
翟夏普
杨苗苗
安源
罗逸文
高浩翔
周欣燕
尉永哲
王洪岩
舒阳
常雪娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology Information China Academy Of Railway Sciences Group Co ltd
Original Assignee
Institute Of Science And Technology Information China Academy Of Railway Sciences Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology Information China Academy Of Railway Sciences Group Co ltd filed Critical Institute Of Science And Technology Information China Academy Of Railway Sciences Group Co ltd
Priority to CN202111206944.0A priority Critical patent/CN113641800B/zh
Publication of CN113641800A publication Critical patent/CN113641800A/zh
Application granted granted Critical
Publication of CN113641800B publication Critical patent/CN113641800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本查重方法及装置、设备及可读存储介质,涉及数据查重技术领域,包括获取待查重文本;对待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合;在第一信息范围内,根据第二待查文本数据进行细粒度检索得到第二文本集合,第二对比文本的数量少于第一对比文本的数量;根据第二文本集合和查重文本计算确定查重文本的查重结果,利用项目申报中部分特点在数据中进行粗粒度检索高效率地扩大搜索广度,然后进一步地通过细粒度检索缩小需要详细对比检索与分析的范围,最终通过在“少量”的对比文本中进行精细的对比,完成整个文本查重工作。

Description

一种文本查重方法、装置、设备及可读存储介质
技术领域
本发明涉及数据查重技术领域,具体而言,涉及文本查重方法、装置、设备及可读存储介质。
背景技术
科学研究是一个复杂的问题。比如,同一个主题的研究,从应用基础研究、关键技术研发、中试孵化与应用示范、技术转让,整个研发链上下游各个阶段可以布局多个项目。此外,在基础研究领域,往往需要布局多个团队,从不同的技术实现路径去探索前沿、发现规律。在关键技术研发,也可能存在不同的技术路线,这些技术实现方式不同,但是都是科学合理的申报项目,揭榜挂帅赛马争先,有可能根据需要择优,也可能同时支持。因此,针对项目申报文本查重而言,却没有一个较好的就查重方法。
发明内容
本发明的目的在于提供一种文本查重方法、装置、设备及可读存储介质,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
第一方面,本申请提供了一种文本查重方法,包括:获取待查重文本;对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。
进一步地,所述对所述待查重文本进行粒度分割生成第一待查文本和第二待查文本,包括:将所述待查重文本转化为文本格式文件;根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。
进一步地,所述分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据,包括:对所述第一待查文本进行分词得到对应的词汇文本;去除所述词汇文本中包含的停用词,得到目标文本;按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。
进一步地,所述根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,包括:调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
进一步地,所述在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,包括:调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
第二方面,本申请还提供了一种文本查重装置,包括:获取单元,用于获取待查重文本;分割单元,用于对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;第一检索单元,用于根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;第二检索单元,用于在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;查重单元,用于根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。
进一步地,所述分割单元包括:格式转化单元,用于将所述待查重文本转化为文本格式文件;划分单元,用于根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;预处理单元,用于分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。
进一步地,所述预处理包括:分词单元,用于对所述第一待查文本进行分词得到对应的词汇文本;剔除单元,用于去除所述词汇文本中包含的停用词,得到目标文本;向量单元,用于按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。
进一步地,所述第一检索单元包括:第一调用单元,用于调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;特征提取单元,用于将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;第一计算单元,用于分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;第一提取单元,用于在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
进一步地,所述第二检索单元包括:第二调用单元,用于调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;语义关系单元,用于将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;第二提取单元,用于在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
本发明的有益效果为:
本方法为了针对于项目申报文本的特点,采用了先分割项目申报文本,利用项目申报中部分特点在数据中进行粗粒度检索高效率地扩大搜索广度,然后进一步地通过细粒度检索缩小需要详细对比检索与分析的范围,最终通过在“少量”的对比文本中进行精细的对比,完成整个文本查重工作。相比现有技术进行全文检测势必会降低查重效率,本方法中通过粗-细-精细化的检索查重方式,其在具有不仅可以帮助查重生成出高质量的数据,同时还具有检索速度快的特点。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中所述的文本查重方法流程示意图;
图2为本发明实施例中所述的文本查重装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1:
本实施例提供了一种文本查重方法。
参见图1,图中示出了本方法包括步骤S100、步骤S200、步骤S300、步骤S400、步骤S500。
S100、获取待查重文本。
S200、对待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据。
S300、根据第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合。
S400、在第一信息范围内,根据第二待查文本数据进行细粒度检索得到第二文本集合,第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,第二对比文本的数量少于第一对比文本的数量。
S500、根据第二文本集合和查重文本计算确定查重文本的查重结果。
本方法为了针对于项目申报文本的特点,采用了先分割项目申报文本,利用项目申报中部分特点在数据中进行粗粒度检索高效率地扩大搜索广度,然后进一步地通过细粒度检索缩小需要详细对比检索与分析的范围,最终通过在“少量”的对比文本中进行精细的对比,完成整个文本查重工作。相比现有技术进行全文检测势必会降低查重效率,本方法中通过粗-细-精细化的检索查重方式,其在具有不仅可以帮助查重生成出高质量的数据,同时还具有检索速度快的特点。
进一步地,在一些其他实施例中,S200中还可以包括步骤S210、步骤S220和步骤S230。
S210、将待查重文本转化为文本格式文件。
需要说明的是,本步骤即为将非TXT文本格式的文件转化为TXT文件,便于程序调用,缩减内存占用。
S220、根据预设分割规则提取第一待查文本,将待查重文本中的剩余内容记为第二待查文本。
预设分割规则即为:提取待查重文本中的项目背景、项目研究内容和创新点三部分的内容提取出来作为第一待查文本;将项目意义、创新点、项目计划、项目预期成果等信息作为第二待查文本。对于本领域技术人员而言可以根据实际需求进行规则修改,本申请中不作出具体的限制。
S230、分别对第一待查文本和第二待查文本进行预处理得到第一待查文本数据和第二待查文本数据。
本领域技术人员所熟知的项目申报文本其在书写上存在一定规范性要求,所以在本方法中,通过部分关键性内容进行初步化检索,然后在初步化检索结果中再进一步检索。以达到提升最终检索效率的同时,不会丧失检索的准确性。
进一步地,在一些其他实施例中,S230中还可以包括步骤S231、步骤S232和步骤S233。
S231、对第一待查文本进行分词得到对应的词汇文本;
S232、去除词汇文本中包含的停用词,得到目标文本;
S233、按目标文本的词汇序列将目标文本向量化,得到目标文本对应的数字向量,并将数字向量作为第一待查文本数据。
通过上述步骤,文本数据转化为向量数据便于后续的深度学习算法进行归类运算,提升文本查重检索的效果。
进一步地,在一些其他实施例中,S300中还可以包括步骤S310、步骤S320和步骤S330。
S310、调用FNN数学模型,FNN数学模型为经过预设文本数据库为数据源训练后的数学模型,预设文本数据库包括预设文本数据库中每篇文本的特征向量信息。
需要说明的是,在本步骤中所提及的FNN数学模型其建立以及训练过程为现有技术,本申请中不再赘述。同时对于预设文本数据库,其中每篇文本的特征向量信息的生成方式,均为将文本转化为特征向量,再由FNN数学模型进行提取特征向量得到。
S320、将第一待查文本数据作为FNN数学模型的输入信息,求解FNN数学模型得到第二数据信息,第二数据信息为第一待查文本数据进行特征提取后的信息。
S330、分别计算第二数据信息与预设文本数据库中每篇文本的第一距离值。
需要说明的是,本方法中的第一距离值是通过TF-IDF算法计算得到,对于本领域技术人员,仍然可以选着其他算法实现第二数据信息与预设文本数据库中每篇文本的相识度,本申请中不作出具体的限制。
S340、在预设文本数据库中按照第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
需要说明的是,本申请中的第一预设数量为1万。
本方法中通过FNN算法提取第一文本数据中的特征信息,然后特征信息计算第一距离值,最终在预设数据库中提取部分相关文本出来,供后续的操作。
进一步地,在一些其他实施例中,S400中还可以包括步骤S410、步骤S420和步骤S430。
S410、调用CNN数学模型,CNN数学模型为经过预设文本数据库为数据源训练后的数学模型。
需要说明的是,在本步骤中所提及的CNN数学模型其建立以及训练过程为现有技术,本申请中不再赘述。同时对于预设文本数据库,其中每篇文本的特征向量信息的生成方式,均为将文本转化为特征向量,再由CNN数学模型进行提取特征向量得到。
S420、将第二待查文本数据和第一信息中每篇文本的特征向量信息作为CNN数学模型的输入信息,求解CNN数学模型得到第三数据信息,第三数据信息包括第二待查文本数据和第一信息中每篇文本在语义关系上的相识度。
S430、在第三数据信息中按照相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
需要说明的是,本申请中的第二预设数量为100。
本步骤中利用预先训练的CNN模型获得项目申报中语义要素的关联关系,在将第二待查文本数据的特征信息经过CNN数学模型处理得到待查重文本中的语义关系并得到与第一信息内的文本的相识度,通过在相识度排序后,提取语义关系最接近的前100个作为最终精细对比的对比文件。
其中,CNN模型包含用于求取语义要素之间关联及相应关系类型概率值的预设拓扑结构。
进一步地,在一些其他实施例中,S500中还可以包括步骤S510、步骤S520、步骤S530和步骤S540。
S510、分别对待查重文本和每个第二对比文本以标点符号为参照拆分得到待查重文本对应多个句子和每个第二对比文本对应的多个句子。
具体而言,在本步骤中优选为使用句号、回车符和换行符为参照划分。
S520、分别筛除待查重文本和每个第二对比文本中句子中长度不满足预设有效阈值的句子,将剩余的句子作为待查重文本对的第一对比句集和每个第二对比文本的第二对比句集。
需要说明的是,本申请中的预设有效阈值为7,其目的标题等内容。
S530、将所有对比句集进行二进制转化得到待查重文本对应的第一字符串集和每个第二对比文本对应的第二字符串集,第一字符串集包括至少一个第一字符串,第二字符串集包括至少一个第二字符串;
S540、根据第一字符串集和第二字符串集通过KMP算法计算得到查重结果,查重结果包括至少一个查重子集,查重子集包括一个第一字符串和第二字符串,查重子集中的第二字符串和第一字符具有相同字符大于预设阈值。
在本方法中,通过在双重筛查,在语义关系最为接近的文本中逐一进行字符串比较,完成文本查重“最后一公里”的工作来达到检索的准确度,相比于现有技术其能较在数据库中提炼出完整覆盖项目申报文本的语义要素之间的关系,并在此基础上进行精细字符串对比,对于具有创新、学科交叉以及新观点、新概念不断涌现等特点的科研项目能进行较好的相似性判断。
实施例2:
如图2所示,本实施例提供了一种文本查重装置,装置包括:
获取单元1,用于获取待查重文本;
分割单元2,用于对待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;
第一检索单元3,用于根据第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;
第二检索单元4,用于在第一信息范围内,根据第二待查文本数据进行细粒度检索得到第二文本集合,第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,第二对比文本的数量少于第一对比文本的数量;
查重单元5,用于根据第二文本集合和查重文本计算确定查重文本的查重结果。
在一些其他的实施例中,分割单元2包括:
格式转化单元21,用于将待查重文本转化为文本格式文件;
划分单元22,用于根据预设分割规则提取第一待查文本,将待查重文本中的剩余内容记为第二待查文本;
预处理单元23,用于分别对第一待查文本和第二待查文本进行预处理得到第一待查文本数据和第二待查文本数据。
在一些其他的实施例中,预处理包括:
分词单元231,用于对第一待查文本进行分词得到对应的词汇文本;
剔除单元232,用于去除词汇文本中包含的停用词,得到目标文本;
向量单元233,用于按目标文本的词汇序列将目标文本向量化,得到目标文本对应的数字向量,并将数字向量作为第一待查文本数据。
在一些其他的实施例中,第一检索单元3包括:
第一调用单元31,用于调用FNN数学模型,FNN数学模型为经过预设文本数据库为数据源训练后的数学模型,预设文本数据库包括预设文本数据库中每篇文本的特征向量信息;
特征提取单元32,用于将第一待查文本数据作为FNN数学模型的输入信息,求解FNN数学模型得到第二数据信息,第二数据信息为第一待查文本数据进行特征提取后的信息;
第一计算单元33,用于分别计算第二数据信息与预设文本数据库中每篇文本的第一距离值;
第一提取单元34,用于在预设文本数据库中按照第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
在一些其他的实施例中,第二检索单元4包括:
第二调用单元41,用于调用CNN数学模型,CNN数学模型为经过预设文本数据库为数据源训练后的数学模型;
语义关系单元42,用于将第二待查文本数据和第一信息中每篇文本的特征向量信息作为CNN数学模型的输入信息,求解CNN数学模型得到第三数据信息,第三数据信息包括第二待查文本数据和第一信息中每篇文本在语义关系上的相识度;
第二提取单元43,用于在第三数据信息中按照相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
在一些其他的实施例中,查重单元5包括:
拆分单元51,用于分别对待查重文本和每个第二对比文本以标点符号为参照拆分得到待查重文本对应多个句子和每个第二对比文本对应的多个句子;
筛除单元52,用于分别筛除待查重文本和每个第二对比文本中句子中长度不满足预设有效阈值的句子,将剩余的句子作为待查重文本对的第一对比句集和每个第二对比文本的第二对比句集;
二进制转化单元53,用于将所有对比句集进行二进制转化得到待查重文本对应的第一字符串集和每个第二对比文本对应的第二字符串集,第一字符串集包括至少一个第一字符串,第二字符串集包括至少一个第二字符串;
第二计算单元54,用于根据第一字符串集和第二字符串集通过KMP算法计算得到查重结果,查重结果包括至少一个查重子集,查重子集包括一个第一字符串和第二字符串,查重子集中的第二字符串和第一字符具有相同字符大于预设阈值。
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本查重方法,其特征在于,包括:
获取待查重文本;
对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;
根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;
在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;
根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。
2.根据权利要求1所述的文本查重方法,其特征在于,所述对所述待查重文本进行粒度分割生成第一待查文本和第二待查文本,包括:
将所述待查重文本转化为文本格式文件;
根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;
分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。
3.根据权利要求2所述的文本查重方法,其特征在于,所述分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据,包括:
对所述第一待查文本进行分词得到对应的词汇文本;
去除所述词汇文本中包含的停用词,得到目标文本;
按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。
4.根据权利要求1所述的文本查重方法,其特征在于,所述根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,包括:
调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;
将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;
分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;
在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
5.根据权利要求1所述的文本查重方法,其特征在于,所述在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,包括:
调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;
将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;
在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
6.一种文本查重装置,其特征在于,包括:
获取单元,用于获取待查重文本;
分割单元,用于对所述待查重文本进行粒度分割生成第一待查文本数据和第二待查文本数据;
第一检索单元,用于根据所述第一待查文本数据在预设文本数据库中进行粗粒度检索得到第一文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第一对比文本构成的集合;
第二检索单元,用于在所述第一信息范围内,根据所述第二待查文本数据进行细粒度检索得到第二文本集合,所述第一文本集合为具有与第一待查文本数据相似内容的多个第二对比文本构成的集合,所述第二对比文本的数量少于所述第一对比文本的数量;
查重单元,用于根据所述第二文本集合和所述查重文本计算确定所述查重文本的查重结果。
7.根据权利要求6所述的文本查重装置,其特征在于,所述分割单元包括:
格式转化单元,用于将所述待查重文本转化为文本格式文件;
划分单元,用于根据预设分割规则提取第一待查文本,将所述待查重文本中的剩余内容记为第二待查文本;
预处理单元,用于分别对所述第一待查文本和所述第二待查文本进行预处理得到所述第一待查文本数据和所述第二待查文本数据。
8.根据权利要求7所述的文本查重装置,其特征在于,所述预处理包括:
分词单元,用于对所述第一待查文本进行分词得到对应的词汇文本;
剔除单元,用于去除所述词汇文本中包含的停用词,得到目标文本;
向量单元,用于按所述目标文本的词汇序列将所述目标文本向量化,得到所述目标文本对应的数字向量,并将所述数字向量作为第一待查文本数据。
9.根据权利要求6所述的文本查重装置,其特征在于,所述第一检索单元包括:
第一调用单元,用于调用FNN数学模型,所述FNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型,所述预设文本数据库包括所述预设文本数据库中每篇文本的特征向量信息;
特征提取单元,用于将所述第一待查文本数据作为所述FNN数学模型的输入信息,求解所述FNN数学模型得到第二数据信息,所述第二数据信息为所述第一待查文本数据进行特征提取后的信息;
第一计算单元,用于分别计算所述第二数据信息与所述预设文本数据库中每篇文本的第一距离值;
第一提取单元,用于在所述预设文本数据库中按照所述第一距离值由大到小的顺序提取第一预设数量篇文本,并作为第一文本集合。
10.根据权利要求6所述的文本查重装置,其特征在于,所述第二检索单元包括:
第二调用单元,用于调用CNN数学模型,所述CNN数学模型为经过所述预设文本数据库为数据源训练后的数学模型;
语义关系单元,用于将所述第二待查文本数据和所述第一信息中每篇文本的特征向量信息作为所述CNN数学模型的输入信息,求解所述CNN数学模型得到第三数据信息,所述第三数据信息包括所述第二待查文本数据和所述第一信息中每篇文本在语义关系上的相识度;
第二提取单元,用于在所述第三数据信息中按照所述相识度由大到小的顺序提取第二预设数量篇文本,并作为第二文本集合。
CN202111206944.0A 2021-10-18 2021-10-18 一种文本查重方法、装置、设备及可读存储介质 Active CN113641800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111206944.0A CN113641800B (zh) 2021-10-18 2021-10-18 一种文本查重方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111206944.0A CN113641800B (zh) 2021-10-18 2021-10-18 一种文本查重方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113641800A true CN113641800A (zh) 2021-11-12
CN113641800B CN113641800B (zh) 2022-04-08

Family

ID=78427194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111206944.0A Active CN113641800B (zh) 2021-10-18 2021-10-18 一种文本查重方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113641800B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235207A1 (en) * 2007-03-21 2008-09-25 Kathrin Berkner Coarse-to-fine navigation through paginated documents retrieved by a text search engine
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN111522926A (zh) * 2020-04-10 2020-08-11 腾讯科技(武汉)有限公司 文本匹配方法、装置、服务器和存储介质
CN112328757A (zh) * 2020-10-27 2021-02-05 电子科技大学 一种用于业务机器人问答系统的相似文本检索方法
CN112800249A (zh) * 2021-02-01 2021-05-14 南京理工大学 基于生成对抗网络的细粒度跨媒体检索方法
CN113011194A (zh) * 2021-04-15 2021-06-22 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235207A1 (en) * 2007-03-21 2008-09-25 Kathrin Berkner Coarse-to-fine navigation through paginated documents retrieved by a text search engine
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN111522926A (zh) * 2020-04-10 2020-08-11 腾讯科技(武汉)有限公司 文本匹配方法、装置、服务器和存储介质
CN112328757A (zh) * 2020-10-27 2021-02-05 电子科技大学 一种用于业务机器人问答系统的相似文本检索方法
CN112800249A (zh) * 2021-02-01 2021-05-14 南京理工大学 基于生成对抗网络的细粒度跨媒体检索方法
CN113011194A (zh) * 2021-04-15 2021-06-22 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PARTHA PRATIM ROY ET AL.: ""An Efficient Coarse-to-Fine Indexing Technique for Fast Text Retrieval in Historical Documents"", 《IAPR INTERNATIONAL WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS, DAS》 *
吴多坚: ""基于word2vec的中文文本相似度研究与实现"", 《万方数据知识服务平台》 *

Also Published As

Publication number Publication date
CN113641800B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN110795525A (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及系统
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN113961685A (zh) 信息抽取方法及装置
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
Touati-Hamad et al. Arabic quran verses authentication using deep learning and word embeddings
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN115203429B (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN107291952B (zh) 一种提取有意义串的方法及装置
CN113641800B (zh) 一种文本查重方法、装置、设备及可读存储介质
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN113868389B (zh) 基于自然语言文本的数据查询方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant