CN112257408A - 一种文本对比的方法及相关装置 - Google Patents
一种文本对比的方法及相关装置 Download PDFInfo
- Publication number
- CN112257408A CN112257408A CN202011005428.7A CN202011005428A CN112257408A CN 112257408 A CN112257408 A CN 112257408A CN 202011005428 A CN202011005428 A CN 202011005428A CN 112257408 A CN112257408 A CN 112257408A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- key information
- candidate sentence
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本对比的方法,用于减少人工在阅读上花费大量的时间,增加工作效率。本申请实施例方法包括:获取第一文本与第二文本,将第一文本与第二文本进行文本拆解,以生成候选语句组,从候选语句组中选取一个目标候选句子,开启目标候选句子中的网络链接所对应的目标网页。在开启的目标网页中,获取目标网页中的超链接集合,确定超链接集合中指向网页的目标超链接,根据目标超链接确定目标候选句子的重要性分数,当重要性分数大于预设值时,将目标候选句子确定为关键信息,根据上述方法分别生成关于第一文本与第二文本的第一文本关键信息组和第二文本关键信息组,根据第一文本关键信息组和第二文本关键信息生成比对结果。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种文本对比的方法及相关装置。
背景技术
现代社会是信息爆炸的社会,互联网上存在着海量的文本数据,在文本发布前,往往需要进行一定的文本对比,确定文本是否为抄袭文本。
现有技术中所使用比较方法,一般是由人工将文本阅读完后总结出该稿件的核心思想,然后归纳出关键词,使用这些关键词在互联网上进行搜索,但是,如果文本中的信息量较大,人工完成该工作,在阅读上需要花费大量的时间,降低了了工作效率。
发明内容
本申请实施例提供了一种文本对比的方法及相关装置,用于减少人工在阅读上花费大量的时间,增加工作效率。
本申请实施例第一方面提供了一种文本对比的方法,包括:
获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
从所述候选语句组中选取一个目标候选句子;
开启所述目标候选句子中的网络链接所对应的目标网页;
在开启的所述目标网页中,获取所述目标网页中的超链接集合;
确定所述超链接集合中指向所述网页的目标超链接;
根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
可选地,所述根据所述目标超链接确定所述目标候选句子的重要性分数,包括:
根据所述目标超链接与第一公式确定所述目标候选句子的重要性分数,所述第一公式为:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vi)取绝对值是用以表示该网页集合中网页的个数,S(Vj)是网页j的重要性分数。
可选地,所述将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,包括:
确定所述第一文本与所述第二文本中带有的网络链接;
根据所述网络链接确定对应的语句;
根据所述网络链接确定对应的语句生成候选语句组。
可选地,所述根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果,包括:
根据所述第一文本关键信息组和所述第二文本关键信息,通过余弦相似度比较法生成比对结果。
可选地,在所述根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果之后,所述方法还包括:
当所述对比结果表示所述第一文本与所述第二文本的相似率达到预设值时,获取所述第一文本中的第一图像;
提取所述第一图像的深度特征;
根据所述第一图像的深度特征对所述第二文本中的第二图像进行查重。
本申请实施例第二方面提供了一种文本对比的装置,包括:
第一获取单元,用于获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
第一生成单元,用于将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
选取单元,用于从所述候选语句组中选取一个目标候选句子;
开启单元,开启所述目标候选句子中的网络链接所对应的目标网页;
第二获取单元,用于在开启的所述目标网页中,获取所述目标网页中的超链接集合;
第一确定单元,用于确定所述超链接集合中指向所述网页的目标超链接;
第二确定单元,用于根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
第三确定单元,用于当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
第二生成单元,用于根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
第三生成单元,用于根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
可选地,所述第二确定单元,具体为:
根据所述目标超链接与第一公式确定所述目标候选句子的重要性分数,所述第一公式为:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vi)取绝对值是用以表示该网页集合中网页的个数,S(Vj)是网页j的重要性分数。
可选地,所述第一生成单元,包括:
第四确定模块,用于确定所述第一文本与所述第二文本中带有的网络链接;
第五确定模块,用于根据所述网络链接确定对应的语句;
第三生成模块,用于根据所述网络链接确定对应的语句生成候选语句组。
可选地,所述第三生成单元,具体为:
根据所述第一文本关键信息组和所述第二文本关键信息,通过余弦相似度比较法生成比对结果。
可选地,所述方法还包括:
第三获取单元,用于当所述对比结果表示所述第一文本与所述第二文本的相似率达到预设值时,获取所述第一文本中的第一图像;
提取单元,用于提取所述第一图像的深度特征;
查重单元,用于根据所述第一图像的深度特征对所述第二文本中的第二图像进行查重。
本申请实施例第三方面提供了一种文本对比的装置,包括:
处理器、存储器、输入输出单元、总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述处理器具体执行如下操作:
获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
从所述候选语句组中选取一个目标候选句子;
开启所述目标候选句子中的网络链接所对应的目标网页;
在开启的所述目标网页中,获取所述目标网页中的超链接集合;
确定所述超链接集合中指向所述网页的目标超链接;
根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
可选的,所述处理器还用于执行第一方面中的任意可选方案的操作。
一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如前述第一方面以及第一方面的任意可选的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
获取第一文本与第二文本,将第一文本与第二文本进行文本拆解,以生成候选语句组,从候选语句组中选取一个目标候选句子,开启目标候选句子中的网络链接所对应的目标网页。在开启的目标网页中,获取目标网页中的超链接集合,确定超链接集合中指向网页的目标超链接,根据目标超链接确定目标候选句子的重要性分数,当重要性分数大于预设值时,将目标候选句子确定为关键信息,根据上述方法分别生成关于第一文本与第二文本的第一文本关键信息组和第二文本关键信息组,根据第一文本关键信息组和第二文本关键信息生成比对结果。只需要获取到需要进行查重对比的第一文本,通过查找候选句子中存在网络链接的句子的重要性分数,及其可确定查重的关键信息,该过程可以由服务器自行完成,无需人工进行阅读,所以提高了工作效率。
附图说明
图1为本申请实施例中文本对比的方法一个实施例流程示意图;
图2为本申请实施例中文本对比的方法另一个实施例流程示意图;
图3为本申请实施例中文本对比的装置一个实施例流程示意图;
图4为本申请实施例中文本对比的装置另一个实施例流程示意图;
图5为本申请实施例中文本对比的装置另一个实施例流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的阐述,显然阐述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护范围。
本申请实施例提供了一种文本对比的方法及相关装置,用于减少人工在阅读上花费大量的时间,增加工作效率。
在本实施例中,文本对比的方法可在系统实现,可以在服务器实现,也可以在终端实现,具体不做明确限定。为方便描述,本申请实施例使用系统为执行主体举例描述。
请参阅图1,本申请实施例中文本对比的方法的一个实施例包括:
101、系统获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
系统获取到需要进行查重对比的第一文本,以及获取用来对比的参考文本(第二文本)。第二文本可以是从网络文库中大略浏览到的文本集合,也可以是从同类型文库中得到,此处不做限定。
102、系统将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
系统将第一文本与第二文本中的语句进行拆分,将每一个句子进行筛选,仅提取含有网络链接的句子作为候选句子,以生成候选语句组。
可选地,本实施例中,查找句子中的英文结构语句,判断该语句是否为网络链接,若为网络链接,视为候选语句。
103、系统从所述候选语句组中选取一个目标候选句子;
系统从候选句子组中选取一个目标候选句子,作为一个例子。所有的候选句子都需要进行该操作以及接下来的一系列操作,直到生成关键信息。
104、系统开启所述目标候选句子中的网络链接所对应的目标网页;
系统将会赋值该网络链接,在浏览器中开启所述目标候选句子中的网络链接所对应的目标网页。
105、系统在开启的所述目标网页中,获取所述目标网页中的超链接集合;
在开启目标网页后,系统搜索该网页的超链接,并且记录下来。用作重要性分数的计算基础。
106、系统确定所述超链接集合中指向所述网页的目标超链接;
系统从在目标网页中搜索到的超链接中,筛选出指向该目标网页的超链接,作为目标超链接。
107、系统根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
系统根据这些目标超链接为目标候选句子确定重要性分数,该重要性分数是目标候选句子(文本中的包含网络链接的句子)的重要程度的特征。
108、当所述目标候选句子的重要性分数大于预设值时,系统将所述目标候选句子确定为关键信息;
当所目标候选句子的重要性分数大于预设值时,系统将目标候选句子确定为对比两个文本的关键信息。
109、系统根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
根据上述生成关键信息的方法,分别为第一文本与第二文本生成关键信息组,关键信息组就是两个文本的对比信息,即关键词信息。
110、系统根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
系统根据第一文本关键信息组和第二文本关键信息生成比对结果,通过网络链接的对比,确认这些文本中所包含的网络信息是否重叠过多,以此作为对比的关键。
可选地,本实施例中,比如第一文本是:“今天发现一个好玩的网站:第一网络链接”,第一文本中有一个候选句子是网址(第一网络链接),这时候系统会在后台打开这个网址(第一网络链接)对应的网页,然后在这个网页中提取所有的超链接,再逐一打开这些超链接,判断有多少个超链接打开之后的网页是第一网络链接(即点击这个超链接后又回到这个网页),然后再根据这样的超链接的数量确定重要性分数,最简单的确定方式就是将这样的超链接的数量作为重要性分数,比如说第一网络链接的网页中有35个超链接指向自己,则“第一网络链接”这个候选句子的重要性分数为35分。
获取第一文本与第二文本,将第一文本与第二文本进行文本拆解,以生成候选语句组,从候选语句组中选取一个目标候选句子,开启目标候选句子中的网络链接所对应的目标网页。在开启的目标网页中,获取目标网页中的超链接集合,确定超链接集合中指向网页的目标超链接,根据目标超链接确定目标候选句子的重要性分数,当重要性分数大于预设值时,将目标候选句子确定为关键信息,根据上述方法分别生成关于第一文本与第二文本的第一文本关键信息组和第二文本关键信息组,根据第一文本关键信息组和第二文本关键信息生成比对结果。只需要获取到需要进行查重对比的第一文本,通过查找候选句子中存在网络链接的句子的重要性分数,及其可确定查重的关键信息,该过程可以由服务器自行完成,无需人工进行阅读,所以提高了工作效率。
上述实施例中,通过重要性分数判断文本中网络链接的重要性,以此让网络链接作为文本的查重信息。需要说明的是,该查重方式只是对于网络链接的,还可以针对图像进行查重。
请参阅图2,本申请实施例中文本对比的方法的一个实施例包括:
201、系统获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
本实施例中的步骤201与前述实施例中步骤101类似,此处不再赘述。
202、系统确定所述第一文本与所述第二文本中带有的网络链接;
系统确定第一文本与第二文本中所有网络链接,将所有的网络链接进行记录。
203、系统根据所述网络链接确定对应的语句;
系统通过网络链接确定文本中的对应语句,并做记录。
204、系统根据所述网络链接确定对应的语句生成候选语句组;
系统将全部对应的语句进行记录,为第一文本与第二文本生成候选句子组。
205、系统从所述候选语句组中选取一个目标候选句子;
206、系统开启所述目标候选句子中的网络链接所对应的目标网页;
207、系统在开启的所述目标网页中,获取所述目标网页中的超链接集合;
208、系统确定所述超链接集合中指向所述网页的目标超链接;
本实施例中的步骤205至208与前述实施例中步骤103至106类似,此处不再赘述。
209、系统根据所述目标超链接与第一公式确定所述目标候选句子的重要性分数,所述第一公式为:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vi)取绝对值是用以表示该网页集合中网页的个数,S(Vj)是网页j的重要性分数;
系统根据所述目标超链接与第一公式确定所述目标候选句子的重要性分数,重要性分数表示该链接对于网页的重要性。
可选地,本实施例中,比如第一文本是:“今天发现一个好玩的网站:第一网络链接”,第一文本中有一个候选句子是网址(第一网络链接),这时候系统会在后台打开这个网址(第一网络链接)对应的网页,然后在这个网页中提取所有的超链接,再逐一打开这些超链接,判断有多少个超链接打开之后的网页是第一网络链接(即点击这个超链接后又回到这个网页),然后再根据这样的超链接的数量确定重要性分数,通过上述公式确定网页的重要性分数。
210、当所述目标候选句子的重要性分数大于预设值时,系统将所述目标候选句子确定为关键信息;
211、系统根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
本实施例中的步骤210与211与前述实施例中步骤108与109类似,此处不再赘述。
212、系统根据所述第一文本关键信息组和所述第二文本关键信息,通过余弦相似度比较法生成比对结果;
给第一文本关键信息组和第二文本关键信息中的关键信息拆分为若干个词组,将两个根据信息组的词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列,计算第一序列和第二序列之间的余弦相似度,并作为第一关键信息和第二关键信息之间的余弦相似度。
例如:第一关键信息为:今天协会在北京召开会议。第二关键信息为:协会在北京召开了普法会议。
则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1,1)。
计算第一序列和第二序列之间的余弦相似度的过程:
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。例如,上述两个句子计算的结果为:
最终的计算结果为:0.8,预设值为0.6,大于预设值,对比结果为相似。
213、系统当所述对比结果表示所述第一文本与所述第二文本的相似率达到预设值时,获取所述第一文本中的第一图像;
当对比结果为相似,为了进一步得到相似性判断,系统获取第一文本的图像。
214、系统提取所述第一图像的深度特征;
通过预设模型对图像提取深度特征,以使得在进行图像查重时更加准确。
215、系统根据所述第一图像的深度特征对所述第二文本中的第二图像进行查重。
将获取了深度特征的第一图像与第二文本中的第二图像进行深度特征对比,以得出图像查重结果。
获取第一文本与第二文本,将第一文本与第二文本进行文本拆解,以生成候选语句组,从候选语句组中选取一个目标候选句子,开启目标候选句子中的网络链接所对应的目标网页。在开启的目标网页中,获取目标网页中的超链接集合,确定超链接集合中指向网页的目标超链接,根据目标超链接确定目标候选句子的重要性分数,当重要性分数大于预设值时,将目标候选句子确定为关键信息,根据上述方法分别生成关于第一文本与第二文本的第一文本关键信息组和第二文本关键信息组,根据第一文本关键信息组和第二文本关键信息生成比对结果。只需要获取到需要进行查重对比的第一文本,通过查找候选句子中存在网络链接的句子的重要性分数,及其可确定查重的关键信息。在初步确定相似之后,通过深度学习网络对比图像信息,该过程可以由服务器自行完成,无需人工进行阅读,所以提高了工作效率。
其次,通过深度学习网络对比图像信息,获取更加准确的查重结果。
请参阅图3,本申请实施例中文本对比的装置一个实施例包括:
第一获取单元301,用于获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
第一生成单元302,用于将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
选取单元303,用于从所述候选语句组中选取一个目标候选句子;
开启单元304,开启所述目标候选句子中的网络链接所对应的目标网页;
第二获取单元305,用于在开启的所述目标网页中,获取所述目标网页中的超链接集合;
第一确定单元306,用于确定所述超链接集合中指向所述网页的目标超链接;
第二确定单元307,用于根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
第三确定单元308,用于当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
第二生成单元309,用于根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
第三生成单元310,用于根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
请参阅图4,本申请实施例中文本对比的装置另一个实施例包括:
第一获取单元401,用于获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
第一生成单元402,用于将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
本实施例中,所述第一生成单元402包括第四确定模块4021、第五确定模块4022和第三生成模块4023。
第四确定模块4021,用于确定所述第一文本与所述第二文本中带有的网络链接;
第五确定模块4022,用于根据所述网络链接确定对应的语句;
第三生成模块4023,用于根据所述网络链接确定对应的语句生成候选语句组;
选取单元403,用于从所述候选语句组中选取一个目标候选句子;
开启单元404,开启所述目标候选句子中的网络链接所对应的目标网页;
第二获取单元405,用于在开启的所述目标网页中,获取所述目标网页中的超链接集合;
第一确定单元406,用于确定所述超链接集合中指向所述网页的目标超链接;
第二确定单元407,用于根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
本实施例中,所述第二确定单元407具体为:
根据所述目标超链接与第一公式确定所述目标候选句子的重要性分数,所述第一公式为:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vi)取绝对值是用以表示该网页集合中网页的个数,S(Vj)是网页j的重要性分数。
第三确定单元408,用于当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
第二生成单元409,用于根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
第三生成单元410,用于根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果;
本实施例中,所述第三生成单元410,具体为:
根据所述第一文本关键信息组和所述第二文本关键信息,通过余弦相似度比较法生成比对结果;
第三获取单元411,用于当所述对比结果表示所述第一文本与所述第二文本的相似率达到预设值时,获取所述第一文本中的第一图像;
提取单元412,用于提取所述第一图像的深度特征;
查重单元413,用于根据所述第一图像的深度特征对所述第二文本中的第二图像进行查重。
请参阅图5,本申请实施例中文本对比的装置另一个实施例包括:
处理器501、存储器502、输入输出单元503、总线504;
处理器501与存储器502、输入输出单元503以及总线504相连;
处理器501具体执行如下操作:
获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
从所述候选语句组中选取一个目标候选句子;
开启所述目标候选句子中的网络链接所对应的目标网页;
在开启的所述目标网页中,获取所述目标网页中的超链接集合;
确定所述超链接集合中指向所述网页的目标超链接;
根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
本实施例中,处理器501的功能与前述图1至图2所示实施例中的步骤对应,此处不做赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种文本对比的方法,其特征在于,包括:
获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
从所述候选语句组中选取一个目标候选句子;
开启所述目标候选句子中的网络链接所对应的目标网页;
在开启的所述目标网页中,获取所述目标网页中的超链接集合;
确定所述超链接集合中指向所述网页的目标超链接;
根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,包括:
确定所述第一文本与所述第二文本中带有的网络链接;
根据所述网络链接确定对应的语句;
根据所述网络链接确定对应的语句生成候选语句组。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果,包括:
根据所述第一文本关键信息组和所述第二文本关键信息,通过余弦相似度比较法生成比对结果。
5.根据权利要求1至3中任一项所述的方法,其特征在于,在所述根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果之后,所述方法还包括:
当所述对比结果表示所述第一文本与所述第二文本的相似率达到预设值时,获取所述第一文本中的第一图像;
提取所述第一图像的深度特征;
根据所述第一图像的深度特征对所述第二文本中的第二图像进行查重。
6.一种文本对比的装置,其特征在于,包括:
第一获取单元,用于获取第一文本与第二文本,所述待第一本为需要进行文本查重的文本,所述第二文本为与需要进行文本查重的文本内容有相似的文本,所述第二文本用于与所述第一文本进行对比确认;
第一生成单元,用于将所述第一文本与所述第二文本进行文本拆解,以生成候选语句组,所述候选句子组中的每一个候选句子都包含网络链接,所述候选句子组为候选句子的集合;
选取单元,用于从所述候选语句组中选取一个目标候选句子;
开启单元,开启所述目标候选句子中的网络链接所对应的目标网页;
第二获取单元,用于在开启的所述目标网页中,获取所述目标网页中的超链接集合;
第一确定单元,用于确定所述超链接集合中指向所述网页的目标超链接;
第二确定单元,用于根据所述目标超链接确定所述目标候选句子的重要性分数,所述重要性分数是指所述目标候选句子对应的网络链接在所述目标网页上的活跃程度,所述重要性分数用于确定所述目标候选句子的重要程度;
第三确定单元,用于当所述目标候选句子的重要性分数大于预设值时,将所述目标候选句子确定为关键信息;
第二生成单元,用于根据上述方法分别生成关于所述第一文本与所述第二文本的第一文本关键信息组和第二文本关键信息组,所述第一文本关键信息组和所述第二文本关键信息组为关键信息的集合;
第三生成单元,用于根据所述第一文本关键信息组和所述第二文本关键信息生成比对结果。
8.根据权利要求6所述的方法,其特征在于,所述第一生成单元,包括:
第四确定模块,用于确定所述第一文本与所述第二文本中带有的网络链接;
第五确定模块,用于根据所述网络链接确定对应的语句;
第三生成模块,用于根据所述网络链接确定对应的语句生成候选语句组。
9.根据权利要求6至8中任一项所述的方法,其特征在于,所述第三生成单元,具体为:
根据所述第一文本关键信息组和所述第二文本关键信息,通过余弦相似度比较法生成比对结果。
10.根据权利要求6至8中任一项所述的方法,其特征在于,所述方法还包括:
第三获取单元,用于当所述对比结果表示所述第一文本与所述第二文本的相似率达到预设值时,获取所述第一文本中的第一图像;
提取单元,用于提取所述第一图像的深度特征;
查重单元,用于根据所述第一图像的深度特征对所述第二文本中的第二图像进行查重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005428.7A CN112257408A (zh) | 2020-09-23 | 2020-09-23 | 一种文本对比的方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005428.7A CN112257408A (zh) | 2020-09-23 | 2020-09-23 | 一种文本对比的方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112257408A true CN112257408A (zh) | 2021-01-22 |
Family
ID=74232735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011005428.7A Withdrawn CN112257408A (zh) | 2020-09-23 | 2020-09-23 | 一种文本对比的方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257408A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801217A (zh) * | 2021-03-19 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 文本相似度判断方法、装置、电子设备以及可读存储介质 |
-
2020
- 2020-09-23 CN CN202011005428.7A patent/CN112257408A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801217A (zh) * | 2021-03-19 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 文本相似度判断方法、装置、电子设备以及可读存储介质 |
CN112801217B (zh) * | 2021-03-19 | 2021-07-06 | 北京世纪好未来教育科技有限公司 | 文本相似度判断方法、装置、电子设备以及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN108319586B (zh) | 一种信息提取规则的生成和语义解析方法及装置 | |
CN107679070B (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
WO2022116419A1 (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
Cao et al. | Machine learning based detection of clickbait posts in social media | |
CN111104801A (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
CN112528294A (zh) | 漏洞匹配方法、装置、计算机设备和可读存储介质 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
TW201421267A (zh) | 搜索系統及方法 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN112527954A (zh) | 非结构化数据全文搜索方法、系统及计算机设备 | |
Balog et al. | The university of amsterdam at weps2 | |
CN104933097A (zh) | 一种用于检索的数据处理方法和装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN111061924A (zh) | 词组提取方法、装置、设备和存储介质 | |
CN114462378A (zh) | 科技项目查重方法、系统、计算机设备及存储介质 | |
JP2009271796A (ja) | 文書データのノイズ除去システム | |
CN112287229B (zh) | 一种基于组合语义相似度的国防建设动态信息推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210122 |
|
WW01 | Invention patent application withdrawn after publication |