CN110442679A - 一种基于融合模型算法的文本去重方法 - Google Patents

一种基于融合模型算法的文本去重方法 Download PDF

Info

Publication number
CN110442679A
CN110442679A CN201910707778.9A CN201910707778A CN110442679A CN 110442679 A CN110442679 A CN 110442679A CN 201910707778 A CN201910707778 A CN 201910707778A CN 110442679 A CN110442679 A CN 110442679A
Authority
CN
China
Prior art keywords
text
weight
news
similarity
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910707778.9A
Other languages
English (en)
Inventor
王慜骊
林路
陈芃
郏维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUNYARD SYSTEM ENGINEERING Co Ltd
Original Assignee
SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUNYARD SYSTEM ENGINEERING Co Ltd filed Critical SUNYARD SYSTEM ENGINEERING Co Ltd
Priority to CN201910707778.9A priority Critical patent/CN110442679A/zh
Publication of CN110442679A publication Critical patent/CN110442679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于融合模型算法的文本去重方法,包括以下步骤,新闻预处理,检验一致性,计算任意两篇新闻的两两之间的相似度,使用混合贪婪算法进行文本去重。本发明中,实现自动对文本进行预处理,包括对文本进行转换、匹配,和权威性分析,只保留权威媒体的新闻,提高新闻文本的权威性,同时便于降低后序对文本去重的工作量,其次,实现去除标题和正文的一致性的文本,同时实现去除相似文本,最大保留了去重后可以用的数据量。

Description

一种基于融合模型算法的文本去重方法
技术领域
本发明涉及文本去重方法技术领域,尤其涉及一种基于融合模型算法的文本去重方法。
背景技术
新闻情数据来自各大门户网站,因为对同一事件的报道各大网站可能会相互转载引用,也可能用不同的措辞描述同一事件,内容相似包括文字相似,语义相似的概率很高,会给阅读,统计和分析带来较大噪声干扰。
基于语义的去重,一直是个难题,同样一个意思,可以有很多种说法,这些句子在语义上是十分接近的,目前在相似新闻去重方面多为通过使用人工运营相似新闻去重技术方案,这种方法成本高昂,有遗漏风险,且效率地下。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于融合模型算法的文本去重方法。
为了实现上述目的,本发明采用了如下技术方案:一种基于融合模型算法的文本去重方法,包括以下步骤:
S1:新闻预处理,检验一致性;
S2:计算任意两篇新闻的两两之间的相似度;
S3:使用混合贪婪算法进行文本去重。
作为上述技术方案的进一步描述:
所述S1步骤中新闻预处理,检验一致性的方法包括以下步骤:
S1.1:针对原始文本将html文本转换为纯文本;
S1.2:完成匹配CDATA,匹配Script,匹配style,处理换行,匹配HTML标签,匹配HTML注释,去除CDATA,Script,style,HTML标签,HTML注释,去掉多余空行,替换常用的HTML实体;
S1.3:通过MD5给标题生成数字证书,验证标题和正文的一致性,去除完全一致的新闻,使用预设的新闻媒体的权威性的评分,只保留权威媒体的新闻。
作为上述技术方案的进一步描述:
所述html指超文本标记语言,且html为标准通用标记语言下的一个应用,其中,超文本就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素,所述超文本标记语言的结构包括“头”部分和“主体”部分,其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
作为上述技术方案的进一步描述:
所述MD5是一种消息摘要算法,MD5为一种广泛使用的密码散列函数,可以产生出一个128位、16字节的散列值,MD5用于将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要,确保信息传输完整一致。
作为上述技术方案的进一步描述:
所述S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤:
S2.1:对正文进行中文分词,使用预设的停用词库对正文进行去除停用词;
S2.2:以词为单位,根据TF-IDF的特征处理建立词袋模型,实现文本向量化;
S2.3:正文取权重最大的前M个作为关键词,并分别记录其权值,其次取权重次大的前N个词作为描述词,并分别记录其权值;
S2.4:使用hash算法把标题,关键词句,描述词句里面的每个词变成hash值;
S2.5:通过S2.4步骤的hash生成结果,需要按照单词的权重形成加权数字串,把各个单词算出来的序列值累加,变成只有一个序列串,降维变成0 1串,形成最终的属于标题、关键字和描述的simhash签名;
S2.6:计算任意两篇文章的标题,关键字,描述拼接而成的simhash的相似度sim(si,sj)。
作为上述技术方案的进一步描述:
所述simhash的相似度sim(si,sj)中的si和sj分别表示两篇文章,所述似度采用余弦夹角公式计算,且相似度的最大值为1,而且相似度的最小值为0。
作为上述技术方案的进一步描述:
所述hash算法是指是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值,且这种转换是一种压缩映射。
作为上述技术方案的进一步描述:
所述S3步骤中使用混合贪婪算法进行文本去重方法包括以下步骤:
S3.1:判断相似度是否达到阈值,若达到阈值,则进行步骤S3.2,若相似度没有达到阈值,则认为两篇文章不重复;
S3.2:所有新闻组成的相似度矩阵是建立了一个相似图的相似关系建立一个相似图G=<V,E>;
S3.3:根据顶点V的度特点及贪婪法的思想,设计了MGA算法,最终找到最小权顶点V覆盖集;
S3.4:根据S3.3步骤找到在最小顶点权覆盖集,在文本数据集中将list中去只保留一篇权值最高的新闻结点,剩余的新闻文本均为不重复,将这些不重复的文本作为输出。
作为上述技术方案的进一步描述:
所述相似图G=<V,E>中V表示顶点的集合,E表示边的集合,其中,v∈V,e∈E,若v与e关联,则称点v覆盖了边e,文本是V,文本之间如果相似度大于阈值则存在边e,sim(si,sj)=e;v根据新闻的时间和媒体权威性赋予不同的权值。
作为上述技术方案的进一步描述:
所述S3.3步骤中设计了MGA算法,最终找到最小权顶点V覆盖集包括以下步骤:
S3.3.1:取顶点的邻接度数较大的顶点,以使得最少数目的图的顶点并入覆盖集里为原则,即使得最多数目的图的边成为覆盖边;
S3.3.2:经过第一阶段的搜索,得到图G的子图,计算子图的顶点邻接度数,按照同样的方法,最终找到最小权顶点覆盖集。
有益效果
本发明提供了一种基于融合模型算法的文本去重方法。具备以下有益效果:
该基于融合模型算法的文本去重方法实现自动对文本进行预处理,实现对文本转换、匹配,和权威性分析,只保留权威媒体的新闻,提高新闻文本的权威性,同时便于降低后序对文本去重的工作量,其次,该基于融合模型算法的文本去重方法实现去除标题和正文的一致性的文本,同时实现去除相似文本,最大保留了去重后可以用的数据量。
附图说明
图1为本发明提出的一种基于融合模型算法的文本去重方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于融合模型算法的文本去重方法,包括以下步骤:
S1:新闻预处理,检验一致性;
S2:计算任意两篇新闻的两两之间的相似度;
S3:使用混合贪婪算法进行文本去重。
S1步骤中新闻预处理,检验一致性的方法包括以下步骤:
S1.1:针对原始文本将html文本转换为纯文本;
S1.2:完成匹配CDATA,匹配Script,匹配style,处理换行,匹配HTML标签,匹配HTML注释,去除CDATA,Script,style,HTML标签,HTML注释,去掉多余空行,替换常用的HTML实体;
S1.3:通过MD5给标题生成数字证书,验证标题和正文的一致性,去除完全一致的新闻,使用预设的新闻媒体的权威性的评分,只保留权威媒体的新闻。
html指超文本标记语言,且html为标准通用标记语言下的一个应用,其中,超文本就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素,超文本标记语言的结构包括“头”部分和“主体”部分,其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
MD5是一种消息摘要算法,MD5为一种广泛使用的密码散列函数,可以产生出一个128位、16字节的散列值,MD5用于将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要,确保信息传输完整一致。
S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤:
S2.1:对正文进行中文分词,使用预设的停用词库对正文进行去除停用词;
S2.2:以词为单位,根据TF-IDF的特征处理建立词袋模型,实现文本向量化;
S2.3:正文取权重最大的前M个作为关键词,并分别记录其权值,其次取权重次大的前N个词作为描述词,并分别记录其权值;
S2.4:使用hash算法把标题,关键词句,描述词句里面的每个词变成hash值;
S2.5:通过S2.4步骤的hash生成结果,需要按照单词的权重形成加权数字串,把各个单词算出来的序列值累加,变成只有一个序列串,降维变成0 1串,形成最终的属于标题、关键字和描述的simhash签名;
S2.6:计算任意两篇文章的标题,关键字,描述拼接而成的simhash的相似度sim(si,sj)。
simhash的相似度sim(si,sj)中的si和sj分别表示两篇文章,似度采用余弦夹角公式计算,且相似度的最大值为1,而且相似度的最小值为0。
hash算法是指是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值,且这种转换是一种压缩映射。
S3步骤中使用混合贪婪算法进行文本去重方法包括以下步骤:
S3.1:判断相似度是否达到阈值,若达到阈值,则进行步骤S3.2,若相似度没有达到阈值,则认为两篇文章不重复;
S3.2:所有新闻组成的相似度矩阵是建立了一个相似图的相似关系建立一个相似图G=<V,E>;
S3.3:根据顶点V的度特点及贪婪法的思想,设计了MGA算法,最终找到最小权顶点V覆盖集;
S3.4:根据S3.3步骤找到在最小顶点权覆盖集,在文本数据集中将list中去只保留一篇权值最高的新闻结点,剩余的新闻文本均为不重复,将这些不重复的文本作为输出。
相似图G=<V,E>中V表示顶点的集合,E表示边的集合,其中,v∈V,e∈E,若v与e关联,则称点v覆盖了边e,文本是V,文本之间如果相似度大于阈值则存在边e,sim(si,sj)=e;v根据新闻的时间和媒体权威性赋予不同的权值。
S3.3步骤中设计了MGA算法,最终找到最小权顶点V覆盖集包括以下步骤:
S3.3.1:取顶点的邻接度数较大的顶点,以使得最少数目的图的顶点并入覆盖集里为原则,即使得最多数目的图的边成为覆盖边;
S3.3.2:经过第一阶段的搜索,得到图G的子图,计算子图的顶点邻接度数,按照同样的方法,最终找到最小权顶点覆盖集。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于融合模型算法的文本去重方法,其特征在于,包括以下步骤:
S1:新闻预处理,检验一致性;
S2:计算任意两篇新闻的两两之间的相似度;
S3:使用混合贪婪算法进行文本去重。
2.根据权利要求1所述的一种基于融合模型算法的文本去重方法,其特征在于,所述S1步骤中新闻预处理,检验一致性的方法包括以下步骤:
S1.1:针对原始文本将html文本转换为纯文本;
S1.2:完成匹配CDATA,匹配Script,匹配style,处理换行,匹配HTML标签,匹配HTML注释,去除CDATA,Script,style,HTML标签,HTML注释,去掉多余空行,替换常用的HTML实体;
S1.3:通过MD5给标题生成数字证书,验证标题和正文的一致性,去除完全一致的新闻,使用预设的新闻媒体的权威性的评分,只保留权威媒体的新闻。
3.根据权利要求2所述的一种基于融合模型算法的文本去重方法,其特征在于,所述html指超文本标记语言,且html为标准通用标记语言下的一个应用,其中,超文本就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素,所述超文本标记语言的结构包括“头”部分和“主体”部分,其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
4.根据权利要求2所述的一种基于融合模型算法的文本去重方法,其特征在于,所述MD5是一种消息摘要算法,MD5为一种广泛使用的密码散列函数,可以产生出一个128位、16字节的散列值,MD5用于将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要,确保信息传输完整一致。
5.根据权利要求1所述的一种基于融合模型算法的文本去重方法,其特征在于,所述S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤:
S2.1:对正文进行中文分词,使用预设的停用词库对正文进行去除停用词;
S2.2:以词为单位,根据TF-IDF的特征处理建立词袋模型,实现文本向量化;
S2.3:正文取权重最大的前M个作为关键词,并分别记录其权值,其次取权重次大的前N个词作为描述词,并分别记录其权值;
S2.4:使用hash算法把标题,关键词句,描述词句里面的每个词变成hash值;
S2.5:通过S2.4步骤的hash生成结果,需要按照单词的权重形成加权数字串,把各个单词算出来的序列值累加,变成只有一个序列串,降维变成01串,形成最终的属于标题、关键字和描述的simhash签名;
S2.6:计算任意两篇文章的标题,关键字,描述拼接而成的simhash的相似度sim(si,sj)。
6.根据权利要求5所述的一种基于融合模型算法的文本去重方法,其特征在于,所述simhash的相似度sim(si,sj)中的si和sj分别表示两篇文章,所述似度采用余弦夹角公式计算,且相似度的最大值为1,而且相似度的最小值为0。
7.根据权利要求5所述的一种基于融合模型算法的文本去重方法,其特征在于,所述hash算法是指是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值,且这种转换是一种压缩映射。
8.根据权利要求1所述的一种基于融合模型算法的文本去重方法,其特征在于,所述S3步骤中使用混合贪婪算法进行文本去重方法包括以下步骤:
S3.1:判断相似度是否达到阈值,若达到阈值,则进行步骤S3.2,若相似度没有达到阈值,则认为两篇文章不重复;
S3.2:所有新闻组成的相似度矩阵是建立了一个相似图的相似关系建立一个相似图G=<V,E>;
S3.3:根据顶点V的度特点及贪婪法的思想,设计了MGA算法,最终找到最小权顶点V覆盖集;
S3.4:根据S3.3步骤找到在最小顶点权覆盖集,在文本数据集中将list中去只保留一篇权值最高的新闻结点,剩余的新闻文本均为不重复,将这些不重复的文本作为输出。
9.根据权利要求8所述的一种基于融合模型算法的文本去重方法,其特征在于,所述相似图G=<V,E>中V表示顶点的集合,E表示边的集合,其中,v∈V,e∈E,若v与e关联,则称点v覆盖了边e,文本是V,文本之间如果相似度大于阈值则存在边e,sim(si,sj)=e;v根据新闻的时间和媒体权威性赋予不同的权值。
10.根据权利要求8所述的一种基于融合模型算法的文本去重方法,其特征在于,所述S3.3步骤中设计了MGA算法,最终找到最小权顶点V覆盖集包括以下步骤:
S3.3.1:取顶点的邻接度数较大的顶点,以使得最少数目的图的顶点并入覆盖集里为原则,即使得最多数目的图的边成为覆盖边;
S3.3.2:经过第一阶段的搜索,得到图G的子图,计算子图的顶点邻接度数,按照同样的方法,最终找到最小权顶点覆盖集。
CN201910707778.9A 2019-08-01 2019-08-01 一种基于融合模型算法的文本去重方法 Pending CN110442679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910707778.9A CN110442679A (zh) 2019-08-01 2019-08-01 一种基于融合模型算法的文本去重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910707778.9A CN110442679A (zh) 2019-08-01 2019-08-01 一种基于融合模型算法的文本去重方法

Publications (1)

Publication Number Publication Date
CN110442679A true CN110442679A (zh) 2019-11-12

Family

ID=68432748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910707778.9A Pending CN110442679A (zh) 2019-08-01 2019-08-01 一种基于融合模型算法的文本去重方法

Country Status (1)

Country Link
CN (1) CN110442679A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339338A (zh) * 2020-02-29 2020-06-26 西安理工大学 基于深度学习的文本图片匹配推荐方法
CN112084302A (zh) * 2020-08-24 2020-12-15 江苏易达捷信数字科技有限公司 造价文件的清单数据检测方法、系统、装置及存储介质
CN113011174A (zh) * 2020-12-07 2021-06-22 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN114780712A (zh) * 2022-04-06 2022-07-22 科技日报社 一种基于质量评价的新闻专题生成方法及装置
CN117034905A (zh) * 2023-08-07 2023-11-10 重庆邮电大学 一种基于大数据的互联网假新闻识别方法
CN117892727A (zh) * 2024-03-14 2024-04-16 中国电子科技集团公司第三十研究所 一种实时文本数据流去重系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
US20150142760A1 (en) * 2012-06-30 2015-05-21 Huawei Technologies Co., Ltd. Method and device for deduplicating web page
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN108595464A (zh) * 2018-01-31 2018-09-28 深圳市富途网络科技有限公司 一种实现多源相似新闻去重的方法及系统
CN109299443A (zh) * 2018-09-04 2019-02-01 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150142760A1 (en) * 2012-06-30 2015-05-21 Huawei Technologies Co., Ltd. Method and device for deduplicating web page
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN108595464A (zh) * 2018-01-31 2018-09-28 深圳市富途网络科技有限公司 一种实现多源相似新闻去重的方法及系统
CN109299443A (zh) * 2018-09-04 2019-02-01 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吕健康等: "求一般图的最小顶点覆盖集问题的混合贪婪算法", 《科学技术与工程》 *
干货满满张哈希: "大数据级新闻去重实现 - 1.在线实时方案", 《CSDN》 *
赵涛: "中文农业网页去重及相似度判断研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339338A (zh) * 2020-02-29 2020-06-26 西安理工大学 基于深度学习的文本图片匹配推荐方法
CN111339338B (zh) * 2020-02-29 2023-03-07 西安理工大学 基于深度学习的文本图片匹配推荐方法
CN112084302A (zh) * 2020-08-24 2020-12-15 江苏易达捷信数字科技有限公司 造价文件的清单数据检测方法、系统、装置及存储介质
CN112084302B (zh) * 2020-08-24 2024-04-30 江苏易达捷信数字科技有限公司 造价文件的清单数据检测方法、系统、装置及存储介质
CN113011174A (zh) * 2020-12-07 2021-06-22 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN113011174B (zh) * 2020-12-07 2023-08-11 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN114780712A (zh) * 2022-04-06 2022-07-22 科技日报社 一种基于质量评价的新闻专题生成方法及装置
CN117034905A (zh) * 2023-08-07 2023-11-10 重庆邮电大学 一种基于大数据的互联网假新闻识别方法
CN117034905B (zh) * 2023-08-07 2024-05-14 重庆邮电大学 一种基于大数据的互联网假新闻识别方法
CN117892727A (zh) * 2024-03-14 2024-04-16 中国电子科技集团公司第三十研究所 一种实时文本数据流去重系统及方法
CN117892727B (zh) * 2024-03-14 2024-05-17 中国电子科技集团公司第三十研究所 一种实时文本数据流去重系统及方法

Similar Documents

Publication Publication Date Title
CN110442679A (zh) 一种基于融合模型算法的文本去重方法
Fu et al. WASTK: A weighted abstract syntax tree kernel method for source code plagiarism detection
US10110658B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
Shen et al. LIEGE: link entities in web lists with knowledge base
Nagwani et al. A frequent term and semantic similarity based single document text summarization algorithm
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
Weerawardhana et al. Automated extraction of vulnerability information for home computer security
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
US10885281B2 (en) Natural language document summarization using hyperbolic embeddings
Wu et al. Searching services" on the web": A public web services discovery approach
Mantratzis et al. Separating XHTML content from navigation clutter using DOM-structure block analysis
CN107679073A (zh) 一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法
Bharadwaj et al. Language independent identification of parallel sentences using wikipedia
Kotlerman et al. Clustering small-sized collections of short texts
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
Chang Domain specific word extraction from hierarchical Web documents: A first step toward building lexicon trees from Web corpora
La Barbera et al. BUM at CheckThat! 2022: a composite deep learning approach to fake news detection using evidence retrieval
US10380195B1 (en) Grouping documents by content similarity
Liew et al. BEAM-An Algorithm for Detecting Phishing Link
Zhang et al. Automatic extraction of definitions
Lu et al. Research on text classification based on TextRank
CN111177514A (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
Matthies et al. Concept graphs: a novel approach for textual analysis of medical documents
Nia et al. Streaming fact extraction for wikipedia entities at web-scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000

Applicant after: Sinyada Technology Co.,Ltd.

Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000

Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112