CN105912514B - 基于指纹特征的文本复制检测系统及方法 - Google Patents

基于指纹特征的文本复制检测系统及方法 Download PDF

Info

Publication number
CN105912514B
CN105912514B CN201610273935.6A CN201610273935A CN105912514B CN 105912514 B CN105912514 B CN 105912514B CN 201610273935 A CN201610273935 A CN 201610273935A CN 105912514 B CN105912514 B CN 105912514B
Authority
CN
China
Prior art keywords
text
word
asc
fingerprint characteristic
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610273935.6A
Other languages
English (en)
Other versions
CN105912514A (zh
Inventor
吴国华
付二帅
王玉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610273935.6A priority Critical patent/CN105912514B/zh
Publication of CN105912514A publication Critical patent/CN105912514A/zh
Application granted granted Critical
Publication of CN105912514B publication Critical patent/CN105912514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于指纹特征的文本复制检测系统及方法。本发明系统包含:文本预处理模块,对文本进行格式转换,过滤文本中的噪声,将单词归一化,去除英语字母大小写的干扰;单词编码模块,依据单词的原生特点,将预处理后文本的单词进行编码;字典排序模块,以句子为单位,按字典方式进行排序,并去除文本中的标点;散列值映射模块,利用滚动哈希函数进行散列值计算,得到散列值序列;指纹提取模块,基于文本内容选取触发条件,并依据触发条件进行分块;利用哈希函数计算文本块的哈希值,并选取哈希值的特定位置的若干位转换为ASCII码,作为指纹特征;相似度计算模块,用于文本指纹的相似性比对,利用相似度算法计算文本指纹的相似程度。

Description

基于指纹特征的文本复制检测系统及方法
技术领域
本发明属于文本复制检测技术领域,具体涉及一种基于指纹特征的文本复制检测系统及方法。
背景技术
文本复制检测技术目前已广泛应用在多种领域,例如,数字化图书馆、信息检索、学术论文、垃圾邮件过滤、恶意代码等,为用户减小信息冗余度,提高信息检索的满意度,防止学术论文、垃圾邮件、恶意代码和网页去重提供了有效的解决方案。但是,随着文本数据量的剧增,传统的文本复制检测技术的检测效率不高。为了提高复制检测效率,一些检测方法引入了指纹技术。
基于指纹特征的文本复制检测技术是一种新颖的文本复制检测方法,该方法借鉴了传统哈希算法的理论,在保证文本信息的前提下,将文本通过一定的规则映射为一组字符或数字序列,也可称为文本指纹,用来表示文本的内容特征。相似的文本将被映射为相近的指纹,计算指纹之间的相似度,达到复制检测的目的,其具有简单、高效等优点。但是,现有基于指纹特征的文本复制检测技术仍存在指纹特征选取效率低的问题。
模糊哈希又称为“基于内容的分块哈希”,是2006年Kornblum等人提出的一种哈希算法。该算法包含两种普通哈希算法:滚动哈希算法,用于选取触发条件对输入数据进行分块;任何一种普通哈希算法,用于计算每块数据的哈希值。模糊哈希算法是基于块来计算输入数据的指纹,属于局部哈希算法,不注重于数据的细节变化。假如对输入数据进行插入、删除、修改操作后,数据的局部会发生变化,而数据的大部分还是保持不变。
模糊哈希算法被提出的初衷是用于计算机取证技术,目的是提高大数据下取证的效率。后来学术界有一些学者将其用于恶意代码及抄袭文本的检测,但是模糊哈希算法在提取指纹特征时,受滑动窗口宽度及两个设定值的影响较大,可能导致输入数据都没有触发分块条件或者频繁触发分块条件,造成指纹特征数量不固定,需要重新调整触发条件,指纹特征提取效率较低。
发明内容
为了克服现有文本复制检测技术中,指纹特征提取效率低的缺陷,本发明提供了一种基于指纹特征的文本复制检测系统及方法,本发明方法根据单词特点构建单词编码模型,并基于文本内容选取触发条件,提取指纹,克服了指纹特征提取效率低的不足,提高了指纹特征提取效率,从而提高文本复制检测用户满意度。
为达到上述目的,本发明通过以下技术方案来实现:
基于指纹特征的文本复制检测系统,含有以下几个模块:文本预处理模块、单词编码模块、字典排序模块、散列值映射模块、指纹提取模块、相似度计算模块,详细介绍如下:
文本预处理模块,用于对文本进行格式转换,过滤待检测文本中的数字、停用词、介词和特殊符号等噪声,将单词归一化,去除英语字母大小写的干扰。
单词编码模块,依据单词的原生特点,按设定的规则:如特定位置单词的字母(例如单词尾字母或单词首字母等)或特定位置单词的字母以及单词长度组合的规则,将预处理后文本的单词进行编码。
字典排序模块,将编码后的文本,以句子为单位,按字典方式进行排序,并去除文本中的标点。
散列值映射模块,将按字典排序后的文本,利用滚动哈希函数进行散列值计算,得到散列值序列。滚动哈希函数可以将长度为k的字符串映射为一个整数x(0≤x≤bk),设asc(c)为字符c的ASCII值,则将文本T[1,...,n]中长度为k的子串T1,T2,...,Tk映射为一个散列值的计算公式如下:
H(T1,T2,...,Tk)=asc(T1)bk-1+asc(T2)bk-2+...+asc(Tk) (1)
那么H(T2,...,Tk,Tk+1)可表示为:
H(T2,...,Tk,Tk+1)=(H(T1,T2,...,Tk)-asc(T1)bk-1)b+asc(Tk+1) (2)
指纹提取模块,基于文本内容选取触发条件,并依据触发条件进行分块。利用哈希函数如MD5计算文本块的哈希值,并选取哈希值的特定位置的若干位转换为ASCII码,作为指纹特征。
相似度计算模块,用于文本指纹的相似性比对,利用相似度算法如编辑距离算法等计算文本指纹的相似程度,来衡量文本之间的相似度,判断两文本之间是否存在复制行为,进而判断文本之间是否存在抄袭现象。
编辑距离算法(Levenshein Distance)是一种计算字符串相似度的算法,例如字符串S和T,编辑距离算法的思想是通过计算字符串S,需要最少经过多少步编辑操作变为T,得出的步数即为距离,其中编辑操作主要有插入、删除和替换等。编辑距离的计算公式如下:
fi,j可表示为:
其中editi,j表示两字符串第i和j位置的编辑距离,fi,j判断si,tj是否相同。
通过式(3)可以计算出字符串之间的最小距离即编辑距离,通过计算式(5)可以得出相似度。
其中Sim(S,T)表示相似度,e(S,T)表示编辑距离,l1,l2为S,T的长度。
优选的,对于预处理后得到的文本,依据单词的原生特点,对单词进行编码,单词编码的好坏主要受重码率、码长、规则、记忆量等因素的影响,由于这些指标是相互矛盾的,所以重码率最低,码长最短,规则最少,记忆量最少的编码是不存在的。在具体实现中,根据不同的应用场景,选取合适的编码方式。单词编码方式有两种形式:1)由单词特定位置的若干个字母组成;2)由单词特定位置的若干个字母及长度组成。
优选的,在文本散列值序列中,利用混合窗口技术选取触发条件,进行分块。通过哈希函数计算每个文本块的散列值,并选取散列值的若干位将其转换为对应的ASCII码,则文本指纹由所有ASCII码构成。
本发明还公开了一种基于指纹特征的文本复制检测方法,其按如下步骤进行:
S1、对输入文本进行预处理,获取去除噪声干扰的文本。
S2、利用单词编码模块对步骤S1得到的文本,进行编码。
S3、利用字典排序模块对步骤S2所得到的单词编码序列进行排序。
S4、对步骤S3所得到的单词编码序列,通过滚动哈希计算哈希值,得到文本的一组散列值序列H。
S5、定义一个字符数组,用于指纹特征映射。
S6、利用混合窗口技术对步骤S4所得到的散列值序列H进行分块,并通过哈希函数计算文本块的哈希值。
S7、选取步骤S6得到的哈希值的特定位置的若干位,并通过S5定义的字符数组将其映射为某个字符。
S8、重复步骤S6、S7。
S9、采用相似度算法计算文本指纹之间的相似度。
优选的,S1步骤具体如下:
步骤1:对可疑文本进行格式转换;
步骤2:采用正则表达式的方法去除噪声;
步骤3:将英语字母归一化,防止字母大小写的干扰;
步骤4:通过停用词表,过滤掉文本中的停用词。
优选的,S2步骤中,单词编码方式有两种形式:1)由单词特定位置的若干个字母组成;2)由单词特定位置的若干个字母及长度组成。
本发明基于指纹特征的文本复制检测系统及方法,为在海量的文本中快速的进行复制检测提供解决方案。本发明系统及方法的指纹检测原理与传统指纹检测不同,采用单词编码模型对文本单词进行编码,减少了文本内容,并利用混合窗口技术选择触发条件,进行分块,提高了指纹特征提取效率。
本发明在进行文本复制检测时,利用单词编码模块对输入文本进行编码,减少了文本信息;基于文本内容选择触发条件进行分块,加快了指纹特征提取效率。
附图说明
图1为本发明实施例文本复制检测装置的结构示意图。
图2为本发明实施例文本复制检测装置的详细结构示意图。
图3为本发明实施例文本预处理模块的详细示意图。
图4为本发明实施例单词编码模块的详细示意图。
图5为本发明实施例指纹提取模块的详细示意图。
具体实施方式
以下结合附图对本发明优选实施例作进一步说明。
如图1所示,本实施例基于指纹特征的文本复制检测系统,含有以下几个模块:
文本预处理模块,用于对文本进行格式转换,过滤待检测文本中的数字、停用词、介词和特殊符号等噪声,将单词归一化,去除英语字母大小写的干扰。
单词编码模块,依据单词的原生特点,按设定的规则将预处理后文本的单词进行编码。
字典排序模块,将编码后的文本,以句子为单位,按字典方式进行排序,并去除文本中的标点。
散列值映射模块,将按字典排序后的文本,利用滚动哈希函数进行散列值计算,得到散列值序列。
指纹提取模块,基于文本内容选取触发条件,并依据触发条件进行分块。利用哈希函数(如md5)计算文本块的哈希值,并选取哈希值的特定位置的若干位转换为ASCII码,作为指纹特征。
相似度计算模块,用于文本指纹的相似性比对,利用相似度算法计算文本指纹的相似程度,来衡量文本之间的相似度,判断两文本之间是否存在复制行为,进而判断文本之间是否存在抄袭现象。
如图2-5所示,本发明实施例基于指纹特征的文本复制检测方法,按如下步骤:
(1)文本预处理,参照图3,有以下步骤:
步骤1:对可疑文本进行格式转换。
步骤2:采用正则表达式的方法去除数字、特殊符号等噪声。
步骤3:将英语字母归一化,防止字母大小写的干扰。
步骤4:通过停用词表,过滤掉文本中的停用词。
(2)参照图4,对于预处理后得到的文本,依据单词的原生特点,对单词进行编码,单词编码的好坏主要受重码率、码长、规则、记忆量等因素的影响,由于这些指标是相互矛盾的,所以重码率最低,码长最短,规则最少,记忆量最少的编码是不存在的。在具体实现中,根据不同的应用场景,选取合适的编码方式。单词编码方式有两种形式:1)由单词特定位置的若干个字母组成;2)由单词特定位置的若干个字母及长度组成。
(3)按照字典方式排序;
(4)利用滚动哈希函数对单词编码序列进行散列值计算,得到散列值序列H。
(5)参照图5,利用混合窗口技术对散列值序列H进行分块,生成文本指纹,详细步骤如下:
步骤1:从固定窗口Hi={hi,hi+1...hi+Fixed-1}中提取指纹特征,利用滑动窗口在Hi中滑动。
步骤2:滑动窗口每滑动一次,判断该窗口内的最小值是否同上个窗口的最小值相同,如果相同,则该散列值的步长加1。否则,保存上个窗口最小散列值及其步长,并选取该散列值为基准,初始化其步长。
步骤3:重复步骤2,当滑动窗口和固定窗口的右边界重合时,选取步长最长的散列值hi
步骤4:将hi作为触发条件进行分块,则文本块w1的内容为{h1,h2...hi},利用哈希函数计算w1的散列值。
步骤5:将hi+1作为下个固定窗口的左边界。
步骤6:将得到的每个文本块的哈希值进行转换,得到对应的字符。
步骤7:重复步骤1-6,直到文本结束。
步骤8:将步骤6得到的每个字符连接,最终形成一组字符序列,即文本指纹。
(6)利用相似度算法计算文本指纹之间的相似度。文本指纹代表文本的特征,所以利用指纹之间的相似性作为文本之间的相似程度的指标。
综上,本发明实施例提供的文本复制检测方法及装置,与现有的复制检测方法相比,本发明在进行指纹特征提取时,增加了文本单词编码步骤,单词编码是基于单词特点的一种编码形式,可以降低处理文本的内容。在基于单词编码的基础上进行文本散列值计算,可以减少计算次数。本发明通过固定窗口和滑动窗口相混合技术进行文本分块,提取指纹特征,在基于文本内容分块的基础上,可以保证分块粒度稳定,提高了分块效率,有效控制文本块的数量,并且能够保证得到的文本块序列具有同步性,正是由于同步性关系的存在,才可以有效地进行文本指纹提取。
本发明可以有效的克服文本复制检测中,指纹特征提取效率低的缺陷,在保证复制检测准确性的前提下,能够保证适当的分块粒度,提高指纹特征提取效率。
以上所述仅为本发明优选实施例。但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,轻易想到的变换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.基于指纹特征的文本复制检测系统,其特征是包含有以下几个模块:
文本预处理模块,用于对文本进行格式转换,过滤待检测文本中的噪声,将单词归一化,去除英语字母大小写的干扰;
单词编码模块,依据单词的原生特点,按设定的规则将预处理后文本的单词进行编码;
字典排序模块,将编码后的文本,以句子为单位,按字典方式进行排序,并去除文本中的标点;
散列值映射模块,将按字典排序后的文本,利用滚动哈希函数进行散列值计算,得到散列值序列;滚动哈希函数将长度为k的字符串映射为一个整数x(0≤x≤bk),设asc(c)为字符c的ASCII值,则将文本T[1,...,n]中长度为k的子串T1,T2,...,Tk映射为一个散列值的计算公式如下:
H(T1,T2,...,Tk)=asc(T1)bk-1+asc(T2)bk-2+...+asc(Tk) (1)
那么H(T2,...,Tk,Tk+1)可表示为:
H(T2,...,Tk,Tk+1)=(H(T1,T2,...,Tk)-asc(T1)bk-1)b+asc(Tk+1) (2);
指纹提取模块,基于文本内容选取触发条件,并依据触发条件进行分块;利用哈希函数计算文本块的哈希值,并选取哈希值的特定位置的若干位转换为ASCII码,作为指纹特征;
相似度计算模块,用于文本指纹的相似性比对,利用编辑距离算法计算文本指纹的相似程度,来衡量文本之间的相似度;所述编辑距离算法的计算公式如下:
fi,j可表示为:
其中editi,j表示两字符串第i和j位置的编辑距离,fi,j判断si,tj是否相同;
通过式(3)可以计算出字符串之间的最小距离即编辑距离,通过计算式(5)可以得出相似度;
其中Sim(S,T)表示相似度,e(S,T)表示编辑距离,l1,l2为S,T的长度。
2.如权利要求1所述的基于指纹特征的文本复制检测系统,其特征是:所述的噪声包括待检测文本中的数字、停用词、介词、特殊符号。
3.如权利要求1所述的基于指纹特征的文本复制检测系统,其特征是:单词编码方式有两种形式:1)由单词特定位置的若干个字母组成;2)由单词特定位置的若干个字母及长度组成。
4.如权利要求1所述的基于指纹特征的文本复制检测系统,其特征是:在文本散列值序列中,利用混合窗口技术选取触发条件,进行分块。
5.一种基于指纹特征的文本复制检测方法,其特征是按如下步骤进行:
S1、对输入文本进行预处理,获取去除噪声干扰的文本;
S2、利用单词编码模块对步骤S1得到的文本,进行编码;
S3、利用字典排序模块对步骤S2所得到的单词编码序列进行排序;
S4、对步骤S3所得到的单词编码序列,通过滚动哈希函数计算哈希值,得到文本的一组散列值序列H;所述滚动哈希函数将长度为k的字符串映射为一个整数x,0≤x≤bk,设asc(c)为字符c的ASCII值,则将文本T[1,...,n]中长度为k的子串T1,T2,...,Tk映射为一个散列值的计算公式如下:
H(T1,T2,...,Tk)=asc(T1)bk-1+asc(T2)bk-2+...+asc(Tk) (1)
那么H(T2,...,Tk,Tk+1)可表示为:
H(T2,...,Tk,Tk+1)=(H(T1,T2,...,Tk)-asc(T1)bk-1)b+asc(Tk+1) (2);
S5、定义一个字符数组,用于指纹特征映射;
S6、利用混合窗口技术对步骤S4所得到的散列值序列H进行分块,并通过哈希函数计算文本块的哈希值;
S7、选取步骤S6得到的哈希值的特定位置的若干位,并通过S5定义的字符数组将其映射为某个字符;
S8、重复步骤S6、S7;
S9、采用编辑距离算法计算文本指纹之间的相似度;所述编辑距离算法的计算公式如下:
fi,j可表示为:
其中editi,j表示两字符串第i和j位置的编辑距离,fi,j判断si,tj是否相同;
通过式(3)可以计算出字符串之间的最小距离即编辑距离,通过计算式(5)可以得出相似度;
其中Sim(S,T)表示相似度,e(S,T)表示编辑距离,l1,l2为S,T的长度。
6.如权利要求5所述的基于指纹特征的文本复制检测方法,其特征是:
S1步骤具体如下:
步骤1:对可疑文本进行格式转换;
步骤2:采用正则表达式的方法去除噪声;
步骤3:将英语字母归一化,防止字母大小写的干扰;
步骤4:通过停用词表,过滤掉文本中的停用词。
7.如权利要求5所述的基于指纹特征的文本复制检测方法,其特征是:
S2步骤中,单词编码方式有两种形式:1)由单词特定位置的若干个字母组成;2)由单词特定位置的若干个字母及长度组成。
CN201610273935.6A 2016-04-28 2016-04-28 基于指纹特征的文本复制检测系统及方法 Active CN105912514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610273935.6A CN105912514B (zh) 2016-04-28 2016-04-28 基于指纹特征的文本复制检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610273935.6A CN105912514B (zh) 2016-04-28 2016-04-28 基于指纹特征的文本复制检测系统及方法

Publications (2)

Publication Number Publication Date
CN105912514A CN105912514A (zh) 2016-08-31
CN105912514B true CN105912514B (zh) 2019-03-22

Family

ID=56753150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610273935.6A Active CN105912514B (zh) 2016-04-28 2016-04-28 基于指纹特征的文本复制检测系统及方法

Country Status (1)

Country Link
CN (1) CN105912514B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967314B (zh) * 2017-11-22 2022-01-21 珠海市君天电子科技有限公司 文本特征值的提取方法、装置及电子设备
CN109145080B (zh) * 2018-07-26 2021-01-01 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN109376277B (zh) * 2018-11-23 2020-11-20 京东数字科技控股有限公司 确定设备指纹同源性的方法及装置
CN110704645B (zh) * 2019-08-22 2020-12-22 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN111027282A (zh) * 2019-11-21 2020-04-17 精硕科技(北京)股份有限公司 文本去重方法和装置、电子设备及计算机可读存储介质
CN111126031A (zh) * 2019-12-12 2020-05-08 南京谦萃智能科技服务有限公司 代码文本处理方法及相关产品
CN112069374B (zh) * 2020-09-18 2024-04-30 中国工商银行股份有限公司 一种银行多个客户编号的识别方法及装置
CN112215006B (zh) * 2020-10-22 2022-08-09 上海交通大学 机构命名实体归一化方法和系统
CN113268972B (zh) * 2021-05-14 2022-01-11 东莞理工学院城市学院 两英语单词外观相似度的智能计算方法、系统、设备和介质
WO2024045399A1 (zh) * 2022-08-29 2024-03-07 天翼电子商务有限公司 一种基于文本特征相似度的用户名黑名单模糊匹配方法
CN116127457B (zh) * 2023-02-16 2024-05-14 软安科技有限公司 一种基于winnowing算法的恶意代码检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201654778U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 文本复制检测装置
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN104407787A (zh) * 2014-10-27 2015-03-11 深圳市金立通信设备有限公司 一种终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275773B2 (en) * 2007-03-30 2012-09-25 Stuart Donnelly Method of searching text to find relevant content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201654778U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 文本复制检测装置
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN104407787A (zh) * 2014-10-27 2015-03-11 深圳市金立通信设备有限公司 一种终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An improved K-means Algorithm for Document Clustering;Guohua Wu et al.;《2015 International Conference on Computer Science and Mechanical Automation》;20160107;全文
Document Copy Detection Using The Improved Fuzzy Hashing;Guohua Wu et al.;《2015 International Conference on Computer Science and Mechanical Automation》;20160107;论文1-3节
基于指纹检索的文本相似性检测技术研究与应用;张帆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515(第05期);全文

Also Published As

Publication number Publication date
CN105912514A (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
Stamatatos Authorship attribution using text distortion
Menai Detection of plagiarism in Arabic documents
US9852122B2 (en) Method of automated analysis of text documents
CN104951469B (zh) 优化语料库的方法和装置
CN106127265B (zh) 一种基于激活力模型的图片中文本识别纠错方法
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
KR20100071287A (ko) 문서 표절 탐색 방법 및 장치
CN102937994A (zh) 一种基于停用词的相似文档查询方法
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
CN110019674A (zh) 一种文本抄袭检测方法及系统
Skylaki et al. Named entity recognition in the legal domain using a pointer generator network
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN110929022A (zh) 一种文本摘要生成方法及系统
Soori et al. Text similarity based on data compression in Arabic
Tanaka-Ishii Entropy as an indicator of context boundaries: An experiment using a web search engine
CN106685963B (zh) 一种恶意网络流量词库的建立方法及建立系统
CN103034657A (zh) 文档摘要生成方法和装置
CN111159996B (zh) 基于文本指纹算法的短文本集合相似度比较方法及系统
CN111428180B (zh) 一种网页去重方法、装置和设备
Parakh et al. Sentence boundary disambiguation in Kannada texts
CN111859901A (zh) 一种英文重复文本检测方法、系统、终端及存储介质
Theeramunkong et al. Pattern-based features vs. statistical-based features in decision trees for word segmentation
CN104536948A (zh) 版式文档的处理方法及装置
Li et al. Text hashing by semantic information based on BERT model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant