CN103324664A - 一种基于傅里叶变换的文档相似判别方法 - Google Patents

一种基于傅里叶变换的文档相似判别方法 Download PDF

Info

Publication number
CN103324664A
CN103324664A CN2013101532237A CN201310153223A CN103324664A CN 103324664 A CN103324664 A CN 103324664A CN 2013101532237 A CN2013101532237 A CN 2013101532237A CN 201310153223 A CN201310153223 A CN 201310153223A CN 103324664 A CN103324664 A CN 103324664A
Authority
CN
China
Prior art keywords
document
keyword
fks
collection
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101532237A
Other languages
English (en)
Other versions
CN103324664B (zh
Inventor
张涛
林为民
马媛媛
邓松
时坚
李伟伟
汪晨
陈亚东
周诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Smart Grid Research Institute of SGCC
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Jiangsu Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201310153223.7A priority Critical patent/CN103324664B/zh
Publication of CN103324664A publication Critical patent/CN103324664A/zh
Application granted granted Critical
Publication of CN103324664B publication Critical patent/CN103324664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于傅里叶变换的文档相似判别方法,包括以下步骤:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS;计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。本发明不仅可以在计算相似度时降低对文档表示方法的要求,而且会降低计算的复杂度,提高计算效率。

Description

一种基于傅里叶变换的文档相似判别方法
技术领域
本发明属于信息检索和文本挖掘技术领域,具体涉及一种基于傅里叶变换的文档相似判别方法。
背景技术
随着人们对科学技术和社会发展的日益重视,学术领域逐渐向多元化、信息化、现代化的趋势发展。在这种形势下,人们比以往任何时候都迫切地需要高效、全面、方便的检索学术信息。另一方面,人们还要防止学术抄袭,以达到对学位论文和学术期刊进行监管和规范的目的。论文的检索和查重,最关键的就是对文本信息相似度的比较和计算,因此,文本相似度的计算广泛应用于信息检索、文本挖掘等领域,是一个非常基础而关键的问题,也一直是人们研究的热点和难点。
文本相似度计算有着比较广泛的应用,典型的应用有:
(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的网页。这些网页的数量往往很大,而且对于某一关键字检索出来的网页并没有一定的相关性,也不一定全都是用户想要检索的网页,这些都增加了用户获得有用信息的难度。如果利用文本相似度技术,在搜索过程中去掉相似度很高的重复信息,这将大大的有利于用户发现自己感兴趣的信息,提高信息检索的质量。
(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。
(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。因此,研究文本相似度的算法具有重要的实际价值。
目前,为了计算文档之间的相似度,常见的计算方法就是余弦相似度计算方法,该方法是在对文档进行特征选取后,进行文本加权,将语料变为一个空间向量模型。最后通过内积与余弦公式最终计算出文本间的相似度大小,但是该方法的最大缺点就是当语料库增大时,用向量来表示文本的难度就会增加,同时随着向量维数的增大,计算相似度的复杂度会随之增大,效率随之降低。
傅里叶变换是一种特殊的积分变换。它能将满足一定条件的某个函数表示成正弦基函数的线性组合或者积分。在不同的研究领域,傅里叶变换具有多种不同的变体形式,如连续傅里叶变换和离散傅里叶变换。傅里叶变换通过对函数的分析来达到对复杂函数的深入理解和研究。最初,傅立叶分析是作为热过程的解析分析的工具,但是其思想方法仍然具有典型的还原论和分析主义的特征。“任意”的函数通过一定的分解,都能够表示为正弦函数的线性组合的形式,而正弦函数在物理上是被充分研究而相对简单的函数类。利用这一点,傅里叶变换可通过对相对简单的事物的研究来了解复杂事物。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于傅里叶变换的文档相似判别方法,主要用于判别一个文档与文档集合中的文档是否相似,以便保证文档的安全性和合法性。该方法不仅可以在计算相似度时降低对文档表示方法的要求,而且会降低计算的复杂度,提高计算效率。
为了实现上述发明目的,本发明采取如下技术方案:
提供一种基于傅里叶变换的文档相似判别方法,所述方法包括以下步骤:
步骤1:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
步骤2:计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';
步骤3:对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS
步骤4:计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。
所述步骤1中,对文档集合S中的每个文档si进行划词,选取文档si的关键词,并记录每个关键词出现的次数,得到文档si的关键词序列Ksi和对应的关键词次数集合Nsi,进而合并得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
同时,将检测文档s'也进行划词,并得到检测文档s′关于文档si的关键词集合Ksi'和对应的关键词次数集合Nsi',最后合并得到检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns'。
所述步骤1包括以下步骤:
步骤1-1:分别对文档集合S和检测文档s′进行划词,得到各自的分词集合,分别记为Ds和Ds',其中文档集合S={s1,s2,s3,......,sn},si表示文档集合S中的第i个文档,分词集合Ds={Ds1,Ds2,Ds3,......,Dsn},Dsi表示文档集合S中文档si的分词集合,si和Dsi中的i均满足1≤i≤n;
步骤1-2:在文档si的分词集合Dsi中,按分词出现的次数,选出前m个分词作为文档si的关键词,其中m>0;并将关键词kij出现的次数记为nij,其中kij表示文档si中的第j个关键词;分别得到文档si的关键词集合Ksi和对应的关键词次数集合Nsi,则有Ksi={ki1,ki2,ki3......kim},Nsi={ni1,ni2,ni3......nim};
步骤1-3:计算检测文档s′关于文档si的关键词集合Ksi'和对应的关键词次数集合Nsi';其中Ksi'中的元素k'ij=kij,再依据公式(1)确定关键词次数集合Nsi'中的元素n'ij,有:
n ij ′ = n sj ′ k ij ′ ∈ Ds ′ 0 k ij ′ ∉ Ds ′ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m ) - - - ( 1 )
其中n'sj为关键词k'ij在检测文档s′中出现的次数;
步骤1-4:将所有属于文档集合S中文档si的关键词集合Ksi和对应的关键词次数集合Nsi分别进行合并,得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
将检测文档s′关于文档si的关键词序列Ksi'和对应的关键词次数集合Nsi'分别进行合并,得到检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
有:
Ks={kij|kij∈Ksi,1≤j≤m,1≤i≤n},Ns={nij|nij∈Nsi,1≤j≤m,1≤i≤n};
Ks'={k'ij|k'ij∈Ksi',1≤j≤m,1≤i≤n},Ns'={n'ij|n'ij∈Nsi',1≤j≤m,1≤i≤n}。
所述步骤2包括以下步骤:
步骤2-1:依据公式(2)分别计算关键词序列Ks和Ks'中关键词kij的权值系数aij,有:
a ij = 1 - 1 n ij n ij ≠ 0 0 n ij = 0 ( 1 ≤ i ≤ n , 1 ≤ j ≤ m ) - - - ( 2 )
步骤2-2:依据公式(3)计算关键词序列Ks中关键词kij的权值f(kij),有:
Figure BDA00003119527900042
进而即可得到关键词序列Ks的权值序列FKs,即有
FKs={f(kij)|f(kij)∈FKsi,1≤j≤m,1≤i≤n}     (4);
步骤2-3:按同样的方法,得到关键词序列Ks'的权值序列FKs',有
FKs'={f(k'ij)|f(k'ij)∈FKsi',1≤j≤m,1≤i≤n}     (5)。
所述步骤3中,所述步骤3包括以下步骤:
步骤3-1:对权值序列FKs和FKs'分别进行傅里叶变换,即可得到
FKs ( e jθ ) = Σ p = 1 n × m f ( k ij ) e - jpθ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m , 1 ≤ p ≤ n × m ) - - - ( 6 )
FK s ′ ( e jθ ) = Σ q = 1 n × m f ( k ij ′ ) e - jqθ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m , 1 ≤ q ≤ n × m ) - - - ( 7 )
其中:p表示权值序列FKs中从1到n×m的下标;q表示权值序列FKs'中从1到n×m的下标;
步骤3-2:根据计算出的FKs(e)和FKs'(e),计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS,有
ω S = D ( s ′ , S ) = ( Σ θ = 0 θ = 2 π ( | FKs ( e jθ ) | - | FKs ′ ( e jθ ) | ) 2 ) 1 2 - - - ( 8 )
其中,D(s′,S)为检测文档s′和文档集合S的相似度距离。
所述步骤4包括以下步骤:
步骤4-1:分别对权值序列FKs和FKs'的n个子序列FKsi和FKsi'进行傅里叶变换,计算出检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si);
步骤4-2:将计算出的n个相似度距离D(s',si)逐一与公式(8)计算出的阀值ωS进行比较;若存在i满足D(s',si)>ωS,则判定检测文档s′与文档集合S相似,即检测文档s′为敏感文档;否则,判定检测文档s′与文档集合S不相似,即检测文档s′为安全文档。
与现有技术相比,本发明的有益效果在于:
1.较目前主流的余弦相似度计算方法而言,本发明的优势在于:避免了大语料库下,用向量来表示文本特征难度大的问题,同时也解决了在向量维数增大时,计算向量余弦过于复杂和效率较低的问题;
2.很大程度上降低了用向量来表示文档的难度和计算向量余弦的复杂度,该方法对相似度的计算简单,效率较高,具有一定的实用性。
附图说明
图1是基于傅里叶变换的文档相似判别方法流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1,提供一种基于傅里叶变换的文档相似判别方法,所述方法包括以下步骤:
步骤1:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
步骤2:计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';
步骤3:对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS
步骤4:计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。
所述步骤1中,对文档集合S中的每个文档si进行划词,选取文档si的关键词,并记录每个关键词出现的次数,得到文档si的关键词序列Ksi和对应的关键词次数集合Nsi,进而合并得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
同时,将检测文档s'也进行划词,并得到检测文档s′关于文档si的关键词集合Ksi'和对应的关键词次数集合Nsi',最后合并得到检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns'。
所述步骤1包括以下步骤:
步骤1-1:分别对文档集合S和检测文档s′进行划词,得到各自的分词集合,分别记为Ds和Ds',其中文档集合S={s1,s2,s3,......,sn},si表示文档集合S中的第i个文档,分词集合Ds={Ds1,Ds2,Ds3,......,Dsn},Dsi表示文档集合S中文档si的分词集合,si和Dsi中的i均满足1≤i≤n;
步骤1-2:在文档si的分词集合Dsi中,按分词出现的次数,选出前m个分词作为文档si的关键词,其中m>0;并将关键词kij出现的次数记为nij,其中kij表示文档si中的第j个关键词;分别得到文档si的关键词集合Ksi和对应的关键词次数集合Nsi,则有Ksi={ki1,ki2,ki3......kim},Nsi={ni1,ni2,ni3......nim};
步骤1-3:计算检测文档s′关于文档si的关键词集合Ksi'和对应的关键词次数集合Nsi';其中Ksi'中的元素k'ij=kij,再依据公式(1)确定关键词次数集合Nsi'中的元素n'ij,有:
n ij ′ = n sj ′ k ij ′ ∈ Ds ′ 0 k ij ′ ∉ Ds ′ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m ) - - - ( 1 )
其中n'sj为关键词k'ij在检测文档s′中出现的次数;
步骤1-4:将所有属于文档集合S中文档si的关键词集合Ksi和对应的关键词次数集合Nsi分别进行合并,得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
将检测文档s′关于文档si的关键词序列Ksi'和对应的关键词次数集合Nsi'分别进行合并,得到检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
有:
Ks={kij|kij∈Ksi,1≤j≤m,1≤i≤n},Ns={nij|nij∈Nsi,1≤j≤m,1≤i≤n};
Ks'={k'ij|k'ij∈Ksi',1≤j≤m,1≤i≤n},Ns'={n'ij|n'ij∈Nsi',1≤j≤m,1≤i≤n}。
所述步骤2包括以下步骤:
步骤2-1:依据公式(2)分别计算关键词序列Ks和Ks'中关键词kij的权值系数aij,其值和关键词kij在文档中出现的频率成正比,反应该关键词在文档中的重要程度,有:
a ij = 1 - 1 n ij n ij ≠ 0 0 n ij = 0 ( 1 ≤ i ≤ n , 1 ≤ j ≤ m ) - - - ( 2 )
步骤2-2:依据公式(3)计算关键词序列Ks中关键词kij的权值f(kij),其值与关键词kij在文档中出现的频率及其权值系数aij相关,不仅可以反应出该关键词在文档中的重要程度,而且可以反应出各个关键词之间的差异,有:
Figure BDA00003119527900072
进而即可得到关键词序列Ks的权值序列FKs,即有
FKs={f(kij)|f(kij)∈FKsi,1≤j≤m,1≤i≤n}     (4);
步骤2-3:按同样的方法,得到关键词序列Ks'的权值序列FKs',有
FKs'={f(k'ij)|f(k'ij)∈FKsi',1≤j≤m,1≤i≤n}     (5)。
所述步骤3中,所述步骤3包括以下步骤:
步骤3-1:对权值序列FKs和FKs'分别进行傅里叶变换,即可得到
FKs ( e jθ ) = Σ p = 1 n × m f ( k ij ) e - jpθ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m , 1 ≤ p ≤ n × m ) - - - ( 6 )
FK s ′ ( e jθ ) = Σ q = 1 n × m f ( k ij ′ ) e - jqθ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m , 1 ≤ q ≤ n × m ) - - - ( 7 )
其中:p表示权值序列FKs中从1到n×m的下标;q表示权值序列FKs'中从1到n×m的下标;
步骤3-2:根据计算出的FKs(e)和FKs'(e),计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS,有
ω S = D ( s ′ , S ) = ( Σ θ = 0 θ = 2 π ( | FKs ( e jθ ) | - | FKs ′ ( e jθ ) | ) 2 ) 1 2 - - - ( 8 )
其中,D(s′,S)为检测文档s′和文档集合S的相似度距离。
所述步骤4包括以下步骤:
步骤4-1:分别对权值序列FKs和FKs'的n个子序列FKsi和FKsi'进行傅里叶变换,计算出检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si);
步骤4-2:将计算出的n个相似度距离D(s',si)逐一与公式(8)计算出的阀值ωS进行比较;若存在i满足D(s',si)>ωS,则判定检测文档s′与文档集合S相似,即检测文档s′为敏感文档;否则,判定检测文档s′与文档集合S不相似,即检测文档s′为安全文档。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于傅里叶变换的文档相似判别方法,其特在于:所述方法包括以下步骤:
步骤1:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
步骤2:计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';
步骤3:对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS
步骤4:计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。
2.根据权利要求1所述的基于傅里叶变换的文档相似判别方法,其特在于:所述步骤1中,对文档集合S中的每个文档si进行划词,选取文档si的关键词,并记录每个关键词出现的次数,得到文档si的关键词序列Ksi和对应的关键词次数集合Nsi,进而合并得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
同时,将检测文档s'也进行划词,并得到检测文档s′关于文档si的关键词集合Ksi'和对应的关键词次数集合Nsi',最后合并得到检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns'。
3.根据权利要求2所述的基于傅里叶变换的文档相似判别方法,其特在于:所述步骤1包括以下步骤:
步骤1-1:分别对文档集合S和检测文档s′进行划词,得到各自的分词集合,分别记为Ds和Ds',其中文档集合S={s1,s2,s3,......,sn},si表示文档集合S中的第i个文档,分词集合Ds={Ds1,Ds2,Ds3,......,Dsn},Dsi表示文档集合S中文档si的分词集合,si和Dsi中的i均满足1≤i≤n;
步骤1-2:在文档si的分词集合Dsi中,按分词出现的次数,选出前m个分词作为文档si的关键词,其中m>0;并将关键词kij出现的次数记为nij,其中kij表示文档si中的第j个关键词;分别得到文档si的关键词集合Ksi和对应的关键词次数集合Nsi,则有Ksi={ki1,ki2,ki3......kim},Nsi={ni1,ni2,ni3......nim};
步骤1-3:计算检测文档s′关于文档si的关键词集合Ksi'和对应的关键词次数集合Nsi';其中Ksi'中的元素k′ij=kij,再依据公式(1)确定关键词次数集合Nsi'中的元素n′ij,有:
n ij ′ = n sj ′ k ij ′ ∈ Ds ′ 0 k ij ′ ∉ Ds ′ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m ) - - - ( 1 )
其中n'sj为关键词k′ij在检测文档s′中出现的次数;
步骤1-4:将所有属于文档集合S中文档si的关键词集合Ksi和对应的关键词次数集合Nsi分别进行合并,得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
将检测文档s′关于文档si的关键词序列Ksi'和对应的关键词次数集合Nsi'分别进行合并,得到检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
有:
Ks={kij|kij∈Ksi,1≤j≤m,1≤i≤n},Ns={nij|nij∈Nsi,1≤j≤m,1≤i≤n};
Ks'={k′ij|k′ij∈Ksi',1≤j≤m,1≤i≤n},Ns'={n′ij|n′ij∈Nsi',1≤j≤m,1≤i≤n}。
4.根据权利要求1所述的基于傅里叶变换的文档相似判别方法,其特在于:所述步骤2包括以下步骤:
步骤2-1:依据公式(2)分别计算关键词序列Ks和Ks'中关键词kij的权值系数aij,有:
a ij = 1 - 1 n ij n ij ≠ 0 0 n ij = 0 ( 1 ≤ i ≤ n , 1 ≤ j ≤ m ) - - - ( 2 )
步骤2-2:依据公式(3)计算关键词序列Ks中关键词kij的权值f(kij),有:
Figure FDA00003119527800023
进而即可得到关键词序列Ks的权值序列FKs,即有
FKs={f(kij)|f(kij)∈FKsi,1≤j≤m,1≤i≤n}   (4);
步骤2-3:按同样的方法,得到关键词序列Ks'的权值序列FKs',有
FKs'={f(k′ij)|f(k′ij)∈FKsi',1≤j≤m,1≤i≤n}   (5)。
5.根据权利要求1所述的基于傅里叶变换的文档相似判别方法,其特在于:所述步骤3中,所述步骤3包括以下步骤:
步骤3-1:对权值序列FKs和FKs'分别进行傅里叶变换,即可得到
FKs ( e jθ ) = Σ p = 1 n × m f ( k ij ) e - jpθ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m , 1 ≤ p ≤ n × m ) - - - ( 6 )
FKs ′ ( e jθ ) = Σ q = 1 n × m f ( k ij ′ ) e - jqθ ( 1 ≤ i ≤ n , 1 ≤ j ≤ m , 1 ≤ q ≤ n × m ) - - - ( 7 )
其中:p表示权值序列FKs中从1到n×m的下标;q表示权值序列FKs'中从1到n×m的下标;
步骤3-2:根据计算出的FKs(e)和FKs'(e),计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS,有
ω S = D ( s ′ , S ) = ( Σ θ = 0 θ = 2 π ( | FKs ( e jθ ) | - | FKs ′ ( e jθ ) | ) 2 ) 1 2 - - - ( 8 )
其中,D(s′,S)为检测文档s′和文档集合S的相似度距离。
6.根据权利要求1所述的基于傅里叶变换的文档相似判别方法,其特在于:所述步骤4包括以下步骤:
步骤4-1:分别对权值序列FKs和FKs'的n个子序列FKsi和FKsi'进行傅里叶变换,计算出检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si);
步骤4-2:将计算出的n个相似度距离D(s',si)逐一与公式(8)计算出的阀值ωS进行比较;若存在i满足D(s',si)>ωS,则判定检测文档s′与文档集合S相似,即检测文档s′为敏感文档;否则,判定检测文档s′与文档集合S不相似,即检测文档s′为安全文档。
CN201310153223.7A 2013-04-27 2013-04-27 一种基于傅里叶变换的文档相似判别方法 Active CN103324664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310153223.7A CN103324664B (zh) 2013-04-27 2013-04-27 一种基于傅里叶变换的文档相似判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310153223.7A CN103324664B (zh) 2013-04-27 2013-04-27 一种基于傅里叶变换的文档相似判别方法

Publications (2)

Publication Number Publication Date
CN103324664A true CN103324664A (zh) 2013-09-25
CN103324664B CN103324664B (zh) 2016-08-10

Family

ID=49193407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310153223.7A Active CN103324664B (zh) 2013-04-27 2013-04-27 一种基于傅里叶变换的文档相似判别方法

Country Status (1)

Country Link
CN (1) CN103324664B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699657A (zh) * 2013-12-06 2015-06-10 中国科学院电子学研究所 一种快速实现傅里叶变换的方法
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105701206A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN107256263A (zh) * 2017-06-13 2017-10-17 成都布林特信息技术有限公司 互联网热点信息自动监测方法
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN110175328A (zh) * 2019-05-16 2019-08-27 镇江市高等专科学校 一种基于关键词序列结构的文档相似度度量方法及系统
CN110674388A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 推送项目的配图方法、装置、存储介质和终端设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062806A (ja) * 2002-07-31 2004-02-26 Toshiba Corp 類似文書検索装置及び類似文書検索方法
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法
CN102640152A (zh) * 2009-12-09 2012-08-15 国际商业机器公司 根据检索关键词检索文档数据的方法及其计算机系统、计算机程序

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062806A (ja) * 2002-07-31 2004-02-26 Toshiba Corp 類似文書検索装置及び類似文書検索方法
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法
CN102640152A (zh) * 2009-12-09 2012-08-15 国际商业机器公司 根据检索关键词检索文档数据的方法及其计算机系统、计算机程序

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALBERTO BARRÓN-CEDEÑO: ""On the mono- and cross-language detection of text reuse and plagiarism"", 《SIGIR "10 PROCEEDINGS OF THE 33RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
BELA GIPP等: ""Comparative evaluation of text- and citation-based plagiarism detection approaches using guttenplag"", 《JCDL "11 PROCEEDINGS OF THE 11TH ANNUAL INTERNATIONAL ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES 》 *
张焕炯等: ""基于汉明距离的文本相似度计算"", 《计算机工程与应用》 *
赵俊杰: ""基于文本挖掘技术的论文抄袭判定研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699657A (zh) * 2013-12-06 2015-06-10 中国科学院电子学研究所 一种快速实现傅里叶变换的方法
CN104699657B (zh) * 2013-12-06 2017-11-24 中国科学院电子学研究所 用于数字处理器及电路芯片的快速实现傅里叶变换的方法
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488023B (zh) * 2015-03-20 2019-01-11 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105701206B (zh) * 2016-01-13 2018-10-09 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN105701206A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN106649749B (zh) * 2016-12-26 2019-07-16 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN107256263A (zh) * 2017-06-13 2017-10-17 成都布林特信息技术有限公司 互联网热点信息自动监测方法
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN110674388A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 推送项目的配图方法、装置、存储介质和终端设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110175328A (zh) * 2019-05-16 2019-08-27 镇江市高等专科学校 一种基于关键词序列结构的文档相似度度量方法及系统
CN110175328B (zh) * 2019-05-16 2023-02-17 镇江市高等专科学校 一种基于关键词序列结构的文档相似度度量方法及系统

Also Published As

Publication number Publication date
CN103324664B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103324664A (zh) 一种基于傅里叶变换的文档相似判别方法
CN105335496B (zh) 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN106599181A (zh) 一种基于主题模型的新闻热点检测方法
Lu et al. Don't forget the quantifiable relationship between words: Using recurrent neural network for short text topic discovery
CN101751458A (zh) 一种网络舆情监控系统及方法
Yao et al. Bursty event detection from collaborative tags
Ma et al. Distributional representations of words for short text classification
Li et al. Misinformation-oriented expert finding in social networks
CN106294861B (zh) 面向大规模数据的情报系统中文本聚合及展现方法及系统
Lu et al. Mining competitive pairs hidden in co-location patterns from dynamic spatial databases
Deng et al. Clue-based spatio-textual query
Luo et al. Exploiting salient semantic analysis for information retrieval
Chen et al. Popular topic detection in Chinese micro-blog based on the modified LDA model
Sun et al. Towards tags ranking for social images
CN103150371A (zh) 正反向训练去混淆文本检索方法
Liu et al. Ontology induction based on social annotations
Toyota et al. Visualization of the Internet News Based on Efficient Self-Organizing Map Using Restricted Region Search and Dimensionality Reduction
Ouksili et al. Theme identification in RDF graphs
Osborne et al. Inferring semantic relations by user feedback
Yuan et al. Answering threshold-based reachability queries over probabilistic graphs
Zeng et al. The current situation and future trend of Big Data: Visualization analysis of literature based on citespace
Yan et al. Research on Meteorological Public Opinion Combining Domain Keywords and LinearSVC
Gao et al. Topic detection for emergency events based on FCM document clustering
Zhang et al. A Subtopic Classification Method Based on Latent Dirichlet Allocation Model and Topic Similarity
Zhang et al. Website Intelligent Recommendation Based on K-means and Apriori Algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160407

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: State Grid Smart Grid Institute

Applicant after: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant after: Jiangsu Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant before: Jiangsu Electric Power Company

CB02 Change of applicant information

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Applicant after: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant after: Jiangsu Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: State Grid Smart Grid Institute

Applicant before: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant before: Jiangsu Electric Power Company

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant