CN104216968A - 一种基于文件相似度的排重方法及系统 - Google Patents

一种基于文件相似度的排重方法及系统 Download PDF

Info

Publication number
CN104216968A
CN104216968A CN201410421951.6A CN201410421951A CN104216968A CN 104216968 A CN104216968 A CN 104216968A CN 201410421951 A CN201410421951 A CN 201410421951A CN 104216968 A CN104216968 A CN 104216968A
Authority
CN
China
Prior art keywords
similarity
word
comparison
sentence
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410421951.6A
Other languages
English (en)
Inventor
易乔治
管晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410421951.6A priority Critical patent/CN104216968A/zh
Publication of CN104216968A publication Critical patent/CN104216968A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文件相似度的排重方法及系统,涉及文字相似度的计算和检测领域。该方法包括以下步骤:抽取需要比对的文件,生成纯文字;对纯文字进行规范化处理,生成规范文字单元;将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码;对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。本发明不仅能够适用于中国文字,便于国内用户使用,而且比对相似文件的精准度较高。

Description

一种基于文件相似度的排重方法及系统
技术领域
本发明涉及文字相似度的计算和检测领域,具体涉及一种基于文件相似度的排重方法及系统。
背景技术
文件相似度计算方法是一种利用文件自身的信息(文件内容和连接信息),进行分析和计算出文件的相似度方法。随着时代的进步,文件相似度计算方法已经广泛的应用到各个领域(例如信息检索、协同推荐系、图书馆分类系统等相关领域)。
现有的检测文件相似度的方法一般包括以下步聚:
(1)对提交的文件集合中每个文件进行基本简化处理后,将每个文件分割成连续的标记块;在标记块中保留一定数量的代表性标记块;将代表性标记块制成独有的代表指纹,利用不同的代表指纹对不同的文件进行签名。
(2)判断2份文件的签名的指纹是否相同,若是,则所述2份文件相互关联,属于相似文件,否则所述2份文件没有关联,不属于相似文件。
但是,现有的检测文件相似度的方法使用时,存在以下缺陷:
现有的检测文件相似度的方法主要针对西方语言(例如英文),由于进行标记块的分割时,中文的中文词组的分割完全不同于英文,因此,现有的检测文件相似度的方法无法对东方语言(例如中文)进行处理,其适用范围比较单一,我国无法使用。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于文件相似度的排重方法及系统,不仅能够适用于中国文字,便于国内用户使用,而且比对相似文件的精准度较高。
为达到以上目的,本发明采取的技术方案是:一种基于文件相似度的排重方法,包括以下步骤:
A、抽取需要比对的文件,生成纯文字;
B、对纯文字进行规范化处理,生成规范文字单元;文字单元包括段落、句子和关键词;
C、将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码;
D、对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。
在上述技术方案的基础上,步骤B中所述对纯文字进行规范化处理,生成规范文字单元包括以下步骤:
B1、将纯文字分拆为文字单元;
B2、对文字单元进行规范化处理;
B3、去除规范化处理后的文字单元中的无意义信息,生成规范文字单元。
在上述技术方案的基础上,步骤B3中所述无意义信息包括没有实质意义的文字。
在上述技术方案的基础上,步骤C中的编码算法包括单向散列MD5算法、数据加密SHA-1算法和杂凑函数SHA-2算法中的至少一种。
在上述技术方案的基础上,步骤D中所述对需要比对的文件的代表码的关键词进行抽取,生成关键词序列时,包括以下步骤:
D1、选择代表码的句子中的任一关键词;
D2、判断该关键词是否为名词、代词、动词和形容词中的任意一种,若是,抽取w,转到步骤D3;否则选择下一个关键词,并重新执行步骤D2;
D3、将所有抽取的关键词组成当前句子的关键词序列。
在上述技术方案的基础上,步骤D中所述根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度的计算公式如下:
Simword(S1,S2)=2·(Sameword(S1,S2)/(LenS1+LenS2);
其中Simword(S1,S2)为需要比对的句子S1、S2的词形相似度,Sameword(S1,S2)为S1、S2中所含相同词或同义词的个数,LenS1为S1中所含关键词的个数,LenS2为S2中所含关键词的个数。
在上述技术方案的基础上,步骤D中计算需要比对的句子的词序相似度的计算公式如下:
S im ord ( S 1 , S 2 ) = 1 - ( RevOrd ( S 1 , S 2 ) | OnceWord ( S 1 , S 2 ) | - 1 ) | OnceWord ( S 1 , S 2 ) | > 1 1 | OnceWord ( S 1 , S 2 ) | = 1 0 | OnceWord ( S 1 , S 2 ) | = 0
其中Simord(s1,s2)为需要比对的句子S1、S2的词序相似度,OnceWord(s1,s2)为S1、S2中所含仅一次的相同词或同义词的集合,Pfirst(s1,s2)为OnceWord(s1,s2)中的词在S1中的位置序号构成的向量,Psecond(s1,s2)为Pfirst(s1,s2)中的分量按对应词在S2中的次序排序生成的向量,RevOrd(s1,s2)为Psecond(s1,s2)各相邻分量的逆序数。
在上述技术方案的基础上,步骤D中根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度的计算公式如下:
Sim(s1,s2)=μ1·Simword(s1,s2)+μ2·Simord(s1,s2);
其中Sim(s1,s2)为S1、S2的相似度,μ1、μ2为常数,且μ12=1。
一种上述方法的基于文件相似度的排重系统,包括文本抽取模块、文字处理模块、文字编码模块和文字比对模块;
所述文本抽取模块用于:抽取需要比对的文件,生成纯文字;向文字处理模块发送文字处理信号;
所述文字处理模块用于:收到文字处理信号后,对纯文字进行规范化处理,生成规范文字单元;向文字编码模块发送文字编码信号;
文字编码模块用于:收到文字编码信号后,将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码;向文字比对模块发送文字比对信号;
文字比对模块用于:收到文字比对信号后,对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。
在上述技术方案的基础上,所述文字处理模块包括文字分拆模块、文字规范化模块和高频字去除模块;
所述文字分拆模块用于:收到文字处理信号后,将纯文字分拆为文字单元,向文字规范化模块发送文字规范信号;
所述文字规范化模块用于:收到文字规范信号后,对文字单元进行规范化处理,向高频字去除模块发送高频字去除信号;
所述高频字去除模块用于:收到高频字去除信号后,去除规范化处理后的文字单元中无意义信息,生成规范文字单元,向文字编码模块发送文字编码信号。
与现有技术相比,本发明的优点在于:
(1)本发明比较相似文件时,将进行抽取需要比对的文件生成纯文字;将纯文字拆分为包括段落、句子和关键词的文字单元,将文字单元进行编码计算生成代表码,将代表码进行比对得到不同文件的相似度。与现有技术中针对西方语言的检测文件相似度的方法相比,本发明能够通过包括段落、句子和关键词的文字单元进行比对,能够适用于中国文字,便于国内用户使用。
(2)本发明将文字单元进行编码之前,会对对文字单元进行规范化处理,以降低文件的纯文字在表达上差异,从而提高文件比对的准确度;本发明还会去除规范化处理后的文字单元中无意义信息,生成规范文字单元,以提高后期比对相似文件的精准度。
附图说明
图1为本发明实施例中基于文件相似度的排重系统的结构框图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
本发明实施例中的基于文件相似度的排重方法依据以下三个基本假设得来:
(1)通过文字内容判断文件的相似度:在分析和确定文件相似度时,只考虑文件中的文字内容而忽略非文字内容。
(2)通过基本单元判断文件的相似度:在文件的文字内容中,将句子作为计算文件相似度的基本单元,即2份文件中“相似”的基本单元越多,它们的相对相似度越高。进一步,若1份文件中的多个基本单元与其它文件集合中的基本单元相似,则当前份文件相对于当前文件集合的相似度越高。
(3)基于意念(文件表达的实际意思)判断文件的相似度:该基本假设主要对于一些在意念上相似但表达上有所差异(例如英文语法上的单数名词和复数名词、动词的词态、英语字符的大小写、中文的繁体字和简体字、以及不同的字符编码等)的文件。
本发明实施例中的基于文件相似度的排重方法,包括以下步骤:
S1:抽取需要比对的文件,生成纯文字。
S2:对纯文字进行规范化处理,生成规范文字单元;文字单元包括段落、句子和关键词等。
对纯文字进行规范化处理,生成规范文字单元时,将纯文字分拆为文字单元;对文字单元进行一系列的规范化处理,以降低文件的纯文字在表达上差异,从而提高文件比对的准确度;去除规范化处理后的文字单元中无意义信息,生成规范文字单元,无意义信息包括经常出现、且没有实质意义的文字。
S3:将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码,将代表码存储在资料库中。编码算法包括MD5算法(单向散列算法)、SHA-1(数据加密算法)算法和SHA-2算法(杂凑函数算法)中的至少一种。
S4:对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。
步骤S4包括以下步骤:
S401:选择代表码的句子S中的任一关键词w。
S402:判断w是否为名词、代词、动词和形容词中的任意一种,若是,抽取w,转到步骤S403;否则选择下一个关键词w,并转到步骤S401。
S403:将所有抽取的关键词组成当前句子S的关键词序列S'。
S404:根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度,词形相似度计算公式如下:
Simword(S1,S2)=2·(Sameword(S1,S2)/(LenS1+LenS2)
词形相似度计算公式中Simword(S1,S2)为需要比对的句子S1、S2的词形相似度,Sameword(S1,S2)为S1、S2中所含相同词或同义词的个数,LenS1为S1中所含关键词的个数,LenS2为S2中所含关键词的个数。
S405:计算需要比对的句子的词序相似度,词序相似度计算公式如下:
S im ord ( S 1 , S 2 ) = 1 - ( RevOrd ( S 1 , S 2 ) | OnceWord ( S 1 , S 2 ) | - 1 ) | OnceWord ( S 1 , S 2 ) | > 1 1 | OnceWord ( S 1 , S 2 ) | = 1 0 | OnceWord ( S 1 , S 2 ) | = 0
词序相似度计算公式中Simord(s1,s2)为需要比对的句子S1、S2的词序相似度,OnceWord(s1,s2)为S1、S2中所含仅一次的相同词或同义词的集合,Pfirst(s1,s2)为OnceWord(s1,s2)中的词在S1中的位置序号构成的向量,Psecond(s1,s2)为Pfirst(s1,s2)中的分量按对应词在S2中的次序排序生成的向量,RevOrd(s1,s2)为Psecond(s1,s2)各相邻分量的逆序数。
S406:根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度,其相似度计算公式为:
Sim(s1,s2)=μ1·Simword(s1,s2)+μ2·Simord(s1,s2);
相似度计算公式中Sim(s1,s2)为S1、S2的相似度,μ1、μ2为常数,且μ12=1;本发明实施例中的μ1=0.8,μ2=0.2。
S408:根据句子的相似度计算需要比对的文件的相似度,文件相似度计算公式如下:
Sim ( VA , VB ) = Σ i = 1 | R | X A , i X B , i Σ i = 1 | R | X A , i 2 Σ i = 1 | R | X B , i 2 Σ X 1 , i + Σ X 2 , i L ( X 1 ) + L ( X 2 )
文件相似度计算公式中,VA,VB为用空间向量模型表示的需要比对的2份文件A、B中有效句子的最大相似度向量,Sim(VA,VB)为需要比对的文件VA、VB的文件相似度。
R的定义为R=VA∪VB={aR,1,aR,2…aR,k},其中i表示A、B中相似句子的数量,a表示A、B中相似句子经归一化后的向量;归一化公式如下:XA,i表示有效句子中第i个句子aR,i的权重,即该有效句子的最大相似度。
本实施例中的实现上述方法的基于文件相似度的排重系统,包括文本抽取模块、文字处理模块、文字编码模块和文字比对模块。
所述文本抽取模块用于:抽取需要比对的文件,生成纯文字;向文字处理模块发送文字处理信号。
所述文字处理模块用于:收到文字处理信号后,对纯文字进行规范化处理,生成规范文字单元;向文字编码模块发送文字编码信号。
文字编码模块用于:收到文字编码信号后,将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码;向文字比对模块发送文字比对信号。
文字比对模块用于:收到文字比对信号后,对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。
文字处理模块包括文字分拆模块、文字规范化模块和高频字去除模块。
文字分拆模块用于:收到文字处理信号后,将纯文字分拆为文字单元,向文字规范化模块发送文字规范信号。
文字规范化模块用于:收到文字规范信号后,对文字单元进行规范化处理,向高频字去除模块发送高频字去除信号。
高频字去除模块用于:收到高频字去除信号后,去除规范化处理后的文字单元中无意义信息,生成规范文字单元,向文字编码模块发送文字编码信号。
本发明实施例中的基于文件相似度的排重方法的工作原理如下:
由于进行文件比对时会涉及大量的句子比对,因此需要利用一种特殊的文字编码和数据库索引方式来减低比对所需的时间。由于文字编码模块生成的代表码具有特定的长度,而且能代表不同长度的句子,因此,若以代表码作为数据库的索引方式,能更有利于检索搜寻。
文件比对模块在进行比对时,根据基本假设(2),即句子是用作文件相似度比对的基本单元。因此,根据本发明的一个实施方式,文件比对模块以一种改进的方法来比对句子之间的相似度。任何句子都是由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的。关键成分对句子起主要作用,修饰成分对句子起次要作用。进行句子相似度计算时,只要考虑句中的关键成分。对于特定句中的某个名词、代词、动词或形容词,不一定就是该句中的主语、宾语或谓语成分,但相对于句中所有的词构成的词序列而言,关键词序列却具有一定的句法结构信息表达能力,至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算,比一般基于词的方法准些。
该归一化公式是改进的余弦公式。在以前余弦的基础上乘上一因子,是为了解决这样的问题:如果两篇文档最后用向量表示的结果为VA=(0.5,0.3,0.2,0.1),VB=(0.5,0.3,0.2,0.1),把向量VA,VB同时扩大2倍即VC=(1,0.6,0.4,0.2),VD=(1,0.6,0.4,0.2),若只用余弦法来计算相似度的话,会得出sim(VA,VB)=sim(VC,VD)=1,即文档A与文档B完全相同,文档C与文档D也完全相同;显然这种方法计算的结果不准确。因此,本发明在余弦的基础上乘上一因子,分母是两向量的维数之和,分子是各向量的元素之和,因为每一项元素都是在[0,1]之间,所以此因子也是在[0,1]的一个数,当且仅当每个向量全为1的时候,此公式的结果才为1,全为0的时候,此公式的结果才为0。
本发明将对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
首先,我们来解决文档相关性的问题。在本发明中我们使用向量空间模型来表示一篇文档。在向量空间模型中,每篇文档被表示为一个向量,向量的每一维是由这篇文档中的term的特征构成的。在这个模型的简单表示形式中,每篇文档可以被表示成为TF(TermFrequency,词频向量):dtf=(tf1,tf2,tf3,tf4,…,tfn)
其中tfi为文档的第i个term在所在文档中的词频。对于该模型的比较常用的改进方法是:对与每一个term进行加权,所加权值是IDF(Inverse Document Frequency,倒序文档频度)。这样改进的目的是:如果一个term在很多文档中均出现过,那么该term在文档中的重要性就没有那些仅在几个文档出现过的term高。所以这样的term在表示一篇文档的时候需要加以相应的惩罚因子。一般的做法是将tfi相乘,其中N代表文档集合中的所有文档数目,dfi代表包含第i个term的文档数目。这样我们就得到了一篇文档tf-idf的表示:
经过归一处理后,文档的长度为1(||dtf-idf||=1)。
有了一篇文档的向量表示,我们就可以利用各种距离来计算文档之间的相关性。在多年的研究中有两种距离经常被用来计算两篇文档之间的相似度。第一种是余弦距离:cos(di,dj=dt idj/||di||×||dj||;
由于文档的长度为1,公式可以简化为cos(di,dj)=dl idj。当两篇文档相同的时候,该距离的取值为1,当两篇文档完全不同的时候,该距离的取值为0。
另一种是欧式距离: dis ( d i , d j ) = ( d i - d j ) t ( d i - d j ) = | | d i - d j | | ;
当两篇文档完全相同的时候,该距离的取值为0:当两篇文档的完全不相同的时候,该距离的取值为。我们在本发明中采用了余弦距离来衡量文档之间的相关性。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于文件相似度的排重方法,其特征在于,包括以下步骤:
A、抽取需要比对的文件,生成纯文字;
B、对纯文字进行规范化处理,生成规范文字单元;文字单元包括段落、句子和关键词;
C、将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码;
D、对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。
2.如权利要求1所述的基于文件相似度的排重方法,其特征在于:步骤B中所述对纯文字进行规范化处理,生成规范文字单元包括以下步骤:
B1、将纯文字分拆为文字单元;
B2、对文字单元进行规范化处理;
B3、去除规范化处理后的文字单元中的无意义信息,生成规范文字单元。
3.如权利要求2所述的基于文件相似度的排重方法,其特征在于:步骤B3中所述无意义信息包括没有实质意义的文字。
4.如权利要求1至3任一项所述的基于文件相似度的排重方法,其特征在于:步骤C中的编码算法包括单向散列MD5算法、数据加密SHA-1算法和杂凑函数SHA-2算法中的至少一种。
5.如权利要求1至3任一项所述的基于文件相似度的排重方法,其特征在于:步骤D中所述对需要比对的文件的代表码的关键词进行抽取,生成关键词序列时,包括以下步骤:
D1、选择代表码的句子中的任一关键词;
D2、判断该关键词是否为名词、代词、动词和形容词中的任意一种,若是,抽取w,转到步骤D3;否则选择下一个关键词,并重新执行步骤D2;
D3、将所有抽取的关键词组成当前句子的关键词序列。
6.如权利要求1至3任一项所述的基于文件相似度的排重方法,其特征在于:步骤D中所述根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度的计算公式如下:
Simword(S1,S2)=2·(Sameword(S1,S2)/(LenS1+LenS2);
其中Simword(S1,S2)为需要比对的句子S1、S2的词形相似度,Sameword(S1,S2)为S1、S2中所含相同词或同义词的个数,LenS1为S1中所含关键词的个数,LenS2为S2中所含关键词的个数。
7.如权利要求6所述的基于文件相似度的排重方法,其特征在于:步骤D中计算需要比对的句子的词序相似度的计算公式如下:
S im ord ( S 1 , S 2 ) = 1 - ( RevOrd ( S 1 , S 2 ) | OnceWord ( S 1 , S 2 ) | - 1 ) | OnceWord ( S 1 , S 2 ) | > 1 1 | OnceWord ( S 1 , S 2 ) | = 1 0 | OnceWord ( S 1 , S 2 ) | = 0
其中Simord(s1,s2)为需要比对的句子S1、S2的词序相似度,OnceWord(s1,s2)为S1、S2中所含仅一次的相同词或同义词的集合,Pfirst(s1,s2)为OnceWord(s1,s2)中的词在S1中的位置序号构成的向量,Psecond(s1,s2)为Pfirst(s1,s2)中的分量按对应词在S2中的次序排序生成的向量,RevOrd(s1,s2)为Psecond(s1,s2)各相邻分量的逆序数。
8.如权利要求7所述的基于文件相似度的排重方法,其特征在于:步骤D中根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度的计算公式如下:
Sim(s1,s2)=μ1·Simword(s1,s2)+μ2·Simord(s1,s2);
其中Sim(s1,s2)为S1、S2的相似度,μ1、μ2为常数,且μ12=1。
9.一种实现权利要求1至8任一项所述方法的基于文件相似度的排重系统,其特征在于:包括文本抽取模块、文字处理模块、文字编码模块和文字比对模块;
所述文本抽取模块用于:抽取需要比对的文件,生成纯文字;向文字处理模块发送文字处理信号;
所述文字处理模块用于:收到文字处理信号后,对纯文字进行规范化处理,生成规范文字单元;向文字编码模块发送文字编码信号;
文字编码模块用于:收到文字编码信号后,将规范文字单元进行编码,通过编码算法生成一种固定长度、且不可逆转的代表码;向文字比对模块发送文字比对信号;
文字比对模块用于:收到文字比对信号后,对需要比对的文件的代表码的关键词进行抽取,生成关键词序列;根据需要比对的句子的关键词序列,计算需要比对的句子的词形相似度和词序相似度;根据需要比对的句子的词形相似度和词序相似度,计算需要比对的句子的相似度;根据句子的相似度计算需要比对的文件的相似度。
10.如权利要求9所述的基于文件相似度的排重系统,其特征在于:所述文字处理模块包括文字分拆模块、文字规范化模块和高频字去除模块;
所述文字分拆模块用于:收到文字处理信号后,将纯文字分拆为文字单元,向文字规范化模块发送文字规范信号;
所述文字规范化模块用于:收到文字规范信号后,对文字单元进行规范化处理,向高频字去除模块发送高频字去除信号;
所述高频字去除模块用于:收到高频字去除信号后,去除规范化处理后的文字单元中无意义信息,生成规范文字单元,向文字编码模块发送文字编码信号。
CN201410421951.6A 2014-08-25 2014-08-25 一种基于文件相似度的排重方法及系统 Pending CN104216968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410421951.6A CN104216968A (zh) 2014-08-25 2014-08-25 一种基于文件相似度的排重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410421951.6A CN104216968A (zh) 2014-08-25 2014-08-25 一种基于文件相似度的排重方法及系统

Publications (1)

Publication Number Publication Date
CN104216968A true CN104216968A (zh) 2014-12-17

Family

ID=52098458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410421951.6A Pending CN104216968A (zh) 2014-08-25 2014-08-25 一种基于文件相似度的排重方法及系统

Country Status (1)

Country Link
CN (1) CN104216968A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202007A (zh) * 2016-06-28 2016-12-07 电子科技大学 一种matlab程序文件相似度的评估方法
CN106649214A (zh) * 2016-10-21 2017-05-10 天津海量信息技术股份有限公司 互联网信息内容相似定义方法
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN109241239A (zh) * 2018-07-26 2019-01-18 四川长虹电器股份有限公司 考察文字排列顺序的文本相似度匹配方法
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN110489533A (zh) * 2019-07-09 2019-11-22 深圳追一科技有限公司 人机对话方法及相关设备
CN112241620A (zh) * 2019-07-16 2021-01-19 杨立威 文字比对方法、系统及其计算机程序产品
CN112288005A (zh) * 2020-10-29 2021-01-29 四川长虹电器股份有限公司 实体相似匹配方法及系统
CN113032519A (zh) * 2021-01-22 2021-06-25 中国平安人寿保险股份有限公司 一种句子相似度判断方法、装置、计算机设备及存储介质
CN117082293A (zh) * 2023-10-16 2023-11-17 成都华栖云科技有限公司 一种基于文字创意的视频自动生成方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN101315622A (zh) * 2007-05-30 2008-12-03 香港中文大学 检测文件相似度的系统及方法
KR20130000448A (ko) * 2011-06-21 2013-01-03 한국전자통신연구원 유사문장 검색장치 및 그 검색방법
CN102968500A (zh) * 2012-12-04 2013-03-13 中国飞行试验研究院 一种基于分层检索的飞行特情处置快速检索方法
CN103902523A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子相似度计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315622A (zh) * 2007-05-30 2008-12-03 香港中文大学 检测文件相似度的系统及方法
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
KR20130000448A (ko) * 2011-06-21 2013-01-03 한국전자통신연구원 유사문장 검색장치 및 그 검색방법
CN102968500A (zh) * 2012-12-04 2013-03-13 中国飞行试验研究院 一种基于分层检索的飞行特情处置快速检索方法
CN103902523A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子相似度计算方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202007B (zh) * 2016-06-28 2018-09-07 电子科技大学 一种matlab程序文件相似度的评估方法
CN106202007A (zh) * 2016-06-28 2016-12-07 电子科技大学 一种matlab程序文件相似度的评估方法
CN106649214A (zh) * 2016-10-21 2017-05-10 天津海量信息技术股份有限公司 互联网信息内容相似定义方法
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108304378B (zh) * 2018-01-12 2019-09-24 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN109241239A (zh) * 2018-07-26 2019-01-18 四川长虹电器股份有限公司 考察文字排列顺序的文本相似度匹配方法
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN110489533A (zh) * 2019-07-09 2019-11-22 深圳追一科技有限公司 人机对话方法及相关设备
CN112241620A (zh) * 2019-07-16 2021-01-19 杨立威 文字比对方法、系统及其计算机程序产品
CN112288005A (zh) * 2020-10-29 2021-01-29 四川长虹电器股份有限公司 实体相似匹配方法及系统
CN113032519A (zh) * 2021-01-22 2021-06-25 中国平安人寿保险股份有限公司 一种句子相似度判断方法、装置、计算机设备及存储介质
CN117082293A (zh) * 2023-10-16 2023-11-17 成都华栖云科技有限公司 一种基于文字创意的视频自动生成方法和装置
CN117082293B (zh) * 2023-10-16 2023-12-19 成都华栖云科技有限公司 一种基于文字创意的视频自动生成方法和装置

Similar Documents

Publication Publication Date Title
CN104216968A (zh) 一种基于文件相似度的排重方法及系统
Luo et al. Joint entity recognition and disambiguation
US10289952B2 (en) Semantic frame identification with distributed word representations
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN106294396A (zh) 关键词扩展方法和关键词扩展系统
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
CN105488077A (zh) 生成内容标签的方法和装置
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN114997288A (zh) 一种设计资源关联方法
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
Wang et al. Topic-driven multi-document summarization
Tran et al. Semi-supervised approach based on co-occurrence coefficient for named entity recognition on twitter
CN106919565B (zh) 一种基于MapReduce的文档检索方法及系统
Wang et al. A joint chinese named entity recognition and disambiguation system
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
Bhanu Prasad et al. Author verification using rich set of linguistic features
CN105608136A (zh) 一种基于汉语复句的语义相关度计算方法
Mekala et al. A survey on authorship attribution approaches
Al-Sarem et al. Combination of stylo-based features and frequency-based features for identifying the author of short Arabic text
Li-Juan et al. A classification method of Vietnamese news events based on maximum entropy model
Sun et al. Generalized abbreviation prediction with negative full forms and its application on improving chinese web search
Zahri et al. Exploiting discourse relations between sentences for text clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141217