CN107491424B - 一种基于多权重体系的中文文档基因匹配方法 - Google Patents

一种基于多权重体系的中文文档基因匹配方法 Download PDF

Info

Publication number
CN107491424B
CN107491424B CN201610416852.8A CN201610416852A CN107491424B CN 107491424 B CN107491424 B CN 107491424B CN 201610416852 A CN201610416852 A CN 201610416852A CN 107491424 B CN107491424 B CN 107491424B
Authority
CN
China
Prior art keywords
document
file
gene
matching
weight system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610416852.8A
Other languages
English (en)
Other versions
CN107491424A (zh
Inventor
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Universal Cloud Data Analytics Technology Co ltd
Original Assignee
Beijing Universal Cloud Data Analytics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Universal Cloud Data Analytics Technology Co ltd filed Critical Beijing Universal Cloud Data Analytics Technology Co ltd
Priority to CN201610416852.8A priority Critical patent/CN107491424B/zh
Publication of CN107491424A publication Critical patent/CN107491424A/zh
Application granted granted Critical
Publication of CN107491424B publication Critical patent/CN107491424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Abstract

本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细化配置权重,减少算法条件跳转过程,可实现性和实际应用性较强。

Description

一种基于多权重体系的中文文档基因匹配方法
技术领域
本发明属于文档相似度与去重技术领域,具体涉及一种基于多权重体系的中文文档基因匹配方法。
背景技术
互联网高速、海量的数据中包含着错综复杂、种类繁多的文档。同一个文档在互联网传播的过程中,会存在对文档内容进行增删等部分修改的情况,也就产生了针对相同内容的文档变种。这对文档的匹配、溯源和传播分析等问题都造成了一定程度的障碍和挑战。
文档基因是解决上述问题的一个重要技术手段,它主要指通过对文档抽取若干特征并进行有效组合,形成为文档本质刻画的相对唯一的表征。目前对文档基因的特征分类,主要有几种:第一类是文档载体特征,主要指文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值(包括MD5、SHA1、SHA265和SHA512)特征;第二类是文档属性特征,主要指固有属性和统计属性,固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者,统计属性包括文档字数、文档句数和文档段数;第三类是文档内容特征,主要是指语义要素和顺序关系,语义要素包括摘要、分词、关键词、短语、命名实体、依存句法和局部敏感哈希(包括MinHash和SimHash),顺序关系包括段间关系、句间关系。
由于具体应用的不同,目前存在的文档基因匹配算法并未利用以上所有28种基因特征。此外,文档基因相似度计算方法中,大多采用相似度加权和的方法。换句话说,虽然各种特征的权重不同,但是仍然属于一种权重体系,即
Figure RE-370663DEST_PATH_IMAGE001
。然而在部分实际应用中,有些因子起到决定性的匹配作用,不能归属一个统一的权重体系来计算。例如,文件Hash特征的权重应该独立为1,而不是与其他特征在一个权重体系内共享
Figure RE-508383DEST_PATH_IMAGE001
因此,本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细化配置权重,减少算法条件跳转过程,可实现性和实际应用性较强。
发明内容
本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细化配置权重,减少算法条件跳转过程,可实现性和实际应用性较强。
本发明的内容主要包括以下几个方面。
第一,在权重选取上,本发明提出了一种多权重体系。如表1所示。
表1 多权重体系
权重体系编号 权重体系 基因特征
1
Figure RE-970589DEST_PATH_IMAGE002
文件名称、文件创建时间、文件修改时间、文件大小
2
Figure RE-911869DEST_PATH_IMAGE003
MD5
3
Figure RE-117722DEST_PATH_IMAGE004
SHA1
4
Figure RE-109949DEST_PATH_IMAGE005
SHA256
5
Figure RE-8635DEST_PATH_IMAGE006
SHA512
6
Figure RE-968370DEST_PATH_IMAGE007
文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数、文档段数
7
Figure RE-181176DEST_PATH_IMAGE008
摘要、分词、关键词、短语、命名实体、依存句法、MinHash、SimHash、段间顺序、句间顺序
第二,在文档匹配上,本发明提出了一个通过文档基因文件计算两个文档配匹配的计算方法。计算公式如下:
Figure RE-293489DEST_PATH_IMAGE009
用来表示两个基因特征中的对应元素p与q的匹配度。如果p,q为数值型元素(如文件大小元素)或字符串元素(如文件名称元素),则计算方法如公式1所示。
Figure RE-346764DEST_PATH_IMAGE010
(公式1)。
如果p,q为字符串向量元素(如关键词),则计算方法如公式2所示,
Figure DEST_PATH_DEST_PATH_IMAGE002
(其中|p|为p向量的长度,|q|为q向量的长度) (公式2)。
Figure RE-561025DEST_PATH_IMAGE012
为第n个权重体系的匹配度(n=1,2,3,4,5,6,7),
Figure 777111DEST_PATH_IMAGE013
为两文档匹配的文档基因匹配度,计算方法如公式6-10所示。
Figure RE-17600DEST_PATH_IMAGE014
(公式3)。
Figure RE-437080DEST_PATH_IMAGE015
(公式4)。
Figure 788427DEST_PATH_IMAGE016
(公式5)。
Figure RE-339580DEST_PATH_IMAGE017
(公式6)。
Figure RE-750970DEST_PATH_IMAGE018
(公式7)。
Figure RE-657746DEST_PATH_IMAGE019
(公式8)。
Figure RE-265314DEST_PATH_IMAGE020
(公式9)。
Figure RE-206725DEST_PATH_IMAGE021
(公式10)。
最终匹配结果,与现有技术相比,本发明的有益效果如下:
1)差异化权重类别,便于精细化配置权重,有利于匹配方法的权重细粒度调整。
2)统一多权重体系的计算公式,可大大减少算法条件跳转过程。
3)对于存在对多体系权重敏感的应用,可有效提高文档基因匹配准确率。
附图说明
图1是本发明方法的文档基因组成要素。
图2是本发明方法的文档基因提取并生成文档基因的流程图。
图3是本发明方法的文档基因文件进行文档匹配的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
图1 为文档基因组成要素示意图。文档基因由文档载体特征、文档属性特征和文档内容特征组成。文档载体特征是由文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值(包括MD5、SHA1、SHA265和SHA512)组成;文档属性特征是由固有属性和统计属性组成,固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者,统计属性包括文档字数、文档句数和文档段数;文档内容特征是由语义要素和顺序关系组成,语义要素包括摘要、分词、关键词、短语、命名实体识别、依存句法分析和局部敏感哈希(包括MinHash和SimHash),顺序关系包括段间顺序和句间顺序。
图2描述了文档基因提取并生成文档基因的流程图。其主要包括以下核心步骤。
(1)接受需要处理的文档文件;
(2)获取文档文件的类型,判断是否可以处理,如果不可以处理,跳转到步骤(20);
(3)对文档文件进行预处理,解决文档字符编码问题;
(4)调用操作系统的API获取文件名称、文件大小、文件创建时间、文件修改时间等文件基本的特征属性;
(5)使用MD5、SHA1、SHA256和SHA512哈希算法计算文档文件的哈希值;
(6)汇总文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值(包括MD5、SHA1、SHA256和SHA512),综合形成文档文件的载体特征;
(7)读取文档获取文档的附加信息,包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者等文档固有属性信息;
(8)读取文档统计文档内容的信息,包括统计字数、句数和段数;
(9)汇总固有属性(包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者等)和统计属性(包括文档字数、文档句数和文档段数)综合形成文档文件的属性特征;
(10)使用N-最短路径算法来进行获取分词,得到文档的分词结果;
(11)使用步骤(10)的分词结果,通过TextRank算法获取摘要;
(12)使用步骤(10)的分词结果,通过TextRank算法获取关键词;
(13)使用步骤(10)的分词结果,通过基于互信息和左右信息熵提取识别短语;
(14)使用步骤(10)的分词结果,使用基于层叠隐马尔可夫模型的方法,提取命名实体;
(15)对文档进行基于CRF序列标注的中文依存句法分析;
(16)使用MinHash和SimHash算法分别计算文档MinHash值和SimHash值,组合形成局部敏感哈希;
(17)使用步骤(13)的短语结果,使用短语顺序组来标识一个段落或者一个句子,按照出现顺序为每个段落短语顺序组和句子短语顺序组赋予一个顺序值。使用段落短语顺序组和顺序值来表示段间顺序;使用句子短语顺序组和顺序值来表示句间顺序。
(18)汇总文档语义要素(包括分词、摘要、关键词、短语、命名实体、依存句法和局部敏感哈希值等)和顺序关系(包括段间顺序和句间顺序),综合形成文档的内容特征;
(19)将获取到的文档载体特征、文档属性特征和文档内容特征进行组合,形成文档基因;
(20)流程结束;
图3描述了通过文档基因文件进行文档匹配的流程图。其主要包括以下核心步骤。
(1)获取源文件的文档基因文件;
(2)获取匹配文件的文档基因文件;
(3)对获取到的文档基因文件进行校验;
(4)判断获取到的文档基因文件是否校验成功,如果失败,跳转到步骤(15);
(5)获取一个文档基因特征的两文档基因的数据,分别记为q和p;
(6)判断p和q是否为数值型,如果是,跳转到步骤(9);
(7)判断p和q是否为向量型,如果是,跳转到步骤(15);
(8)使用公式2计算
Figure RE-789016DEST_PATH_IMAGE009
,跳转到步骤(10);
(9)使用公式1计算
Figure RE-432356DEST_PATH_IMAGE009
(10)判断是否为最后一个基因特征,如果否,跳转到步骤(5);
(11)查询多权重体系表,获取到文档基因特征的权重体系,记其编号为i;
(12)查询多权重体系计算公式,获取到计算公式
Figure RE-125505DEST_PATH_IMAGE022
(13)通过公式10统计计算文档基因匹配度;
(14)输出结果;
(15)流程结束;
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (2)

1.一种基于多权重体系的中文文档基因匹配方法,其步骤包括:
步骤1)将文档载体特征、文档属性特征、文档内容特征组成的28种混合特征分为7类特征组;
7类特征组中,第一类:文件名称、文件创建时间、文件修改时间和文件大小;第二类:文件哈希值MD5;第三类:文件哈希值SHA1;第四类:文件哈希值SHA256;第五类:文件哈希值SHA512;第六类:文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数和文档段数;第七类:摘要、分词、关键词、短语、命名实体、依存句法、局部敏感哈希MinHash、局部敏感哈希SimHash、段间顺序和句间顺序;
步骤2)对7类特征组分别构建独立的权重体系;
步骤3)基于多权重体系,对两个文档的中文文档基因进行匹配,具体包括:
(1)获取源文件的文档基因文件;
(2)获取匹配文件的文档基因文件;
(3)对获取到的文档基因文件进行校验;
(4)判断获取到的文档基因文件是否校验成功,如果失败,跳转到步骤(13);
(5)获取一类特征组的文档基因特征的两文档基因的数据,分别记为p和q;
(6)判断p和q是否为数值型,如果是,跳转到步骤(8);
(7)判断p和q是否为向量型,如果是,跳转到步骤(9);
(8)使用公式(1)计算p和q的匹配度:
Figure FDA0002691997530000011
(9)使用公式(2)计算p和q的匹配度;
Figure FDA0002691997530000012
其中,|p|为p向量的长度,|q|为q向量的长度;
Figure FDA0002691997530000013
为p和q的匹配度;p=(p1,…pi,…p|p|);q=(q1,…qj,…q|q|);
(10)根据多权重体系计算公式,计算第i个权重体系的匹配度θi
(11)通过公式(3)统计计算文档基因匹配度ω;
Figure FDA0002691997530000021
(12)输出结果;
(13)流程结束。
2.根据权利要求1所述的方法,其特征在于,每个权重体系的权重的和为1。
CN201610416852.8A 2016-06-12 2016-06-12 一种基于多权重体系的中文文档基因匹配方法 Active CN107491424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610416852.8A CN107491424B (zh) 2016-06-12 2016-06-12 一种基于多权重体系的中文文档基因匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610416852.8A CN107491424B (zh) 2016-06-12 2016-06-12 一种基于多权重体系的中文文档基因匹配方法

Publications (2)

Publication Number Publication Date
CN107491424A CN107491424A (zh) 2017-12-19
CN107491424B true CN107491424B (zh) 2020-11-06

Family

ID=60643033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610416852.8A Active CN107491424B (zh) 2016-06-12 2016-06-12 一种基于多权重体系的中文文档基因匹配方法

Country Status (1)

Country Link
CN (1) CN107491424B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362968A (zh) * 2019-07-16 2019-10-22 腾讯科技(深圳)有限公司 信息检测方法、装置及服务器
CN112989793B (zh) * 2021-05-17 2021-08-06 北京创新乐知网络技术有限公司 文章检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033867A (zh) * 2010-12-14 2011-04-27 西北工业大学 用于xml文档分类的语义相似度度量方法
CN105205058A (zh) * 2014-06-10 2015-12-30 北京畅游天下网络技术有限公司 数据处理系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033867A (zh) * 2010-12-14 2011-04-27 西北工业大学 用于xml文档分类的语义相似度度量方法
CN105205058A (zh) * 2014-06-10 2015-12-30 北京畅游天下网络技术有限公司 数据处理系统和方法

Also Published As

Publication number Publication date
CN107491424A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
Lubis et al. Combination of levenshtein distance and rabin-karp to improve the accuracy of document equivalence level
Gupta et al. Query expansion for mixed-script information retrieval
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
Rabinovich et al. Unsupervised identification of translationese
US20150142760A1 (en) Method and device for deduplicating web page
US20090037440A1 (en) Streaming Hierarchical Clustering
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
CN109791632B (zh) 场景片段分类器、场景分类器以及记录介质
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
WO2022154897A1 (en) Classifier assistance using domain-trained embedding
CN107491424B (zh) 一种基于多权重体系的中文文档基因匹配方法
Sadamitsu et al. Entity set expansion using topic information
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP2019200784A (ja) 分析方法、分析装置及び分析プログラム
Günther et al. Pre-trained web table embeddings for table discovery
CN107609006B (zh) 一种基于地方志研究的搜索优化方法
CN107491423B (zh) 一种基于数值-字符串混合编码的中文文档基因量化与表征方法
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
AbuRa'ed et al. What sentence are you referring to and why? identifying cited sentences in scientific literature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant