CN107491424B - 一种基于多权重体系的中文文档基因匹配方法 - Google Patents
一种基于多权重体系的中文文档基因匹配方法 Download PDFInfo
- Publication number
- CN107491424B CN107491424B CN201610416852.8A CN201610416852A CN107491424B CN 107491424 B CN107491424 B CN 107491424B CN 201610416852 A CN201610416852 A CN 201610416852A CN 107491424 B CN107491424 B CN 107491424B
- Authority
- CN
- China
- Prior art keywords
- document
- file
- gene
- matching
- weight system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Abstract
本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细化配置权重,减少算法条件跳转过程,可实现性和实际应用性较强。
Description
技术领域
本发明属于文档相似度与去重技术领域,具体涉及一种基于多权重体系的中文文档基因匹配方法。
背景技术
互联网高速、海量的数据中包含着错综复杂、种类繁多的文档。同一个文档在互联网传播的过程中,会存在对文档内容进行增删等部分修改的情况,也就产生了针对相同内容的文档变种。这对文档的匹配、溯源和传播分析等问题都造成了一定程度的障碍和挑战。
文档基因是解决上述问题的一个重要技术手段,它主要指通过对文档抽取若干特征并进行有效组合,形成为文档本质刻画的相对唯一的表征。目前对文档基因的特征分类,主要有几种:第一类是文档载体特征,主要指文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值(包括MD5、SHA1、SHA265和SHA512)特征;第二类是文档属性特征,主要指固有属性和统计属性,固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者,统计属性包括文档字数、文档句数和文档段数;第三类是文档内容特征,主要是指语义要素和顺序关系,语义要素包括摘要、分词、关键词、短语、命名实体、依存句法和局部敏感哈希(包括MinHash和SimHash),顺序关系包括段间关系、句间关系。
由于具体应用的不同,目前存在的文档基因匹配算法并未利用以上所有28种基因特征。此外,文档基因相似度计算方法中,大多采用相似度加权和的方法。换句话说,虽然各种特征的权重不同,但是仍然属于一种权重体系,即 。然而在部分实际应用中,有些因子起到决定性的匹配作用,不能归属一个统一的权重体系来计算。例如,文件Hash特征的权重应该独立为1,而不是与其他特征在一个权重体系内共享。
因此,本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细化配置权重,减少算法条件跳转过程,可实现性和实际应用性较强。
发明内容
本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细化配置权重,减少算法条件跳转过程,可实现性和实际应用性较强。
本发明的内容主要包括以下几个方面。
第一,在权重选取上,本发明提出了一种多权重体系。如表1所示。
表1 多权重体系
权重体系编号 | 权重体系 | 基因特征 |
1 | 文件名称、文件创建时间、文件修改时间、文件大小 | |
2 | MD5 | |
3 | SHA1 | |
4 | SHA256 | |
5 | SHA512 | |
6 | 文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数、文档段数 | |
7 | 摘要、分词、关键词、短语、命名实体、依存句法、MinHash、SimHash、段间顺序、句间顺序 |
第二,在文档匹配上,本发明提出了一个通过文档基因文件计算两个文档配匹配的计算方法。计算公式如下:
如果p,q为字符串向量元素(如关键词),则计算方法如公式2所示,
最终匹配结果,与现有技术相比,本发明的有益效果如下:
1)差异化权重类别,便于精细化配置权重,有利于匹配方法的权重细粒度调整。
2)统一多权重体系的计算公式,可大大减少算法条件跳转过程。
3)对于存在对多体系权重敏感的应用,可有效提高文档基因匹配准确率。
附图说明
图1是本发明方法的文档基因组成要素。
图2是本发明方法的文档基因提取并生成文档基因的流程图。
图3是本发明方法的文档基因文件进行文档匹配的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
图1 为文档基因组成要素示意图。文档基因由文档载体特征、文档属性特征和文档内容特征组成。文档载体特征是由文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值(包括MD5、SHA1、SHA265和SHA512)组成;文档属性特征是由固有属性和统计属性组成,固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者,统计属性包括文档字数、文档句数和文档段数;文档内容特征是由语义要素和顺序关系组成,语义要素包括摘要、分词、关键词、短语、命名实体识别、依存句法分析和局部敏感哈希(包括MinHash和SimHash),顺序关系包括段间顺序和句间顺序。
图2描述了文档基因提取并生成文档基因的流程图。其主要包括以下核心步骤。
(1)接受需要处理的文档文件;
(2)获取文档文件的类型,判断是否可以处理,如果不可以处理,跳转到步骤(20);
(3)对文档文件进行预处理,解决文档字符编码问题;
(4)调用操作系统的API获取文件名称、文件大小、文件创建时间、文件修改时间等文件基本的特征属性;
(5)使用MD5、SHA1、SHA256和SHA512哈希算法计算文档文件的哈希值;
(6)汇总文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值(包括MD5、SHA1、SHA256和SHA512),综合形成文档文件的载体特征;
(7)读取文档获取文档的附加信息,包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者等文档固有属性信息;
(8)读取文档统计文档内容的信息,包括统计字数、句数和段数;
(9)汇总固有属性(包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者等)和统计属性(包括文档字数、文档句数和文档段数)综合形成文档文件的属性特征;
(10)使用N-最短路径算法来进行获取分词,得到文档的分词结果;
(11)使用步骤(10)的分词结果,通过TextRank算法获取摘要;
(12)使用步骤(10)的分词结果,通过TextRank算法获取关键词;
(13)使用步骤(10)的分词结果,通过基于互信息和左右信息熵提取识别短语;
(14)使用步骤(10)的分词结果,使用基于层叠隐马尔可夫模型的方法,提取命名实体;
(15)对文档进行基于CRF序列标注的中文依存句法分析;
(16)使用MinHash和SimHash算法分别计算文档MinHash值和SimHash值,组合形成局部敏感哈希;
(17)使用步骤(13)的短语结果,使用短语顺序组来标识一个段落或者一个句子,按照出现顺序为每个段落短语顺序组和句子短语顺序组赋予一个顺序值。使用段落短语顺序组和顺序值来表示段间顺序;使用句子短语顺序组和顺序值来表示句间顺序。
(18)汇总文档语义要素(包括分词、摘要、关键词、短语、命名实体、依存句法和局部敏感哈希值等)和顺序关系(包括段间顺序和句间顺序),综合形成文档的内容特征;
(19)将获取到的文档载体特征、文档属性特征和文档内容特征进行组合,形成文档基因;
(20)流程结束;
图3描述了通过文档基因文件进行文档匹配的流程图。其主要包括以下核心步骤。
(1)获取源文件的文档基因文件;
(2)获取匹配文件的文档基因文件;
(3)对获取到的文档基因文件进行校验;
(4)判断获取到的文档基因文件是否校验成功,如果失败,跳转到步骤(15);
(5)获取一个文档基因特征的两文档基因的数据,分别记为q和p;
(6)判断p和q是否为数值型,如果是,跳转到步骤(9);
(7)判断p和q是否为向量型,如果是,跳转到步骤(15);
(10)判断是否为最后一个基因特征,如果否,跳转到步骤(5);
(11)查询多权重体系表,获取到文档基因特征的权重体系,记其编号为i;
(13)通过公式10统计计算文档基因匹配度;
(14)输出结果;
(15)流程结束;
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
Claims (2)
1.一种基于多权重体系的中文文档基因匹配方法,其步骤包括:
步骤1)将文档载体特征、文档属性特征、文档内容特征组成的28种混合特征分为7类特征组;
7类特征组中,第一类:文件名称、文件创建时间、文件修改时间和文件大小;第二类:文件哈希值MD5;第三类:文件哈希值SHA1;第四类:文件哈希值SHA256;第五类:文件哈希值SHA512;第六类:文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数和文档段数;第七类:摘要、分词、关键词、短语、命名实体、依存句法、局部敏感哈希MinHash、局部敏感哈希SimHash、段间顺序和句间顺序;
步骤2)对7类特征组分别构建独立的权重体系;
步骤3)基于多权重体系,对两个文档的中文文档基因进行匹配,具体包括:
(1)获取源文件的文档基因文件;
(2)获取匹配文件的文档基因文件;
(3)对获取到的文档基因文件进行校验;
(4)判断获取到的文档基因文件是否校验成功,如果失败,跳转到步骤(13);
(5)获取一类特征组的文档基因特征的两文档基因的数据,分别记为p和q;
(6)判断p和q是否为数值型,如果是,跳转到步骤(8);
(7)判断p和q是否为向量型,如果是,跳转到步骤(9);
(8)使用公式(1)计算p和q的匹配度:
(9)使用公式(2)计算p和q的匹配度;
(10)根据多权重体系计算公式,计算第i个权重体系的匹配度θi;
(11)通过公式(3)统计计算文档基因匹配度ω;
(12)输出结果;
(13)流程结束。
2.根据权利要求1所述的方法,其特征在于,每个权重体系的权重的和为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610416852.8A CN107491424B (zh) | 2016-06-12 | 2016-06-12 | 一种基于多权重体系的中文文档基因匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610416852.8A CN107491424B (zh) | 2016-06-12 | 2016-06-12 | 一种基于多权重体系的中文文档基因匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491424A CN107491424A (zh) | 2017-12-19 |
CN107491424B true CN107491424B (zh) | 2020-11-06 |
Family
ID=60643033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610416852.8A Active CN107491424B (zh) | 2016-06-12 | 2016-06-12 | 一种基于多权重体系的中文文档基因匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491424B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362968A (zh) * | 2019-07-16 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 信息检测方法、装置及服务器 |
CN112989793B (zh) * | 2021-05-17 | 2021-08-06 | 北京创新乐知网络技术有限公司 | 文章检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033867A (zh) * | 2010-12-14 | 2011-04-27 | 西北工业大学 | 用于xml文档分类的语义相似度度量方法 |
CN105205058A (zh) * | 2014-06-10 | 2015-12-30 | 北京畅游天下网络技术有限公司 | 数据处理系统和方法 |
-
2016
- 2016-06-12 CN CN201610416852.8A patent/CN107491424B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033867A (zh) * | 2010-12-14 | 2011-04-27 | 西北工业大学 | 用于xml文档分类的语义相似度度量方法 |
CN105205058A (zh) * | 2014-06-10 | 2015-12-30 | 北京畅游天下网络技术有限公司 | 数据处理系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107491424A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lubis et al. | Combination of levenshtein distance and rabin-karp to improve the accuracy of document equivalence level | |
Gupta et al. | Query expansion for mixed-script information retrieval | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
Rabinovich et al. | Unsupervised identification of translationese | |
US20150142760A1 (en) | Method and device for deduplicating web page | |
US20090037440A1 (en) | Streaming Hierarchical Clustering | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
CN109791632B (zh) | 场景片段分类器、场景分类器以及记录介质 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN109165382A (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
WO2022154897A1 (en) | Classifier assistance using domain-trained embedding | |
CN107491424B (zh) | 一种基于多权重体系的中文文档基因匹配方法 | |
Sadamitsu et al. | Entity set expansion using topic information | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP2019200784A (ja) | 分析方法、分析装置及び分析プログラム | |
Günther et al. | Pre-trained web table embeddings for table discovery | |
CN107609006B (zh) | 一种基于地方志研究的搜索优化方法 | |
CN107491423B (zh) | 一种基于数值-字符串混合编码的中文文档基因量化与表征方法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
Yang et al. | Exploring word similarity to improve chinese personal name disambiguation | |
AbuRa'ed et al. | What sentence are you referring to and why? identifying cited sentences in scientific literature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |