CN108038202A - 一种文档相似度判定方法 - Google Patents

一种文档相似度判定方法 Download PDF

Info

Publication number
CN108038202A
CN108038202A CN201711326082.9A CN201711326082A CN108038202A CN 108038202 A CN108038202 A CN 108038202A CN 201711326082 A CN201711326082 A CN 201711326082A CN 108038202 A CN108038202 A CN 108038202A
Authority
CN
China
Prior art keywords
hash values
sequence string
documents
vocabulary
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711326082.9A
Other languages
English (en)
Inventor
王祝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yixiang (dalian) Science And Technology Co Ltd
Original Assignee
Yixiang (dalian) Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yixiang (dalian) Science And Technology Co Ltd filed Critical Yixiang (dalian) Science And Technology Co Ltd
Priority to CN201711326082.9A priority Critical patent/CN108038202A/zh
Publication of CN108038202A publication Critical patent/CN108038202A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文档相似度判定方法,第一步,分词:将文档中的句子拆分成基础词汇;第二步,词汇统计:将词汇通过hash函数计算各个特征向量的hash值,所述hash值设置为64位,将所有词汇重复的数量N记录,并建立数量*词汇的数据,即N*hash值;第三步,合并:将上述各个特征向量的加权结果累加,变成只有一个序列串;第四步,降维:对于累加结果,如果大于0则置1,否则置0,得到整个文档的序列串;第五步,对比:将两个文档的序列串进行对比,得到不同位数的个数;小于等于3,则判定为相似。

Description

一种文档相似度判定方法
技术领域
本发明涉及文本处理领域,特别涉及一种文档相似度判定方法。
背景技术
随着我国知识是产权保护的意识越来越强,诞生了版权作者主动维权的意识,而人工判断侵权的工作量太大,在海量数据面前,需要计算机工具作为辅助,对数据进行筛选,然后进行人工判断。
发明内容
为了克服上述现有技术的不足,本发明提供了一种文档相似度判定方法。
第一步,分词:将文档中的句子拆分成基础词汇;
第二步,词汇统计:将词汇通过hash函数计算各个特征向量的hash值,所述hash值设置为64位,将所有词汇重复的数量N记录,并建立数量*词汇的数据,即N*hash值;
第三步,合并:将上述各个特征向量的加权结果累加,变成只有一个序列串;
第四步,降维:对于累加结果,如果大于0则置1,否则置0,得到整个文档的序列串;
第五步,对比:将两个文档的序列串进行对比,得到不同位数的个数;小于等于3,则判定为相似。
有益效果:本发明是将整个文档的词语做hash,并根据词语出现的次数做加权,最后比较1,0数列,得到一个相似对比结果。
具体实施方式
实施例:
第一步,分词:将文档中的句子拆分成基础词汇;
第二步,词汇统计:将词汇通过hash函数计算各个特征向量的hash值,所述hash值设置为64位,将所有词汇重复的数量N记录,并建立数量*词汇的数据,即N*hash值;
第三步,合并:将上述各个特征向量的加权结果累加,变成只有一个序列串;
第四步,降维:对于累加结果,如果大于0则置1,否则置0,得到整个文档的序列串;
第五步,对比:将两个文档的序列串进行对比,得到不同位数的个数;小于等于3,则判定为相似。

Claims (1)

1.一种文档相似度判定方法,包括以下步骤:
第一步,分词:将文档中的句子拆分成基础词汇;
第二步,词汇统计:将词汇通过hash函数计算各个特征向量的hash值,所述hash值设置为64位,将所有词汇重复的数量N记录,并建立数量*词汇的数据,即N*hash值;
第三步,合并:将上述各个特征向量的加权结果累加,变成只有一个序列串;
第四步,降维:对于累加结果,如果大于0则置1,否则置0,得到整个文档的序列串;
第五步,对比:将两个文档的序列串进行对比,得到不同位数的个数;小于等于3,则判定为相似。
CN201711326082.9A 2017-12-13 2017-12-13 一种文档相似度判定方法 Withdrawn CN108038202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711326082.9A CN108038202A (zh) 2017-12-13 2017-12-13 一种文档相似度判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711326082.9A CN108038202A (zh) 2017-12-13 2017-12-13 一种文档相似度判定方法

Publications (1)

Publication Number Publication Date
CN108038202A true CN108038202A (zh) 2018-05-15

Family

ID=62103008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711326082.9A Withdrawn CN108038202A (zh) 2017-12-13 2017-12-13 一种文档相似度判定方法

Country Status (1)

Country Link
CN (1) CN108038202A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636325A (zh) * 2015-02-06 2015-05-20 中南大学 一种基于极大似然估计确定文档相似度的方法
CN106873964A (zh) * 2016-12-23 2017-06-20 浙江工业大学 一种改进的SimHash代码相似度检测方法
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636325A (zh) * 2015-02-06 2015-05-20 中南大学 一种基于极大似然估计确定文档相似度的方法
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN106873964A (zh) * 2016-12-23 2017-06-20 浙江工业大学 一种改进的SimHash代码相似度检测方法

Similar Documents

Publication Publication Date Title
Wang et al. Bootstrapping both product features and opinion words from chinese customer reviews with cross-inducing
CN103049682B (zh) 一种基于字符间距编码的双重水印嵌入的文本水印方法
WO2006113298A3 (en) System and method for parsing medical data
CN103744835A (zh) 一种基于主题模型的文本关键词提取方法
CN101382844A (zh) 一种输入间隔分词的方法
CN102194081B (zh) 自然语言信息隐藏方法
Oliver et al. Using randomization to attack similarity digests
Jefferson et al. Three dimensional finite element simulations of fracture tests using the Craft concrete model
Khomsah Sentiment analysis on youtube comments using word2vec and random forest
CN103761459A (zh) 一种文档多重数字水印嵌入、提取方法及装置
CN102841940B (zh) 一种基于数据重构的文档摘要提取方法
CN106970904B (zh) 新词发现的方法及装置
CN108038202A (zh) 一种文档相似度判定方法
US10673795B2 (en) Methods and arrangements for content filtering
Liang et al. Damage detection of shear buildings using frequency-change-ratio and model updating algorithm
CN108052502A (zh) 一种快速文档相似度判定方法
Meng et al. A new method for calculating word sense similarity in WordNet1
BR0215919A (pt) Método e dispositivo para processar sìmbolos de bit gerados por uma fonte de dados; meio legìvel por computador; elemento de programa de computador
Shrestha et al. Machine Translation Evaluation Metric for Text Alignment.
Hu et al. Finite element analysis of CFT columns subjected to pure bending moment
Shekar et al. Optimization of medium components for antibacterial metabolite production from marine Streptomyces sp. PUA2 using response surface methodology
CN111368296A (zh) 源码文件匹配率分析方法
CN103544317A (zh) 维度表数据的处理方法和装置
Bao et al. RCC: A Paradigm for Training a Robust Chinese Text Classification Model
Borg et al. Crowd-sourcing evaluation of automatically acquired, morphologically related word groupings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180515