CN1959671A - 基于文档结构的文档相似性度量方法 - Google Patents
基于文档结构的文档相似性度量方法 Download PDFInfo
- Publication number
- CN1959671A CN1959671A CN 200510117412 CN200510117412A CN1959671A CN 1959671 A CN1959671 A CN 1959671A CN 200510117412 CN200510117412 CN 200510117412 CN 200510117412 A CN200510117412 A CN 200510117412A CN 1959671 A CN1959671 A CN 1959671A
- Authority
- CN
- China
- Prior art keywords
- similarity
- file
- document
- topics
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000011524 similarity measure Methods 0.000 claims description 20
- 238000013459 approach Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000010606 normalization Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Cosine | PivotedVSM | BM25 | 本发明 | |
AverageP | 0.82 | 0.723 | 0.757 | 0.85 |
P@5 | 0.83 | 0.81 | 0.82 | 0.87 |
P@10 | 0.72 | 0.71 | 0.72 | 0.773 |
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101174124A CN100543735C (zh) | 2005-10-31 | 2005-10-31 | 基于文档结构的文档相似性度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101174124A CN100543735C (zh) | 2005-10-31 | 2005-10-31 | 基于文档结构的文档相似性度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1959671A true CN1959671A (zh) | 2007-05-09 |
CN100543735C CN100543735C (zh) | 2009-09-23 |
Family
ID=38071373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005101174124A Expired - Fee Related CN100543735C (zh) | 2005-10-31 | 2005-10-31 | 基于文档结构的文档相似性度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100543735C (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
CN102163227A (zh) * | 2011-04-12 | 2011-08-24 | 湖南大学 | 一种web社会网络行为轨迹分析与控制子集获取方法 |
CN102236693A (zh) * | 2010-04-28 | 2011-11-09 | 国际商业机器公司 | 确定文档之间的相似度的方法和设备 |
CN103034687A (zh) * | 2012-11-29 | 2013-04-10 | 中国科学院自动化研究所 | 一种基于2-类异质网络的关联模块识别方法 |
CN104252445A (zh) * | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 文档相似度计算方法、近似重复文档检测方法及装置 |
CN104933022A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 信息处理装置和信息处理方法 |
CN106372043A (zh) * | 2016-09-07 | 2017-02-01 | 福建师范大学 | 一种基于改进的Jaccard系数确定文档相似度的方法 |
WO2017107651A1 (zh) * | 2015-12-22 | 2017-06-29 | 北京奇虎科技有限公司 | 确定新闻之间相关性、多新闻之间相关性计算方法和装置 |
CN114722160A (zh) * | 2022-06-07 | 2022-07-08 | 中国人民解放军国防科技大学 | 文本数据比较方法及装置 |
-
2005
- 2005-10-31 CN CNB2005101174124A patent/CN100543735C/zh not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236693A (zh) * | 2010-04-28 | 2011-11-09 | 国际商业机器公司 | 确定文档之间的相似度的方法和设备 |
CN102236693B (zh) * | 2010-04-28 | 2015-04-08 | 国际商业机器公司 | 确定文档之间的相似度的方法和设备 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
CN102163227A (zh) * | 2011-04-12 | 2011-08-24 | 湖南大学 | 一种web社会网络行为轨迹分析与控制子集获取方法 |
CN103034687B (zh) * | 2012-11-29 | 2017-03-08 | 中国科学院自动化研究所 | 一种基于2‑类异质网络的关联模块识别方法 |
CN103034687A (zh) * | 2012-11-29 | 2013-04-10 | 中国科学院自动化研究所 | 一种基于2-类异质网络的关联模块识别方法 |
CN104252445A (zh) * | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 文档相似度计算方法、近似重复文档检测方法及装置 |
WO2014206241A1 (zh) * | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 文档相似度计算方法、近似重复文档检测方法及装置 |
CN104252445B (zh) * | 2013-06-26 | 2017-11-24 | 华为技术有限公司 | 近似重复文档检测方法及装置 |
CN104933022B (zh) * | 2014-03-20 | 2018-11-13 | 株式会社东芝 | 信息处理装置和信息处理方法 |
CN104933022A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 信息处理装置和信息处理方法 |
WO2017107651A1 (zh) * | 2015-12-22 | 2017-06-29 | 北京奇虎科技有限公司 | 确定新闻之间相关性、多新闻之间相关性计算方法和装置 |
US10217025B2 (en) | 2015-12-22 | 2019-02-26 | Beijing Qihoo Technology Company Limited | Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news |
CN106372043A (zh) * | 2016-09-07 | 2017-02-01 | 福建师范大学 | 一种基于改进的Jaccard系数确定文档相似度的方法 |
CN106372043B (zh) * | 2016-09-07 | 2018-11-23 | 福建师范大学 | 一种基于改进的Jaccard系数确定文档相似度的方法 |
CN114722160A (zh) * | 2022-06-07 | 2022-07-08 | 中国人民解放军国防科技大学 | 文本数据比较方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN100543735C (zh) | 2009-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1959671A (zh) | 基于文档结构的文档相似性度量方法 | |
CN105260359B (zh) | 语义关键词提取方法及装置 | |
CN107193797B (zh) | 中文微博的热点话题检测及趋势预测方法 | |
Potthast et al. | Overview of the 2nd international competition on plagiarism detection | |
CN103049501B (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN103324745B (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN1977261A (zh) | 用于字序列处理的方法和系统 | |
CN1530857A (zh) | 文档和图案分群的方法及装置 | |
CN101059796A (zh) | 基于概率主题词的两级组合文本分类方法 | |
CN101059805A (zh) | 基于网络流和分层知识库的动态文本聚类方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN101079028A (zh) | 一种统计机器翻译中的在线翻译模型选择方法 | |
CN1828610A (zh) | 一种改进的基于文档结构的文档相似性度量方法 | |
CN101882136B (zh) | 文本情感倾向性分析方法 | |
CN103886077B (zh) | 短文本的聚类方法和系统 | |
CN1719436A (zh) | 一种新的面向文本分类的特征向量权重的方法及装置 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103049470A (zh) | 基于情感相关度的观点检索方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN104331893A (zh) | 一种复杂图像多阈值分割方法 | |
CN103577587A (zh) | 一种新闻主题分类方法 | |
Shi et al. | FuzzyID2: A software package for large data set species identification via barcoding and metabarcoding using hidden Markov models and fuzzy set methods | |
CN1828608A (zh) | 一种基于句子关系图的多文档摘要方法 | |
CN1916904A (zh) | 一种基于文档扩展的单文档摘要方法 | |
CN110609936A (zh) | 一种模糊地址数据智能分类的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220914 Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031 Patentee after: New founder holdings development Co.,Ltd. Patentee after: PEKING University FOUNDER R & D CENTER Patentee after: Peking University Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd. Patentee before: PEKING University FOUNDER R & D CENTER Patentee before: Peking University |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230412 Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District Patentee after: Peking University Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031 Patentee before: New founder holdings development Co.,Ltd. Patentee before: PEKING University FOUNDER R & D CENTER Patentee before: Peking University |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090923 |
|
CF01 | Termination of patent right due to non-payment of annual fee |