CN1828610A - 一种改进的基于文档结构的文档相似性度量方法 - Google Patents
一种改进的基于文档结构的文档相似性度量方法 Download PDFInfo
- Publication number
- CN1828610A CN1828610A CN 200610072588 CN200610072588A CN1828610A CN 1828610 A CN1828610 A CN 1828610A CN 200610072588 CN200610072588 CN 200610072588 CN 200610072588 A CN200610072588 A CN 200610072588A CN 1828610 A CN1828610 A CN 1828610A
- Authority
- CN
- China
- Prior art keywords
- sub
- topics
- sigma
- document
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000011524 similarity measure Methods 0.000 title claims description 20
- 238000013459 approach Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract 1
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 235000012364 Peperomia pellucida Nutrition 0.000 description 2
- 240000007711 Peperomia pellucida Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Cosine | PivotedVSM | BM25 | 最优匹配 | 本发明 | |
MAP | 0.82 | 0.723 | 0.757 | 0.85 | 0.87 |
P@5 | 0.83 | 0.81 | 0.82 | 0.87 | 0.88 |
P@10 | 0.72 | 0.71 | 0.72 | 0.773 | 0.773 |
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100725887A CN100412869C (zh) | 2006-04-13 | 2006-04-13 | 一种改进的基于文档结构的文档相似性度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100725887A CN100412869C (zh) | 2006-04-13 | 2006-04-13 | 一种改进的基于文档结构的文档相似性度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1828610A true CN1828610A (zh) | 2006-09-06 |
CN100412869C CN100412869C (zh) | 2008-08-20 |
Family
ID=36947002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100725887A Expired - Fee Related CN100412869C (zh) | 2006-04-13 | 2006-04-13 | 一种改进的基于文档结构的文档相似性度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100412869C (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279893A (zh) * | 2011-09-19 | 2011-12-14 | 索意互动(北京)信息技术有限公司 | 文献群组多对多自动分析 |
CN101013421B (zh) * | 2007-02-02 | 2012-06-27 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN102789452A (zh) * | 2011-05-16 | 2012-11-21 | 株式会社日立制作所 | 类似内容提取方法 |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103389987A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 文本相似性比较方法及系统 |
CN103399900A (zh) * | 2013-07-25 | 2013-11-20 | 北京京东尚科信息技术有限公司 | 基于位置服务的图片推荐方法 |
CN104899266A (zh) * | 2015-05-22 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种应用推荐方法及装置 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN108959203A (zh) * | 2013-12-18 | 2018-12-07 | 国网江苏省电力有限公司常州供电分公司 | 一种文挡录入并比对的方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11176186B2 (en) | 2020-03-27 | 2021-11-16 | International Business Machines Corporation | Construing similarities between datasets with explainable cognitive methods |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5835893A (en) * | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
US6578031B1 (en) * | 1998-09-30 | 2003-06-10 | Canon Kabushiki Kaisha | Apparatus and method for retrieving vector format data from database in accordance with similarity with input vector |
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
CN1162789C (zh) * | 2001-09-06 | 2004-08-18 | 联想(北京)有限公司 | 通过主题词矫正基于向量空间模型文本相似度计算的方法 |
-
2006
- 2006-04-13 CN CNB2006100725887A patent/CN100412869C/zh not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013421B (zh) * | 2007-02-02 | 2012-06-27 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN102789452A (zh) * | 2011-05-16 | 2012-11-21 | 株式会社日立制作所 | 类似内容提取方法 |
CN102279893A (zh) * | 2011-09-19 | 2011-12-14 | 索意互动(北京)信息技术有限公司 | 文献群组多对多自动分析 |
CN102279893B (zh) * | 2011-09-19 | 2015-07-22 | 索意互动(北京)信息技术有限公司 | 文献群组多对多自动分析 |
CN103389987A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 文本相似性比较方法及系统 |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103399900A (zh) * | 2013-07-25 | 2013-11-20 | 北京京东尚科信息技术有限公司 | 基于位置服务的图片推荐方法 |
CN103399900B (zh) * | 2013-07-25 | 2016-12-28 | 北京京东尚科信息技术有限公司 | 基于位置服务的图片推荐方法 |
CN108959203A (zh) * | 2013-12-18 | 2018-12-07 | 国网江苏省电力有限公司常州供电分公司 | 一种文挡录入并比对的方法 |
CN104899266A (zh) * | 2015-05-22 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种应用推荐方法及装置 |
CN104899266B (zh) * | 2015-05-22 | 2017-10-24 | 广东欧珀移动通信有限公司 | 一种应用推荐方法及装置 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN100412869C (zh) | 2008-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1828610A (zh) | 一种改进的基于文档结构的文档相似性度量方法 | |
CN103049501B (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN1977261A (zh) | 用于字序列处理的方法和系统 | |
CN101055588A (zh) | 获取限制词信息的方法、优化输出的方法和输入法系统 | |
CN1573926A (zh) | 用于文本和语音分类的区别性语言模型训练 | |
CN1920820A (zh) | 基于标注重要性次序的图像语义自动标注方法 | |
CN1758263A (zh) | 基于得分差加权融合的多模态身份识别方法 | |
CN1475907A (zh) | 基于例子的机器翻译系统 | |
CN1612134A (zh) | 分类评估系统、方法和程序 | |
CN1193779A (zh) | 中文语句分词方法及其在中文查错系统中的应用 | |
CN1922632A (zh) | 参考数据优化学习方法及模式识别系统 | |
CN1871597A (zh) | 利用一套消歧技术处理文本的系统和方法 | |
CN1177407A (zh) | 基于速度的手写体识别方法和系统 | |
CN1828632A (zh) | 目标检测装置、学习装置、目标检测系统及目标检测方法 | |
CN1918578A (zh) | 具有自动校正的手写及语音输入 | |
CN1910573A (zh) | 用来识别并分类命名实体的系统 | |
CN1877566A (zh) | 基于现有本体产生新概念的系统和方法 | |
CN105046289B (zh) | 一种文字域类型识别方法和文字域类型识别系统 | |
CN1822000A (zh) | 一种自动检测新闻事件的方法 | |
CN1656371A (zh) | 判定表面缺陷的方法 | |
CN110765266B (zh) | 一种裁判文书相似争议焦点合并方法及系统 | |
CN1091905C (zh) | 文字辨识系统数据库的组建方法 | |
CN1223985C (zh) | 语音识别置信度评价方法和系统及应用该方法的听写装置 | |
CN109918483B (zh) | 匹配招聘职位与求职简历的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220914 Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031 Patentee after: New founder holdings development Co.,Ltd. Patentee after: Peking University Patentee after: PEKING University FOUNDER R & D CENTER Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd. Patentee before: Peking University Patentee before: PEKING University FOUNDER R & D CENTER |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230403 Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District Patentee after: Peking University Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031 Patentee before: New founder holdings development Co.,Ltd. Patentee before: Peking University Patentee before: PEKING University FOUNDER R & D CENTER |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080820 |