CN101464898B - 一种提取文本主题词的方法 - Google Patents
一种提取文本主题词的方法 Download PDFInfo
- Publication number
- CN101464898B CN101464898B CN2009100015788A CN200910001578A CN101464898B CN 101464898 B CN101464898 B CN 101464898B CN 2009100015788 A CN2009100015788 A CN 2009100015788A CN 200910001578 A CN200910001578 A CN 200910001578A CN 101464898 B CN101464898 B CN 101464898B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- subject
- words
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001914 filtration Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 36
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 239000000047 product Substances 0.000 claims description 4
- 239000012467 final product Substances 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 description 6
- 230000010365 information processing Effects 0.000 description 6
- 238000003672 processing method Methods 0.000 description 5
- 210000004443 dendritic cell Anatomy 0.000 description 3
- 238000007429 general method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000035929 gnawing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100015788A CN101464898B (zh) | 2009-01-12 | 2009-01-12 | 一种提取文本主题词的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100015788A CN101464898B (zh) | 2009-01-12 | 2009-01-12 | 一种提取文本主题词的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101464898A CN101464898A (zh) | 2009-06-24 |
CN101464898B true CN101464898B (zh) | 2011-09-21 |
Family
ID=40805473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100015788A Active CN101464898B (zh) | 2009-01-12 | 2009-01-12 | 一种提取文本主题词的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101464898B (zh) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101694670B (zh) * | 2009-10-20 | 2012-07-04 | 北京航空航天大学 | 一种基于公共子串的中文Web文档在线聚类方法 |
CN102053978B (zh) * | 2009-10-27 | 2014-04-30 | 深圳市世纪光速信息技术有限公司 | 单句的主题词提取方法和装置 |
CN102073647B (zh) * | 2009-11-23 | 2013-12-11 | 北京科技大学 | 一种面向e-Science环境的多领域Web文本特征抽取系统及方法 |
CN102129422B (zh) * | 2010-01-14 | 2015-10-14 | 富士通株式会社 | 模板提取方法和装置 |
CN102467548B (zh) * | 2010-11-15 | 2015-09-16 | 腾讯科技(深圳)有限公司 | 一种新词的识别方法及系统 |
CN101986308B (zh) * | 2010-11-16 | 2013-07-31 | 传神联合(北京)信息技术有限公司 | 一种术语快速标注方法 |
CN102646100B (zh) * | 2011-02-21 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 领域词获取方法及系统 |
CN102737017B (zh) * | 2011-03-31 | 2015-03-11 | 北京百度网讯科技有限公司 | 一种提取页面主题的方法和装置 |
CN102955771A (zh) * | 2011-08-18 | 2013-03-06 | 华东师范大学 | 中文单字串模式和词缀模式的新词自动识别技术及系统 |
CN103544165A (zh) * | 2012-07-12 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 新词挖掘方法和系统 |
CN102930055B (zh) * | 2012-11-18 | 2015-11-04 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103049548B (zh) * | 2012-12-27 | 2016-08-10 | 科大讯飞股份有限公司 | 电子渠道应用上的faq识别系统及方法 |
CN103077164B (zh) * | 2012-12-27 | 2016-05-11 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103150371B (zh) * | 2013-03-08 | 2016-06-29 | 北京理工大学 | 正反向训练去混淆文本检索方法 |
CN103207921A (zh) * | 2013-04-28 | 2013-07-17 | 福州大学 | 一种从中文电子文档中自动提取词语的方法 |
CN103390044B (zh) * | 2013-07-19 | 2017-02-08 | 百度在线网络技术(北京)有限公司 | 一种连锁类兴趣点数据识别方法及装置 |
CN103400175B (zh) * | 2013-07-31 | 2017-02-08 | 贝壳网际(北京)安全技术有限公司 | 图形识别码处理方法及装置 |
CN103678656A (zh) * | 2013-12-23 | 2014-03-26 | 合肥工业大学 | 一种基于重复字串的微博新词非监督自动抽取方法 |
CN104750665B (zh) * | 2013-12-30 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 文本信息的处理方法和装置 |
CN104778184A (zh) * | 2014-01-15 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 一种确定反馈关键词的方法和装置 |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
CN104915359B (zh) * | 2014-03-14 | 2019-05-28 | 华为技术有限公司 | 主题标签推荐方法及装置 |
CN105095223B (zh) * | 2014-04-25 | 2018-09-11 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN103955453B (zh) * | 2014-05-23 | 2017-09-29 | 清华大学 | 一种从文档集中自动发现新词的方法及装置 |
CN104462758B (zh) * | 2014-11-03 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 观测字符串的标注序列生成方法及装置 |
CN104572927B (zh) * | 2014-12-29 | 2016-06-29 | 北京奇虎科技有限公司 | 一种从单页面中提取小说名称的方法和装置 |
CN104598231B (zh) * | 2015-01-09 | 2018-07-20 | 山东工商学院 | Python源代码文件相似性检测方法 |
CN106294517A (zh) * | 2015-06-12 | 2017-01-04 | 富士通株式会社 | 信息处理装置及方法 |
CN106326246B (zh) * | 2015-06-19 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种基于数据支持的应用系统构建方法及装置 |
CN105138537B (zh) * | 2015-07-08 | 2018-12-07 | 上海大学 | 基于自信息的跨学科领域共现主题发现方法 |
CN106354730B (zh) * | 2015-07-16 | 2019-12-10 | 北京国双科技有限公司 | 网页解析中网页正文重复内容的识别方法及装置 |
CN105184713A (zh) * | 2015-07-17 | 2015-12-23 | 四川久远银海软件股份有限公司 | 一种利于医保药品对照的智能匹配排序系统及方法 |
CN106372089B (zh) * | 2015-07-23 | 2019-09-20 | 北京国双科技有限公司 | 确定词语位置的方法及装置 |
CN106372038A (zh) * | 2015-07-23 | 2017-02-01 | 北京国双科技有限公司 | 关键词的抽取方法及装置 |
CN106407175A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 新词发现中字符串的处理方法及装置 |
CN106815190B (zh) * | 2015-11-27 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 一种词语识别方法、装置及服务器 |
CN105512109B (zh) * | 2015-12-11 | 2019-04-16 | 北京锐安科技有限公司 | 新词汇的发现方法及装置 |
CN105573981B (zh) * | 2015-12-17 | 2018-09-07 | 厦门市美亚柏科信息股份有限公司 | 一种提取中文人名地名的方法及装置 |
CN106919603B (zh) * | 2015-12-25 | 2020-12-04 | 北京奇虎科技有限公司 | 计算查询词模式中分词权重的方法和装置 |
CN105760471B (zh) * | 2016-02-06 | 2019-04-19 | 北京工业大学 | 基于组合凸线性感知器的两类文本分类方法 |
CN107203542A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 词组提取方法及装置 |
CN106445915B (zh) * | 2016-09-14 | 2020-04-28 | 安徽科大讯飞医疗信息技术有限公司 | 一种新词发现方法及装置 |
CN107885717B (zh) * | 2016-09-30 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法及装置 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN108021545B (zh) * | 2016-11-03 | 2021-08-10 | 北京国双科技有限公司 | 一种司法文书的案由提取方法及装置 |
CN106547742B (zh) * | 2016-11-30 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析结果处理方法和装置 |
CN108345605B (zh) * | 2017-01-24 | 2022-04-05 | 苏宁易购集团股份有限公司 | 一种文本搜索方法及装置 |
CN107577671B (zh) * | 2017-09-19 | 2020-09-22 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN110019806B (zh) * | 2017-12-25 | 2021-08-06 | 中移动信息技术有限公司 | 一种文档聚类方法及设备 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN110750682B (zh) * | 2018-07-06 | 2022-08-16 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及系统 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN109145300B (zh) * | 2018-08-17 | 2022-08-16 | 武汉斗鱼网络科技有限公司 | 一种搜索文本的纠正方法、装置及终端 |
CN111832310B (zh) * | 2019-04-23 | 2024-04-16 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN112528666A (zh) * | 2019-08-30 | 2021-03-19 | 北京猎户星空科技有限公司 | 一种语义识别方法、装置及电子设备 |
CN110705275B (zh) * | 2019-09-18 | 2023-04-25 | 东软集团股份有限公司 | 主题词提取方法、装置、存储介质及电子设备 |
CN110826322A (zh) * | 2019-10-22 | 2020-02-21 | 中电科大数据研究院有限公司 | 一种新词发现和词性预测及标注的方法 |
CN111310072B (zh) * | 2020-01-17 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和计算机可读存储介质 |
CN111400439A (zh) * | 2020-02-26 | 2020-07-10 | 平安科技(深圳)有限公司 | 网络不良数据监控方法、装置及存储介质 |
CN111444413B (zh) * | 2020-04-08 | 2023-05-12 | 作业不凡(北京)教育科技有限公司 | 一种数据查询方法、装置和计算设备 |
CN113534973B (zh) * | 2020-04-16 | 2024-08-02 | 北京搜狗科技发展有限公司 | 输入方法、装置和用于输入的装置 |
CN112084775B (zh) * | 2020-09-10 | 2021-09-07 | 中航华东光电(上海)有限公司 | 一种语音转换后文本纠错方法 |
CN112966505B (zh) * | 2021-01-21 | 2021-10-15 | 哈尔滨工业大学 | 一种从文本语料中提取持续性热点短语的方法、装置及存储介质 |
CN112863278B (zh) * | 2021-02-09 | 2022-07-01 | 柳州智视科技有限公司 | 一种题目条件替换后的解题方法 |
CN112668331A (zh) * | 2021-03-18 | 2021-04-16 | 北京沃丰时代数据科技有限公司 | 一种专有词挖掘方法、装置、电子设备及存储介质 |
CN114333774B (zh) * | 2021-12-15 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN115840799B (zh) * | 2023-02-24 | 2023-05-02 | 南通专猎网络科技有限公司 | 一种基于深度学习的知识产权综合管理系统 |
CN115982311B (zh) * | 2023-03-21 | 2023-06-20 | 广东海洋大学 | 一种链表的生成方法、装置、终端设备及存储介质 |
CN116631550B (zh) * | 2023-07-26 | 2023-11-28 | 深圳爱递医药科技有限公司 | 一种临床试验的数据管理及逻辑核查方法及其医疗系统 |
-
2009
- 2009-01-12 CN CN2009100015788A patent/CN101464898B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101464898A (zh) | 2009-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101464898B (zh) | 一种提取文本主题词的方法 | |
Qaroush et al. | An efficient single document Arabic text summarization using a combination of statistical and semantic features | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
Feng et al. | Accessor variety criteria for Chinese word extraction | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
US20110196670A1 (en) | Indexing content at semantic level | |
US20110029513A1 (en) | Method for Determining Document Relevance | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
JP2001034623A (ja) | 情報検索方法と情報検索装置 | |
Sabuna et al. | Summarizing Indonesian text automatically by using sentence scoring and decision tree | |
WO2003012661A1 (en) | Computer based summarization of natural language documents | |
CN101685455A (zh) | 数据检索的方法和系统 | |
WO2009094586A1 (en) | Phrase based snippet generation | |
CN104156452A (zh) | 一种网页文本摘要生成方法和装置 | |
CN107092675B (zh) | 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法 | |
CN105488077A (zh) | 生成内容标签的方法和装置 | |
CN109255022B (zh) | 一种用于网络文章的摘要自动提取方法 | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
Kallimani et al. | Summarizing news paper articles: experiments with ontology-based, customized, extractive text summary and word scoring | |
Tasharofi et al. | Evaluation of statistical part of speech tagging of Persian text | |
Rathod | Extractive text summarization of Marathi news articles | |
Tomar et al. | Probabilistic latent semantic analysis for unsupervised word sense disambiguation | |
Hassel | Evaluation of automatic text summarization | |
CN110162791B (zh) | 一种面向国防科技领域的文本关键词提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD. Effective date: 20131024 |
|
C41 | Transfer of patent application or patent right or utility model | ||
COR | Change of bibliographic data |
Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE |
|
TR01 | Transfer of patent right |
Effective date of registration: 20131024 Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd. Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |