CN101067808A - 文本关键词的提取方法 - Google Patents
文本关键词的提取方法 Download PDFInfo
- Publication number
- CN101067808A CN101067808A CN 200710041150 CN200710041150A CN101067808A CN 101067808 A CN101067808 A CN 101067808A CN 200710041150 CN200710041150 CN 200710041150 CN 200710041150 A CN200710041150 A CN 200710041150A CN 101067808 A CN101067808 A CN 101067808A
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- word
- word frequency
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文本关键词的提取方法,它是改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。
Description
技术领域:
本发明涉及一种计算机自动提取文本关键词的方法,更具体地说,涉及对TF-IDF公式提取文本关键词的若干改进方法。
背景技术:
文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精度直接影响到文本知识获取的性能与文本本体建立的质量。
属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识,是该领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影响到文本领域知识获取的性能与领域知识本体建立的效果,从而影响网络资源服务的质量与效果。
单篇文本关键词与多篇文本领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是语义网格与知识网格中语义表示、知识获取与本体建设的最基本元素之一。
目前尚未见对领域关键词的研究论文,而目前主要运用于单个文本关键词提取研究的主要方法有:TF-IDF方法、互信息方法、朴素贝叶斯分类法,最大熵模型法、最大似然性和前缀树等方法等。TF-IDF方法提取关键词的精度还不够高。
发明内容:
本发明的目的在于针对已有技术存在的不足,提供一种改进的文本关键词提取方法,能提高从单篇文本中提取关键词的精度,并能提取同类文本集合中共同领域关键词。
为了达到上述的目的,本发明的构思如下:
本发明就是从分析TF-IDF公式提取关键词的基础上,提出通过篇频修正法提高单篇文本关键词获取精度,通过词频修正法和对比选择法提取同类文本集中共同的领域关键词。
TF-IDF公式的本质就是通过比较,在提取文本中如果一个词的词频越高,而在无关文本中的出现次数越低的话,那么它越有可能成为提取文本中的关键词。但是在TF-IDF公式中,无论一个关键词在一篇无关文本中出现几次,只要出现了,篇频就要加1,例如“grid”一词在被提取的文本中出现30次,但在10篇无关文本中,每篇只出现了一次,但是此时系统得到的篇频是10,而另一个词“service”也在被提取的文本中出现了30次,但在10篇无关文本中,每篇却出现了20次,此时的篇频也是10。我们可以直观地看到“grid”应该比“service”更像关键词,但是在系统计算的时候两者的值是一样的。为了解决以上问题,本发明提出在导入无关文本时,先对每篇无关文本求词频,把词频为1的词删去,即统计篇频时,只考虑关键词出现次数大于等于2的文本数。
领域关键词是多篇同类单篇文本关键词的交集,传统的TF-IDF关键词提取公式虽然可以取得不错的效果,但是在求文本领域关键词时,可能把属于单篇文章的关键词错认为是领域关键词,例如“SARS”一词是某篇描述网格运用于“SARS”研究方面的文章的关键词,因此在这篇文本中“SARS”一词有很高的词频,而且在无关文本中“SARS”出现的频率很低,在进行文本领域(类)关键词提取时,利用TF-IDF公式计算相对词频时,“SARS”一词就会拥有比较高的权重,系统就会认为它是领域关键词。但是事实上“SARS”的确属于该篇文本的关键词,但是它不可能属于网格这类文本的关键词。所以本发明在进行TF-IDF公式提取领域关键词前,先对词频进行修正。
传统的TF-IDF公式提取领域关键词时,是先把每类中的所有文章合并成一篇文章,在统一计算各词的词频,这样的话就引起了上面的错误,因为只要在一篇文本中一个词的绝对词频偏高的话,那么在这个领域中这个词的绝对词频也就偏高,可能导致最后求得的相对词频也偏高。所谓的词频修正法就是在求文本领域关键词的词频时,先在每篇文本求词频,然后再求出每个词在所有文章中的平均词频,最后把该词在每篇文本中的词频逐一与平均词频进行比较,把大于或小于平均词频一定比例的词频出去,再求该词词频的总和,获得一个最终的词频进行TF-IDF公式的计算。
本发明提出用对比选择法提取领域关键词,所谓的对比选择法就是从文本领域关键词的定义出发,先对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词。共同拥有率指的是在领域关键词提取时,某一单词为单篇文本关键词的次数与所有属于该领域的文本数之比。
根据上述的发明构思,本发明采用下述技术方案:
一种文本关键词提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。
上述的篇频修正法就是去除无关文本集中所有出现频率为1的词,获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词;其具体步骤如下:
(1)打开训练文本集中的一篇无关文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计所有实词出现的绝对频率;
(5)删除绝对词频为1的实词;
(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。
上述的词频修正法就是在求领域关键词的词频时,先对每篇文本求词频,然后在求出每个词在所有文档中的平均词频,最后把该词在每篇文档中的词频逐一与平均词频进行比较,一定比例地除去大于或小于平均词频的词频,再求该词词频的总和,获得一个最终的词频,对同类文本集合运用TF-IDF公式提取领域关键词;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计一个实词出现的平均词频;
(5)删除超过平均词频一定范围的所在文本中的词频;
(6)求和剩余词频;
(7)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词。
上述的对比选择法就是提取同类文本集合中共同的领域关键词的方法,先对每篇文本运用TF-IDF公式,求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,共同拥有率是指:在领域关键词提取时,某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)预处理(分词、词性标注);
(3)通过“废词”表,提取有意义的实词;
(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;
(5)统计所有实词的共同拥有率;
(6)选择共同拥有率高于设定阈值的关键词为领域关键词。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和优点:
本发明在TF-IDF方法提取关键词的基础上,通过篇频修正法、词频修正法和对比选择法提高从单篇文本提取关键词的精度,或提取同类文本集合中共同的领域关键词。本发明的特征在于能有效地避免在无关文档中仅出现一次的关键词被统计到篇频中;通过以一个关键词在所有文档中的平均词频为阈值,去除出现该关键词过大或过小的文档后,得到的绝对词频之和作为修正后的词频,用于提取领域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词;通过对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。该方法可以有效地提高单篇文本的关键词提取精度,或提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。
附图说明:
图1是篇频修正法提取关键词程序流程图。
图2是词频修正法提取关键词程序流程图。
图3是对比选择法提取关键词程序流程图。
具体实施方式:
本发明的一个优选实施例结合附图详述如下:
现有的关键词提取方法是通过TF-IDF公式计算单篇文本中有意义的实词(动词,名词)在文本中的权重,通过降序排列权重筛选单篇文本的关键词。
在TF-IDF公式中,绝对词频,即词在文本中出现的频率。相对词频为归一化的词频(即词的权重),其计算方法是TF-IDF公式,即
为了提高提取关键词的精度,预先设定了一个“废词”文本,其中包含一些常用的动词、副词和形容词(如:this,that,is等),这些词都不可能是所需的关键词,对于关键词而言,它们都是些“废词”。
对于提取单篇文本的关键词,本实施例的篇频修正法具体流程如图1所示,步骤如下:
S1打开训练文本集中的一篇无关文档;
S2分词、词性标注;
S3通过“废词”表,提取有意义的实词;
S4统计所有实词出现的绝对频率;
S5删除绝对词频为1的实词;
S6用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。
对于提取同类文本集共同的领域关键词,本实施例的词频修正法具体流程如图2所示,步骤如下:
S1打开同类文本集中的所有文档;
S2分词、词性标注;
S3通过“废词”表,提取有意义的实词;
S4统计一个实词出现的平均词频;
S5删除超过平均词频一定范围的所在文本中的词频;
S6求和剩余词频;
S7用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词。
例如词A在同一类的四篇文章中的词频分别四40,5,10,5,它的平均词频就是15。定义比例为0.8,那么系统就会对词频在15±15*0.8范围内的词频进行求和,那么40将被舍去,最终词A的绝对词频就是20,用这个值来计算最后的相对词频,提取关键词。
对于提取同类文本集共同的领域关键词,本实施例的对比选择法具体流程如图3所示,步骤如下:
S1打开同类文本集中的所有文档;
S2预处理(分词、词性标注);
S3通过“废词”表,提取有意义的实词;
S4用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;
S5统计所有实词的共同拥有率;
S6选择共同拥有率高于设定阈值的关键词为领域关键词。
例如,一个领域中有10篇文本,关键词A是其中6篇文本的关键词,那么类共同拥有率就是6/10=0.6。
Claims (4)
1.一种文本关键词的提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。
2.按权利要求1所述的文本关键词的提取方法,其特征在于所述的篇频修正法就是去除无关文本集中所有出现频率为1的词,获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词;其具体步骤如下:
(1)打开训练文本集中的一篇无关文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计所有实词出现的绝对频率;
(5)删除绝对词频为1的实词;
(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。
3.按权利要求1所述的文本关键词的提取方法,其特征在于所述的词频修正法就是在求领域关键词的词频时,先对每篇文本求词频,然后在求出每个词在所有文档中的平均词频,最后把该词在每篇文档中的词频逐一与平均词频进行比较,一定比例地除去大于或小于平均词频的词频,再求该词词频的总和,获得一个最终的词频,对同类文本集合运用TF-IDF公式提取领域关键词;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计一个实词出现的平均词频;
(5)删除超过平均词频一定范围的所在文本中的词频;
(6)求和剩余词频;
(7)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词。
4.按权利要求1所述的文本关键词的提取方法,其特征在于所述的对比选择法就是提取同类文本集合中共同的领域关键词的方法,先对每篇文本运用TF-IDF公式,求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,共同拥有率是指:在领域关键词提取时,某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)预处理(分词、词性标注);
(3)通过“废词”表,提取有意义的实词;
(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;
(5)统计所有实词的共同拥有率;
(6)选择共同拥有率高于设定阈值的关键词为领域关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100411507A CN101067808B (zh) | 2007-05-24 | 2007-05-24 | 文本关键词的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100411507A CN101067808B (zh) | 2007-05-24 | 2007-05-24 | 文本关键词的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101067808A true CN101067808A (zh) | 2007-11-07 |
CN101067808B CN101067808B (zh) | 2010-12-15 |
Family
ID=38880371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100411507A Expired - Fee Related CN101067808B (zh) | 2007-05-24 | 2007-05-24 | 文本关键词的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101067808B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101968801A (zh) * | 2010-09-21 | 2011-02-09 | 上海大学 | 一种单篇文本关键词的提取方法 |
US8180772B2 (en) | 2008-02-26 | 2012-05-15 | Sharp Kabushiki Kaisha | Electronic data retrieving apparatus |
CN101645083B (zh) * | 2009-01-16 | 2012-07-04 | 中国科学院声学研究所 | 一种基于概念符号的文本领域的获取系统及方法 |
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
CN101404036B (zh) * | 2008-11-07 | 2012-09-05 | 西安交通大学 | PowerPoint电子演示文稿的关键词抽取方法 |
CN102682049A (zh) * | 2011-10-31 | 2012-09-19 | 天脉聚源(北京)传媒科技有限公司 | 一种文本的候选关键词的提取方法 |
CN103064838A (zh) * | 2011-10-19 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN103226546A (zh) * | 2013-04-15 | 2013-07-31 | 北京邮电大学 | 一种基于分词和词性分析的后缀树聚类方法 |
CN103336765A (zh) * | 2013-06-20 | 2013-10-02 | 上海大学 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
CN103514213A (zh) * | 2012-06-28 | 2014-01-15 | 华为技术有限公司 | 词语提取方法及装置 |
CN103530344A (zh) * | 2013-10-09 | 2014-01-22 | 上海大学 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
CN103744837A (zh) * | 2014-01-23 | 2014-04-23 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
CN104750704A (zh) * | 2013-12-26 | 2015-07-01 | 中国移动通信集团河南有限公司 | 一种网页url地址分类识别方法及装置 |
CN104951430A (zh) * | 2014-03-27 | 2015-09-30 | 携程计算机技术(上海)有限公司 | 产品特征标签的提取方法及装置 |
CN105159998A (zh) * | 2015-09-08 | 2015-12-16 | 海南大学 | 一种基于文档聚类关键词计算方法 |
CN105224521A (zh) * | 2015-09-28 | 2016-01-06 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105354182A (zh) * | 2015-09-28 | 2016-02-24 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN105956031A (zh) * | 2016-04-25 | 2016-09-21 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
CN108021558A (zh) * | 2017-12-27 | 2018-05-11 | 北京金山安全软件有限公司 | 关键词的识别方法、装置、电子设备和存储介质 |
CN108427686A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 文本数据查询方法及装置 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109145307A (zh) * | 2018-09-12 | 2019-01-04 | 广州视源电子科技股份有限公司 | 用户画像识别方法、推送方法、装置、设备和存储介质 |
CN109241525A (zh) * | 2018-08-20 | 2019-01-18 | 深圳追科技有限公司 | 关键词的提取方法、装置和系统 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN110222174A (zh) * | 2019-05-20 | 2019-09-10 | 北京语言大学 | 一种基于词条作品热度构建分类分级词表的方法及系统 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN111161819A (zh) * | 2019-12-31 | 2020-05-15 | 重庆亚德科技股份有限公司 | 一种中医病历数据处理系统及方法 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
CN112491649A (zh) * | 2020-11-17 | 2021-03-12 | 中国平安财产保险股份有限公司 | 接口联调测试方法、装置、电子设备及存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2844071A1 (fr) * | 2002-09-04 | 2004-03-05 | France Telecom | Systeme de gestion d'informations en fonction de donnees specifiees dans un agenda electronique |
CN1245696C (zh) * | 2003-06-13 | 2006-03-15 | 北京大学计算机科学技术研究所 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
CN100353361C (zh) * | 2004-07-09 | 2007-12-05 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
-
2007
- 2007-05-24 CN CN2007100411507A patent/CN101067808B/zh not_active Expired - Fee Related
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180772B2 (en) | 2008-02-26 | 2012-05-15 | Sharp Kabushiki Kaisha | Electronic data retrieving apparatus |
CN101404036B (zh) * | 2008-11-07 | 2012-09-05 | 西安交通大学 | PowerPoint电子演示文稿的关键词抽取方法 |
CN101645083B (zh) * | 2009-01-16 | 2012-07-04 | 中国科学院声学研究所 | 一种基于概念符号的文本领域的获取系统及方法 |
CN101968801A (zh) * | 2010-09-21 | 2011-02-09 | 上海大学 | 一种单篇文本关键词的提取方法 |
CN103064838B (zh) * | 2011-10-19 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN103064838A (zh) * | 2011-10-19 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN102682049A (zh) * | 2011-10-31 | 2012-09-19 | 天脉聚源(北京)传媒科技有限公司 | 一种文本的候选关键词的提取方法 |
CN102682049B (zh) * | 2011-10-31 | 2014-04-23 | 天脉聚源(北京)传媒科技有限公司 | 一种文本的候选关键词的提取方法 |
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
CN103514213B (zh) * | 2012-06-28 | 2016-12-21 | 华为技术有限公司 | 词语提取方法及装置 |
CN103514213A (zh) * | 2012-06-28 | 2014-01-15 | 华为技术有限公司 | 词语提取方法及装置 |
CN103226546A (zh) * | 2013-04-15 | 2013-07-31 | 北京邮电大学 | 一种基于分词和词性分析的后缀树聚类方法 |
CN103336765B (zh) * | 2013-06-20 | 2016-04-27 | 上海大学 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
CN103336765A (zh) * | 2013-06-20 | 2013-10-02 | 上海大学 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
CN103530344A (zh) * | 2013-10-09 | 2014-01-22 | 上海大学 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
CN104750704A (zh) * | 2013-12-26 | 2015-07-01 | 中国移动通信集团河南有限公司 | 一种网页url地址分类识别方法及装置 |
CN104750704B (zh) * | 2013-12-26 | 2018-06-26 | 中国移动通信集团河南有限公司 | 一种网页url地址分类识别方法及装置 |
CN103744837A (zh) * | 2014-01-23 | 2014-04-23 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN103744837B (zh) * | 2014-01-23 | 2017-01-04 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN104951430A (zh) * | 2014-03-27 | 2015-09-30 | 携程计算机技术(上海)有限公司 | 产品特征标签的提取方法及装置 |
CN104951430B (zh) * | 2014-03-27 | 2019-03-12 | 上海携程商务有限公司 | 产品特征标签的提取方法及装置 |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
CN105159998A (zh) * | 2015-09-08 | 2015-12-16 | 海南大学 | 一种基于文档聚类关键词计算方法 |
CN105354182B (zh) * | 2015-09-28 | 2018-06-26 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105354182A (zh) * | 2015-09-28 | 2016-02-24 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105224521A (zh) * | 2015-09-28 | 2016-01-06 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105224521B (zh) * | 2015-09-28 | 2018-05-25 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN105956031A (zh) * | 2016-04-25 | 2016-09-21 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
CN108427686A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 文本数据查询方法及装置 |
CN108021558A (zh) * | 2017-12-27 | 2018-05-11 | 北京金山安全软件有限公司 | 关键词的识别方法、装置、电子设备和存储介质 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109062895B (zh) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109241525A (zh) * | 2018-08-20 | 2019-01-18 | 深圳追科技有限公司 | 关键词的提取方法、装置和系统 |
CN109145307A (zh) * | 2018-09-12 | 2019-01-04 | 广州视源电子科技股份有限公司 | 用户画像识别方法、推送方法、装置、设备和存储介质 |
CN109145307B (zh) * | 2018-09-12 | 2022-09-13 | 广州视源电子科技股份有限公司 | 用户画像识别方法、推送方法、装置、设备和存储介质 |
CN110222174A (zh) * | 2019-05-20 | 2019-09-10 | 北京语言大学 | 一种基于词条作品热度构建分类分级词表的方法及系统 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN111161819A (zh) * | 2019-12-31 | 2020-05-15 | 重庆亚德科技股份有限公司 | 一种中医病历数据处理系统及方法 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
CN112491649A (zh) * | 2020-11-17 | 2021-03-12 | 中国平安财产保险股份有限公司 | 接口联调测试方法、装置、电子设备及存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
CN116978384B (zh) * | 2023-09-25 | 2024-01-02 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101067808B (zh) | 2010-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101067808A (zh) | 文本关键词的提取方法 | |
CN1226717C (zh) | 自动新词提取方法和系统 | |
CN101059796A (zh) | 基于概率主题词的两级组合文本分类方法 | |
CN102207961B (zh) | 一种网页自动分类方法及装置 | |
CN1873642A (zh) | 具有自动分类功能的搜索引擎 | |
CN103198057A (zh) | 一种自动给文档添加标签的方法和装置 | |
CN1163841C (zh) | 在线手写中文字识别装置 | |
CN105260359A (zh) | 语义关键词提取方法及装置 | |
CN1193779A (zh) | 中文语句分词方法及其在中文查错系统中的应用 | |
CN101034395A (zh) | 一种待译文件处理系统及使用这种系统的文件处理方法 | |
CN1145899C (zh) | 为文字文档自动生成摘要的方法 | |
CN103955453B (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN102184186A (zh) | 基于多特征自适应融合的图像检索方法 | |
CN103064984B (zh) | 垃圾网页的识别方法及系统 | |
CN105224604A (zh) | 一种基于堆优化的微博突发事件检测方法及其检测装置 | |
CN102955812B (zh) | 一种构建索引库的方法、装置及查询方法和装置 | |
CN101046809A (zh) | 基于关联规则模式的新词识别方法 | |
CN101788988A (zh) | 信息抓取方法 | |
CN103577587A (zh) | 一种新闻主题分类方法 | |
CN1499403A (zh) | 计算机辅助分析专利数据方法及其系统 | |
CN1503164A (zh) | 信息处理装置、用于实现该信息处理装置的程序 | |
CN1797301A (zh) | 数字化信息搜索方法及其系统 | |
CN1342942A (zh) | 中文姓名的计算机识别及检索方法 | |
CN1641634A (zh) | 一种中文新词语的检测方法及其检测系统 | |
CN1614607A (zh) | 垃圾邮件过滤的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101215 Termination date: 20150524 |
|
EXPY | Termination of patent right or utility model |