CN102662952A - 一种基于层次的中文文本并行数据挖掘方法 - Google Patents
一种基于层次的中文文本并行数据挖掘方法 Download PDFInfo
- Publication number
- CN102662952A CN102662952A CN2012100521245A CN201210052124A CN102662952A CN 102662952 A CN102662952 A CN 102662952A CN 2012100521245 A CN2012100521245 A CN 2012100521245A CN 201210052124 A CN201210052124 A CN 201210052124A CN 102662952 A CN102662952 A CN 102662952A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- characteristic
- frequency
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210052124.5A CN102662952B (zh) | 2012-03-02 | 2012-03-02 | 一种基于层次的中文文本并行数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210052124.5A CN102662952B (zh) | 2012-03-02 | 2012-03-02 | 一种基于层次的中文文本并行数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102662952A true CN102662952A (zh) | 2012-09-12 |
CN102662952B CN102662952B (zh) | 2015-04-15 |
Family
ID=46772443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210052124.5A Active CN102662952B (zh) | 2012-03-02 | 2012-03-02 | 一种基于层次的中文文本并行数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102662952B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103294780A (zh) * | 2013-05-13 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 一种目录映射关系挖掘方法和装置 |
CN103593339A (zh) * | 2013-11-29 | 2014-02-19 | 哈尔滨工业大学深圳研究生院 | 面向电子图书的语义空间表示方法及系统 |
CN103885989A (zh) * | 2012-12-24 | 2014-06-25 | 腾讯科技(武汉)有限公司 | 预估新词文档频率的方法及装置 |
CN104035969A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN105022740A (zh) * | 2014-04-23 | 2015-11-04 | 苏州易维迅信息科技有限公司 | 非结构化数据的处理方法和装置 |
CN105335400A (zh) * | 2014-07-22 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 针对用户的提问意图获取答案信息的方法及装置 |
CN105630809A (zh) * | 2014-10-31 | 2016-06-01 | 中国移动通信集团公司 | 一种基于支持向量机的文本情感分析方法及设备 |
CN105956072A (zh) * | 2016-04-29 | 2016-09-21 | 广州优视网络科技有限公司 | 一种应用程序的相关推荐列表的生成方法及装置 |
CN105956083A (zh) * | 2016-04-29 | 2016-09-21 | 广州优视网络科技有限公司 | 应用软件分类系统、应用软件分类方法及服务器 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106294689A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN106528766A (zh) * | 2016-11-04 | 2017-03-22 | 北京云知声信息技术有限公司 | 相似歌曲推荐方法及装置 |
CN107644104A (zh) * | 2017-10-17 | 2018-01-30 | 北京锐安科技有限公司 | 一种文本特征提取方法及系统 |
CN107679075A (zh) * | 2017-08-25 | 2018-02-09 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107688576A (zh) * | 2016-08-04 | 2018-02-13 | 中国科学院声学研究所 | 一种cnn‑svm模型的构建及倾向性分类方法 |
CN108604224A (zh) * | 2016-01-28 | 2018-09-28 | 皇家飞利浦有限公司 | 用于缩减数据集的数据缩减 |
CN109446322A (zh) * | 2018-10-15 | 2019-03-08 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN110244186A (zh) * | 2019-07-08 | 2019-09-17 | 国网天津市电力公司 | 一种基于孤立点检测算法的电缆故障预测报警方法 |
CN111078862A (zh) * | 2019-12-06 | 2020-04-28 | 武汉理工大学 | 一种高校院所科技成果主动推送方法及装置 |
US10755594B2 (en) | 2015-11-20 | 2020-08-25 | Chrysus Intellectual Properties Limited | Method and system for analyzing a piece of text |
CN113255342A (zh) * | 2021-06-11 | 2021-08-13 | 云南大学 | 一种5g移动业务产品名称识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1558367A (zh) * | 2004-01-16 | 2004-12-29 | 清华大学 | 中文文本自动分类用的特征降维方法 |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN101763431A (zh) * | 2010-01-06 | 2010-06-30 | 电子科技大学 | 基于海量网络舆情信息的pl聚类处理方法 |
US20110137921A1 (en) * | 2009-12-09 | 2011-06-09 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
-
2012
- 2012-03-02 CN CN201210052124.5A patent/CN102662952B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1558367A (zh) * | 2004-01-16 | 2004-12-29 | 清华大学 | 中文文本自动分类用的特征降维方法 |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
US20110137921A1 (en) * | 2009-12-09 | 2011-06-09 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
CN101763431A (zh) * | 2010-01-06 | 2010-06-30 | 电子科技大学 | 基于海量网络舆情信息的pl聚类处理方法 |
Non-Patent Citations (1)
Title |
---|
刘延吉: "基于词典的中文分词歧义算法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885989A (zh) * | 2012-12-24 | 2014-06-25 | 腾讯科技(武汉)有限公司 | 预估新词文档频率的方法及装置 |
CN103885989B (zh) * | 2012-12-24 | 2017-12-01 | 腾讯科技(武汉)有限公司 | 预估新词文档频率的方法及装置 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103279478B (zh) * | 2013-04-19 | 2016-08-10 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103294780B (zh) * | 2013-05-13 | 2017-02-08 | 百度在线网络技术(北京)有限公司 | 一种目录映射关系挖掘方法和装置 |
CN103294780A (zh) * | 2013-05-13 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 一种目录映射关系挖掘方法和装置 |
CN103593339A (zh) * | 2013-11-29 | 2014-02-19 | 哈尔滨工业大学深圳研究生院 | 面向电子图书的语义空间表示方法及系统 |
CN105022740A (zh) * | 2014-04-23 | 2015-11-04 | 苏州易维迅信息科技有限公司 | 非结构化数据的处理方法和装置 |
CN104035969A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN104035969B (zh) * | 2014-05-20 | 2017-11-03 | 微梦创科网络科技(中国)有限公司 | 社交网络中的特征词库构建方法和系统 |
CN105335400B (zh) * | 2014-07-22 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 针对用户的提问意图获取答案信息的方法及装置 |
CN105335400A (zh) * | 2014-07-22 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 针对用户的提问意图获取答案信息的方法及装置 |
CN105630809A (zh) * | 2014-10-31 | 2016-06-01 | 中国移动通信集团公司 | 一种基于支持向量机的文本情感分析方法及设备 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
US10755594B2 (en) | 2015-11-20 | 2020-08-25 | Chrysus Intellectual Properties Limited | Method and system for analyzing a piece of text |
CN108604224A (zh) * | 2016-01-28 | 2018-09-28 | 皇家飞利浦有限公司 | 用于缩减数据集的数据缩减 |
CN108604224B (zh) * | 2016-01-28 | 2023-11-17 | 皇家飞利浦有限公司 | 用于缩减数据集的数据缩减 |
CN105956083A (zh) * | 2016-04-29 | 2016-09-21 | 广州优视网络科技有限公司 | 应用软件分类系统、应用软件分类方法及服务器 |
CN105956072A (zh) * | 2016-04-29 | 2016-09-21 | 广州优视网络科技有限公司 | 一种应用程序的相关推荐列表的生成方法及装置 |
CN107688576B (zh) * | 2016-08-04 | 2020-06-16 | 中国科学院声学研究所 | 一种cnn-svm模型的构建及倾向性分类方法 |
CN107688576A (zh) * | 2016-08-04 | 2018-02-13 | 中国科学院声学研究所 | 一种cnn‑svm模型的构建及倾向性分类方法 |
CN106294689B (zh) * | 2016-08-05 | 2018-09-25 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN106294689A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106528766A (zh) * | 2016-11-04 | 2017-03-22 | 北京云知声信息技术有限公司 | 相似歌曲推荐方法及装置 |
CN107679075B (zh) * | 2017-08-25 | 2020-06-02 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107679075A (zh) * | 2017-08-25 | 2018-02-09 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107644104A (zh) * | 2017-10-17 | 2018-01-30 | 北京锐安科技有限公司 | 一种文本特征提取方法及系统 |
CN109446322A (zh) * | 2018-10-15 | 2019-03-08 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN110244186A (zh) * | 2019-07-08 | 2019-09-17 | 国网天津市电力公司 | 一种基于孤立点检测算法的电缆故障预测报警方法 |
CN110244186B (zh) * | 2019-07-08 | 2020-09-01 | 国网天津市电力公司 | 一种基于孤立点检测算法的电缆故障预测报警方法 |
CN111078862A (zh) * | 2019-12-06 | 2020-04-28 | 武汉理工大学 | 一种高校院所科技成果主动推送方法及装置 |
CN113255342A (zh) * | 2021-06-11 | 2021-08-13 | 云南大学 | 一种5g移动业务产品名称识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102662952B (zh) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102662952A (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
Stamatatos et al. | Clustering by authorship within and across documents | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN108829658B (zh) | 新词发现的方法及装置 | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
CN103207905B (zh) | 一种基于目标文本的计算文本相似度的方法 | |
Kherwa et al. | An approach towards comprehensive sentimental data analysis and opinion mining | |
CN105426539A (zh) | 一种基于词典的lucene中文分词方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
García et al. | A lexicon based sentiment analysis retrieval system for tourism domain | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN105320646A (zh) | 一种基于增量聚类的新闻话题挖掘方法及其装置 | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN104462378A (zh) | 用于文本识别的数据处理方法及装置 | |
CN108875040A (zh) | 词典更新方法及计算机可读存储介质 | |
CN103049569A (zh) | 基于向量空间模型的文本相似性匹配方法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN103377239A (zh) | 计算文本间相似度的方法和装置 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN102955857A (zh) | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 | |
CN106649222A (zh) | 基于语义分析与多重Simhash的文本近似重复检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB02 | Change of applicant information |
Address after: 610054 information industry building, 159 East Ring Road, Chengdu, Chenghua District, Sichuan Applicant after: Chengdu Comsys Information Technology Co., Ltd. Address before: 610054 information industry building, 159 East Ring Road, Chengdu, Chenghua District, Sichuan Applicant before: Uestc Comsys Information Co., Ltd. |
|
CB03 | Change of inventor or designer information |
Inventor after: Tang Xuefei Inventor after: Luo Shi Inventor after: Tang Xianping Inventor after: Han Chunmei Inventor before: Tang Xuefei Inventor before: Luo Shi Inventor before: Tang Xianping |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: TANG XUEFEI LUO SHI TANG XIANPING TO: TANG XUEFEI LUO SHI TANG XIANPING HAN CHUNMEI Free format text: CORRECT: APPLICANT; FROM: CHENGDU KANGSAI INFORMATION TECHNOLOGY CO., LTD. OF UESTC TO: CHENGDU COMSYS INFORMATION TECHNOLOGY CO., LTD. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |