CN103577587A - 一种新闻主题分类方法 - Google Patents

一种新闻主题分类方法 Download PDF

Info

Publication number
CN103577587A
CN103577587A CN201310554729.9A CN201310554729A CN103577587A CN 103577587 A CN103577587 A CN 103577587A CN 201310554729 A CN201310554729 A CN 201310554729A CN 103577587 A CN103577587 A CN 103577587A
Authority
CN
China
Prior art keywords
search
subject categories
news
unit
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310554729.9A
Other languages
English (en)
Inventor
欧吉顺
周楚新
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING GREEN TECHNOLOGY RESEARCH INSTITUTE Co Ltd
Original Assignee
NANJING GREEN TECHNOLOGY RESEARCH INSTITUTE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING GREEN TECHNOLOGY RESEARCH INSTITUTE Co Ltd filed Critical NANJING GREEN TECHNOLOGY RESEARCH INSTITUTE Co Ltd
Priority to CN201310554729.9A priority Critical patent/CN103577587A/zh
Publication of CN103577587A publication Critical patent/CN103577587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻主题分类方法,其特征在于,包括如下步骤:步骤一:根据新闻的主题类别建立种子词典;步骤二:对新闻的标题进行分词处理,提取标题关键词;步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;步骤四:在元搜索的结果中对所述种子关键词进行频次统计;步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。本发明的一种新闻主题分类方法可以大大缩短分类时间,有效降低人工成本,且对历史数据不产生依赖性,整个分类过程所用的时间更短,分类结果也更加可靠,可以对新闻进行多类分类,在实际情形中更具通用性。

Description

一种新闻主题分类方法
技术领域
本发明涉及一种新闻主题分类方法,具体涉及一种利用计算机技术对互联网上的新闻进行主题分类的方法,本发明属于计算机技术领域。
背景技术
随着现代科学技术的进步以及互联网技术的高速发展,互联网上的信息资源在不断地呈爆炸性增长。如何从这些海量的资源中快速精准地获取所需要的信息已成为互联网用户所关心的一个亟待解决的问题。同时,该问题也成为信息处理领域的一大挑战性课题。为了能够有效地组织和管理海量电子信息,使用户能够快速方便地获取所需要的资源,研究者提出了文本检索、文本分类、主题概念识别等多种信息组织和处理技术。在上述技术中,人工智能领域中的文本自动分类技术已经在多个领域得到了广泛应用,并取得了显著的成果。
文本自动分类是人工智能和自然语言处理领域中的一个重要研究方向,其主要思想是在指定的分类体系下,计算机根据文本的内容来自动判定所属类别。该技术可以弥补传统搜索引擎技术的不足,过滤用户不需要的信息,方便用户快速精确地查找所需要的内容。本发明涉及一种新的文本自动分类方法,主要目标是对互联网上发表的新闻进行快速精确地主题分类。
新闻主题分类是根据所设定的主题类别对新闻进行文本自动分类的过程。新闻的主题即是最终分类的类别。新闻主题分类在互联网诸多的门户网站上得到了广泛地应用,例如,大型新闻门户网站新浪网上的新闻被划分为社会、军事、体育、娱乐等主题类别。
目前,已有的主题分类技术主要集中于人工标注和机器学习两种方法。人工标注方法主要是借助于人工的分类经验对新闻进行手动主题类别标注。该类方法的优点是可以获得较高的分类准确率,缺点是时间代价和人工成本太高。机器学习方法是利用人工智能领域中的机器学习算法对已标注主题类别的新闻内容进行学习和训练,建立相应的分类模型,进而利用模型实现计算机自动主题分类。该类方法可以有效地降低时间代价和人工成本,但精确性往往受限于所选择的机器学习算法的适用性和所使用的历史数据的质量。此外,该类方法需要计算机从历史数据中进行知识学习和训练,如果所使用的历史数据规模较大,则需要花费很高的时间代价进行学习和训练,而如果所使用的历史数据规模较小,则所建立的分类模型的精确性会大打折扣。如何在分类时间和分类准确率之间进行有效权衡,是现有技术亟需解决的技术问题。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种新闻主题分类方法。
为了实现上述目标,本发明采用如下的技术方案:
一种新闻主题分类方法,其特征在于,包括如下步骤:
步骤一:根据新闻的主题类别建立种子词典,所述种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词;
步骤二:对新闻的标题进行分词处理,提取标题关键词;
步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;
步骤四:在元搜索的结果中对所述种子关键词进行频次统计;
步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。
前述的一种新闻主题分类方法,其特征在于,所述步骤二包括:提取新闻标题中字符个数大于1的词元作为标题关键词。
前述的一种新闻主题分类方法,其特征在于,所述步骤三包括:
步骤3a:根据搜索引擎的字符编码对查询关键词进行编码处理;
步骤3b:拼接向搜索引擎服务器提交的请求URL;
步骤3c:向搜索引擎服务器提交URL请求并返回搜索结果;
步骤3d:合并多个搜索引擎返回的搜索结果,以作为元搜索的结果。
前述的一种新闻主题分类方法,其特征在于,所述步骤3c包括:利用编程语言提供的网络通讯工具包向搜索引擎服务器提交URL请求并返回搜索结果。
前述的一种新闻主题分类方法,其特征在于,所述步骤五包括:
步骤5a:对于任意一个主题类别,先计算所述主题类别对应的每个种子关键词在元搜索的结果中出现的频次,然后统计所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次,将所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次作为所述主题类别在元搜索的结果中出现的频次;
步骤5b:重复步骤5a,直到得到每一个主题类别在元搜索的结果中出现的频次;
步骤5c:如果所述元搜索的结果中存在一个出现频次最多的主题类别,则判定所述出现频次最多的主题类别作为新闻最终的主题类别;如果所述元搜索的结果中存在多个频次并列最多的主题类别,则将所述频次并列最多的主题类别均作为新闻最终的主题类别。
本发明的有益之处在于:本发明的一种新闻主题分类方法可以大大缩短分类时间,有效降低人工成本,且对历史数据不产生依赖性,整个分类过程所用的时间更短,分类结果也更加可靠,可以对新闻进行多类分类,在实际情形中更具通用性。
附图说明
图1是本发明一种新闻主题分类方法的优选流程示意图;
图2是本发明一种新闻主题分类方法中对新闻标题进行元搜索的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参照图1所示,本发明一种新闻主题分类方法,包括如下步骤:
步骤一:根据新闻的主题类别建立种子词典,种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词;
步骤二:对新闻的标题进行分词处理,提取标题关键词;
步骤三:通过多个基于互联网的搜索引擎服务器对标题关键词进行元搜索;
步骤四:在元搜索的结果中对种子关键词进行频次统计;
步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。
如图1所示,本发明首先根据新闻的主题类别筛选一些能代表主题类别的种子关键词,并根据种子关键词与主题类别之间的对应关系建立种子词典。接着,读取新闻标题,并对其进行中文分词,优选提取新闻标题中字符个数大于1的词元作为标题关键词。将标题关键词作为查询关键词并利用计算机自动采集技术从多个搜索引擎进行信息搜索,返回合并各搜索引擎的搜索结果。对于每个主题类别分别统计其对应种子关键词在搜索结果中出现的频次,选择种子关键词出现总频次最高的主题类别为新闻最终的主题类别。
本发明中,筛选种子关键词遵循的主要原则是筛选的种子关键词既需要有代表性又需要有很好的区分能力,例如,“社会”主题的种子关键词可以是:民生、民情、案件、城管、拖欠、农民工、干旱、贪污、拆迁、上访、罢工...;“财经”主题的种子关键词可以是:投资、理财、银行、基金、股市、财富、商业、贸易...;“体育”主题的种子关键词可以是:英超、意甲、运动员、国家队、中锋、后卫、世界杯...,其它主题类别的种子关键词的筛选与此类似,可以根据人工分类经验进行有效设定。在筛选出种子关键词之后,可以建立起关键词与主题类别之间的对应关系(种子词典),一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词。
本发明中,对新闻的标题进行中文分词处理是将新闻的标题中连续的字序列按照一定的规范重新组合成词序列的过程,例如,对“南京城管沉默执法逼退小摊贩引网友热议”这个标题进行中文分词处理,可以得到如下词元列表:南京、城管、沉默、执法、逼退、小摊贩、引、网友、热议。取所含字符个数大于1的词元作为标题关键词以用于后续的元搜索。形式如下表一的一种种子词典所示:
表一:一种种子词典
种子关键词 主题类别
民生 社会
民情 社会
... ...
股市 财经
贸易 财经
... ...
运动员 体育
国家队 体育
…… ……
如图2所示描述了利用提取的标题关键词作为各个互联网搜索引擎的查询关键词进行元搜索的过程。所谓的元搜索是指在已有的搜索引擎基础上进一步检索和筛选。在元搜索的过程中,借助计算机自动采集技术进行实现,实现的步骤如下:
步骤3a:根据搜索引擎的字符编码对查询关键词进行编码处理;
步骤3b:拼接向搜索引擎服务器提交的请求UR,例如,向百度搜索引擎服务器提交请求URL为http://www.baidu.com/s?rn=20&cl=3&ie=utf-8&wd=%E4%B8%AD%E6%96%87,其中,wd参数对应的值为编码处理后的查询关键词,其它的参数固定不变;
步骤3c:向搜索引擎服务器提交URL请求并返回搜索结果,本步骤优选利用编程语言提供的网络通讯工具包向搜索引擎服务器提交URL请求并返回搜索结果;
步骤3d:合并多个搜索引擎返回的搜索结果,以作为元搜索的结果。
在步骤3d中,由于搜索引擎返回的搜索结果可能很多,因此实际中可以优选将每个搜索引擎返回的第一页的搜索结果进行合并后作为元搜索的结果。由于现有搜索引擎的搜索特点,每个搜索引擎返回的第一页的搜索结果为一般包括了与标题关键词最相关的新闻信息,这些新闻信息包括新闻的标题及摘要信息。
下面进一步阐述步骤五的实施方式。
步骤5a:对于任意一个主题类别,先计算所述主题类别对应的每个种子关键词在元搜索的结果中出现的频次,然后统计所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次,将所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次作为所述主题类别在元搜索的结果中出现的频次;
步骤5b:重复步骤5a,直到得到每一个主题类别在元搜索的结果中出现的频次;
步骤5c:如果所述元搜索的结果中存在一个出现频次最多的主题类别,则判定所述出现频次最多的主题类别作为新闻最终的主题类别;如果所述元搜索的结果中存在多个频次并列最多的主题类别,则将所述频次并列最多的主题类别均作为新闻最终的主题类别。
例如,如果元搜索的结果适用于表一的种子词典,那么对于主题类别“社会”,首先统计一下主题类别“社会”对应的种子关键词“民生”在元搜索的结果中出现的频次,比如出现3次,然后统计主题类别“社会”对应的种子关键词“民情”在元搜索的结果中出现的频次,比如出现1次,以此类推,得到主题类别“社会”对应的每一个种子关键词在元搜索的结果中出现的频次;然后将主题类别“社会”对应的每一个种子关键词在元搜索的结果中出现的频次进行相加,得到主题类别“社会”对应的所有种子关键词在元搜索的结果中出现的总频次,这里假设得到主题类别“社会”对应的所有种子关键词在元搜索的结果中出现的总频次为8;现在就定义主题类别“社会”在元搜索的结果中出现的频次为8,即与主题类别“社会”对应的所有种子关键词在元搜索的结果中出现的总频次相等。
类似的,统计表一的种子词典中主题类别“财经”在元搜索的结果中出现的频次,假设主题类别“财经”在元搜索的结果中出现的频次为3;然后统计表一的种子词典中主题类别“体育”在元搜索的结果中出现的频次,假设主题类别“体育”在元搜索的结果中出现的频次为0,以此类推,统计表一的种子词典中所有主题类别在元搜索的结果中出现的频次。
现在,对表一的种子词典中每个主题类别在元搜索的结果中出现的频次进行比较,比较后的结果可能会出现两种情况:第一种情况,元搜索的结果中存在一个出现频次最多的主题类别,则判定所述出现频次最多的主题类别作为新闻最终的主题类别。比如统计后发现主题类别“社会”在元搜索的结果中出现的频次比其他主题类别要多,那么判定主题类别“社会”作为新闻最终的主题类别;第二种情况,元搜索的结果中存在多个频次并列最多的主题类别,则将所述频次并列最多的主题类别均作为新闻最终的主题类别。比如在上面的举例中,表一中的种子词典中还存在一个主题类别“娱乐”,主题类别“娱乐”在元搜索的结果中出现的频次也为8,且假设所有主题类别在元搜索的结果中出现的最高频次就是8,且在元搜索的结果中只有主题类别“社会”和“娱乐”在元搜索的结果中出现频次为8,此时就出现2个频次并列最多的主题类别“社会”和“娱乐”,就将主题类别“社会”和“娱乐”均作为新闻最终的主题类别,本发明由此可以实现多类分类,相比于现有技术中只能实现单类分类的机器学习分类方法相比,本发明在实际情形中更具通用性。
下面,再以公式表达的形式再次说明上述步骤5a至步骤5c所表征的内容:
设元搜索的结果为x,x所属的主题类别集合为C={C1,C2,...,CN},x∈Ci表示新闻样本x的主题类别为Ci,N为主题类别的数目,对于任意一个主题类别Ci(1≤i≤N),Fij(1≤i≤N,1≤j≤M)为其第j个种子关键词在元搜索结果中的统计频次,M为主题类别Ci对应的种子关键词的数目,Ci对应的种子关键词的总频次
Figure BDA0000410423520000061
则新闻最终的主题类别由以下公式确定:
C final ( x ) = arg max C i F i ( x ∈ C i ) ( 1 ≤ i ≤ N ) , 这里的Cfinal(x)即为新闻最终的主题类别。
本发明在由人工建立种子词典之后完全由计算机自动进行分类,同人工标注方法相比,本发明可以大大缩短分类时间,并有效降低人工成本。同一些机器学习主题分类方法相比,本发明不需要进行机器学习建模,只需要对种子关键词进行词频统计,因此,对历史数据不产生依赖性,整个分类过程所用的时间更短,分类结果也更加可靠。此外,本发明可以对新闻进行多类分类,同一些只能实现单类分类的机器学习分类方法相比,本发明在实际情形中更具通用性。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1. 一种新闻主题分类方法,其特征在于,包括如下步骤:
步骤一:根据新闻的主题类别建立种子词典,所述种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词;
步骤二:对新闻的标题进行分词处理,提取标题关键词;
步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;
步骤四:在元搜索的结果中对所述种子关键词进行频次统计;
步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。
2. 根据权利要求1所述的一种新闻主题分类方法,其特征在于,所述步骤二包括:提取新闻标题中字符个数大于1的词元作为标题关键词。
3. 根据权利要求2所述的一种新闻主题分类方法,其特征在于,所述步骤三包括:
步骤3a:根据搜索引擎的字符编码对查询关键词进行编码处理;
步骤3b:拼接向搜索引擎服务器提交的请求URL;
步骤3c:向搜索引擎服务器提交URL请求并返回搜索结果;
步骤3d:合并多个搜索引擎返回的搜索结果,以作为元搜索的结果。
4. 根据权利要求3所述的一种新闻主题分类方法,其特征在于,所述步骤3c包括:利用编程语言提供的网络通讯工具包向搜索引擎服务器提交URL请求并返回搜索结果。
5. 根据权利要求4所述的一种新闻主题分类方法,其特征在于,所述步骤五包括:
步骤5a:对于任意一个主题类别,先计算所述主题类别对应的每个种子关键词在元搜索的结果中出现的频次,然后统计所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次,将所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次作为所述主题类别在元搜索的结果中出现的频次;
步骤5b:重复步骤5a,直到得到每一个主题类别在元搜索的结果中出现的频次;
步骤5c:如果所述元搜索的结果中存在一个出现频次最多的主题类别,则判定所述出现频次最多的主题类别作为新闻最终的主题类别;如果所述元搜索的结果中存在多个频次并列最多的主题类别,则将所述频次并列最多的主题类别均作为新闻最终的主题类别。
CN201310554729.9A 2013-11-08 2013-11-08 一种新闻主题分类方法 Pending CN103577587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310554729.9A CN103577587A (zh) 2013-11-08 2013-11-08 一种新闻主题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310554729.9A CN103577587A (zh) 2013-11-08 2013-11-08 一种新闻主题分类方法

Publications (1)

Publication Number Publication Date
CN103577587A true CN103577587A (zh) 2014-02-12

Family

ID=50049363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310554729.9A Pending CN103577587A (zh) 2013-11-08 2013-11-08 一种新闻主题分类方法

Country Status (1)

Country Link
CN (1) CN103577587A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391977A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网页关键词出现频次检测方法及装置
CN105205163A (zh) * 2015-06-29 2015-12-30 淮阴工学院 一种科技新闻的增量学习多层次二分类方法
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN105786961A (zh) * 2016-01-15 2016-07-20 优品财富管理有限公司 一种基于金融资讯的数据分类处理方法
CN106202306A (zh) * 2016-07-01 2016-12-07 大连博采科技有限公司 一种信息资源分类方法及系统
CN108874996A (zh) * 2018-06-13 2018-11-23 北京知道创宇信息技术有限公司 网站分类方法及装置
CN109597893A (zh) * 2019-01-21 2019-04-09 北京工业大学 基于搜索引擎的主题分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1383328A (zh) * 2001-04-23 2002-12-04 日本电气株式会社 推荐节目的方法及其系统
CN1983252A (zh) * 2005-12-15 2007-06-20 腾讯科技(深圳)有限公司 一种即时消息的主题内容提取方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1383328A (zh) * 2001-04-23 2002-12-04 日本电气株式会社 推荐节目的方法及其系统
CN1983252A (zh) * 2005-12-15 2007-06-20 腾讯科技(深圳)有限公司 一种即时消息的主题内容提取方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓凡: "基于元搜索的专业搜索引擎的研究与实现", 《中国优秀硕士学位论文数据库信息科技辑》, no. 8, 15 August 2008 (2008-08-15), pages 41 - 44 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391977A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网页关键词出现频次检测方法及装置
CN104391977B (zh) * 2014-12-05 2018-04-03 北京国双科技有限公司 网页关键词出现频次检测方法及装置
CN105205163A (zh) * 2015-06-29 2015-12-30 淮阴工学院 一种科技新闻的增量学习多层次二分类方法
CN105205163B (zh) * 2015-06-29 2018-08-10 淮阴工学院 一种科技新闻的增量学习多层次二分类方法
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN105786961A (zh) * 2016-01-15 2016-07-20 优品财富管理有限公司 一种基于金融资讯的数据分类处理方法
CN106202306A (zh) * 2016-07-01 2016-12-07 大连博采科技有限公司 一种信息资源分类方法及系统
CN108874996A (zh) * 2018-06-13 2018-11-23 北京知道创宇信息技术有限公司 网站分类方法及装置
CN109597893A (zh) * 2019-01-21 2019-04-09 北京工业大学 基于搜索引擎的主题分类方法

Similar Documents

Publication Publication Date Title
CN103577587A (zh) 一种新闻主题分类方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN105260359A (zh) 语义关键词提取方法及装置
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN106528528A (zh) 文本情感分析的方法及装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN104965867A (zh) 基于chi特征选取的文本事件分类方法
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN102096680A (zh) 信息有效性分析的方法和装置
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN107526819A (zh) 一种面向短文本主题模型的大数据舆情分析方法
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN104484380A (zh) 个性化搜索方法及装置
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140212