CN102004792B - 一种热搜词生成方法及系统 - Google Patents

一种热搜词生成方法及系统 Download PDF

Info

Publication number
CN102004792B
CN102004792B CN201010585538A CN201010585538A CN102004792B CN 102004792 B CN102004792 B CN 102004792B CN 201010585538 A CN201010585538 A CN 201010585538A CN 201010585538 A CN201010585538 A CN 201010585538A CN 102004792 B CN102004792 B CN 102004792B
Authority
CN
China
Prior art keywords
search
word
news
speech
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010585538A
Other languages
English (en)
Other versions
CN102004792A (zh
Inventor
彭学政
蔡勋梁
柳杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010585538A priority Critical patent/CN102004792B/zh
Publication of CN102004792A publication Critical patent/CN102004792A/zh
Application granted granted Critical
Publication of CN102004792B publication Critical patent/CN102004792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种热搜词的生成方法和装置,其中方法包括:对抓取到的新闻页面进行聚类,形成各新闻簇;确定所述新闻簇中的热点新闻簇;从所述热点新闻簇的新闻页面中提取核心词;按照提取的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。本发明能够实现热搜词的自动生成,无需人工干预,降低了人为工作量,并且不再依赖编辑人员对热点事件的敏感度,提高了热搜词的准确性。

Description

一种热搜词生成方法及系统
【技术领域】
本发明涉及信息处理技术领域,特别涉及一种热搜词生成方法及系统。
【背景技术】
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求越来越高,为了适应这一变化,在网络搜索领域中出现了许多新的技术。其中,通过热搜词为用户提供搜索建议就是其中一种新的技术,用户通过热搜词可以获知近期的热点事件,并进一步浏览取得热点事件的相关信息。
但是,现有技术中热搜词通常是人工干预的结果,随着在各分类下提供热搜词的需求提出,如果由人工编辑进行热搜词的干预,工作量则明显增大,且如果编辑热搜词的人员如果对热点事件的敏感度较低,则会造成热搜词的准确性较低。
【发明内容】
有鉴于此,本发明提供了一种热搜词的生成方法和系统,以便于能够自动生成热搜词,降低人为工作量,且提高热搜词的准确性。
具体技术方案如下:
一种热搜词的生成方法,该方法包括:
A、对抓取到的新闻页面进行聚类,形成各新闻簇;
B、确定所述新闻簇中的热点新闻簇;
C、从所述热点新闻簇的新闻页面中提取核心词;
D、按照提取出的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。
其中,如果步骤B确定的热点新闻簇多于1个,则针对每一个热点新闻簇分别执行所述步骤C和步骤D。
所述步骤B具体包括:依据所述各新闻簇中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对所述各新闻簇进行排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于步骤A形成的新闻簇总数量的正整数。
所述步骤C具体包括:
C1、对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚文字进行词法分析处理;
C2、依据词法分析处理后得到的各词语的特征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数;
所述各词语的特征包括:词性、表意能力或者语义成分中的一种或任意组合。
更优地,在步骤C1和步骤C2之间还包括:根据预先设置的过滤准则,将词法分析处理后得到的各词语中满足过滤准则的词语进行过滤;或者,
根据预先设置的过滤表,将词法分析处理后得到的各词语中出现在过滤表中的词语进行过滤。
所述步骤D可以存在两种具体方式,第一种方式具体包括:
D11、利用所述提取出的核心词查询搜索词query库,确定所述提取出的核心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;
D12、将步骤D11确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其中K为预设的正整数。
在第一种方式中,所述query库的建立包括:
E1、对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词;
E2、从搜索词中提取核心词;
E3、利用步骤E1获取的搜索词以及步骤E2提取的核心词建立倒排索引,构成query库;
所述步骤D11包括:利用所述提取出的核心词查找所述query库中对应的倒排索引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
其中,所述将步骤D11确定的搜索词进行排序包括:依据步骤D11确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对步骤D11确定的搜索词进行排序。
较优地,该方法还包括:利用搜索效果满足query库的预设要求的热搜词更新所述query库。
所述步骤D的第二种具体方式包括:
D21、将所述提取出的核心词及其组合分别作为搜索词进行页面搜索;
D22、根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
在第二种方式中所述预设搜索效果包括:搜索到的在设定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。
其中,步骤D22中所述页面搜索的结果为所述步骤D21中所有搜索词的页面搜索结果;或者,
所述步骤D21为:将所述提取出的核心词及其组合分别作为搜索词后,对搜索词进行排序,按照排序结果依次利用搜索词进行页面搜索,直到搜索结果满足所述预设搜索效果为止;所述步骤D22为:将满足预设搜索效果的搜索词确定为热搜词。
一种热搜词的生成装置,该装置包括:
聚类处理单元,用于对抓取到的新闻页面进行聚类,形成各新闻簇;
热点确定单元,用于确定所述聚类处理单元形成的新闻簇中的热点新闻簇;
核心词提取单元,用于从所述热点新闻簇的新闻页面中提取核心词;
热搜词确定单元,用于按照所述核心词提取单元提取出的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。
如果所述热点确定单元确定的热点新闻簇多于1个,则所述核心词提取单元和所述热点词确定单元分别针对每一个热点新闻簇执行所述提取核心词和所述确定出热搜词的操作。
具体地,所述热点确定单元依据所述各新闻簇中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对所述各新闻簇进行排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于所述聚类处理单元形成的新闻簇总数量的正整数。
所述核心词提取单元具体包括:
词法分析模块,用于对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚文字进行词法分析处理后提供给核心词选取模块;
核心词选取模块,用于依据词法分析处理后的各词语的特征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数;
所述各词语的特征包括:词性、表意能力或语义成分中的一种或任意组合。
较优地,所述核心词提取单元还包括:过滤处理模块,用于根据预先设置的过滤准则,将所述词法分析模块提供给所述核心词选取模块的各词语中满足过滤准则的词语进行过滤;或者,根据预先设置的过滤表,将所述词法分析模块提供给所述核心词选取模块的各词语中出现在过滤表中的词语进行过滤。
所述热搜词确定单元可以存在两种结构,第一种结构具体包括:
query库查询模块,用于利用所述提取出的核心词查询query库,确定所述提取出的核心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;
第一确定模块,用于将所述query库查询模块确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其中K为预设的正整数。
基于第一种结构所述热搜词确定单元还包括:query库维护模块,用于对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词,从搜索词中提取核心词,利用获取的搜索词以及提取的核心词建立倒排索引,构成query库;
所述query库查询模块利用所述提取出的核心词查找所述query库中对应的倒排索引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
其中,所述第一确定模块具体依据所述query库查询模块确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对所述query库查询模块确定的搜索词进行排序。
更优地,所述query库维护模块,还用于利用搜索效果满足query库的预设要求的热搜词更新所述query库。
所述热搜词确定单元的第二种结构具体包括:
搜索词挑选模块,用于将所述提取出的核心词及其组合分别作为搜索词发送给搜索引擎进行页面搜索;
第二确定模块,用于根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
其中,所述预设搜索效果包括:搜索到的在设定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。
所述第二确定模块根据所述搜索引擎对所有搜索词的搜索结果,确定满足预设搜索效果的搜索词作为热搜词;或者,
所述搜索词挑选模块将所述提取出的核心词及其组合分别作为搜索词后,对搜索词进行排序,按照排序结果依次将所述搜索词发送给搜索引擎进行页面搜索;所述第二确定模块根据搜索引擎的搜索结果,判断是否满足预设搜索效果,如果是,将满足搜索效果的搜索词确定为热搜词,并触发所述搜索词挑选模块停止发送所述搜索词给搜索引擎,否则,触发所述搜索词挑选模块发送下一个搜索词给搜索引擎。
由以上技术方案可以看出,本发明提供了一种自动生成热搜词的方法和装置,无需人工干预,大大减低了人为工作量。另外,本发明从热点新闻簇中提取关键词,并按照提取出的关键词对应的搜索效果确定热搜词,使得确定的热搜词与热点新闻的紧密度更高,不再依赖编辑人员对热点事件的敏感度,提高了热搜词的准确性。
【附图说明】
图1为本发明提供的主要方法流程图;
图2为本发明实施例一提供的确定热搜词的方法流程图;
图3为本发明实施例二提供的确定热搜词的方法流程图;
图4为本发明提供的第一种装置结构图;
图5为本发明提供的第二种装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的主要方法如图1所示,可以主要包括以下步骤:
步骤101:对抓取到的新闻页面进行聚类,形成各新闻簇。
本发明实施例中生成热搜词时,利用的新闻页面集合(即抓取的新闻页面)可以是与当前热点匹配的专业网站抓取的新闻页面,例如当生成关于电子产品的热搜词时,可以从电子产品的专业网站上抓取新闻页面;也可以是从门户网站的热点区域抓取的新闻页面,例如当生成关于电子产品的热搜词时,可以从一些门户网站中关于电子产品的栏目中抓取新闻页面。
在抓取新闻页面时,可以通过对专业网站的热点新闻或门户网站的热点区域进行监控,自动抓取新闻页面。
在对抓取到的新闻页面进行聚类时,本发明实施例中可以采用但不限于层次聚类方式、凝聚聚类方式、划分式聚类方式、基于密度的聚类方式、或者网格聚类方式等。
本发明实施例中,生成热搜词的流程可以是周期性执行,例如,设置以半小时为一个周期,每隔半小时执行图1所示流程生成热搜词;也可以是被触发执行,例如执行图1所示流程的装置收到生成热搜词的命令时,执行图1所示流程生成热搜词。
步骤102:确定上述各新闻簇中的热点新闻簇。
在从聚类形成的新闻簇中选择热点新闻簇时,可以依据各新闻簇中新闻页面的数量、突发量、转载率、站点权重等中的一种或任意组合,对新闻簇进行排序,选择排序在前N个的新闻簇作为热点新闻簇。其中,N为小于或等于形成的新闻簇总数量的正整数。
如果确定出的热点新闻簇为1个,则针对该1个热点新闻簇执行步骤103和步骤104;如果确定出的热点新闻簇多于1个,则针对每个热点新闻簇分别执行步骤103和步骤104,即每个热点新闻簇分别确定出对应的热搜词。
步骤103:从热点新闻簇的新闻页面中提取核心词。
从热点新闻簇的新闻页面中,能够挑选出一些能够描述事件特征的特征词,通常称之为核心词。这些特征词能够包含新闻事件的一些主要信息,例如任务、机构、地点、结果或对象等信息。
核心词可以从新闻页面的新闻标题和/或索引页上的锚文字(Anchor)中提取,主要依赖于一些具有实际意义的词语。可以采用智能元处理技术进行核心词提取,具体地,可以对新闻标题或Anchor进行词法分析处理,然后依据词法分析处理后得到的各词语的特征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数。
其中,词语的特征可以包括但不限于以下中的一种或任意组合:词性(可以分为名词、形容词、副词等)、表意能力(一个词语语义的完整性程度)、语义成分(可以分为主题词、需求词、修饰词、虚词等,或者分为主语、谓语、宾语、状语、定语等)。
分析得到上述词语的特征所采用的词法分析处理可以包括:分词处理、词类标注、成分分析、语义分析、查表比对等方式,这些方式已是目前比较成熟的技术,在此不再详细赘述。
例如,可以预先设置词性、表意能力以及语义成分等特征对词语重要性的权重值,依据这些特征的权重计算各词语的重要性,并据此对各词语进行排序。
较优地,在对词法分析处理后得到的各词语进行排序之前,可以首先对词法分析处理后得到的各词语进行过滤处理。通过对核心词的过滤可以方便对核心词的质量做控制,同时保证热搜词不会出现限制级字眼。其中,过滤的方式可以包括但不限于以下两种:
第一种:通过设置过滤准则的方式。例如,可以设置对词法分析处理后得到的虚词进行过滤,或者设置对词法分析处理后得到的副词进行过滤,等等,过滤准则可以根据需要灵活设置。
第二种:通过设置过滤表的方式,将一些干扰词语进行过滤。例如可以将一些色情或者反动的词语设置在过滤表中,将词法分析处理后得到的各词语中出现在过滤表中的词语过滤掉。
更优地,为了让核心词更好的配合热搜词的选取,对于出现在主题词的上下文实体词,可以进行提权处理,即尽量将主题词附近的实体词一并抽取出来,让核心词更具连贯性和语义表达能力。
步骤104:按照提取出的核心词对应的搜索效果确定出热搜词,其中热搜词覆盖上述提取的核心词中的一个或多个。
热搜词是表达某个热点新闻事件的文字,形式可以是词语、短语、词语或短语的组合、甚至句子。
本步骤中热搜词的确定可以采用两种方式,下面在实施例一和实施例二中分别进行描述。
实施例一、
通过查询搜索词(query)库的方式确定热搜词,如图2所示,确定热搜词的过程可以包括以下步骤:
步骤201:利用提取的核心词查询query库,确定提取的核心词在query库中命中的搜索词。其中query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词。
为了方便理解,首先对query库的建立进行说明:对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词,例如搜索频率大于预设阈值的搜索词;从搜索词中提取核心词,该核心词的提取方式可以采用与步骤103中所述的从新闻标题或Anchor中提取核心词相同的方式,在此不再赘述;利用从搜索词中提取的核心词以及搜索词建立倒排索引,构成query库。
其中,query库的更新可以周期性进行,例如,每隔一个小时对以往的搜索日志进行分析,以更新query库。
query库的形式可以如表1所示的例子,其中,qm代表搜索词,kn代表核心词。更进一步地,在该query库中还可以包含核心词在各搜索词中的重要度权值,例如,核心词k3在搜索词q3中的重要度权值,核心词k3在q5中的重要度权值。
表1
  k1   q1,q2
  k2   q2
  k3   q3,q5
  …   …
  kn   qm,qm-4,q2
本步骤在利用提取的核心词查询query库时,查找该核心词对应的倒排索引,对查找到的倒排索引的倒排拉链进行合并后就得到命中的搜索词。
假设在步骤103中提取的核心词为k1、k2和k3,查询表1中所示的query库,即查找倒排索引k1、k2和k3,将对应的倒排拉链进行合并后得到的搜索词为q1、q2、q3和q5
步骤202:将得到的搜索词进行排序,将前K个的搜索词确定为热搜词,其中K为预设的正整数。
对搜索词进行排序可以包括但不限于以下依据中的一种或任意组合:搜索词覆盖的核心词在新闻事件中的权重、搜索词覆盖的核心词数量、覆盖的核心词在搜索词中的权重、搜索词的被搜索次数等。
通常会选择排序在第一个的搜索词作为热搜词,即K为1。但也不排除选择多个热搜词的情况。
在确定热搜词时,可以进一步设定选择策略,即需要将满足选择策略的前K个搜索词确定为热搜词,该选择策略可以采用长度、覆盖核心词的个数等作为限制条件。以K为1举例,假设预先设定选择策略为:热搜词长度大于8个汉字且至少覆盖2个核心词。那么需要按照搜索词的排序,从第一个开始选择满足该选择策略的搜索词确定为热搜词。
其中在设置选择策略中覆盖核心词的个数时,需要权衡准确度和噪声的问题,覆盖核心词多可以获得较高的准确度。另外,由于覆盖一个核心词的搜索词太多,特别容易引入噪音,同时覆盖两个以上核心词的搜索词较少,不容易引入噪音,因此,选择策略中覆盖核心词的个数通常设置为两个以上。
如果所有的热搜词都不满足选择策略,可以将提取的核心词中按权重排在前Q个的核心词组合确定为热搜词,其中,Q为预设的正整数。例如,所有热搜词都满足选择策略,可以将按权重排序排在前2个的核心词组合确定为热搜词。
在此举一个利用实施例一的方式确定热搜词的例子。假设在步骤103提取到的核心词为:跳楼、少女、凤凰。在通过对query库进行查询后,命中的搜索词包括:凤凰跳楼、凤凰少女跳楼案、湖南少女跳楼、凤凰少女坠亡、凤凰少女维权,等。将这些搜索词进行排序后,确定排在第一个的搜索词“凤凰跳楼”作为热搜词。
在确认出热搜词后,可以将热搜词作为搜索链接显示给用户,当该热搜词被用户点击后,会被作为搜索词发送给搜索引擎并将搜索引擎返回的结果显示给用户。
当采用其他方式确定的热搜词的搜索效果满足query库的搜索效果要求时,可以利用该热搜词添加到query库中以更新query库。其中,更新query库所使用的热搜词可以是采用下述实施例二的方式所确定出的热搜词。
实施例二、
将提取的核心词及其组合作为搜索词进行页面搜索,根据搜索结果确定热搜词。如图3所示,确定热搜词的过程可以包括以下步骤:
步骤301:将各核心词及其组合,分别作为搜索词进行页面搜索。
步骤302:根据搜索结果,确定满足预设搜索效果的搜索词作为热搜词。
本步骤中预设的搜索效果可以包括但不限于:搜索到的在设定时间内发布的新闻页面数量达到预设的阈值、搜索到的设定时间内发布的新闻页面数量最多、搜索率达到预设阈值的新闻页面数量达到预设的阈值、搜索率达到预设阈值的新闻页面数量最多、搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值、搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多,等等。
在该实施例中,可以采用以下两种方式:
第一种方式:将所有的核心词及其组合都作为搜索词进行页面搜索,根据所有搜索词对应的搜索结果确定热搜词。
例如,假设步骤103提取的核心词为:k1、k2和k3,将各核心词及其组合作为搜索词,即将k1、k2、k3、k1k2、k2k3、k1k3以及k1k2k3分别作为搜索词进行页面搜索,最终搜索到2天内发布的新闻中,k1k2搜索到的与k1k2的相关度满足预设相关度要求的新闻页面数量最多,则将k1k2作为热搜词。
第二种方式:首先将核心词及其组合分别构成的搜索词进行排序,排序准则可以考虑以下因素:核心词在新闻事件中的权重、包含的核心词数量等;然后按照排序依次对搜索词进行页面搜索,直到搜索结果满足预设的搜索效果,将该满足预设搜索效果的搜索词作为热搜词。
例如,假设步骤103提取的核心词为:k1、k2和k3,将各核心词及其组合作为搜索词进行排序后,得到的排序结果为k1k2、k1k3、k1k2k3、k1、k2k3、k2、k3,按照排序顺序依次对各搜索词进行页面搜索,假设k1k2和k1k3对应的搜索结果都不满足预设的搜索效果,搜索到k1k2k3时满足预设的搜索效果,则将k1k2k3作为热搜词。
也就是说,在对核心词及其组合分别构成的搜索词进行排序后,按照排序顺序分别进行页面搜索,一旦某个搜索词的搜索结果满足预设的搜索效果,则可以将该搜索词确定为热搜词,后续搜索词就不必再进行页面搜索。
在此举一个利用实施例二的方式确定热搜词的例子。假设在步骤103提取到的核心词为:跳楼、少女、凤凰。在利用这些核心词及其组合作为搜索词进行页面搜索后,根据搜索结果确定满足预设搜索效果的搜索词为“跳楼少女凤凰”,则确定热搜词为“跳楼少女凤凰”。
同样,在确认出热搜词后,可以将热搜词作为搜索链接显示给用户,当该热搜词被用户点击后,会被作为搜索词发送给搜索引擎并向用户返回搜索结果。
在上述实施例一和实施例二确定热搜词的过程中,可以对搜索词使用过滤机制,如果搜索词中包含黄色或反动等字眼,则将该搜索词过滤掉,该搜索词就不会参与热搜词的确定。
上述实施例一和实施例二所述的确定热搜词的方式可以择一使用,也可以同时使用,例如,可以首先采用实施例二中所示方式,将各核心词及其组合分别进行页面搜索,确定满足预设搜索效果的N1个核心词或其组合。再利用这N1个核心词或其组合查询query库中的倒排索引,确定最终的热搜词。
以上是对本发明所提供方法进行的描述,下面对本发明提供的热搜词生成装置进行详细描述。图4为本发明提供的装置结构示意图,如图4所示,该装置可以包括:聚类处理单元400、热点确定单元410、核心词提取单元420和热搜词确定单元430。
聚类处理单元400,用于对抓取到的新闻页面进行聚类,形成各新闻簇。
热点确定单元410,用于确定聚类处理单元400形成的新闻簇中的热点新闻簇。
核心词提取单元420,用于从热点新闻簇的新闻页面中提取核心词。
热搜词确定单元430,用于按照核心词提取单元420提取出的核心词对应的搜索效果确定出热搜词,其中热搜词覆盖提取出的核心词中的一个或多个。
如果热点确定单元410确定出的热点新闻簇为1个,则核心词提取单元420和热搜词确定单元430对该1个热点新闻簇执行所述提取核心词和确定出热搜词的操作。如果热点确定单元410确定出的热点新闻簇多于1个,则核心词提取单元420和热搜词确定单元430分别针对每一个热点新闻簇执行所述提取核心词和确定出热搜词的操作。
另外,该装置还可以包括:新闻抓取单元440,用于从与当前热点匹配的专业网站或者从门户网站的热点区域,抓取新闻页面并提供给聚类处理单元400,可以通过对热点新闻进行监控,自动对新闻页面进行抓取。
上述聚类处理单元400可以采用但不限于层次聚类方式、凝聚聚类方式、划分式聚类方式、基于密度的聚类方式、或者网格聚类方式等对上述抓取到的新闻页面进行聚类。
具体地,热点确定单元410可以依据各新闻簇中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对各新闻簇进行排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于聚类处理单元400形成的新闻簇总数量的正整数。
其中,该装置中的核心词提取单元420可以具体包括:词法分析模块421和核心词选取模块422。
词法分析模块421,用于对热点新闻簇中新闻页面的新闻标题和/或索引页面上的Anchor进行词法分析处理后提供给核心词选取模块422。
核心词选取模块422,用于依据词法分析处理后的各词语的特征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数;上述各词语的特征可以包括但不限于:词性、表意能力或者语义成分中的一种或任意组合。
更优地,核心词提取单元420还可以包括:过滤处理模块423,用于根据预先设置的过滤准则,将词法分析模块421提供给核心词选取模块422的各词语中满足过滤准则的词语进行过滤;或者,根据预先设置的过滤表,将词法分析模块421提供给核心词选取模块422的各词语中出现在过滤表中的词语进行过滤。
通过过滤处理模块423对核心词的过滤处理可以方便对核心词的质量做控制,同时保证热搜词不会出现诸如黄色、反动等限制级内容。
该装置中的热搜词确定单元430可以采用两种结构,第一种结构如图4中所示,可以具体包括:query库查询模块431和第一确定模块432。
query库查询模块431,用于利用提取出的核心词查询query库,确定提取出的核心词在query库中命中的搜索词;其中query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词。
第一确定模块432,用于将query库查询模块431确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其中K为预设的正整数。
除了单纯选择排在前K个搜索词作为热搜词这种方式之外,还可以结合其他选择策略,例如选择满足预设选择策略的前K个搜索词作为热搜词。其中预设选择策略可以采用长度、覆盖核心词的个数等限制条件。
该第一确定模块432确定出的热搜词可以以通用数据的格式被传输至存储展示单元(该存储展示单元为现有单元,图中未示出),存储展示单元将该热搜词作为搜索链接显示给用户,当该热搜词被点击后,将该热搜词作为搜索词发送给搜索引擎,并将搜索引擎返回的结果显示给用户。
在该结构中,热搜词确定单元430还可以包括:query库维护模块433,用于对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词,从搜索词中提取核心词,利用获取的搜索词以及提取的核心词建立倒排索引,构成query库。
另外,query库维护单元433可以周期性地对query库进行更新,例如每隔一个小时对以往的搜索日志进行分析以更新query库。
query库查询模块431利用提取出的核心词查找query库中对应的倒排索引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
具体地,上述第一确定模块432可以依据query库查询模块431确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对query库查询模块431确定的搜索词进行排序。
另外,query库维护模块433,还可以用于利用搜索效果满足query库的预设要求的热搜词更新query库。其中,用于更新query库的热搜词可以是采用其他方式确定出的热搜词,例如,可以是采用核心词及其组合分别作为搜索词后,根据搜索效果确定出的热搜词。
热搜词确定单元430还可以采用另外一种结构,如图5所示,可以具体包括:搜索词挑选模块531和第二确定模块532。
搜索词挑选模块531,用于将提取出的核心词及其组合分别作为搜索词发送给搜索引擎进行页面搜索。
第二确定模块532,用于根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
同样,该第二确定模块532确定出的热搜词可以以通用数据的格式被传输至存储展示单元(该存储展示单元为现有单元,图中未示出),存储展示单元将该热搜词作为搜索链接显示给用户,当该热搜词被点击后,将该热搜词作为搜索词发送给搜索引擎,并将搜索引擎返回的结果显示给用户。
其中,在该结构中涉及的搜索效果可以包括:搜索到的在设定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。
通过图5中所示热搜词确定单元430的结构确定热搜词可以存在两种方式:
第一种方式:第二确定模块532根据搜索引擎对所有搜索词的搜索结果,确定满足预设搜索效果的搜索词作为热搜词。
第二种方式:搜索词挑选模块531将提取出的核心词及其组合分别作为搜索词后,对搜索词进行排序,按照排序结果逐一将搜索词发送给搜索引擎进行页面搜索。第二确定模块532确定搜索引擎返回的搜索结果是否满足预设的搜索效果,如果是,将满足搜索效果的搜索词确定为热搜词,并触发搜索词挑选模块531停止发送搜索词给搜索引擎;否则,触发搜索词挑选模块531发送下一个搜索词给搜索引擎。也就是说,搜索词挑选模块531按照排序结果逐一将搜索词发送给搜索引擎进行页面搜索,一旦存在满足搜索效果的搜索结果,则停止发送搜索词给搜索引擎。搜索引擎不必对所有搜索词都进行搜索,第二确定模块532直接将满足搜索效果的搜索词确定为热搜词即可。
上述热搜词确定单元430可以采用上述两种结构中的一种,也可以同时采用上述两种结构。当同时采用两种结构时,可以先采用第一种结构将各核心词及其组合分别进行页面搜索,确定满足预设搜索效果的N1个核心词或其组合。再采用第二种结构利用这N1个核心词或其组合查询query库中的倒排索引,确定最终的热搜词。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (24)

1.一种热搜词的生成方法,其特征在于,该方法包括:
A、对抓取到的新闻页面进行聚类,形成各新闻簇;
B、确定所述新闻簇中的热点新闻簇;
C、从所述热点新闻簇的新闻页面中提取核心词;
D、按照提取出的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。
2.根据权利要求1所述的方法,其特征在于,如果步骤B确定的热点新闻簇多于1个,则针对每一个热点新闻簇分别执行所述步骤C和步骤D。
3.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:依据所述各新闻簇中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对所述各新闻簇进行排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于步骤A形成的新闻簇总数量的正整数。
4.根据权利要求1所述的方法,其特征在于,所述步骤C具体包括:
C1、对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚文字进行词法分析处理;
C2、依据词法分析处理后得到的各词语的特征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数;
所述各词语的特征包括:词性、表意能力或者语义成分中的一种或任意组合。
5.根据权利要求4所述的方法,其特征在于,在步骤C1和步骤C2之间还包括:根据预先设置的过滤准则,将词法分析处理后得到的各词语中满足过滤准则的词语进行过滤;或者,
根据预先设置的过滤表,将词法分析处理后得到的各词语中出现在过滤表中的词语进行过滤。
6.根据权利要求1至5任一权项所述的方法,其特征在于,所述步骤D具体包括:
D11、利用所述提取出的核心词查询搜索词query库,确定所述提取出的核心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;
D12、将步骤D11确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其中K为预设的正整数。
7.根据权利要求6所述的方法,其特征在于,所述query库的建立包括:
E1、对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词;
E2、从搜索词中提取核心词;
E3、利用步骤E1获取的搜索词以及步骤E2提取的核心词建立倒排索引,构成query库;
所述步骤D11包括:利用所述提取出的核心词查找所述query库中对应的倒排索引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
8.根据权利要求6所述的方法,其特征在于,所述将步骤D11确定的搜索词进行排序包括:依据步骤D11确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对步骤D11确定的搜索词进行排序。
9.根据权利要求6所述的方法,其特征在于,该方法还包括:利用搜索效果满足query库的预设要求的热搜词更新所述query库。
10.根据权利要求1至5任一权项所述的方法,其特征在于,所述步骤D具体包括:
D21、将所述提取出的核心词及其组合分别作为搜索词进行页面搜索;
D22、根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
11.根据权利要求10所述的方法,其特征在于,所述预设搜索效果包括:搜索到的在设定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。
12.根据权利要求10所述的方法,其特征在于,步骤D22中所述页面搜索的结果为所述步骤D21中所有搜索词的页面搜索结果;或者,
所述步骤D21为:将所述提取出的核心词及其组合分别作为搜索词后,对搜索词进行排序,按照排序结果依次利用搜索词进行页面搜索,直到搜索结果满足所述预设搜索效果为止;所述步骤D22为:将满足预设搜索效果的搜索词确定为热搜词。
13.一种热搜词的生成装置,其特征在于,该装置包括:
聚类处理单元,用于对抓取到的新闻页面进行聚类,形成各新闻簇;
热点确定单元,用于确定所述聚类处理单元形成的新闻簇中的热点新闻簇;
核心词提取单元,用于从所述热点新闻簇的新闻页面中提取核心词;
热搜词确定单元,用于按照所述核心词提取单元提取出的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。
14.根据权利要求13所述的装置,其特征在于,如果所述热点确定单元确定的热点新闻簇多于1个,则所述核心词提取单元和所述热点词确定单元分别针对每一个热点新闻簇执行所述提取核心词和所述确定出热搜词的操作。
15.根据权利要求13所述的装置,其特征在于,所述热点确定单元依据所述各新闻簇中新闻页面的数量、突发量、转载率或站点权重中的一种或任意组合,对所述各新闻簇进行排序,选择排序在前N个的新闻簇作为热点新闻簇;其中N为小于或等于所述聚类处理单元形成的新闻簇总数量的正整数。
16.根据权利要求13所述的装置,其特征在于,所述核心词提取单元具体包括:
词法分析模块,用于对所述热点新闻簇中新闻页面的新闻标题和/或索引页面上的锚文字进行词法分析处理后提供给核心词选取模块;
核心词选取模块,用于依据词法分析处理后的各词语的特征对各词语进行排序,选取排在前M个的词语作为核心词,其中M为预设的正整数;
所述各词语的特征包括:词性、表意能力或者语义成分中的一种或任意组合。
17.根据权利要求16所述的装置,其特征在于,所述核心词提取单元还包括:过滤处理模块,用于根据预先设置的过滤准则,将所述词法分析模块提供给所述核心词选取模块的各词语中满足过滤准则的词语进行过滤;或者,
根据预先设置的过滤表,将所述词法分析模块提供给所述核心词选取模块的各词语中出现在过滤表中的词语进行过滤。
18.根据权利要求13至17任一权项所述的装置,其特征在于,所述热搜词确定单元具体包括:
query库查询模块,用于利用所述提取出的核心词查询query库,确定所述提取出的核心词在所述query库中命中的搜索词;其中所述query库包含搜索词与从该搜索词提取的核心词之间的对应关系,query库中的搜索词为搜索效果满足预设要求的搜索词;
第一确定模块,用于将所述query库查询模块确定的搜索词进行排序,将排在前K个的搜索词确定为热搜词,其中K为预设的正整数。
19.根据权利要求18所述的装置,其特征在于,所述热搜词确定单元还包括:query库维护模块,用于对以往的搜索日志进行分析,获取搜索效果满足预设要求的搜索词,从搜索词中提取核心词,利用获取的搜索词以及提取的核心词建立倒排索引,构成query库;
所述query库查询模块利用所述提取出的核心词查找所述query库中对应的倒排索引,对查找到的倒排索引的倒排拉链进行合并后得到命中的搜索词。
20.根据权利要求18所述的装置,其特征在于,所述第一确定模块具体依据所述query库查询模块确定的搜索词覆盖的核心词在新闻事件中的权重、覆盖的核心词数量、覆盖的核心词在搜索词中的权重或搜索词的被搜索次数中的一种或任意组合,对所述query库查询模块确定的搜索词进行排序。
21.根据权利要求19所述的装置,其特征在于,所述query库维护模块,还用于利用搜索效果满足query库的预设要求的热搜词更新所述query库。
22.根据权利要求13至17任一权项所述的装置,其特征在于,所述热搜词确定单元具体包括:
搜索词挑选模块,用于将所述提取出的核心词及其组合分别作为搜索词发送给搜索引擎进行页面搜索;
第二确定模块,用于根据页面搜索的结果,确定满足预设搜索效果的搜索词作为热搜词。
23.根据权利要求22所述的装置,其特征在于,所述预设搜索效果包括:搜索到的在设定时间内发布的新闻页面数量达到预设的阈值,或者,搜索到的设定时间内发布的新闻页面数量最多,或者,搜索率达到预设阈值的新闻页面数量达到预设的阈值,或者,搜索率达到预设阈值的新闻页面数量最多,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量达到预设的阈值,或者,搜索到的与搜索词的相关度满足预设相关度要求的新闻页面数量最多。
24.根据权利要求22所述的装置,其特征在于,所述第二确定模块根据所述搜索引擎对所有搜索词的搜索结果,确定满足预设搜索效果的搜索词作为热搜词;或者,
所述搜索词挑选模块将所述提取出的核心词及其组合分别作为搜索词后,对搜索词进行排序,按照排序结果依次将所述搜索词发送给搜索引擎进行页面搜索;所述第二确定模块根据搜索引擎的搜索结果,判断是否满足预设搜索效果,如果是,将满足搜索效果的搜索词确定为热搜词,并触发所述搜索词挑选模块停止发送所述搜索词给搜索引擎,否则,触发所述搜索词挑选模块发送下一个搜索词给搜索引擎。
CN201010585538A 2010-12-07 2010-12-07 一种热搜词生成方法及系统 Active CN102004792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010585538A CN102004792B (zh) 2010-12-07 2010-12-07 一种热搜词生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010585538A CN102004792B (zh) 2010-12-07 2010-12-07 一种热搜词生成方法及系统

Publications (2)

Publication Number Publication Date
CN102004792A CN102004792A (zh) 2011-04-06
CN102004792B true CN102004792B (zh) 2012-10-10

Family

ID=43812154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010585538A Active CN102004792B (zh) 2010-12-07 2010-12-07 一种热搜词生成方法及系统

Country Status (1)

Country Link
CN (1) CN102004792B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737036A (zh) * 2011-04-07 2012-10-17 腾讯科技(深圳)有限公司 一种获取热点价值词的方法及装置
CN102436497B (zh) * 2011-11-14 2014-12-31 江苏联著实业有限公司 基于学习式owl建模的主流媒体报道热点分析系统
CN103136212B (zh) * 2011-11-23 2016-09-07 北京百度网讯科技有限公司 一种类别新词的挖掘方法及装置
CN103136219B (zh) * 2011-11-24 2016-08-17 北京百度网讯科技有限公司 一种基于时效性的需求挖掘方法和装置
CN103577501B (zh) * 2012-08-10 2019-03-19 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN102831248B (zh) * 2012-09-18 2016-05-11 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN103873601B (zh) * 2012-12-11 2019-03-08 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及系统
CN103902596B (zh) * 2012-12-28 2017-10-20 中国电信股份有限公司 高频页面内容聚类方法和系统
CN103577587A (zh) * 2013-11-08 2014-02-12 南京绿色科技研究院有限公司 一种新闻主题分类方法
CN104899215A (zh) * 2014-03-06 2015-09-09 北京搜狗科技发展有限公司 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN103902714B (zh) * 2014-04-03 2017-08-01 北京国双科技有限公司 关键词过滤方法和装置
WO2015176624A1 (zh) * 2014-05-19 2015-11-26 北京奇虎科技有限公司 突发时效性查询词识别方法和系统
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备
CN106569992B (zh) * 2015-10-09 2019-12-03 北京国双科技有限公司 词语处理方法及装置
CN105574185A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种提供聚合类型的智能摘要的方法和装置
CN105843850B (zh) * 2016-03-15 2020-07-24 北京百度网讯科技有限公司 搜索优化方法和装置
CN107229654A (zh) * 2016-03-25 2017-10-03 北大方正集团有限公司 一种热搜词获取方法及系统
CN105824803B (zh) * 2016-03-31 2018-10-30 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106528666A (zh) * 2016-10-21 2017-03-22 合网络技术(北京)有限公司 内容采集方法和装置
CN107180093B (zh) * 2017-05-15 2020-05-19 北京奇艺世纪科技有限公司 信息搜索方法及装置和时效性查询词识别方法及装置
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN107341268B (zh) * 2017-07-25 2020-06-05 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN108304502B (zh) * 2018-01-17 2020-10-02 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及系统
CN109086321B (zh) * 2018-07-02 2021-09-03 苏州千视通视觉科技股份有限公司 盲搜方法及系统
CN109063015B (zh) * 2018-07-11 2021-01-22 北京奇艺世纪科技有限公司 热点内容的提取方法、装置及设备
CN109558538B (zh) * 2018-11-23 2022-02-01 北京字节跳动网络技术有限公司 输入联想词的构建方法、装置、存储介质及电子设备
CN111309999B (zh) * 2018-12-11 2023-05-16 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN109857752A (zh) * 2019-01-25 2019-06-07 北京炎黄新星网络科技有限公司 一种索引库更新方法及装置
CN110377817B (zh) * 2019-06-13 2022-10-18 百度在线网络技术(北京)有限公司 搜索词条挖掘方法和装置及其在多媒体资源的应用
CN111931480B (zh) * 2020-07-03 2023-07-18 北京新联财通咨询有限公司 文本主要内容的确定方法、装置、存储介质及计算机设备
CN113360646B (zh) * 2021-06-02 2023-09-19 华院计算技术(上海)股份有限公司 基于动态权重的文本生成方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962487B2 (en) * 2008-12-29 2011-06-14 Microsoft Corporation Ranking oriented query clustering and applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Also Published As

Publication number Publication date
CN102004792A (zh) 2011-04-06

Similar Documents

Publication Publication Date Title
CN102004792B (zh) 一种热搜词生成方法及系统
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN101246499B (zh) 网络信息搜索方法及系统
KR101060594B1 (ko) 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
CN101719167B (zh) 一种可互动的影视搜索方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN104063497B (zh) 观点处理方法和装置以及搜索方法和装置
CN100507918C (zh) 一种网络关键资源页面的自动定位方法
EP2198365A1 (en) Integrating external related phrase information into a phrase-based indexing information retrieval system
CN101477554A (zh) 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN107247743A (zh) 一种司法类案检索方法及系统
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN102012915A (zh) 一种文档共享平台的关键词推荐方法及系统
CN104679783A (zh) 一种网络搜索方法和装置
CN110222260A (zh) 一种搜索方法、装置及存储介质
CN104809252A (zh) 互联网数据提取系统
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
CN100401301C (zh) 基于本体学习的智能主题式网络爬虫系统构建方法
CN103064984A (zh) 垃圾网页的识别方法及系统
CN103455619B (zh) 一种基于Lucene分片结构的打分处理方法及系统
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
CN107025261B (zh) 主题网络语料库
CN109471934B (zh) 基于互联网的金融风险线索发掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant