CN104252487A - 一种用于生成词条信息的方法和装置 - Google Patents
一种用于生成词条信息的方法和装置 Download PDFInfo
- Publication number
- CN104252487A CN104252487A CN201310268427.5A CN201310268427A CN104252487A CN 104252487 A CN104252487 A CN 104252487A CN 201310268427 A CN201310268427 A CN 201310268427A CN 104252487 A CN104252487 A CN 104252487A
- Authority
- CN
- China
- Prior art keywords
- information
- candidate word
- category index
- web page
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本发明的目的是提供一种用于生成词条信息的方法和装置。根据本发明的方法包括:获取候选词;基于所述候选词进行搜索,以获取所述候选词的特征信息;根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引;其中,所述分类索引对应至少一个分类相关网页;根据与所述分类索引信息对应的至少一个分类相关网页,来生成与所述候选词对应的词条信息。本发明的优点在于,能从与词条相关的专业网站中,全面地挖掘与词条相关的内容并自动生成词条信息,从而提高了词条信息的生成效率,并且能够获得更加全面、完整的词条信息。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于生成词条信息的方法和装置。
背景技术
在现有技术中,仅能依靠用户手动填写内容来生成百科词条的词条信息,然而,这种方式的效率较低,并且不能及时地对其进行更新;此外,还有一种方式是依据搜索相关词条所得到的网页内容来自动生成词条信息,但是,这种方式所获得的网页类型较为繁杂,且其内容不成系统,所生成的词条信息不够完善,并且,往往无法有效地利用与词条相关的专业类网站中的网页内容。
发明内容
本发明的目的是提供一种用于生成词条信息的方法和装置。
根据本发明的一个方面,提供一种用于生成词条信息的方法,其中,所述方法包括以下步骤:
a获取候选词;
b基于所述候选词进行搜索,以获取所述候选词的特征信息;
c根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引;其中,所述分类索引对应至少一个分类相关网页;
d根据与所述分类索引信息对应的至少一个分类相关网页,来生成与所述候选词对应的词条信息。
根据本发明的一个方面,提供一种用于生成词条信息的词条生成装置,其中,所述词条生成装置包括:
第一获取装置,用于获取候选词;
第二获取装置,用于基于所述候选词进行搜索,以获取所述候选词的特征信息;
第一确定装置,用于根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引;其中,所述分类索引对应至少一个分类相关网页;
第一生成装置,用于根据与所述分类索引信息对应的至少一个分类相关网页,来生成与所述候选词对应的词条信息。
本发明的优点在于,能够从与词条相关的专业网站中,挖掘与词条相关的内容并自动生成词条信息,从而提高了词条信息的生成效率,并且能够获得更加全面、完整的词条信息。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明的一个方面的一种用于生成词条信息的方法流程图;
图2为根据本发明的一个优选实施例的用于生成词条信息的方法流程图;
图3为根据本发明的又一个优选实施例的用于生成词条信息的方法流程图;
图4为根据本发明的又一个优选实施例的用于生成词条信息的方法流程图;
图5为根据本发明的一个方面用于生成词条信息的词条生成装置的结构示意图;
图6为根据本发明的一个优选实施例的用于生成词条信息的词条生成装置的结构示意图;
图7为根据本发明的又一个优选实施例的用于生成词条信息的词条生成装置的结构示意图;
图8为根据本发明的又一个优选实施例的用于生成词条信息的词条生成装置的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一个方面的一种用于生成词条信息的方法流程图。根据本发明的方法包括步骤S1、步骤S2、步骤S3和步骤S4。
其中,根据本发明的方法通过计算机设备实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中,所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备以及网络仅为举例,其他现有的或今后可能出现的用户设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
参照图1,在步骤S1中,计算机设备获取候选词。
具体地,所述获取候选词的方式包括但不限于以下任一种方式:
1)实时获取用户输入的查询序列,并将其作为候选词;
2)由预获取的多个查询序列中选择一个作为候选词。
接着,在步骤S2中,计算机设备基于所述候选词进行搜索,以获取所述候选词的特征信息。
其中,所述特征信息包括一项或多项文本信息。其中,所述文本信息包括但不限于以下任一项:
a)词语信息;
b)段落语言信息。
优选地,所述特征信息包括一项或多项文本信息以及各项文本信息的权重信息。
具体地,所述计算机设备基于所述候选词进行搜索,以获取所述候选词的特征信息的方式包括但不限于以下任一项:
1)计算机设备在包含多个候选词及其对应的特征信息的词库中搜索,以获得与步骤S1中所获得的候选词对应的特征信息。
2)计算机设备通过第一预定搜索引擎,基于所述候选词执行搜索,以获取与所述候选词对应的一个或多个搜索结果网页;接着,计算机设备根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息。
其中,所述第一预定搜索引擎包括但不限于可基于候选词执行搜索并获取一个或多个搜索结果网页的搜索引擎。
其中,所述计算机设备根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息的方式包括但不限于以下任一项:
a)获取所述一个或多个搜索结果网页中所包含的至少一个关键词;获取所述至少一个关键词中的各个关键词的权重信息;基于所获得的各个关键词及其相应的权重信息,来确定与所述候选词对应的特征信息。
其中,所述权重信息根据以下至少任一项信息来确定:
i)关键词在所述一个或多个搜索结果网页中的出现频率;
ii)关键词在所述一个或多个搜索结果网页中的出现次数;
iii)关键词在所述一个或多个搜索结果网页中出现的区域信息,例如,出现在网页标题部分,或者,出现在网页内容部分等。
优选地,所述权重信息基于各个关键词在所述一个或多个搜索结果网页中的词频反文档频率(TF-IDF,term frequency-inversedocument frequency)值来确定。
具体地,计算机设备对一个或多个搜索结果网页的网页内容进行切词处理,以获得至少一个关键词,并统计该至少一个关键词中的各个关键词的权重信息,接着,根据所获得的各个关键词及其权重信息,由该至少一个关键词中选择一个或多个关键词作为与候选词对应的特征信息。
优选地,计算机设备由与所述候选词对应的所有搜索结果网页中选择一个或多个搜索结果网页,并基于该所选择的搜索结果网页来确定与该候选词对应的特征信息。
根据本发明的第一示例,计算机设备在步骤S1中获得的候选词包括“马尔代夫”,并且,计算机设备通过预定搜索引擎,如百度搜索引擎对“马尔代夫”进行搜索,并获得多个搜索结果网页。计算机设备选择在搜索结果中排名前十位的搜索结果网页web1至web10作为与该候选词对应的一个或多个搜索结果网页。接着,计算机设备对所选择的十个搜索结果网页的网页内容进行切词以获得多个关键词,并统计每个关键词相对于该十个搜索结果网页的TF-IDF值,且将所获得的TF-IDF值作为各个关键词的权重信息;并且,计算机设备根据TF-IDF值对各个关键词进行排序后选择排名前二十位的关键词,并将该排名前二十位的关键词及其各自对应的TF-IDF值作为候选词“马尔代夫”的特征信息。
b)通过预定主题确定模型,根据所述一个或多个搜索结果网页中的各个网页的网页内容,来确定与所述一个或多个搜索结果网页对应的主题相关信息;接着,基于所确定的主题相关信息来确定与所述候选词对应的特征信息。
其中,所述预定主题确定模型用于对给定的文本信息通过预定模型来执行数据挖掘等操作,以获得与所述文本信息对应的主题相关信息。例如,潜在狄利克雷分配模型(LDA,Latent Dirichlet Allocation)、概率潜在语义分析模型(PLSA,Probabilistic Latent SemanticAnalysis)、带标签的潜在狄利克雷分配模型(Labeled LDA,LabeledLatent Dirichlet Allocation)模型等。
其中,所述主题相关信息包括用于表征所述文本信息的一个或多个主题的信息,例如,用于表征所述文本信息的主题的多个关键词等。
优选地,所述主题相关信息还包括用于表征该一个或多个主题在所述文本中的权重的信息,例如,与用于表征所述文本信息的主题的多个关键词相对应的关键词权重等。
其中,本领域技术人员应可根据实际情况和需求确定所采用的主题模型,以及通过主题模型获得一个或多个主题相关信息的方式,在此不再赘述。
接着,在步骤S3中,计算机设备根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引。
其中,所述多级分类索引信息包括多个基于预定拓扑结构相互关联的分类索引,其中,各个分类索引分别对应至少一个分类相关网页。
其中,确定多级分类索引信息的方式将在后续参照图3所示的实施例中予以详述,并以引用的方式包含于此,在此不再赘述。
具体地,计算机设备获取所述候选词的特征信息与多级分类索引信息中的各个分类索引的至少一个分类相关网页之间的相似度,并基于相似度来确定与所述候选词对应的分类索引。
接着,在步骤S4中,计算机设备根据与所述分类索引信息对应的至少一个分类相关网页,来确定与所述候选词对应的词条信息。
具体地,计算机设备由与所述分类索引相对应的至少一个分类相关网页中,获取与所述候选词相关的网页内容,以生成属于所述分类索引的、与所述候选词对应的词条信息。
其中,计算机设备由至少一个分类相关网页中获取与候选词相关的内容信息的方式包括:
计算机设备根据所述候选词及其特征信息,由所述至少一个分类相关网页中挖掘与所述候选词及其特征信息相对应的网页内容,作为与该候选词对应的词条信息的内容信息。
继续对前述第一示例进行说明,多级分类索引信息包括如下表1所示的基于预定的树状拓扑结构相关联的分类索引:
表1
并且,每个分类索引均对应多个分类相关网页,计算机设备在步骤S3中确定与候选词“马尔代夫”对应的分类索引为“境内游”,则计算机设备从与分类索引“境内游”对应的多个分类相关网页中获取与候选词“马尔代夫”及其特征信息相关的网页内容,并将其作为与“马尔代夫”这一候选词对应的词条信息的内容,以生成属于分类索引“出境游”的、与候选词“马尔代夫”对应的词条信息。
优选地,当已存在属于所述分类索引的、且与所述候选词对应的词条信息时,计算机设备由与所述分类索引相对应的至少一个分类相关网页中,获取与所述候选词相关的内容信息,以更新该候选词对应的词条信息。
根据本发明的方法,可自动由与候选词具有较高相似度的分类相关中获取词条信息的内容,从而极大的提高了词条信息的生成与更新的效。并且,能够更加充分地挖掘并利用分类相关网页的内容。
图2示意出了根据本发明的一个优选实施例的用于生成词条信息的方法流程图。根据本实施例的方法包括步骤S1至步骤S4、步骤S5、步骤S6以及步骤S7。
其中,步骤S1至步骤S4已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S5中,计算机设备获取与所述候选词对应的一项或多项网络发布信息。
其中,所述网络发布信息包括用于在互联网中发布的、具有一定的各类信息。优选地,所述网络发布信息包括广告。
其中,所述计算机设备获取与所述候选词对应的一项或多项网络发布信息的方式包括但不限于以下任一项:
1)计算机设备通过在第二预定搜索引擎中查询所述候选词,以获取与所述候选词对应的一项或多项网络发布信息。
其中,所述第二预定搜索引擎包括但不限于可基于候选词执行搜索并获取一个或多个网络发布信息的搜索引擎。
优选地,所述第二预定搜索引擎与前述参照图1的实施例中所述的第一预定搜索引擎为同一搜索引擎。
2)计算机设备通过预定的各个候选词与网络发布信息的对应关系,来获取与该候选词对应的一项或多项网络发布信息。
接着,在步骤S6中,计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息。
具体地,所述计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式包括但不限于以下任一项:
1)计算机设备统计所述候选词相对于所述一项或多项网络发布信息的权重信息。
例如,计算机设备统计所述候选词相对于其所对应的多项广告中的TF-IDF值并将其作为候选词的重要度信息。
2)计算机设备统计所述一项或多项网络发布信息数量,并将其作为所述候选词的重要度信息;
3)计算机设备获取所述一项或多项网络发布信息的被使用信息,并根据所获得的被使用信息来确定所述候选词的重要度信息。其中,所述网络发布信息的被使用信息包括但不限于以下至少任一项:
a)所述网络发布信息的被展现次数;
b)所述网络发布信息的被点击次数等。
例如,计算机设备统计候选词所对应的所有广告的被点击次数,并将其作为候选词的重要度信息;又例如,计算机设备统计候选词所对应的广告的平均被点击次数,以将其作为候选词的重要度信息等。
接着,在步骤S7中,计算机设备判断所述候选词的重要度信息是否满足预定重要度条件。
其中,所述预定重要度条件包括预定重要度阈值;
具体地,计算机设备判断所述候选词的重要度信息是否满足预定阈值。
接着,根据本实施例的方法,在步骤S2中,当所述候选词的重要度信息满足预定重要度条件时,计算机设备获取所述候选词的特征信息。
作为本实施例的优选方案之一,所述步骤S5进一步包括步骤S501(图未示)和步骤S502(图未示),所述步骤S6进一步包括步骤S60(图未示)1和步骤S602(图未示)。
在步骤S501中,计算机设备对所述候选词进行切词以获取多个子候选词。
在步骤S502中,计算机设备通过第二预定搜索引擎,基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息。
其中,所述计算机设备通过第二预定搜索引擎,基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息的方式与前述计算机设备通过在第二预定搜索引擎中查询所述候选词,以获取与所述候选词对应的一项或多项网络发布信息的方式相同或相似,故不再赘述。
接着,在步骤S601中,计算机设备基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息。
其中,计算机设备基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息的方式与前述计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式相同或相似,故不再赘述。
在步骤S602中,计算机设备基于各个子候选词的子重要度信息确定所述候选词的重要度信息。
具体地,所述计算机设备基于预定的统计规则,确定各个子候选词的子重要度信息。
优选地,计算机设备基于预定的统计规则,确定各个子候选词的子重要度信息的方式包括但不限于以下任一种:
1)计算机设备根据各个子候选词的子重要度信息,确定平均重要度信息,并将其作为候选词的重要度信息。
2)计算机设备获取各个子候选词相对于其所属的候选词的权重值,并基于各个子候选词的子重要度信息以及各个子候选词的权重值,来确定候选词的重要度信息。
例如,基于各个子候选词在其所属的候选词中出现的次数来确定各个子候选词的权重值,并基于各个子候选词的子重要度信息以及各个子候选词的权重值,来确定候选词的重要度信息。
根据本实施例的方法,仅对满足预定重要度条件的候选词来生成词条,提高了词条生成效率。
图3示意出了根据本发明的又一个优选实施例的用于生成词条信息的方法流程图。根据本实施例的方法包括步骤S1至步骤S4、步骤S8以及步骤S9。
其中,步骤S1至步骤S4已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S8中,计算机设备获取一个或多个网站的网页导航信息。
其中,所述一个或多个网站可以为人工指定的具有一定相似度的一个或多个网站,也可以为通过对大量网站的网页内容执行聚类分析后所确定的,具有一定相似度的一个或多个网站。
其中,所述网页导航信息包括但不限于基于网站中的网页栏目结构,为用户浏览网页提供提示的信息。
在步骤S9中,计算机设备根据所获得的一个或多个网页导航信息,来生成多级分类索引信息,其中,所述多级分类索引中的各个分类索引按照预定拓扑结构相互关联。
具体地,计算机设备根据所获得的一个或多个网页导航信息,来生成多级分类索引信息的方式包括但不限于以下任一项:
1)直接将所获得的网页导航信息转换为多级分类索引。
例如,将网站的导航栏中的各个栏目作为分类索引,并依次保存各个栏目之间的所属关系,以作为各个分类索引之间的所属关系,以生成多级分类索引。
2)对多个网站的网页导航信息进行选择与合并,并基于选择合并后的结果来生成词条索引信息。
例如,将该多个网站的导航栏中共同包含的一个或多个栏目作为分类索引,并选择其中一个网站导航栏中的各个栏目之间的所属关系,作为所获得的各个分类索引之间的所属关系的参考,以生成多级分类索引。
作为本实施例的优选方案之一,根据本方案的方法还包括步骤S10(图未示)、步骤S11(图未示),所述步骤S3进一步包括步骤S301(图未示)。
在步骤S10中,计算机设备基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息,获取与该多级分类索引信息中的各个分类索引分别对应的分类相关网页。
具体地,计算机设备基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息,确定分别与各个分类索引相对应的、所述一个或多个网站的网页导航信息中的部分导航信息,并获取所述一个或多个网站中与该部分导航信息对应的至少一个站点网页,作为与所述分类索引相对应的分类相关网页。
接着,在步骤S11中,计算机设备基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息。
其中,计算机设备基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息的方式与前述参照图1所示实施例的步骤S2中,计算机设备根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息的方式相同或相似,此处不再赘述。
接着,在步骤S301中,计算机设备基于所述候选词的特征信息以及各个分类索引的分类特征信息,确定与所述候选词对应的分类索引。
具体地,计算机设备将所述候选词的特征信息与各个分类索引的分类特征信息进行比较,并选择分类特征信息与候选词的特征信息的相似度满足预定相似度条件的分类索引,作为与所候选词对应的分类索引。
其中,所述预定相似度条件包括相似度满足预定相似度阈值。
作为本实施例的优选方案之一,,所述预定拓扑结构包括多级的拓扑结构,其中相邻两级的分类索引之间为隶属关系,其中,所述步骤S3进一步包括步骤S302(图未示)和步骤S303(图未示)。
优选地,所述预定拓扑结构包括多级的树状结构,相邻的两级的分类索引之间为隶属关系。
在步骤S302中,计算机设备将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引。
具体地,计算机设备根据所述预定拓扑结构,按照预定遍历顺序,将所述候选词的特征信息逐个与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引。
例如,当预定拓扑结构为树状结构,并且预定遍历顺序为随机遍历时,随机获取尚未被遍历的分类索引,并将该分类索引的分类特征信息与候选词的特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引。
又例如,当预定拓扑结构为树状结构,并且预定遍历顺序为从叶结点逐层向上遍历时,先获取作为各个叶结点的分类索引,将该层的分类索引的分类特征信息与候选词的特征信息相比较,当未能在叶结点中获得与所述候选词的特征信息相似的分类索引时,再获取各个叶结点上一层的结点的分类索引,并将该层的分类索引的分类特征信息与候选词的特征信息相比较,依次逐层往上,直至获得与所述候选词的特征信息相似的分类索引。
在步骤S303中,当所获得的分类索引包含底层分类索引时,计算机设备将该底层分类索引作为所述候选词对应的分类索引。
具体地,计算机设备判断所获得的分类索引是否为底层分类索引,并当所获得的分类索引包含底层分类索引时,计算机设备将该底层分类索引作为所述候选词对应的分类索引。
优选地,根据本方案的方法,所述步骤S3还包括步骤S304(图未示)和步骤S305(图未示)。
在步骤S304中,当所获得的分类索引不包含底层索引节点时,计算机设备基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词,来生成位于该最低级别的分类索引的下级分类索引。
具体地,计算机设备基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词,来生成位于该最低级别的分类索引的下级分类索引的方式包括但不限于以下任一种:
1)计算机设备基于候选词生成属于前述步骤S302中获得的分类索引的下级分类索引的名称,并基于候选词所对应的搜索结果页面以及所获得的分类索引所对应的分类相关页面,确定与该下级分类索引相对应的分类相关网页。
2)计算机设备基于前述步骤S302中获得的分类索引对应的一个或多个站点网页,在该一个或多个站点网页中查询并获取与候选词相关的至少一个网页,并确定与所该网页对应的中心词,以将其作为前述步骤S302中获得的分类索引的下级分类索引的名称,并将该至少一个网页作为与该下级分类索引对应的分类相关网页。
接着,在步骤S305中,计算机设备将所生成的底层分类索引作为与所述候选词对应的分类索引。
根据本实施例的方法,通过获取一个或多个网站的网站导航信息来建立多级分类索引,从而使得词条的分类索引体系与实际使用中的体系相近,有利于更加全面的挖掘专业网站的内容信息,并且由于同时还可利用这些网站的网页内容作为分类索引的分类相关网页,故能够为候选词生成能够有更加系统、完整的词条信息。
图4示意出了根据本发明的又一优选实施例的用于生成词条信息的方法流程图。根据本实施例的方法包括步骤S1至步骤S4、步骤S12、步骤S13、步骤S14以及步骤S15。
其中,步骤S1至步骤S4已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S12中,计算机设备获取候选网站的一个或多个网页。
其中,计算机设备确定候选网站的方式包括但不限于以下任一种:
1)获取人工置顶的网站作为候选网站;
2)将抓取到的网站页面与多级分类索引信息中的各个分类索引所对应的网页进行比较,以获得站点网页与所述各个分类索引所对应的网页相似的网站。
接着,在步骤S13中,计算机设备根据所述候选网站的一个或多个网页,确定该候选网站的站点特征信息。
其中,计算机设备根据所述候选网站的一个或多个网页,确定该候选网站的站点特征信息的方式与前述参照图1所示实施例中的步骤S2中计算机设备根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息的方式相同或相似,在此不再赘述。
接着,在步骤S14中,计算机设备将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较,以确定与该候选网站对应的一个或多个分类索引。
其中,计算机设备将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较,以确定与该候选网站对应的一个或多个分类索引的方式与前述参照图3所示实施例的步骤S302中,计算机设备将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引的方式相同或相似,在此不再赘述。
接着,在步骤S15中,计算机设备向该候选网站对应的候选用户提供该一个或多个分类索引分别对应的一个或多个候选词。
作为本实施力的优选方案,根据本实施例的方法还包括步骤S16(图未示)、步骤S17(图未示)以及步骤S18(图未示)。
在步骤S16中,计算机设备根据与所述候选网站对应的一个或多个分类索引,获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页。
其中,所述计算机设备根据与所述候选网站对应的一个或多个分类索引,获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页的方式包括但不限于以下任一种:
1)计算机设备获取该一个或多个分类索引的分类相关网页,将所获得的分类相关网页与所述候选网站的站点网页进行比较,以获得与所述分类相关网页相似的一个或多个站点网页,并将其作为与该分类相关网页所对应的分类索引的候选网页。
2)计算机设备根据该一个或多个分类索引的分类特征信息,由候选网站中获取分别与该一个或多个分类索引的分类特征信息相似的一个或多个候选网页。
接着,在步骤S17中,计算机设备基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页,确定或更新与该各个分类索引对应的分类相关网页。
具体地,计算机设备将所确定的候选网页作为与分类索引对应的分类相关网页添加至与各个分类索引对应的分类相关网页库中。
在步骤S18中,计算机设备基于所述更新后的与各个分类索引对应的分类相关网页,更新各个分类索引所对应的候选词的词条信息。
具体地,对属于个各个分类索引的一个或多个候选词,分别采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容。其中,采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容的方式与前述参照图1所示实施例中的步骤S4中计算机设备根据与所述分类索引信息对应的至少一个分类相关网页,来确定与所述候选词对应的词条信息的方式相同或相似,此处不再赘述。
根据本实施例的方法,通过采用候选网站的内容来自动更新词条信息,使得词条内容能够尽快得到更新,并且提高了更新效率。
图5示意出了根据本发明的一个方面用于生成词条信息的词条生成装置的结构示意图。根据本发明的词条生成装置包括第一获取装置1、第二获取装置2、第一确定装置3和第一生成装置4。
参照图5,第一获取装置1获取候选词。
具体地,所述获取候选词的方式包括但不限于以下任一种方式:
1)实时获取用户输入的查询序列,并将其作为候选词;
2)由预获取的多个查询序列中选择一个作为候选词。
接着,第二获取装置2基于所述候选词进行搜索,以获取所述候选词的特征信息。
其中,所述特征信息包括一项或多项文本信息。其中,所述文本信息包括但不限于以下任一项:
a)词语信息;
b)段落语言信息。
优选地,所述特征信息包括一项或多项文本信息以及各项文本信息的权重信息。
具体地,所述第二获取装置2基于所述候选词进行搜索,以获取所述候选词的特征信息的方式包括但不限于以下任一项:
1)第二获取装置2在包含多个候选词及其对应的特征信息的词库中搜索,以获得与步骤S1中所获得的候选词对应的特征信息。
2)第二获取装置2中的第一搜索装置(图未示)的通过第一预定搜索引擎,基于所述候选词执行搜索,以获取与所述候选词对应的一个或多个搜索结果网页;接着,第二获取装置2中的第二确定装置(图未示)根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息。
其中,所述第一预定搜索引擎包括但不限于可基于候选词执行搜索并获取一个或多个搜索结果网页的搜索引擎。
其中,所述第二确定装置根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息的方式包括但不限于以下任一项:
a)第二确定装置中的关键词获取装置(图未示)获取所述一个或多个搜索结果网页中所包含的至少一个关键词;接着,第二确定装置中的权重获取装置(图未示)获取所述至少一个关键词中的各个关键词的权重信息;接着,第二确定装置中的第一子确定装置(图未示)基于所获得的各个关键词及其相应的权重信息,来确定与所述候选词对应的特征信息。
其中,所述权重信息根据以下至少任一项信息来确定:
i)关键词在所述一个或多个搜索结果网页中的出现频率;
ii)关键词在所述一个或多个搜索结果网页中的出现次数;
iii)关键词在所述一个或多个搜索结果网页中出现的区域信息,例如,出现在网页标题部分,或者,出现在网页内容部分等。
优选地,所述权重信息基于各个关键词在所述一个或多个搜索结果网页中的词频反文档频率(TF-IDF,term frequency-inversedocument frequency)值来确定。
具体地,关键词获取装置对一个或多个搜索结果网页的网页内容进行切词处理,以获得至少一个关键词,接着,权重获取装置统计并确定该至少一个关键词中的各个关键词的权重信息,接着,第一子确定装置根据所获得的各个关键词及其权重信息,由该至少一个关键词中选择一个或多个关键词作为与候选词对应的特征信息。
优选地,计算机设备由与所述候选词对应的所有搜索结果网页中选择一个或多个搜索结果网页,并基于该所选择的搜索结果网页来确定与该候选词对应的特征信息。
根据本发明的第一示例,第一获取装置1获得的候选词包括“马尔代夫”,并且,第一搜索装置通过预定搜索引擎,如百度搜索引擎对“马尔代夫”进行搜索以获得多个搜索结果网页,并选择在搜索结果中排名前十位的搜索结果网页web1至web10作为与该候选词对应的一个或多个搜索结果网页。接着,关键词获取装置权重获取装置对所选择的十个搜索结果网页的网页内容进行切词以获得多个关键词,由权重获取装置统计每个关键词相对于该十个搜索结果网页的TF-IDF值,将所获得的TF-IDF值作为各个关键词的权重信息;然后,第一子确定装置根据TF-IDF值对各个关键词进行排序后选择排名前二十位的关键词,并将该排名前二十位的关键词及其各自对应的TF-IDF值作为候选词“马尔代夫”的特征信息。
b)第二确定装置中的模型确定装置(图未示)通过预定主题确定模型,根据所述一个或多个搜索结果网页中的各个网页的网页内容,来确定与所述一个或多个搜索结果网页对应的主题相关信息;接着,第二确定装置中的第二子确定装置(图未示)基于所确定的主题相关信息来确定与所述候选词对应的特征信息。
其中,所述预定主题确定模型用于对给定的文本信息通过预定模型来执行数据挖掘等操作,以获得与所述文本信息对应的主题相关信息。例如,潜在狄利克雷分配模型(LDA,Latent Dirichlet Allocation)、概率潜在语义分析模型(PLSA,Probabilistic Latent SemanticAnalysis)、带标签的潜在狄利克雷分配模型(Labeled LDA,LabeledLatent Dirichlet Allocation)模型等。
其中,所述主题相关信息包括用于表征所述文本信息的一个或多个主题的信息,例如,用于表征所述文本信息的主题的多个关键词等。
优选地,所述主题相关信息还包括用于表征该一个或多个主题在所述文本中的权重的信息,例如,与用于表征所述文本信息的主题的多个关键词相对应的关键词权重等。
其中,本领域技术人员应可根据实际情况和需求确定所采用的主题模型,以及通过主题模型获得一个或多个主题相关信息的方式,在此不再赘述。
接着,第一确定装置3根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引。
其中,所述多级分类索引信息包括多个基于预定拓扑结构相互关联的分类索引,其中,各个分类索引分别对应至少一个分类相关网页。
其中,确定多级分类索引信息的方式将在后续参照图3所示的实施例中予以详述,并以引用的方式包含于此,在此不再赘述。
具体地,第一确定装置3获取所述候选词的特征信息与多级分类索引信息中的各个分类索引的至少一个分类相关网页之间的相似度,并基于相似度来确定与所述候选词对应的分类索引。
接着,第一生成装置4根据与所述分类索引信息对应的至少一个分类相关网页,来确定与所述候选词对应的词条信息。
具体地,第一生成装置4由与所述分类索引相对应的至少一个分类相关网页中,获取与所述候选词相关的网页内容,以生成属于所述分类索引的、与所述候选词对应的词条信息。
其中,第一生成装置4由至少一个分类相关网页中获取与候选词相关的内容信息的方式包括:
第一生成装置4根据所述候选词及其特征信息,由所述至少一个分类相关网页中挖掘与所述候选词及其特征信息相对应的网页内容,作为与该候选词对应的词条信息的内容信息。
继续对前述第一示例进行说明,多级分类索引信息包括如下表2所示的基于预定的树状拓扑结构相关联的分类索引:
表2
并且,每个分类索引均对应多个分类相关网页,第一确定装置3确定与候选词“马尔代夫”对应的分类索引为“境内游”,则第一生成装置4从与分类索引“境内游”对应的多个分类相关网页中获取与候选词“马尔代夫”及其特征信息相关的网页内容,并将其作为与“马尔代夫”这一候选词对应的词条信息的内容,以生成属于分类索引“出境游”的、与候选词“马尔代夫”对应的词条信息。
优选地,当已存在属于所述分类索引的、且与所述候选词对应的词条信息时,计算机设备由与所述分类索引相对应的至少一个分类相关网页中,获取与所述候选词相关的内容信息,以更新该候选词对应的词条信息。
根据本发明的方案,可自动由与候选词具有较高相似度的分类相关中获取词条信息的内容,从而极大的提高了词条信息的生成与更新的效。并且,能够更加充分地挖掘并利用分类相关网页的内容。
图6示意出了根据本发明的一个优选实施例的用于生成词条信息的词条生成装置的结构示意图。根据本实施例的词条生成装置包括第一获取装置1、第二获取装置2、第一确定装置3、第一生成装置4、第三获取装置5、第三确定装置6以及判断装置7。
其中,第一获取装置1、第二获取装置2、第一确定装置3以及第一生成装置4已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第三获取装置5获取与所述候选词对应的一项或多项网络发布信息。
其中,所述网络发布信息包括用于在互联网中发布的、具有一定的各类信息。优选地,所述网络发布信息包括广告。
其中,所述第三获取装置5获取与所述候选词对应的一项或多项网络发布信息的方式包括但不限于以下任一项:
1)第三获取装置5通过在第二预定搜索引擎中查询所述候选词,以获取与所述候选词对应的一项或多项网络发布信息。
其中,所述第二预定搜索引擎包括但不限于可基于候选词执行搜索并获取一个或多个网络发布信息的搜索引擎。
优选地,所述第二预定搜索引擎与前述参照图5的实施例中所述的第一预定搜索引擎为同一搜索引擎。
2)第三获取装置5通过预定的各个候选词与网络发布信息的对应关系,来获取与该候选词对应的一项或多项网络发布信息。
接着,第三确定装置6根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息。
具体地,所述第三确定装置6根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式包括但不限于以下任一项:
1)第三确定装置6统计所述候选词相对于所述一项或多项网络发布信息的权重信息。
例如,第三确定装置6统计所述候选词相对于其所对应的多项广告中的TF-IDF值并将其作为候选词的重要度信息。
2)第三确定装置6统计所述一项或多项网络发布信息数量,并将其作为所述候选词的重要度信息;
3)第三确定装置6获取所述一项或多项网络发布信息的被使用信息,并根据所获得的被使用信息来确定所述候选词的重要度信息。其中,所述网络发布信息的被使用信息包括但不限于以下至少任一项:
a)所述网络发布信息的被展现次数;
b)所述网络发布信息的被点击次数等。
例如,第三确定装置6统计候选词所对应的所有广告的被点击次数,并将其作为候选词的重要度信息;又例如,第三确定装置6统计候选词所对应的广告的平均被点击次数,以将其作为候选词的重要度信息等。
接着,判断装置7判断所述候选词的重要度信息是否满足预定重要度条件。
其中,所述预定重要度条件包括预定重要度阈值;
具体地,判断装置7判断所述候选词的重要度信息是否满足预定阈值。
接着,根据本实施例的方案,当所述候选词的重要度信息满足预定重要度条件时,第二获取装置2获取所述候选词的特征信息。
作为本实施例的优选方案之一,所述第三获取装置5进一步包括第一子获取装置(图未示)和第二搜索装置(图未示),所述第三确定装置进一步包括第三子确定装置(图未示)和第四子确定装置(图未示)。
第一子获取装置对所述候选词进行切词以获取多个子候选词。
第二搜索装置通过第二预定搜索引擎,基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息。
其中,所述第二搜索装置通过第二预定搜索引擎,基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息的方式与前述第三获取装置5通过在第二预定搜索引擎中查询所述候选词,以获取与所述候选词对应的一项或多项网络发布信息的方式相同或相似,故不再赘述。
接着,第三子确定装置基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息。
其中,第三子确定装置基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息的方式与前述计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式相同或相似,故不再赘述。
第四子确定装置基于各个子候选词的子重要度信息确定所述候选词的重要度信息。
具体地,所述第四子确定装置基于预定的统计规则,确定各个子候选词的子重要度信息。
优选地,第四子确定装置基于预定的统计规则,确定各个子候选词的子重要度信息的方式包括但不限于以下任一种:
1)第四子确定装置根据各个子候选词的子重要度信息,确定平均重要度信息,并将其作为候选词的重要度信息。
2)第四子确定装置获取各个子候选词相对于其所属的候选词的权重值,并基于各个子候选词的子重要度信息以及各个子候选词的权重值,来确定候选词的重要度信息。
例如,第四子确定装置基于各个子候选词在其所属的候选词中出现的次数来确定各个子候选词的权重值,并基于各个子候选词的子重要度信息以及各个子候选词的权重值,来确定候选词的重要度信息。
根据本实施例的方案,仅对满足预定重要度条件的候选词来生成词条,提高了词条生成效率。
图7示意出了根据本发明的又一个优选实施例的用于生成词条信息的词条生成装置的结构示意图。根据本实施例的词条生成装置包括第一获取装置1、第二获取装置2、第一确定装置3、第一生成装置4、导航获取装置8以及第二生成装置9。
其中,第一获取装置1、第二获取装置2、第一确定装置3以及第一生成装置4已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
导航获取装置8获取一个或多个网站的网页导航信息。
其中,所述一个或多个网站可以为人工指定的具有一定相似度的一个或多个网站,也可以为通过对大量网站的网页内容执行聚类分析后所确定的,具有一定相似度的一个或多个网站。
其中,所述网页导航信息包括但不限于基于网站中的网页栏目结构,为用户浏览网页提供提示的信息。
第二生成装置9根据所获得的一个或多个网页导航信息,来生成多级分类索引信息,其中,所述多级分类索引中的各个分类索引按照预定拓扑结构相互关联。
具体地,第二生成装置9根据所获得的一个或多个网页导航信息,来生成多级分类索引信息的方式包括但不限于以下任一项:
1)第二生成装置9直接将所获得的网页导航信息转换为多级分类索引。
例如,第二生成装置9将网站的导航栏中的各个栏目作为分类索引,并依次保存各个栏目之间的所属关系,以作为各个分类索引之间的所属关系,以生成多级分类索引。
2)第二生成装置9对多个网站的网页导航信息进行选择与合并,并基于选择合并后的结果来生成词条索引信息。
例如,第二生成装置9将该多个网站的导航栏中共同包含的一个或多个栏目作为分类索引,并选择其中一个网站导航栏中的各个栏目之间的所属关系,作为所获得的各个分类索引之间的所属关系的参考,以生成多级分类索引。
作为本实施例的优选方案之一,根据本方案的词条生成装置还包括第四获取装置(图未示)、第一特征确定装置(图未示)。
第四获取装置基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息,获取与该多级分类索引信息中的各个分类索引分别对应的分类相关网页。
具体地,第四获取装置基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息,确定分别与各个分类索引相对应的、所述一个或多个网站的网页导航信息中的部分导航信息,并获取所述一个或多个网站中与该部分导航信息对应的至少一个站点网页,作为与所述分类索引相对应的分类相关网页。
接着,第一特征确定装置基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息。
其中,第一特征确定装置基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息的方式与前述参照图5所示实施例中第二确定装置根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息的方式相同或相似,此处不再赘述。
接着,根据本实施例的第一确定装置3基于所述候选词的特征信息以及各个分类索引的分类特征信息,确定与所述候选词对应的分类索引。
具体地,第一确定装置3将所述候选词的特征信息与各个分类索引的分类特征信息进行比较,并选择分类特征信息与候选词的特征信息的相似度满足预定相似度条件的分类索引,作为与所候选词对应的分类索引。
其中,所述预定相似度条件包括相似度满足预定相似度阈值。
作为本实施例的优选方案之一,,所述预定拓扑结构包括多级的拓扑结构,其中相邻两级的分类索引之间为隶属关系,其中,所述第一确定装置3进一步包括比较获取装置(图未示)和第一分类确定装置(图未示)。
优选地,所述预定拓扑结构包括多级的树状结构,相邻的两级的分类索引之间为隶属关系。
比较获取装置将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引。
具体地,比较获取装置根据所述预定拓扑结构,按照预定遍历顺序,将所述候选词的特征信息逐个与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引。
例如,当预定拓扑结构为树状结构,并且预定遍历顺序为随机遍历时,随机获取尚未被遍历的分类索引,并将该分类索引的分类特征信息与候选词的特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引。
又例如,当预定拓扑结构为树状结构,并且预定遍历顺序为从叶结点逐层向上遍历时,先获取作为各个叶结点的分类索引,将该层的分类索引的分类特征信息与候选词的特征信息相比较,当未能在叶结点中获得与所述候选词的特征信息相似的分类索引时,再获取各个叶结点上一层的结点的分类索引,并将该层的分类索引的分类特征信息与候选词的特征信息相比较,依次逐层往上,直至获得与所述候选词的特征信息相似的分类索引。
当所获得的分类索引包含底层分类索引时,第一分类确定装置将该底层分类索引作为所述候选词对应的分类索引。
具体地,第一分类确定装置判断所获得的分类索引是否为底层分类索引,并当所获得的分类索引包含底层分类索引时,第一分类确定装置将该底层分类索引作为所述候选词对应的分类索引。
优选地,根据本方案的词条生成装置中,所述第一确定装置3还包括第三生成装置(图未示)和第二分类确定装置(图未示)。
当所获得的分类索引不包含底层索引节点时,第三生成装置基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词,来生成位于该最低级别的分类索引的下级分类索引。
具体地,第三生成装置基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词,来生成位于该最低级别的分类索引的下级分类索引的方式包括但不限于以下任一种:
1)第三生成装置基于候选词生成属于由前述第一分类确定装置所获得的分类索引的下级分类索引的名称,并基于候选词所对应的搜索结果页面以及所获得的分类索引所对应的分类相关页面,确定与该下级分类索引相对应的分类相关网页。
2)第三生成装置基于前述第一分类确定装置所获得的分类索引对应的一个或多个站点网页,在该一个或多个站点网页中查询并获取与候选词相关的至少一个网页,并确定与所该网页对应的中心词,以将其作为前述第一分类确定装置获得的分类索引的下级分类索引的名称,并将该至少一个网页作为与该下级分类索引对应的分类相关网页。
接着,第二分类确定装置将所生成的底层分类索引作为与所述候选词对应的分类索引。
根据本实施例的方案,通过获取一个或多个网站的网站导航信息来建立多级分类索引,从而使得词条的分类索引体系与实际使用中的体系相近,有利于更加全面的挖掘专业网站的内容信息,并且由于同时还可利用这些网站的网页内容作为分类索引的分类相关网页,故能够为候选词生成能够有更加系统、完整的词条信息。
图4示意出了根据本发明的又一优选实施例的用于生成词条信息的词条生成装置的结构示意图。根据本实施例的词条生成装置包括第一获取装置1、第二获取装置2、第一确定装置3、第一生成装置4、第一网页获取装置10、第二特征确定装置11、第三分类确定装置12以及提供装置13。
其中,第一获取装置1、第二获取装置2、第一确定装置3以及第一生成装置4已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第一网页获取装置10获取候选网站的一个或多个网页。
其中,第一网页获取装置10确定候选网站的方式包括但不限于以下任一种:
1)第一网页获取装置10获取人工指定的网站作为候选网站;
2)第一网页获取装置10将抓取到的网站页面与多级分类索引信息中的各个分类索引所对应的网页进行比较,以获得站点网页与所述各个分类索引所对应的网页相似的网站。
接着,第二特征确定装置11根据所述候选网站的一个或多个网页,确定该候选网站的站点特征信息。
其中,第二特征确定装置11根据所述候选网站的一个或多个网页,确定该候选网站的站点特征信息的方式与前述参照图5所示实施例中第二确定装置根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息的方式相同或相似,在此不再赘述。
接着,第三分类确定装置12将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较,以确定与该候选网站对应的一个或多个分类索引。
其中,第三分类确定装置12将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较,以确定与该候选网站对应的一个或多个分类索引的方式与前述参照图7所示实施例中比较确定装置将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引的方式相同或相似,在此不再赘述。
接着,提供装置13向该候选网站对应的候选用户提供该一个或多个分类索引分别对应的一个或多个候选词。
作为本实施力的优选方案,根据本实施例的词条生成装置还包括第二网页获取装置(图未示)、第一更新装置(图未示)以及第一更新装置(图未示)。
第二网页获取装置根据与所述候选网站对应的一个或多个分类索引,获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页。
其中,所述第二网页获取装置根据与所述候选网站对应的一个或多个分类索引,获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页的方式包括但不限于以下任一种:
1)第二网页获取装置获取该一个或多个分类索引的分类相关网页,将所获得的分类相关网页与所述候选网站的站点网页进行比较,以获得与所述分类相关网页相似的一个或多个站点网页,并将其作为与该分类相关网页所对应的分类索引的候选网页。
2)第二网页获取装置根据该一个或多个分类索引的分类特征信息,由候选网站中获取分别与该一个或多个分类索引的分类特征信息相似的一个或多个候选网页。
接着,第一更新装置基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页,确定或更新与该各个分类索引对应的分类相关网页。
具体地,第一更新装置将所确定的候选网页作为与分类索引对应的分类相关网页添加至与各个分类索引对应的分类相关网页库中。
第一更新装置基于所述更新后的与各个分类索引对应的分类相关网页,更新各个分类索引所对应的候选词的词条信息。
具体地,第一更新装置对属于个各个分类索引的一个或多个候选词,分别采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容。
其中,第一更新装置采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容的方式与前述参照图5所示实施例中第一生成装置根据与所述分类索引信息对应的至少一个分类相关网页,来确定与所述候选词对应的词条信息的方式相同或相似,此处不再赘述。
根据本实施例的方案,通过采用候选网站的内容来自动更新词条信息,使得词条内容能够尽快得到更新,并且提高了更新效率。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (24)
1.一种用于生成词条信息的方法,其中,所述方法包括以下步骤:
a获取候选词;
b基于所述候选词进行搜索,以获取所述候选词的特征信息;
c根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引;其中,所述分类索引对应至少一个分类相关网页;
d根据与所述分类索引信息对应的至少一个分类相关网页,来确定与所述候选词对应的词条信息。
2.根据权利要求1所述的方法,其中,所述步骤b包括以下步骤:
b1通过第一预定搜索引擎,基于所述候选词执行搜索,以获取与所述候选词对应的一个或多个搜索结果网页;
b2根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息。
3.根据权利要求2所述的方法,其中,所述步骤b2包括以下步骤:
-获取所述一个或多个搜索结果网页中所包含的至少一个关键词;
-获取所述至少一个关键词中的各个关键词的权重信息;
-基于所获得的各个关键词及其相应的权重信息,来确定与所述候选词对应的特征信息。
4.根据权利要求2所述的方法,其中,所述步骤b2包括以下步骤:
-通过预定主题确定模型,根据所述一个或多个搜索结果网页中的各个网页的网页内容,来确定与所述一个或多个搜索结果网页对应的主题相关信息;
-基于所确定主题相关信息来确定与所述候选词对应的特征信息。
5.根据权利要求1至3中任一项所述的方法,其中,所述方法还包括以下步骤:
x获取与所述候选词对应的一项或多项网络发布信息;
y根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息;
其中,所述方法还包括以下步骤:
-判断所述候选词的重要度信息是否满足预定重要度条件;
其中,所述步骤b包括以下步骤:
-当所述候选词的重要度信息满足预定重要度条件时,获取所述候选词的特征信息。
6.根据权利要求5所述的方法,其中,所述步骤x包括以下步骤:
-对所述候选词进行切词以获取多个子候选词;
-通过第二预定搜索引擎,基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息;
其中,所述步骤y包括以下步骤:
-基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息;
-基于各个子候选词的子重要度信息确定所述候选词的重要度信息。
7.根据权利要求1至6中任一项所述的方法,其中,所述方法还包括以下步骤:
-获取一个或多个网站的网页导航信息;
-根据所获得的一个或多个网页导航信息,来生成多级分类索引信息,其中,所述多级分类索引中的各个分类索引按照预定拓扑结构相互关联。
8.根据权利要求7所述的方法,其中,所述方法包括以下步骤:
-基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息,获取与该多级分类索引信息中的各个分类索引分别对应的网页;
-基于与所述各个分类索引相对应的网页来确定与该各个分类索引分别对应的分类特征信息;
其中,所述步骤c包括以下步骤:
-基于所述候选词的特征信息以及各个分类索引的分类特征信息,确定与所述候选词对应的分类索引。
9.根据权利要求8所述的方法,其中,所述预定拓扑结构包括多级的拓扑结构,其中相邻两级的分类索引之间为隶属关系,其中,所述步骤c包括以下步骤:
-将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引;
-当所获得的分类索引包含底层分类索引时,将该底层分类索引作为所述候选词对应的分类索引。
10.根据权利要求9所述的方法,其中,所述步骤c还包括以下步骤:
-当所获得的分类索引不包含底层索引节点时,基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词,来生成位于该最低级别的分类索引的下级分类索引;
-将所生成的底层分类索引作为与所述候选词对应的分类索引。
11.根据权利要求1至9中任一项所述的方法,其中,所述方法还包括以下步骤:
-获取候选网站的一个或多个网页;
-根据所述候选网站的一个或多个网页,确定该候选网站的站点特征信息;
-将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较,以确定与该候选网站对应的一个或多个分类索引;
-向该候选网站对应的候选用户提供该一个或多个分类索引分别对应的一个或多个候选词。
12.根据权利要求11所述的方法,其中,所述方法还包括以下步骤:
-根据与所述候选网站对应的一个或多个分类索引,获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页;
-基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页,确定或更新与该各个分类索引对应的分类相关网页;
-基于所述更新后的与各个分类索引对应的分类相关网页,更新各个分类索引所对应的候选词的词条信息。
13.一种用于生成词条信息的词条生成装置,其中,所述词条生成装置包括:
第一获取装置,用于获取候选词;
第二获取装置,用于基于所述候选词进行搜索,以获取所述候选词的特征信息;
第一确定装置,用于根据所述候选词的特征信息,在多级分类索引信息中确定与所述候选词对应的分类索引;其中,所述分类索引对应至少一个分类相关网页;
第一生成装置,用于根据与所述分类索引信息对应的至少一个分类相关网页,来确定与所述候选词对应的词条信息。
14.根据权利要求13所述的词条生成装置,其中,所述第二获取装置包括:
第一搜索装置,用于通过第一预定搜索引擎,基于所述候选词执行搜索,以获取与所述候选词对应的一个或多个搜索结果网页;
第二确定装置,用于根据所述一个或多个搜索结果网页,来确定与所述候选词对应的特征信息。
15.根据权利要求14所述的词条生成装置,其中,所述第二确定装置包括:
关键词获取装置,用于获取所述一个或多个搜索结果网页中所包含的至少一个关键词;
权重获取装置,用于获取所述至少一个关键词中的各个关键词的权重信息;
第一子确定装置,用于基于所获得的各个关键词及其相应的权重信息,来确定与所述候选词对应的特征信息。
16.根据权利要求14所述的词条生成装置,其中,所述第二确定装置包括以下步骤:
模型确定装置,用于通过预定主题确定模型,根据所述一个或多个搜索结果网页中的各个网页的网页内容,来确定与所述一个或多个搜索结果网页对应的主题相关信息;
第二子确定装置,用于基于所确定的主题相关信息来确定与所述候选词对应的特征信息。
17.根据权利要求13至16中任一项所述的词条生成装置,其中,所述词条生成装置还包括:
第三获取装置,用于获取与所述候选词对应的一项或多项网络发布信息;
第三确定装置,用于根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息;
判断装置,用于判断所述候选词的重要度信息是否满足预定重要度条件;
其中,所述第二获取装置用于:
-当所述候选词的重要度信息满足预定重要度条件时,获取所述候选词的特征信息。
18.根据权利要求17所述的词条生成装置,其中,所述第三获取装置包括:
第一子获取装置,用于对所述候选词进行切词以获取多个子候选词;
第二搜索装置,用于通过第二预定搜索引擎,基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息;
其中,所述第三确定装置包括:
第三子确定装置,用于基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息;
第四子确定装置,用于基于各个子候选词的子重要度信息确定所述候选词的重要度信息。
19.根据权利要求13至18中任一项所述的词条生成装置,其中,所述词条生成装置还包括:
导航获取装置,用于获取一个或多个网站的网页导航信息;
第二生成装置,用于根据所获得的一个或多个网页导航信息,来生成多级分类索引信息,其中,所述多级分类索引中的各个分类索引按照预定拓扑结构相互关联。
20.根据权利要求19所述的词条生成装置,其中,所述词条生成装置包括以下步骤:
第四获取装置,用于基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息,获取与该多级分类索引信息中的各个分类索引分别对应的网页;
第一特征确定装置,用于基于与所述各个分类索引相对应的网页来确定与该各个分类索引分别对应的分类特征信息;
其中,所述第一确定装置用于:
-基于所述候选词的特征信息以及各个分类索引的分类特征信息,确定与所述候选词对应的分类索引。
21.根据权利要求20所述的词条生成装置,其中,所述预定拓扑结构包括多级的拓扑结构,其中相邻两级的分类索引之间为隶属关系,其中,所述第一确定装置包括:
比较获取装置,用于将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较,以获取其分类特征信息与所述候选词的特征信息相似的分类索引;
第一分类确定装置,用于当所获得的分类索引包含底层分类索引时,将该底层分类索引作为所述候选词对应的分类索引。
22.根据权利要求21所述的词条生成装置,其中,所述第一确定装置还包括:
第三生成装置,用于当所获得的分类索引不包含底层索引节点时,基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词,来生成位于该最低级别的分类索引的下级分类索引;
第二分类确定装置,用于将所生成的底层分类索引作为与所述候选词对应的分类索引。
23.根据权利要求13至权利要求21所述的词条生成装置,其中,所述词条生成装置还包括:
第一网页获取装置,用于获取候选网站的一个或多个网页;
第二特征确定装置,用于根据所述候选网站的一个或多个网页,确定该候选网站的站点特征信息;
第三分类确定装置,用于将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较,以确定与该候选网站对应的一个或多个分类索引;
提供装置,用于向该候选网站对应的候选用户提供该一个或多个分类索引分别对应的一个或多个候选词。
24.根据权利要求23所述的词条生成装置,其中,所述词条生成装置还包括:
第二网页获取装置,用于根据与所述候选网站对应的一个或多个分类索引,获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页;
第一更新装置,用于基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页,确定与该各个分类索引对应的分类相关网页;
第一更新装置,用于基于所述更新后的与各个分类索引对应的分类相关网页,更新各个分类索引所对应的候选词的词条信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310268427.5A CN104252487B (zh) | 2013-06-28 | 2013-06-28 | 一种用于生成词条信息的方法和装置 |
PCT/CN2014/079220 WO2014206186A1 (zh) | 2013-06-28 | 2014-06-05 | 一种用于生成词条信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310268427.5A CN104252487B (zh) | 2013-06-28 | 2013-06-28 | 一种用于生成词条信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104252487A true CN104252487A (zh) | 2014-12-31 |
CN104252487B CN104252487B (zh) | 2019-05-03 |
Family
ID=52141011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310268427.5A Active CN104252487B (zh) | 2013-06-28 | 2013-06-28 | 一种用于生成词条信息的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104252487B (zh) |
WO (1) | WO2014206186A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776652A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN107506473A (zh) * | 2017-09-05 | 2017-12-22 | 郑州升达经贸管理学院 | 一种基于云计算的大数据检索方法 |
CN108268552A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 网站信息的处理方法及装置 |
CN109271615A (zh) * | 2017-07-13 | 2019-01-25 | 北京搜狗科技发展有限公司 | 词条处理方法、装置和机器可读介质 |
CN113282745A (zh) * | 2020-02-20 | 2021-08-20 | 清华大学 | 事件百科文档自动生成方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040199498A1 (en) * | 2003-04-04 | 2004-10-07 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
CN101957831A (zh) * | 2009-07-17 | 2011-01-26 | 刘二中 | 文件内容的特征词的输入和处理方法 |
CN101986310A (zh) * | 2010-11-16 | 2011-03-16 | 无敌科技(西安)有限公司 | 一种更新网络用语词典的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9081852B2 (en) * | 2007-10-05 | 2015-07-14 | Fujitsu Limited | Recommending terms to specify ontology space |
CN101251854A (zh) * | 2008-03-19 | 2008-08-27 | 深圳先进技术研究院 | 一种生成检索词条的方法及数据检索方法和系统 |
CN101566995A (zh) * | 2008-04-25 | 2009-10-28 | 北京搜狗科技发展有限公司 | 一种互联网信息整合发布的方法和系统 |
CN102314439B (zh) * | 2010-06-30 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 与应用接口相结合的输入方法和设备 |
-
2013
- 2013-06-28 CN CN201310268427.5A patent/CN104252487B/zh active Active
-
2014
- 2014-06-05 WO PCT/CN2014/079220 patent/WO2014206186A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040199498A1 (en) * | 2003-04-04 | 2004-10-07 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
CN101957831A (zh) * | 2009-07-17 | 2011-01-26 | 刘二中 | 文件内容的特征词的输入和处理方法 |
CN101986310A (zh) * | 2010-11-16 | 2011-03-16 | 无敌科技(西安)有限公司 | 一种更新网络用语词典的方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776652A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN108268552A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 网站信息的处理方法及装置 |
CN108268552B (zh) * | 2016-12-30 | 2020-08-11 | 北京国双科技有限公司 | 网站信息的处理方法及装置 |
CN109271615A (zh) * | 2017-07-13 | 2019-01-25 | 北京搜狗科技发展有限公司 | 词条处理方法、装置和机器可读介质 |
CN109271615B (zh) * | 2017-07-13 | 2023-10-31 | 北京搜狗科技发展有限公司 | 词条处理方法、装置和机器可读介质 |
CN107506473A (zh) * | 2017-09-05 | 2017-12-22 | 郑州升达经贸管理学院 | 一种基于云计算的大数据检索方法 |
CN113282745A (zh) * | 2020-02-20 | 2021-08-20 | 清华大学 | 事件百科文档自动生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2014206186A1 (zh) | 2014-12-31 |
CN104252487B (zh) | 2019-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
RU2501078C2 (ru) | Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе | |
CN100483408C (zh) | 在多个文档之间建立链接结构的方法和装置 | |
CN102063469B (zh) | 一种用于获取相关关键词信息的方法、装置和计算机设备 | |
JP5092165B2 (ja) | データ構築方法とシステム | |
KR100898456B1 (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
CN105389349A (zh) | 词典更新方法及装置 | |
JP5329540B2 (ja) | ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
CN102043833A (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN104794242A (zh) | 一种搜索方法 | |
CN103902597A (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
CN104133868B (zh) | 一种用于垂直爬虫数据分类整合的策略 | |
CN104252487A (zh) | 一种用于生成词条信息的方法和装置 | |
CN104978368A (zh) | 一种用于提供推荐信息的方法和装置 | |
CN105518661A (zh) | 经由挖掘的超链接文本的片段来浏览图像 | |
Du et al. | An approach for selecting seed URLs of focused crawler based on user-interest ontology | |
KR20220119745A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
CN108572971A (zh) | 一种用于挖掘与检索词相关的关键词的方法和装置 | |
CN105468649A (zh) | 一种待展示对象匹配的判断方法及其装置 | |
CN104657376A (zh) | 基于节目关系的视频节目的搜索方法和装置 | |
CN111625630A (zh) | 信息处理装置、信息处理方法和计算机可读记录介质 | |
CN105389328A (zh) | 一种大规模开源软件搜索排序优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |