CN103744956B - 一种关键词的多样化拓展方法 - Google Patents

一种关键词的多样化拓展方法 Download PDF

Info

Publication number
CN103744956B
CN103744956B CN201410004563.8A CN201410004563A CN103744956B CN 103744956 B CN103744956 B CN 103744956B CN 201410004563 A CN201410004563 A CN 201410004563A CN 103744956 B CN103744956 B CN 103744956B
Authority
CN
China
Prior art keywords
web page
key word
class
word
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410004563.8A
Other languages
English (en)
Other versions
CN103744956A (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
孙海春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201410004563.8A priority Critical patent/CN103744956B/zh
Publication of CN103744956A publication Critical patent/CN103744956A/zh
Application granted granted Critical
Publication of CN103744956B publication Critical patent/CN103744956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种辅助网络信息搜索的方法,实现关键词的多样化拓展。可以被嵌入应用到多种web信息服务系统中。方法基于一种简单的网页预处理及组织机制。能够依据用户不同的需求,得到关键词的在不同范围的多样化扩展词语集合;依据互联网络上面的超链接,构建基于网页分类的索引网络;基于构建好的索引网络,实现关键词的多样化扩展;即使用户以前没有查询过这个关键词或者这个领域,扩展仍然能够推荐出用户最有可能的查询语义。

Description

一种关键词的多样化拓展方法
技术领域
本发明属于Web信息检索领域,具体涉及Web信息检索、Web信息应用中的一种关键词的拓展方法。
背景技术
随着网络在人们日常生活中的普及,网络上的资源呈指数倍增长。各种信息杂乱地分布在互联网络上,目前,大部分用户借助搜索引擎来查找信息。但是,依靠关键词匹配的技术来筛选信息,使得现有的搜索引擎技术具有很大的局限性。缺点之一是:搜索引擎对用户服务质量的好坏在很大程度上依赖于用户输入的关键词的精确程度。实际上,只有少部分的用户一次性地给出准确的搜索词。由于用户的先验知识及用户表达能力的差异,很多情况下,在输入关键词时,用户需要搜索引擎提供一定的指导。
目前,也出现了一些关键词拓展/关键词推荐的相关技术和应用。例如:Google、Bing、Baidu等知名搜索引擎的“Searches related to…”中,系统推荐出了与搜索词相匹配的、并且最近一段时间的热度搜索关键词;搜索“天气预报”,会出现“天气预报查询一周”、“北京天气预报”、“上海天气预报”等。但是,这样的相关搜索有一个前提,要求用户输入的关键词是正确的。假如,用户无法给出查询内容的一个关键词,这种推荐是无效的。此外,有些搜索引擎也会借助传统的搜索引擎,把匹配到的网页中出现频次较高的一些词作为扩展词,推荐给用户;比如:Carrot(http://search.carrot2.org/stable/search)。相比于Google等的“Searches related to..”,这类推荐能够帮助用户对搜索的内容进一步精确。比如:搜索“教育”,会推荐出“高等教育”,“高考”,“儿童教育”等。这类推荐适用于需要对搜索内容逐步细化和精确的情况,而不适用于需要对搜索词进行联想式的扩展。同时,这类推荐需要系统实时地去提取高频率关键词,带给系统一定的负载和延迟。
发明内容
本发明的主要目的在于提供一种关键词扩展方法。通过使用这种方法,Web信息服务应用系统对给定的关键词进行“关联性”拓展、“兄弟语义”拓展和“用户个性化”拓展。所谓“关联性”拓展,是指查找一些与输入关键词不匹配,但是有现实关联的关键词。比如:输入“大学学院”,扩展出“医学院”、“研究所”、“建筑科学”、“艺术教育”等等;输入“远程教育”,拓展出“科研”,“法学”等。“兄弟语义”关联是指,查找与输入关键词属于同一个主题的其它关键词;在本体中,这些词具有同一个父类词。比如:“苹果”和“梨”,它们具有共同的父类词“水果”。“用户个性化”扩展是指依据用户的偏好对关键词进行扩展。
本发明给出的技术方案是:
一种关键词的多样化扩展方法,用于辅助网络信息搜索。其特征在于:
首先,把网页类别看作一个主题。依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络。
其次,基于构建的索引网络,实现关键词的多样化扩展。包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法。
所述关键词,是指用户用来搜索信息时,所输入的关键词;
所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;
所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;
所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词。
与现有技术相比,本发明的有益效果:
(1)“关联性”扩展可以拓展出一些不包含搜索词,但是与搜索词紧密关联的一系列关键词。
(2)“兄弟语义”扩展能够扩展出与关键词同属于一个主题的其它特征词。扩展出的结果比现有技术更加多样化、覆盖面更加全。
(3)“用户个性化”扩展,能够智能识别用户的偏好进行扩展,当用户输入的关键词为多义词时,这种方法利于区分用户的查询语义。另外,用户个性化扩展的优势是,即使用户以前没有查询过这个关键词或者这个领域,扩展仍然能够推荐出用户最有可能的查询语义。
附图说明
下面结合附图和实施方式对本发明作进一步的详细说明:
图1为基于网页分类的索引网络的构建流程。
图2为互联网络上的网页爬取流程。
图3为网页类与网页类之间的关联构建。
图4为兄弟语义关键词拓展的实现。
图5为关联性关键词扩展的实现流程。
图6为用户个性化关键词扩展的实现。
具体实施方式
以下通过附图对本发明技术方案作进一步详细介绍。
第一步,依据互联网络上面的超链接,构建基于网页分类的索引网络。索引网络的构建步骤如图1所示。
(11)首先,选定网页分类体系及其训练集合,使用朴素贝叶斯算法,完成网页类的特征向量的训练。具体地,我们借助dmoz人工分类目录的中文部分(http://www.dmozdir.org/),人工选取分类目录中的300个类,把它们包含的网页作为训练集。训练完成之后,我们使用WorldNet,对网页类的特征词进行近义词拓展,以便获得描述更全面的特征向量。(12)然后,爬取互联网络上的网页,依据训练好的网页分类器,对网页进行分类处理。我们设计开发的爬虫如图2所示。具体地,我们设定爬虫从信息门户网站出发,使用深度优先的策略来爬取互联网络上的网页。(13)最后,分析网页类与网页类之间的超链接,建立网页类与网页类之间关联,形成索引网络。我们使用公式(1)来统计网页类与网页类之间的超链接,判断网页类之间的关联是否存在。进一步地,用公式(2)对公式(1)的结果进行归一化处理,给出关联的强度。网页类与网页类之间关系的构建流程如图3所示。
l ( u i , u j ) = Σ p x ∈ u i , p y ∈ u j i ( p x , p y ) | u i | ; i ≠ j ; 0 ; i = j ·
i ( p x , p y ) = 1 i f p x h a s h y p e r l i n k t o p y 0 e l s e - - - ( 1 )
其中,“u”代表网页类。“p”代表网页,“|u|”代表类u中的网页总数。
l ′ ( u 1 , u 2 ) = 1 Σ l ( u 1 , u i ) ≠ 0 l ( u 1 , u i ) * l ( u 1 , u 2 ) - - - ( 2 )
第二步,基于构建好的索引网络,实现关键词的多样化扩展。
(21)实现关键词的“兄弟语义”拓展。实现流程如图4所示。具体方法如下:
“|u|”代表类u中的网页总数,“fu(r′)”表示类u中与输入关键词相匹配的网页的数目,“η”为一个阈值;当条件成立时,我们把这个类中出现频次较高的词的集合作为关键词的扩展展示给用户。在这种方法中,“η”是一个系统开发者设定的阈值;可以作为是否对关键词进行拓展的条件进行选择。
(22)实现关键词的“关联性”拓展。实现流程如图5所示。具体方法如下:
时,输入的关键词被定位到网页类“u1”,依据设定的阈值δ,我们获得所有满足条件l′(u1,u2)>δ的网页类的集合;这些网页类中的特征词将按照网页类与“u1”的关联强度和特征词在该网页类中出现的频次两个因素计算它们的推荐值。推荐值的计算过程如下:首先,对所有关联网页类的关联程度进行归一化处理;然后,把归一化得到的数值作为词语的叠加系数,计算词语的推荐值;推荐值大的特征词优先作为输入关键词的扩展。假设,与网页类“u1”相关联的网页类有m个,那么,词语w的推荐值的计算公式为:“tfw-21”代表词语w在网页类“u21”中的出现频次。
(23)实现关键词的“用户个性化”拓展。实现流程如图6所示。具体方法如下:
作为后台预处理工作,首先,依据用户的浏览日志,计算用户的主题偏好。如图6(a)所示。把用户的浏览历史记录投射到所有的类中,这样,可以得到一个用户的偏好的集合“U”。利用简单的比率公式,计算出用户对每个类的偏好比率。“U(ui)”为用户浏览记录落在类“ui”中的次数,“|U|”为用户浏览记录的总数目。
当用户输入一个搜索关键词时,假如关键词被定位到多个网页类“uj1,uj2,…ujn”中。我们认为:与用户偏好的网页类关联最紧密的类的特征词被推荐的可能性最大。那么,类“uji”中关键词w被推荐的概率值为:
r w = ( | U ( u 1 ) | | U | * l ′ ( u j i , u 1 ) + ... + | U ( u n ) | | U | * l ′ ( u j i , u n ) ) * tf w - u j i
具体的推荐实现流程如图6(b)所示。

Claims (1)

1.一种关键词的多样化扩展方法,用于辅助网络信息搜索;其特征在于:
首先,把网页类别看作一个主题;依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络;
其次,基于构建的索引网络,实现关键词的多样化扩展;
包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法;
所述关键词,是指用户用来搜索信息时,所输入的关键词;
所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;
所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;
所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词;
具体包括如下步骤:
第一步,依据互联网络上面的超链接,构建基于网页分类的索引网络;
(11)首先,选定网页分类体系及其训练集合,使用朴素贝叶斯算法,完成网页类的特征向量的训练;具体地,借助dmoz人工分类目录的中文部分,人工选取分类目录中的300个类,把它们包含的网页作为训练集;训练完成之后,使用WorldNet,对网页类的特征词进行近义词拓展,获得描述更全面的特征向量;(12)然后,爬取互联网络上的网页,依据训练好的网页分类器,对网页进行分类处理;爬虫从信息门户网站出发,使用深度优先的策略来爬取互联网络上的网页;(13)最后,分析网页类与网页类之间的超链接,建立网页类与网页类之间关联,形成索引网络;
使用公式(1)来统计网页类与网页类之间的超链接,判断网页类之间的关联是否存在;进一步地,用公式(2)对公式(1)的结果进行归一化处理,给出关联的强度;
l ( u i , u j ) = Σ p x ∈ u i , p y ∈ u j i ( p x , p y ) | u i | ; i ≠ j ; 0 ; i = j .
i ( p x , p y ) = 1 i f p x h a s h y p e r l i n k t o p y 0 e l s e - - - ( 1 )
其中,“u”代表网页类;“p”代表网页,“|u|”代表类u中的网页总数;
l ′ ( u 1 , u 2 ) = 1 Σ l ( u 1 , u i ) ≠ 0 l ( u 1 , u i ) * l ( u 1 , u 2 ) - - - ( 2 )
第二步,基于构建好的索引网络,实现关键词的多样化扩展;
(21)实现关键词的“兄弟语义”拓展;实现流程如下:
“|u|”代表类u中的网页总数,“fu(r′)”表示类u中与输入关键词相匹配的网页的数目,“η”为一个阈值;当条件成立时,把这个类中出现频次较高的词的集合作为关键词的扩展展示给用户;在这种方法中,“η”是一个系统开发者设定的阈值;作为是否对关键词进行拓展的条件进行选择;
(22)实现关键词的“关联性”拓展;实现流程方法如下:
时,输入的关键词被定位到网页类“u1”,依据设定的阈值δ,获得所有满足条件l′(u1,u2)>δ的网页类的集合;这些网页类中的特征词将按照网页类与“u1”的关联强度和特征词在该网页类中出现的频次两个因素计算它们的推荐值;推荐值的计算过程如下:首先,对所有关联网页类的关联程度进行归一化处理;然后,把归一化得到的数值作为词语的叠加系数,计算词语的推荐值;推荐值大的特征词优先作为输入关键词的扩展;假设,与网页类“u1”相关联的网页类有m个,那么,词语w的推荐值的计算公式为:
r w = l ′ ( u 1 , u 21 ) Σ i = 1 m l ′ ( u 1 , u 2 i ) * tf w - 21 + ... + l ′ ( u 1 , u 2 m ) Σ i = 1 m l ′ ( u 1 , u 2 i ) * tf w - 2 m ;
“tfw-21”代表词语w在网页类“u21”中的出现频次;
(23)实现关键词的“用户个性化”拓展;实现流程方法如下:
作为后台预处理工作,首先,依据用户的浏览日志,计算用户的主题偏好;把用户的浏览历史记录投射到所有的类中,得到一个用户的偏好的集合“U”;利用比率公式,计算出用户对每个类的偏好比率;“U(ui)”为用户浏览记录落在类“ui”中的次数,“|U|”为用户浏览记录的总数目;
当用户输入一个搜索关键词时,假如关键词被定位到多个网页类“uj1,uj2,…ujn”中;与用户偏好的网页类关联最紧密的类的特征词被推荐的可能性最大;类“uji”中关键词w被推荐的概率值为:
r w = ( | U ( u 1 ) | | U | * l ′ ( u j i , u 1 ) + ... + | U ( u n ) | | U | * l ′ ( u j i , u n ) ) * tf w - u j i .
CN201410004563.8A 2014-01-06 2014-01-06 一种关键词的多样化拓展方法 Active CN103744956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410004563.8A CN103744956B (zh) 2014-01-06 2014-01-06 一种关键词的多样化拓展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410004563.8A CN103744956B (zh) 2014-01-06 2014-01-06 一种关键词的多样化拓展方法

Publications (2)

Publication Number Publication Date
CN103744956A CN103744956A (zh) 2014-04-23
CN103744956B true CN103744956B (zh) 2017-01-04

Family

ID=50501974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410004563.8A Active CN103744956B (zh) 2014-01-06 2014-01-06 一种关键词的多样化拓展方法

Country Status (1)

Country Link
CN (1) CN103744956B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391871A (zh) * 2014-10-27 2015-03-04 北京百度网讯科技有限公司 多媒体内容的提供方法和装置
CN105426508B (zh) * 2015-11-30 2019-07-05 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN106227714A (zh) * 2016-07-14 2016-12-14 北京百度网讯科技有限公司 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN108694198A (zh) * 2017-04-10 2018-10-23 富士通株式会社 信息收集设备和信息收集方法
CN107357847B (zh) * 2017-06-26 2020-07-31 北京京东尚科信息技术有限公司 数据处理方法及其装置
CN108021641B (zh) * 2017-11-29 2019-07-19 有米科技股份有限公司 应用的关联关键词拓展的方法和装置
CN108874773B (zh) * 2018-05-31 2023-04-18 平安医疗科技有限公司 关键词新增方法、装置、计算机设备和存储介质
CN109271574A (zh) * 2018-08-28 2019-01-25 麒麟合盛网络技术股份有限公司 一种热词推荐方法及装置
CN109871483B (zh) * 2019-01-22 2020-10-23 珠海天燕科技有限公司 一种推荐信息的确定方法及装置
CN110032734B (zh) * 2019-03-18 2023-02-28 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN109992724B (zh) * 2019-04-03 2024-05-31 西咸新区心灯软件科技有限公司 一种基于个人特征信息的用户契合度的计算方法和装置
CN113032530B (zh) * 2021-04-26 2022-05-27 朗动信息咨询(上海)有限公司 一种基于大数据采集分析的咨询服务系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295319A (zh) * 2008-06-24 2008-10-29 北京搜狗科技发展有限公司 一种扩展查询的方法、装置及搜索引擎系统
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法
CN102625936A (zh) * 2009-08-04 2012-08-01 谷歌公司 来自文档的查询建议
CN102968465A (zh) * 2012-11-09 2013-03-13 同济大学 网络信息服务平台及其基于该平台的搜索服务方法
CN102999569A (zh) * 2012-11-09 2013-03-27 同济大学 用户需求分析定位器和分析及定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295319A (zh) * 2008-06-24 2008-10-29 北京搜狗科技发展有限公司 一种扩展查询的方法、装置及搜索引擎系统
CN102625936A (zh) * 2009-08-04 2012-08-01 谷歌公司 来自文档的查询建议
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法
CN102968465A (zh) * 2012-11-09 2013-03-13 同济大学 网络信息服务平台及其基于该平台的搜索服务方法
CN102999569A (zh) * 2012-11-09 2013-03-27 同济大学 用户需求分析定位器和分析及定位方法

Also Published As

Publication number Publication date
CN103744956A (zh) 2014-04-23

Similar Documents

Publication Publication Date Title
CN103744956B (zh) 一种关键词的多样化拓展方法
CN105488024B (zh) 网页主题句的抽取方法及装置
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN104199822B (zh) 一种识别搜索对应的需求分类的方法和系统
CN103778227B (zh) 从检索图像中筛选有用图像的方法
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN105045875B (zh) 个性化信息检索方法及装置
CN102236646A (zh) 对象级垂直搜索引擎个性化排序算法iRank
CN106682172A (zh) 一种基于关键词的文献研究热点推荐方法
CN103646099B (zh) 一种基于多层图的论文推荐方法
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN105095433A (zh) 实体推荐方法及装置
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN103853831A (zh) 一种基于用户兴趣的个性化搜索实现方法
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN106250545A (zh) 一种基于用户搜索内容的多媒体推荐方法及系统
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant