CN102999569A - 用户需求分析定位器和分析及定位方法 - Google Patents

用户需求分析定位器和分析及定位方法 Download PDF

Info

Publication number
CN102999569A
CN102999569A CN2012104458043A CN201210445804A CN102999569A CN 102999569 A CN102999569 A CN 102999569A CN 2012104458043 A CN2012104458043 A CN 2012104458043A CN 201210445804 A CN201210445804 A CN 201210445804A CN 102999569 A CN102999569 A CN 102999569A
Authority
CN
China
Prior art keywords
user
proper vector
class
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104458043A
Other languages
English (en)
Other versions
CN102999569B (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
孙海春
邓晓栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201210445804.3A priority Critical patent/CN102999569B/zh
Publication of CN102999569A publication Critical patent/CN102999569A/zh
Application granted granted Critical
Publication of CN102999569B publication Critical patent/CN102999569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用户需求分析定位器和分析及定位方法,其用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。用户需求分析模块的主要功能为:理解用户输入的信息。用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。

Description

用户需求分析定位器和分析及定位方法
技术领域
本发明涉及网络信息检索中的分析及定位方法,具体为网络信息服务系统的用户需求分析定位器和分析及定位方法。
背景技术
飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广义地说,搜索引擎就是指在互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。
搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以分为三步:(1)从互联网中抓取网页;(2)建立索引数据库;(3)在索引数据库中进行搜索排序。
传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能深入网站内部细节。而后者效率比较低且返回信息过多。传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面进行改善。
发明内容
本发明的目的在于克服现有技术的不足,公开一种基于关键词扩展的用户需求理解及定位方法,根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息,然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。
本发明通过以下技术方案实现:
一种用户需求分析及定位方法,其特征在于,具体包括如下步骤:
(1)利用现有的分词算法对用户的输入进行切词;
(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;
(3)根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
所述步骤(1),其特征在于,具体采用下方法实现:使用搜狗输入法的词库及现有的分词算法-最短路径匹配算法,来对用户的输入进行切词。
所述步骤(2),其特征在于,具体采用下方法实现:
步骤一:将步骤(1)中产生的切词分量根据近义词库找出它们n个近义词集,其中近义词库建立方法为通过分析互联网上各个词典中对于近义词的描述,对每个词的近义词进行加权;
步骤二:步骤一中选取的近义词集中选取m个词作为本次用户输入的特征向量;选取的时候考虑用户输入的完整性;即当m>=n时,根据切词的结果产生的每个近义词集中至少有一个出现在特征向量中,其他词的选择则根据该词的权值占所有扩展成的近义词的比例来从高到低进行选择;当m<n时,则选择所有扩展成的近义词集中权值最高的词组成集合中的前m个作为用户输入的特征向量。
所述步骤(3),其特征在于,具体采用下方法实现:
步骤一:让用户需求特征向量中的关键词与每个基础类的特征向量的关键词进行匹配,如果有相同的关键词,则加权为1,如果互相包含则加权为0.5,匹配完成后,每个基础类和用户的输入向量均有一个匹配值;
步骤二:根据用户的输入和每个定义的类的匹配权值,选择匹配到的类的集合;如果要定位到一个类中,则选择其中权值最高的类作为定位的结果输出;如果要选择定位的n个类中,则选择匹配中前n高权值的类作为结果输出。
一种用户行为需求分析定位器,其特征在于,它包括用户需求分析模块和用户需求定位模块,所述用户需求分析模块实现理解用户输入的信息,它包括分词处理器和特征向量扩展器,所述用户需求定位模块为需求定位器,将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页,其中:
所述分词处理器利用现有的分词算法对用户的输入进行切词,从而更好的理解用户需求;
所述特征向量扩展器,根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;
所述需求定位器,根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
本发明用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。
与现有技术相比,本发明的创新点:
1、用户需求的扩展采用近义词扩展,这样不仅可以对用户的需求进行理解,还能够扩展出用户感兴趣需求,能够在搜索结果中反映出更多而且准确的信息。
2、将用户需求定义为特征向量,在不影响用户需求表达的前提下,充分挖掘用户的需求。
3、定义特征向量是一种新的匹配方法,该方法能够根据特征向量间词语的包含关系来反应特征向量的相似度。
4、不只是简单的将用户需求直接定位到网页中,而是将用户需求定位到类中,将定位提升到一个更高的层次,方便对分好类的网页做进一步的操作处理。
附图说明
图1是类的组成结构。
图2是网络信息服务系统整体架构图。
图3是用户需求分析定位器主要功能。
图4是特征向量扩展器流程图。
图5是需求定位器流程图。
具体实施方式
以下结合附图对本发面技术方案作进一步说明。
整个信息服务服务系统建立在传统的搜索引擎的基础之上,即:首先从互联网上抓取网页,将网页建立数据库进行存储,然后对网页建立倒排索引,保证传统的搜索引擎功能能够实现;其次,针对用户找信息难的问题,本发明信息服务服务系统采用两个方面进行解决:(1)对用户需求进行分析和理解,最大限度的提供给用户有价值的信息;(2)对网页进行整理分类,提供给用户一套服务方案。首先根据DMOZ的人工分类目录,提取出类,每个类由类名和特征向量组成,具体如图1所示。然后,对抓取的网页按照提取到的类标准对网页进行分类,根据类中的网页之间的互相链接关系上升为类与类之间的链接关系,从而确定出类与类之间的一套索引网,进行存储,最后根据用户的输入在索引网络上抽取出不同的服务方案,返回给用户。
整个信息服务服务系统的工作流程如图2所示。该信息服务服务系统的具体功能为:
首先信息收集子系统中,使用爬虫对互联网的信息进行收集,
其次利用分类器,对爬取的信息进行分类整理,
然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,
然后将构建的结果存入数据库。
最后,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,
最后返回给用户界面满足用户需求的信息。
其中本发明的用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。所述用户需求分析模块的主要功能为:理解用户输入的信息。其主要操作为:(1)利用现有的分词算法对用户的输入进行切词;(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页。所述用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。其主要操作为:根据形成的特征向量与网络信息服务系统中定义的类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
本发明的用户行为需求分析器的主要功能如图3所示,结构上它主要有三个部分组成,分别为:分词处理器,特征向量扩展器及需求定位器。下面着重对这三个部分进行详细说明。
(1)分词处理器。
对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。而分词的准确与否,常常直接影响到对搜索结果的相关度排序,对搜索引擎结果相关性和准确性有相当大的关系。信息服务服务系统中的分词处理器使用搜狗输入法的词库及现在比较主流的分词算法-最短路径匹配算法,来对用户的输入进行切词,从而更好的理解用户需求。
(2)特征向量扩展器。
如下图4所示,为特征向量扩展器的流程图,总体可以分为两个步骤:
步骤一:将(1)中产生的切词分量根据近义词库找出它们n个近义词集。其中近义词库建立方法为通过分析互联网上各个词典中对于近义词的描述,对每个词的近义词进行加权。
步骤二:步骤一中选取的近义词集中选取m个词作为本次用户输入的特征向量。选取的时候必须考虑用户输入的完整性。即当m>=n时,根据切词的结果产生的每个近义词集中至少有一个出现在特征向量中,其他词的选择则根据该词的权值占所有扩展成的近义词的比例来从高到低进行选择;当m<n时,则选择所有扩展成的近义词集中权值最高的词组成集合中的前m个作为用户输入的特征向量。
(3)需求定位器。
如下图5所示,为需求定位流程图,总体可以分为两个步骤。
步骤一:用所有基础类的特征向量和用户的输入向量进行匹配。具体的做法为,让用户需求特征向量中的关键词与每个类的特征向量的关键词进行匹配,如果有相同的关键词,则加权为1,如果互相包含则加权为0.5。匹配完成后,每个基础类和用户的输入向量均有一个匹配值。
步骤二:根据用户的输入和每个基础类的匹配权值,选择匹配到的类的集合。如果要定位到一个类中,则选择其中权值最高的类作为定位的结果输出;如果要选择定位的n个类中,则选择匹配中前n高权值的类作为结果输出。

Claims (5)

1.一种用户需求分析及定位方法,其特征在于,具体包括如下步骤:
(1)利用现有的分词算法对用户的输入进行切词;
(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;
(3)根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
2.如权利要求1所述的用户需求分析及定位方法,其特征在于,所述步骤(1),具体采用下方法实现:使用搜狗输入法的词库及现有的分词算法-最短路径匹配算法,来对用户的输入进行切词。
3.如权利要求1所述的用户需求分析及定位方法,其特征在于,所述步骤(2),其特征在于,具体采用下方法实现:
步骤一:将步骤(1)中产生的切词分量根据近义词库找出它们n个近义词集,其中近义词库建立方法为通过分析互联网上各个词典中对于近义词的描述,对每个词的近义词进行加权;
步骤二:步骤一中选取的近义词集中选取m个词作为本次用户输入的特征向量;选取的时候考虑用户输入的完整性;即当m>=n时,根据切词的结果产生的每个近义词集中至少有一个出现在特征向量中,其他词的选择则根据该词的权值占所有扩展成的近义词的比例来从高到低进行选择;当m<n时,则选择所有扩展成的近义词集中权值最高的词组成集合中的前m个作为用户输入的特征向量。
4.如权利要求1所述的用户需求分析及定位方法,其特征在于,所述步骤(3),其特征在于,具体采用下方法实现:
步骤一:让用户需求特征向量中的关键词与每个基础类的特征向量的关键词进行匹配,如果有相同的关键词,则加权为1,如果互相包含则加权为0.5,匹配完成后,每个基础类和用户的输入向量均有一个匹配值;
步骤二:根据用户的输入和每个定义的类的匹配权值,选择匹配到的类的集合;如果要定位到一个类中,则选择其中权值最高的类作为定位的结果输出;如果要选择定位的n个类中,则选择匹配中前n高权值的类作为结果输出。
5.一种用户行为需求分析定位器,其特征在于,它包括用户需求分析模块和用户需求定位模块,所述用户需求分析模块实现理解用户输入的信息,它包括分词处理器和特征向量扩展器,所述用户需求定位模块为需求定位器,将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页,其中:
所述分词处理器利用现有的分词算法对用户的输入进行切词,从而更好的理解用户需求;
所述特征向量扩展器,根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;
所述需求定位器,根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
CN201210445804.3A 2012-11-09 2012-11-09 用户需求分析定位器和分析及定位方法 Active CN102999569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210445804.3A CN102999569B (zh) 2012-11-09 2012-11-09 用户需求分析定位器和分析及定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210445804.3A CN102999569B (zh) 2012-11-09 2012-11-09 用户需求分析定位器和分析及定位方法

Publications (2)

Publication Number Publication Date
CN102999569A true CN102999569A (zh) 2013-03-27
CN102999569B CN102999569B (zh) 2015-08-19

Family

ID=47928137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210445804.3A Active CN102999569B (zh) 2012-11-09 2012-11-09 用户需求分析定位器和分析及定位方法

Country Status (1)

Country Link
CN (1) CN102999569B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744956B (zh) * 2014-01-06 2017-01-04 同济大学 一种关键词的多样化拓展方法
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索系统及搜索方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索系统及搜索方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744956B (zh) * 2014-01-06 2017-01-04 同济大学 一种关键词的多样化拓展方法
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN102999569B (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN105760495B (zh) 一种基于知识图谱针对bug问题进行探索性搜索方法
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及系统
US8682882B2 (en) System and method for automatically identifying classified websites
US8527487B2 (en) Method and system for automatic construction of information organization structure for related information browsing
CN100478960C (zh) 一种网络地图服务中未登录地名的定位方法
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN101777082A (zh) 一种文字信息与地理信息的关联方法及系统
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
US20110208715A1 (en) Automatically mining intents of a group of queries
CN104123366A (zh) 一种搜索方法及搜索服务器
CN103294820B (zh) 基于语义扩展的web页面归类方法和系统
CN102156711A (zh) 一种基于云存储的电力全文检索方法及系统
CN102521321A (zh) 基于检索词歧义性和用户偏好的视频搜索方法
US20080091672A1 (en) Process for analyzing interrelationships between internet web sited based on an analysis of their relative centrality
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
CN102768679A (zh) 一种搜索方法及搜索系统
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN103399862A (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN100470549C (zh) 一种表格定位的数据挖掘方法
Chopra et al. A survey on improving the efficiency of different web structure mining algorithms
CN102999569B (zh) 用户需求分析定位器和分析及定位方法
KR101867421B1 (ko) 소셜 데이터를 이용한 서비스 제공업체 추천 방법 및 장치
CN106168947A (zh) 一种相关实体挖掘方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant