CN103646035A - 一种基于启发式方法的信息搜索方法 - Google Patents

一种基于启发式方法的信息搜索方法 Download PDF

Info

Publication number
CN103646035A
CN103646035A CN201310566963.3A CN201310566963A CN103646035A CN 103646035 A CN103646035 A CN 103646035A CN 201310566963 A CN201310566963 A CN 201310566963A CN 103646035 A CN103646035 A CN 103646035A
Authority
CN
China
Prior art keywords
information
heuristic
weights
search
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310566963.3A
Other languages
English (en)
Other versions
CN103646035B (zh
Inventor
赵杰
赵吉燕
常育新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201310566963.3A priority Critical patent/CN103646035B/zh
Publication of CN103646035A publication Critical patent/CN103646035A/zh
Application granted granted Critical
Publication of CN103646035B publication Critical patent/CN103646035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于启发式方法的信息搜索方法,其步骤包括:根据信息的特征确定与信息重要性相关的参数类型,每一参数类型包含至少一个关键字,同类型参数内的关键字分成不同级别并设置不同的权值;采用散列方式存储各参数类型、关键字及其权值,并建立索引;对于每一条待定信息,获取其关键字向量并在所述索引中找出关键字及权值,对不同类型参数内的关键词的权值进行合并得到该信息的权值,然后以权值上限减去该信息的权值得到启发信息;根据启发信息运用启发算法得到每一条待定信息的总估价,进而确定最有价值的信息并输出搜索结果。本发明的启发式搜索方式保证了信息的时效性,可以节省计算时间与空间,提高信息搜索效率和准确率。

Description

一种基于启发式方法的信息搜索方法
技术领域
本发明属于网络技术、信息搜索技术领域,涉及一种基于启发式方法的信息搜索方法。
背景技术
目前信息搜索、检索技术已取得了很大发展。一些信息比如新闻等具有时效性、地域性、政治性等特点,对于如何搜索最有价值的信息是一个典型的NP难题。对于重要信息的定义,不同的国家,不同的地域、不同的媒体都是千差万别的,如何在众多的信息中,自动搜索出最有价值的,必须选择一种有效的策略。
此类NP问题一般具有求解条件不完备、不确定性等特点。用常规的搜索算法很难搜索到最优的结果。现有的一些方法,存在搜索效率低、计算时间与空间耗费过多的问题。现在计算重要信息主要是通过关键词搜索和聚类两种思路,但是这两种思路都有相应的缺陷,比如:关键词搜索主要通过关键词命中次数来定义信息的重要性,虽然效率很高,但是准确度很差;聚类方法虽然精确度很高,但是存在计算时间过长,时效性不够的缺点。
启发式搜索算法是解决NP难题时常用到的一种算法。启发式算法的运用综合了关键词搜索和聚类的优点,在保证时间及时性的同时,提高重要信息搜索的准确度。下面对启发式算法做一些简要介绍。
启发式搜索的基本思路是:预先确定好一个函数,它能反映该结点与目标结点的接近程度,这个函数叫启发函数(heuristic function)。启发式搜索就是在问题状态空间中对每一个搜索的位置进行评估,由此得到最好的位置,再从这个位置进行搜索直到解决问题。应用此算法可以节省无谓的搜索路径,提高搜索的效率。
在启发式搜索中,对位置的估价是十分重要的,不同的估价可能有不同的效果。启发算法中启发函数的具体构造如下:
f(n)=g(n)+h(n)
其中f(n)表示对节点n的总估价,g(n)表示从起始状态到节点n的已知估价,h(n)表示节点n本身的预测估价,即启发信息。
例如博弈树的搜索过程是一个典型的启发式搜索,如图1所示。采用启发函数表示该图中的节点信息,在f(n)=g(n)+h(n)中,g(n)表示节点所在的深度,h(n)表示节点的启发信息。如何选择启发信息是此种算法的关键。在这里启发信息是黑下完一手白方填满相应的空白格后所能连成线的数目。白方连线越少,表明黑方下的越成功。在上述节点各子节点的估价由左到右为f(1)=g(1)+h(1)=1+2=3,f(2)=2,f(3)=2,f(4)=2,f(5)=2。由上述函数可以得出,第一个节点代价较高,就不再考虑了。
发明内容
现有的信息搜索方法,尤其是对于如何搜索最有价值的新闻、论坛等信息,现有方法还无法很好的解决,存在搜索效率低、计算时间与空间耗费过多的问题。本发明提供一种基于启发式方法的信息搜索方法,可以节省计算时间与空间,提高信息搜索效率。
为实现上述目的,本发明采用的技术方案如下:
一种基于启发式方法的信息搜索方法,其步骤包括:
1)根据信息的特征确定与信息重要性相关的参数类型,每一种参数类型包含至少一个关键字,将同类型参数内的关键字分成不同级别,并对各级别设置不同的初始权值,将不同类型参数的最大的关键字权值相加作为权值上限;
2)采用散列方式存储各参数类型、各参数类型对应的关键字及其权值,并建立索引;
3)对于每一条待定信息,获取其关键字向量,并在所述索引中找出对应键字及相应的权值,通过对不同类型参数内的关键词的权值进行合并得到该信息的权值,然后以所述权值上限减去该信息的权值,得到该信息的启发信息;
4)根据所述启发信息,运用启发算法得到每一条待定信息的总估价,进而确定最有价值的信息,并输出信息搜索结果。
进一步地,步骤3)通过分词处理获取所述关键字向量。
进一步地,步骤4)所述启发算法采用的启发公式为:
f(n)=g(n)+h(n),
其中,f(n)为总估价,g(n)为信息的本身价值,h(n)为启发信息。
进一步地,所述启发公式为多启发函数:
f(n)=g(n)+h1(n)+h2(n),
其中,f(n)为总估价,g(n)为信息的本身价值,h1(n)为转载率决定的启发信息,h2(n)为关键字决定的启发信息。
进一步地,g(n)由信息在网站页面的位置决定,越重要的位置权值越小。
进一步地,步骤4)还根据不同信息的价值对信息进行排序。
本发明采用启发式搜索,在状态空间中对每一个搜索的位置进行评估,得到最好的位置,再从这个位置进行搜索直到目标结果集。该启发式搜索方法解决了单纯关键词搜索的准确性问题,同时有保证了信息的时效性,从而提高了信息搜索效率,是解决信息重要性问题中达到实际工程应用的一种解决方案。
附图说明
图1是启发式搜索的实例介绍示意图。
图2是实施例中应用启发式方法进行新闻搜索的示意图。
图3是实施例中启发式算法的流程图。
图4是实施例中采用现有的关键词搜索方法的信息发现结果。
图5是实施例中采用本发明的启发式搜索方法的信息发现结果。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步说明。
本实施例中的信息为具有时效性、地域性、政治性等特点的新闻信息,在两天内不同时段进行六次对重点新闻的采样,其中门户网站以新浪为主要来源,主要参照媒体搜狐,次要参考qq新闻和网易;搜索网站主要参考百度和Google。
经过分析,门户网站重要新闻有以下特点:以国内新闻为主,以新浪为例在24条新闻中国内新闻占18—20条。百度新闻频道重要新闻32条,国内新闻23-25条。
国内新闻特点一般具有下述特点中的一条或几条:1)国家领导人或有突出贡献的名人;2)突发事件;3)国家关系特别是大国关系;4)地理位置;5)媒体重要报道;6)农民问题;7)反腐倡廉;8)本媒体新闻;9)重要政策性新闻。
国际新闻有以下几条特点:1)重要国家重要活动;2)突发事件;3)军事事件;4)民主与人权;5)重要国家领导人。
根据以上特点,首先为启发式搜索作一些共用设定。其中一个推论是:在一定时期,每一条新闻的价值,亦即权值有一个相对固定的上限。新闻的特点确定后,将每一种特点定义为一个参数类型,而且至多一个参数;每一个参数类型下至少包含一个关键字。对于各参数类型及关键字规定如下:
1)每个参数类型本身没有权值,其权值由其下属的关键字决定。
2)参数内的关键字可按照重要性分成不同级别,不同的级别的关键字有不同的权值。例如国家领导人可以分级,国家主席、总理为第一级,厅局为第二级,第一级为10分,以下逐步降低。
3)同参数内的关键字不重复计算。
4)不同的参数间可以进行权值合并运算。
5)突发事件权重加大。比如灾难、恐怖事件等。
作了上述假设后,对关键字采用散列方式存储,以参数为索引。针对每一条新闻,通过索引搜索确定其启发信息,具体处理流程如下:
a)查找每一条新闻,通过分词处理找出其关键字,然后在索引中找出关键字及对应的权值。
b)一条新闻进行匹配时,相匹配的不同参数类型下的关键字越多,每个关键字级别越高,那么这条新闻的权重越大。通过对不同类型参数内的关键字的权值进行合并,得到该新闻的权值。
c)以事先固定的权值上限减去上一步计算得到的该新闻的权值,得到的权值为这条新闻的启发信息。
上述“权值上限”通过将不同类型参数内的最大的关键字权值相加得到。比如有3个参数类型:
参数1:关键字1的权值为10;关键字2的权值为9,关键字3的权值为8;
参数2:关键字1的权值为9;关键字2的权值为7;
参数3:只有1个关键字,权值为8;
则权值上限为:10+9+8=27。
上述“对不同类型参数内的关键词的权值进行合并”,是将从索引中查找到的各关键字的权值相加。比如,仍以上面3个参数为例,对于一条新闻,若从索引中查找得到的对应的关键字为参数1的关键字2和参数2的关键字1,则将查到的该两个关键字的权值相加,即9+9=18,作为该条新闻的权值。进而用权值上限减去该条新闻的权值,得到该条新闻的启发信息。
当然,在搜索空间展开时,仍然有一些重要的启发信息加入进来。例如,当头条新闻展开时,如果在多家媒体他都是头条,那么这条新闻的权重为0,理所当然地成为头条新闻。有时这条新闻是本网内部的新闻,那这条新闻可以定义为权值极大,这条新闻没有价值。
相应的启发公式可以设定为多启发函数:
f(n)=g(n)+h1(n)+h2(n)
其中,f(n)为总估价(即新闻的总的价值、总的重要性),g(n)为新闻位置等决定的本身价值,h1(n)为转载率等决定的启发信息,转载率是在信息获取的时候,通过计算相同新闻的数量而得到,h2(n)为关键字决定的启发信息。
现在考虑一种启发信息的情况,即由关键字决定启发信息的情况:
f(n)=g(n)+h(n)
其中g(n)为新闻的在网站页面的位置所决定的,越重要的位置权值越小,h(n)是新闻的启发信息,是由关键字决定的,由确定的新闻价值上限减去这条新闻权值得到的。因此越重要的新闻权值越小。
图2是应用上述方法进行新闻搜索的示意图,其中第一层为新浪的起始节点,第二层为不同的重要新闻,第三层为新闻的不同标题。如该图所示,暂时只考虑一种启发信息。先从新浪新闻A中找出五条新闻,利用启发算法找到相对价值较大的一条,如A1,然后再搜索出与此新闻相关的标题,再利用启发算法找到最有价值的标题,如A11。当然也可以搜狐为出发点,搜出重要新闻后,然后二者相比较,按权值的大小进行新闻的排序。
启发式算法的流程如图3所示,对其具体描述如下:
首先,设OPEN表和CLOSE表,OPEN表存储未搜索的节点,CLOSE表存储已搜索的节点。
Step1:把初始节点S0放入OPEN表;
Step2:若OPEN表为空,则搜索失败,退出;
Step3:若OPEN表不为空,移出OPEN表中的第一个结点放入CLOSE表中,记该结点为N;
Step4:若N=目标结点,则搜索成功,结束;
Step5:若N不可扩展,转到Step2;
Step6:扩展N,生成一组子结点,将这些子结点放到OPEN表中;
Step7:按估价函数f(n)对OPEN表中的结点从小到大排序,转到Step2。
经过对同一批数据的算法应用比较,在使用之前的基于关键词搜索算法时,重要信息发现经和新浪、搜狐和百度对比,在前10条中,命中3条,如图4所示;在运用本发明的启发式搜索方法后,在前10条中,命中6条,如图5所示,准确率相对之前的算法,提高了100%。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于启发式方法的信息搜索方法,其步骤包括:
1)根据信息的特征确定与信息重要性相关的参数类型,每一种参数类型包含至少一个关键字,将同类型参数内的关键字分成不同级别,并对各级别设置不同的初始权值,将不同类型参数的最大的关键字权值相加作为权值上限;
2)采用散列方式存储各参数类型、各参数类型对应的关键字及其权值,并建立索引;
3)对于每一条待定信息,获取其关键字向量并在所述索引中找出相同的关键字及对应的权值,通过对不同类型参数内的关键词的权值进行合并得到该信息的权值,然后以所述权值上限减去该信息的权值,得到该信息的启发信息;
4)根据所述启发信息,运用启发算法得到每一条待定信息的总估价,进而确定最有价值的信息,并输出信息搜索结果。
2.如权利要求1所述的方法,其特征在于:步骤3)通过分词处理获取所述关键字向量。
3.如权利要求1所述的方法,其特征在于:步骤4)所述启发算法采用的启发公式为:
f(n)=g(n)+h(n),
其中,f(n)为总估价,g(n)为信息的本身价值,h(n)为启发信息。
4.如权利要求3所述的方法,其特征在于:所述启发公式为多启发函数:
f(n)=g(n)+h1(n)+h2(n),
其中,f(n)为总估价,g(n)为信息的本身价值,h1(n)为转载率决定的启发信息,h2(n)为关键字决定的启发信息。
5.如权利要求4所述的方法,其特征在于:所述g(n)由信息在网站页面的位置决定,越重要的位置权值越小。
6.如权利要求4所述的方法,其特征在于:通过计算相同信息的数量得到所述转载率。
7.如权利要求1所述的方法,其特征在于:步骤4)还根据不同信息的价值对信息进行排序。
8.如权利要求1所述的方法,其特征在于:进行步骤4)所述启发算法时,设置OPEN表和CLOSE表,其中OPEN表存储未搜索的节点,CLOSE表存储已搜索的节点。
CN201310566963.3A 2013-11-14 2013-11-14 一种基于启发式方法的信息搜索方法 Active CN103646035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310566963.3A CN103646035B (zh) 2013-11-14 2013-11-14 一种基于启发式方法的信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310566963.3A CN103646035B (zh) 2013-11-14 2013-11-14 一种基于启发式方法的信息搜索方法

Publications (2)

Publication Number Publication Date
CN103646035A true CN103646035A (zh) 2014-03-19
CN103646035B CN103646035B (zh) 2017-07-07

Family

ID=50251251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310566963.3A Active CN103646035B (zh) 2013-11-14 2013-11-14 一种基于启发式方法的信息搜索方法

Country Status (1)

Country Link
CN (1) CN103646035B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915370A (zh) * 2015-04-08 2015-09-16 天津理工大学 基于禁忌搜索的分片复制码最优冗余率编码矩阵构造方法
CN108919794A (zh) * 2018-06-01 2018-11-30 广州视源电子科技股份有限公司 一种双轮差速型移动机器人的全局路径规划方法及其装置
CN109598374A (zh) * 2018-11-21 2019-04-09 华南理工大学 一种关键设施实物保护系统的启发式有效性分析方法
CN111026713A (zh) * 2016-08-03 2020-04-17 杭州数梦工场科技有限公司 一种搜索系统、数据搜索方法及运行时间确定方法
CN117687554A (zh) * 2023-12-11 2024-03-12 上海梅斯医药科技有限公司 基于视觉模拟评分的标尺元件灵活配置系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN103226581A (zh) * 2013-04-02 2013-07-31 浙江大学 一种基于方向寻优的启发式最短路径搜索方法
US20130246405A1 (en) * 2010-10-30 2013-09-19 Blekko, Inc. Display of Boosted Slashtag Results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
US20130246405A1 (en) * 2010-10-30 2013-09-19 Blekko, Inc. Display of Boosted Slashtag Results
CN103226581A (zh) * 2013-04-02 2013-07-31 浙江大学 一种基于方向寻优的启发式最短路径搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WARANGKHANA NGENKAEW等: "《Study on Heuristic Search in Information Retrieval Using Bayesian Networks》", 《JOHO CHISHIKI GAKKAISHI》 *
刘弘等: "《一种Web信息的启发式检索方法》", 《小型微型计算机系统》 *
车志军: "《人工智能在搜索引擎资源获取中的应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑 》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915370A (zh) * 2015-04-08 2015-09-16 天津理工大学 基于禁忌搜索的分片复制码最优冗余率编码矩阵构造方法
CN104915370B (zh) * 2015-04-08 2018-11-06 天津理工大学 基于禁忌搜索的分片复制码最优冗余率编码矩阵构造方法
CN111026713A (zh) * 2016-08-03 2020-04-17 杭州数梦工场科技有限公司 一种搜索系统、数据搜索方法及运行时间确定方法
CN111026713B (zh) * 2016-08-03 2023-03-31 杭州数梦工场科技有限公司 一种搜索系统、数据搜索方法及运行时间确定方法
CN108919794A (zh) * 2018-06-01 2018-11-30 广州视源电子科技股份有限公司 一种双轮差速型移动机器人的全局路径规划方法及其装置
CN109598374A (zh) * 2018-11-21 2019-04-09 华南理工大学 一种关键设施实物保护系统的启发式有效性分析方法
CN117687554A (zh) * 2023-12-11 2024-03-12 上海梅斯医药科技有限公司 基于视觉模拟评分的标尺元件灵活配置系统及方法
CN117687554B (zh) * 2023-12-11 2024-05-28 上海梅斯医药科技有限公司 基于视觉模拟评分的标尺元件灵活配置系统及方法

Also Published As

Publication number Publication date
CN103646035B (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
Lu et al. String similarity measures and joins with synonyms
US20150100568A1 (en) Automatic definition of entity collections
Reinanda et al. Mining, ranking and recommending entity aspects
CN103646035A (zh) 一种基于启发式方法的信息搜索方法
CN102609465B (zh) 基于潜在社群的信息推荐方法
CN102236677A (zh) 一种基于问答系统的信息匹配方法及系统
US20110208715A1 (en) Automatically mining intents of a group of queries
CN102012915A (zh) 一种文档共享平台的关键词推荐方法及系统
CN105760443A (zh) 项目推荐系统、项目推荐装置以及项目推荐方法
Sacharidis et al. Topologically sorted skylines for partially ordered domains
CN109902143B (zh) 一种基于密文的多关键字扩展检索方法
US20150100605A1 (en) Determining collection membership in a data graph
Nie et al. 2-tuple linguistic intuitionistic preference relation and its application in sustainable location planning voting system
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
CN106649731A (zh) 一种基于大规模属性网络的节点相似性搜索方法
CN104615621B (zh) 搜索中的相关性处理方法和系统
Gao et al. Query processing over incomplete databases
Yin et al. Personalized tourism route recommendation system based on dynamic clustering of user groups
Setayesh et al. Presentation of an Extended Version of the PageRank Algorithm to Rank Web Pages Inspired by Ant Colony Algorithm
Chierichetti et al. On placing skips optimally in expectation
Li et al. A service mode of expert finding in social network
ZAKERIAN et al. Spatial analysis of urban smart city indicators) Case study: Zahedan city
Xu et al. Academic Expert Finding via $(k,\mathcal {P}) $-Core based Embedding over Heterogeneous Graphs
Kalanat et al. An optimized fuzzy method for finding actions
CN107480271A (zh) 基于抽样查找和索引查找的人群画像方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Liu Tao

Inventor after: Zhao Jie

Inventor after: Zhao Jiyan

Inventor after: Chang Yuxin

Inventor before: Zhao Jie

Inventor before: Zhao Jiyan

Inventor before: Chang Yuxin

CB03 Change of inventor or designer information
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Heuristic Method Based Information Search Method

Effective date of registration: 20230807

Granted publication date: 20170707

Pledgee: Bank of China Limited Beijing Xicheng Branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2023980051158

PE01 Entry into force of the registration of the contract for pledge of patent right