CN107016135A - 一种面向非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略 - Google Patents

一种面向非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略 Download PDF

Info

Publication number
CN107016135A
CN107016135A CN201710434314.6A CN201710434314A CN107016135A CN 107016135 A CN107016135 A CN 107016135A CN 201710434314 A CN201710434314 A CN 201710434314A CN 107016135 A CN107016135 A CN 107016135A
Authority
CN
China
Prior art keywords
resource
search
entropy
positive
progressive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710434314.6A
Other languages
English (en)
Other versions
CN107016135B (zh
Inventor
段玉聪
邵礼旭
宋正阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Huilin Technology Co.,Ltd.
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201710434314.6A priority Critical patent/CN107016135B/zh
Publication of CN107016135A publication Critical patent/CN107016135A/zh
Application granted granted Critical
Publication of CN107016135B publication Critical patent/CN107016135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明是一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略,属于分布式计算和软件工程学技术交叉领域。本发明主要用于对搜索者提出的具有正反判定性问题进行有限次数的递进搜索,引入数据图谱、信息图谱和知识图谱三层架构,将网络上资源进行组织,通过语义分析理解搜索者检索信息的倾向性,按正反倾向对搜索者提出的需求进行搜索,通过每次搜索的条目数以及每项条目对应资源的熵值计算该倾向资源的可靠性,虚假信息以及失效信息会随着递进搜索的次数被排除,提高了搜索资源的质量,同时避免面对无穷尽超复杂性问题时搜索陷入死循环的情况。

Description

一种面向非确定、不保真、超复杂资源环境的正反双向动态平 衡搜索策略
技术领域
本发明是一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略,主要用于对搜索者提出的具有正反判定性问题进行正反双向搜索,通过递进搜索逐步提高搜索出的资源的可信度,属于分布式计算和软件工程学技术交叉领域。
背景技术
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。随着互联网数据的增长,网络上资源变得十分庞杂,用户对搜索结果的精确性要求大大增加。目前,主流的搜索引擎普遍存在由于对数据筛选的低精确度标准等客观或主观的因素导致搜索结果不准确,从而无法解决实际问题的情况。当在搜索引擎输入问题后通过搜索引擎工作机制获取到大量的资源,资源中涵盖了旧的信息、新的信息以及利益相关者传播的带有明显倾向性的虚假信息,导致搜索出的结果不能令用户满意。网络上资源存在时效性,在为特定用户搜索答案时以前的资源在当下可能失效或者不适用。同时,资源的来源也是衡量资源可信度的一个指标,存在个人或机构为了自身利益传播倾向于自身利益的虚假信息,正确的答案便会因为虚假信息的相对高频度出现而被淹没。在整合互联网上海量资源的基础上,对于具有明显倾向性问题采用正反递进搜索,有针对性地找出解决方案,并将可信度高的答案和更加丰富的语义关联资源返回给用户。
发明内容
技术问题:本发明的目的是提供一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略,用于解决搜索者提出的具有明显判定性或倾向性问题的答案使用搜索引擎过程中面对非确定保真信息情况下的最佳决策问题。本发明可显著地提高搜索引擎目标检索结果的可信度,并提升搜索引擎的准确检索效率。
技术方案:本发明是一种策略性方法,可以应用于各种搜索引擎。本发明通过引入数据图谱、信息图谱和知识图谱三层架构,将网络上资源进行组织,通过语义分析理解搜索者检索信息的倾向性,按正反倾向对搜索者提出的需求进行搜索,本发明认定正确答案是具有时效下的唯一性的,允许根据资源中关联因素扩展细节进行递进搜索,更新可信度,根据可信度由高到低进行排序,最终将有序的资源返回给用户。
方法流程:
一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略,其方法流程如下:
步骤1)根据已有资源体系建立处理资源框架;
步骤2)获取用户搜索需求。允许用户以自然语言文本描述的形式输入其信息需求;
步骤3)对搜索者的搜索需求进行主动建模。统计正向资源和反向资源在资源总数所占的比重(weight),其中Resource表示正向资源数,Resource表示反向资源数,Resource表示资源总数:
(1)
(2)
根据问题所占权重确定投入分配比例,例如递进搜索次数;
步骤4)对于搜索者提出的问题,按照正向和反向倾向进行双向搜索,遍历处理资源架构,寻找相关资源;
步骤5)根据步骤4得到的资源按照资源中的关键词进行关联因素递进搜索,并计算得到信息的熵值,熵值范围是0到1,熵值越大,信息倾向越分散,可信度越低。资源是有时效性的,是按照某一关联因素进行递进搜索时,在Tk时间下得到的资源的熵值,pi是每类答案出现的概率,Entropy表示按照某一关联因素进行递进搜索时,在不同时效下得到资源的加权平均熵值,Timeliness是Tk时间资源的时效性,Ts是资源开始出现的时间,Tt是资源终止传播的时间,Tc是当前搜索者搜索资源的时间:
(1)
(2)
(3)
步骤6)每递进搜索一次,根据步骤5得到的递进搜索项的熵,计算资源可信度Confidence,其中S_amount表示递进搜索的次数,Item_amount表示每次递进搜索的条目总数,itemi表示条目i,是按条目i递进搜索得到的资源的熵:
(4)
步骤7)根据步骤6得到的资源的可信度,判断正反双向资源可信度的比值是否大于阈值T或小于1/T,该阈值可根据学习算法得到。若满足阈值条件,返回可信度高的搜索结果给搜索者;否则返回步骤4继续递进搜索。
有益效果:本发明提出了一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略,在面对搜索引擎检索出的高时效性且复杂的非确定不保真的资源时,具有传统决策方法不具备的优势,具有如下一些显著优点:
(1)建立了模糊词汇表,过滤掉倾向不明确的无用资源;
(2)对问题进行有限次数的搜索,避免面对无穷尽超复杂性问题时搜索陷入死循环的情况;
(3)提出了递进搜索策略,根据倾向相关资源进行递进搜索,通过每次搜索的条目数以及每项条目对应资源的熵值计算该倾向资源的可靠性,虚假信息以及失效信息会随着递进搜索的次数被排除,提高了搜索资源的质量。
附图说明
图1是一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略的流程图示意。
具体实施方式
为了方便描述,我们假定有如下应用实例,搜索者搜索的问题是“专利变更联系人地址要不要付费”,对应图1中的步骤,具体实施方案如下:
(1)001根据已有资源体系建立处理资源框架;
(2)002获取用户搜索需求。假定用户输入“专利变更联系人地址要不要付费”;
(3)003根据搜索者的搜索需求进行主动建模。基于步骤2获取到的需求,计算“需要付费”和“不需要付费”两种倾向所占权重, 对应于图1中步骤004分配投入比例,确定分别按“需要付费”和“不需要付费”的递进搜索次数;
(4)005按照“需要付费”和“不需要付费”进行遍历资源处理架构进行双向搜索,寻找相关资源;
(5)006根据步骤4得到的资源按照资源中的关键词进行递进搜索,如根据“需要付费”倾向中关于“付费金额”“付费部门”等条目进行递进搜索,得到的答案中存在不同金额,并且答案的出现时间也是不同的,根据时间对资源进行分类,007按照公式1计算不同时间下资源的熵值,熵值范围是0到1,熵值越大,信息倾向越分散,可信度越低。然后根据公式2和公式3计算资源的时效性以及不同时效资源的加权平均熵值:
(1)
(2)
(3)
(6)根据步骤5得到的递进搜索项的熵,008计算“需要付费”搜索出的资源可信度Confidence(正)和按“不需要付费”搜索出的资源可信度Confidence(反),其中k表示递进搜索的次数,n表示每次递进搜索的条目总数,itemi表示条目i,entropyi是按条目i递进搜索得到的资源的熵:
(4)
(7)根据步骤6得到的资源的可信度,009判断正反双向资源可信度的比值是否大于阈值T或小于1/T,该阈值可根据学习算法得到。若满足阈值条件,010选择可信度高的搜索结果,011并输出给搜索者;否则对应于图1中步骤010返回步骤4继续递进搜索。

Claims (1)

1.一种面对非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略,其所包含的步骤:
步骤1)根据已有资源体系建立处理资源框架;
步骤2)获取用户搜索需求,允许用户以自然语言文本描述的形式输入其信息需求;
步骤3)对搜索者的搜索需求进行主动建模,统计正向资源和反向资源在资源总数所占的比重(weight),其中Resource表示正向资源数,Resource表示反向资源数,Resource表示资源总数:
(1)
(2)
根据问题所占权重确定投入分配比例,例如递进搜索次数;
步骤4)对于搜索者提出的问题,按照正向和反向倾向进行双向搜索,遍历处理资源架构,寻找相关资源;
步骤5)根据步骤4得到的资源按照资源中的关键词进行关联因素递进搜索,并计算得到信息的熵值,熵值范围是0到1,熵值越大,信息倾向越分散,可信度越低,资源是有时效性的,是按照某一关联因素进行递进搜索时,在Tk时间下得到的资源的熵值,pi是每类答案出现的概率,Entropy表示按照某一关联因素进行递进搜索时,在不同时效下得到资源的加权平均熵值,Timeliness是Tk时间资源的时效性,Ts是资源开始出现的时间,Tt是资源终止传播的时间,Tc是当前搜索者搜索资源的时间:
(1)
(2)
(3)
步骤6)每递进搜索一次,根据步骤5得到的递进搜索项的熵,计算资源可信度Confidence,其中S_amount表示递进搜索的次数,Item_amount表示每次递进搜索的条目总数,itemi表示条目i,是按条目i递进搜索得到的资源的熵:
(4)
步骤7)根据步骤6得到的资源的可信度,判断正反双向资源可信度的比值是否大于阈值T或小于1/T,该阈值可根据学习算法得到,若满足阈值条件,返回可信度高的搜索结果给搜索者;否则返回步骤4继续递进搜索。
CN201710434314.6A 2017-06-09 2017-06-09 一种资源环境的正反双向动态平衡搜索策略 Active CN107016135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710434314.6A CN107016135B (zh) 2017-06-09 2017-06-09 一种资源环境的正反双向动态平衡搜索策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710434314.6A CN107016135B (zh) 2017-06-09 2017-06-09 一种资源环境的正反双向动态平衡搜索策略

Publications (2)

Publication Number Publication Date
CN107016135A true CN107016135A (zh) 2017-08-04
CN107016135B CN107016135B (zh) 2019-07-30

Family

ID=59452703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710434314.6A Active CN107016135B (zh) 2017-06-09 2017-06-09 一种资源环境的正反双向动态平衡搜索策略

Country Status (1)

Country Link
CN (1) CN107016135B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535787A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能辅助审查方法及系统
CN113535893A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利内容检索方法及系统
CN116775974A (zh) * 2023-06-29 2023-09-19 中咨高技术咨询中心有限公司 一种信息的筛选方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1759392A (zh) * 2003-03-08 2006-04-12 Nhn株式会社 在Web搜索引擎上产生搜索结果列表的方法
CN104503998A (zh) * 2014-12-05 2015-04-08 百度在线网络技术(北京)有限公司 针对用户查询句的类型识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1759392A (zh) * 2003-03-08 2006-04-12 Nhn株式会社 在Web搜索引擎上产生搜索结果列表的方法
CN104503998A (zh) * 2014-12-05 2015-04-08 百度在线网络技术(北京)有限公司 针对用户查询句的类型识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
马文明等: "面向非结构化P2P网络的双向随机漫步搜索机制", 《软件学报》 *
高松等: "一种基于双向搜索的K则最优路径算法", 《武汉大学学报(信息科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535787A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能辅助审查方法及系统
CN113535893A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利内容检索方法及系统
CN116775974A (zh) * 2023-06-29 2023-09-19 中咨高技术咨询中心有限公司 一种信息的筛选方法
CN116775974B (zh) * 2023-06-29 2024-02-23 中咨高技术咨询中心有限公司 一种信息的筛选方法

Also Published As

Publication number Publication date
CN107016135B (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
US9576029B2 (en) Trust propagation through both explicit and implicit social networks
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
US8255390B2 (en) Session based click features for recency ranking
Arguello et al. Document representation and query expansion models for blog recommendation
CN102495860B (zh) 基于语言模型的专家推荐方法
US20190266257A1 (en) Vector similarity search in an embedded space
US9589056B2 (en) User information needs based data selection
US8694511B1 (en) Modifying search result ranking based on populations
IL247975A (en) Mixing search results on online social networks
US20080270376A1 (en) Web spam page classification using query-dependent data
US20050165753A1 (en) Building and using subwebs for focused search
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN103186574A (zh) 一种搜索结果的生成方法和装置
US8977625B2 (en) Inference indexing
US8959093B1 (en) Ranking search results based on anchors
US20200042211A1 (en) Optimizing static object allocation in garbage collected programming languages
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
US20110231380A1 (en) Session based click features for recency ranking
TW201301064A (zh) 搜尋方法及設備
CN107016135A (zh) 一种面向非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略
US10127322B2 (en) Efficient retrieval of fresh internet content
Virmani et al. Design of query processing system to retrieve information from social network using NLP
Xu et al. Lightweight tag-aware personalized recommendation on the social web using ontological similarity
CN107895053A (zh) 基于话题簇动量模型的新兴热点话题检测系统及方法
CN103902687B (zh) 一种搜索结果的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220406

Address after: 570100 room 1503, 15th floor, building B1, Qiaoda garden, No. 45, Renmin Avenue, Meilan District, Haikou City, Hainan Province

Patentee after: Hainan Huilin Technology Co.,Ltd.

Address before: 570228 No. 58 Renmin Avenue, Meilan District, Hainan, Haikou

Patentee before: HAINAN University

TR01 Transfer of patent right