CN111831885A - 一种互联网信息检索系统与方法 - Google Patents

一种互联网信息检索系统与方法 Download PDF

Info

Publication number
CN111831885A
CN111831885A CN202010672254.3A CN202010672254A CN111831885A CN 111831885 A CN111831885 A CN 111831885A CN 202010672254 A CN202010672254 A CN 202010672254A CN 111831885 A CN111831885 A CN 111831885A
Authority
CN
China
Prior art keywords
retrieval
module
result
matching
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010672254.3A
Other languages
English (en)
Other versions
CN111831885B (zh
Inventor
胡锦生
李国峰
熊雁
何茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Original Assignee
Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd filed Critical Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Priority to CN202010672254.3A priority Critical patent/CN111831885B/zh
Publication of CN111831885A publication Critical patent/CN111831885A/zh
Application granted granted Critical
Publication of CN111831885B publication Critical patent/CN111831885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种互联网信息检索系统与方法,用户在检索前对预期检索的页面辅助元素进行加权配置,并基于不同类型的页面加权匹配结果进行加权重构,从而与目标页面的上下文分析结果合并,实现对检索页面信息的中心归置,达到更好的互联网信息检索准确度与精度,以及更佳的互联网信息用户检索满意度。

Description

一种互联网信息检索系统与方法
技术领域
本发明属于新一代计算机信息技术领域,尤其涉及一种互联网信息检索系统与方法。
背景技术
对互联网信息的利用,是基于对互联网信息的归集、合并、分类或关键词标定进行的,如果无法对数据量庞大的互联网信息进行有目的性的获取,将导致较大的数据冗余度和无用度,造成数据和存储空间浪费。
互联网信息检索,是有目的性地利用互联网大数据以及可用信息进行进一步信息数据分析的可行手段。
互联网信息检索(IIR:Internet Information Retrieval)一般指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源。这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据分布式存储,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。
网络信息检索与联机信息检索最根本的不同在于网络信息检索是基于客户机/服务器的网络支撑环境的,客户机和服务器是同等关系,而联机检索系统的主机和用户终端是主从关系。在客户机/服务器模式下,一个服务器可以被多个客户访问,一个客户也可以访问多个服务器。因特网就是该系统的典型,网上的主机既可以作为用户的主机里的信息,又可以作为信息源被其他终端访问。
传统的信息资源主体是文献资源,其中以纸本为主要对象,如图书、期刊、报纸、论文等。在网络环境下,信息的组成体系发生了变化,网络资源的内容和形式均较传统的信息资源丰富了许多。信息量大,信息的形式更加多样。随着互联网的发展,特别是Web2.0的出现,可共享的信息越来越多。网络数据库的突飞猛进的发展,也为我们提供了大量的电子期刊、报纸、论文等。传统的信息资源系统几乎都是单语言环境,而网络信息资源面对的是不同类型的信息资源,互联网信息检索使用不同的自然语言描述各种信息,形成了不同语种的信息检索系统。
互联网的出现,使得全球联系到了一起,也将全球的信息资源汇集成了一个巨大的全球信息资源宝库,网络信息资源检索将面对的是全球的信息资源。传统的信息资源在很大程度上受到了地域空间的限制,现代信息资源检索则冲破了空间的局限性,大大扩展了检索空间。它可以检索网上的各类信息资源,而无需提前知道各种资源的地址。其检索的范围覆盖了整个互联网这一全球的性的网络,为访问和获取广泛存在于世界各地、成千上万的服务器和主机的信息提供了可能。
网络信息检索一改以往信息检索专业性强的特点,以简单方便的检索方式受到了广大用户的欢迎。万维网的超文本超媒体技术为用户提供了超链接的浏览方式,用户可以采取直接浏览的方式,获取自己所需要的信息。网络信息检索在用户检索界面、检索结果的提供方式等方面都体现了良好的交互性,具有较好的反馈功能。自然语言在网络检索中的广泛应用,使得网络检索变得日益简洁,关键词检索在网络信息检索中的普遍使用,智能信息技术的发展,使得用户在信息检索过程变得轻松、随意、无需考虑繁琐的检索规则。与之相关的交互性也进一步提高。
互联网信息检索发展前景可期。其主要发展趋势如下:
智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近几年来,智能信息检索(intelligentinformation retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。
可视化(visualization)的历史可以追溯到2400多年前。哲学家柏拉图指出,我们通过看来识别物体。据统计,人获取信息有70%一80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。
未来家用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展;操作系统的用户友好性将不断增强,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任一应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”。使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展、完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。
多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画。目前网络信息检索的主体是文本信息,基于内容的检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。多样化的第二个表现是检索工具向多国化、多语种化方向发展。网络的迅速发展,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。多样化的第三个表现是网上检索工具的服务多元化。网上检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,提供站点评论、天气预报、新闻报道、股票点评、各种黄页(如电话号码)、航班和列车时刻表、地图等多种面向大众的信息服务、免费电子信箱,以多种形式满足用户的需要。无论是在国际上还是在国内,检索工具都在朝多元化方向发展,为用户提供全方位服务。多样化还表现在网络信息检索可以间接地服务于其他行业。例如数据挖掘技术可用于分析历史数据的变化趋势,预测未来发展方向,发现大量数据中潜在的模式规律,为投资、科研、项目评估等提供有力的依据;还可以系统地、定量地分析目前较为热门的研究发展领域及查询频繁更新的文献资料种类,可使信息中心、图书馆等信息服务机构不断调整文献资料及图书的订阅、收集工作,有的放矢,向以需求为驱动的方向发展,建立一套更为系统、科学的管理方式。
个性化指各网站注重内容的特色化和注重个性化的服务。网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力。随着互联网的飞速发展,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上,并成为各个搜索网站努力追求的对象。不同的打有消费者个人烙印的产品将成为某个消费者区别他人、感觉自我存在及独特的外在标志,个性化服务成功的实质在于提供了真正适应用户需要的产品,贯彻了以用户为中心的理念。
网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点。网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。美国著名的数字媒体评估公司Jupiter MediaMetrix日前发布研究报告称,“搜索引擎公司推出的付费添加服务是一个正在兴起的、前景光明的因特网领域,相对于目前低迷的在线广告市场来说,它的发展潜力是非常巨大的。”
目前的互联网信息检索以及利用场景下,用户未充分考虑页面内容中的辅助元素,且推荐和检索过程单线实施,逻辑较为简单,未充分实现多入口参数的比较、综合和权重分配,且未见关于用户自适应召回结果的上下文分析,导致目前的互联网信息推荐方式在具有较高复杂度的同时,召回结果不佳,用户满意度较低,存在多种重复推荐和推荐偏差,且用户在对互联网信息进行检索的过程中存在干预程度不够,导致检索结果与用户的预期差异过远的情况。
本发明经由提出一种互联网信息检索系统和方法,引入加权预处理模块,用户在检索前对预期检索的页面辅助元素进行加权配置,并基于不同类型的页面加权匹配结果进行加权重构,从而与目标页面的上下文分析结果合并,实现对检索页面信息的中心归置,达到更好的互联网信息检索准确度与精度,以及更佳的用户检索满意度。具体地,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入图形化加权模块以及标题元素加权模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,对推荐顺序与用户预期的差别进行了研判和缩减,提升用户使用感受,并增强了用户在使用相应系统时对页面的加权预期以及基于该加权预期对检索的干预,并通过加权预处理模块实施用户自定义的信息检索干预。
发明内容
本发明旨在提供一种优于现有技术的互联网信息检索系统和方法。
为了实现上述目的,本发明的技术方案如下:
提供一种互联网信息检索系统,所述系统包括以下模块:
图形化加权模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及加权预处理模块输出,生成重构加权,并向中心归置模块传递;
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
较佳地,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
较佳地,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
较佳地,所述标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
较佳地,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
另,本发明更甚地提供了一种与前述互联网信息检索系统相适应的互联网信息检索方法,所述方法包括如下步骤:
步骤一:使用图形化加权模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
步骤二:使用标题元素加权模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
步骤三:使用加权重构模块,基于第一检索加权和第二检索加权,以及加权预处理模块输出,生成重构加权,并向中心归置模块传递;
步骤四:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
步骤五:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
步骤六:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
步骤七:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
步骤八:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
步骤九:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
步骤十:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
较佳地,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
较佳地,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
较佳地,所述标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
较佳地,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0。
本发明经由提出一种互联网信息检索系统和方法,引入加权预处理模块,用户在检索前对预期检索的页面辅助元素进行加权配置,并基于不同类型的页面加权匹配结果进行加权重构,从而与目标页面的上下文分析结果合并,实现对检索页面信息的中心归置,达到更好的互联网信息检索准确度与精度,以及更佳的用户检索满意度。具体地,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入图形化加权模块以及标题元素加权模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,对推荐顺序与用户预期的差别进行了研判和缩减,提升用户使用感受,并增强了用户在使用相应系统时对页面的加权预期以及基于该加权预期对检索的干预,并通过加权预处理模块实施用户自定义的信息检索干预。
附图说明
图1是本发明示出互联网信息检索系统的一种基本系统层次结构图;
图2是本发明示出基于互联网信息检索方法一种实施例的基本框图;
图3是本发明示出互联网信息检索系统与方法中图片元素的HTML代码的一种较佳实施例示意图;
图4是本发明示出互联网信息检索系统与方法中计算第一检索加权的一种较佳实施例。
图5是本发明示出互联网信息检索系统与方法中计算第一检索加权示例的另一种优选实施例示意图。
具体实施方式
以下具体描述本发明所请求保护的互联网信息检索系统与方法若干实施例和有益效果,以有助于对本发明进行更细致的审查和分解。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述方法和相应装置,但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如,在不脱离本发明实施例范围的情况下,图形化加权模块、第一上下文模块、第一检索加权等也可以被称为标题元素加权模块、第二上下文模块、第二检索加权,类似地,标题元素加权模块、第二上下文模块、第二检索加权也可以被称为图形化加权模块、第一上下文模块、第一检索加权。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
如说明书附图1所示,本发明所请求保护的基于互联网信息的检索方法的系统的实施例之一,所述系统包括:
图形化加权模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
因在现有技术的信息检索过程中,对用户关键词进行检索往往仅检索目标页面的常规内容,未考虑目标页面中,其它元素类型对检索召回结果的影响。例如,当目标检索页面包含关键词“月光族”时,所有包含关键词“月光族”的页面均会被召回,或简单地基于关键词的召回数量对召回页面进行排序,但此时,若该页面的引用部分(通常出现在文献检索过程中)或该页面的广告宣传部分、非正文部分等出现“月光族”,也会被一同召回,从而使用户的召回结果精确度降低,客观增加了用户对召回结果的负反馈。而在召回页面中,若在普通召回结果中出现了关键词“纯牛奶”,且网页的其它元素(例如图片)同样包含了与月光族相关的内容,则很有可能该页面的主要介绍内容(例如图文形式)即为与月光族有关内容,此时,将该页面推送给检索用户或提升该页面的检索排序,即很有可能满足检索用户的检索诉求。从而通过对召回页面的其它类型元素与召回关键词相关程度的判别,并引入经由图形化加权模块获取的第一检索加权,辅助对召回结果准确度的判决,提升了召回结果的用户满意度。
标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及加权预处理模块输出,生成重构加权,并向中心归置模块传递;
作为一种可叠加的优选实施例,加权预处理模块输出可以限定第一检索加权和第二检索加权在求取重构加权中的比例,也即,加权预处理模块设定加权预处理参数W。例如,设定重构加权=(第一检索加权+W*第二检索加权)/(1+W);其中,W表征加权预处理模块输出,为一常数,由用户设置,例如可以为2,则此时第二检索加权也即标题中关键词匹配的重要程度相较于图片标识中匹配的重要程度高,且比例为2。
此时,重构加权=(第一检索加权+2*第二检索加权)/(1+2),若第一检索加权=0.1,第二检索加权=0.2,则重构加权=(0.1+2*0.2)/(1+2)=0.167。
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度可以以设定特定的中文或英文字数长度作为起止点,例如,设定为关键检索词前后各X个词(分词后)长度。
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数。
例如,当分词“车流”出现在搜索关键词“路桥信息”前X个词汇中,则将其记录在第一上下文分词频率表中,若其在先已有记录,次数为3,则将其次数+1,更新为4,若在先无记录,在记录该词,次数为1。
作为一种可叠加的优选实施例,为降低算法复杂度,X选取为1。
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数。
例如,第一上下文系数可以按照如下方式计算:
对于单个页面:
其中的单个分词在第一上下文分词频率表中出现的次数/总召回结果数量处于第一区间,例如>0.1,则该分词第一上下文模块系数记为70%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第二区间,例如>0.01且小于等于0.1,则该分词第一上下文模块系数记为40%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第三区间,例如小于等于 0.01,则该分词第一上下文模块系数记为10%;
单个页面的第一上下文系数=页面内分词的第一上下文模块系数之和/该页面内分词数量。
例如单个页面内存在四个分词,且其中单个分词第一上下文模块系数记分别为70%、40%、 70%、10%,则其该页面的第二上下文系数为(70%+40%+70%+10%)/5=38%。
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数。
其中,关键词前后的字符长度表征了关键词在正文中的重要程度。一般而言,关键词前后的内容越短,该关键词越可能在网页中被标记为重点内容,例如引人注目的段落概括、总结语句或短小的感叹语句,基于此,使用第二上下文模块基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度计算得到第二上下文系数。
作为一种可叠加的优选实施例,依据字符长度计算得到第二上下文系数可以为:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数。
作为一种可叠加的优选实施例,例如,搜索关键词为“XX大桥”,使用句号、换行符、制表符任一作为起止点,匹配上下文为“XX大桥信息化建设概览”,则在关键词前总计有0个字符,关键词后总计有7个字符,前后字符长度的总和为7,比例系数为1%,则该页面的第二上下文系数为7*1%=7%。
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数。
作为一种可叠加的优选实施例,第二上下文系数亦可作区间化取值,其取值方式可参照第一上下文系数的区间取值方式,此不赘述。
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
作为一种可叠加的优选实施例,第一上下文系数为A、第二上下文系数为B及重构加权C,则召回系数=(A+B+3C)/5*100%。
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
作为一种可叠加的优选实施例,基于所述召回系数实施召回判决具体为:
将召回系数小于特定阈值的召回结果进行丢弃,特定阈值可在系统初始化时由用户输入,例如为15%,或依据召回结果的数量动态调节,例如在召回结果小于第二阈值L时,按照一定比例降低特定阈值,例如,第二阈值L可为1000。
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
作为一种可叠加的优选实施例,推荐加扰模块生成扰动系数Y,使用扰动系统对基础推荐结果页面进行调整,将不符合扰动系数Y的页面进行排序退避,其退避可采用任意的现有技术退避算法决定其排序退避位数,也可有用户指定退避位数,例如将不符合扰动系数Y的页面退避10位,从而,若某一排序为13的召回结果页面,在退避后排序为23位。
作为一种可叠加的优选实施例,扰动系数Y计算方式如下:
Y=bool(页面内不存在用户设定灰色词)*(1/本页面与在先推荐内容页面属于相同网站主页次数);
其中,不符合扰动系数Y的页面,具体为:该页面的扰动系数Y小于特定阈值,例如0.3;
其中,bool(页面内不存在用户设定灰色词)表示页面内是否存在用户设定灰色词,否,则该值为1,是则为0。所述页面内存在用户设定灰色词可由用户设定,该词表征用户不想在召回页面中搜索到的香瓜内容,也即表征存在该相关灰色词内容的页面并非用户诉求检索和推荐的页面,例如,用户意向搜索路桥信息,但不想搜索与“赵州桥”相关的路桥信息,此时,赵州桥可在系统初始化时或检索开始之前被加入一页面内存在用户设定灰色词集合,若检索的目标页面符合路桥信息匹配,但存在“赵州桥”一词,则其Y值为0,无论其1/本页面与在先推荐内容页面属于相同网站主页次数)为何;
另,所述(1/本页面与在先推荐内容页面属于相同网站主页次数)表征检索结果页面的重复推荐几率,若与其属于相同主页的页面已被推荐多次,则其Y值显著下降,表征其重复推荐或无参考意义的相似推荐概率显著增加。当Y值在阈值以下时,将其进行退避,或将其从召回结果中去除。
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
作为另一种可叠加的优选实施例,所述系统还包括初始化查找逻辑单元,用于对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分,例如,查找一般页面文本元素可为查找出<IMG>,<title>,<hn>,其中n<=5或n<=2之外的其它标记;
作为一种可叠加的优选实施例,在使用扰动系数Y对基础推荐结果页面进行扰动后,得到重新排序的加扰后推荐页面,此时,次生推荐模块基于页面的现有技术编码方式之一或页面UI的现有技术规范协议之一,进行检索召回结果推荐页面的展示,按照扰动后的顺序进行召回结果的用户感知,以供用户进行后续的网页内容浏览或使用。
作为一种可叠加的优选实施例,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
在执行常规检索过程中,目标页面的标题可能以两种形式存在,一种是按照规范的HTML 标题形式进行标记,一种可能是以大于常规正文字体的字号进行字体放大,从而在视觉效果上显示为某文章、文章某段落、段落某内容、某重点提示词的关键部分。此时,常规的检索和召回不能考虑如上类型的标题及其对召回结果的权重意义,因此,需要设置本申请中,较之现有技术尤佳的候选标题甄别方法以及标题元素加权模块来实现对召回结果的标题辅助。
为解决如上问题,作为另一种可叠加的优选实施例,所述标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
作为另一种可叠加的优选实施例,基于font字段确定最大字号编码和次大字号编码;
作为另一种可叠加的优选实施例,基于相应文字元素的HTML代码中的字号大小属性字段,例如size字段或weigh字段,以及height字段等字号大小、字体大小字段确定最大字号编码和次大字号编码。
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
在候选标题元素中执行关键词查找,
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
在一种可叠加的优选实施例中,所述对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
使用用户预定关键词检索特定HTML代码段<hn></hn>,其中,n<=2,由此确定第一级标题和第二级标题;
在第一级标题和第二级标题中进行关键词匹配,并记录匹配结果和数量;
其次,除去特定HTML代码段<hn></hn>后,获取所述每个检索结果页面其余的每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
因部分文章的标题元素被网页页面编辑者仅仅使用字号等方式进行区别,未被规范地标记为特定HTML代码段<hn></hn>,此时,为了辨析这些潜在的候选标题元素,对其字号进行分析,将字号最大的最为一级标题,归并入特定HTML代码段<h1></h1>结果中,将字号次大的最为二级标题,归并入特定HTML代码段<h2></h2>结果中;
例如,在使用用户预定关键词检索特定HTML代码段<hn></hn>,其中,n<=2,得到一级标题“路桥信息系统:新一代互联网应用标杆”中“路桥信息”匹配结果数量=1,二次标题“XX大桥路桥信息系统开发与规划”匹配结果数量=1;在除去特定HTML代码段<hn></hn>后,执行剩余文字元素的HTML代码的关键词匹配,获得最大字号编码匹配数量2,次大字号编码匹配数量3。
则,候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值为1+2=3,其候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1,因此其布尔判决值K1为1;候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值为1+3=4,其候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1,因此其布尔判决值K2=1。
由此,第二检索加权N2=K1*30%*100%+K2*20%*100%=0.5;
如说明书附图2所示,说明书附图2示出了本发明基于互联网信息的检索方法一种实施例的基本框图。所述方法包含以下步骤:
S102:使用图形化加权模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
作为另一种可叠加的优选实施例,所述方法步骤S102起始还包括基于初始化查找逻辑单元对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分,例如,查找一般页面文本元素可为查找出<IMG>,<title>,<hn>,其中n<=5或n<=2之外的其它标记;
作为另一种可叠加的优选实施例,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
例如,如说明书附图3所示,说明书附图3示出了本发明示出互联网信息检索系统与方法中图片元素的HTML代码的一种可与其它实施例叠加、排列组合或相互结合的较佳实施例示意图。
因在现有技术的信息检索过程中,对用户关键词进行检索往往仅检索目标页面的常规内容,未考虑目标页面中,其它元素类型对检索召回结果的影响。例如,当目标检索页面包含关键词“月光族”时,所有包含关键词“月光族”的页面均会被召回,或简单地基于关键词的召回数量对召回页面进行排序,但此时,若该页面的引用部分(通常出现在文献检索过程中)或该页面的广告宣传部分、非正文部分等出现“月光族”,也会被一同召回,从而使用户的召回结果精确度降低,客观增加了用户对召回结果的负反馈。而在召回页面中,若在普通召回结果中出现了关键词“纯牛奶”,且网页的其它元素(例如图片)同样包含了与月光族相关的内容,则很有可能该页面的主要介绍内容(例如图文形式)即为与月光族有关内容,此时,将该页面推送给检索用户或提升该页面的检索排序,即很有可能满足检索用户的检索诉求。从而通过对召回页面的其它类型元素与召回关键词相关程度的判别,并引入一定加权,辅助对召回结果准确度的判决,提升了召回结果的用户满意度。
参见说明书附图3,在获取第一检索加权过程中,图形化加权模块对示例检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权,具体为:
如说明书附图3所示,示例检索结果页面部分HTML代码包含如下内容:
Figure BDA0002582740910000161
Figure DEST_PATH_IMAGE001
由此,例如,在检索和推荐用户需要检索“赵露思”相关内容,并在检索页面输入相应关键词时,图形化加权模块不仅对网页的常规文本内容进行检索,并在检索常规文本内容的同时,对网页内可能存在的图片元素进行检索,使用关键词(例如“赵露思”)对其中的页面所属图片元素集合进行匹配,也即匹配img标签下的所述内容,得出图形化加权模块的匹配结果:
第一检索加权N1=0.1*1*50%*100%=5%;
更甚地,作为另一种可叠加的优选实施例,在页面内包含多个与检索关键词相关联的图片元素内容情况时,表征该页面与检索结果相关程度更高,此时,对第一检索加权的计算将获得更高的加权值。
例如参见所明书附图4的示例页面,该页面中,图片1和图片2均包含关键词“赵露思”,在其网页正文或普通检索内容匹配赵露思的基础上,其第一检索加权高于单图片匹配的第一检索加权,此时的第一检索加权计算如下:
第一检索加权N1=0.1*2*50%*100%=10%。
再请参见所明书附图5的示例页面,该页面中用户检索词更换为三明,也即表征用户诉求检索与三明有关的结果页面,用户可能想了解三明的风土人情,有前往三明的意愿或作关于三明特产的报告。如此,在检索常规文本内容并获得匹配结果的同时,对网页内可能存在的图片元素进行检索,使用关键词(例如“三明”)对其中的页面所属图片元素集合进行匹配,也即匹配img标签下的所述内容,得出图形化加权模块的匹配结果:
第一检索加权N1=0.1*1*50%*100%=5%。
作为另一种可叠加的优选实施例,请注意,在常规网页正文或普通检索内容匹配未果的基础上,无需进行诸如第一加权和第二加权等后续召回加权步骤的计算,因该无匹配的对象页面按照本领域一般技术原则,无需加入召回结果集中,也即该页面作为负反馈页面,无需进行召回。
S104:使用标题元素加权模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
作为另一种可叠加的优选实施例,所述标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
作为另一种可叠加的优选实施例,基于font字段确定最大字号编码和次大字号编码;
作为另一种可叠加的优选实施例,基于相应文字元素的HTML代码中的字号大小属性字段,例如size字段或weigh字段,以及height字段等字号大小、字体大小字段确定最大字号编码和次大字号编码。
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0。
S106:使用加权重构模块,基于第一检索加权和第二检索加权,以及加权预处理模块输出,生成重构加权,并向中心归置模块传递;
作为一种可叠加的优选实施例,加权预处理模块输出可以限定第一检索加权和第二检索加权在求取重构加权中的比例,也即,加权预处理模块设定加权预处理参数W。例如,设定重构加权=(第一检索加权+W*第二检索加权)/(1+W);其中,W表征加权预处理模块输出,为一常数,由用户设置,例如可以为2,则此时第二检索加权也即标题中关键词匹配的重要程度相较于图片标识中匹配的重要程度高,且比例为2。
此时,重构加权=(第一检索加权+2*第二检索加权)/(1+2),若第一检索加权=0.1,第二检索加权=0.2,则重构加权=(0.1+2*0.2)/(1+2)=0.167。
S108:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度可以以设定特定的中文或英文字数长度作为起止点,例如,设定为关键检索词前后各X个词(分词后)长度。
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数。
例如,当分词“车流”出现在搜索关键词“路桥信息”前X个词汇中,则将其记录在第一上下文分词频率表中,若其在先已有记录,次数为3,则将其次数+1,更新为4,若在先无记录,在记录该词,次数为1。
作为一种可叠加的优选实施例,为降低算法复杂度,X选取为1。
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数。
例如,第一上下文系数可以按照如下方式计算:
对于单个页面:
其中的单个分词在第一上下文分词频率表中出现的次数/总召回结果数量处于第一区间,例如>0.1,则该分词第一上下文模块系数记为70%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第二区间,例如>0.01且小于等于0.1,则该分词第一上下文模块系数记为40%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第三区间,例如小于等于 0.01,则该分词第一上下文模块系数记为10%;
单个页面的第一上下文系数=页面内分词的第一上下文模块系数之和/该页面内分词数量。
例如单个页面内存在四个分词,且其中单个分词第一上下文模块系数记分别为70%、40%、 70%、10%,则其该页面的第二上下文系数为(70%+40%+70%+10%)/5=38%。
S110:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数。
其中,关键词前后的字符长度表征了关键词在正文中的重要程度。一般而言,关键词前后的内容越短,该关键词越可能在网页中被标记为重点内容,例如引人注目的段落概括、总结语句或短小的感叹语句,基于此,使用第二上下文模块基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度计算得到第二上下文系数。
作为一种可叠加的优选实施例,依据字符长度计算得到第二上下文系数可以为:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数。
作为一种可叠加的优选实施例,例如,搜索关键词为“XX大桥”,使用句号、换行符、制表符任一作为起止点,匹配上下文为“XX大桥信息化建设概览”,则在关键词前总计有0个字符,关键词后总计有7个字符,前后字符长度的总和为7,比例系数为1%,则该页面的第二上下文系数为7*1%=7%。
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数。
作为一种可叠加的优选实施例,第二上下文系数亦可作区间化取值,其取值方式可参照第一上下文系数的区间取值方式,此不赘述。
S112:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回系数的计算至少基于第一上下文系数、第二上下文系数及重构加权,可以设置相应的各个计算入口参数权重,用以符合用户的预期,并保证计算得出的召回系数处于合理区间且表征第一上下文系数、第二上下文系数及重构加在得出召回系数过程中的重要程度。例如,作为一种可叠加的优选实施例,第一上下文系数为A、第二上下文系数为B及重构加权C,则召回系数=(A+B+3C)/5*100%。
S114:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
作为一种可叠加的优选实施例,基于所述召回系数实施召回判决具体为:
将召回系数小于特定阈值的召回结果进行丢弃,特定阈值可在系统初始化时由用户输入,例如为15%,或依据召回结果的数量动态调节,例如在召回结果小于第二阈值L时,按照一定比例降低特定阈值,例如,第二阈值L可为1000。
S116:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
基础推荐结果页面包含了基础排序的召回推荐结果,所述结果页面为符合召回判决的召回结果集合,且按照一定的召回系数顺序进行排序。
S118:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
作为一种可叠加的优选实施例,推荐加扰模块生成扰动系数Y,使用扰动系统对基础推荐结果页面进行调整,将不符合扰动系数Y的页面进行排序退避,其退避可采用任意的现有技术退避算法决定其排序退避位数,也可有用户指定退避位数,例如将不符合扰动系数Y的页面退避10位,从而,若某一排序为13的召回结果页面,在退避后排序为23位。
作为一种可叠加的优选实施例,扰动系数Y计算方式如下:
Y=bool(页面内不存在用户设定灰色词)*(1/本页面与在先推荐内容页面属于相同网站主页次数);
其中,不符合扰动系数Y的页面,具体为:该页面的扰动系数Y小于特定阈值,例如0.3;
其中,bool(页面内不存在用户设定灰色词)表示页面内是否存在用户设定灰色词,否,则该值为1,是则为0。所述页面内存在用户设定灰色词可由用户设定,该词表征用户不想在召回页面中搜索到的香瓜内容,也即表征存在该相关灰色词内容的页面并非用户诉求检索和推荐的页面,例如,用户意向搜索路桥信息,但不想搜索与“赵州桥”相关的路桥信息,此时,赵州桥可在系统初始化时或检索开始之前被加入一页面内存在用户设定灰色词集合,若检索的目标页面符合路桥信息匹配,但存在“赵州桥”一词,则其Y值为0,无论其1/本页面与在先推荐内容页面属于相同网站主页次数)为何;
另,所述(1/本页面与在先推荐内容页面属于相同网站主页次数)表征检索结果页面的重复推荐几率,若与其属于相同主页的页面已被推荐多次,则其Y值显著下降,表征其重复推荐或无参考意义的相似推荐概率显著增加。当Y值在阈值以下时,将其进行退避,或将其从召回结果中去除。
S120:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
作为一种可叠加的优选实施例,在使用扰动系数Y对基础推荐结果页面进行扰动后,得到重新排序的加扰后推荐页面,此时,次生推荐模块基于页面的现有技术编码方式之一或页面UI的现有技术规范协议之一,进行检索召回结果推荐页面的展示,按照扰动后的顺序进行召回结果的用户感知,以供用户进行后续的网页内容浏览或使用。
本发明经由提出一种互联网信息检索系统和方法,引入加权预处理模块,用户在检索前对预期检索的页面辅助元素进行加权配置,并基于不同类型的页面加权匹配结果进行加权重构,从而与目标页面的上下文分析结果合并,实现对检索页面信息的中心归置,达到更好的互联网信息检索准确度与精度,以及更佳的用户检索满意度。具体地,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入图形化加权模块以及标题元素加权模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,对推荐顺序与用户预期的差别进行了研判和缩减,提升用户使用感受,并增强了用户在使用相应系统时对页面的加权预期以及基于该加权预期对检索的干预,并通过加权预处理模块实施用户自定义的信息检索干预。
在所有上述实施方式中,为实现一些特殊的数据传输、读/写功能的要求,上述方法操作过程中及其相应装置可以增加装置、模块、器件、硬件、引脚连接或存储器、处理器差异来扩展功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述方法步骤的划分,仅仅为一种逻辑或功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为方法的各个步骤、装置分离部件说明的单元可以是或者也可以不是逻辑或物理上分开的,也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各方法步骤及其实现、功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述方法和装置可以以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、NVRAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
应说明的是:以上实施例仅用以更清晰地解释、阐述本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种互联网信息检索系统,所述系统包括以下模块:
加权预处理模块,所述加权预处理模块用于设定加权预处理参数,所述加权预处理参数即为所述加权预处理模块输出,用于使得计算加权重构模块基于所述加权预处理参数计算加权重构。
图形化加权模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及加权预处理模块输出,生成重构加权,并向中心归置模块传递;
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
2.如权利要求1所述互联网信息检索系统和方法,其特征在于,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
3.如权利要求2所述互联网信息检索系统和方法,其特征在于,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
4.如权利要求1所述互联网信息检索系统和方法,其特征在于:
所述标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
5.如权利要求4所述互联网信息检索系统和方法,其特征在于:
所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0。
6.一种互联网信息检索方法,所述方法包括如下步骤:
步骤一:使用图形化加权模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
步骤二:使用标题元素加权模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
步骤三:使用加权重构模块,基于第一检索加权和第二检索加权,以及加权预处理模块输出,生成重构加权,并向中心归置模块传递;
步骤四:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
步骤五:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
步骤六:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
步骤七:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
步骤八:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
步骤九:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
步骤十:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
7.如权利要求6所述检索方法,其特征在于,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
8.如权利要求6所述检索方法,其特征在于,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
9.如权利要求8所述检索方法,其特征在于:
所述标题元素加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
10.如权利要求6所述检索方法,其特征在于:
所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0。
CN202010672254.3A 2020-07-14 2020-07-14 一种互联网信息检索系统与方法 Active CN111831885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672254.3A CN111831885B (zh) 2020-07-14 2020-07-14 一种互联网信息检索系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672254.3A CN111831885B (zh) 2020-07-14 2020-07-14 一种互联网信息检索系统与方法

Publications (2)

Publication Number Publication Date
CN111831885A true CN111831885A (zh) 2020-10-27
CN111831885B CN111831885B (zh) 2021-03-16

Family

ID=72922660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672254.3A Active CN111831885B (zh) 2020-07-14 2020-07-14 一种互联网信息检索系统与方法

Country Status (1)

Country Link
CN (1) CN111831885B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486246A (zh) * 2021-07-26 2021-10-08 平安科技(深圳)有限公司 信息的搜索方法、装置、设备以及存储介质
CN113688208A (zh) * 2021-08-30 2021-11-23 翰和文化教育(深圳)有限公司 基于大数据的文献资源精细化检索构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101675429A (zh) * 2007-01-31 2010-03-17 名誉捍卫者公司 识别和改变个人信息
CN102024050A (zh) * 2010-12-16 2011-04-20 浙江大学 一种网页浏览方法
CN104636407A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 参数取值训练及搜索请求处理方法和装置
CN104881428A (zh) * 2015-04-02 2015-09-02 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101675429A (zh) * 2007-01-31 2010-03-17 名誉捍卫者公司 识别和改变个人信息
CN102024050A (zh) * 2010-12-16 2011-04-20 浙江大学 一种网页浏览方法
CN104636407A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 参数取值训练及搜索请求处理方法和装置
CN104881428A (zh) * 2015-04-02 2015-09-02 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486246A (zh) * 2021-07-26 2021-10-08 平安科技(深圳)有限公司 信息的搜索方法、装置、设备以及存储介质
CN113688208A (zh) * 2021-08-30 2021-11-23 翰和文化教育(深圳)有限公司 基于大数据的文献资源精细化检索构建方法

Also Published As

Publication number Publication date
CN111831885B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN104850546B (zh) 移动媒介信息的展示方法和系统
CN102054024B (zh) 信息处理设备、信息提取方法、程序和信息处理系统
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
JP2013541793A (ja) マルチモード検索クエリー入力手法
US20140379719A1 (en) System and method for tagging and searching documents
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN111831885B (zh) 一种互联网信息检索系统与方法
WO2023142809A1 (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN111881283A (zh) 一种业务关键词库创建方法、智能聊天引导方法及装置
CN112989038A (zh) 句子级用户画像生成方法、装置及存储介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
RU2698405C2 (ru) Способ поиска в базе данных
CN104881447A (zh) 搜索方法及装置
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
CN117149804A (zh) 数据处理方法、装置、电子设备及存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
CN111831922B (zh) 一种基于互联网信息的推荐系统与方法
CN112016017A (zh) 确定特征数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant