CN111831884B - 一种基于信息查找的匹配系统与方法 - Google Patents

一种基于信息查找的匹配系统与方法 Download PDF

Info

Publication number
CN111831884B
CN111831884B CN202010672167.8A CN202010672167A CN111831884B CN 111831884 B CN111831884 B CN 111831884B CN 202010672167 A CN202010672167 A CN 202010672167A CN 111831884 B CN111831884 B CN 111831884B
Authority
CN
China
Prior art keywords
search
page
matching
context
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010672167.8A
Other languages
English (en)
Other versions
CN111831884A (zh
Inventor
胡锦生
李国峰
熊雁
何茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Songyou Technology Innovation Shenzhen Co ltd
Xi'an Miaoyan Network Technology Co.,Ltd.
Original Assignee
Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd filed Critical Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Priority to CN202010672167.8A priority Critical patent/CN111831884B/zh
Publication of CN111831884A publication Critical patent/CN111831884A/zh
Application granted granted Critical
Publication of CN111831884B publication Critical patent/CN111831884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于信息查找的匹配系统和方法,使用初始化查找逻辑单元对用户输入的查找内容进行分词并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递,使得在互联网信息查找过程中,能够实现基于一般页面文本元素查找的次级迭代和进阶多参数适配查找,充分利用查找对象页面的页面元素帮助使用者提升信息查找匹配程度。

Description

一种基于信息查找的匹配系统与方法
技术领域
本发明属于新一代计算机信息技术领域,尤其涉及一种基于信息查找的匹配系统与方法。
背景技术
如何在数据冗余处处可见的互联网中准确查找与用户需求匹配的信息,是大数据时代,为提升数据利用率,强化数据存储和处理的关键问题之一。
在互联网信息爆炸的时代,如果有效的甄别信息来源,信息查找、匹配和辨别有用信息是一门很重要的技能,掌握一套非常完善的信息检索和整理的方式:百度、GOOGLE、图书馆、各种文库、数据库、乃至淘宝搜索。这是一个要求也是一种能力。
作为互联网信息查找和匹配的载体与基础,互联网时代的到来给人们带来了翻天覆地的变化,改变着人的生活习惯,工作习惯,学习习惯和行为习惯。它是现代化的信息高速公路,信息是现代化经济的脉搏,掌握了信息等于掌握了经济的命脉。互联网颠覆了传统,时刻都可能创造奇迹。五年前移动互联网还没有发展,现在人手一部智能手机,吃喝住行玩乐购,打开手机一点都能解决。在中国网民就有9亿多,每一次在互联网上的点击都会产生数据。全球每秒产行的数据都是数以亿计,大数据是未来最贵的东西,未来的人工智能也是基于大数据为基础。在互联网信息爆炸的时代,我们越感觉时间的珍贵,生活娱乐方方面面都在用碎片化的时间,总想把长篇大论精简为短小的精华,近两年的短视频很受欢迎,都精简到一个段子十几秒的时间,充分把碎片时间都利用上。
早期的基于信息查找的匹配是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是搜索引擎的原型。一般的查找引擎包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息,它包括信息搜集、信息整理和用户查询三部分。常用的网络搜索引擎有百度,Google,我爱读,搜狐,雅虎,必应,好书搜索,有道,中搜,搜搜,搜客等。
随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,他们从一个单一的搜索引擎发展到有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。
然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。
在百度、Google、雅虎等主流搜索引擎愈发发展成熟以外,各类不同的搜索大全也在今日的互联网逐渐兴起。搜索大全即为集各种不同类型搜索引擎,涵盖多语言于一身的搜索集合。该类搜索引擎大全的兴起,让搜索变得更加简单。几乎所有的内容都能在“一页之间”完成。比如风靡一时的百google度,谷姐,比如新近的sou1sou等,就是将其它的搜索引擎的结果集合在一块。
如果你想在互联网上本地区域寻找某一样东西或资料,可以在google、baidu或其他搜索器中输入:某某产品名称或资料名称然后用逗号“,”再输入所在地城市名称,点击搜索,这样很多关于某城市相关产品或资料就出现。例如:某某产品,城市名称;或某某资料名称,城市名称。
搜索引擎面临两个主要挑战:一是检索的质量仍然需要提高。常常检索的是大量的无用的结果,真正有用的结果却被淹没在其中不容易发现。搜索引擎的索引和以前相比已经有了极大的增长,一般检索时都会返回大量的结果。但是人们查看和选择结果的能力与耐心没有得到相应的提高,通常还是只会注意最前面的部分。因此,搜索引擎的“精度”,尤其是检索结果排在前面的部分对于用户的有用性。是非常重要的,有时候相对于查全率来说显得更加突出。
现今的互联网信息查找,多对页面内部的普通文本执行简单的文本匹配,欠缺对页面内容中辅助元素的考量,且推荐和检索过程实施机械,逻辑较为简单,未充分实现多入口参数的比较、综合和权重分配,且未见关于用户自适应召回结果的上下文分析,导致目前的互联网信息查找和匹配方式在具有较高复杂度的同时,召回结果不佳,用户满意度较低,存在多种重复推荐和推荐偏差。
本发明提出一种基于信息查找的匹配系统和方法,使用初始化查找逻辑单元对用户输入的查找内容进行分词并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递,使得在互联网信息查找过程中,能够实现基于一般页面文本元素查找的高级迭代和多参数适配查找,充分利用查找对象页面的页面元素帮助使用者提升信息查找匹配程度。且通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入配图入口模块以及标题入口模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,充分利用初始化查找逻辑单元的基础查找功能并在基础查找逻辑的查找结果之上进行加工和加权,实现较好的互联网信息查找效果。
发明内容
本发明旨在提供一种优于现有技术的基于信息查找的匹配系统和方法。
为了实现上述目的,本发明的技术方案如下:
提供一种基于信息查找的匹配系统,所述系统包括以下模块:
初始化查找逻辑单元,所述初始化查找逻辑单元用于对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分;
配图入口模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
较佳地,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
较佳地,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
较佳地,所述标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
较佳地,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
另,本发明更甚地提供了一种与前述系统相适应的基于信息查找的匹配方法,所述方法包括如下步骤:
步骤一:基于初始化查找逻辑单元,对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分;使用配图入口模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
步骤二:使用标题入口模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
步骤三:使用加权重构模块,基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
步骤四:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
步骤五:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
步骤六:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
步骤七:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
步骤八:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
步骤九:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
步骤十:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
较佳地,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
较佳地,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
较佳地,所述标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
较佳地,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
本发明提出一种基于信息查找的匹配系统和方法,使用初始化查找逻辑单元对用户输入的查找内容进行分词并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递,使得在互联网信息查找过程中,能够实现基于一般页面文本元素查找的高级迭代和多参数适配查找,充分利用查找对象页面的页面元素帮助使用者提升信息查找匹配程度。且通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入配图入口模块以及标题入口模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,充分利用初始化查找逻辑单元的基础查找功能并在基础查找逻辑的查找结果之上进行加工和加权,实现较好的互联网信息查找效果。
附图说明
图1是本发明示出基于信息查找的匹配系统的一种基本系统层次结构图;
图2是本发明示出基于互联网信息查找的匹配方法一种实施例的基本框图;
图3是本发明示出基于信息查找的匹配系统与方法中图片元素的HTML代码的一种较佳实施例示意图;
图4是本发明示出基于信息查找的匹配系统与方法中计算第一检索加权的一种较佳实施例。
图5是本发明示出基于信息查找的匹配系统与方法中计算第一检索加权示例的另一种优选实施例示意图。
具体实施方式
以下具体描述本发明所请求保护的基于信息查找的匹配系统与方法若干实施例和有益效果,以有助于对本发明进行更细致的审查和分解。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述方法和相应装置,但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如,在不脱离本发明实施例范围的情况下,配图入口模块、第一上下文模块、第一检索加权等也可以被称为标题入口模块、第二上下文模块、第二检索加权,类似地,标题入口模块、第二上下文模块、第二检索加权也可以被称为配图入口模块、第一上下文模块、第一检索加权。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
如说明书附图1所示,本发明所请求保护的基于互联网信息查找匹配方法的系统的实施例之一,所述系统包括:
初始化查找逻辑单元,所述初始化查找逻辑单元用于对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分;
配图入口模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
因在现有技术的信息检索过程中,对用户关键词进行检索往往仅检索目标页面的常规内容,未考虑目标页面中,其它元素类型对检索召回结果的影响。例如,当目标检索页面包含关键词“月光族”时,所有包含关键词“月光族”的页面均会被召回,或简单地基于关键词的召回数量对召回页面进行排序,但此时,若该页面的引用部分(通常出现在文献检索过程中)或该页面的广告宣传部分、非正文部分等出现“月光族”,也会被一同召回,从而使用户的召回结果精确度降低,客观增加了用户对召回结果的负反馈。而在召回页面中,若在普通召回结果中出现了关键词“纯牛奶”,且网页的其它元素(例如图片)同样包含了与月光族相关的内容,则很有可能该页面的主要介绍内容(例如图文形式)即为与月光族有关内容,此时,将该页面推送给检索用户或提升该页面的检索排序,即很有可能满足检索用户的检索诉求。从而通过对召回页面的其它类型元素与召回关键词相关程度的判别,并引入经由配图入口模块获取的第一检索加权,辅助对召回结果准确度的判决,提升了召回结果的用户满意度。
标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
作为一种可叠加的优选实施例,用户加权配置可以限定第一检索加权和第二检索加权在求取重构加权中的比例,例如,设定重构加权=(第一检索加权+W*第二检索加权)/(1+W);其中,W表征用户加权配置,为一常数,由用户设置,例如可以为2,则此时第二检索加权也即标题中关键词匹配的重要程度相较于图片标识中匹配的重要程度高,且比例为2。
此时,重构加权=(第一检索加权+2*第二检索加权)/(1+2),若第一检索加权=0.1,第二检索加权=0.2,则重构加权=(0.1+2*0.2)/(1+2)=0.167。
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度可以以设定特定的中文或英文字数长度作为起止点,例如,设定为关键检索词前后各X个词(分词后)长度。
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数。
例如,当分词“车流”出现在搜索关键词“路桥信息”前X个词汇中,则将其记录在第一上下文分词频率表中,若其在先已有记录,次数为3,则将其次数+1,更新为4,若在先无记录,在记录该词,次数为1。
作为一种可叠加的优选实施例,为降低算法复杂度,X选取为1。
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数。
例如,第一上下文系数可以按照如下方式计算:
对于单个页面:
其中的单个分词在第一上下文分词频率表中出现的次数/总召回结果数量处于第一区间,例如>0.1,则该分词第一上下文模块系数记为70%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第二区间,例如>0.01且小于等于0.1,则该分词第一上下文模块系数记为40%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第三区间,例如小于等于 0.01,则该分词第一上下文模块系数记为10%;
单个页面的第一上下文系数=页面内分词的第一上下文模块系数之和/该页面内分词数量。
例如单个页面内存在四个分词,且其中单个分词第一上下文模块系数记分别为70%、40%、 70%、10%,则其该页面的第二上下文系数为(70%+40%+70%+10%)/5=38%。
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数。
其中,关键词前后的字符长度表征了关键词在正文中的重要程度。一般而言,关键词前后的内容越短,该关键词越可能在网页中被标记为重点内容,例如引人注目的段落概括、总结语句或短小的感叹语句,基于此,使用第二上下文模块基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度计算得到第二上下文系数。
作为一种可叠加的优选实施例,依据字符长度计算得到第二上下文系数可以为:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数。
作为一种可叠加的优选实施例,例如,搜索关键词为“XX大桥”,使用句号、换行符、制表符任一作为起止点,匹配上下文为“XX大桥信息化建设概览”,则在关键词前总计有0个字符,关键词后总计有7个字符,前后字符长度的总和为7,比例系数为1%,则该页面的第二上下文系数为7*1%=7%。
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数。
作为一种可叠加的优选实施例,第二上下文系数亦可作区间化取值,其取值方式可参照第一上下文系数的区间取值方式,此不赘述。
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
作为一种可叠加的优选实施例,第一上下文系数为A、第二上下文系数为B及重构加权C,则召回系数=(A+B+3C)/5*100%。
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
作为一种可叠加的优选实施例,基于所述召回系数实施召回判决具体为:
将召回系数小于特定阈值的召回结果进行丢弃,特定阈值可在系统初始化时由用户输入,例如为15%,或依据召回结果的数量动态调节,例如在召回结果小于第二阈值L时,按照一定比例降低特定阈值,例如,第二阈值L可为1000。
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
作为一种可叠加的优选实施例,推荐加扰模块生成扰动系数Y,使用扰动系统对基础推荐结果页面进行调整,将不符合扰动系数Y的页面进行排序退避,其退避可采用任意的现有技术退避算法决定其排序退避位数,也可有用户指定退避位数,例如将不符合扰动系数Y的页面退避10位,从而,若某一排序为13的召回结果页面,在退避后排序为23位。
作为一种可叠加的优选实施例,扰动系数Y计算方式如下:
Y=bool(页面内不存在用户设定灰色词)*(1/本页面与在先推荐内容页面属于相同网站主页次数);
其中,不符合扰动系数Y的页面,具体为:该页面的扰动系数Y小于特定阈值,例如0.3;
其中,bool(页面内不存在用户设定灰色词)表示页面内是否存在用户设定灰色词,否,则该值为1,是则为0。所述页面内存在用户设定灰色词可由用户设定,该词表征用户不想在召回页面中搜索到的香瓜内容,也即表征存在该相关灰色词内容的页面并非用户诉求检索和推荐的页面,例如,用户意向搜索路桥信息,但不想搜索与“赵州桥”相关的路桥信息,此时,赵州桥可在系统初始化时或检索开始之前被加入一页面内存在用户设定灰色词集合,若检索的目标页面符合路桥信息匹配,但存在“赵州桥”一词,则其Y值为0,无论其1/本页面与在先推荐内容页面属于相同网站主页次数)为何;
另,所述(1/本页面与在先推荐内容页面属于相同网站主页次数)表征检索结果页面的重复推荐几率,若与其属于相同主页的页面已被推荐多次,则其Y值显著下降,表征其重复推荐或无参考意义的相似推荐概率显著增加。当Y值在阈值以下时,将其进行退避,或将其从召回结果中去除。
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
作为一种可叠加的优选实施例,在使用扰动系数Y对基础推荐结果页面进行扰动后,得到重新排序的加扰后推荐页面,此时,次生推荐模块基于页面的现有技术编码方式之一或页面UI的现有技术规范协议之一,进行检索召回结果推荐页面的展示,按照扰动后的顺序进行召回结果的用户感知,以供用户进行后续的网页内容浏览或使用。
作为一种可叠加的优选实施例,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
在执行常规检索过程中,目标页面的标题可能以两种形式存在,一种是按照规范的HTML 标题形式进行标记,一种可能是以大于常规正文字体的字号进行字体放大,从而在视觉效果上显示为某文章、文章某段落、段落某内容、某重点提示词的关键部分。此时,常规的检索和召回不能考虑如上类型的标题及其对召回结果的权重意义,因此,需要设置本申请中,较之现有技术尤佳的候选标题甄别方法以及标题入口模块来实现对召回结果的标题辅助。
为解决如上问题,作为另一种可叠加的优选实施例,所述标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
作为另一种可叠加的优选实施例,基于font字段确定最大字号编码和次大字号编码;
作为另一种可叠加的优选实施例,基于相应文字元素的HTML代码中的字号大小属性字段,例如size字段或weigh字段,以及height字段等字号大小、字体大小字段确定最大字号编码和次大字号编码。
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
在候选标题元素中执行关键词查找,
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
在一种可叠加的优选实施例中,所述对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
使用用户预定关键词检索特定HTML代码段<hn></hn>,其中,n<=2,由此确定第一级标题和第二级标题;
在第一级标题和第二级标题中进行关键词匹配,并记录匹配结果和数量;
其次,除去特定HTML代码段<hn></hn>后,获取所述每个检索结果页面其余的每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
因部分文章的标题元素被网页页面编辑者仅仅使用字号等方式进行区别,未被规范地标记为特定HTML代码段<hn></hn>,此时,为了辨析这些潜在的候选标题元素,对其字号进行分析,将字号最大的最为一级标题,归并入特定HTML代码段<h1></h1>结果中,将字号次大的最为二级标题,归并入特定HTML代码段<h2></h2>结果中;
例如,在使用用户预定关键词检索特定HTML代码段<hn></hn>,其中,n<=2,得到一级标题“路桥信息系统:新一代互联网应用标杆”中“路桥信息”匹配结果数量=1,二次标题“XX大桥路桥信息系统开发与规划”匹配结果数量=1;在除去特定HTML代码段<hn></hn>后,执行剩余文字元素的HTML代码的关键词匹配,获得最大字号编码匹配数量2,次大字号编码匹配数量3。
则,候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值为1+2=3,其候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1,因此其布尔判决值K1为1;候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值为1+3=4,其候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1,因此其布尔判决值K2=1。
由此,第二检索加权N2=K1*30%*100%+K2*20%*100%=0.5;
如说明书附图2所示,说明书附图2示出了本发明基于互联网信息查找匹配方法一种实施例的基本框图。所述方法包含以下步骤:
S102:基于初始化查找逻辑单元对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分;使用配图入口模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
作为另一种可叠加的优选实施例,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
例如,如说明书附图3所示,说明书附图3示出了本发明示出基于信息查找的匹配系统与方法中图片元素的HTML代码的一种可与其它实施例叠加、排列组合或相互结合的较佳实施例示意图。
因在现有技术的信息检索过程中,对用户关键词进行检索往往仅检索目标页面的常规内容,未考虑目标页面中,其它元素类型对检索召回结果的影响。例如,当目标检索页面包含关键词“月光族”时,所有包含关键词“月光族”的页面均会被召回,或简单地基于关键词的召回数量对召回页面进行排序,但此时,若该页面的引用部分(通常出现在文献检索过程中)或该页面的广告宣传部分、非正文部分等出现“月光族”,也会被一同召回,从而使用户的召回结果精确度降低,客观增加了用户对召回结果的负反馈。而在召回页面中,若在普通召回结果中出现了关键词“纯牛奶”,且网页的其它元素(例如图片)同样包含了与月光族相关的内容,则很有可能该页面的主要介绍内容(例如图文形式)即为与月光族有关内容,此时,将该页面推送给检索用户或提升该页面的检索排序,即很有可能满足检索用户的检索诉求。从而通过对召回页面的其它类型元素与召回关键词相关程度的判别,并引入一定加权,辅助对召回结果准确度的判决,提升了召回结果的用户满意度。
参见说明书附图3,在获取第一检索加权过程中,配图入口模块对示例检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权,具体为:
如说明书附图3所示,示例检索结果页面部分HTML代码包含如下内容:
Figure DEST_PATH_IMAGE001
由此,例如,在检索和推荐用户需要检索“赵露思”相关内容,并在检索页面输入相应关键词时,配图入口模块不仅对网页的常规文本内容进行检索,并在检索常规文本内容的同时,对网页内可能存在的图片元素进行检索,使用关键词(例如“赵露思”)对其中的页面所属图片元素集合进行匹配,也即匹配img标签下的所述内容,得出配图入口模块的匹配结果:
第一检索加权N1=0.1*1*50%*100%=5%;
更甚地,作为另一种可叠加的优选实施例,在页面内包含多个与检索关键词相关联的图片元素内容情况时,表征该页面与检索结果相关程度更高,此时,对第一检索加权的计算将获得更高的加权值。
例如参见所明书附图4的示例页面,该页面中,图片1和图片2均包含关键词“赵露思”,在其网页正文或普通检索内容匹配赵露思的基础上,其第一检索加权高于单图片匹配的第一检索加权,此时的第一检索加权计算如下:
第一检索加权N1=0.1*2*50%*100%=10%。
再请参见所明书附图5的示例页面,该页面中用户检索词更换为三明,也即表征用户诉求检索与三明有关的结果页面,用户可能想了解三明的风土人情,有前往三明的意愿或作关于三明特产的报告。如此,在检索常规文本内容并获得匹配结果的同时,对网页内可能存在的图片元素进行检索,使用关键词(例如“三明”)对其中的页面所属图片元素集合进行匹配,也即匹配img标签下的所述内容,得出配图入口模块的匹配结果:
第一检索加权N1=0.1*1*50%*100%=5%。
作为另一种可叠加的优选实施例,请注意,在常规网页正文或普通检索内容匹配未果的基础上,无需进行诸如第一加权和第二加权等后续召回加权步骤的计算,因该无匹配的对象页面按照本领域一般技术原则,无需加入召回结果集中,也即该页面作为负反馈页面,无需进行召回。
S104:使用标题入口模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
作为另一种可叠加的优选实施例,所述标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
作为另一种可叠加的优选实施例,基于font字段确定最大字号编码和次大字号编码;
作为另一种可叠加的优选实施例,基于相应文字元素的HTML代码中的字号大小属性字段,例如size字段或weigh字段,以及height字段等字号大小、字体大小字段确定最大字号编码和次大字号编码。
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
S106:使用加权重构模块,基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
作为一种可叠加的优选实施例,用户加权配置可以限定第一检索加权和第二检索加权在求取重构加权中的比例,例如,设定重构加权=(第一检索加权+W*第二检索加权)/(1+W);其中,W表征用户加权配置,为一常数,由用户设置,例如可以为2,则此时第二检索加权也即标题中关键词匹配的重要程度相较于图片标识中匹配的重要程度高,且比例为2。
此时,重构加权=(第一检索加权+2*第二检索加权)/(1+2),若第一检索加权=0.1,第二检索加权=0.2,则重构加权=(0.1+2*0.2)/(1+2)=0.167。
S108:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度可以以设定特定的中文或英文字数长度作为起止点,例如,设定为关键检索词前后各X个词(分词后)长度。
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数。
例如,当分词“车流”出现在搜索关键词“路桥信息”前X个词汇中,则将其记录在第一上下文分词频率表中,若其在先已有记录,次数为3,则将其次数+1,更新为4,若在先无记录,在记录该词,次数为1。
作为一种可叠加的优选实施例,为降低算法复杂度,X选取为1。
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数。
例如,第一上下文系数可以按照如下方式计算:
对于单个页面:
其中的单个分词在第一上下文分词频率表中出现的次数/总召回结果数量处于第一区间,例如>0.1,则该分词第一上下文模块系数记为70%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第二区间,例如>0.01且小于等于0.1,则该分词第一上下文模块系数记为40%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第三区间,例如小于等于 0.01,则该分词第一上下文模块系数记为10%;
单个页面的第一上下文系数=页面内分词的第一上下文模块系数之和/该页面内分词数量。
例如单个页面内存在四个分词,且其中单个分词第一上下文模块系数记分别为70%、40%、 70%、10%,则其该页面的第二上下文系数为(70%+40%+70%+10%)/5=38%。
S110:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数。
其中,关键词前后的字符长度表征了关键词在正文中的重要程度。一般而言,关键词前后的内容越短,该关键词越可能在网页中被标记为重点内容,例如引人注目的段落概括、总结语句或短小的感叹语句,基于此,使用第二上下文模块基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度计算得到第二上下文系数。
作为一种可叠加的优选实施例,依据字符长度计算得到第二上下文系数可以为:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数。
作为一种可叠加的优选实施例,例如,搜索关键词为“XX大桥”,使用句号、换行符、制表符任一作为起止点,匹配上下文为“XX大桥信息化建设概览”,则在关键词前总计有0个字符,关键词后总计有7个字符,前后字符长度的总和为7,比例系数为1%,则该页面的第二上下文系数为7*1%=7%。
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数。
作为一种可叠加的优选实施例,第二上下文系数亦可作区间化取值,其取值方式可参照第一上下文系数的区间取值方式,此不赘述。
S112:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回系数的计算至少基于第一上下文系数、第二上下文系数及重构加权,可以设置相应的各个计算入口参数权重,用以符合用户的预期,并保证计算得出的召回系数处于合理区间且表征第一上下文系数、第二上下文系数及重构加在得出召回系数过程中的重要程度。例如,作为一种可叠加的优选实施例,第一上下文系数为A、第二上下文系数为B及重构加权C,则召回系数=(A+B+3C)/5*100%。
S114:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
作为一种可叠加的优选实施例,基于所述召回系数实施召回判决具体为:
将召回系数小于特定阈值的召回结果进行丢弃,特定阈值可在系统初始化时由用户输入,例如为15%,或依据召回结果的数量动态调节,例如在召回结果小于第二阈值L时,按照一定比例降低特定阈值,例如,第二阈值L可为1000。
S116:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
基础推荐结果页面包含了基础排序的召回推荐结果,所述结果页面为符合召回判决的召回结果集合,且按照一定的召回系数顺序进行排序。
S118:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
作为一种可叠加的优选实施例,推荐加扰模块生成扰动系数Y,使用扰动系统对基础推荐结果页面进行调整,将不符合扰动系数Y的页面进行排序退避,其退避可采用任意的现有技术退避算法决定其排序退避位数,也可有用户指定退避位数,例如将不符合扰动系数Y的页面退避10位,从而,若某一排序为13的召回结果页面,在退避后排序为23位。
作为一种可叠加的优选实施例,扰动系数Y计算方式如下:
Y=bool(页面内不存在用户设定灰色词)*(1/本页面与在先推荐内容页面属于相同网站主页次数);
其中,不符合扰动系数Y的页面,具体为:该页面的扰动系数Y小于特定阈值,例如0.3;
其中,bool(页面内不存在用户设定灰色词)表示页面内是否存在用户设定灰色词,否,则该值为1,是则为0。所述页面内存在用户设定灰色词可由用户设定,该词表征用户不想在召回页面中搜索到的香瓜内容,也即表征存在该相关灰色词内容的页面并非用户诉求检索和推荐的页面,例如,用户意向搜索路桥信息,但不想搜索与“赵州桥”相关的路桥信息,此时,赵州桥可在系统初始化时或检索开始之前被加入一页面内存在用户设定灰色词集合,若检索的目标页面符合路桥信息匹配,但存在“赵州桥”一词,则其Y值为0,无论其1/本页面与在先推荐内容页面属于相同网站主页次数)为何;
另,所述(1/本页面与在先推荐内容页面属于相同网站主页次数)表征检索结果页面的重复推荐几率,若与其属于相同主页的页面已被推荐多次,则其Y值显著下降,表征其重复推荐或无参考意义的相似推荐概率显著增加。当Y值在阈值以下时,将其进行退避,或将其从召回结果中去除。
S120:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
作为一种可叠加的优选实施例,在使用扰动系数Y对基础推荐结果页面进行扰动后,得到重新排序的加扰后推荐页面,此时,次生推荐模块基于页面的现有技术编码方式之一或页面UI的现有技术规范协议之一,进行检索召回结果推荐页面的展示,按照扰动后的顺序进行召回结果的用户感知,以供用户进行后续的网页内容浏览或使用。
本发明提出一种基于信息查找的匹配系统和方法,使用初始化查找逻辑单元对用户输入的查找内容进行分词并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递,使得在互联网信息查找过程中,能够实现基于一般页面文本元素查找的高级迭代和多参数适配查找,充分利用查找对象页面的页面元素帮助使用者提升信息查找匹配程度。且通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入配图入口模块以及标题入口模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,充分利用初始化查找逻辑单元的基础查找功能并在基础查找逻辑的查找结果之上进行加工和加权,实现较好的互联网信息查找效果。
在所有上述实施方式中,为实现一些特殊的数据传输、读/写功能的要求,上述方法操作过程中及其相应装置可以增加装置、模块、器件、硬件、引脚连接或存储器、处理器差异来扩展功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述方法步骤的划分,仅仅为一种逻辑或功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为方法的各个步骤、装置分离部件说明的单元可以是或者也可以不是逻辑或物理上分开的,也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各方法步骤及其实现、功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述方法和装置可以以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、NVRAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
应说明的是:以上实施例仅用以更清晰地解释、阐述本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (2)

1.一种基于信息查找的匹配系统,所述系统包括以下模块:
初始化查找逻辑单元,所述初始化查找逻辑单元用于对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面;
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分;
配图入口模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果;
所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权;
所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10;
所述标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权;
所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0;
第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度设定为分词后的关键检索词前后各X个词长度;
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数;
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数;
第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数;
所述依据字符长度计算得到第二上下文系数包括:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数;
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数;对第二上下文系数作区间化取值。
2.一种基于信息查找的匹配方法,所述方法包括如下步骤:
步骤一:基于初始化查找逻辑单元对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面;
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分;使用配图入口模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
步骤二:使用标题入口模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
步骤三:使用加权重构模块,基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
步骤四:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
步骤五:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
步骤六:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
步骤七:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
步骤八:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
步骤九:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
步骤十:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果;
所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权;
所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10;
所述标题入口模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权;
所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0;
第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度设定为分词后的关键检索词前后各X个词长度;
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数;
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数;
第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数;
所述依据字符长度计算得到第二上下文系数包括:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数;
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数;对第二上下文系数作区间化取值。
CN202010672167.8A 2020-07-14 2020-07-14 一种基于信息查找的匹配系统与方法 Active CN111831884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672167.8A CN111831884B (zh) 2020-07-14 2020-07-14 一种基于信息查找的匹配系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672167.8A CN111831884B (zh) 2020-07-14 2020-07-14 一种基于信息查找的匹配系统与方法

Publications (2)

Publication Number Publication Date
CN111831884A CN111831884A (zh) 2020-10-27
CN111831884B true CN111831884B (zh) 2021-02-05

Family

ID=72924066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672167.8A Active CN111831884B (zh) 2020-07-14 2020-07-14 一种基于信息查找的匹配系统与方法

Country Status (1)

Country Link
CN (1) CN111831884B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392327B (zh) * 2021-07-02 2022-09-23 滨州学院 基于用户网站访问记录的图书推荐方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930022B (zh) * 2012-10-31 2015-11-25 中国运载火箭技术研究院 面向用户的信息搜索引擎系统及方法
CN103353899B (zh) * 2013-07-25 2016-02-03 刘莎 一种综合信息精准搜索方法
US9703875B2 (en) * 2014-06-09 2017-07-11 Ebay Inc. Systems and methods to identify and present filters
CN105488196B (zh) * 2015-12-07 2019-01-22 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN108268582B (zh) * 2017-07-14 2021-05-07 阿里巴巴(中国)有限公司 信息查询方法及装置
US20190278461A1 (en) * 2018-03-06 2019-09-12 Mudpie, Sa De Cv Recommendation acknowledgement and tracking
CN111177532A (zh) * 2019-12-02 2020-05-19 平安资产管理有限责任公司 一种垂直搜索方法、装置、计算机系统及可读存储介质
CN111339338B (zh) * 2020-02-29 2023-03-07 西安理工大学 基于深度学习的文本图片匹配推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置

Also Published As

Publication number Publication date
CN111831884A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US8527506B2 (en) Media discovery and playlist generation
US8082248B2 (en) Method and system for document classification based on document structure and written style
US7502780B2 (en) Information storage and retrieval
US20060095852A1 (en) Information storage and retrieval
US20090094232A1 (en) Refining A Search Space In Response To User Input
KR20190108838A (ko) 미술 작품 추천 큐레이션 방법 및 시스템
US20040107221A1 (en) Information storage and retrieval
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111782956A (zh) 一种基于用户行为和关键词分类的搜索方法
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP2001306612A (ja) 情報提供装置、情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体
JP2006227823A (ja) 情報処理装置及びその制御方法
CN111831885B (zh) 一种互联网信息检索系统与方法
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
CN112711716A (zh) 一种基于知识图谱的海洋产业新闻推送方法及系统
JP2001101194A (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2000172691A (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
CN111831922B (zh) 一种基于互联网信息的推荐系统与方法
KR20030062585A (ko) 멀티미디어 객체의 특징 기술정보 생성방법
CN116484079A (zh) 属性词挖掘方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: B306, building 10, langlujiayuan, No. 3355, Liuxian Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: Songyou Technology Innovation (Shenzhen) Co.,Ltd.

Country or region after: China

Address before: B306, building 10, langlujiayuan, No. 3355, Liuxian Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: Shenzhen zhongchuangda enterprise consulting and planning Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240828

Address after: 1905, Building A, Yanxiang City Plaza, No. 56 Jinye 1st Road, High tech Zone, Xi'an City, Shaanxi Province 710000

Patentee after: Xi'an Miaoyan Network Technology Co.,Ltd.

Country or region after: China

Address before: B306, building 10, langlujiayuan, No. 3355, Liuxian Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: Songyou Technology Innovation (Shenzhen) Co.,Ltd.

Country or region before: China