CN111831922B - 一种基于互联网信息的推荐系统与方法 - Google Patents

一种基于互联网信息的推荐系统与方法 Download PDF

Info

Publication number
CN111831922B
CN111831922B CN202010672160.6A CN202010672160A CN111831922B CN 111831922 B CN111831922 B CN 111831922B CN 202010672160 A CN202010672160 A CN 202010672160A CN 111831922 B CN111831922 B CN 111831922B
Authority
CN
China
Prior art keywords
context
module
matching
retrieval
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010672160.6A
Other languages
English (en)
Other versions
CN111831922A (zh
Inventor
胡锦生
李国峰
熊雁
何茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Songyou Technology Innovation (Shenzhen) Co.,Ltd.
Xiamen Chuangjiang Information Technology Co.,Ltd.
Original Assignee
Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd filed Critical Shenzhen Zhongchuangda Enterprise Consulting And Planning Co ltd
Priority to CN202010672160.6A priority Critical patent/CN111831922B/zh
Publication of CN111831922A publication Critical patent/CN111831922A/zh
Application granted granted Critical
Publication of CN111831922B publication Critical patent/CN111831922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于互联网信息的推荐系统和方法,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回技术流程。

Description

一种基于互联网信息的推荐系统与方法
技术领域
本发明属于新一代计算机信息技术领域,尤其涉及一种互联网信息的推荐系统与方法。
背景技术
在大数据时代,互联网信息种类繁多,难以计数,通过互联网执行有效的信息检索和推荐,成为了网络技术应用以及将互联网信息进行本地化、行业化实施的重要过程,例如通过检索有用的互联网信息指导IT、金融、路桥建设、市政等行业。
使用搜索对互联网信息进行锚定,并基于搜索结果查看推荐内容,是一种较容易被用户接受的信息推荐方法。
一个完整的搜索引擎往往包含了比较多的复杂模块,每个模块相互作用、兜底组成了我们使用的搜索引擎。抽象起来,召回和相关性是搜索系统里最重要的两个功能。召回是对于输入关键词,能够高效的获取关键词相关的候选集合。召回对于搜索引擎起着决定的作用。因为一旦相关的doc不能够被召回,即使后面的相关性排序做好的再好,也是徒劳。尤其在 doc资源不是很丰富的搜索场景下,召回更是一个比较明显的问题。
首先面临的问题是索引粒度问题。我们知道召回是通过倒排索引求交得到的,当以词为粒度,粒度较细,召回的文章的数目较多,但也可能由于倒排过长把一些相关的结果误截断;当以更大的phrase粒度,粒度较粗,召回的文章相对更相关,但也容易造成召回的结果过少。其次召回要能够保证有一定的召回文章数。query大部分模块都是为了解决召回问题,比如非必留,同义词,纠错。这是因为query和doc往往会存在描述不一致的问题。比如query 是“如何考取广大的研究生?”,但大部分doc都是讲广州大学的研究生。因此需要将广大同义成广州大学才能正确的召回一些相关文章。用户query也会存在一些错误query,比如刘德花,这时系统需要将query纠错成“刘德华”,才能正确的召回一些相关文章。用户query 也会存在和doc不是完全匹配的情况,尤其是对于长query,比如“无问西东电影的主演是谁?”,如果要求原搜索串完全命中,可能导致召回结果数过少或零结果。这里分析“电影”是一个冗余的信息,“是谁”是一个不重要的词,其参不参与倒排的求交并不影响召回doc的相关性,这时召回时可以直接把这2个词直接丢掉。
召回要保证结果的多样性。尤其是对于短query。因为相比于长query,短query往往是一些实体,召回doc数往往不是关键问题,用户也希望有一些惊喜的结果,避免搜索结构都是一些类似或重复结果。query事件扩展,query改写都是为了解决召回的多样性问题。比如当用户输入“武汉大学”,如果只是返回一些武汉大学的百科、高考录取信息,可能对用户并没有什么吸引力。这是如果能将武汉大学能和最近比较热的“武汉大学樱花”、“武汉大学和服”关联起来,可能会有侧重召回扩展内容相关的doc,增加结果多样性。
召回推荐的呈现,亦是互联网信息检索和召回的关键步骤。例如,当你打开一个资讯APP 刷新闻时,有没有想过,系统是如何迅速推送给你你想看的内容?资讯APP背后有一个巨大的内容池,系统是如何判断要不要将某条资讯推送给你的呢?这就是笔者今天想跟大家探讨的问题——推荐策略中的召回。
推荐系统如何根据已有的用户画像和内容画像去推荐,涉及到两个关键问题:召回和排序。“召回(match)”指从全量信息集合中触发尽可能多的正确结果,并将结果返回给“排序”。召回的方式有多种:协同过滤、主题模型、内容召回和热点召回等,而“排序(rank)“则是对所有召回的内容进行打分排序,选出得分最高的几个结果推荐给用户。在搜索系统中,用户会输入明确的搜索词,根据搜索词进行内容的召回和呈现即可,但在推荐系统中,用户没有一个明确的检索词(Query)输入,推荐系统需要做的,就是根据用户画像、内容画像等各种信息为用户推荐他可能感兴趣的内容。另外,由于没有明确的检索词,推荐系统就需要从整个信息集合中挑选出尽可能多的相关结果,同时又需要剔除相关性较弱的结果,降低排序阶段的工作量。
一个完整的搜索引擎往往包含了比较多的复杂模块,每个模块相互作用、兜底组成了我们使用的搜索引擎。抽象起来,召回和相关性是搜索系统里最重要的两个功能。
相关性是为了计算query和返回doc的相关程度,也就是doc中的内容是不是满足用户 query的需求。因此相关性计算就需要充分的理解query和doc。比如从quey角度,需要知道query中的哪些词比较重要,有没有实体成分,意图是什么?是要找药品的介绍还是要找药品的购买网站?query的时效性如何?是要找最新的事件新闻还是一般的事件介绍?从doc角度来看,需要理解doc的话题类型,doc的核心词,doc的文本质量,是否是标题党,是否是推销等页面?充分的理解query和doc是非常有难度的,更进一步去计算query和doc 相关性计算也存在很大挑战,比如以下几种场景:query是歧义的,当用户搜索苹果时,是要找水果还是要找苹果手机?query的意图不完全体现在term的匹配上,比如用户搜索“北京到上海的火车票”,doc“北京到上海的火车票的乘车体验”,虽然query完全紧邻命中doc,但用户要找的是火车票购买,并不是该doc;query和doc的mismatched term对相关性也有很大的影响,而传统的相关性计算只考虑了matched term对相关性的贡献;query和doc很多时候需要从语义维度来判断是否相关,比如query“苹果手机多少钱?”和“iphone xs max 的官方标价?”;从计算场景来看,query是变化的,需要在线动态计算,因此通常都是一些简单快速的方法,做轻一些;doc相对静态的,偏离线运算,因此可以使用很复杂的模型事先把doc的相关属性计算好,做重一些。从计算方法来看,主要分为字面相关性和语义相关性两个维度。字面相关性主要是根据term的匹配度来计算相关性,一个不足是无法处理一词多义或者多词一义,并且会忽略词之间的顺序,常用的方法是BM25方法。语义相关性是近些年来研究的热点,像SVD,Topic Model,Embedding等等都是为了计算query的doc和语义相关性。其核心思想在于分别将query和doc标称一个低位稠密向量,然后用其cosine距离表示其相似性。Emedding是最近常用的方法,类似word2vec,doc2vec,sent2vec,lstm等等。不过embedding最早出现的还是word embedding,在word的embedding表示上效果比较好。如何学习长文本、有oov的文本的embedding一直没有得到很好的解决。最近比较流行的bert进行了相关实验,效果也没有想象中的好。语义相关性的另外一个缺点是不太具有解释性,出现badcase只能大概猜个可能的原因。虽然embedding是个趋势,但字面相关性仍然是一个不可或缺的模块,起个断后的作用。相关性模块扩展开来,可以认为是任意两个 item的相关性计算。比如推荐是为了计算user和item的相关性,广告是为了计算user和 ad的相关性。因此做好相关性计算是保证用户体验最核心的一步。
现有技术中的互联网信息推荐,未考虑页面内容中的辅助元素,且推荐和检索过程单线实施,逻辑较为简单,未充分实现多入口参数的比较、综合和权重分配,且未见关于用户自适应召回结果的上下文分析,导致目前的互联网信息推荐方式在具有较高复杂度的同时,召回结果不佳,用户满意度较低,存在多种重复推荐和推荐偏差。
本发明经由提出一种基于互联网信息的推荐系统和方法,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入第一加权模块以及第二加权模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升; 5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,对推荐顺序与用户预期的差别进行了研判和缩减,提升用户使用感受,使得系统的检索召回推荐反馈符合用户的使用预取,达到较好的页面检索和推荐结果。
发明内容
本发明旨在提供一种优于现有技术的基于互联网信息的推荐系统和方法。
为了实现上述目的,本发明的技术方案如下:
提供一种基于互联网信息的推荐系统,所述系统包括以下模块:
第一加权模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
较佳地,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
较佳地,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
较佳地,所述第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
较佳地,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
另,本发明更甚地提供了一种与前述互联网信息推荐系统相适应的互联网信息推荐方法,所述方法包括如下步骤:
步骤一:使用第一加权模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
步骤二:使用第二加权模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
步骤三:使用加权重构模块,基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
步骤四:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
步骤五:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
步骤六:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
步骤七:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
步骤八:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
步骤九:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
步骤十:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
较佳地,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
较佳地,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
较佳地,所述第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
较佳地,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
本发明经由提出一种基于互联网信息的推荐系统和方法,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入第一加权模块以及第二加权模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升; 5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,对推荐顺序与用户预期的差别进行了研判和缩减,提升用户使用感受,使得系统的检索召回推荐反馈符合用户的使用预取,达到较好的页面检索和推荐结果。
附图说明
图1是本发明示出基于互联网信息的推荐系统的一种基本系统层次结构图;
图2是本发明示出基于互联网信息的推荐方法一种实施例的基本框图;
图3是本发明示出基于互联网信息的推荐系统与方法中图片元素的HTML代码的一种较佳实施例示意图;
图4是本发明示出基于互联网信息的推荐系统与方法中计算第一检索加权的一种较佳实施例。
图5是本发明示出基于互联网信息的推荐系统与方法中计算第一检索加权示例的另一种优选实施例示意图。
具体实施方式
以下具体描述本发明所请求保护的基于互联网信息的推荐系统与方法若干实施例和有益效果,以有助于对本发明进行更细致的审查和分解。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述方法和相应装置,但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一加权模块、第一上下文模块、第一检索加权等也可以被称为第二加权模块、第二上下文模块、第二检索加权,类似地,第二加权模块、第二上下文模块、第二检索加权也可以被称为第一加权模块、第一上下文模块、第一检索加权。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
如说明书附图1所示,本发明所请求保护的基于互联网信息的推荐方法的系统的实施例之一,所述系统包括:
第一加权模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
因在现有技术的信息检索过程中,对用户关键词进行检索往往仅检索目标页面的常规内容,未考虑目标页面中,其它元素类型对检索召回结果的影响。例如,当目标检索页面包含关键词“月光族”时,所有包含关键词“月光族”的页面均会被召回,或简单地基于关键词的召回数量对召回页面进行排序,但此时,若该页面的引用部分(通常出现在文献检索过程中)或该页面的广告宣传部分、非正文部分等出现“月光族”,也会被一同召回,从而使用户的召回结果精确度降低,客观增加了用户对召回结果的负反馈。而在召回页面中,若在普通召回结果中出现了关键词“纯牛奶”,且网页的其它元素(例如图片)同样包含了与月光族相关的内容,则很有可能该页面的主要介绍内容(例如图文形式)即为与月光族有关内容,此时,将该页面推送给检索用户或提升该页面的检索排序,即很有可能满足检索用户的检索诉求。从而通过对召回页面的其它类型元素与召回关键词相关程度的判别,并引入经由第一加权模块获取的第一检索加权,辅助对召回结果准确度的判决,提升了召回结果的用户满意度。
第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
作为一种可叠加的优选实施例,用户加权配置可以限定第一检索加权和第二检索加权在求取重构加权中的比例,例如,设定重构加权=(第一检索加权+W*第二检索加权)/(1+W);其中,W表征用户加权配置,为一常数,由用户设置,例如可以为2,则此时第二检索加权也即标题中关键词匹配的重要程度相较于图片标识中匹配的重要程度高,且比例为2。
此时,重构加权=(第一检索加权+2*第二检索加权)/(1+2),若第一检索加权=0.1,第二检索加权=0.2,则重构加权=(0.1+2*0.2)/(1+2)=0.167。
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度可以以设定特定的中文或英文字数长度作为起止点,例如,设定为关键检索词前后各X个词(分词后)长度。
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数。
例如,当分词“车流”出现在搜索关键词“路桥信息”前X个词汇中,则将其记录在第一上下文分词频率表中,若其在先已有记录,次数为3,则将其次数+1,更新为4,若在先无记录,在记录该词,次数为1。
作为一种可叠加的优选实施例,为降低算法复杂度,X选取为1。
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数。
例如,第一上下文系数可以按照如下方式计算:
对于单个页面:
其中的单个分词在第一上下文分词频率表中出现的次数/总召回结果数量处于第一区间,例如>0.1,则该分词第一上下文模块系数记为70%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第二区间,例如>0.01且小于等于0.1,则该分词第一上下文模块系数记为40%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第三区间,例如小于等于 0.01,则该分词第一上下文模块系数记为10%;
单个页面的第一上下文系数=页面内分词的第一上下文模块系数之和/该页面内分词数量。
例如单个页面内存在四个分词,且其中单个分词第一上下文模块系数记分别为70%、40%、 70%、10%,则其该页面的第二上下文系数为(70%+40%+70%+10%)/5=38%。
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数。
其中,关键词前后的字符长度表征了关键词在正文中的重要程度。一般而言,关键词前后的内容越短,该关键词越可能在网页中被标记为重点内容,例如引人注目的段落概括、总结语句或短小的感叹语句,基于此,使用第二上下文模块基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度计算得到第二上下文系数。
作为一种可叠加的优选实施例,依据字符长度计算得到第二上下文系数可以为:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数。
作为一种可叠加的优选实施例,例如,搜索关键词为“XX大桥”,使用句号、换行符、制表符任一作为起止点,匹配上下文为“XX大桥信息化建设概览”,则在关键词前总计有0个字符,关键词后总计有7个字符,前后字符长度的总和为7,比例系数为1%,则该页面的第二上下文系数为7*1%=7%。
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数。
作为一种可叠加的优选实施例,第二上下文系数亦可作区间化取值,其取值方式可参照第一上下文系数的区间取值方式,此不赘述。
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
作为一种可叠加的优选实施例,第一上下文系数为A、第二上下文系数为B及重构加权C,则召回系数=(A+B+3C)/5*100%。
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
作为一种可叠加的优选实施例,基于所述召回系数实施召回判决具体为:
将召回系数小于特定阈值的召回结果进行丢弃,特定阈值可在系统初始化时由用户输入,例如为15%,或依据召回结果的数量动态调节,例如在召回结果小于第二阈值L时,按照一定比例降低特定阈值,例如,第二阈值L可为1000。
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
作为一种可叠加的优选实施例,推荐加扰模块生成扰动系数Y,使用扰动系统对基础推荐结果页面进行调整,将不符合扰动系数Y的页面进行排序退避,其退避可采用任意的现有技术退避算法决定其排序退避位数,也可有用户指定退避位数,例如将不符合扰动系数Y的页面退避10位,从而,若某一排序为13的召回结果页面,在退避后排序为23位。
作为一种可叠加的优选实施例,扰动系数Y计算方式如下:
Y=bool(页面内不存在用户设定灰色词)*(1/本页面与在先推荐内容页面属于相同网站主页次数);
其中,不符合扰动系数Y的页面,具体为:该页面的扰动系数Y小于特定阈值,例如0.3;
其中,bool(页面内不存在用户设定灰色词)表示页面内是否存在用户设定灰色词,否,则该值为1,是则为0。所述页面内存在用户设定灰色词可由用户设定,该词表征用户不想在召回页面中搜索到的香瓜内容,也即表征存在该相关灰色词内容的页面并非用户诉求检索和推荐的页面,例如,用户意向搜索路桥信息,但不想搜索与“赵州桥”相关的路桥信息,此时,赵州桥可在系统初始化时或检索开始之前被加入一页面内存在用户设定灰色词集合,若检索的目标页面符合路桥信息匹配,但存在“赵州桥”一词,则其Y值为0,无论其1/本页面与在先推荐内容页面属于相同网站主页次数)为何;
另,所述(1/本页面与在先推荐内容页面属于相同网站主页次数)表征检索结果页面的重复推荐几率,若与其属于相同主页的页面已被推荐多次,则其Y值显著下降,表征其重复推荐或无参考意义的相似推荐概率显著增加。当Y值在阈值以下时,将其进行退避,或将其从召回结果中去除。
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
作为一种可叠加的优选实施例,在使用扰动系数Y对基础推荐结果页面进行扰动后,得到重新排序的加扰后推荐页面,此时,次生推荐模块基于页面的现有技术编码方式之一或页面UI的现有技术规范协议之一,进行检索召回结果推荐页面的展示,按照扰动后的顺序进行召回结果的用户感知,以供用户进行后续的网页内容浏览或使用。
作为一种可叠加的优选实施例,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
在执行常规检索过程中,目标页面的标题可能以两种形式存在,一种是按照规范的HTML 标题形式进行标记,一种可能是以大于常规正文字体的字号进行字体放大,从而在视觉效果上显示为某文章、文章某段落、段落某内容、某重点提示词的关键部分。此时,常规的检索和召回不能考虑如上类型的标题及其对召回结果的权重意义,因此,需要设置本申请中,较之现有技术尤佳的候选标题甄别方法以及第二加权模块来实现对召回结果的标题辅助。
为解决如上问题,作为另一种可叠加的优选实施例,所述第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
作为另一种可叠加的优选实施例,基于font字段确定最大字号编码和次大字号编码;
作为另一种可叠加的优选实施例,基于相应文字元素的HTML代码中的字号大小属性字段,例如size字段或weigh字段,以及height字段等字号大小、字体大小字段确定最大字号编码和次大字号编码。
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
在候选标题元素中执行关键词查找,
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
在一种可叠加的优选实施例中,所述对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
使用用户预定关键词检索特定HTML代码段<hn></hn>,其中,n<=2,由此确定第一级标题和第二级标题;
在第一级标题和第二级标题中进行关键词匹配,并记录匹配结果和数量;
其次,除去特定HTML代码段<hn></hn>后,获取所述每个检索结果页面其余的每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
因部分文章的标题元素被网页页面编辑者仅仅使用字号等方式进行区别,未被规范地标记为特定HTML代码段<hn></hn>,此时,为了辨析这些潜在的候选标题元素,对其字号进行分析,将字号最大的最为一级标题,归并入特定HTML代码段<h1></h1>结果中,将字号次大的最为二级标题,归并入特定HTML代码段<h2></h2>结果中;
例如,在使用用户预定关键词检索特定HTML代码段<hn></hn>,其中,n<=2,得到一级标题“路桥信息系统:新一代互联网应用标杆”中“路桥信息”匹配结果数量=1,二次标题“XX大桥路桥信息系统开发与规划”匹配结果数量=1;在除去特定HTML代码段<hn></hn>后,执行剩余文字元素的HTML代码的关键词匹配,获得最大字号编码匹配数量2,次大字号编码匹配数量3。
则,候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值为1+2=3,其候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1,因此其布尔判决值K1为1;候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值为1+3=4,其候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1,因此其布尔判决值K2=1。
由此,第二检索加权N2=K1*30%*100%+K2*20%*100%=0.5;
作为另一种可叠加的优选实施例,所述系统还包括初始化查找逻辑单元,所述初始化查找逻辑单元用于对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分,例如,查找一般页面文本元素可为查找出<IMG>,<title>,<hn>,其中n<=5或n<=2之外的其它标记;
如说明书附图2所示,说明书附图2示出了本发明基于互联网信息的推荐方法一种实施例的基本框图。所述方法包含以下步骤:
S102:使用第一加权模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
作为另一种可叠加的优选实施例,所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10。
例如,如说明书附图3所示,说明书附图3示出了本发明示出基于互联网信息的推荐系统与方法中图片元素的HTML代码的一种可与其它实施例叠加、排列组合或相互结合的较佳实施例示意图。
因在现有技术的信息检索过程中,对用户关键词进行检索往往仅检索目标页面的常规内容,未考虑目标页面中,其它元素类型对检索召回结果的影响。例如,当目标检索页面包含关键词“月光族”时,所有包含关键词“月光族”的页面均会被召回,或简单地基于关键词的召回数量对召回页面进行排序,但此时,若该页面的引用部分(通常出现在文献检索过程中)或该页面的广告宣传部分、非正文部分等出现“月光族”,也会被一同召回,从而使用户的召回结果精确度降低,客观增加了用户对召回结果的负反馈。而在召回页面中,若在普通召回结果中出现了关键词“纯牛奶”,且网页的其它元素(例如图片)同样包含了与月光族相关的内容,则很有可能该页面的主要介绍内容(例如图文形式)即为与月光族有关内容,此时,将该页面推送给检索用户或提升该页面的检索排序,即很有可能满足检索用户的检索诉求。从而通过对召回页面的其它类型元素与召回关键词相关程度的判别,并引入一定加权,辅助对召回结果准确度的判决,提升了召回结果的用户满意度。
参见说明书附图3,在获取第一检索加权过程中,第一加权模块对示例检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权,具体为:
如说明书附图3所示,示例检索结果页面部分HTML代码包含如下内容:
Figure DEST_PATH_IMAGE001
由此,例如,在检索和推荐用户需要检索“赵露思”相关内容,并在检索页面输入相应关键词时,第一加权模块不仅对网页的常规文本内容进行检索,并在检索常规文本内容的同时,对网页内可能存在的图片元素进行检索,使用关键词(例如“赵露思”)对其中的页面所属图片元素集合进行匹配,也即匹配img标签下的所述内容,得出第一加权模块的匹配结果:
第一检索加权N1=0.1*1*50%*100%=5%;
更甚地,作为另一种可叠加的优选实施例,在页面内包含多个与检索关键词相关联的图片元素内容情况时,表征该页面与检索结果相关程度更高,此时,对第一检索加权的计算将获得更高的加权值。
例如参见所明书附图4的示例页面,该页面中,图片1和图片2均包含关键词“赵露思”,在其网页正文或普通检索内容匹配赵露思的基础上,其第一检索加权高于单图片匹配的第一检索加权,此时的第一检索加权计算如下:
第一检索加权N1=0.1*2*50%*100%=10%。
再请参见所明书附图5的示例页面,该页面中用户检索词更换为三明,也即表征用户诉求检索与三明有关的结果页面,用户可能想了解三明的风土人情,有前往三明的意愿或作关于三明特产的报告。如此,在检索常规文本内容并获得匹配结果的同时,对网页内可能存在的图片元素进行检索,使用关键词(例如“三明”)对其中的页面所属图片元素集合进行匹配,也即匹配img标签下的所述内容,得出第一加权模块的匹配结果:
第一检索加权N1=0.1*1*50%*100%=5%。
作为另一种可叠加的优选实施例,请注意,在常规网页正文或普通检索内容匹配未果的基础上,无需进行诸如第一加权和第二加权等后续召回加权步骤的计算,因该无匹配的对象页面按照本领域一般技术原则,无需加入召回结果集中,也即该页面作为负反馈页面,无需进行召回。
S104:使用第二加权模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
作为另一种可叠加的优选实施例,所述第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
作为另一种可叠加的优选实施例,基于font字段确定最大字号编码和次大字号编码;
作为另一种可叠加的优选实施例,基于相应文字元素的HTML代码中的字号大小属性字段,例如size字段或weigh字段,以及height字段等字号大小、字体大小字段确定最大字号编码和次大字号编码。
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权。
作为另一种可叠加的优选实施例,所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1 时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时, K2=1,否则为0。
S106:使用加权重构模块,基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
作为一种可叠加的优选实施例,用户加权配置可以限定第一检索加权和第二检索加权在求取重构加权中的比例,例如,设定重构加权=(第一检索加权+W*第二检索加权)/(1+W);其中,W表征用户加权配置,为一常数,由用户设置,例如可以为2,则此时第二检索加权也即标题中关键词匹配的重要程度相较于图片标识中匹配的重要程度高,且比例为2。
此时,重构加权=(第一检索加权+2*第二检索加权)/(1+2),若第一检索加权=0.1,第二检索加权=0.2,则重构加权=(0.1+2*0.2)/(1+2)=0.167。
S108:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度可以以设定特定的中文或英文字数长度作为起止点,例如,设定为关键检索词前后各X个词(分词后)长度。
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数。
例如,当分词“车流”出现在搜索关键词“路桥信息”前X个词汇中,则将其记录在第一上下文分词频率表中,若其在先已有记录,次数为3,则将其次数+1,更新为4,若在先无记录,在记录该词,次数为1。
作为一种可叠加的优选实施例,为降低算法复杂度,X选取为1。
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数。
例如,第一上下文系数可以按照如下方式计算:
对于单个页面:
其中的单个分词在第一上下文分词频率表中出现的次数/总召回结果数量处于第一区间,例如>0.1,则该分词第一上下文模块系数记为70%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第二区间,例如>0.01且小于等于0.1,则该分词第一上下文模块系数记为40%;
其在第一上下文分词频率表中出现的次数/总召回结果数量处于第三区间,例如小于等于 0.01,则该分词第一上下文模块系数记为10%;
单个页面的第一上下文系数=页面内分词的第一上下文模块系数之和/该页面内分词数量。
例如单个页面内存在四个分词,且其中单个分词第一上下文模块系数记分别为70%、40%、 70%、10%,则其该页面的第二上下文系数为(70%+40%+70%+10%)/5=38%。
S110:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
作为一种可叠加的优选实施例,第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数。
其中,关键词前后的字符长度表征了关键词在正文中的重要程度。一般而言,关键词前后的内容越短,该关键词越可能在网页中被标记为重点内容,例如引人注目的段落概括、总结语句或短小的感叹语句,基于此,使用第二上下文模块基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度计算得到第二上下文系数。
作为一种可叠加的优选实施例,依据字符长度计算得到第二上下文系数可以为:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数。
作为一种可叠加的优选实施例,例如,搜索关键词为“XX大桥”,使用句号、换行符、制表符任一作为起止点,匹配上下文为“XX大桥信息化建设概览”,则在关键词前总计有0个字符,关键词后总计有7个字符,前后字符长度的总和为7,比例系数为1%,则该页面的第二上下文系数为7*1%=7%。
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数。
作为一种可叠加的优选实施例,第二上下文系数亦可作区间化取值,其取值方式可参照第一上下文系数的区间取值方式,此不赘述。
S112:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回系数的计算至少基于第一上下文系数、第二上下文系数及重构加权,可以设置相应的各个计算入口参数权重,用以符合用户的预期,并保证计算得出的召回系数处于合理区间且表征第一上下文系数、第二上下文系数及重构加在得出召回系数过程中的重要程度。例如,作为一种可叠加的优选实施例,第一上下文系数为A、第二上下文系数为B及重构加权C,则召回系数=(A+B+3C)/5*100%。
S114:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
作为一种可叠加的优选实施例,基于所述召回系数实施召回判决具体为:
将召回系数小于特定阈值的召回结果进行丢弃,特定阈值可在系统初始化时由用户输入,例如为15%,或依据召回结果的数量动态调节,例如在召回结果小于第二阈值L时,按照一定比例降低特定阈值,例如,第二阈值L可为1000。
S116:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
基础推荐结果页面包含了基础排序的召回推荐结果,所述结果页面为符合召回判决的召回结果集合,且按照一定的召回系数顺序进行排序。
S118:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
作为一种可叠加的优选实施例,推荐加扰模块生成扰动系数Y,使用扰动系统对基础推荐结果页面进行调整,将不符合扰动系数Y的页面进行排序退避,其退避可采用任意的现有技术退避算法决定其排序退避位数,也可有用户指定退避位数,例如将不符合扰动系数Y的页面退避10位,从而,若某一排序为13的召回结果页面,在退避后排序为23位。
作为一种可叠加的优选实施例,扰动系数Y计算方式如下:
Y=bool(页面内不存在用户设定灰色词)*(1/本页面与在先推荐内容页面属于相同网站主页次数);
其中,不符合扰动系数Y的页面,具体为:该页面的扰动系数Y小于特定阈值,例如0.3;
其中,bool(页面内不存在用户设定灰色词)表示页面内是否存在用户设定灰色词,否,则该值为1,是则为0。所述页面内存在用户设定灰色词可由用户设定,该词表征用户不想在召回页面中搜索到的香瓜内容,也即表征存在该相关灰色词内容的页面并非用户诉求检索和推荐的页面,例如,用户意向搜索路桥信息,但不想搜索与“赵州桥”相关的路桥信息,此时,赵州桥可在系统初始化时或检索开始之前被加入一页面内存在用户设定灰色词集合,若检索的目标页面符合路桥信息匹配,但存在“赵州桥”一词,则其Y值为0,无论其1/本页面与在先推荐内容页面属于相同网站主页次数)为何;
另,所述(1/本页面与在先推荐内容页面属于相同网站主页次数)表征检索结果页面的重复推荐几率,若与其属于相同主页的页面已被推荐多次,则其Y值显著下降,表征其重复推荐或无参考意义的相似推荐概率显著增加。当Y值在阈值以下时,将其进行退避,或将其从召回结果中去除。
S120:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果。
作为一种可叠加的优选实施例,在使用扰动系数Y对基础推荐结果页面进行扰动后,得到重新排序的加扰后推荐页面,此时,次生推荐模块基于页面的现有技术编码方式之一或页面UI的现有技术规范协议之一,进行检索召回结果推荐页面的展示,按照扰动后的顺序进行召回结果的用户感知,以供用户进行后续的网页内容浏览或使用。
作为另一种可叠加的优选实施例,所述方法还包括基于初始化查找逻辑单元对用户输入的查找内容进行分词,并存储分词后的查找关键词,在查找页面集合的一般页面文本元素中执行关键词匹配查找,并将查找结果页面集合向加权重构模块传递;
所述查找页面集合为信息查找的对象页面集合,包括可查找的所有页面。
所述一般页面文本元素为查找对象页面集合中每个页面的HTML编码中除去具有特殊部分的其它部分代码文本;所述特殊部分至少包括标题部分、图片部分,例如,查找一般页面文本元素可为查找出<IMG>,<title>,<hn>,其中n<=5或n<=2之外的其它标记;
本发明经由提出一种基于互联网信息的推荐系统和方法,通过在现有技术的一般页面文本或普通内容进行关键词匹配基础之上,设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回的较佳技术流程,实现了:1.基于引入第一加权模块以及第二加权模块,创新地利用页面内其它元素辅助进行检索召回判别;2.在检索召回前,基于动态的用户配置进行检索召回结果加权的变更和倾斜,使其更符合用户需求,实现用户对系统配置的积极参与和改写,并使得召回结果更符合用户的使用习惯;3.引入独特的上下文分析模块,实现对页面内元素的三次利用,通过对上下文进行解析,来达到更高的召回精度;4.基于加权和上下文分析,进行系统的中心归置,使系统在中心可控的条件下实现对各种召回相关参数的综合协调,方便控制终端用户的改写程度,同时基于多维度参数来实现召回精度的进一步提升;5.为推荐实现加扰,从而解决原始推荐的不准确问题,同时引入一定的加扰变量,来在精细化推荐结果的同时,对推荐顺序与用户预期的差别进行了研判和缩减,提升用户使用感受,使得系统的检索召回推荐反馈符合用户的使用预取,达到较好的页面检索和推荐结果。
在所有上述实施方式中,为实现一些特殊的数据传输、读/写功能的要求,上述方法操作过程中及其相应装置可以增加装置、模块、器件、硬件、引脚连接或存储器、处理器差异来扩展功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述方法步骤的划分,仅仅为一种逻辑或功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为方法的各个步骤、装置分离部件说明的单元可以是或者也可以不是逻辑或物理上分开的,也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各方法步骤及其实现、功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述方法和装置可以以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、NVRAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
应说明的是:以上实施例仅用以更清晰地解释、阐述本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (2)

1.一种基于互联网信息的推荐系统,所述系统包括以下模块:
第一加权模块,对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
加权重构模块,用于基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
第一上下文模块,用于对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
第二上下文模块,用于对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
基础推荐模块,生成基础推荐结果页面,并传递至推荐加扰模块;
推荐加扰模块,对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
次生推荐模块,接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果;
所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权;
所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10;
所述第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权;
所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0;
第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度设定为分词后的关键检索词前后各X个词长度;
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数;
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数;
第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数;
所述依据字符长度计算得到第二上下文系数包括:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数;
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数;对第二上下文系数作区间化取值。
2.一种互联网信息推荐方法,所述方法包括如下步骤:
步骤一:使用第一加权模块对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权;
步骤二:使用第二加权模块对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权;
步骤三:使用加权重构模块,基于第一检索加权和第二检索加权,以及用户加权配置,生成重构加权,并向中心归置模块传递;
步骤四:使用第一上下文模块对每个检索结果页面中关键词的匹配处进行第一上下文分析,得到第一上下文系数,并向中心归置模块传递;
步骤五:使用第二上下文模块,对每个检索结果页面中关键词的匹配处进行第二上下文分析,得到第二上下文系数,并向中心归置模块传递;
步骤六:使用中心归置模块,基于第一上下文系数、第二上下文系数及重构加权,得出召回系数,并向召回判决模块传递;
步骤七:使用召回判决模块,基于所述召回系数实施召回判决,将通过判决的召回结果发送至基础推荐模块;
步骤八:基于基础推荐模块生成基础推荐结果页面,并传递至推荐加扰模块;
步骤九:使用推荐加扰模块对推荐进行加扰,基于加扰模型对推荐结果页面进行加扰,并生成加扰后推荐页面;
步骤十:使用次生推荐模块接收加扰后推荐页面,基于特定的UI执行展现,使用户感知自适应页面推荐结果;
所述对每个检索结果页面所属图片元素集合进行匹配,并基于匹配结果给出第一检索加权具体为:
获取所述每个检索结果页面所属每个图片元素的HTML元素代码,
在所述每个图片元素的HTML元素代码中执行关键词查找,
基于查找匹配结果,计算第一检索加权;
所述基于查找匹配结果,计算第一检索加权具体为:
第一检索加权N1=0.1*N*50%*100%;
其中,N为匹配结果中所匹配的图片数量参考值,当执行在所述每个图片元素的HTML元素代码中执行关键词查找得到M张匹配图片后,N与M的取值具有如下关系:
当M<=10时,N=M;
当M>10时,N=10;
所述第二加权模块,对每个检索结果页面所属标题元素集合进行匹配,并基于匹配结果给出第二检索加权,具体为:
在特定HTML代码标记的第一级和第二级中执行关键词查找;
除去特定HTML代码标记后,获取所述每个检索结果页面所属每段文字元素的HTML代码,将最大字号编码和次大字号编码确定为候选标题元素;若同时有多段文字元素的HTML代码属于同一字号大小,则将其内容进行首尾接续,合并为新的字符串,并统一标记为同一文字元素集合且其字号编码不变;
在候选标题元素中执行关键词查找,
基于查找匹配结果,计算第二检索加权;
所述基于查找匹配结果,计算第二检索加权,至少包括:
第二检索加权N2=K1*30%*100%+K2*20%*100%;
其中,K1为候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值的布尔判决值,当候选标题元素中最大字号编码匹配结果数量与在特定HTML代码标记的第一级中执行关键词查找匹配结果数量加值大于等于1时,K1=1,否则为0;K2为候选标题元素中次大字号编码匹配结果与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量布尔判决值,当候选标题元素中次大字号编码匹配结果数量与在特定HTML代码标记的第二级中执行关键词查找匹配结果数量加值大于等于1时,K2=1,否则为0;
第一上下文模块对关键检索词匹配处前后特定长度的上下文进行分词截取,所述特定长度设定为分词后的关键检索词前后各X个词长度;
保存上述分词至第一上下文分词频率表,并更新上述分词在第一上下文分词频率表中出现的次数,所述第一上下文分词频率表至少记录第一上下文模块获得的上下文分词及其次数;
基于页面内各个分词在第一上下文分词频率表中出现的次数,设置第一上下文系数;
第二上下文模块,用于基于句号、换行符、制表符作为起止点,计算关键词前后的字符长度,并依据字符长度得到第二上下文系数;
所述依据字符长度计算得到第二上下文系数包括:
依据前后字符长度的总和,乘以一定的比例系数计算得到第二上下文系数;
若页面内有多处匹配,则将多处匹配分别计算的最大第二上下文系数作为该页面的第二上下文系数;对第二上下文系数作区间化取值。
CN202010672160.6A 2020-07-14 2020-07-14 一种基于互联网信息的推荐系统与方法 Active CN111831922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672160.6A CN111831922B (zh) 2020-07-14 2020-07-14 一种基于互联网信息的推荐系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672160.6A CN111831922B (zh) 2020-07-14 2020-07-14 一种基于互联网信息的推荐系统与方法

Publications (2)

Publication Number Publication Date
CN111831922A CN111831922A (zh) 2020-10-27
CN111831922B true CN111831922B (zh) 2021-02-05

Family

ID=72922761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672160.6A Active CN111831922B (zh) 2020-07-14 2020-07-14 一种基于互联网信息的推荐系统与方法

Country Status (1)

Country Link
CN (1) CN111831922B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138956A (zh) * 2021-11-26 2022-03-04 北京比特易湃信息技术有限公司 一种结合推荐策略的对话系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
CN103324619B (zh) * 2012-03-20 2016-10-05 阿里巴巴集团控股有限公司 一种基于互联网的推荐方法及推荐系统
CN103544266B (zh) * 2013-10-16 2017-05-31 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
US9703875B2 (en) * 2014-06-09 2017-07-11 Ebay Inc. Systems and methods to identify and present filters
CN117932138A (zh) * 2016-01-22 2024-04-26 电子湾有限公司 用于内容生成的上下文识别
CN110196941B (zh) * 2018-07-24 2024-05-14 腾讯科技(深圳)有限公司 一种资讯推荐方法、装置、服务器与存储介质
CN109086439B (zh) * 2018-08-15 2022-02-25 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN109145213B (zh) * 2018-08-22 2020-07-28 清华大学 基于历史信息的查询推荐方法及装置
CN110162593B (zh) * 2018-11-29 2023-03-21 腾讯科技(深圳)有限公司 一种搜索结果处理、相似度模型训练方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置

Also Published As

Publication number Publication date
CN111831922A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
KR101554293B1 (ko) 교차 언어 정보 검색
CN106709040B (zh) 一种应用搜索方法和服务器
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
US8725717B2 (en) System and method for identifying topics for short text communications
CN103106282B (zh) 一种网页搜索与展示的方法
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
US20090265338A1 (en) Contextual ranking of keywords using click data
US20100287162A1 (en) method and system for text summarization and summary based query answering
CN102054024B (zh) 信息处理设备、信息提取方法、程序和信息处理系统
US11100169B2 (en) Alternative query suggestion in electronic searching
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN107133259A (zh) 一种搜索方法和装置
CN107193892B (zh) 一种文档主题确定方法及装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
US20190065502A1 (en) Providing information related to a table of a document in response to a search query
CN111782956A (zh) 一种基于用户行为和关键词分类的搜索方法
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN108205545B (zh) 一种为用户提供推荐信息的方法与设备
CN111831885B (zh) 一种互联网信息检索系统与方法
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
Visa Technology of text mining
CN111831922B (zh) 一种基于互联网信息的推荐系统与方法
CN118095265A (zh) 一种直播数据的llm智能分析方法、装置、设备和介质
JP2006227823A (ja) 情報処理装置及びその制御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: B306, building 10, langlujiayuan, No. 3355, Liuxian Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: Songyou Technology Innovation (Shenzhen) Co.,Ltd.

Country or region after: China

Address before: B306, building 10, langlujiayuan, No. 3355, Liuxian Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: Shenzhen zhongchuangda enterprise consulting and planning Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240719

Address after: Unit 1002, No. 67 Xishanwei Road, Phase III Software Park, Torch High tech Zone, Xiamen City, Fujian Province 361000

Patentee after: Xiamen Chuangjiang Information Technology Co.,Ltd.

Country or region after: China

Address before: B306, building 10, langlujiayuan, No. 3355, Liuxian Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: Songyou Technology Innovation (Shenzhen) Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right