CN117150144B - 一种基于大数据的搜索引擎优化方法 - Google Patents

一种基于大数据的搜索引擎优化方法 Download PDF

Info

Publication number
CN117150144B
CN117150144B CN202311414625.8A CN202311414625A CN117150144B CN 117150144 B CN117150144 B CN 117150144B CN 202311414625 A CN202311414625 A CN 202311414625A CN 117150144 B CN117150144 B CN 117150144B
Authority
CN
China
Prior art keywords
search
search result
weight value
user
correction value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311414625.8A
Other languages
English (en)
Other versions
CN117150144A (zh
Inventor
张鹏
于广明
苏丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Supeng Computer Technology Co ltd
Original Assignee
Nantong Supeng Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Supeng Computer Technology Co ltd filed Critical Nantong Supeng Computer Technology Co ltd
Priority to CN202311414625.8A priority Critical patent/CN117150144B/zh
Publication of CN117150144A publication Critical patent/CN117150144A/zh
Application granted granted Critical
Publication of CN117150144B publication Critical patent/CN117150144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据搜索技术领域,具体涉及一种基于大数据的搜索引擎优化方法。方法包括:基于当前时刻用户输入搜索框内的文本对应的关键词获得用户的目标搜索意图,根据各搜索结果的初始权重值和各搜索结果对应的特征向量与搜索框内的文本对应的特征向量的余弦相似度,得到初始排序权重值;基于各搜索结果在目标时间段内每次被点击浏览的时长、各搜索结果在目标时间段内每次被点击的时刻、两两搜索结果对应的特征向量之间的余弦相似度获得综合修正值;基于初始排序权重值和综合修正值得到修正后的排序权重值;依据修正后的排序权重值获得搜索结果。本发明提高了搜索结果排序的准确性,提升了用户的搜索体验感。

Description

一种基于大数据的搜索引擎优化方法
技术领域
本发明涉及数据搜索技术领域,具体涉及一种基于大数据的搜索引擎优化方法。
背景技术
互联网存储着海量的数据信息,若需要从这些海量的信息中获取到用户需要的信息,就需要利用搜索引擎。互联网中信息参差不齐,搜索引擎对于搜索结果的排序直接影响着用户的搜索结果。因此,为了更好的给用户提供精确的搜索结果,需要不断的对搜索结果进行分析优化,进而提高搜索引擎的搜索效率,提升用户的使用体验。现有的搜索引擎算法往往是将用户输入的关键词与对应的搜索结果进行匹配,匹配程度较大的信息会优先的排序到搜索结果的最前列,但是现存有一种利用搜索引擎的漏洞提高匹配程度的方法,通过增大搜索结果(比如网页信息)的关键词密度,发布大量与关键词无关的但是会提及关键词的信息来增加匹配程度,会大大降低搜索效率,降低用户的使用体验,并会使得用户对搜索引擎的信任度逐渐降低。因此如何基于关键词信息对搜索结果进行准确排序是一个非常重要的问题。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于大数据的搜索引擎优化方法,所采用的技术方案具体如下:
本发明提供了一种基于大数据的搜索引擎优化方法,该方法包括以下步骤:
获取当前时刻用户输入搜索框内的文本对应的关键词和对应的搜索引擎的各搜索结果对应的关键词;
基于所述搜索框内的文本对应的关键词获得用户的目标搜索意图,基于所述目标搜索意图获得各搜索结果对应的类别,通过各搜索结果对应的类别确定各搜索结果的初始权重值,所述类别包括意向搜索类别和非意向搜索类别;根据各搜索结果的初始权重值和各搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度,得到各搜索结果的初始排序权重值;
基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到各搜索结果的排序权重值的第一修正值;基于两两搜索结果对应的特征向量之间的余弦相似度,对各搜索结果进行修正获得各搜索结果的排序权重值的第二修正值;
基于所述第一修正值和所述第二修正值确定各搜索结果的排序权重值的综合修正值;基于所述各搜索结果的初始排序权重值和所述各搜索结果的排序权重值的综合修正值,得到各搜索结果对应的修正后的排序权重值;按照修正后的排序权重值从大到小的顺序将搜索结果依次进行显示。
优选的,所述基于所述搜索框内的文本对应的关键词获得用户的目标搜索意图,包括:
将当前时刻用户输入搜索框内的文本对应的各关键词转换为向量,获得当前时刻用户输入搜索框内的文本对应的各关键词向量;基于所述各关键词向量获得当前时刻用户输入搜索框内的文本对应的特征向量;
将所述当前时刻用户输入搜索框内的文本对应的特征向量输入到训练好的分类模型中,获得特征向量对应的类别,将所述特征向量对应的类别作为用户的目标搜索意图。
优选的,所述基于所述目标搜索意图获得各搜索结果对应的类别,包括:
对于任一搜索结果:
将该搜索结果对应的各关键词转换为向量获得该搜索结果对应的各关键词向量,基于该搜索结果对应的各关键词向量获得该搜索结果对应的特征向量;
根据所述该搜索结果对应的特征向量和训练好的分类模型,得到该搜索结果对应的种类;若该搜索结果对应的种类与所述用户的目标搜索意图相同,则将该搜索结果划分到意向搜索类别中;若该搜索结果对应的种类与所述用户的目标搜索意图不相同,则将该搜索结果划分到非意向搜索类别中。
优选的,所述基于两两搜索结果对应的特征向量之间的余弦相似度,对各搜索结果进行修正获得各搜索结果的排序权重值的第二修正值,包括:
从搜索引擎的搜索结果中任意选取两个搜索结果,分别记为第一搜索结果和第二搜索结果,计算第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度;判断所述第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度是否大于相似度阈值,若大于,则计算第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度和调整系数的乘积,记为第一乘积,将一与调整系数的差值记为第一差值,计算第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度和所述第一差值的乘积,记为第二乘积,将第一搜索结果和第二搜索结果中排序权重值的第一修正值较大的搜索结果的排序权重值的第二修正值设置为所述第一乘积,将第一搜索结果和第二搜索结果中排序权重值的第一修正值较小的搜索结果的排序权重值的第二修正值设置为所述第二乘积,所述调整系数大于0.5;若小于等于,则将第一搜索结果和第二搜索结果的排序权重值的第二修正值均设置为1。
优选的,所述基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到各搜索结果的排序权重值的第一修正值,包括:
对于第个搜索结果,采用如下公式计算该搜索结果的排序权重值的初始修正值:
其中,为第/>个搜索结果的排序权重值的初始修正值,/>为第/>个搜索结果在目标时间段内被点击的总次数,/>为第/>个搜索结果在目标时间段内第k次被点击的时刻,/>为当前时刻,/>为第/>个搜索结果在目标时间段内第k次被点击浏览的时长,e为自然常数,为取绝对值;
对第个搜索结果的排序权重值的初始修正值进行归一化处理,将归一化结果作为第/>个搜索结果的排序权重值的第一修正值。
优选的,所述根据各搜索结果的初始权重值和各搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度,得到各搜索结果的初始排序权重值,包括:
对于任一搜索结果:将该搜索结果的初始权重值和该搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度的乘积作为该搜索结果的初始排序权重值。
优选的,所述基于所述第一修正值和所述第二修正值确定各搜索结果的排序权重值的综合修正值,包括:
对于任一搜索结果:将该搜索结果的排序权重值的第一修正值和该搜索结果的排序权重值的第二修正值的乘积作为该搜索结果的排序权重值的综合修正值。
优选的,所述基于所述各搜索结果的初始排序权重值和所述各搜索结果的排序权重值的综合修正值,得到各搜索结果对应的修正后的排序权重值,包括:
对于任一搜索结果:将一与该搜索结果的排序权重值的综合修正值的和记为第一指标;计算所述第一指标与该搜索结果的初始排序权重值的乘积,作为该搜索结果对应的修正后的排序权重值。
优选的,所述通过各搜索结果对应的类别确定各搜索结果的初始权重值,包括:
将意向搜索类别中的所有搜索结果的初始权重值均设置为,非意向搜索类别中的所有搜索结果的初始权重值均设置为/>;其中,/>
本发明至少具有如下有益效果:
1、本发明通过对当前时刻用户输入搜索框内的文本以及对应的搜索结果进行分析,确定了用户的目标搜索意图以及搜索引擎的每个搜索结果所对应的类别,获取到所有搜索结果的初始排序权重值,本发明在考虑关键词和搜索结果的内容相似的基础上,又考虑了用户的搜索意图与对应的搜索结果的搜索意图之间的区别,在此基础上对每个搜索结果赋予了准确的初始排序权重值,并为之后对排序权重值的修正提供了参考;考虑到现有的一种利用搜索引擎的漏洞提高匹配程度的方法通过增大搜索结果的关键词密度,发布大量与关键词无关的但是会提及关键词的信息来增加匹配程度,大大降低搜索结果的可靠性,因此本发明又对初始排序权重值进行了修正,按照修正后的排序权重值从大到小的顺序将搜索结果依次进行显示,提高了搜索结果排序的准确性,提升了用户的搜索体验感。
2、本发明在对初始排序权重值进行修正时,从用户对搜索结果的偏好程度和用户输入信息与搜索结果的匹配程度两个方面进行分析,根据用户在目标时间段内对搜索结果的反馈信息以及反馈信息在时间特征上的分布情况,来判断用户对搜索结果的偏好程度,进而获取排序权重值的第一修正值,即基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到了各搜索结果的排序权重值的第一修正值;考虑到当前时刻用户输入搜索框内的文本能够在一定程度上表征用户的搜索意图,搜索引擎的搜索结果中与用户的搜索意图匹配程度越大的搜索结果,越有可能为用户想要浏览的信息,因此本发明根据搜索结果的内容与当前时刻用户输入的信息的相似程度获取了各搜索结果的排序权重值的第二修正值,进而获得了搜索结果的排序权重值的综合修正值,避免了传统的算法中仅根据关键词和搜索结果之间的匹配程度来进行排序的缺陷,能够实时的对搜索结果的排序权重值进行修正,使得搜索结果的排序更加准确,大大提高了用户对搜索结果的满意度和信任度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种基于大数据的搜索引擎优化方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的搜索引擎优化方法进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的搜索引擎优化方法的具体方案。
一种基于大数据的搜索引擎优化方法实施例:
本实施例提出了一种基于大数据的搜索引擎优化方法,如图1所示,本实施例的一种基于大数据的搜索引擎优化方法包括以下步骤:
步骤S1,获取当前时刻用户输入搜索框内的文本对应的关键词和对应的搜索引擎的各搜索结果对应的关键词。
本实施例对用户输入的关键词以及对应的搜索引擎的搜索结果进行统计分析,获取搜索结果对应的排序权重值,并对排序权重值进行修正,按照修正后的排序权重值从大到小的顺序在结果中进行显示,为用户提供更加精确的搜索结果。其中本实施例中用户输入的关键词是指用户在使用搜索引擎进行搜索时,对搜索框中输入的文本进行提取获得的字符;搜索引擎的搜索结果是指搜索引擎根据用户输入的关键词,在网络中获取到的与用户输入的关键词相对应的结果。
本实施例首先获取当前时刻用户输入搜索框内的文本以及对应的搜索引擎的搜索结果,考虑到用户在使用搜索引擎的过程中往往存在一定的搜索意图,用户输入的关键词能够在一定程度上表征用户的搜索意图,并且关键词和搜索意图同时表征着用户对搜索结果的浏览意愿;本实施例所述的搜索意图是指用户通过关键词对个人的搜索需求的表达,是用户进行搜索时的动机表述。因此,本实施例对用户在搜索框内输入的文本进行关键词数据的提取,采用基于图像的关键词提取算法进行关键词的提取,本实施例采用RAKE算法对搜索框内输入的文本进行关键词提取,获得当前时刻用户输入搜索框内的文本对应的关键词,需要说明的是,当前时刻用户输入搜索框内的文本对应的关键词的数量大于等于1个;同理,分别对当前时刻搜索引擎显示的每个搜索结果进行关键词提取,获得搜索引擎的各搜索结果对应的关键词,每个搜索结果对应的关键词的数量也大于等于1个;RAKE算法为公知技术,此处不再过多赘述。
步骤S2,基于所述搜索框内的文本对应的关键词获得用户的目标搜索意图,基于所述目标搜索意图获得各搜索结果对应的类别,通过各搜索结果对应的类别确定各搜索结果的初始权重值,所述类别包括意向搜索类别和非意向搜索类别;根据各搜索结果的初始权重值和各搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度,得到各搜索结果的初始排序权重值。
现有的搜索引擎排序算法往往是将用户输入的关键词与对应的搜索结果进行匹配,匹配程度较大的信息会优先的排序到搜索结果的最前列,但是现有一种利用搜索引擎的漏洞提高匹配程度的方法通过对增大搜索结果(比如网页信息)的关键词密度,发布大量与关键词无关的但是会提及关键词的信息来增加匹配程度,会大大降低搜索结果的可靠性。因此本实施例结合用户输入的关键词以及对应的搜索结果,分析搜索意图之间的相关性,对所有搜索结果赋予初始的排序权重值,并结合用户对搜索结果的反馈信息来表征用户对搜索结果的偏好性来获取排序权重值的修正值,根据排序权重值的修正值实时获取修正后的搜索结果的排序权重值。
本实施例首先需要基于当前时刻用户输入搜索框内的文本对应的关键词,判断当前时刻用户的搜索意图,然后基于当前时刻用户的搜索意图对每个搜索结果进行分类获得两个类别的搜索意图,赋予不同类别的搜索结果不同的权重值。
具体的,本实施例在步骤S1中获得了当前时刻用户输入搜索框内的文本对应的关键词以及每个搜索结果对应的关键词,接下来采用词嵌入方法将当前时刻用户输入搜索框内的文本对应的每个关键词转换为定长的向量,即获得了当前时刻用户输入搜索框内的文本对应的各关键词向量,将所有关键词向量拼在一起构成的向量记为当前时刻用户输入搜索框内的文本对应的特征向量,同样的,分别对当前时刻搜索引擎的搜索结果的标题进行关键词提取,获得当前时刻各搜索结果对应的关键词向量,将每个搜索结果对应的所有关键词向量组合在一起,将组合后的向量记为各搜索结果对应的特征向量;通过机器学习算法(支持向量机)进行用户搜索意图的分类模型的构建,并对当前时刻用户输入搜索框内的文本对应的关键词以及每个搜索结果对应的关键词进行分类;其中用户搜索意图的分类模型的训练的具体内容为:(1)训练数据集为历史多次搜索过程中对应的特征向量,用户搜索意图的分类模型的输入数据为特征向量,特征向量的长度为,即分类模型每次输入的特征向量中的关键词向量的个数均为/>个,需要说明的是,若某一次搜索过程中搜索框内的文本对应的关键词向量的个数小于/>,则用0向量代替;(2)采用人工标注的方式对特征向量对应的类别进行标注,将导航类(比如搜索哪个网址)人工标注为0,信息类(比如想确定明确的信息)人工标注为1,资源类(比如想下载哪些资源)人工标注为2,在具体应用中,人工标注类别及标注方式实施者可根据具体情况进行选取。
将当前时刻用户输入搜索框内的文本对应的特征向量输入到训练好的分类模型中,输出关键词对应的类别,该类别即为当前时刻用户的搜索意图,因此本实施例将分类模型的输出结果记为用户的目标搜索意图,即获得了当前时刻用户的目标搜索意图。同样的,分别将每个搜索结果对应的关键词向量拼到一起,将拼好后的向量作为每个搜索结果对应的特征向量,将每个搜索结果对应的特征向量输入到训练好的分类模型中,获得每个搜索结果对应的类别;将搜索引擎的搜索结果中与目标搜索意图相同类别的搜索结果划分到意向搜索类别中,将搜索引擎的搜索结果中与目标搜索意图不同类别的搜索结果划分到非意向搜索类别中;例如:若当前时刻用户的目标搜索意图对应的类别为信息类,则将当前时刻搜索引擎的搜索结果中所有信息类的搜索结果划分到意向搜索类别中,将当前时刻搜索引擎的搜索结果中除信息类的搜索结果之外的其它所有搜索结果划分到非意向搜索类别中。分类模型的构建以及训练过程均为现有技术,此处不再过多赘述。
采用上述方法确定了用户的目标搜索意图,同时将搜索引擎的搜索结果划分成了两类,分别为意向搜索类别和非意向搜索类别。由于在计算目标搜索意图与搜索结果的匹配程度时,搜索结果对应的不同的搜索意图中均含有与关键词匹配程度高的结果,因此为了增加用户的搜索效率,本实施例将采用对意向搜索类别和非意向搜索类别设置不同权重的方法,进行搜索结果的初始排序权重值的计算。
将意向搜索类别中的所有搜索结果的初始权重值均设置为,将非意向搜索类别中的所有搜索结果的初始权重值均设置为/>;由于意向搜索类别中的所有搜索结果与用户的目标搜索意图属于同一类别,因此意向搜索类别中的搜索结果更可能为用户想要浏览的信息,应当赋予更大的值,因此/>应当大于/>,即/>应当大于0.5,本实施例设置/>的值为0.6,在具体应用中,实施者可根据具体情况进行设置。本实施例将利用余弦相似度来表征用户的目标搜索意图与搜索结果之间的相关性,若用户的目标搜索意图与搜索结果对应的搜索意图相同,则对应的两者之间的相关性就较大;因此分别计算搜索引擎的各搜索结果对应的向量与搜索框内的文本对应的特征向量的余弦相似度,用于表征用户输入的关键词对搜索引擎的搜索结果之间的相关性,余弦相似度越大,说明两者相似程度越高,即对应搜索结果越可能是用户想要浏览的信息,其对应的排序权重值应当越大;基于此,本实施例根据各搜索结果对应的类别的初始权重值、各搜索结果对应的特征向量与搜索框内的文本对应的关键词对应的特征向量的余弦相似度,来确定搜索引擎的各搜索结果的初始排序权重值,第/>个搜索结果的初始排序权重值/>的具体表达式为:
其中,为第/>个搜索结果的初始排序权重值,/>为第/>个搜索结果的初始权重值,为余弦相似度,/>为第/>个搜索结果对应的特征向量和当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度;若搜索引擎的第/>个搜索结果属于意向搜索类别,则其初始权重值为/>,若搜索引擎的第/>个搜索结果属于非意向搜索类别,则其初始权重值为/>
若搜索引擎的第个搜索结果对应的特征向量和当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度越大,则说明第/>个搜索结果与用户输入的文本的相关性越大,第/>个搜索结果越可能为用户想要浏览的信息;第/>个搜索结果的初始权重值越大,说明第/>个搜索结果与用户输入搜索框内的文本属于同一类别,即该搜索结果越可能是用户想要浏览的信息;当第/>个搜索结果对应的特征向量和当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度越大、第/>个搜索结果的初始权重值越大时,说明第/>个搜索结果与用户的意向的匹配程度越高,即第/>个搜索结果的初始排序权重值/>越大;当第/>个搜索结果对应的特征向量和当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度越小、第/>个搜索结果的初始权重值越小时,说明第/>个搜索结果与用户的意向的匹配程度越低,即第/>个搜索结果的初始排序权重值/>越小。
采用上述方法,能够得到搜索引擎的每个搜索结果的初始排序权重值。
步骤S3,基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到各搜索结果的排序权重值的第一修正值;基于两两搜索结果对应的特征向量之间的余弦相似度,对各搜索结果进行修正获得各搜索结果的排序权重值的第二修正值。
本实施例在上述步骤中获得了搜索引擎中的每个搜索结果的初始排序权重值,初始排序权重值是根据关键词与搜索结果的内容信息之间的匹配程度计算得到的,考虑到用户在搜索信息时,往往存在一些利用搜索引擎的漏洞提高匹配程度,降低搜索结果显示的可靠性的情况,因此若仅根据关键词匹配程度来确定搜索引起结果的排序权重值,会产生较大的错误;又考虑到用户对搜索结果的反馈信息能够反映用户对搜索结果的偏好程度,用户对搜索结果的偏好程度体现了用户对搜索结果的满意度,因此本实施例将根据用户对搜索结果的反馈信息来表征用户对搜索结果的偏好程度,进而确定修正权重值。对于所有的搜索结果中,需要排除内容相似性较大的结果,根据相似性的大小对修正值进行进一步计算,其中反馈信息包括搜索结果对应的浏览时长以及总点击次数,若某一搜索结果在历史搜索过程中被多次进行点击浏览且每次浏览的时长较长,则说明用户对该搜索结果的偏好程度越大,该搜索结果越可能为用户的意向浏览信息,即该搜索结果的排序权重值的第一修正值应当越大;若某一搜索结果在历史搜索过程中被点击浏览的时刻与当前时刻之间的时长越短,则该次搜索结果的反馈信息的参考性就越大,该搜索结果的排序权重值的第一修正值越大。基于此,本实施例首先获取一个时间段,该时间段是当前时刻之前的一个时间段,将该时间段记为目标时间段,本实施例设置目标时间段的时长为一个月,在具体应用中,实施者可根据具体情况设置目标时间段的时长;首先通过分析当前时刻搜索引擎的每个搜索结果在目标时间段内对应的浏览信息来确定每个搜索结果的排序权重值的初始修正值,再对初始修正值进行归一化处理获得排序权重值的第一修正值,对于第个搜索结果,其对应的排序权重值的初始修正值为:
其中,为第/>个搜索结果的排序权重值的初始修正值,/>为第/>个搜索结果在目标时间段内被点击的总次数,/>为第/>个搜索结果在目标时间段内第k次被点击的时刻,/>为当前时刻,/>为第/>个搜索结果在目标时间段内第k次被点击浏览的时长,e为自然常数,为取绝对值。
用于表征第/>个搜索结果在目标时间段内被点击的时刻与当前时刻之间的时长,该时长越短,说明该搜索结果在目标时间段内被点击的时刻与当前时刻越接近,该搜索结果在目标时间段内被点击浏览的反馈信息参考性越大;当第/>个搜索结果在目标时间段内被点击的时刻与当前时刻之间的时长越短、第/>个搜索结果在目标时间段内被点击浏览的时长越长且第/>个搜索结果在目标时间段内被点击的总次数越多时,说明第/>个搜索结果越可能为用户想要浏览的信息,即第/>个搜索结果的排序权重值的初始修正值越大;当第/>个搜索结果在目标时间段内被点击的时刻与当前时刻之间的时长越长、第/>个搜索结果在目标时间段内被点击浏览的时长越短且第/>个搜索结果在目标时间段内被点击的总次数越少时,说明第/>个搜索结果越不可能为用户想要浏览的信息,即第/>个搜索结果的排序权重值的初始修正值越小。
采用上述方法,能够得到搜索引擎的各搜索结果的排序权重值的初始修正值,分别对各搜索结果的排序权重值的初始修正值进行归一化处理,将归一化处理后的结果记为各搜索结果的排序权重值的第一修正值,第一修正值的取值范围为[0,1]。
考虑到搜索引擎所有的搜索结果中可能存在内容相同的搜索结果,因此为了增加搜索效率,需要排除重复的搜索结果。若两个搜索结果的相似性较大,则需要对这两个搜索结果进行进一步修正,获得排序权重值的第二修正值;若两个搜索结果的相似性较小,则不需要对对应的搜索结果进行进一步修正,此时搜索结果的排序权重值的第二修正值为1,即相当于不进行修正。对于当前时刻搜索引擎的搜索结果中的第个搜索结果和第/>个搜索结果:计算这两个搜索结果对应的特征向量的余弦相似度,用于表征这两个搜索结果的相似程度,余弦相似度越大,说明这两个搜索结果的相似程度越高;设置相似度阈值/>,判断第/>个搜索结果和第/>个搜索结果对应的特征向量的余弦相似度是否大于/>,若大于,则说明第个搜索结果和第/>个搜索结果的内容极为相似,需要对这两个搜索结果的排序权重值进行修正;若小于等于,则说明第/>个搜索结果和第/>个搜索结果的内容不相似,不需要对这两个搜索结果的排序权重值进行修正,因此令第/>个搜索结果和第/>个搜索结果的排序权重值的第二修正值均为1;本实施例中设置/>,在具体应用中,实施者可根据具体情况进行设置;当第/>个搜索结果和第/>个搜索结果对应的特征向量的余弦相似度大于/>时,具体修正过程为:考虑到搜索结果的排序权重值的第一修正值表征用户对该搜索结果的偏好程度,第一修正值越大,表明用户对对应搜索结果的偏好程度越大;因此将第/>个搜索结果和第/>个搜索结果中排序权重值的第一修正值较大的搜索结果的排序权重值的第二修正值设置为/>,将第/>个搜索结果和第/>个搜索结果中排序权重值的第一修正值较小的搜索结果的排序权重值的第二修正值设置为/>,其中,/>为第/>个搜索结果和第/>个搜索结果对应的向量的余弦相似度,/>为调整系数;例如:若第/>个搜索结果的排序权重值的第一修正值大于第/>个搜索结果的排序权重值的第一修正值,表明用户对第/>个搜索结果更加满意,即第/>个搜索结果的排序权重值的第二修正值应当越大,则第/>个搜索结果的排序权重值的第二修正值为/>,第/>个搜索结果的排序权重值的第二修正值为/>;由于第一修正值较大的搜索结果为用户更满意的搜索结果,因此/>的取值应当大于0.5,本实施例中设置/>,在具体应用中,实施者可根据具体情况进行设置。采用上述方法,计算搜索引擎的所有搜索结果中两两搜索结果的余弦相似度,并基于上述方法获得搜索引擎的所有搜索结果的排序权重值的第二修正值。
步骤S4,基于所述第一修正值和所述第二修正值确定各搜索结果的排序权重值的综合修正值;基于所述各搜索结果的初始排序权重值和所述各搜索结果的排序权重值的综合修正值,得到各搜索结果对应的修正后的排序权重值;按照修正后的排序权重值从大到小的顺序将搜索结果依次进行显示。
某一搜索结果的排序权重值的第一修正值越大,说明用户对该搜索结果的偏好程度越大;某一搜索结果的排序权重值的第二修正值越大,说明该搜索结果与用户的意向的匹配程度越高。因此,对于搜索引擎的任一搜索结果,将该搜索结果的排序权重值的第一修正值和该搜索结果的排序权重值的第二修正值的乘积作为该搜索结果的排序权重值的综合修正值;采用上述方法,能够获得搜索引擎的每个搜索结果的排序权重值的综合修正值。
本实施例获得了搜索引擎的每个搜索结果的初始排序权重值和每个搜索结果的排序权重值的综合修正值,初始排序权重值表征搜索结果与用户的意向的匹配程度,排序权重值的综合修正值表征用户对搜索结果的偏好程度;基于此,本实施例将基于各搜索结果的排序权重值的综合修正值对初始排序权重值进行修正,即根据各搜索结果的初始排序权重值和排序权重值的综合修正值,来确定各搜索结果对应的修正后的排序权重值,对于第i个搜索结果,其对应的修正后的排序权重值为:
其中,为第i个搜索结果对应的修正后的排序权重值,/>为第i个搜索结果的排序权重值的综合修正值,/>为第i个搜索结果的初始排序权重值。
当第i个搜索结果的初始排序权重值越大、第i个搜索结果的排序权重值的综合修正值越大时,说明用户对第i个搜索结果的偏好程度越高且第i个搜索结果与用户的意向越匹配,即第i个搜索结果对应的修正后的排序权重值越大;当第i个搜索结果的初始排序权重值越小、第i个搜索结果的排序权重值的综合修正值越小时,说明用户对第i个搜索结果的偏好程度越低且第i个搜索结果与用户的意向越不匹配,即第i个搜索结果对应的修正后的排序权重值/>越小。
采用上述方法获得了搜索引擎的每个搜索结果对应的修正后的排序权重值,某一搜索结果对应的修正后的排序权重值越大,说明该搜索结果和用户的意向越匹配,在进行显示时,位置应当越靠前;因此,按照修正后的排序权重值从大到小的顺序将搜索结果依次进行显示,之后可根据用户对搜索结果的最新反馈信息对排序权重值的重新修正,实时更新显示搜索结果,提高用户对搜索结果的满意度和信任度。
本实施例通过对当前时刻用户输入搜索框内的文本以及对应的搜索结果进行分析,确定了用户的目标搜索意图以及搜索引擎的每个搜索结果所对应的类别,获取到所有搜索结果的初始排序权重值,本实施例在考虑关键词和搜索结果的内容相似的基础上,又考虑了用户的搜索意图与对应的搜索结果的搜索意图之间的区别,在此基础上对每个搜索结果赋予了准确的初始排序权重值,并为之后对排序权重值的修正提供了参考;考虑到现有的一种利用搜索引擎的漏洞提高匹配程度的方法通过增大搜索结果的关键词密度,发布大量与关键词无关的但是会提及关键词的信息来增加匹配程度,大大降低搜索结果的可靠性,因此本实施例又对初始排序权重值进行了修正,按照修正后的排序权重值从大到小的顺序将搜索结果依次进行显示,提高了搜索结果排序的准确性,提升了用户的搜索体验感。本实施例在对初始排序权重值进行修正时,从用户对搜索结果的偏好程度和用户输入信息与搜索结果的匹配程度两个方面进行分析,根据用户在目标时间段内对搜索结果的反馈信息以及反馈信息在时间特征上的分布情况,来判断用户对搜索结果的偏好程度,进而获取排序权重值的第一修正值,即基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到了各搜索结果的排序权重值的第一修正值;考虑到当前时刻用户输入搜索框内的文本能够在一定程度上表征用户的搜索意图,搜索引擎的搜索结果中与用户的搜索意图匹配程度越大的搜索结果,越有可能为用户想要浏览的信息,因此本实施例根据搜索结果的内容与当前时刻用户输入的信息的相似程度获取了各搜索结果的排序权重值的第二修正值,进而获得了搜索结果的排序权重值的综合修正值,避免了传统的算法中仅根据关键词和搜索结果之间的匹配程度来进行排序的缺陷,能够实时的对搜索结果的排序权重值进行修正,使得搜索结果的排序更加准确,大大提高了用户对搜索结果的满意度和信任度。

Claims (8)

1.一种基于大数据的搜索引擎优化方法,其特征在于,该方法包括以下步骤:
获取当前时刻用户输入搜索框内的文本对应的关键词和对应的搜索引擎的各搜索结果对应的关键词;
基于所述搜索框内的文本对应的关键词获得用户的目标搜索意图,基于所述目标搜索意图获得各搜索结果对应的类别,通过各搜索结果对应的类别确定各搜索结果的初始权重值,所述类别包括意向搜索类别和非意向搜索类别;根据各搜索结果的初始权重值和各搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度,得到各搜索结果的初始排序权重值;
基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到各搜索结果的排序权重值的第一修正值;基于两两搜索结果对应的特征向量之间的余弦相似度,对各搜索结果进行修正获得各搜索结果的排序权重值的第二修正值;
基于所述第一修正值和所述第二修正值确定各搜索结果的排序权重值的综合修正值;基于所述各搜索结果的初始排序权重值和所述各搜索结果的排序权重值的综合修正值,得到各搜索结果对应的修正后的排序权重值;按照修正后的排序权重值从大到小的顺序将搜索结果依次进行显示;
所述基于两两搜索结果对应的特征向量之间的余弦相似度,对各搜索结果进行修正获得各搜索结果的排序权重值的第二修正值,包括:
从搜索引擎的搜索结果中任意选取两个搜索结果,分别记为第一搜索结果和第二搜索结果,计算第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度;判断所述第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度是否大于相似度阈值,若大于,则计算第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度和调整系数的乘积,记为第一乘积,将一与调整系数的差值记为第一差值,计算第一搜索结果对应的特征向量与第二搜索结果对应的特征向量的余弦相似度和所述第一差值的乘积,记为第二乘积,将第一搜索结果和第二搜索结果中排序权重值的第一修正值最大的搜索结果的排序权重值的第二修正值设置为所述第一乘积,将第一搜索结果和第二搜索结果中排序权重值的第一修正值最小的搜索结果的排序权重值的第二修正值设置为所述第二乘积,所述调整系数大于0.5;若小于等于,则将第一搜索结果和第二搜索结果的排序权重值的第二修正值均设置为1。
2.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述基于所述搜索框内的文本对应的关键词获得用户的目标搜索意图,包括:
将当前时刻用户输入搜索框内的文本对应的各关键词转换为向量,获得当前时刻用户输入搜索框内的文本对应的各关键词向量;基于所述各关键词向量获得当前时刻用户输入搜索框内的文本对应的特征向量;
将所述当前时刻用户输入搜索框内的文本对应的特征向量输入到训练好的分类模型中,获得特征向量对应的类别,将所述特征向量对应的类别作为用户的目标搜索意图。
3.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述基于所述目标搜索意图获得各搜索结果对应的类别,包括:
对于任一搜索结果:
将该搜索结果对应的各关键词转换为向量获得该搜索结果对应的各关键词向量,基于该搜索结果对应的各关键词向量获得该搜索结果对应的特征向量;
根据所述该搜索结果对应的特征向量和训练好的分类模型,得到该搜索结果对应的种类;若该搜索结果对应的种类与所述用户的目标搜索意图相同,则将该搜索结果划分到意向搜索类别中;若该搜索结果对应的种类与所述用户的目标搜索意图不相同,则将该搜索结果划分到非意向搜索类别中。
4.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述基于各搜索结果在目标时间段内每次被点击浏览的时长以及各搜索结果在目标时间段内每次被点击的时刻,得到各搜索结果的排序权重值的第一修正值,包括:
对于第个搜索结果,采用如下公式计算该搜索结果的排序权重值的初始修正值:
其中,为第/>个搜索结果的排序权重值的初始修正值,/>为第/>个搜索结果在目标时间段内被点击的总次数,/>为第/>个搜索结果在目标时间段内第k次被点击的时刻,/>为当前时刻,/>为第/>个搜索结果在目标时间段内第k次被点击浏览的时长,e为自然常数,/>为取绝对值;
对第个搜索结果的排序权重值的初始修正值进行归一化处理,将归一化结果作为第/>个搜索结果的排序权重值的第一修正值。
5.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述根据各搜索结果的初始权重值和各搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度,得到各搜索结果的初始排序权重值,包括:
对于任一搜索结果:将该搜索结果的初始权重值和该搜索结果对应的特征向量与当前时刻用户输入搜索框内的文本对应的特征向量的余弦相似度的乘积作为该搜索结果的初始排序权重值。
6.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述基于所述第一修正值和所述第二修正值确定各搜索结果的排序权重值的综合修正值,包括:
对于任一搜索结果:将该搜索结果的排序权重值的第一修正值和该搜索结果的排序权重值的第二修正值的乘积作为该搜索结果的排序权重值的综合修正值。
7.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述基于所述各搜索结果的初始排序权重值和所述各搜索结果的排序权重值的综合修正值,得到各搜索结果对应的修正后的排序权重值,包括:
对于任一搜索结果:将一与该搜索结果的排序权重值的综合修正值的和记为第一指标;计算所述第一指标与该搜索结果的初始排序权重值的乘积,作为该搜索结果对应的修正后的排序权重值。
8.根据权利要求1所述的一种基于大数据的搜索引擎优化方法,其特征在于,所述通过各搜索结果对应的类别确定各搜索结果的初始权重值,包括:
将意向搜索类别中的所有搜索结果的初始权重值均设置为,非意向搜索类别中的所有搜索结果的初始权重值均设置为/>;其中,/>
CN202311414625.8A 2023-10-30 2023-10-30 一种基于大数据的搜索引擎优化方法 Active CN117150144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311414625.8A CN117150144B (zh) 2023-10-30 2023-10-30 一种基于大数据的搜索引擎优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311414625.8A CN117150144B (zh) 2023-10-30 2023-10-30 一种基于大数据的搜索引擎优化方法

Publications (2)

Publication Number Publication Date
CN117150144A CN117150144A (zh) 2023-12-01
CN117150144B true CN117150144B (zh) 2023-12-29

Family

ID=88903048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311414625.8A Active CN117150144B (zh) 2023-10-30 2023-10-30 一种基于大数据的搜索引擎优化方法

Country Status (1)

Country Link
CN (1) CN117150144B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118012909A (zh) * 2023-12-26 2024-05-10 中科世通亨奇(北京)科技有限公司 多模态信息搜索的方法、系统、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033386A (zh) * 2018-07-27 2018-12-18 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
US20190050487A1 (en) * 2017-08-09 2019-02-14 Alibaba Group Holding Limited Search Method, Search Server and Search System
CN114330329A (zh) * 2021-12-23 2022-04-12 广东太平洋互联网信息服务有限公司 一种业务内容搜索方法、装置、电子设备及存储介质
CN115438166A (zh) * 2022-09-29 2022-12-06 招商局金融科技有限公司 基于关键词和语义的搜索方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050487A1 (en) * 2017-08-09 2019-02-14 Alibaba Group Holding Limited Search Method, Search Server and Search System
CN109033386A (zh) * 2018-07-27 2018-12-18 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN114330329A (zh) * 2021-12-23 2022-04-12 广东太平洋互联网信息服务有限公司 一种业务内容搜索方法、装置、电子设备及存储介质
CN115438166A (zh) * 2022-09-29 2022-12-06 招商局金融科技有限公司 基于关键词和语义的搜索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117150144A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN110674429B (zh) 用于信息检索的方法、装置、设备和计算机可读存储介质
US8515212B1 (en) Image relevance model
CN106815252B (zh) 一种搜索方法和设备
CN102799591B (zh) 一种提供推荐词的方法及装置
EP3776265A1 (en) Intelligent question answering using machine reading comprehension
US9171078B2 (en) Automatic recommendation of vertical search engines
US7783620B1 (en) Relevancy scoring using query structure and data structure for federated search
US8332208B2 (en) Information processing apparatus, information processing method, and program
CN110287309B (zh) 快速提取文本摘要的方法
CN117150144B (zh) 一种基于大数据的搜索引擎优化方法
CN107256267A (zh) 查询方法和装置
US20130238613A1 (en) Blending Mobile Search Results
CN103106287B (zh) 一种用户检索语句的处理方法及系统
JP2012212455A (ja) 格付け方法及び格付けシステム
CN110096699B (zh) 基于语义的机器阅读理解的候选答案筛选方法和系统
CN106126589B (zh) 简历搜索方法及装置
US20110184930A1 (en) Methods and Systems for Adjusting a Scoring Measure Based on Query Breadth
CN110069732B (zh) 一种信息展示的方法、装置及设备
CN112579729B (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN116955833B (zh) 一种用户行为分析系统及方法
CN111339424A (zh) 基于关键词进行搜索的方法、装置、设备及存储介质
CN111782956A (zh) 一种基于用户行为和关键词分类的搜索方法
CN116861051A (zh) 基于行为习惯分析的计算机数据检索系统
CN114661890A (zh) 一种知识推荐方法、装置、系统及存储介质
TWI399657B (zh) A provider, a method of providing information, a program, and an information recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant