CN115809312B - 一种基于多路召回的搜索召回方法 - Google Patents
一种基于多路召回的搜索召回方法 Download PDFInfo
- Publication number
- CN115809312B CN115809312B CN202310050848.4A CN202310050848A CN115809312B CN 115809312 B CN115809312 B CN 115809312B CN 202310050848 A CN202310050848 A CN 202310050848A CN 115809312 B CN115809312 B CN 115809312B
- Authority
- CN
- China
- Prior art keywords
- document
- documents
- matching
- keyword
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于多路召回的搜索召回方法,该方法包括:获取用户关键词与索引库中文档的关键词完全匹配的初始匹配文档,对初始匹配文档进行分类,获得初始类别的类别文档;根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档,对初始类别进行更新得到更新类别;将更新类别中关键词组合相同的文档构成文档集合,获取每个文档集合内的中心文档,计算中心文档在更新类别中的重要程度;根据中心文档中关键词和关键短语、关键句得到第一权重和第二权重,获得关键词的全局权重;计算第二匹配文档的匹配程度,获得文档的推荐顺序,进行搜索召回。本发明提高了搜索召回的效果。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于多路召回的搜索召回方法。
背景技术
在传统的搜索引擎中,搜索召回的方法通常是通过对查询词进行分词,并将其与索引库中的文档的关键词进行匹配来实现的。在该方法中,索引库中文档的关键词必须与查询词完全匹配,否则将不会被召回。随着搜索引擎的迭代,需要对搜索召回方法进行优化。现有技术中,常见的搜索召回方法通过对关键词赋予权重,进而利用关键词的权重进行搜索召回结果的查询。但是该方法中关键词的权重是人为预设的,由于关键词在不同语境中,其重要程度可能是不一样的,若都使用固定的权重,则会使得搜索召回的效果较差。
发明内容
为了解决搜索召回的效果较差的技术问题,本发明的目的在于提供一种基于多路召回的搜索召回方法,所采用的技术方案具体如下:
获取用户关键词与索引库中文档的关键词完全匹配的初始匹配文档,对初始匹配文档进行分类得到至少两个初始类别,根据初始匹配文档之间的相似度确定初始类别对应的类别文档;
根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档,根据第二匹配文档与初始类别对应类别文档对初始类别进行更新得到更新类别;
根据更新类别中每个文档的关键词与用户关键词的关联关系得到文档的关键词组合,将更新类别中关键词组合相同的文档构成文档集合;获取每个文档集合的中心文档,根据中心文档与其所在更新类别中的文档之间的相似度得到中心文档在更新类别中的重要程度;
根据中心文档中关键词和关键短语得到关键词的第一权重,根据中心文档中关键词和关键句得到关键词的第二权重,根据第一权重和第二权重得到关键词的全局权重;根据全局权重和所述重要程度获得第二匹配文档与用户关键词的匹配程度,根据匹配程度获得第二匹配文档的推荐顺序,根据第二匹配文档的推荐顺序进行搜索召回。
优选地,所述根据中心文档中关键词和关键短语得到关键词的第一权重,根据中心文档中关键词和关键句得到关键词的第二权重,根据第一权重和第二权重得到关键词的全局权重,包括:
对于中心文档中的任意一个关键词;将该关键词在所有关键短语中出现的次数与所有关键短语的数量之间的比值作为关键词的第一权重;计算任意位置处该关键词所在句子与最近邻的该关键词所在关键句的距离,将所述距离与预设的第一数值之和的倒数作为每个位置处的该关键词的评价指标;将所有位置处的该关键词的评价指标的均值作为该关键词的第二权重;计算第二权重归一化后的值与预设的第二数值的和值,以所述第一权重与所述和值的乘积的归一化值作为关键词的全局权重。
优选地,所述重要程度的获取方法具体为:
对于一个更新类别中任意一个文档,将该文档与其他文档之间的相似度的和值作为该文档的特征相似度;将特征相似度的最大值对应的文档记为更新类别的特征文档;以中心文档与其所在更新类别的特征文档之间的相似度作为中心文档在更新类别中的重要程度。
优选地,所述获取每个文档集合的中心文档具体为:
对于任意一个文档集合,计算任意一个文档与该文档集合内其他文档的相似度之和作为文档的全局相似度,将全局相似度的最大值对应的文档记为该文档集合的中心文档;进而获得每个文档集合内的中心文档。
优选地,所述关键词组合的获取方法具体为:
对于更新类别中的任意一个文档,获取该文档的关键词与用户关键词的交集,所述交集中所有关键词构成文档的关键词组合。
优选地,所述更新类别的获取方法具体为:
获取第二匹配文档和每个初始类别对应的类别文档之间的相似度,将相似度的最大值记为第二匹配文档的第二相似度,保留第二相似度大于预设的相似度阈值对应的第二匹配文档;将被保留的第二匹配文档添加到对应的类别文档所在初始类别中得到更新类别。
优选地,所述根据全局权重和所述重要程度获得第二匹配文档的匹配程度,根据匹配程度获得文档的推荐顺序,包括:
对于任意一个关键词,计算关键词的全局权重与该关键词所在中心文档在更新类别中的重要程度之间的乘积,记为第一重要指标;获取关键词在所有中心文档中所有第一重要指标的均值,以该均值作为关键词在更新类别中的第二重要指标;以关键词在所有更新类别中的第二重要指标的均值作为关键词的优选权重;
对于任意一个第二匹配文档,利用关键词的优选权重对第二匹配文档中每个关键词出现的次数进行加权求和,得到第二匹配文档的匹配程度;将所有第二匹配文档利用匹配程度的取值大小按照设定顺序进行排列,得到文档的推荐顺序。
优选地,所述根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档具体为:
分别获取用户关键词和索引库中文档的关键词的交集与并集,计算所述交集与并集的比值,将比值大于预设的关联阈值的所有索引库中文档的关键词所在文档记为第二匹配文档。
优选地,所述对初始匹配文档进行分类得到至少两个初始类别具体为:
对于任意一个初始匹配文档,获取初始匹配文档的文档关键词,将文档关键词均匀划分为预设数量个组别;对每个组别的文档关键词赋予设定的数值得到组别对应的数值序列,将数值序列作为列向量得到初始匹配文档的字典矩阵;
对于任意两个初始匹配文档,计算两个初始匹配文档对应的字典矩阵对应位置的列向量之间的余弦相似度得到列相似度,将字典矩阵中所有列相似度的均值作为两个字典矩阵对应的初始匹配文档之间的相似度;
根据初始匹配文档之间的相似度利用相似度聚类算法对初始匹配文档进行分类得到至少两个初始类别。
优选地,所述根据初始匹配文档之间的相似度确定初始类别对应的类别文档具体为:
对于任意一个初始类别,将该类别内任意一个初始匹配文档与其他初始匹配文档之间的相似度之和作为初始匹配文档的第一相似度,将第一相似度最大值对应的初始匹配文档记为初始类别对应的类别文档。
本发明实施例至少具有如下有益效果:
本发明首先对用户关键词和索引库中文档的关键词进行完全匹配,得到初始匹配文档,并对初始匹配文档进行分类,同时获得初始类别对应的类别文档,用类别文档作为初始类别的类别代表,使得在对后续匹配结果与完全匹配结果的关联性进行分析时,仅获取后续匹配结果与类别文档之间的关联关系即可,减少了计算量;根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档,分析第二匹配文档与类别文档获得更新类别,相比完全匹配的匹配结果,更新类别中的文档范围更大,可以更好的满足用户搜索需要的同时,使得匹配结果的精度较高;根据更新类别中每个文档的关键词与用户关键词的关联关系得到文档的关键词组合,进而获得文档集合,在一个更新类别中,将与用户搜索内容匹配程度不同的文档分别进行分析,将相同的关键词对应的文档放置在一起进行分析,进而获得文档集合的中心文档的重要程度,反映了该中心文档在对应更新类别中的重要性;最后,根据中心文档中关键词和关键短语得到关键词的第一权重,根据中心文档中关键词和关键句得到关键词的第二权重,进而获得全局权重,考虑了关键词和与关键短语或者关键句的关联性,以获得在文档的语义表达中较为重要的关键词,最终获得匹配程度进行文档推荐,获得搜索召回结果,避免出现用户搜索内容以及文档的语义理解能力较弱的情况,通过获取关键词的优选权重,即赋予重要性不同的关键词不同权重的方法,进行优先级的计算,提高了搜索召回的效果以及搜索召回结果与用户搜索内容的相关性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明的一种基于多路召回的搜索召回方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于多路召回的搜索召回方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于多路召回的搜索召回方法的具体方案。
实施例:
请参阅图1,其示出了本发明一个实施例提供的一种基于多路召回的搜索召回方法的方法流程图,该方法包括以下步骤:
步骤一,获取用户关键词与索引库中文档的关键词完全匹配的初始匹配文档,对初始匹配文档进行分类得到至少两个初始类别,根据初始匹配文档之间的相似度确定初始类别对应的类别文档。
首先,需要说明的是,由于本发明实施例的主要目的是通过将用户输入的搜索词与索引库中文档的关键词进行匹配得到搜索推荐,进而获得搜索引擎的召回结果。因此,需要对用户输入的搜索内容进行处理获得用户关键词。在本实施例中,采用TextRank算法对用户输入的搜索内容进行关键词提取,TextRank算法为公知技术,在此不再过多介绍。对文档进行关键词提取的方法是多种多样的,实施者可根据实际情况进行选择。
在传统的搜索召回方法中,索引库中文档的关键词必须与查询词完全匹配,才会将索引库中文档的关键词对应的文档作为召回结果。其中,完全匹配指的是索引库中文档的关键词与查询词完全相同。但是该搜索召回方法的召回率较低,故本发明实施例通过相似度意图召回和核心词召回的方法获得搜索召回结果,利用传统的完全匹配的召回结果为通过相似度意图的召回结果提供参考,进而获得更加全面客观的召回结果,提高召回率。
基于此,利用完全匹配的方法将用户关键词与索引库中文档的关键词进行第一次匹配,进而将第一次匹配的结果作为第二次匹配的参考,故先利用完全匹配的方法对用户关键词进行第一次匹配,获得完全匹配的结果。
具体地,获取用户关键词与索引库中文档的关键词完全匹配时,索引库中的文档,将该文档记为初始匹配文档。即获取用户关键词与索引库中文档的关键词完全相同的文档,具体地,分别获取用户关键词与索引库中文档的关键词的交集与并集,计算所述交集与并集的比值,将所述比值的取值为1的对应的文档即为初始匹配文档,所有初始匹配文档构成了初始匹配集合。其中,交集与并集的比值取值为1时,表示索引库中文档的关键词与用户关键词完全相同,交集与并集的比值的计算方法为公知技术,在此不再过多介绍。
然后,需要说明的是,在对用户关键词进行相似度匹配时,需要计算第二次的匹配结果与第一次匹配结果之间的相似程度,为了避免出现计算量较大的问题,对第一次匹配结果中的文档进行相似度聚类得到不同类别,进而获得不同类别的类别代表,计算第二次匹配结果与每个类别的类别代表之间的相似程度,一定程度上减少了计算量。
基于此,根据初始匹配文档之间的相似度对初始匹配文档进行分类得到至少两个初始类别,根据初始匹配文档之间的相似度确定初始类别对应的类别文档。其中,需要计算任意两个初始匹配文档之间的相似度,进而利用相似度对初始匹配文档进行相似度聚类。
在本实施例中,对于任意一个初始匹配文档,获取初始匹配文档的文档关键词,将文档关键词均匀划分为预设数量个组别。即利用双向最大匹配法对初始匹配文档进行分词,并将单个字的词语去除,剩余词语即为初始匹配文档的文档关键词,对文档关键词进行分组,每个组别内文档关键词的数量均相等,得到预设数量个组别,在本实施例中预设数量的取值为10,实施者可根据实际情况进行设置。
对每个组别的文档关键词赋予设定的数值得到组别对应的数值序列,将数值序列作为列向量得到初始匹配文档的字典矩阵。其中,在本实施例中根据汉语词典中每个词语的排列顺序赋予相应的数值,进而可以对每个组别的文档关键词赋予设定的数值。例如,对汉语词典中第一个词语在初始匹配文档中相同的词语赋予数值1,对汉语词典中第二个词语在初始匹配文档中相同的词语赋予数值2,进而获得每个组别对应的数值序列。在汉语词典中含义相近的词语排列顺序较为接近,因此词语对应的数值相近的两个词语的含义也较为相近,进而可以保证词语转换为数值的过程中语义损失较小。
对于任意一个初始匹配文档中预设数量个组别对应的数值序列,将每个数值序列作为一个列向量,进而获得初始匹配文档对应的矩阵,该矩阵的大小为s*n,s为该初始匹配文档的组别的个数,即矩阵的列数;n为数值序列中的元素数量,即矩阵的行数。需要说明的是,当数值序列中元素数量不足n时,利用数值0补齐。
对该矩阵进行K-SVD分解得到大小为s*m的字典矩阵,m为超参数,在本实施例中的取值为10,实施者可根据实际情况进行设置。每个初始匹配文档对应的字典矩阵可以表示该初始匹配文档的语义特征,由于数值相近的两个元素对应的词语的含义也相近,因此,字典矩阵相似对应的初始匹配文档的语义也相似。
需要说明的是,K-SVD分解的方法为公知技术,在此只做简单的介绍。K-SVD字典学习是一种稀疏编码过程,该算法寻找一种超完备基向量作为字典矩阵,字典矩阵可以表示一个矩阵的基本特征,对于图像来说,表示的是图像上不同的图像特征,例如:灰度特征、纹理特征等,对于文档来说,表示的是文档中的语义特征。
初始匹配文档的字典矩阵可以表征该初始匹配文档的语义特征,因此,通过计算两个初始匹配文档的字典矩阵之间的相似度获得初始匹配文档之间的相似度。
具体地,对于任意两个初始匹配文档,计算两个初始匹配文档对应的字典矩阵对应位置的列向量之间的余弦相似度得到列相似度,将字典矩阵中所有列相似度的均值作为两个字典矩阵对应的初始匹配文档之间的相似度。
例如,对于字典矩阵P和字典矩阵Q,计算字典矩阵P第一列对应的列向量与字典矩阵Q第一列对应的列向量之间的余弦相似度得到第一列的列相似度,计算字典矩阵P第二列对应的列向量与字典矩阵Q第二列对应的列向量之间的余弦相似度得到第二列的列相似度,以此类推,计算字典矩阵P和字典矩阵Q的所有列相似度,将所有列相似度的均值作为字典矩阵P和字典矩阵Q之间的相似度,该相似度即为字典矩阵P对应的初始匹配文档和字典矩阵Q对应的初始匹配文档之间的相似度。
进一步的,根据初始匹配文档之间的相似度利用相似度聚类算法对初始匹配文档进行分类得到至少两个初始类别,基于相似度对文档进行分类的聚类算法是多种多样的,实施者可根据实际情况进行选择,例如根据相似程度阈值进行判断是否将初始匹配文档加入当前类别中,否则添加新的类别,相似程度阈值需要实施者根据具体实施场景进行设置。
根据初始匹配文档之间的相似度确定初始类别对应的类别文档,具体地,对于任意一个初始类别,将该类别内任意一个初始匹配文档与其他初始匹配文档之间的相似度之和作为初始匹配文档的第一相似度,将第一相似度最大值对应的初始匹配文档记为初始类别对应的类别文档。
需要说明的是,按照上述方法将用户关键词与索引库中文档的关键词进行完全匹配获得初始匹配文档,进而对初始匹配文档之间的相似程度进行分析,将较为相似的初始匹配文档划分到一个簇类中,再筛选出每一个簇类的类别代表,即类别文档,用类别文档表征其所属类别中初始匹配文档的语义特征,使得后续在第二次匹配时,获取第二次匹配的文档与完全匹配的文档的相似度,仅需要计算第二次匹配的文档与类别代表之间的相似度即可,大大的减小了计算量。
步骤二,根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档,根据第二匹配文档与初始类别对应类别文档对初始类别进行更新得到更新类别。
首先,需要说明的是,第一次匹配是将用户关键词与索引库中文档的关键词进行完全匹配,其匹配结果的精度较高,但是匹配结果的范围较小。故本发明实施例中,通过第二次匹配来扩大匹配结果的匹配范围,同时,第二次匹配的匹配结果需要与第一次匹配的匹配结果相关性较大,才能保证第二次匹配结果在扩大匹配范围的同时,保证匹配结果的精度。
根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档,具体地,分别获取用户关键词和索引库中文档的关键词的交集与并集,计算所述交集与并集的比值,将比值大于预设的关联阈值的所有索引库中文档的关键词所在文档记为第二匹配文档。
其中,交集指的是用户关键词与索引库中文档的关键词相同的关键词构成的集合,并集指的是所有用户关键词与索引库中文档的所有关键词构成的集合,交集和并集的比值即表征了用户关键词和索引库中文档的关键词相似的程度,通过设置关联阈值,筛选出索引库中与用户搜索内容较为相似的或者较为关联的文档,即为第二匹配文档。在本实施例中,关联阈值的取值为0.7,实施者可根据实际情况进行设置。
进一步的,第二匹配文档为第二次匹配时获得的文档,第二次匹配即根据用户关键词与索引库中文档的关键词之间的关联程度进行匹配。对第二次匹配获得的第二匹配文档进行分析时,需要获得第二次匹配的匹配结果中与第一次匹配的匹配结果中相关性较大的文档,同时,由于初始类别的类别文档是对应类别的类别代表,类别文档表征能够其所在类别内初始匹配文档的语义特征。因此,仅需要对第二匹配文档与类别文档之间的相似程度进行分析即可。
基于此,获取第二匹配文档和初始类别对应的类别文档之间的相似度,文档之间的相似度的获取方法实施者可根据具体实施场景进行选择,在本实施例中,第二匹配文档和初始类别对应的类别文档之间的相似度的获取方法,与步骤一中两个初始匹配文档之间的相似度的获取方法相同。
将相似度的最大值记为第二匹配文档的第二相似度,第二相似度表征了第二匹配文档与第一次匹配结果中的初始匹配文档之间的关联程度,第二匹配文档的第二相似度取值越大,说明第二匹配文档与第一次匹配结果中的初始匹配文档之间的相关性较大,故可以对第二匹配文档进行保留。第二匹配文档的第二相似度取值越小,说明第二匹配文档与第一次匹配结果中的初始匹配文档之间的相关性越小,故第二匹配文档需舍弃。
保留第二相似度大于预设的相似度阈值对应的第二匹配文档,在本实施例中相似度阈值的取值为0.6,实施者可根据实际情况进行设置。将被保留的第二匹配文档添加到对应的类别文档所在初始类别中得到更新类别。例如,被保留的第二匹配文档R的第二相似度对应的类别文档为T,将第二匹配文档R添加到在类别文档T所在初始类别中,得到更新类别。
最终通过对第二次匹配结果的分析实现了对初始类别的更新,得到的更新类别中的文档范围更大,可以更好的满足用户搜索需要的同时,使得匹配结果的精度较高。
步骤三,根据更新类别中每个文档的关键词与用户关键词的关联关系得到文档的关键词组合,将更新类别中关键词组合相同的文档构成文档集合;获取每个文档集合的中心文档,根据中心文档与其所在更新类别中的文档之间的相似度得到中心文档在更新类别中的重要程度。
首先,需要说明的是,同一个更新类别中文档的语义特征之间的相似程度较大,但是不同文档的关键词之间仍存在一定的差异,所以在获取关键词的重要性时不能够将关键词存在差异的文档一起进行分析,故需要对每个更新类别中每个文档的关键词的一致性进行分析,将同一个更新类别中关键词相同的文档一起进行后续的分析。
基于此,根据更新类别中每个文档的关键词与用户关键词的关联关系得到文档的关键词组合,即对于更新类别中的任意一个文档,获取该文档的关键词与用户关键词的交集,所述交集中所有关键词构成文档的关键词组合。将更新类别中关键词组合相同的文档构成文档集合。
每个更新类别中包含了多个文档,每个文档又包含了多个关键词。例如,用户关键词为a、b、c、d,更新类别有更新类别A、更新类别B和更新类别C。更新类别A中包含文档1对应的关键词为a和b,则文档1的关键词与用户关键词的交集包括a和b,故文档1的关键词组合为ab,进而将更新类别A中所有关键词组合为ab的文档构成一个集合,得到关键词组合为ab的文档集合。更新类别A中包含文档2对应的关键词为a、c和d,则文档2的关键词与用户关键词的交集包括a、c和d,故文档2的关键词组合为acd,进而将更新类别A中所有关键词组合为acd的文档构成一个集合,关键词组合为acd的文档集合。因此,一个更新类别中可能包含了多个文档集合,同一个文档集合中的文档与用户搜索内容匹配的关键词是完全相同的。
进一步的,获取每个文档集合内的中心文档,利用中心文档作为其所在文档集合中所有文档的代表,对于任意一个文档集合,计算任意一个文档与该集合内其他文档的相似度之和作为文档的全局相似度,将全局相似度的最大值对应的文档记为该文档集合的中心文档;进而获得每个文档集合内的中心文档。即中心文档与其所在文档集合中其他所有文档之间的相似性最大。
对文档集合中每个文档的重要程度进行分析,即可以通过对每个文档集合的中心文档的重要程度进行分析,减少了计算量。
对于一个更新类别中任意一个文档,将该文档与其他文档之间的相似度的和值作为该文档的特征相似度;将特征相似度的最大值对应的文档记为更新类别的特征文档。将特征文档作为更新类别的类别代表。
根据中心文档与其所在更新类别之间的相似度得到中心文档在更新类别中的重要程度,即以中心文档与其所在更新类别的特征文档之间的相似度作为中心文档在更新类别中的重要程度。
需要说明的是,中心文档和特征文档均是更新类别中的文档,虽然中心文档和特征文档两者之间的相似性较大,但是仍存在较小的差异性。中心文档作为文档集合的代表,特征文档作为更新类别的代表,而文档集合表征了一个关键词组合对应的所有文档,进而中心文档和特征文档两者之间的相似度,能够表征一个关键词组合在其对应的更新类别中的相似度,相似度越大,说明该关键词组作为搜索召回的结果越重要。因此,中心文档和特征文档两者之间的相似度越大,中心文档在其所在的更新类别中的重要程度就越大,说明该中心文档以及其所在的文档集合越重要。
步骤四,根据中心文档中关键词和关键短语得到关键词的第一权重,根据中心文档中关键词和关键句得到关键词的第二权重,根据第一权重和第二权重得到关键词的全局权重;根据全局权重和所述重要程度获得第二匹配文档与用户关键词的匹配程度,根据匹配程度获得第二匹配文档的推荐顺序,根据第二匹配文档的推荐顺序进行搜索召回。
首先,需要说明的是,更新类别中每个文档中除了关键词,还包含了关键短语和关键句,当关键词与关键短语或者关键句的关联性越大时,说明该关键词在整体文档的语义表达中越重要。进而可以通过对所有文档进行分析可以获得每个关键词的权重,关键词的权重即表征了关键词的重要性。
在本实施例中,利用TextRank算法获取文档的关键词的同时可以获得文档的关键短语和关键句。其中,关键短语指的是文档中相邻关键词构成的短语,即关键短语是文档中存在的关键词的组合。关键句是根据句子之间的内容重复程度进行获取的,与关键词的存在无关,即关键词可能存在关键句中,也可能不在。
对于更新类别中的文档,关键词、关键短语和关键句是从文档中提取到最能够体现文档语义特征的信息,为了对关键词的重要性进行进一步的评估,可以对关键词与关键短语和关键句联系的紧密程度进行分析,进而获取关键词中的核心词,即重要性较大的关键词,对应的权重应当较大。
然后,第一方面,对关键词与关键短语之间联系的紧密程度进行分析。中心文档作为文档集合的代表,而文档集合表征了一个关键词组合对应的所有文档,同时,关键词组合是文档与用户搜索内容相关性较大的关键词所在组合,故通过关键词与关键短语之间联系的紧密程度对中心文档中的关键词的重要程度进行分析,从而能够筛选出较为重要的出核心词。
具体地,对于中心文档中的任意一个关键词,将该关键词在所有关键短语中出现的次数与所有关键短语的数量之间的比值作为关键词的第一权重。其中,关键短语是由多个关键词组合而成,关键词在关键短语中出现的次数越多,说明关键词与关键短语的关联性越大,说明该关键词在中心文档的语义表达中越重要,则越需要给该关键词赋予较大的权重。因此,中心文档中关键词的第一权重的取值越大,说明该关键词在中心文档的语义表达中越重要。
第二方面,通过关键词与关键句之间联系的紧密程度对中心文档中的关键词的重要程度进行分析,从而能够筛选出较为重要的核心词。同时,对于任意一个关键词,在一个中心文档中可能存在多个相同的关键词,且这些关键词的位置均不同,故需对不同位置的所有相同的关键词与关键句的联系紧密程度进行分析。
对于中心文档中的任意一个关键词,计算任意位置处该关键词所在句子与最近邻的该关键词所在关键句的距离,将所述距离与预设的第一数值之和的倒数作为每个位置处的该关键词的评价指标;将所有位置处的该关键词的评价指标的均值作为该关键词的第二权重。
例如,在中心文档中的关键词天气出现了5次,分别对应5个不同的位置,对于第一个位置处的关键词天气,在中心文档中除第一个位置处的关键词天气之外,寻找距离第一个位置处最近的关键词天气所在关键句,通过第一个位置处的关键词天气所在句子和所述关键句之间的距离表征关键词天气与关键句之间联系的紧密程度,该距离越大,说明关键词与关键句之间联系的紧密程度越低,则关键词在中心文档的语义表达的重要性越低,越需要给该关键词赋予较小的权重。
基于此,关键词的评价指标表征了中心文档中任意一个位置处的关键词在中心文档的语义表达中所占的重要性,同时,距离与关键词的评价指标之间的关系为负相关关系,故将距离与预设的第一数值之和的倒数作为关键词的评价指标。在本实施例中,第一数值的取值为1。进而将中心文档中所有位置处相同的关键词的评价指标的均值作为关键词的第二权重。中心文档中关键词的第二权重的取值越大,说明该关键词在中心文档的语义表达中越重要。
需要说明的是,在获取两个句子之间的距离时,相邻的两个句子之间的距离为1,即若第一个位置处的关键词天气所在句子与最近邻关键词天气所在关键句为相邻的句子,则对应的句子之间的距离为1。如果某个关键词存在于关键句中,则该关键词对应的句子距离为0。同时,考虑到通过该方法获得的关键词的第二权重的取值可能大于1,故需对第二权重进行归一化处理,对数据进行归一化的方法为公知技术,在此不再过多介绍。
进一步的,将通过关键词与关键短语以及关键句的关联性进行结合,以获取关键词在整体文档的语义表达的综合重要性。计算第二权重归一化后的值与预设的第二数值的和值,以所述第一权重与所述和值的乘积的归一化值作为关键词的全局权重。
其中,关键词的第一权重从关键词与关键短语之间联系的紧密程度方面,反映了关键词的重要性;关键词的第二权重从关键词与关键句之间联系的紧密程度方面反映了关键词的重要性,因此,结合关键词在两个方面的重要性获取综合重要性时,为了避免直接获取第一权重和第二权重的乘积,使得最终的数值变小,故计算第二权重归一化后的值与预设的第二数值的和值,所述第一权重与所述和值的乘积的归一化值作为关键词的全局权重。在本实施例中,第二数值的取值为1。
最后,对所有更新类别中文档集合的中心文档进行分析可以获得每个关键词的全局权重,而关键词的全局权重表征的是该关键词在中心文档中的重要性,同时,中心文档存在重要程度,表征该中心文档在其所在类别的重要性。对于任意一个关键词,计算关键词的全局权重与该关键词所在中心文档在更新类别中的重要程度之间的乘积,记为第一重要指标。第一重要指标表征了任意一个位置处的关键词在更新类别中的重要性。
同时,中心文档中存在多个相同的关键词,故需要考虑所有相同的关键词对应的第一重要指标,具体地,对于任意一个关键词,获取该关键词在所有中心文档中所有相同的关键词对应的第一重要指标的均值,以该均值作为关键词在更新类别中的第二重要指标。第二重要指标综合表征了关键词在更新类别中的重要性。
以关键词在所有更新类别中的第二重要指标的均值作为关键词的优选权重,关键词的优选权重即从多个方面表征了关键词的重要性。
对于任意一个第二匹配文档,利用关键词的优选权重对第二匹配文档中每个关键词出现的次数进行加权求和,得到第二匹配文档的匹配程度。将所有第二匹配文档利用匹配程度的取值大小按照设定顺序进行排列,得到文档的推荐顺序。在本实施例,将第二匹配文档根据匹配程度进行降序排列。
第二匹配文档为第二次匹配时获得的文档,第二次匹配即根据用户关键词与索引库中文档的关键词之间的关联程度进行匹配。在第二次匹配的匹配结果中,相比传统的完全匹配的文档范围更大,可以更好的满足用户搜索需要的同时,使得第二次匹配的匹配结果的精度较高。进一步的,避免出现用户搜索内容以及文档的语义理解能力较弱的情况,通过获取关键词的优选权重,获取核心词,即赋予重要性不同的关键词不同权重的方法,在第二次匹配的基础上,进行文档推荐的优先级的计算,提高了搜索召回的效果。
结合不同更新类别中每个关键词的共现性,得到每个关键词的优选权重,利用优选权重表征关键词的重要性,进而赋予重要性不同的关键词不同权重的方法进行优先级的计算提高了搜索召回的效果以及相关性。最终根据匹配程度获得文档的推荐顺序,根据文档的推荐顺序进行搜索召回。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于多路召回的搜索召回方法,其特征在于,该方法包括以下步骤:
获取用户关键词与索引库中文档的关键词完全匹配的初始匹配文档,对初始匹配文档进行分类得到至少两个初始类别,根据初始匹配文档之间的相似度确定初始类别对应的类别文档;
根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档,根据第二匹配文档与初始类别对应类别文档对初始类别进行更新得到更新类别;
根据更新类别中每个文档的关键词与用户关键词的关联关系得到文档的关键词组合,将更新类别中关键词组合相同的文档构成文档集合;获取每个文档集合的中心文档,根据中心文档与其所在更新类别中的文档之间的相似度得到中心文档在更新类别中的重要程度;
根据中心文档中关键词和关键短语得到关键词的第一权重,根据中心文档中关键词和关键句得到关键词的第二权重,根据第一权重和第二权重得到关键词的全局权重;根据全局权重和所述重要程度获得第二匹配文档与用户关键词的匹配程度,根据匹配程度获得第二匹配文档的推荐顺序,根据第二匹配文档的推荐顺序进行搜索召回。
2.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述根据中心文档中关键词和关键短语得到关键词的第一权重,根据中心文档中关键词和关键句得到关键词的第二权重,根据第一权重和第二权重得到关键词的全局权重,包括:
对于中心文档中的任意一个关键词;
将该关键词在所有关键短语中出现的次数与所有关键短语的数量之间的比值作为关键词的第一权重;
计算任意位置处该关键词所在句子与最近邻的该关键词所在关键句的距离,将所述距离与预设的第一数值之和的倒数作为每个位置处的该关键词的评价指标;将所有位置处的该关键词的评价指标的均值作为该关键词的第二权重;
计算第二权重归一化后的值与预设的第二数值的和值,以所述第一权重与所述和值的乘积的归一化值作为关键词的全局权重。
3.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述重要程度的获取方法具体为:
对于一个更新类别中任意一个文档,将该文档与其他文档之间的相似度的和值作为该文档的特征相似度;将特征相似度的最大值对应的文档记为更新类别的特征文档;以中心文档与其所在更新类别的特征文档之间的相似度作为中心文档在更新类别中的重要程度。
4.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述获取每个文档集合的中心文档具体为:
对于任意一个文档集合,计算任意一个文档与该文档集合内其他文档的相似度之和作为文档的全局相似度,将全局相似度的最大值对应的文档记为该文档集合的中心文档;进而获得每个文档集合内的中心文档。
5.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述关键词组合的获取方法具体为:
对于更新类别中的任意一个文档,获取该文档的关键词与用户关键词的交集,所述交集中所有关键词构成文档的关键词组合。
6.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述更新类别的获取方法具体为:
获取第二匹配文档和每个初始类别对应的类别文档之间的相似度,将相似度的最大值记为第二匹配文档的第二相似度,保留第二相似度大于预设的相似度阈值对应的第二匹配文档;将被保留的第二匹配文档添加到对应的类别文档所在初始类别中得到更新类别。
7.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述根据全局权重和所述重要程度获得第二匹配文档的匹配程度,根据匹配程度获得文档的推荐顺序,包括:
对于任意一个关键词,计算关键词的全局权重与该关键词所在中心文档在更新类别中的重要程度之间的乘积,记为第一重要指标;
获取关键词在所有中心文档中所有第一重要指标的均值,以该均值作为关键词在更新类别中的第二重要指标;
以关键词在所有更新类别中的第二重要指标的均值作为关键词的优选权重;
对于任意一个第二匹配文档,利用关键词的优选权重对第二匹配文档中每个关键词出现的次数进行加权求和,得到第二匹配文档的匹配程度;
将所有第二匹配文档利用匹配程度的取值大小按照设定顺序进行排列,得到文档的推荐顺序。
8.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述根据用户关键词与索引库中文档的关键词之间的关联关系得到第二匹配文档具体为:
分别获取用户关键词和索引库中文档的关键词的交集与并集,计算所述交集与并集的比值,将比值大于预设的关联阈值的所有索引库中文档的关键词所在文档记为第二匹配文档。
9.根据权利要求1所述的一种基于多路召回的搜索召回方法,其特征在于,所述对初始匹配文档进行分类得到至少两个初始类别具体为:
对于任意一个初始匹配文档,获取初始匹配文档的文档关键词,将文档关键词均匀划分为预设数量个组别;对每个组别的文档关键词赋予设定的数值得到组别对应的数值序列,将数值序列作为列向量得到初始匹配文档的字典矩阵;
对于任意两个初始匹配文档,计算两个初始匹配文档对应的字典矩阵对应位置的列向量之间的余弦相似度得到列相似度,将字典矩阵中所有列相似度的均值作为两个字典矩阵对应的初始匹配文档之间的相似度;
根据初始匹配文档之间的相似度利用相似度聚类算法对初始匹配文档进行分类得到至少两个初始类别。
10.根据权利要求9所述的一种基于多路召回的搜索召回方法,其特征在于,所述根据初始匹配文档之间的相似度确定初始类别对应的类别文档具体为:
对于任意一个初始类别,将该类别内任意一个初始匹配文档与其他初始匹配文档之间的相似度之和作为初始匹配文档的第一相似度,将第一相似度最大值对应的初始匹配文档记为初始类别对应的类别文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310050848.4A CN115809312B (zh) | 2023-02-02 | 2023-02-02 | 一种基于多路召回的搜索召回方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310050848.4A CN115809312B (zh) | 2023-02-02 | 2023-02-02 | 一种基于多路召回的搜索召回方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115809312A CN115809312A (zh) | 2023-03-17 |
CN115809312B true CN115809312B (zh) | 2023-04-07 |
Family
ID=85487328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310050848.4A Active CN115809312B (zh) | 2023-02-02 | 2023-02-02 | 一种基于多路召回的搜索召回方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115809312B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312513B (zh) * | 2023-09-27 | 2024-06-14 | 数字广东网络建设有限公司 | 文档搜索模型训练方法、文档搜索方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425710A (zh) * | 2012-05-25 | 2013-12-04 | 北京百度网讯科技有限公司 | 一种基于主题的搜索方法和装置 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN115374362A (zh) * | 2022-09-01 | 2022-11-22 | 华为技术有限公司 | 多路召回模型训练方法、多路召回方法、装置及电子设备 |
CN115618113A (zh) * | 2022-11-03 | 2023-01-17 | 中国人民解放军国防科技大学 | 一种基于知识图谱表示学习的搜索召回方法和系统 |
-
2023
- 2023-02-02 CN CN202310050848.4A patent/CN115809312B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425710A (zh) * | 2012-05-25 | 2013-12-04 | 北京百度网讯科技有限公司 | 一种基于主题的搜索方法和装置 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN115374362A (zh) * | 2022-09-01 | 2022-11-22 | 华为技术有限公司 | 多路召回模型训练方法、多路召回方法、装置及电子设备 |
CN115618113A (zh) * | 2022-11-03 | 2023-01-17 | 中国人民解放军国防科技大学 | 一种基于知识图谱表示学习的搜索召回方法和系统 |
Non-Patent Citations (1)
Title |
---|
杨洁 ; 季铎 ; 蔡东风 ; 林晓庆 ; 白宇 ; .基于联合权重的多文档关键词抽取技术.中文信息学报.2008,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115809312A (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
US7444356B2 (en) | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN110990567A (zh) | 一种增强领域特征的电力审计文本分类方法 | |
KR20070089449A (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
CN107895000A (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN115309872B (zh) | 一种基于Kmeans召回的多模型熵加权检索方法及系统 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN113220864B (zh) | 智能问答数据处理系统 | |
CN115809312B (zh) | 一种基于多路召回的搜索召回方法 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN112148831A (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN113742292B (zh) | 基于ai技术的多线程数据检索及所检索数据的访问方法 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN117591635A (zh) | 一种用于大模型问答的文本分割检索方法 | |
CN113342950A (zh) | 基于语义联合的答案选取方法及系统 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
CN115392244A (zh) | 一种学术关键词批量识别系统 | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
Akyol | Clustering hotels and analyzing the importance of their features by machine learning techniques | |
Williams | Results of classifying documents with multiple discriminant functions | |
CN110399501B (zh) | 一种基于语言统计模型的地质领域文献图谱生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |