CN117708199A

CN117708199A - 基于标签用户模型的信息检索方法

Info

Publication number: CN117708199A
Application number: CN202311716371.5A
Authority: CN
Inventors: 李阳扬; 张森
Original assignee: Beijing Zhile Xiang Technology Co ltd
Current assignee: Beijing Zhile Xiang Technology Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-15

Abstract

本发明涉及数据识别技术领域，具体涉及基于标签用户模型的信息检索方法。该方法是一种应用电子设备进行识别的方法，利用人工智能优化操作系统完成信息检索优化。首先识别各用户的资源对应的标签，对资源和标签进行数据处理得到参考用户，对参考用户的资源进行排序，实现信息检索的优化。本发明通过对资源和对应的标签进行分析得到参考用户，进一步对利用参考用户的检索信息，实现检索用户检索之后得到的检索信息的排序和优化，提高了用户的检索效率。

Description

基于标签用户模型的信息检索方法

技术领域

本发明涉及数据识别技术领域，具体涉及基于标签用户模型的信息检索方法。

背景技术

用户在对资源进行检索时，往往通过该资源所具有的性质进行检索，该资源所具有的性质也即该资源所对应的标签。其中，标签是用户根据主观的认识和理解，用词汇对网络资源进行的描述，标签用户模型也即指通过用户对不同资源的标签数据的集合来表示用户的方法。

目前，常见的用户获取资源的标签数据的方法为：对所有资源的标签进行全局遍历，其花费的时间较长，检索出来的资源较多，用户仍需要从大量结果中进行选取，检索效率较低。

发明内容

为了解决上述技术问题，本发明的目的在于提供基于标签用户模型的信息检索方法，所采用的技术方案具体如下：

获取每个用户对各资源打上的标签；基于所述资源和对应的所述标签，构建各用户对应的资源标签二分图和资源标签节点；

基于所述资源标签节点，计算任意两两用户的用户相似度；基于所述用户相似度对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户；获取用户的各标签的使用频率；对于任意标签，基于所述使用频率对所有用户进行聚类，得到多个单标签类别和对应的多个单标签类别中心用户；

选取任意用户作为目标用户，选取任意标签作为目标标签，计算所述目标用户和对应的用户标签类别中心用户的类别距离；所述类别距离的倒数作为第一参考值；

基于所述目标标签，根据所述目标用户所属单标签类别内的使用频率计算第二参考值；当所述目标用户的目标标签对应的第一参考值大于第二参考值，将对应的用户标签类别中心用户作为参考用户；当所述目标用户的目标标签对应的第一参考值小于等于第二参考值，将对应的单标签类别中心用户作为参考用户；

将目标用户对应的参考用户的资源按照使用频率进行排序。

优选的，所述基于所述资源和对应的所述标签，构建各用户对应的资源标签二分图和资源标签节点，包括：

对于任意用户，将资源和对应的标签进行连线，构建各用户对应的资源标签二分图；将资源和对应的所述标签进行标号，作为资源标签节点。

优选的，所述基于所述用户相似度对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户，包括：

将用户相似度大于预设相似度阈值的用户分至同一个用户标签类别；对于任意所述用户标签类别，选取与类别内其他用户的用户相似度之和最大的用户作为用户标签类别中心用户；对于未分至用户标签类别内的未分组用户，计算所述未分组用户和各所述用户标签类别的用户标签类别中心用户的用户相似度，将所述未分组用户分至最大用户相似度对应的用户标签类别，多次迭代计算直至将所有所述未分组用户分至用户标签类别中，对应的迭代更新每个用户标签类别的用户标签类别中心用户。

优选的，所述对于任意标签，基于所述使用频率对所有用户进行聚类，得到多个单标签类别，包括：

选取任意标签作为第一标签，基于各用户对所述第一标签的使用频率，利用多阈值分割得到多个类别，作为单标签类别。

优选的，所述选取任意用户作为目标用户，选取任意标签作为目标标签，计算所述目标用户和对应的用户标签类别中心用户的类别距离，包括：

基于所述目标标签，当所述目标用户和对应的用户标签类别中心用户属于同一个单标签类别时，将零作为所述目标用户和对应的用户标签类别中心用户的类别距离；当所述目标用户和对应的用户标签类别中心用户不属于同一个单标签类别时，计算所述目标用户所属单标签类别内的使用频率的均值作为第一均值，计算对应的用户标签类别中心用户所属单标签类别内的使用频率的均值作为第二均值；所述第一均值和所述第二均值的差值作为所述目标用户和对应的用户标签类别中心用户的类别距离。

优选的，所述根据所述目标用户所属单标签类别内的使用频率计算第二参考值，包括：

获取所述目标用户所属单标签类别的单标签类别中心用户对应的使用频率作为第一使用频率；获取所述目标用户所属单标签类别内的最大使用频率；所述第一使用频率和所述最大使用频率的比值为第二参考值。

优选的，所述将目标用户对应的参考用户的资源按照使用频率进行排序，包括：

基于所述目标用户对应的参考用户的所有资源中的任意资源，获取所有参考用户的使用频率之和作为总使用频率；根据所述总使用频率对所有所述参考用户的资源进行排序。

优选的，所述用户相似度的计算方法为：计算任意两两用户对应的资源标签节点的交并比作为用户相似度。

本发明实施例至少具有如下有益效果：

本发明实施例利用数据识别技术，该方法首先获取每个用户对各资源打上的标签；构建各用户对应的资源标签二分图和资源标签节点；计算任意两两用户的用户相似度，对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户；用户标签类别是基于用户的资源标签节点进行聚类的，从用户的认知方面作为后续参考用户的选取导向。获取用户的各标签的使用频率；对于任意标签，基于使用频率对所有用户进行聚类，得到多个单标签类别和对应的多个单标签类别中心用户；单标签类别是基于用户的标签使用频率进行聚类的，从用户的标签的使用频率方面作为后续参考用户的选取导向；选取任意用户作为目标用户，任意标签作为目标标签，计算目标用户和对应的用户标签类别中心用户的第一参考值；基于目标标签，根据目标用户所属单标签类别内的使用频率计算第二参考值；比较目标用户的目标标签对应的第一参考值和第二参考值得到参考用户；将目标用户对应的参考用户的资源按照使用频率进行排序。本发明通过对资源和对应的标签进行分析得到参考用户，进一步对利用参考用户的检索信息，实现检索用户检索之后得到的检索信息的排序和优化，提高了用户的检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的基于标签用户模型的信息检索方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于标签用户模型的信息检索方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例提供了基于标签用户模型的信息检索方法的具体实施方法，该方法适用于信息检索场景。该场景下有多个用户，每个用户有各自对应的检索过的多个资源和该用户对资源打上的标签。为了解决全局遍历检索其检索效率较低的问题。本发明实施例通过对资源和对应的标签进行分析得到参考用户，进一步对利用参考用户的检索信息，实现检索用户检索之后得到的检索信息的排序和优化，提高了用户的检索效率。

下面结合附图具体的说明本发明所提供的基于标签用户模型的信息检索方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于标签用户模型的信息检索方法的步骤流程图，该方法包括以下步骤：

步骤S100，获取每个用户对各资源打上的标签；基于资源和对应的标签，构建各用户对应的资源标签二分图和资源标签节点。

每个用户对不同的资源标注了不同的标签信息，同时可以通过用户对不同资源打上的标签来表示该用户。基于资源和对应的标签，构建各用户对应的资源标签二分图和资源标签节点，用以表示每个用户的信息。构建各用户对应的资源标签二分图和资源标签节点，具体的：对于任意用户，将资源和对应的标签进行连线，构建各用户对应的资源标签二分图；将资源和对应的标签进行标号，作为资源标签节点。

其中，资源标签二分图的第一行节点为用户对应的资源，第二行节点为用户打过的标签信息，两行节点之间的连线表示资源和标签之间的关联。例如，对于用户1，用户1对资源A、资源B和资源C打过标签，则用户1对应的资源标签二分图的第一行节点为A、B、C；用户1对资源A、资源B和资源C打过的标签为a、b、c和d，则用户1对应的资源标签二分图的第二行节点为a、b、c、d；如用户1对资源A打的标签为a、b和d，则在资源标签二分图中连接A和a、A和b、A和d，则对应的资源标签节点为Aa、Ab、Ad。如可将资源A为书籍，则对应的标签a、b和d可分别为历史故事、三国演义和战争题材。

通过用户和标签两方面对资源进行分析，通过这两方面分析实现对检索结果的快速定位，也即通过两种描述实现对资源的快速定位。本发明首先对用户方面进行分析，通过资源标签二分图得到对每个用户的描述。

步骤S200，基于资源标签节点，计算任意两两用户的用户相似度；基于用户相似度对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户；获取用户的各标签的使用频率；对于任意标签，基于使用频率对所有用户进行聚类，得到多个单标签类别和对应的多个单标签类别中心用户。

当检索用户在对某种资源进行检索时，往往通过该资源具有的性质来进行检索，也即通过标签信息来进行检索。例如某个用户想要检索出一个和三国演义相近的战争题材的历史故事，那么该用户可能会检索这样三个标签：三国演义、战争题材和历史故事，但是通过这三个标签进行检索，获得的内容较多，难以直接从中得到用户满意的资源。

考虑到认知相近用户对资源打上的标签相近，通过与该用户的认知相近的用户中对三国演义、历史故事和战争题材这三个标签进行检索，也即参考与该用户的认识相近的用户的资源和标签。以标签为导向和以用户为导向分别计算，然后选取出参考用户进而快速得到检索结果。

用户标签类别是以用户对应的资源标签节点为导向，对用户进行聚类得到的不同用户类别，称之为用户标签类别；单标签类别是以标签的使用频率为导向，对用户进行聚类得到的不同用户类别，称之为单标签类别。

每个用户对哪些资源感兴趣，对资源打上的标签是什么，以这两个信息作为用户的行为特征，可以用来表示该用户，进而用于寻找与检索用户认知相近的用户。考虑到不同用户的认知不同，会存在不同用户对同一资源打不同的标签的情况，故首先基于用户对应的资源标签节点对用户进行分类，将具有相同认知的用户分至同一用户标签类别，也将即资源标签二分图相近的用户分至同一用户标签类别。

将用户分至多个用户标签类别，具体的：计算任意两两用户对应的资源标签节点的交并比作为用户相似度；基于用户相似度对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户。其中，两个用户对应的资源标签节点的交并比作为用户相似度，也即比较两个用户对应的资源标签二分图的相似性，用资源标签节点的交并比作为两个用户的相似程度。资源标签节点的交并比越大，则用户相似度越大，对应的两个用户的认知更相似。

其中，基于用户相似度对所有用户进行聚类，得到多个用于标签类别和对应的多个用户标签类别中心用户的步骤，具体的：计算得到每两个用户的用户相似度之后，将用户相似度大于预设相似度阈值的用户分至同一用户标签类别；对于任意用户标签类别，选取与类别内其他用户的用户相似度之和最大的用户作为用户标签类别中心用户；对于未分至任何用户标签类别内的未分组用户，计算未分组用户和各用户标签类别的用户标签类别中心用户的用户相似度，将未分组用户分至最大用户相似度对应的用户标签类别，多次迭代计算直至将所有未分组用户分至用户标签类别中，并对应的迭代更新每个用户标签类别的用户标签类别中心用户。在本发明实施例中预设相似度阈值为0.9，在其他实施例中实施者可根据实际情况调整该取值。其中，每个用户标签类别的用户标签类别中心用户所对应的资源标签二分图可以作为该用户标签类比的代表。

将用户分至多个单标签类别，具体的：选取任意标签作为第一标签，基于各用户对第一标签的使用频率，利用多阈值分割得到多个类别，作为单标签类别。即每个标签对应多个单标签类别。在本发明实施例中根据费歇尔准则，利用类间方差最大，类内方差最小的原则对第一标签对应的多个使用频率进行多阈值分割。其中，第一标签对应的多个单标签类别内的用户对第一标签的使用频率相接近，也即每个标签对应的多个单标签类别分别反映了用户对该标签的使用度。属于同一个单标签类别的用户的适用度相近，即属于同一个单标签类别的用户使用该标签的频率相近。

用户在检索所需要的资源时给出的是标签，例如，用户想要检索出一个和三国演义相近的战争题材的历史故事，用户给出的标签是：三国演义、战争题材和历史故事，因此需要通过标签对资源进行检索。而用户给出的标签信息往往是多个，因此可通过多个标签中每个标签的单标签类别对用户所需资源进行分析。单标签类别能够反映对应用户对该标签的纯度，也即使用该标签的用户中对该标签的使用频率越高，则该用户对该标签对应的标签纯度越高，则用户在该类标签对应的资源的研究程度越高。如一个用户2打过的标签大部分都是历史标签，则该用户的资源中历史类的资源的比重很大，当另一用户3检索有关历史方面的资源时，则用户2的资源对于检索用户3的参考意义较大。

步骤S300，选取任意用户作为目标用户，选取任意标签作为目标标签，计算目标用户和对应的用户标签类别中心用户的类别距离；类别距离的倒数作为第一参考值。

将多个用户分别分至用户标签类别和单标签类别内，其中，每个用户对应一个用户标签类别和多个单标签类别。

属于同一用户标签类别的用户的认知相近，属于同一单标签类别的用户对该标签的使用频率相近。用户标签类别对应的是用户方面，单标签类别对应的是标签方面。其中，属于同一用户标签类别的两个用户，关于这两个用户所对应的任意标签，存在两个用户属于同一单标签类别和两个用户不属于同一单标签类别两种情况，故分两种情况对标签方面进行分析。

对于检索用户其存在两个对应的中心用户，一个是用户标签类别中心用户，一个是单标签类别中心用户。其中，用户标签类别中心用户反映的是与之认知相近的用户，是从用户的角度对检索用户所需资源进行查找；而单标签类别中心用户是单标签类别的类别中心用户，反映的是通过该标签对用户进行类别划分，其在该标签上的使用频率相接近的，使用频率越大，该标签的可参考性越大。

选取任意用户作为目标用户，选取任意标签作为目标标签，计算目标用户和对应的用户标签类别中心用户的类别距离。计算目标用户和对应的用户标签类别中心用户的类别距离，具体的：基于目标标签，当目标用户和对应的用户标签类别中心用户属于同一个单标签类别时，将零作为目标用户和对应的用户标签类别中心用户的类别距离；当目标用户和用户标签类别中心用户不属于同一个单标签类别时，计算目标用户所属的单标签类别内的使用频率的均值作为第一均值，计算目标用户对应的用户标签类别中心用户所属单标签类别内的使用频率的均值作为第二均值，第一均值和第二均值的差值作为目标用户和对应的用户标签类别中心用户的类别距离。其类别距离越大，检索用户所对应的用户标签类别中心用户的参考性越小；反之，该类别距离越小，则检索用户所对应的用户标签类别中心用户的参考性越大。

将该类别距离的倒数作为第一参考值。并对该第一参考值进行归一化，归一化后的第一参考值的取值范围为(0,1]。

步骤S400，基于目标标签，根据目标用户所属单标签类别内的使用频率计算第二参考值；当目标用户的目标标签对应的第一参考值大于第二参考值，将对应的用户标签类别中心用户作为参考用户；当目标用户的目标标签对应的第一参考值小于等于第二参考值，将对应的单标签类别中心用户作为参考用户。

计算检索用户的检索标签中单标签类别的单标签类别中心用户的使用频率与单标签类别内最大使用频率的比值。该比值越大，则对应的单标签类别中心用户的参考性越大。

进一步的，基于目标标签，根据目标用户在所属单标签类别内的使用频率计算第二参考值，具体的：获取目标用户所属单标签类别的单标签类别中心用户对应的使用频率作为第一使用频率，获取目标用户所属单标签类别内的最大使用频率，该第一使用频率和最大使用频率的比值为第二参考值。也可以说第二参考值为归一化后的第一使用频率。

结合第一参考值和第二参考值得到参考用户。具体的：当目标用户的目标标签对应的第一参考值大于第二参考值，将对应的用户标签类别中心用户作为参考用户；当目标用户的目标标签对应的第一参考值小于等于第二参考值，将对应的单标签类别中心用户作为参考用户。得到多个参考用户，即每个检索用户对应多个参考用户。

步骤S500，将目标用户对应的参考用户的资源按照使用频率进行排序。

基于目标用户对应的参考用户的所有资源中的任意资源，获取所有参考用户的使用频率之和作为总使用频率，得到每个资源的总使用频率。根据总使用频率按照从大到小的顺序对参考用户的资源进行优先级排序，以使得检索用户根据标签进行检索时，能够按照优先级顺序出现资源，实现快速有效的进行信息检索的目的。

综上所述，本发明实施例利用数据识别技术，该方法首先获取每个用户对各资源打上的标签；构建各用户对应的资源标签二分图和资源标签节点；计算任意两两用户的用户相似度，对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户；获取用户的各标签的使用频率；对于任意标签，基于使用频率对所有用户进行聚类，得到多个单标签类别和对应的多个单标签类别中心用户；选取任意用户作为目标用户，任意标签作为目标标签，计算目标用户和对应的用户标签类别中心用户的类别距离的倒数作为第一参考值；基于目标标签，根据目标用户所属单标签类别内的使用频率计算第二参考值；比较目标用户的目标标签对应的第一参考值和第二参考值得到参考用户；将目标用户对应的参考用户的资源按照使用频率进行排序。本发明通过对资源和对应的标签进行分析得到参考用户，进一步对利用参考用户的检索信息，实现检索用户检索之后得到的检索信息的排序和优化，提高了用户的检索效率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于标签用户模型的信息检索方法，其特征在于，该方法包括以下步骤：

将目标用户对应的参考用户的资源按照使用频率进行排序。

2.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述基于所述资源和对应的所述标签，构建各用户对应的资源标签二分图和资源标签节点，包括：

3.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述基于所述用户相似度对所有用户进行聚类，得到多个用户标签类别和对应的多个用户标签类别中心用户，包括：

4.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述对于任意标签，基于所述使用频率对所有用户进行聚类，得到多个单标签类别，包括：

5.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述选取任意用户作为目标用户，选取任意标签作为目标标签，计算所述目标用户和对应的用户标签类别中心用户的类别距离，包括：

6.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述根据所述目标用户所属单标签类别内的使用频率计算第二参考值，包括：

7.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述将目标用户对应的参考用户的资源按照使用频率进行排序，包括：

8.根据权利要求1所述的基于标签用户模型的信息检索方法，其特征在于，所述用户相似度的计算方法为：计算任意两两用户对应的资源标签节点的交并比作为用户相似度。