CN116089598A

CN116089598A - 一种基于特征相似度和用户需求度的绿色知识推荐方法

Info

Publication number: CN116089598A
Application number: CN202310103329.XA
Authority: CN
Inventors: 柯庆镝; 张振; 孙伯骜; 张雷
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-09
Anticipated expiration: 2043-02-13
Also published as: CN116089598B

Abstract

本发明公开了一种基于特征相似度和用户需求度的绿色知识推荐方法，包括：1文本收集步骤：获取搜索文本集合；2语义分解步骤：构建标题词典对文本进行分解；3相似度计算步骤：对分解后的文本进行计算选取有效文本；4单词权重设置及单词提取步骤：在有效文本中提取所需的单词，为需求度计算做基础准备；5需求度计算步骤：获得待识别知识的TF，构建小标题需求函数，得到用户对某个大标题单词的需求和得到用户对每个小标题单词的需求，再计算与待识别只是之间的偏差；6将符合要求的知识推送给用户。本发明能通过模板化方式让用户快速找到所需要的内容，从而避免用户无意义的寻找，并能提高搜索效率，减少无用时间的损耗。

Description

一种基于特征相似度和用户需求度的绿色知识推荐方法

技术领域

本发明涉及一种基于特征相似度和用户需求度的绿色知识推荐方法。

背景技术

在绿色知识库中，用户用传统的方法搜索想要的知识不准确，搜索时间太慢。因为用户在搜索过程中通常要求很广泛但并不准确，而在传统方法里应对用户的搜索是给出一个只够大的搜索结果，而不是去想办法确定在用户的广泛的知识中减少不确定性，而只给一个广泛的结果还要让用户去自己去慢慢的再去搜寻，减少哪些不要的知识，这样的搜索方法太过缓慢，而搜索结果又不够准确，从而无法满足用户的需求。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于特征相似度和用户需求度的绿色知识推荐方法，以期能通过模板化的方法让用户快速找到所需要的内容，从而避免用户无意义的寻找，并能提高搜索效率，减少无用时间的损耗。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于特征相似度和用户需求度的绿色知识推荐方法的特点在于，包括如下步骤：

步骤一、获取用户u的当前搜索文本e以及历史搜索文本集合

其中，e_n1,u表示用户u的第n₁条历史搜索文本，1≤n₁≤N₁；N₁表示用户u的历史搜索文本的数量；

步骤二、构建大标题和小标题词典，在语义分解的基础上对当前搜索文本e和历史搜索文本集合E_u进行语义分解；

步骤2.1、构建绿色知识库的大标题词典

其中，

表示所述绿色知识库的第n₂条大标题；N₂表示大标题词典X的数量；

构建绿色知识库的小标题词典

其中，y_n3表示所述绿色知识库的第n₃条小标题，N₃表示小标题词典Y的数量；

构建用户集的日常用语词典

其中，c_n4表示日常用语词典中的第n条词语，N表示日常用语词典C的数量；

步骤2.2、根据词典X、Y、C，对e和e_n1,u分别进行分解，得到分解后的当前搜索文本e的文本集合向量

和第n₁条历史搜索文本e_n1,u的文本集合向量

表示当前搜索文本e中的第i_e个单词，

表示第n₁条历史搜索文本e_n1,u中的第i个单词，_Ie表示当前搜索文本e的单词数，

表示第n₁条历史搜索文本e_n1,u的单词数；

令

表示

所属于的词典标签；若

属于大标题词典X，则令

若

属于小标题词典Y，则令

若

属于日常用语词典C，则令

否则，令

令

表示

所属于的词典标签；若

属于大标题词典X，则令

若

属于小标题词典Y，则令

若

属于日常用语词典C，则令

否则，令

步骤2.3、利用式(1)得到第i个单词

的权重

式(1)中，δ₁表示第一权重值，δ₂表示第二权重值，且0＜δ₂＜δ₁＜1；

步骤2.4，按照步骤2.3的过程得到第i_e个单词

的权重

步骤2.5、利用式(2)计算第i_e个单词

与第i个单词

的相似度

步骤2.6、按照步骤2.5的过程得到第n₁条文本集合向量

与文本集合w_e中所有单词的相似度，并从中选择相似度最高的t个单词作为文本集合w_e的第n₁条候选词集；从而得到文本集合w_e与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集；并由所有候选词集构成文本集合w_e的有效文本集合

其中，

表示第i_e个单词

的第p个候选词，P表示候选词总数；

步骤三、根据权重从w_e和

中挑选出分别属于词典X,Y的单词；

步骤3.1、对w_e中属于词典X的单词进行挑选：

当

时，则将

在词典X所对应的单词，记为

从而得到w_e中所有属于词典X的单词所构成的第一单词集合；

步骤3.2、对

中属于词典X的单词进进行挑选：

当

时，则将

在词典X所对应的单词，记为

从而得到

中所有属于词典X的单词所构成的第二单词集合；其中，

表示

的权重；

步骤3.3、将第一单词集合和第二单词集合合并为大主题词集合

其中，

表示第n₅个大主题词，1≤n₅≤N₅；N₅表示大主题词的数量；

步骤3.4、对w_e中属于Y的单词进行挑选，

时，则将w_e中属于词典Y的单词，为

步骤3.5、对

中属于Y的文本进行挑选，当

时，则将w_valid中属于词典Y的单词，为

步骤3.6、对w_e和w_valid经过计算后，整合所得到的单词用于构建小主题词集合

其中，

表示V中第n₆个小主题词，1≤n₆≤N₆；N₆表示小主题词的数量；

步骤四、根据用户满意度找到对应知识：

步骤4.1、获取待识别的知识a，并在X词典和主题词集合V下进行的语义分解后，计算知识a中的单词频率，记为

其中，

表示第n₂条大标题

在知识a中的频率，

表示第n₆个小主题词

在知识a中的频率，

步骤4.2、对主题词集合V的每个词进行赋值，从而利用式(3)构建主题词集合V中词的权重函数

步骤4.3、利用式(4)构建用户需求度函数

式(4)中，k表示用户的满意程度，k∈(0,100％)

步骤4.4、获取用户对大标题词典X中所需求的某条大标题x_user，并计算用户所需求的大标题x_user与知识a的接近程度

其中，

表示大标题x_user在知识a中的频率；

步骤4.5、获取用户对小主题词集合V中每个小主题词的需求，并计算用户对所有小主题词的接近程度

步骤4.6、计算用户需求与知识a的接近程度

从而得到用户需求与所有知识的接近程度，并从中选取接近程度较小的若干个知识推送给用户。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述绿色知识推荐方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述绿色知识推荐方法的步骤。

与现有技术相比，本发明的有益效果在于：

1.本发明首先对收集的文本分词和设置权重，提高了相似度计算中得到有用，然后针对用户对大的类型和小的类型需求的从属关系将文本分成两部分，使得用户的想法更加的具体和细致，在需求度模型中可以让用户对不同类型的需求结合起来使得搜索的结果跟符合用户的需求，然后在根据接受到的知识，根据词典和集合后得到的词频，与需求函数进行比较从而找出最符合用户需求的知识。

2.本发明使用相似度模型快速得到可用文本，使用需求度模型可以让用户对不同类型的需求结合起来使得搜索的结果跟符合用户的需求，将用户的需求和以往搜索的结果和结合使得推送的结果准确性大大提高。

附图说明

图1为本发明总体流程图。

具体实施方式

本实施例中，如图1所示，一种基于特征相似度和用户需求度的绿色知识推荐方法包括如下步骤：

步骤一、获取用户u的当前搜索文本e以及历史搜索文本集合

步骤2.1、步骤2.1、构建绿色知识库的大标题词典

其中，

表示所述绿色知识库的第n₂条大标题；N₂表示大标题词典X的数量；大标题即是汽车、机床、冰箱等这样一些大的类别。

构建绿色知识库的小标题词典

其中，y_n3表示所述绿色知识库的第n₃条小标题，N₃表示小标题词典Y的数量；小标题即是大型汽车、客车、卡车这样的在大类型下的小类型，或是底盘、发动机、外壳这样的部件，或是轻量化、节能、耐磨这样的效果。

构建用户集的日常用语词典

其中，c_n4表示日常用语词典中的第n条词语，N表示日常用语词典C的数量；日常用语即是我、你、他或什么、想要这样的日常话语。

和第n₁条历史搜索文本e_n1,u的文本集合向量

表示当前搜索文本e中的第i_e个单词，

表示第n₁条历史搜索文本e_n1,u中的第i个单词，I_e表示当前搜索文本e的单词数，

表示第n₁条历史搜索文本e_n1,u的单词数；这里是利用结巴分词系统来进行语义分解，使用结巴分词所用到的词典为X、Y、C；分词内容所属的词典用

来进行代替。

令

表示

所属于的词典标签；若

属于大标题词典X，则令

若

属于小标题词典Y，则令

若

属于日常用语词典C，则令

否则，令

令

表示

所属于的词典标签；若

属于大标题词典X，则令

若

属于小标题词典Y，则令

若

属于日常用语词典C，则令

否则，令

使用词典标签来检测出每个单词所对应的词典，进行简单化的辨别所属关系。

步骤2.3、利用式(1)得到第i个单词

的权重

式(1)中，δ₁表示第一权重值，δ₂表示第二权重值，且0＜δ₂＜δ₁＜1；对单词设置权重，属于大标题、小标题和日常用语的单词权重不一样。

步骤2.4，按照步骤2.3的过程得到第i_e个单词

的权重

步骤2.5、利用式(2)计算文本集合向量w_e与文本集合向量w_n1的相似度

在计算过程中将文本集合向量转化为数值向量。

步骤2.6、按照步骤2.5的过程得到第n₁条文本集合向量

与文本集合w_e中所有单词的相似度，并从中选择相似度最高的t个单词作为文本集合w_e的第n₁条候选词集；

从而得到文本集合w_e与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集；

并由所有候选词集构成文本集合w_e的有效文本集合

其中，

表示第i_e个单词

的第p个候选词，P表示候选词总数；根据自己所需要的相似度挑选所需的文本

步骤三、根据权重从w_e和

中挑选出分别属于词典X,Y的单词；

步骤3.1、对w_e中属于词典X的单词进行挑选：

当

时，则将

在词典X所对应的单词，记为

从而得到w_e中所有属于词典X的单词所构成的第一单词集合；

步骤3.2、对

中属于词典X的单词进进行挑选：

当

时，则将

在词典X所对应的单词，记为

从而得到

中所有属于词典X的单词所构成的第二单词集合；其中，

表示

的权重；

其中，

表示第n₅个大主题词，1≤n₅≤N₅；N₅表示大主题词的数量；相关大主题词数量的设置是为了给对某个大标题单词的需求，与知识对大标题的接近程度做文本内容上的准备。

步骤3.4、对w_e中属于Y的单词进行挑选，

时，此为w_e中属于词典Y的单词，为

步骤3.5、对

中属于Y的文本进行挑选，当

时，此为w_valid中属于词典Y的单词,为

其中，

表示V中第n₆个小主题词，1≤n₆≤N₆；N₆表示小主题词的数量；相关小主题词数量的设置是为了给对某个小标题单词的需求，与知识对小标题的接近程度做文本内容上的准备。

步骤四、根据用户满意度找到对应知识：

其中，

表示第n₂条大标题

在知识a中的频率，

表示第n₆个小主题词

在知识a中的频率，

这里用词频在知识a中显示出各个特征所占的比重，也是各个特征在知识a中的影响力。

步骤4.3、利用式(4)构建用户需求度函数

式(4)中，k表示用户的满意程度，k∈(0,100％)；

因为在用户总体的文本来看有一些效果是搜索的更多的，这样明显是用户更想要的。

其中，

表示大标题x_user在知识a中的频率；因为用户对例如汽车或飞机的需求一般是只有一个，所以设置大标题需求为1。

因为语义分解用的是小标题词典V，所以

的下标为n₆。

步骤4.6、计算用户需求与知识a的接近程度

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述绿色知识推荐方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述绿色知识推荐方法的步骤。

Claims

1.一种基于特征相似度和用户需求度的绿色知识推荐方法，其特征在于，包括如下步骤：

步骤一、获取用户u的当前搜索文本e以及历史搜索文本集合

步骤2.1、构建绿色知识库的大标题词典

其中，

构建绿色知识库的小标题词典

构建用户集的日常用语词典

和第n₁条历史搜索文本e_n1,u的文本集合向量

表示当前搜索文本e中的第i_e个单词，

表示第n₁条历史搜索文本e_n1,u的单词数；

令

表示

所属于的词典标签；若

属于大标题词典X，则令

若

属于小标题词典Y，则令

若

属于日常用语词典C，则令

否则，令

令

表示

所属于的词典标签；若

属于大标题词典X，则令

若

属于小标题词典Y，则令

若

属于日常用语词典C，则令

否则，令

步骤2.3、利用式(1)得到第i个单词

的权重

步骤2.4，按照步骤2.3的过程得到第i_e个单词

的权重

步骤2.5、利用式(2)计算第i_e个单词

与第i个单词

的相似度

步骤2.6、按照步骤2.5的过程得到第n₁条文本集合向量

其中，

表示第i_e个单词

的第p个候选词，P表示候选词总数；

步骤三、根据权重从w_e和

中挑选出分别属于词典X,Y的单词；

步骤3.1、对w_e中属于词典X的单词进行挑选：

当

时，则将

在词典X所对应的单词，记为

从而得到w_e中所有属于词典X的单词所构成的第一单词集合；

步骤3.2、对

中属于词典X的单词进进行挑选：

当

时，则将

在词典X所对应的单词，记为

从而得到

中所有属于词典X的单词所构成的第二单词集合；其中，

表示

的权重；

其中，

步骤3.4、对w_e中属于Y的单词进行挑选，

时，则将w_e中属于词典Y的单词，为

步骤3.5、对

中属于Y的文本进行挑选，当

时，则将w_valid中属于词典Y的单词，为

其中，

步骤四、根据用户满意度找到对应知识：

其中，

表示第n₂条大标题

在知识a中的频率，

表示第n₆个小主题词

在知识a中的频率，

步骤4.3、利用式(4)构建用户需求度函数

式(4)中，k表示用户的满意程度，k∈(0,100％)

其中，

表示大标题x_user在知识a中的频率；

步骤4.6、计算用户需求与知识a的接近程度

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述绿色知识推荐方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，

所述计算机程序被处理器运行时执行权利要求1所述绿色知识推荐方法的步骤。