CN116089598A - 一种基于特征相似度和用户需求度的绿色知识推荐方法 - Google Patents

一种基于特征相似度和用户需求度的绿色知识推荐方法 Download PDF

Info

Publication number
CN116089598A
CN116089598A CN202310103329.XA CN202310103329A CN116089598A CN 116089598 A CN116089598 A CN 116089598A CN 202310103329 A CN202310103329 A CN 202310103329A CN 116089598 A CN116089598 A CN 116089598A
Authority
CN
China
Prior art keywords
word
dictionary
user
knowledge
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310103329.XA
Other languages
English (en)
Other versions
CN116089598B (zh
Inventor
柯庆镝
张振
孙伯骜
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202310103329.XA priority Critical patent/CN116089598B/zh
Publication of CN116089598A publication Critical patent/CN116089598A/zh
Application granted granted Critical
Publication of CN116089598B publication Critical patent/CN116089598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于特征相似度和用户需求度的绿色知识推荐方法,包括:1文本收集步骤:获取搜索文本集合;2语义分解步骤:构建标题词典对文本进行分解;3相似度计算步骤:对分解后的文本进行计算选取有效文本;4单词权重设置及单词提取步骤:在有效文本中提取所需的单词,为需求度计算做基础准备;5需求度计算步骤:获得待识别知识的TF,构建小标题需求函数,得到用户对某个大标题单词的需求和得到用户对每个小标题单词的需求,再计算与待识别只是之间的偏差;6将符合要求的知识推送给用户。本发明能通过模板化方式让用户快速找到所需要的内容,从而避免用户无意义的寻找,并能提高搜索效率,减少无用时间的损耗。

Description

一种基于特征相似度和用户需求度的绿色知识推荐方法
技术领域
本发明涉及一种基于特征相似度和用户需求度的绿色知识推荐方法。
背景技术
在绿色知识库中,用户用传统的方法搜索想要的知识不准确,搜索时间太慢。因为用户在搜索过程中通常要求很广泛但并不准确,而在传统方法里应对用户的搜索是给出一个只够大的搜索结果,而不是去想办法确定在用户的广泛的知识中减少不确定性,而只给一个广泛的结果还要让用户去自己去慢慢的再去搜寻,减少哪些不要的知识,这样的搜索方法太过缓慢,而搜索结果又不够准确,从而无法满足用户的需求。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于特征相似度和用户需求度的绿色知识推荐方法,以期能通过模板化的方法让用户快速找到所需要的内容,从而避免用户无意义的寻找,并能提高搜索效率,减少无用时间的损耗。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于特征相似度和用户需求度的绿色知识推荐方法的特点在于,包括如下步骤:
步骤一、获取用户u的当前搜索文本e以及历史搜索文本集合
Figure BDA0004073930920000011
Figure BDA0004073930920000012
其中,en1,u表示用户u的第n1条历史搜索文本,1≤n1≤N1;N1表示用户u的历史搜索文本的数量;
步骤二、构建大标题和小标题词典,在语义分解的基础上对当前搜索文本e和历史搜索文本集合Eu进行语义分解;
步骤2.1、构建绿色知识库的大标题词典
Figure BDA0004073930920000013
其中,
Figure BDA0004073930920000014
表示所述绿色知识库的第n2条大标题;N2表示大标题词典X的数量;
构建绿色知识库的小标题词典
Figure BDA0004073930920000015
其中,yn3表示所述绿色知识库的第n3条小标题,N3表示小标题词典Y的数量;
构建用户集的日常用语词典
Figure BDA0004073930920000016
其中,cn4表示日常用语词典中的第n条词语,N表示日常用语词典C的数量;
步骤2.2、根据词典X、Y、C,对e和en1,u分别进行分解,得到分解后的当前搜索文本e的文本集合向量
Figure BDA0004073930920000017
和第n1条历史搜索文本en1,u的文本集合向量
Figure BDA0004073930920000021
Figure BDA0004073930920000022
表示当前搜索文本e中的第ie个单词,
Figure BDA0004073930920000023
表示第n1条历史搜索文本en1,u中的第i个单词,Ie表示当前搜索文本e的单词数,
Figure BDA0004073930920000024
表示第n1条历史搜索文本en1,u的单词数;
Figure BDA0004073930920000025
表示
Figure BDA0004073930920000026
所属于的词典标签;若
Figure BDA0004073930920000027
属于大标题词典X,则令
Figure BDA0004073930920000028
Figure BDA0004073930920000029
属于小标题词典Y,则令
Figure BDA00040739309200000210
Figure BDA00040739309200000211
属于日常用语词典C,则令
Figure BDA00040739309200000212
否则,令
Figure BDA00040739309200000239
Figure BDA00040739309200000213
表示
Figure BDA00040739309200000214
所属于的词典标签;若
Figure BDA00040739309200000215
属于大标题词典X,则令
Figure BDA00040739309200000216
Figure BDA00040739309200000217
属于小标题词典Y,则令
Figure BDA00040739309200000218
Figure BDA00040739309200000219
属于日常用语词典C,则令
Figure BDA00040739309200000220
否则,令
Figure BDA00040739309200000221
步骤2.3、利用式(1)得到第i个单词
Figure BDA00040739309200000222
的权重
Figure BDA00040739309200000223
Figure BDA00040739309200000224
式(1)中,δ1表示第一权重值,δ2表示第二权重值,且0<δ2<δ1<1;
步骤2.4,按照步骤2.3的过程得到第ie个单词
Figure BDA00040739309200000225
的权重
Figure BDA00040739309200000226
步骤2.5、利用式(2)计算第ie个单词
Figure BDA00040739309200000227
与第i个单词
Figure BDA00040739309200000228
的相似度
Figure BDA00040739309200000229
Figure BDA00040739309200000230
步骤2.6、按照步骤2.5的过程得到第n1条文本集合向量
Figure BDA00040739309200000231
与文本集合we中所有单词的相似度,并从中选择相似度最高的t个单词作为文本集合we的第n1条候选词集;从而得到文本集合we与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集;并由所有候选词集构成文本集合we的有效文本集合
Figure BDA00040739309200000232
其中,
Figure BDA00040739309200000233
表示第ie个单词
Figure BDA00040739309200000234
的第p个候选词,P表示候选词总数;
步骤三、根据权重从we
Figure BDA00040739309200000235
中挑选出分别属于词典X,Y的单词;
步骤3.1、对we中属于词典X的单词进行挑选:
Figure BDA00040739309200000236
时,则将
Figure BDA00040739309200000237
在词典X所对应的单词,记为
Figure BDA00040739309200000238
从而得到we中所有属于词典X的单词所构成的第一单词集合;
步骤3.2、对
Figure BDA0004073930920000031
中属于词典X的单词进进行挑选:
Figure BDA0004073930920000032
时,则将
Figure BDA0004073930920000033
在词典X所对应的单词,记为
Figure BDA0004073930920000034
从而得到
Figure BDA0004073930920000035
中所有属于词典X的单词所构成的第二单词集合;其中,
Figure BDA0004073930920000036
表示
Figure BDA0004073930920000037
的权重;
步骤3.3、将第一单词集合和第二单词集合合并为大主题词集合
Figure BDA0004073930920000038
其中,
Figure BDA0004073930920000039
表示第n5个大主题词,1≤n5≤N5;N5表示大主题词的数量;
步骤3.4、对we中属于Y的单词进行挑选,
Figure BDA00040739309200000310
时,则将we中属于词典Y的单词,为
Figure BDA00040739309200000311
步骤3.5、对
Figure BDA00040739309200000312
中属于Y的文本进行挑选,当
Figure BDA00040739309200000313
时,则将wvalid中属于词典Y的单词,为
Figure BDA00040739309200000314
步骤3.6、对we和wvalid经过计算后,整合所得到的单词用于构建小主题词集合
Figure BDA00040739309200000315
其中,
Figure BDA00040739309200000316
表示V中第n6个小主题词,1≤n6≤N6;N6表示小主题词的数量;
步骤四、根据用户满意度找到对应知识:
步骤4.1、获取待识别的知识a,并在X词典和主题词集合V下进行的语义分解后,计算知识a中的单词频率,记为
Figure BDA00040739309200000317
其中,
Figure BDA00040739309200000318
表示第n2条大标题
Figure BDA00040739309200000319
在知识a中的频率,
Figure BDA00040739309200000320
Figure BDA00040739309200000321
表示第n6个小主题词
Figure BDA00040739309200000322
在知识a中的频率,
Figure BDA00040739309200000323
Figure BDA00040739309200000324
步骤4.2、对主题词集合V的每个词进行赋值,从而利用式(3)构建主题词集合V中词的权重函数
Figure BDA00040739309200000325
Figure BDA00040739309200000326
步骤4.3、利用式(4)构建用户需求度函数
Figure BDA00040739309200000327
Figure BDA00040739309200000328
式(4)中,k表示用户的满意程度,k∈(0,100%)
步骤4.4、获取用户对大标题词典X中所需求的某条大标题xuser,并计算用户所需求的大标题xuser与知识a的接近程度
Figure BDA0004073930920000041
其中,
Figure BDA0004073930920000042
表示大标题xuser在知识a中的频率;
步骤4.5、获取用户对小主题词集合V中每个小主题词的需求,并计算用户对所有小主题词的接近程度
Figure BDA0004073930920000043
步骤4.6、计算用户需求与知识a的接近程度
Figure BDA0004073930920000044
从而得到用户需求与所有知识的接近程度,并从中选取接近程度较小的若干个知识推送给用户。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述绿色知识推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述绿色知识推荐方法的步骤。
与现有技术相比,本发明的有益效果在于:
1.本发明首先对收集的文本分词和设置权重,提高了相似度计算中得到有用,然后针对用户对大的类型和小的类型需求的从属关系将文本分成两部分,使得用户的想法更加的具体和细致,在需求度模型中可以让用户对不同类型的需求结合起来使得搜索的结果跟符合用户的需求,然后在根据接受到的知识,根据词典和集合后得到的词频,与需求函数进行比较从而找出最符合用户需求的知识。
2.本发明使用相似度模型快速得到可用文本,使用需求度模型可以让用户对不同类型的需求结合起来使得搜索的结果跟符合用户的需求,将用户的需求和以往搜索的结果和结合使得推送的结果准确性大大提高。
附图说明
图1为本发明总体流程图。
具体实施方式
本实施例中,如图1所示,一种基于特征相似度和用户需求度的绿色知识推荐方法包括如下步骤:
步骤一、获取用户u的当前搜索文本e以及历史搜索文本集合
Figure BDA0004073930920000045
Figure BDA0004073930920000046
其中,en1,u表示用户u的第n1条历史搜索文本,1≤n1≤N1;N1表示用户u的历史搜索文本的数量;
步骤二、构建大标题和小标题词典,在语义分解的基础上对当前搜索文本e和历史搜索文本集合Eu进行语义分解;
步骤2.1、步骤2.1、构建绿色知识库的大标题词典
Figure BDA0004073930920000051
其中,
Figure BDA0004073930920000052
表示所述绿色知识库的第n2条大标题;N2表示大标题词典X的数量;大标题即是汽车、机床、冰箱等这样一些大的类别。
构建绿色知识库的小标题词典
Figure BDA0004073930920000053
其中,yn3表示所述绿色知识库的第n3条小标题,N3表示小标题词典Y的数量;小标题即是大型汽车、客车、卡车这样的在大类型下的小类型,或是底盘、发动机、外壳这样的部件,或是轻量化、节能、耐磨这样的效果。
构建用户集的日常用语词典
Figure BDA0004073930920000054
其中,cn4表示日常用语词典中的第n条词语,N表示日常用语词典C的数量;日常用语即是我、你、他或什么、想要这样的日常话语。
步骤2.2、根据词典X、Y、C,对e和en1,u分别进行分解,得到分解后的当前搜索文本e的文本集合向量
Figure BDA0004073930920000055
和第n1条历史搜索文本en1,u的文本集合向量
Figure BDA0004073930920000056
Figure BDA0004073930920000057
表示当前搜索文本e中的第ie个单词,
Figure BDA0004073930920000058
表示第n1条历史搜索文本en1,u中的第i个单词,Ie表示当前搜索文本e的单词数,
Figure BDA0004073930920000059
表示第n1条历史搜索文本en1,u的单词数;这里是利用结巴分词系统来进行语义分解,使用结巴分词所用到的词典为X、Y、C;分词内容所属的词典用
Figure BDA00040739309200000510
来进行代替。
Figure BDA00040739309200000511
表示
Figure BDA00040739309200000512
所属于的词典标签;若
Figure BDA00040739309200000513
属于大标题词典X,则令
Figure BDA00040739309200000514
Figure BDA00040739309200000515
属于小标题词典Y,则令
Figure BDA00040739309200000516
Figure BDA00040739309200000517
属于日常用语词典C,则令
Figure BDA00040739309200000518
否则,令
Figure BDA00040739309200000519
Figure BDA00040739309200000520
表示
Figure BDA00040739309200000521
所属于的词典标签;若
Figure BDA00040739309200000522
属于大标题词典X,则令
Figure BDA00040739309200000523
Figure BDA00040739309200000524
属于小标题词典Y,则令
Figure BDA00040739309200000525
Figure BDA00040739309200000526
属于日常用语词典C,则令
Figure BDA00040739309200000527
否则,令
Figure BDA00040739309200000528
使用词典标签来检测出每个单词所对应的词典,进行简单化的辨别所属关系。
步骤2.3、利用式(1)得到第i个单词
Figure BDA00040739309200000529
的权重
Figure BDA00040739309200000530
Figure BDA0004073930920000061
式(1)中,δ1表示第一权重值,δ2表示第二权重值,且0<δ2<δ1<1;对单词设置权重,属于大标题、小标题和日常用语的单词权重不一样。
步骤2.4,按照步骤2.3的过程得到第ie个单词
Figure BDA0004073930920000062
的权重
Figure BDA0004073930920000063
步骤2.5、利用式(2)计算文本集合向量we与文本集合向量wn1的相似度
Figure BDA0004073930920000064
Figure BDA0004073930920000065
在计算过程中将文本集合向量转化为数值向量。
步骤2.6、按照步骤2.5的过程得到第n1条文本集合向量
Figure BDA0004073930920000066
与文本集合we中所有单词的相似度,并从中选择相似度最高的t个单词作为文本集合we的第n1条候选词集;
从而得到文本集合we与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集;
并由所有候选词集构成文本集合we的有效文本集合
Figure BDA0004073930920000067
其中,
Figure BDA0004073930920000068
表示第ie个单词
Figure BDA0004073930920000069
的第p个候选词,P表示候选词总数;根据自己所需要的相似度挑选所需的文本
Figure BDA00040739309200000610
步骤三、根据权重从we
Figure BDA00040739309200000611
中挑选出分别属于词典X,Y的单词;
步骤3.1、对we中属于词典X的单词进行挑选:
Figure BDA00040739309200000612
时,则将
Figure BDA00040739309200000613
在词典X所对应的单词,记为
Figure BDA00040739309200000614
从而得到we中所有属于词典X的单词所构成的第一单词集合;
步骤3.2、对
Figure BDA00040739309200000615
中属于词典X的单词进进行挑选:
Figure BDA00040739309200000623
时,则将
Figure BDA00040739309200000617
在词典X所对应的单词,记为
Figure BDA00040739309200000618
从而得到
Figure BDA00040739309200000619
中所有属于词典X的单词所构成的第二单词集合;其中,
Figure BDA00040739309200000620
表示
Figure BDA00040739309200000621
的权重;
步骤3.3、将第一单词集合和第二单词集合合并为大主题词集合
Figure BDA00040739309200000622
其中,
Figure BDA0004073930920000071
表示第n5个大主题词,1≤n5≤N5;N5表示大主题词的数量;相关大主题词数量的设置是为了给对某个大标题单词的需求,与知识对大标题的接近程度做文本内容上的准备。
步骤3.4、对we中属于Y的单词进行挑选,
Figure BDA0004073930920000072
时,此为we中属于词典Y的单词,为
Figure BDA0004073930920000073
步骤3.5、对
Figure BDA0004073930920000074
中属于Y的文本进行挑选,当
Figure BDA0004073930920000075
时,此为wvalid中属于词典Y的单词,为
Figure BDA0004073930920000076
步骤3.6、对we和wvalid经过计算后,整合所得到的单词用于构建小主题词集合
Figure BDA0004073930920000077
其中,
Figure BDA0004073930920000078
表示V中第n6个小主题词,1≤n6≤N6;N6表示小主题词的数量;相关小主题词数量的设置是为了给对某个小标题单词的需求,与知识对小标题的接近程度做文本内容上的准备。
步骤四、根据用户满意度找到对应知识:
步骤4.1、获取待识别的知识a,并在X词典和主题词集合V下进行的语义分解后,计算知识a中的单词频率,记为
Figure BDA0004073930920000079
其中,
Figure BDA00040739309200000710
表示第n2条大标题
Figure BDA00040739309200000711
在知识a中的频率,
Figure BDA00040739309200000712
Figure BDA00040739309200000713
表示第n6个小主题词
Figure BDA00040739309200000714
在知识a中的频率,
Figure BDA00040739309200000715
Figure BDA00040739309200000716
这里用词频在知识a中显示出各个特征所占的比重,也是各个特征在知识a中的影响力。
步骤4.2、对主题词集合V的每个词进行赋值,从而利用式(3)构建主题词集合V中词的权重函数
Figure BDA00040739309200000717
Figure BDA00040739309200000718
步骤4.3、利用式(4)构建用户需求度函数
Figure BDA00040739309200000719
Figure BDA00040739309200000720
式(4)中,k表示用户的满意程度,k∈(0,100%);
因为在用户总体的文本来看有一些效果是搜索的更多的,这样明显是用户更想要的。
步骤4.4、获取用户对大标题词典X中所需求的某条大标题xuser,并计算用户所需求的大标题xuser与知识a的接近程度
Figure BDA00040739309200000721
其中,
Figure BDA00040739309200000722
表示大标题xuser在知识a中的频率;因为用户对例如汽车或飞机的需求一般是只有一个,所以设置大标题需求为1。
步骤4.5、获取用户对小主题词集合V中每个小主题词的需求,并计算用户对所有小主题词的接近程度
Figure BDA0004073930920000081
因为语义分解用的是小标题词典V,所以
Figure BDA0004073930920000082
的下标为n6
步骤4.6、计算用户需求与知识a的接近程度
Figure BDA0004073930920000083
从而得到用户需求与所有知识的接近程度,并从中选取接近程度较小的若干个知识推送给用户。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述绿色知识推荐方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述绿色知识推荐方法的步骤。

Claims (3)

1.一种基于特征相似度和用户需求度的绿色知识推荐方法,其特征在于,包括如下步骤:
步骤一、获取用户u的当前搜索文本e以及历史搜索文本集合
Figure FDA0004073930910000011
Figure FDA0004073930910000012
其中,en1,u表示用户u的第n1条历史搜索文本,1≤n1≤N1;N1表示用户u的历史搜索文本的数量;
步骤二、构建大标题和小标题词典,在语义分解的基础上对当前搜索文本e和历史搜索文本集合Eu进行语义分解;
步骤2.1、构建绿色知识库的大标题词典
Figure FDA0004073930910000013
其中,
Figure FDA0004073930910000014
表示所述绿色知识库的第n2条大标题;N2表示大标题词典X的数量;
构建绿色知识库的小标题词典
Figure FDA0004073930910000015
其中,yn3表示所述绿色知识库的第n3条小标题,N3表示小标题词典Y的数量;
构建用户集的日常用语词典
Figure FDA0004073930910000016
其中,cn4表示日常用语词典中的第n条词语,N表示日常用语词典C的数量;
步骤2.2、根据词典X、Y、C,对e和en1,u分别进行分解,得到分解后的当前搜索文本e的文本集合向量
Figure FDA0004073930910000017
和第n1条历史搜索文本en1,u的文本集合向量
Figure FDA0004073930910000018
Figure FDA0004073930910000019
表示当前搜索文本e中的第ie个单词,
Figure FDA00040739309100000110
表示第n1条历史搜索文本en1,u中的第i个单词,Ie表示当前搜索文本e的单词数,
Figure FDA00040739309100000111
表示第n1条历史搜索文本en1,u的单词数;
Figure FDA00040739309100000112
表示
Figure FDA00040739309100000113
所属于的词典标签;若
Figure FDA00040739309100000114
属于大标题词典X,则令
Figure FDA00040739309100000115
Figure FDA00040739309100000116
属于小标题词典Y,则令
Figure FDA00040739309100000117
Figure FDA00040739309100000118
属于日常用语词典C,则令
Figure FDA00040739309100000119
否则,令
Figure FDA00040739309100000120
Figure FDA00040739309100000121
表示
Figure FDA00040739309100000122
所属于的词典标签;若
Figure FDA00040739309100000123
属于大标题词典X,则令
Figure FDA00040739309100000124
Figure FDA00040739309100000125
属于小标题词典Y,则令
Figure FDA00040739309100000126
Figure FDA00040739309100000127
属于日常用语词典C,则令
Figure FDA00040739309100000128
否则,令
Figure FDA00040739309100000129
步骤2.3、利用式(1)得到第i个单词
Figure FDA00040739309100000130
的权重
Figure FDA00040739309100000131
Figure FDA00040739309100000132
式(1)中,δ1表示第一权重值,δ2表示第二权重值,且0<δ2<δ1<1;
步骤2.4,按照步骤2.3的过程得到第ie个单词
Figure FDA0004073930910000021
的权重
Figure FDA0004073930910000022
步骤2.5、利用式(2)计算第ie个单词
Figure FDA0004073930910000023
与第i个单词
Figure FDA0004073930910000024
的相似度
Figure FDA0004073930910000025
Figure FDA0004073930910000026
步骤2.6、按照步骤2.5的过程得到第n1条文本集合向量
Figure FDA0004073930910000027
与文本集合we中所有单词的相似度,并从中选择相似度最高的t个单词作为文本集合we的第n1条候选词集;从而得到文本集合we与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集;并由所有候选词集构成文本集合we的有效文本集合
Figure FDA0004073930910000028
其中,
Figure FDA0004073930910000029
表示第ie个单词
Figure FDA00040739309100000210
的第p个候选词,P表示候选词总数;
步骤三、根据权重从we
Figure FDA00040739309100000211
中挑选出分别属于词典X,Y的单词;
步骤3.1、对we中属于词典X的单词进行挑选:
Figure FDA00040739309100000212
时,则将
Figure FDA00040739309100000213
在词典X所对应的单词,记为
Figure FDA00040739309100000214
从而得到we中所有属于词典X的单词所构成的第一单词集合;
步骤3.2、对
Figure FDA00040739309100000215
中属于词典X的单词进进行挑选:
Figure FDA00040739309100000216
时,则将
Figure FDA00040739309100000217
在词典X所对应的单词,记为
Figure FDA00040739309100000218
从而得到
Figure FDA00040739309100000219
中所有属于词典X的单词所构成的第二单词集合;其中,
Figure FDA00040739309100000220
表示
Figure FDA00040739309100000221
的权重;
步骤3.3、将第一单词集合和第二单词集合合并为大主题词集合
Figure FDA00040739309100000222
其中,
Figure FDA00040739309100000223
表示第n5个大主题词,1≤n5≤N5;N5表示大主题词的数量;
步骤3.4、对we中属于Y的单词进行挑选,
Figure FDA00040739309100000224
时,则将we中属于词典Y的单词,为
Figure FDA00040739309100000225
步骤3.5、对
Figure FDA00040739309100000226
中属于Y的文本进行挑选,当
Figure FDA00040739309100000227
时,则将wvalid中属于词典Y的单词,为
Figure FDA00040739309100000228
步骤3.6、对we和wvalid经过计算后,整合所得到的单词用于构建小主题词集合
Figure FDA00040739309100000229
其中,
Figure FDA00040739309100000230
表示V中第n6个小主题词,1≤n6≤N6;N6表示小主题词的数量;
步骤四、根据用户满意度找到对应知识:
步骤4.1、获取待识别的知识a,并在X词典和主题词集合V下进行的语义分解后,计算知识a中的单词频率,记为
Figure FDA0004073930910000031
其中,
Figure FDA0004073930910000032
表示第n2条大标题
Figure FDA0004073930910000033
在知识a中的频率,
Figure FDA0004073930910000034
Figure FDA0004073930910000035
表示第n6个小主题词
Figure FDA0004073930910000036
在知识a中的频率,
Figure FDA0004073930910000037
Figure FDA0004073930910000038
步骤4.2、对主题词集合V的每个词进行赋值,从而利用式(3)构建主题词集合V中词的权重函数
Figure FDA0004073930910000039
Figure FDA00040739309100000310
步骤4.3、利用式(4)构建用户需求度函数
Figure FDA00040739309100000311
Figure FDA00040739309100000312
式(4)中,k表示用户的满意程度,k∈(0,100%)
步骤4.4、获取用户对大标题词典X中所需求的某条大标题xuser,并计算用户所需求的大标题xuser与知识a的接近程度
Figure FDA00040739309100000313
其中,
Figure FDA00040739309100000314
表示大标题xuser在知识a中的频率;
步骤4.5、获取用户对小主题词集合V中每个小主题词的需求,并计算用户对所有小主题词的接近程度
Figure FDA00040739309100000315
步骤4.6、计算用户需求与知识a的接近程度
Figure FDA00040739309100000316
从而得到用户需求与所有知识的接近程度,并从中选取接近程度较小的若干个知识推送给用户。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述绿色知识推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,
所述计算机程序被处理器运行时执行权利要求1所述绿色知识推荐方法的步骤。
CN202310103329.XA 2023-02-13 2023-02-13 一种基于特征相似度和用户需求度的绿色知识推荐方法 Active CN116089598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310103329.XA CN116089598B (zh) 2023-02-13 2023-02-13 一种基于特征相似度和用户需求度的绿色知识推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310103329.XA CN116089598B (zh) 2023-02-13 2023-02-13 一种基于特征相似度和用户需求度的绿色知识推荐方法

Publications (2)

Publication Number Publication Date
CN116089598A true CN116089598A (zh) 2023-05-09
CN116089598B CN116089598B (zh) 2024-03-19

Family

ID=86199041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310103329.XA Active CN116089598B (zh) 2023-02-13 2023-02-13 一种基于特征相似度和用户需求度的绿色知识推荐方法

Country Status (1)

Country Link
CN (1) CN116089598B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831786A (zh) * 2020-07-24 2020-10-27 刘秀萍 完善主题词的全文数据库精准高效检索方法
CN112434151A (zh) * 2020-11-26 2021-03-02 重庆知识产权大数据研究院有限公司 一种专利推荐方法、装置、计算机设备及存储介质
CN112613612A (zh) * 2020-12-29 2021-04-06 合肥工业大学 一种基于专利库的绿色设计知识库的构建方法及其装置
WO2021103859A1 (zh) * 2019-11-26 2021-06-03 中兴通讯股份有限公司 一种信息搜索方法、装置、设备及存储介质
CN113282729A (zh) * 2021-06-07 2021-08-20 北京金山数字娱乐科技有限公司 基于知识图谱的问答方法及装置
CN114281945A (zh) * 2021-12-28 2022-04-05 合肥工业大学 基于绿色产品案例库的减碳策略知识库的构建方法
CN114706950A (zh) * 2022-03-30 2022-07-05 易薪路网络科技(上海)有限公司 一种长文本数据检索方法、装置、设备、存储介质
CN115438166A (zh) * 2022-09-29 2022-12-06 招商局金融科技有限公司 基于关键词和语义的搜索方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021103859A1 (zh) * 2019-11-26 2021-06-03 中兴通讯股份有限公司 一种信息搜索方法、装置、设备及存储介质
CN111831786A (zh) * 2020-07-24 2020-10-27 刘秀萍 完善主题词的全文数据库精准高效检索方法
CN112434151A (zh) * 2020-11-26 2021-03-02 重庆知识产权大数据研究院有限公司 一种专利推荐方法、装置、计算机设备及存储介质
CN112613612A (zh) * 2020-12-29 2021-04-06 合肥工业大学 一种基于专利库的绿色设计知识库的构建方法及其装置
CN113282729A (zh) * 2021-06-07 2021-08-20 北京金山数字娱乐科技有限公司 基于知识图谱的问答方法及装置
CN114281945A (zh) * 2021-12-28 2022-04-05 合肥工业大学 基于绿色产品案例库的减碳策略知识库的构建方法
CN114706950A (zh) * 2022-03-30 2022-07-05 易薪路网络科技(上海)有限公司 一种长文本数据检索方法、装置、设备、存储介质
CN115438166A (zh) * 2022-09-29 2022-12-06 招商局金融科技有限公司 基于关键词和语义的搜索方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柯庆镝等: "产品性能关联下绿色设计知识表达及获取方法", 《中国机械工程》, vol. 33, no. 22, 25 November 2022 (2022-11-25), pages 2717 - 2726 *

Also Published As

Publication number Publication date
CN116089598B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
EP2486470B1 (en) System and method for inputting text into electronic devices
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
EP2733582A1 (en) Character input method, device and system
CN111611356A (zh) 信息查找方法、装置、电子设备及可读存储介质
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN114266256A (zh) 一种领域新词的提取方法及系统
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN109614493B (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN116644339B (zh) 一种信息归类方法及系统
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
CN116089598B (zh) 一种基于特征相似度和用户需求度的绿色知识推荐方法
CN109727591B (zh) 一种语音搜索的方法及装置
CN113569004A (zh) 一种针对限制性自然语言用例建模的智能提示方法
CN115618092A (zh) 一种信息推荐方法和信息推荐系统
CN111125299A (zh) 一种基于用户行为分析的动态词库更新方法
Singh et al. Word and phrase prediction tool for English and Hindi language
CN112182159B (zh) 一种基于语义表示的个性化检索式对话方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant