CN116089598A - 一种基于特征相似度和用户需求度的绿色知识推荐方法 - Google Patents
一种基于特征相似度和用户需求度的绿色知识推荐方法 Download PDFInfo
- Publication number
- CN116089598A CN116089598A CN202310103329.XA CN202310103329A CN116089598A CN 116089598 A CN116089598 A CN 116089598A CN 202310103329 A CN202310103329 A CN 202310103329A CN 116089598 A CN116089598 A CN 116089598A
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- user
- knowledge
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract 1
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于特征相似度和用户需求度的绿色知识推荐方法,包括:1文本收集步骤:获取搜索文本集合;2语义分解步骤:构建标题词典对文本进行分解;3相似度计算步骤:对分解后的文本进行计算选取有效文本;4单词权重设置及单词提取步骤:在有效文本中提取所需的单词,为需求度计算做基础准备;5需求度计算步骤:获得待识别知识的TF,构建小标题需求函数,得到用户对某个大标题单词的需求和得到用户对每个小标题单词的需求,再计算与待识别只是之间的偏差;6将符合要求的知识推送给用户。本发明能通过模板化方式让用户快速找到所需要的内容,从而避免用户无意义的寻找,并能提高搜索效率,减少无用时间的损耗。
Description
技术领域
本发明涉及一种基于特征相似度和用户需求度的绿色知识推荐方法。
背景技术
在绿色知识库中,用户用传统的方法搜索想要的知识不准确,搜索时间太慢。因为用户在搜索过程中通常要求很广泛但并不准确,而在传统方法里应对用户的搜索是给出一个只够大的搜索结果,而不是去想办法确定在用户的广泛的知识中减少不确定性,而只给一个广泛的结果还要让用户去自己去慢慢的再去搜寻,减少哪些不要的知识,这样的搜索方法太过缓慢,而搜索结果又不够准确,从而无法满足用户的需求。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于特征相似度和用户需求度的绿色知识推荐方法,以期能通过模板化的方法让用户快速找到所需要的内容,从而避免用户无意义的寻找,并能提高搜索效率,减少无用时间的损耗。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于特征相似度和用户需求度的绿色知识推荐方法的特点在于,包括如下步骤:
步骤二、构建大标题和小标题词典,在语义分解的基础上对当前搜索文本e和历史搜索文本集合Eu进行语义分解;
步骤2.2、根据词典X、Y、C,对e和en1,u分别进行分解,得到分解后的当前搜索文本e的文本集合向量和第n1条历史搜索文本en1,u的文本集合向量 表示当前搜索文本e中的第ie个单词,表示第n1条历史搜索文本en1,u中的第i个单词,Ie表示当前搜索文本e的单词数,表示第n1条历史搜索文本en1,u的单词数;
式(1)中,δ1表示第一权重值,δ2表示第二权重值,且0<δ2<δ1<1;
步骤2.6、按照步骤2.5的过程得到第n1条文本集合向量与文本集合we中所有单词的相似度,并从中选择相似度最高的t个单词作为文本集合we的第n1条候选词集;从而得到文本集合we与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集;并由所有候选词集构成文本集合we的有效文本集合其中,表示第ie个单词的第p个候选词,P表示候选词总数;
步骤3.1、对we中属于词典X的单词进行挑选:
步骤四、根据用户满意度找到对应知识:
式(4)中,k表示用户的满意程度,k∈(0,100%)
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述绿色知识推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述绿色知识推荐方法的步骤。
与现有技术相比,本发明的有益效果在于:
1.本发明首先对收集的文本分词和设置权重,提高了相似度计算中得到有用,然后针对用户对大的类型和小的类型需求的从属关系将文本分成两部分,使得用户的想法更加的具体和细致,在需求度模型中可以让用户对不同类型的需求结合起来使得搜索的结果跟符合用户的需求,然后在根据接受到的知识,根据词典和集合后得到的词频,与需求函数进行比较从而找出最符合用户需求的知识。
2.本发明使用相似度模型快速得到可用文本,使用需求度模型可以让用户对不同类型的需求结合起来使得搜索的结果跟符合用户的需求,将用户的需求和以往搜索的结果和结合使得推送的结果准确性大大提高。
附图说明
图1为本发明总体流程图。
具体实施方式
本实施例中,如图1所示,一种基于特征相似度和用户需求度的绿色知识推荐方法包括如下步骤:
步骤二、构建大标题和小标题词典,在语义分解的基础上对当前搜索文本e和历史搜索文本集合Eu进行语义分解;
构建绿色知识库的小标题词典其中,yn3表示所述绿色知识库的第n3条小标题,N3表示小标题词典Y的数量;小标题即是大型汽车、客车、卡车这样的在大类型下的小类型,或是底盘、发动机、外壳这样的部件,或是轻量化、节能、耐磨这样的效果。
步骤2.2、根据词典X、Y、C,对e和en1,u分别进行分解,得到分解后的当前搜索文本e的文本集合向量和第n1条历史搜索文本en1,u的文本集合向量 表示当前搜索文本e中的第ie个单词,表示第n1条历史搜索文本en1,u中的第i个单词,Ie表示当前搜索文本e的单词数,表示第n1条历史搜索文本en1,u的单词数;这里是利用结巴分词系统来进行语义分解,使用结巴分词所用到的词典为X、Y、C;分词内容所属的词典用来进行代替。
式(1)中,δ1表示第一权重值,δ2表示第二权重值,且0<δ2<δ1<1;对单词设置权重,属于大标题、小标题和日常用语的单词权重不一样。
在计算过程中将文本集合向量转化为数值向量。
从而得到文本集合we与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集;
步骤3.1、对we中属于词典X的单词进行挑选:
步骤3.3、将第一单词集合和第二单词集合合并为大主题词集合其中,表示第n5个大主题词,1≤n5≤N5;N5表示大主题词的数量;相关大主题词数量的设置是为了给对某个大标题单词的需求,与知识对大标题的接近程度做文本内容上的准备。
步骤3.6、对we和wvalid经过计算后,整合所得到的单词用于构建小主题词集合其中,表示V中第n6个小主题词,1≤n6≤N6;N6表示小主题词的数量;相关小主题词数量的设置是为了给对某个小标题单词的需求,与知识对小标题的接近程度做文本内容上的准备。
步骤四、根据用户满意度找到对应知识:
步骤4.1、获取待识别的知识a,并在X词典和主题词集合V下进行的语义分解后,计算知识a中的单词频率,记为其中,表示第n2条大标题在知识a中的频率, 表示第n6个小主题词在知识a中的频率, 这里用词频在知识a中显示出各个特征所占的比重,也是各个特征在知识a中的影响力。
式(4)中,k表示用户的满意程度,k∈(0,100%);
因为在用户总体的文本来看有一些效果是搜索的更多的,这样明显是用户更想要的。
步骤4.4、获取用户对大标题词典X中所需求的某条大标题xuser,并计算用户所需求的大标题xuser与知识a的接近程度其中,表示大标题xuser在知识a中的频率;因为用户对例如汽车或飞机的需求一般是只有一个,所以设置大标题需求为1。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述绿色知识推荐方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述绿色知识推荐方法的步骤。
Claims (3)
1.一种基于特征相似度和用户需求度的绿色知识推荐方法,其特征在于,包括如下步骤:
步骤二、构建大标题和小标题词典,在语义分解的基础上对当前搜索文本e和历史搜索文本集合Eu进行语义分解;
步骤2.2、根据词典X、Y、C,对e和en1,u分别进行分解,得到分解后的当前搜索文本e的文本集合向量和第n1条历史搜索文本en1,u的文本集合向量 表示当前搜索文本e中的第ie个单词,表示第n1条历史搜索文本en1,u中的第i个单词,Ie表示当前搜索文本e的单词数,表示第n1条历史搜索文本en1,u的单词数;
式(1)中,δ1表示第一权重值,δ2表示第二权重值,且0<δ2<δ1<1;
步骤2.6、按照步骤2.5的过程得到第n1条文本集合向量与文本集合we中所有单词的相似度,并从中选择相似度最高的t个单词作为文本集合we的第n1条候选词集;从而得到文本集合we与历史搜索文本集合中其他分解后的文本集合向量所选出的候选词集;并由所有候选词集构成文本集合we的有效文本集合其中,表示第ie个单词的第p个候选词,P表示候选词总数;
步骤3.1、对we中属于词典X的单词进行挑选:
步骤四、根据用户满意度找到对应知识:
式(4)中,k表示用户的满意程度,k∈(0,100%)
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述绿色知识推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,
所述计算机程序被处理器运行时执行权利要求1所述绿色知识推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310103329.XA CN116089598B (zh) | 2023-02-13 | 2023-02-13 | 一种基于特征相似度和用户需求度的绿色知识推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310103329.XA CN116089598B (zh) | 2023-02-13 | 2023-02-13 | 一种基于特征相似度和用户需求度的绿色知识推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116089598A true CN116089598A (zh) | 2023-05-09 |
CN116089598B CN116089598B (zh) | 2024-03-19 |
Family
ID=86199041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310103329.XA Active CN116089598B (zh) | 2023-02-13 | 2023-02-13 | 一种基于特征相似度和用户需求度的绿色知识推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089598B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831786A (zh) * | 2020-07-24 | 2020-10-27 | 刘秀萍 | 完善主题词的全文数据库精准高效检索方法 |
CN112434151A (zh) * | 2020-11-26 | 2021-03-02 | 重庆知识产权大数据研究院有限公司 | 一种专利推荐方法、装置、计算机设备及存储介质 |
CN112613612A (zh) * | 2020-12-29 | 2021-04-06 | 合肥工业大学 | 一种基于专利库的绿色设计知识库的构建方法及其装置 |
WO2021103859A1 (zh) * | 2019-11-26 | 2021-06-03 | 中兴通讯股份有限公司 | 一种信息搜索方法、装置、设备及存储介质 |
CN113282729A (zh) * | 2021-06-07 | 2021-08-20 | 北京金山数字娱乐科技有限公司 | 基于知识图谱的问答方法及装置 |
CN114281945A (zh) * | 2021-12-28 | 2022-04-05 | 合肥工业大学 | 基于绿色产品案例库的减碳策略知识库的构建方法 |
CN114706950A (zh) * | 2022-03-30 | 2022-07-05 | 易薪路网络科技(上海)有限公司 | 一种长文本数据检索方法、装置、设备、存储介质 |
CN115438166A (zh) * | 2022-09-29 | 2022-12-06 | 招商局金融科技有限公司 | 基于关键词和语义的搜索方法、装置、设备及存储介质 |
-
2023
- 2023-02-13 CN CN202310103329.XA patent/CN116089598B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021103859A1 (zh) * | 2019-11-26 | 2021-06-03 | 中兴通讯股份有限公司 | 一种信息搜索方法、装置、设备及存储介质 |
CN111831786A (zh) * | 2020-07-24 | 2020-10-27 | 刘秀萍 | 完善主题词的全文数据库精准高效检索方法 |
CN112434151A (zh) * | 2020-11-26 | 2021-03-02 | 重庆知识产权大数据研究院有限公司 | 一种专利推荐方法、装置、计算机设备及存储介质 |
CN112613612A (zh) * | 2020-12-29 | 2021-04-06 | 合肥工业大学 | 一种基于专利库的绿色设计知识库的构建方法及其装置 |
CN113282729A (zh) * | 2021-06-07 | 2021-08-20 | 北京金山数字娱乐科技有限公司 | 基于知识图谱的问答方法及装置 |
CN114281945A (zh) * | 2021-12-28 | 2022-04-05 | 合肥工业大学 | 基于绿色产品案例库的减碳策略知识库的构建方法 |
CN114706950A (zh) * | 2022-03-30 | 2022-07-05 | 易薪路网络科技(上海)有限公司 | 一种长文本数据检索方法、装置、设备、存储介质 |
CN115438166A (zh) * | 2022-09-29 | 2022-12-06 | 招商局金融科技有限公司 | 基于关键词和语义的搜索方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
柯庆镝等: "产品性能关联下绿色设计知识表达及获取方法", 《中国机械工程》, vol. 33, no. 22, 25 November 2022 (2022-11-25), pages 2717 - 2726 * |
Also Published As
Publication number | Publication date |
---|---|
CN116089598B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
EP2486470B1 (en) | System and method for inputting text into electronic devices | |
Froud et al. | Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering | |
EP2733582A1 (en) | Character input method, device and system | |
CN111611356A (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN116644339B (zh) | 一种信息归类方法及系统 | |
Wang et al. | Improving handwritten Chinese text recognition by unsupervised language model adaptation | |
CN116089598B (zh) | 一种基于特征相似度和用户需求度的绿色知识推荐方法 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN113569004A (zh) | 一种针对限制性自然语言用例建模的智能提示方法 | |
CN115618092A (zh) | 一种信息推荐方法和信息推荐系统 | |
CN111125299A (zh) | 一种基于用户行为分析的动态词库更新方法 | |
Singh et al. | Word and phrase prediction tool for English and Hindi language | |
CN112182159B (zh) | 一种基于语义表示的个性化检索式对话方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |