CN117195890A - 一种基于机器学习的文本推荐方法 - Google Patents
一种基于机器学习的文本推荐方法 Download PDFInfo
- Publication number
- CN117195890A CN117195890A CN202311471858.1A CN202311471858A CN117195890A CN 117195890 A CN117195890 A CN 117195890A CN 202311471858 A CN202311471858 A CN 202311471858A CN 117195890 A CN117195890 A CN 117195890A
- Authority
- CN
- China
- Prior art keywords
- text
- layer
- keyword
- recommended
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 105
- 230000004913 activation Effects 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 44
- 230000003213 activating effect Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的文本推荐方法,属于语义提取技术领域,本发明中对用户信息字符串中各个关键词进行了排列组合,从而得到不同的信息序列,本发明根据每个信息序列包含的关键词数量以及包含的关键词的权重,从而衡量出一个信息序列的契合度评分。本发明中还通过机器学习模型识别各信息序列的语义特征,实现对各信息序列进一步的语义提取,计算出每个信息序列的语义特征与待推荐文本的匹配度,再综合信息序列与用户信息字符串的契合度评分,计算出待推荐文本的推荐分值,从而实现层次化的文本推荐,增加了文本推荐的范围,并将所有有关的文本均进行推荐,提高了对复杂文本信息进行文本推荐的精度。
Description
技术领域
本发明涉及语义提取技术领域,具体涉及一种基于机器学习的文本推荐方法。
背景技术
随着大数据时代的到来,各类资料爆炸式增长,从海量的资料中筛选出用户所需内容需要耗费大量的时间。现有为了提高筛选用户所需内容的效率,提供了文本推荐方法。现有文本推荐方法为:对用户输入的文本信息进行分词处理,提取出关键词,根据各个关键词在各个文档资料中出现的频率,从而得到各个文档资料的优先级,进而按优先级进行文本推荐。现有文本推荐方法对于简单的文本信息能达到较精确的推荐,但是对于包含几种语义的复杂文本信息,其无法准确获取其中用户关注的内容,造成文本推荐有误差。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于机器学习的文本推荐方法解决了现有文本推荐方法对复杂文本信息进行文本推荐,存在推荐精度较低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于机器学习的文本推荐方法,包括以下步骤:
S1、提取用户信息字符串中的各个关键词向量;
S2、对各个关键词向量进行排列组合,得到不同的信息序列,并依据各信息序列中的关键词向量数量及各关键词向量在用户信息字符串中的权重,进行契合度评分;
S3、通过机器学习模型识别各信息序列的语义特征;
S4、计算每个信息序列的语义特征与待推荐文本的匹配度;
S5、根据契合度评分和待推荐文本的匹配度,计算每个信息序列与待推荐文本的推荐分值,对用户进行层次化文本推荐。
本发明的有益效果为:本发明中对用户信息字符串中各个关键词进行了排列组合,从而得到不同的信息序列,相当于是从一个用户信息字符串中获取出各种相关的信息,扩宽推荐范围,本发明根据每个信息序列包含的关键词数量以及包含的关键词的权重,从而衡量出一个信息序列的契合度评分。本发明中还通过机器学习模型识别各信息序列的语义特征,实现对各信息序列进一步的语义提取,计算出每个信息序列的语义特征与待推荐文本的匹配度,再综合信息序列与用户信息字符串的契合度评分,计算出待推荐文本的推荐分值,从而实现层次化的文本推荐,增加了文本推荐的范围,并将所有有关的文本均进行推荐,提高对复杂文本信息进行文本推荐的精度。
进一步地,所述S2包括以下分步骤:
S21、对各个关键词向量进行排列组合,得到不同的信息序列;
S22、统计每个信息序列中关键词向量数量;
S23、根据每个信息序列中关键词向量在用户信息字符串的权重,得到信息序列重要度;
S24、根据每个信息序列中关键词向量数量和重要度,计算每个信息序列的契合度评分。
上述进一步地方案的有益效果为:对各个关键词向量进行排列组合,得到不同的信息序列,从而获取所有与用户信息字符串相关的内容,根据关键词在用户信息字符串的权重,评估出每个信息序列的重要度,从而根据每个信息序列中关键词向量数量和重要度,计算出每个信息序列与用户信息字符串的契合度评分。
进一步地,所述S24中计算每个信息序列的契合度评分的公式为:
,
其中,score k 为第k个信息序列的契合度评分,nu k 为第k个信息序列中关键词向量的数量,in k 为第k个信息序列的重要度,k为信息序列的编号;
所述第k个信息序列的重要度in k 的计算公式为:
,
其中,L k,l 为第k个信息序列中第l个关键词向量的长度,K k,l 为第k个信息序列中第l个关键词向量在用户信息字符串中出现的次数,L u 为用户信息字符串的长度,ω k,l 为第k个信息序列中第l个关键词向量在用户信息字符串的权重,nu k 为第k个信息序列中关键词向量的数量,l为关键词向量的编号。
上述进一步地方案的有益效果为:本发明中每个信息序列的契合度评分与信息序列中关键词向量数量和信息序列的重要度有关,在关键词向量数量越多和信息序列的重要度越大时,信息序列与用户信息字符串的契合度评分越高,在信息序列中关键词向量的长度越长,出现在用户信息字符串中的数量越多,权重越大,则信息序列的重要度越大。
进一步地,所述S3中机器学习模型包括:关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层;
一个所述关键词处理单元的输入端用于输入信息序列中的关键词向量,关键词处理单元的数量大于等于2;所述特征汇集单元的输入端与各关键词处理单元的输出端连接,其输出端与双通道特征提取单元的输入端连接;所述全连接层的输入端与双通道特征提取单元的输出端连接,其输出端作为机器学习模型的输出端。
上述进一步地方案的有益效果为:本发明中采用每个关键词处理单元处理信息序列中每个关键词向量,实现对信息序列中关键词向量并行处理,更好的考虑一段信息中前后语义关系,提高语义提取的准确度,再在特征汇集单元实现各个关键词特征的汇集,并通过双通道特征提取单元进一步的提取特征,实现对语义特征的提取。
进一步地,所述关键词处理单元包括:第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器;
所述第一ReLU激活层的输入端分别与第二ReLU激活层的输入端和归一化层的输入端连接;所述第一tanh激活层的输入端与第一ReLU激活层的输出端连接,其输出端与加法器的第一输入端连接;所述第二tanh激活层的输入端与第二ReLU激活层的输出端连接,其输出端与加法器的第二输入端连接;所述乘法器的第一输入端与加法器的输出端连接,其第二输入端与归一化层的输出端连接;
所述双通道特征提取单元包括:Avgpool层、Maxpool层和LSTM层;
所述Avgpool层的输入端与Maxpool层的输入端连接,并作为双通道特征提取单元的输入端;所述LSTM层的输入端分别与Avgpool层的输出端和Maxpool层的输出端连接,其输出端并作为双通道特征提取单元的输出端。
上述进一步地方案的有益效果为:本发明中在关键词处理单元设置了两个ReLU激活层分别对输入的关键词向量进行处理,提高机器学习模型拟合非线性关系的能力,两个tanh激活层用于将ReLU激活层输出的量映射到-1和1之间,使得机器学习模型更稳定,同时第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层和归一化层构成了三个输入通道,实现对输入的关键词向量进行三路不同的处理,得到不同的特征,实现特征的充分提取。
在双通道特征提取单元中LSTM层的输入有两个:Avgpool层的输出和Maxpool层的输出,在LSTM层中综合了显著特征和全局特征。
进一步地,所述第一ReLU激活层的表达式为:
,
其中,R 1,t 为第一ReLU激活层第t时刻的输出,ReLU为非线性激活函数,x t 为第t时刻输入的关键词向量,w R1为第一ReLU激活层中第t时刻输入的关键词向量x t 的权重,r a,t-1为乘法器第t-1时刻的输出,w Rr1为第一ReLU激活层中乘法器第t-1时刻的输出r a,t-1的权重,b R1为第一ReLU激活层中的偏置,t为时刻的编号;
所述第二ReLU激活层的表达式为:
,
其中,R 2,t 为第二ReLU激活层第t时刻的输出,w R2为第二ReLU激活层中第t时刻输入的关键词向量x t 的权重,w Rr2为第二ReLU激活层中乘法器第t-1时刻的输出r a,t-1的权重,b R2为第二ReLU激活层中的偏置。
上述进一步地方案的有益效果为:在第一ReLU激活层和第二ReLU激活层中,考虑了上一时刻乘法器的输出情况,结合了历史语义信息,能更好预测信息序列的语义特征。
进一步地,所述特征汇集单元的表达式为:
,
其中,V t 为特征汇集单元第t时刻的输出,r a,t,1为第1个关键词处理单元第t时刻的输出,r a,t,j 为第j个关键词处理单元第t时刻的输出,r a,t,M 为第M个关键词处理单元第t时刻的输出,M为关键词处理单元的数量,j为关键词处理单元的编号,w r,1为特征汇集单元中r a,t,1的权重,w r,j 为特征汇集单元中r a,t,j 的权重,w r,M 为特征汇集单元中r a,t,M 的权重,为哈达玛积,t为时刻的编号。
进一步地,所述S4包括以下分步骤:
S41、将待推荐文本按标点符号进行分句处理,得到多个短句文本;
S42、根据每个信息序列的语义特征与每个短句文本的余弦相似度,得到信息序列的语义特征与待推荐文本相似度;
S43、将每个信息序列的语义特征进行分词处理,得到每个词向量;
S44、统计每个词向量在待推荐文本中出现的次数;
S45、根据词向量在待推荐文本中出现的次数,以及信息序列的语义特征与待推荐文本相似度,得到信息序列的语义特征与待推荐文本的匹配度。
上述进一步地方案的有益效果为:本发明中将待推荐文本按标点符号进行分句处理,从而得到多个短句文本,便于计算与每个信息序列的语义特征的余弦相似度,综合各个短句文本的余弦相似度,得到信息序列的语义特征与待推荐文本相似度,将每个信息序列的语义特征进行分词处理,统计每个词向量在待推荐文本中出现的次数,根据词向量在待推荐文本中出现的次数,以及信息序列的语义特征与待推荐文本相似度,得到信息序列的语义特征与待推荐文本的匹配度,本发明中通过信息序列的语义特征与待推荐文本相似度,评估出该信息序列的语义特征与待推荐文本的行文排布是否相似,通过词向量的出现次数评估待推荐文本中存在相关内容的量的大小。
进一步地,所述S42中信息序列的语义特征与待推荐文本相似度的计算公式为:
,
其中,S k 为第k个信息序列的语义特征与待推荐文本相似度,S k,c 为第k个信息序列的语义特征与第c个短句文本的余弦相似度,X为短句文本的数量;
所述S45中信息序列的语义特征与待推荐文本的匹配度的计算公式为:
,
其中,P k 为第k个信息序列的语义特征与待推荐文本的匹配度,O k,m 为第k个信息序列的语义特征的第m个词向量在待推荐文本中出现的次数,w k,m 为第k个信息序列的语义特征中第m个词向量的权重,T为一个信息序列对应的语义特征中词向量数量,m为词向量的编号,k为信息序列的编号。
上述进一步地方案的有益效果为:本发明综合信息序列的语义特征中词向量在待推荐文本中出现的次数,词向量的权重,以及语义特征与待推荐文本相似度,评判出信息序列的语义特征与待推荐文本的匹配度。
进一步地,所述S5中计算信息序列与待推荐文本的推荐分值的公式为:
,
其中,y k 为第k个信息序列与待推荐文本的推荐分值,P k 为第k个信息序列的语义特征与待推荐文本的匹配度,score k 为第k个信息序列的契合度评分,ln为对数函数,e为自然常数。
上述进一步地方案的有益效果为:本发明中在推荐分值越高时,该待推荐文本与信息序列的语义特征匹配度越高,信息序列与用户信息字符串的契合度越高,实现从信息序列本身是否还原用户信息字符串的语义,以及推荐文本中存在语义特征内容的多少的两个角度出发,推荐更精确的文本。
附图说明
图1为一种基于机器学习的文本推荐方法的流程图;
图2为机器学习模型的结构示意图;
图3为关键词处理单元的结构示意图;
图4为双通道特征提取单元的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于机器学习的文本推荐方法,包括以下步骤:
S1、提取用户信息字符串中的各个关键词向量;
S2、对各个关键词向量进行排列组合,得到不同的信息序列,并依据各信息序列中的关键词向量数量及各关键词向量在用户信息字符串中的权重,进行契合度评分;
S3、通过机器学习模型识别各信息序列的语义特征;
S4、计算每个信息序列的语义特征与待推荐文本的匹配度;
S5、根据契合度评分和待推荐文本的匹配度,计算每个信息序列与待推荐文本的推荐分值,对用户进行层次化文本推荐。
本发明中对用户信息字符串中各个关键词进行了排列组合,从而得到不同的信息序列,相当于是从一个用户信息字符串中获取出各种相关的信息,扩宽推荐范围,本发明根据每个信息序列包含的关键词数量以及包含的关键词的权重,从而衡量出一个信息序列的契合度评分。本发明中还通过机器学习模型识别各信息序列的语义特征,实现对各信息序列进一步的语义提取,计算出每个信息序列的语义特征与待推荐文本的匹配度,再综合信息序列与用户信息字符串的契合度评分,计算出待推荐文本的推荐分值,从而实现层次化的文本推荐,增加了文本推荐的范围,并将所有有关的文本均进行推荐,提高对复杂文本信息进行文本推荐的精度。
S2包括以下分步骤:
S21、对各个关键词向量进行排列组合,得到不同的信息序列;
S22、统计每个信息序列中关键词向量数量;
S23、根据每个信息序列中关键词向量在用户信息字符串的权重,得到信息序列重要度;
S24、根据每个信息序列中关键词向量数量和重要度,计算每个信息序列的契合度评分。
本发明对各个关键词向量进行排列组合,得到不同的信息序列,从而获取所有与用户信息字符串相关的内容,根据关键词在用户信息字符串的权重,评估出每个信息序列的重要度,从而根据每个信息序列中关键词向量数量和重要度,计算出每个信息序列与用户信息字符串的契合度评分。
S24中计算每个信息序列的契合度评分的公式为:
,
其中,score k 为第k个信息序列的契合度评分,nu k 为第k个信息序列中关键词向量的数量,in k 为第k个信息序列的重要度,k为信息序列的编号;
第k个信息序列的重要度in k 的计算公式为:
,
其中,L k,l 为第k个信息序列中第l个关键词向量的长度,K k,l 为第k个信息序列中第l个关键词向量在用户信息字符串中出现的次数,L u 为用户信息字符串的长度,ω k,l 为第k个信息序列中第l个关键词向量在用户信息字符串的权重,nu k 为第k个信息序列中关键词向量的数量,l为关键词向量的编号。
本发明中每个信息序列的契合度评分与信息序列中关键词向量数量和信息序列的重要度有关,在关键词向量数量越多和信息序列的重要度越大时,信息序列与用户信息字符串的契合度评分越高,在信息序列中关键词向量的长度越长,出现在用户信息字符串中的数量越多,权重越大,则信息序列的重要度越大。
如图2所示,S3中机器学习模型包括:关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层;
一个关键词处理单元的输入端用于输入信息序列中的关键词向量,关键词处理单元的数量大于等于2;特征汇集单元的输入端与各关键词处理单元的输出端连接,其输出端与双通道特征提取单元的输入端连接;全连接层的输入端与双通道特征提取单元的输出端连接,其输出端作为机器学习模型的输出端。
本发明中采用每个关键词处理单元处理信息序列中每个关键词向量,实现对信息序列中关键词向量并行处理,更好的考虑一段信息中前后语义关系,提高语义提取的准确度,再在特征汇集单元实现各个关键词特征的汇集,并通过双通道特征提取单元进一步的提取特征,实现对语义特征的提取。
如图3所示,关键词处理单元包括:第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器;
第一ReLU激活层的输入端分别与第二ReLU激活层的输入端和归一化层的输入端连接;第一tanh激活层的输入端与第一ReLU激活层的输出端连接,其输出端与加法器的第一输入端连接;第二tanh激活层的输入端与第二ReLU激活层的输出端连接,其输出端与加法器的第二输入端连接;乘法器的第一输入端与加法器的输出端连接,其第二输入端与归一化层的输出端连接。
如图4所示,双通道特征提取单元包括:Avgpool层、Maxpool层和LSTM层;
Avgpool层的输入端与Maxpool层的输入端连接,并作为双通道特征提取单元的输入端;LSTM层的输入端分别与Avgpool层的输出端和Maxpool层的输出端连接,其输出端并作为双通道特征提取单元的输出端。
本发明中在关键词处理单元设置了两个ReLU激活层分别对输入的关键词向量进行处理,提高机器学习模型拟合非线性关系的能力,两个tanh激活层用于将ReLU激活层输出的量映射到-1和1之间,使得机器学习模型更稳定,同时第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层和归一化层构成了三个输入通道,实现对输入的关键词向量进行三路不同的处理,得到不同的特征,实现特征的充分提取。
在双通道特征提取单元中LSTM层的输入有两个:Avgpool层的输出和Maxpool层的输出,在LSTM层中综合了显著特征和全局特征。
第一ReLU激活层的表达式为:
,
其中,R 1,t 为第一ReLU激活层第t时刻的输出,ReLU为非线性激活函数,x t 为第t时刻输入的关键词向量,w R1为第一ReLU激活层中第t时刻输入的关键词向量x t 的权重,r a,t-1为乘法器第t-1时刻的输出,w Rr1为第一ReLU激活层中乘法器第t-1时刻的输出r a,t-1的权重,b R1为第一ReLU激活层中的偏置,t为时刻的编号;
第二ReLU激活层的表达式为:
,
其中,R 2,t 为第二ReLU激活层第t时刻的输出,w R2为第二ReLU激活层中第t时刻输入的关键词向量x t 的权重,w Rr2为第二ReLU激活层中乘法器第t-1时刻的输出r a,t-1的权重,b R2为第二ReLU激活层中的偏置。
在第一ReLU激活层和第二ReLU激活层中,考虑了上一时刻乘法器的输出情况,结合了历史语义信息,能更好预测信息序列的语义特征。
第一tanh激活层的表达式为:
,
其中,G 1,t 为第一tanh激活层第t时刻的输出,tanh为双曲正切激活函数,w ta1为第一tanh激活层中第一ReLU激活层第t时刻的输出R 1,t 的权重,b ta1为第一tanh激活层的偏置;
第二tanh激活层的表达式为:
,
其中,G 2,t 为第二tanh激活层第t时刻的输出,w ta2为第二tanh激活层中第二ReLU激活层第t时刻的输出R 2,t 的权重,b ta2为第二tanh激活层的偏置。
归一化层的表达式为:
,
其中,x no,t,i 为归一化层第t时刻的输出第i个归一化值,x t,i 为第t时刻输入的关键词向量x t 中第i个元素,N为第t时刻输入的关键词向量x t 中元素的数量,i为元素的编号。
特征汇集单元的表达式为:
,
其中,V t 为特征汇集单元第t时刻的输出,r a,t,1为第1个关键词处理单元第t时刻的输出,r a,t,j 为第j个关键词处理单元第t时刻的输出,r a,t,M 为第M个关键词处理单元第t时刻的输出,M为关键词处理单元的数量,j为关键词处理单元的编号,w r,1为特征汇集单元中r a,t,1的权重,w r,j 为特征汇集单元中r a,t,j 的权重,w r,M 为特征汇集单元中r a,t,M 的权重,为哈达玛积,t为时刻的编号。
S4包括以下分步骤:
S41、将待推荐文本按标点符号进行分句处理,得到多个短句文本;
S42、根据每个信息序列的语义特征与每个短句文本的余弦相似度,得到信息序列的语义特征与待推荐文本相似度;
S43、将每个信息序列的语义特征进行分词处理,得到每个词向量;
S44、统计每个词向量在待推荐文本中出现的次数;
S45、根据词向量在待推荐文本中出现的次数,以及信息序列的语义特征与待推荐文本相似度,得到信息序列的语义特征与待推荐文本的匹配度。
本发明中将待推荐文本按标点符号进行分句处理,从而得到多个短句文本,便于计算与每个信息序列的语义特征的余弦相似度,综合各个短句文本的余弦相似度,得到信息序列的语义特征与待推荐文本相似度,将每个信息序列的语义特征进行分词处理,统计每个词向量在待推荐文本中出现的次数,根据词向量在待推荐文本中出现的次数,以及信息序列的语义特征与待推荐文本相似度,得到信息序列的语义特征与待推荐文本的匹配度,本发明中通过信息序列的语义特征与待推荐文本相似度,评估出该信息序列的语义特征与待推荐文本的行文排布是否相似,通过词向量的出现次数评估待推荐文本中存在相关内容的量的大小。
S42中信息序列的语义特征与待推荐文本相似度的计算公式为:
,
其中,S k 为第k个信息序列的语义特征与待推荐文本相似度,S k,c 为第k个信息序列的语义特征与第c个短句文本的余弦相似度,X为短句文本的数量;
S45中信息序列的语义特征与待推荐文本的匹配度的计算公式为:
,
其中,P k 为第k个信息序列的语义特征与待推荐文本的匹配度,O k,m 为第k个信息序列的语义特征的第m个词向量在待推荐文本中出现的次数,w k,m 为第k个信息序列的语义特征中第m个词向量的权重,T为一个信息序列对应的语义特征中词向量数量,m为词向量的编号,k为信息序列的编号。
本发明综合信息序列的语义特征中词向量在待推荐文本中出现的次数,词向量的权重,以及语义特征与待推荐文本相似度,评判出信息序列的语义特征与待推荐文本的匹配度。
S5中计算信息序列与待推荐文本的推荐分值的公式为:
,
其中,y k 为第k个信息序列与待推荐文本的推荐分值,P k 为第k个信息序列的语义特征与待推荐文本的匹配度,score k 为第k个信息序列的契合度评分,ln为对数函数,e为自然常数。
本发明中在推荐分值越高时,该待推荐文本与信息序列的语义特征匹配度越高,信息序列与用户信息字符串的契合度越高,实现从信息序列本身是否还原用户信息字符串的语义,以及推荐文本中存在语义特征内容的多少的两个角度出发,推荐更精确的文本。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的文本推荐方法,其特征在于,包括以下步骤:
S1、提取用户信息字符串中的各个关键词向量;
S2、对各个关键词向量进行排列组合,得到不同的信息序列,并依据各信息序列中的关键词向量数量及各关键词向量在用户信息字符串中的权重,进行契合度评分;
S3、通过机器学习模型识别各信息序列的语义特征;
S4、计算每个信息序列的语义特征与待推荐文本的匹配度;
S5、根据契合度评分和待推荐文本的匹配度,计算每个信息序列与待推荐文本的推荐分值,对用户进行层次化文本推荐。
2.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S2包括以下分步骤:
S21、对各个关键词向量进行排列组合,得到不同的信息序列;
S22、统计每个信息序列中关键词向量数量;
S23、根据每个信息序列中关键词向量在用户信息字符串的权重,得到信息序列重要度;
S24、根据每个信息序列中关键词向量数量和重要度,计算每个信息序列的契合度评分。
3.根据权利要求2所述的基于机器学习的文本推荐方法,其特征在于,所述S24中计算每个信息序列的契合度评分的公式为:
,
其中,score k 为第k个信息序列的契合度评分,nu k 为第k个信息序列中关键词向量数量,in k 为第k个信息序列的重要度,k为信息序列的编号;
所述第k个信息序列的重要度in k 的计算公式为:
,
其中,L k,l 为第k个信息序列中第l个关键词向量的长度,K k,l 为第k个信息序列中第l个关键词向量在用户信息字符串中出现的次数,L u 为用户信息字符串的长度,ω k,l 为第k个信息序列中第l个关键词向量在用户信息字符串的权重,nu k 为第k个信息序列中关键词向量的数量,l为关键词向量的编号。
4.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S3中机器学习模型包括:关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层;
一个所述关键词处理单元的输入端用于输入信息序列中的关键词向量,关键词处理单元的数量大于等于2;所述特征汇集单元的输入端与各关键词处理单元的输出端连接,其输出端与双通道特征提取单元的输入端连接;所述全连接层的输入端与双通道特征提取单元的输出端连接,其输出端作为机器学习模型的输出端。
5.根据权利要求4所述的基于机器学习的文本推荐方法,其特征在于,所述关键词处理单元包括:第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器;
所述第一ReLU激活层的输入端分别与第二ReLU激活层的输入端和归一化层的输入端连接;所述第一tanh激活层的输入端与第一ReLU激活层的输出端连接,其输出端与加法器的第一输入端连接;所述第二tanh激活层的输入端与第二ReLU激活层的输出端连接,其输出端与加法器的第二输入端连接;所述乘法器的第一输入端与加法器的输出端连接,其第二输入端与归一化层的输出端连接;
所述双通道特征提取单元包括:Avgpool层、Maxpool层和LSTM层;
所述Avgpool层的输入端与Maxpool层的输入端连接,并作为双通道特征提取单元的输入端;所述LSTM层的输入端分别与Avgpool层的输出端和Maxpool层的输出端连接,其输出端并作为双通道特征提取单元的输出端。
6.根据权利要求5述的基于机器学习的文本推荐方法,其特征在于,所述第一ReLU激活层的表达式为:
,
其中,R 1,t 为第一ReLU激活层第t时刻的输出,ReLU为非线性激活函数,x t 为第t时刻输入的关键词向量,w R1为第一ReLU激活层中第t时刻输入的关键词向量x t 的权重,r a,t-1为乘法器第t-1时刻的输出,w Rr1为第一ReLU激活层中乘法器第t-1时刻的输出r a,t-1的权重,b R1为第一ReLU激活层中的偏置,t为时刻的编号;
所述第二ReLU激活层的表达式为:
,
其中,R 2,t 为第二ReLU激活层第t时刻的输出,w R2为第二ReLU激活层中第t时刻输入的关键词向量x t 的权重,w Rr2为第二ReLU激活层中乘法器第t-1时刻的输出r a,t-1的权重,b R2为第二ReLU激活层中的偏置。
7.根据权利要求4所述的基于机器学习的文本推荐方法,其特征在于,所述特征汇集单元的表达式为:
,
其中,V t 为特征汇集单元第t时刻的输出,r a,t,1为第1个关键词处理单元第t时刻的输出,r a,t,j 为第j个关键词处理单元第t时刻的输出,r a,t,M 为第M个关键词处理单元第t时刻的输出,M为关键词处理单元的数量,j为关键词处理单元的编号,w r,1为特征汇集单元中r a,t,1的权重,w r,j 为特征汇集单元中r a,t,j 的权重,w r,M 为特征汇集单元中r a,t,M 的权重,为哈达玛积,t为时刻的编号。
8.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S4包括以下分步骤:
S41、将待推荐文本按标点符号进行分句处理,得到多个短句文本;
S42、根据每个信息序列的语义特征与每个短句文本的余弦相似度,得到信息序列的语义特征与待推荐文本相似度;
S43、将每个信息序列的语义特征进行分词处理,得到每个词向量;
S44、统计每个词向量在待推荐文本中出现的次数;
S45、根据词向量在待推荐文本中出现的次数,以及信息序列的语义特征与待推荐文本相似度,得到信息序列的语义特征与待推荐文本的匹配度。
9.根据权利要求8所述的基于机器学习的文本推荐方法,其特征在于,所述S42中信息序列的语义特征与待推荐文本相似度的计算公式为:
,
其中,S k 为第k个信息序列的语义特征与待推荐文本相似度,S k,c 为第k个信息序列的语义特征与第c个短句文本的余弦相似度,X为短句文本的数量;
所述S45中信息序列的语义特征与待推荐文本的匹配度的计算公式为:
,
其中,P k 为第k个信息序列的语义特征与待推荐文本的匹配度,O k,m 为第k个信息序列的语义特征的第m个词向量在待推荐文本中出现的次数,w k,m 为第k个信息序列的语义特征中第m个词向量的权重,T为一个信息序列对应的语义特征中词向量数量,m为词向量的编号,k为信息序列的编号。
10.根据权利要求1所述的基于机器学习的文本推荐方法,其特征在于,所述S5中计算信息序列与待推荐文本的推荐分值的公式为:
,
其中,y k 为第k个信息序列与待推荐文本的推荐分值,P k 为第k个信息序列的语义特征与待推荐文本的匹配度,score k 为第k个信息序列的契合度评分,ln为对数函数,e为自然常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311471858.1A CN117195890B (zh) | 2023-11-07 | 2023-11-07 | 一种基于机器学习的文本推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311471858.1A CN117195890B (zh) | 2023-11-07 | 2023-11-07 | 一种基于机器学习的文本推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117195890A true CN117195890A (zh) | 2023-12-08 |
CN117195890B CN117195890B (zh) | 2024-01-26 |
Family
ID=88998296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311471858.1A Active CN117195890B (zh) | 2023-11-07 | 2023-11-07 | 一种基于机器学习的文本推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117195890B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494726A (zh) * | 2023-12-29 | 2024-02-02 | 成都航空职业技术学院 | 一种情报关键词提取方法 |
CN118035432A (zh) * | 2024-04-12 | 2024-05-14 | 成都航空职业技术学院 | 一种基于语义识别的就业指导内容推荐方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002196928A (ja) * | 2000-12-26 | 2002-07-12 | Communication Research Laboratory | 同期的コミュニケーション支援システム及び同期的コミュニケーション支援プログラムを記録した記録媒体 |
CN107967352A (zh) * | 2017-12-15 | 2018-04-27 | 四川汉科计算机信息技术有限公司 | 信息知识智慧推荐方法 |
CN110866106A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本推荐方法及相关设备 |
CN111914157A (zh) * | 2019-05-07 | 2020-11-10 | 重庆好德译信息技术有限公司 | 一种基于用户偏好的旅游方案生成方法和系统 |
CN112131246A (zh) * | 2020-09-28 | 2020-12-25 | 范馨月 | 基于自然语言语义解析的数据中心智能查询统计方法 |
CN112131469A (zh) * | 2020-09-22 | 2020-12-25 | 安徽农业大学 | 一种基于评论文本的深度学习推荐方法 |
CN113378047A (zh) * | 2021-06-10 | 2021-09-10 | 武汉大学 | 一种基于多方面增强的图神经网络推荐方法 |
CN113656686A (zh) * | 2021-07-26 | 2021-11-16 | 深圳市中元产教融合科技有限公司 | 一种基于产教融合的任务报告的生成方法及服务系统 |
CN114491260A (zh) * | 2022-01-26 | 2022-05-13 | 北京字节跳动网络技术有限公司 | 信息搜索方法、装置、设备和存储介质 |
KR20220081398A (ko) * | 2020-12-08 | 2022-06-16 | (주)플래티어 | 검색어 추천 장치, 방법 및 기록매체 |
CN116775986A (zh) * | 2022-12-30 | 2023-09-19 | 深圳数联天下智能科技有限公司 | 食谱推荐方法、电子设备及存储介质 |
CN116825324A (zh) * | 2023-03-28 | 2023-09-29 | 南充市中心医院 | 一种基于ai的临床麻醉评估系统及方法 |
-
2023
- 2023-11-07 CN CN202311471858.1A patent/CN117195890B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002196928A (ja) * | 2000-12-26 | 2002-07-12 | Communication Research Laboratory | 同期的コミュニケーション支援システム及び同期的コミュニケーション支援プログラムを記録した記録媒体 |
CN107967352A (zh) * | 2017-12-15 | 2018-04-27 | 四川汉科计算机信息技术有限公司 | 信息知识智慧推荐方法 |
CN111914157A (zh) * | 2019-05-07 | 2020-11-10 | 重庆好德译信息技术有限公司 | 一种基于用户偏好的旅游方案生成方法和系统 |
CN110866106A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本推荐方法及相关设备 |
CN112131469A (zh) * | 2020-09-22 | 2020-12-25 | 安徽农业大学 | 一种基于评论文本的深度学习推荐方法 |
CN112131246A (zh) * | 2020-09-28 | 2020-12-25 | 范馨月 | 基于自然语言语义解析的数据中心智能查询统计方法 |
KR20220081398A (ko) * | 2020-12-08 | 2022-06-16 | (주)플래티어 | 검색어 추천 장치, 방법 및 기록매체 |
CN113378047A (zh) * | 2021-06-10 | 2021-09-10 | 武汉大学 | 一种基于多方面增强的图神经网络推荐方法 |
CN113656686A (zh) * | 2021-07-26 | 2021-11-16 | 深圳市中元产教融合科技有限公司 | 一种基于产教融合的任务报告的生成方法及服务系统 |
CN114491260A (zh) * | 2022-01-26 | 2022-05-13 | 北京字节跳动网络技术有限公司 | 信息搜索方法、装置、设备和存储介质 |
CN116775986A (zh) * | 2022-12-30 | 2023-09-19 | 深圳数联天下智能科技有限公司 | 食谱推荐方法、电子设备及存储介质 |
CN116825324A (zh) * | 2023-03-28 | 2023-09-29 | 南充市中心医院 | 一种基于ai的临床麻醉评估系统及方法 |
Non-Patent Citations (3)
Title |
---|
F.O.ISINKOYE等: "Recommendation systems:principles,methods and evaluation", 《EGYPTIAN INFORMATION JOURNAL》, pages 261 - 273 * |
尧欢欢等: "基于ERNIE和融合双通道特征的文本情感分类模型", 《软件工程》, vol. 26, no. 2, pages 34 - 39 * |
詹茂森等: "个性化推荐系统的搜索引擎研究", 《电脑知识与技术》, vol. 10, no. 22, pages 5370 - 5372 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494726A (zh) * | 2023-12-29 | 2024-02-02 | 成都航空职业技术学院 | 一种情报关键词提取方法 |
CN117494726B (zh) * | 2023-12-29 | 2024-04-12 | 成都航空职业技术学院 | 一种情报关键词提取方法 |
CN118035432A (zh) * | 2024-04-12 | 2024-05-14 | 成都航空职业技术学院 | 一种基于语义识别的就业指导内容推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117195890B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN117195890B (zh) | 一种基于机器学习的文本推荐方法 | |
US8744839B2 (en) | Recognition of target words using designated characteristic values | |
Nguyen et al. | Relation extraction: Perspective from convolutional neural networks | |
US8892420B2 (en) | Text segmentation with multiple granularity levels | |
CN102622338B (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN106970910A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN111079412A (zh) | 文本纠错方法及装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN102314876B (zh) | 语音检索的方法和系统 | |
Xing et al. | A convolutional neural network for aspect-level sentiment classification | |
CN107748784A (zh) | 一种通过自然语言实现结构化数据搜索的方法 | |
Ponte et al. | Useg: A retargetable word segmentation procedure for information retrieval | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN111325033B (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN113673252A (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |