CN117195890A

CN117195890A - 一种基于机器学习的文本推荐方法

Info

Publication number: CN117195890A
Application number: CN202311471858.1A
Authority: CN
Inventors: 尹成鑫; 刘建超
Original assignee: Chengdu Aeronautic Polytechnic
Current assignee: Chengdu Aeronautic Polytechnic
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-08
Anticipated expiration: 2043-11-07
Also published as: CN117195890B

Abstract

本发明公开了一种基于机器学习的文本推荐方法，属于语义提取技术领域，本发明中对用户信息字符串中各个关键词进行了排列组合，从而得到不同的信息序列，本发明根据每个信息序列包含的关键词数量以及包含的关键词的权重，从而衡量出一个信息序列的契合度评分。本发明中还通过机器学习模型识别各信息序列的语义特征，实现对各信息序列进一步的语义提取，计算出每个信息序列的语义特征与待推荐文本的匹配度，再综合信息序列与用户信息字符串的契合度评分，计算出待推荐文本的推荐分值，从而实现层次化的文本推荐，增加了文本推荐的范围，并将所有有关的文本均进行推荐，提高了对复杂文本信息进行文本推荐的精度。

Description

一种基于机器学习的文本推荐方法

技术领域

本发明涉及语义提取技术领域，具体涉及一种基于机器学习的文本推荐方法。

背景技术

随着大数据时代的到来，各类资料爆炸式增长，从海量的资料中筛选出用户所需内容需要耗费大量的时间。现有为了提高筛选用户所需内容的效率，提供了文本推荐方法。现有文本推荐方法为：对用户输入的文本信息进行分词处理，提取出关键词，根据各个关键词在各个文档资料中出现的频率，从而得到各个文档资料的优先级，进而按优先级进行文本推荐。现有文本推荐方法对于简单的文本信息能达到较精确的推荐，但是对于包含几种语义的复杂文本信息，其无法准确获取其中用户关注的内容，造成文本推荐有误差。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于机器学习的文本推荐方法解决了现有文本推荐方法对复杂文本信息进行文本推荐，存在推荐精度较低的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于机器学习的文本推荐方法，包括以下步骤：

S1、提取用户信息字符串中的各个关键词向量；

S2、对各个关键词向量进行排列组合，得到不同的信息序列，并依据各信息序列中的关键词向量数量及各关键词向量在用户信息字符串中的权重，进行契合度评分；

S3、通过机器学习模型识别各信息序列的语义特征；

S4、计算每个信息序列的语义特征与待推荐文本的匹配度；

S5、根据契合度评分和待推荐文本的匹配度，计算每个信息序列与待推荐文本的推荐分值，对用户进行层次化文本推荐。

本发明的有益效果为：本发明中对用户信息字符串中各个关键词进行了排列组合，从而得到不同的信息序列，相当于是从一个用户信息字符串中获取出各种相关的信息，扩宽推荐范围，本发明根据每个信息序列包含的关键词数量以及包含的关键词的权重，从而衡量出一个信息序列的契合度评分。本发明中还通过机器学习模型识别各信息序列的语义特征，实现对各信息序列进一步的语义提取，计算出每个信息序列的语义特征与待推荐文本的匹配度，再综合信息序列与用户信息字符串的契合度评分，计算出待推荐文本的推荐分值，从而实现层次化的文本推荐，增加了文本推荐的范围，并将所有有关的文本均进行推荐，提高对复杂文本信息进行文本推荐的精度。

进一步地，所述S2包括以下分步骤：

S21、对各个关键词向量进行排列组合，得到不同的信息序列；

S22、统计每个信息序列中关键词向量数量；

S23、根据每个信息序列中关键词向量在用户信息字符串的权重，得到信息序列重要度；

S24、根据每个信息序列中关键词向量数量和重要度，计算每个信息序列的契合度评分。

上述进一步地方案的有益效果为：对各个关键词向量进行排列组合，得到不同的信息序列，从而获取所有与用户信息字符串相关的内容，根据关键词在用户信息字符串的权重，评估出每个信息序列的重要度，从而根据每个信息序列中关键词向量数量和重要度，计算出每个信息序列与用户信息字符串的契合度评分。

进一步地，所述S24中计算每个信息序列的契合度评分的公式为：

，

其中，score _k为第k个信息序列的契合度评分，nu _k为第k个信息序列中关键词向量的数量，in _k为第k个信息序列的重要度，k为信息序列的编号；

所述第k个信息序列的重要度in _k的计算公式为：

，

其中，L _k,l为第k个信息序列中第l个关键词向量的长度，K _k,l为第k个信息序列中第l个关键词向量在用户信息字符串中出现的次数，L _u为用户信息字符串的长度，ω _k,l为第k个信息序列中第l个关键词向量在用户信息字符串的权重，nu _k为第k个信息序列中关键词向量的数量，l为关键词向量的编号。

上述进一步地方案的有益效果为：本发明中每个信息序列的契合度评分与信息序列中关键词向量数量和信息序列的重要度有关，在关键词向量数量越多和信息序列的重要度越大时，信息序列与用户信息字符串的契合度评分越高，在信息序列中关键词向量的长度越长，出现在用户信息字符串中的数量越多，权重越大，则信息序列的重要度越大。

进一步地，所述S3中机器学习模型包括：关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层；

一个所述关键词处理单元的输入端用于输入信息序列中的关键词向量，关键词处理单元的数量大于等于2；所述特征汇集单元的输入端与各关键词处理单元的输出端连接，其输出端与双通道特征提取单元的输入端连接；所述全连接层的输入端与双通道特征提取单元的输出端连接，其输出端作为机器学习模型的输出端。

上述进一步地方案的有益效果为：本发明中采用每个关键词处理单元处理信息序列中每个关键词向量，实现对信息序列中关键词向量并行处理，更好的考虑一段信息中前后语义关系，提高语义提取的准确度，再在特征汇集单元实现各个关键词特征的汇集，并通过双通道特征提取单元进一步的提取特征，实现对语义特征的提取。

进一步地，所述关键词处理单元包括：第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器；

所述第一ReLU激活层的输入端分别与第二ReLU激活层的输入端和归一化层的输入端连接；所述第一tanh激活层的输入端与第一ReLU激活层的输出端连接，其输出端与加法器的第一输入端连接；所述第二tanh激活层的输入端与第二ReLU激活层的输出端连接，其输出端与加法器的第二输入端连接；所述乘法器的第一输入端与加法器的输出端连接，其第二输入端与归一化层的输出端连接；

所述双通道特征提取单元包括：Avgpool层、Maxpool层和LSTM层；

所述Avgpool层的输入端与Maxpool层的输入端连接，并作为双通道特征提取单元的输入端；所述LSTM层的输入端分别与Avgpool层的输出端和Maxpool层的输出端连接，其输出端并作为双通道特征提取单元的输出端。

上述进一步地方案的有益效果为：本发明中在关键词处理单元设置了两个ReLU激活层分别对输入的关键词向量进行处理，提高机器学习模型拟合非线性关系的能力，两个tanh激活层用于将ReLU激活层输出的量映射到-1和1之间，使得机器学习模型更稳定，同时第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层和归一化层构成了三个输入通道，实现对输入的关键词向量进行三路不同的处理，得到不同的特征，实现特征的充分提取。

在双通道特征提取单元中LSTM层的输入有两个：Avgpool层的输出和Maxpool层的输出，在LSTM层中综合了显著特征和全局特征。

进一步地，所述第一ReLU激活层的表达式为：

，

其中，R _1,t为第一ReLU激活层第t时刻的输出，ReLU为非线性激活函数，x _t为第t时刻输入的关键词向量，w _R1为第一ReLU激活层中第t时刻输入的关键词向量x _t的权重，r _a,t-1为乘法器第t-1时刻的输出，w _Rr1为第一ReLU激活层中乘法器第t-1时刻的输出r _a,t-1的权重，b _R1为第一ReLU激活层中的偏置，t为时刻的编号；

所述第二ReLU激活层的表达式为：

，

其中，R _2,t为第二ReLU激活层第t时刻的输出，w _R2为第二ReLU激活层中第t时刻输入的关键词向量x _t的权重，w _Rr2为第二ReLU激活层中乘法器第t-1时刻的输出r _a,t-1的权重，b _R2为第二ReLU激活层中的偏置。

上述进一步地方案的有益效果为：在第一ReLU激活层和第二ReLU激活层中，考虑了上一时刻乘法器的输出情况，结合了历史语义信息，能更好预测信息序列的语义特征。

进一步地，所述特征汇集单元的表达式为：

，

其中，V _t为特征汇集单元第t时刻的输出，r _a,t,1为第1个关键词处理单元第t时刻的输出，r _a,t,j为第j个关键词处理单元第t时刻的输出，r _a,t,M为第M个关键词处理单元第t时刻的输出，M为关键词处理单元的数量，j为关键词处理单元的编号，w _r,1为特征汇集单元中r _a,t,1的权重，w _r,j为特征汇集单元中r _a,t,j的权重，w _r,M为特征汇集单元中r _a,t,M的权重，为哈达玛积，t为时刻的编号。

进一步地，所述S4包括以下分步骤：

S41、将待推荐文本按标点符号进行分句处理，得到多个短句文本；

S42、根据每个信息序列的语义特征与每个短句文本的余弦相似度，得到信息序列的语义特征与待推荐文本相似度；

S43、将每个信息序列的语义特征进行分词处理，得到每个词向量；

S44、统计每个词向量在待推荐文本中出现的次数；

S45、根据词向量在待推荐文本中出现的次数，以及信息序列的语义特征与待推荐文本相似度，得到信息序列的语义特征与待推荐文本的匹配度。

上述进一步地方案的有益效果为：本发明中将待推荐文本按标点符号进行分句处理，从而得到多个短句文本，便于计算与每个信息序列的语义特征的余弦相似度，综合各个短句文本的余弦相似度，得到信息序列的语义特征与待推荐文本相似度，将每个信息序列的语义特征进行分词处理，统计每个词向量在待推荐文本中出现的次数，根据词向量在待推荐文本中出现的次数，以及信息序列的语义特征与待推荐文本相似度，得到信息序列的语义特征与待推荐文本的匹配度，本发明中通过信息序列的语义特征与待推荐文本相似度，评估出该信息序列的语义特征与待推荐文本的行文排布是否相似，通过词向量的出现次数评估待推荐文本中存在相关内容的量的大小。

进一步地，所述S42中信息序列的语义特征与待推荐文本相似度的计算公式为：

，

其中，S _k为第k个信息序列的语义特征与待推荐文本相似度，S _k,c为第k个信息序列的语义特征与第c个短句文本的余弦相似度，X为短句文本的数量；

所述S45中信息序列的语义特征与待推荐文本的匹配度的计算公式为：

，

其中，P _k为第k个信息序列的语义特征与待推荐文本的匹配度，O _k,m为第k个信息序列的语义特征的第m个词向量在待推荐文本中出现的次数，w _k,m为第k个信息序列的语义特征中第m个词向量的权重，T为一个信息序列对应的语义特征中词向量数量，m为词向量的编号，k为信息序列的编号。

上述进一步地方案的有益效果为：本发明综合信息序列的语义特征中词向量在待推荐文本中出现的次数，词向量的权重，以及语义特征与待推荐文本相似度，评判出信息序列的语义特征与待推荐文本的匹配度。

进一步地，所述S5中计算信息序列与待推荐文本的推荐分值的公式为：

，

其中，y _k为第k个信息序列与待推荐文本的推荐分值，P _k为第k个信息序列的语义特征与待推荐文本的匹配度，score _k为第k个信息序列的契合度评分，ln为对数函数，e为自然常数。

上述进一步地方案的有益效果为：本发明中在推荐分值越高时，该待推荐文本与信息序列的语义特征匹配度越高，信息序列与用户信息字符串的契合度越高，实现从信息序列本身是否还原用户信息字符串的语义，以及推荐文本中存在语义特征内容的多少的两个角度出发，推荐更精确的文本。

附图说明

图1为一种基于机器学习的文本推荐方法的流程图；

图2为机器学习模型的结构示意图；

图3为关键词处理单元的结构示意图；

图4为双通道特征提取单元的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于机器学习的文本推荐方法，包括以下步骤：

S1、提取用户信息字符串中的各个关键词向量；

S3、通过机器学习模型识别各信息序列的语义特征；

S4、计算每个信息序列的语义特征与待推荐文本的匹配度；

本发明中对用户信息字符串中各个关键词进行了排列组合，从而得到不同的信息序列，相当于是从一个用户信息字符串中获取出各种相关的信息，扩宽推荐范围，本发明根据每个信息序列包含的关键词数量以及包含的关键词的权重，从而衡量出一个信息序列的契合度评分。本发明中还通过机器学习模型识别各信息序列的语义特征，实现对各信息序列进一步的语义提取，计算出每个信息序列的语义特征与待推荐文本的匹配度，再综合信息序列与用户信息字符串的契合度评分，计算出待推荐文本的推荐分值，从而实现层次化的文本推荐，增加了文本推荐的范围，并将所有有关的文本均进行推荐，提高对复杂文本信息进行文本推荐的精度。

S2包括以下分步骤：

S22、统计每个信息序列中关键词向量数量；

本发明对各个关键词向量进行排列组合，得到不同的信息序列，从而获取所有与用户信息字符串相关的内容，根据关键词在用户信息字符串的权重，评估出每个信息序列的重要度，从而根据每个信息序列中关键词向量数量和重要度，计算出每个信息序列与用户信息字符串的契合度评分。

S24中计算每个信息序列的契合度评分的公式为：

，

第k个信息序列的重要度in _k的计算公式为：

，

本发明中每个信息序列的契合度评分与信息序列中关键词向量数量和信息序列的重要度有关，在关键词向量数量越多和信息序列的重要度越大时，信息序列与用户信息字符串的契合度评分越高，在信息序列中关键词向量的长度越长，出现在用户信息字符串中的数量越多，权重越大，则信息序列的重要度越大。

如图2所示，S3中机器学习模型包括：关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层；

一个关键词处理单元的输入端用于输入信息序列中的关键词向量，关键词处理单元的数量大于等于2；特征汇集单元的输入端与各关键词处理单元的输出端连接，其输出端与双通道特征提取单元的输入端连接；全连接层的输入端与双通道特征提取单元的输出端连接，其输出端作为机器学习模型的输出端。

本发明中采用每个关键词处理单元处理信息序列中每个关键词向量，实现对信息序列中关键词向量并行处理，更好的考虑一段信息中前后语义关系，提高语义提取的准确度，再在特征汇集单元实现各个关键词特征的汇集，并通过双通道特征提取单元进一步的提取特征，实现对语义特征的提取。

如图3所示，关键词处理单元包括：第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器；

第一ReLU激活层的输入端分别与第二ReLU激活层的输入端和归一化层的输入端连接；第一tanh激活层的输入端与第一ReLU激活层的输出端连接，其输出端与加法器的第一输入端连接；第二tanh激活层的输入端与第二ReLU激活层的输出端连接，其输出端与加法器的第二输入端连接；乘法器的第一输入端与加法器的输出端连接，其第二输入端与归一化层的输出端连接。

如图4所示，双通道特征提取单元包括：Avgpool层、Maxpool层和LSTM层；

Avgpool层的输入端与Maxpool层的输入端连接，并作为双通道特征提取单元的输入端；LSTM层的输入端分别与Avgpool层的输出端和Maxpool层的输出端连接，其输出端并作为双通道特征提取单元的输出端。

本发明中在关键词处理单元设置了两个ReLU激活层分别对输入的关键词向量进行处理，提高机器学习模型拟合非线性关系的能力，两个tanh激活层用于将ReLU激活层输出的量映射到-1和1之间，使得机器学习模型更稳定，同时第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层和归一化层构成了三个输入通道，实现对输入的关键词向量进行三路不同的处理，得到不同的特征，实现特征的充分提取。

第一ReLU激活层的表达式为：

，

第二ReLU激活层的表达式为：

，

在第一ReLU激活层和第二ReLU激活层中，考虑了上一时刻乘法器的输出情况，结合了历史语义信息，能更好预测信息序列的语义特征。

第一tanh激活层的表达式为：

，

其中，G _1,t为第一tanh激活层第t时刻的输出，tanh为双曲正切激活函数，w _ta1为第一tanh激活层中第一ReLU激活层第t时刻的输出R _1,t的权重，b _ta1为第一tanh激活层的偏置；

第二tanh激活层的表达式为：

，

其中，G _2,t为第二tanh激活层第t时刻的输出，w _ta2为第二tanh激活层中第二ReLU激活层第t时刻的输出R _2,t的权重，b _ta2为第二tanh激活层的偏置。

归一化层的表达式为：

，

其中，x _no,t,i为归一化层第t时刻的输出第i个归一化值，x _t,i为第t时刻输入的关键词向量x _t中第i个元素，N为第t时刻输入的关键词向量x _t中元素的数量，i为元素的编号。

特征汇集单元的表达式为：

，

S4包括以下分步骤：

S44、统计每个词向量在待推荐文本中出现的次数；

本发明中将待推荐文本按标点符号进行分句处理，从而得到多个短句文本，便于计算与每个信息序列的语义特征的余弦相似度，综合各个短句文本的余弦相似度，得到信息序列的语义特征与待推荐文本相似度，将每个信息序列的语义特征进行分词处理，统计每个词向量在待推荐文本中出现的次数，根据词向量在待推荐文本中出现的次数，以及信息序列的语义特征与待推荐文本相似度，得到信息序列的语义特征与待推荐文本的匹配度，本发明中通过信息序列的语义特征与待推荐文本相似度，评估出该信息序列的语义特征与待推荐文本的行文排布是否相似，通过词向量的出现次数评估待推荐文本中存在相关内容的量的大小。

S42中信息序列的语义特征与待推荐文本相似度的计算公式为：

，

S45中信息序列的语义特征与待推荐文本的匹配度的计算公式为：

，

本发明综合信息序列的语义特征中词向量在待推荐文本中出现的次数，词向量的权重，以及语义特征与待推荐文本相似度，评判出信息序列的语义特征与待推荐文本的匹配度。

S5中计算信息序列与待推荐文本的推荐分值的公式为：

，

本发明中在推荐分值越高时，该待推荐文本与信息序列的语义特征匹配度越高，信息序列与用户信息字符串的契合度越高，实现从信息序列本身是否还原用户信息字符串的语义，以及推荐文本中存在语义特征内容的多少的两个角度出发，推荐更精确的文本。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的文本推荐方法，其特征在于，包括以下步骤：

S1、提取用户信息字符串中的各个关键词向量；

S3、通过机器学习模型识别各信息序列的语义特征；

S4、计算每个信息序列的语义特征与待推荐文本的匹配度；

2.根据权利要求1所述的基于机器学习的文本推荐方法，其特征在于，所述S2包括以下分步骤：

S22、统计每个信息序列中关键词向量数量；

3.根据权利要求2所述的基于机器学习的文本推荐方法，其特征在于，所述S24中计算每个信息序列的契合度评分的公式为：

，

其中，score _k为第k个信息序列的契合度评分，nu _k为第k个信息序列中关键词向量数量，in _k为第k个信息序列的重要度，k为信息序列的编号；

所述第k个信息序列的重要度in _k的计算公式为：

，

4.根据权利要求1所述的基于机器学习的文本推荐方法，其特征在于，所述S3中机器学习模型包括：关键词处理单元、特征汇集单元、双通道特征提取单元和全连接层；

5.根据权利要求4所述的基于机器学习的文本推荐方法，其特征在于，所述关键词处理单元包括：第一ReLU激活层、第二ReLU激活层、第一tanh激活层、第二tanh激活层、归一化层、加法器和乘法器；

所述双通道特征提取单元包括：Avgpool层、Maxpool层和LSTM层；

6.根据权利要求5述的基于机器学习的文本推荐方法，其特征在于，所述第一ReLU激活层的表达式为：

，

所述第二ReLU激活层的表达式为：

，

7.根据权利要求4所述的基于机器学习的文本推荐方法，其特征在于，所述特征汇集单元的表达式为：

，

8.根据权利要求1所述的基于机器学习的文本推荐方法，其特征在于，所述S4包括以下分步骤：

S44、统计每个词向量在待推荐文本中出现的次数；

9.根据权利要求8所述的基于机器学习的文本推荐方法，其特征在于，所述S42中信息序列的语义特征与待推荐文本相似度的计算公式为：

，

10.根据权利要求1所述的基于机器学习的文本推荐方法，其特征在于，所述S5中计算信息序列与待推荐文本的推荐分值的公式为：

，