CN116957740B

CN116957740B - 一种基于词特征的农产品推荐系统

Info

Publication number: CN116957740B
Application number: CN202310958555.6A
Authority: CN
Inventors: 张楠; 胡文; 王晓宇
Original assignee: Harbin University of Commerce
Current assignee: Harbin University of Commerce
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2024-01-05
Anticipated expiration: 2043-08-01
Also published as: CN116957740A

Abstract

一种基于词特征的农产品推荐系统，涉及计算机应用技术领域，针对现有推荐系统推荐信息不准确的问题，本申请通过获取用户历史农产品评价数据及对应的评价对象，之后获取用户历史农产品评价数据情感倾向值，以此通过用户针对该农产品的评价，得到用户针对该产品的喜好。然后本申请通过对用户当前浏览农产品简介文本进行分词，并通过词语、与情感倾向值之间的对应关系，得到用户对当前浏览农产品的喜好程度，进而进行推荐。

Description

一种基于词特征的农产品推荐系统

技术领域

本发明涉及计算机应用技术领域，具体为一种基于词特征的农产品推荐系统。

背景技术

农产品是指农业中生产的物品，如高粱、稻子、花生、玉米、小麦以及各个地区土特产等，随着信息时代的发展，线上购买农产品成为一种趋势。而线上购买农产品时，针对性的对用户当前浏览的农产品进行同类型农产品的推荐，可以极大地提升用户购物效率，减少用户购物前对农产品进行了解的时间，提升用户的选择性。

现有推荐系统通常根据用户历史农产品购物记录，对用户偏好进行分析，进而向用户推荐农产品。但是用户历史农产品购物记录，仅能说明用户购买过该农产品，并不能体现用户对该农产品的喜好，因此导致现有推荐系统推荐的产品并不是用户喜好的产品，即现有推荐系统推荐信息不准确。

发明内容

本发明的目的是：针对现有推荐系统推荐信息不准确的问题，提出一种基于词特征的农产品推荐系统。

本发明为了解决上述技术问题采取的技术方案是：

一种基于词特征的农产品推荐系统，所述系统包括数据获取模块、情感倾向模块、词库调取模块、匹配模块以及农产品推荐模块；

所述数据获取模块用于获取用户历史农产品评价数据及对应的评价对象，所述评价对象为农产品的具体品种；

所述情感倾向模块用于加载情感分析模型，将用户历史农产品评价数据输入情感分析模型，得到输出的用户历史农产品评价数据的情感倾向值，之后将用户历史农产品评价数据的情感倾向值的二分之一作为该农产品具体品种的情感倾向阈值；

所述词库调取模块用于获取用户当前浏览农产品简介文本，并利用中文关键词提取器Jieba进行关键词提取，之后根据关键词确定用户当前浏览农产品的种类，并根据确定的种类调取对应的词库组；

所述词库组的构建步骤具体为：

将用户历史农产品评价数据利用Biaffine句法分析器得到表示评论数据的依存句法结构图，之后利用依存句法结构图计算不同词之间的相对依存距离，并根据相对依存距离得到评论数据中不同词语相对于评价对象的重要性权重，之后根据重要性权重以及评价数据的情感倾向值，得到评价数据中每个词语对应的情感倾向值，最后利用农产品的具体品种、词语、每个词语对应的情感倾向值以及情感倾向阈值构建一个词库，并将隶属于同一种类的农产品的具体品种划分为一组，即词库组；

所述匹配模块用于将中文关键词提取器Jieba提取的关键词分别与对应的词库组中每个词库进行匹配，之后获取每个词库匹配成功的关键词，并将词库中每个匹配成功的关键词对应的情感倾向值进行求和，并将求和结果与该词库对应的情感倾向阈值进行比较，若求和结果大于情感倾向阈值，则将该词库对应的农产品的具体品种作为待推荐项，否则，不作为待推荐项；

所述农产品推荐模块用于将匹配模块中得到的所有待推荐项向用户进行推荐。

进一步的，所述情感分析模型的训练步骤具体为：

步骤一：加载预训练中文分词模型embedding，并获取训练集；

步骤二：利用正则表达式去除训练集语料中的标点符号；

步骤三：利用jieba库将去除标点符号的语料进行分词；

步骤四：利用embedding将分词结果转化为词向量，进而构建词向量矩阵；

步骤五：利用词向量矩阵训练LSTM模型，训练好的模型即为情感分析模型。

进一步的，所述LSTM模型包括两层，具体为：

第一层为embedding，第一层利用BiLSTM返回sequences；

第二层为16个单元的LSTM，第二层16个单元的LSTM不返回sequences，只返回最终结果；

最后一层为全链接层，利用sigmoid激活函数输出结果。

进一步的，所述依存句法结构图以邻接矩阵D的形式表示，D中的每一个元素可表示为：

其中，i表示矩阵的行索引，j表示矩阵的列索引，w_i和w_j表示评论句中任意的两个词语。

进一步的，所述利用依存句法结构图计算相对依存距离的具体步骤为：

基于邻接矩阵D，利用Dijkstra算法通过不同词在邻接矩阵上的最短距离得到不同词之间的相对依存距离。

进一步的，所述用户历史农产品评价数据及对应的评价对象利用scrapy框架爬取。

本发明的有益效果是：

本申请通过获取用户历史农产品评价数据及对应的评价对象，之后获取用户历史农产品评价数据情感倾向值，以此通过用户针对该农产品的评价，得到用户针对该产品的喜好。然后本申请通过对用户当前浏览农产品简介文本进行分词，并通过词语、与情感倾向值之间的对应关系，得到用户对当前浏览农产品的喜好程度，进而进行推荐。

具体来说，本申请将用户历史评价中的所有单词直接与评价对象联系起来，为了区分不同词的重要性，并继承句法结构带来的优势，本申请根据相对依存距离对每个词赋予了不同的权重。并根据不同的权重得到不同词的情感倾向，极大地提升了农产品推荐信息的准确性。并且本申请可以极大地提升用户购物效率，减少了用户购物前对农产品进行了解的时间，提升用户购物体验。

附图说明

图1为本申请整理流程图；

图2为依存句法结构图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种基于词特征的农产品推荐系统，所述系统包括数据获取模块、情感倾向模块、词库调取模块、匹配模块以及农产品推荐模块；

所述词库组的构建步骤具体为：

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述情感分析模型的训练步骤具体为：

步骤一：加载预训练中文分词模型embedding，并获取训练集；

步骤二：利用正则表达式去除训练集语料中的标点符号；

步骤三：利用jieba库将去除标点符号的语料进行分词；

S1、基于神经网络的评论情感倾向分析；

S11、情感分析模型的建立；

S12、加载预训练中文分词模型embedding；

S13、用正则表达式去除训练集语料中的标点符号；

S14、用jieba库进行分词，将上述预料分为多个词语的列表；

S15、用预加载模型将分词结果转化为词向量，并转化为词向量矩阵；

S16、使用LSTM模型进行训练，模型第一层为embedding，之后第一层我们用BiLSTM返回sequences，然后第二层16个单元的LSTM不返回sequences，只返回最终结果，最后一个是全链接层，用sigmoid激活函数输出结果；

S17、将评论内容放入训练好的情感分析模型内，输出情感倾向，统计负面情感的言论的数量；

S18、对于一个用户的全部的评论数据，计算其情感倾向的均值。

具体实施方式三：本实施方式是对具体实施方式二的进一步说明，本实施方式与具体实施方式二的区别是所述LSTM模型包括两层，具体为：

第一层为embedding，第一层利用BiLSTM返回sequences；

最后一层为全链接层，利用sigmoid激活函数输出结果。

神经网络：人工神经网络也简称为神经网络或称作连接模型，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

LSTM:长短期记忆网络，是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。

sigmoid激活函数：sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0，1)，它可以将一个实数映射到(0，1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid函数由下列公式定义：

具体实施方式四：本实施方式是对具体实施方式三的进一步说明，本实施方式与具体实施方式三的区别是所述依存句法结构图以邻接矩阵D的形式表示，D中的每一个元素可表示为：

其中，i表示矩阵的行索引，j表示矩阵的列索引，w_i和w_j表示评论句中任意的两个词语。英文句的翻译是：如果i＝j或wi和wj这两个词在依存句法树上有连接的边。

具体实施方式五：本实施方式是对具体实施方式四的进一步说明，本实施方式与具体实施方式四的区别是所述利用依存句法结构图计算相对依存距离的具体步骤为：

具体实施方式六：本实施方式是对具体实施方式五的进一步说明，本实施方式与具体实施方式五的区别是所述用户历史农产品评价数据及对应的评价对象利用scrapy框架爬取。

网络爬虫：又称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

如图2中所示句子的句法结构，对于apple-OS这个方面，happy这个词是最能提供情感线索的，应该被更多的考虑。但从句法结构的角度来看，apple-OS这个词需要通过三个中间语境词to、back和be与它的情感词happy联系起来。由于复杂和冗余的句法结构，当happy通过长的依赖路径传递信息时，中间词和它们的邻接词的信息就会被纳入，而这些信息对于情感识别是没有用的。这导致意见词happy在传递到apple-OS方面时只占一小部分权重。因此，happy和apple-OS之间复杂的句法结构使得传播距离太远，削弱了它们之间的交互。

本申请基于相对依存距离来继承句法结构所提供的优势，本申请对词赋予了不同的重要性权重。

首先，通过神经句法分析器Biaffine得到原始的依存句法树。Biaffine是一种基于图的神经网络句法分析模型，其最大的模型结构特点是使用双仿射分类器来预测依存关系和依存边，并且抛弃了传统的基于多层感知机的注意力计算方法，而是引入双仿射注意力机制，而多层感知机仅用来为LSTM层的输入进行降维。由依存句法分析器Biaffine的输出可以得到依存图，并以邻接矩阵D的形式表示。D中的每一个元素可表示为:

基于上一小节得到的邻接矩阵D，对于Aspect中的每一个词，可以视其为一个起点来计算它与句中其他词语的相对依存距离(Syntactic Relative Distance,SRD)。不同词之间的相对依存距离可以通过它们在邻接矩阵上的最短距离，由Dijkstra算法计算得到。关于SRD的计算，通过下面的例子来简要阐述。

任意两词语间的相对依存距离即为从一个节点出发，经由数条依存边到达另一节点，途中经过依存边的数量即为相对依存距离。由依存句法图是无环连通图的特性，任意两节点间的距离都可由Dijkstra算法计算而得。对于这句话中的Aspect词food，其与句中其余语境词的相对依存距离的计算结果如下所示。

SRD(food,great)＝1

SRD(food,but)＝1

SRD(food,service)＝1

SRD(food,was)＝1

SRD(food,dreadful)＝2

通过原始的依存句法树得到了SRDs∈R^m×n来依据相对依存距离表示不同词对于Aspect的重要程度。

本申请将一个句子中的所有单词直接与评价对象联系起来。此外，为了区分不同词的重要性，并继承句法结构带来的优势，本申请根据相对依存距离对每个词赋予了不同的权重。在此基础上，本申请评价对象为中心的图卷积网，将用户对评级俺对象的情感特征与上下文信息进行交互，有效捕捉评价对象和用户潜在情感词之间的关联，在用户选择产品时，本申请可以根据用户以往对当前用户浏览的产品对应的下属类别的具体评价进行分析，得到用户针对该类别产品的喜好程度，进而针对用户当前浏览产品进行推荐。

例如，用户当前浏览的产品为大米，本申请技术方案首先识别用户当前浏览的内容，并根据当前浏览的内容基于文本匹配或文字识别，得到用于当前浏览内容对应的农产品种类，然后根据农产品种类调取对应的词库组。

所述词库组的构建过程为，获取用户历史针对大米(包括各种类型的大米，如长粒米、中粒米、短粒米、玫瑰米、珍珠米、红米、黑米等)的评价记录，并针对每个评价提取情感倾向值，并以情感倾向值的一半作为阈值。之后提取用户当前浏览内容的关键词，并将关键词与词库组中的每个词库进行匹配，并将每个词库匹配成功的关键词对应的情感倾向值分别与对应的情感倾向阈值进行对比。由于每个词库是根据针对每个类型大米的评价数据进行提取的，因此，针对每个词库匹配成功的关键词所对应的情感倾向值若大于该词库的情感倾阈值，则该用户对这个类型的大米是喜好的，因此向用户推荐该类型的大米。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基于词特征的农产品推荐系统，其特征在于所述系统包括数据获取模块、情感倾向模块、词库调取模块、匹配模块以及农产品推荐模块；

所述词库组的构建步骤具体为：

2.根据权利要求1所述的一种基于词特征的农产品推荐系统，其特征在于所述情感分析模型的训练步骤具体为：

步骤一：加载预训练中文分词模型embedding，并获取训练集；

步骤二：利用正则表达式去除训练集语料中的标点符号；

步骤三：利用jieba库将去除标点符号的语料进行分词；

3.根据权利要求2所述的一种基于词特征的农产品推荐系统，其特征在于所述LSTM模型包括两层，具体为：

第一层为embedding，第一层利用BiLSTM返回sequences；

最后一层为全链接层，利用sigmoid激活函数输出结果。

4.根据权利要求3所述的一种基于词特征的农产品推荐系统，其特征在于所述依存句法结构图以邻接矩阵D的形式表示，D中的每一个元素可表示为：

5.根据权利要求4所述的一种基于词特征的农产品推荐系统，其特征在于所述利用依存句法结构图计算相对依存距离的具体步骤为：

6.根据权利要求5所述的一种基于词特征的农产品推荐系统，其特征在于所述用户历史农产品评价数据及对应的评价对象利用scrapy框架爬取。