CN113268667A - 一种基于中文评论情感引导的序列推荐方法及系统 - Google Patents
一种基于中文评论情感引导的序列推荐方法及系统 Download PDFInfo
- Publication number
- CN113268667A CN113268667A CN202110588218.3A CN202110588218A CN113268667A CN 113268667 A CN113268667 A CN 113268667A CN 202110588218 A CN202110588218 A CN 202110588218A CN 113268667 A CN113268667 A CN 113268667A
- Authority
- CN
- China
- Prior art keywords
- emotion
- matrix
- representing
- comment
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims abstract description 132
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 230000006399 behavior Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000009193 crawling Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 10
- 230000002996 emotional effect Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000239290 Araneae Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及智能推荐、深度学习技术领域,具体涉及一种基于中文评论情感引导的序列推荐方法及系统,所述方法包括:获取中文评论信息,基于所述中文评论信息确定评论文本集;基于所述评论文本集生成情感矩阵,所述情感矩阵包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵;获取用户行为序列元组,基于所述用户行为序列元组和情感矩阵确定序列化推荐模型;所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型;基于所述序列化推荐模型生成用户最终偏好;基于所述用户最终偏好得到物品相关性高低的得分,将所述评分作为预测推荐物品的依据,本发明以中文文本的情感为导向,在推荐性能上有较好地提升、具有较强的实时性。
Description
技术领域
本发明涉及智能推荐、深度学习技术领域,具体涉及一种基于中文评论情感引导的序列推荐方法及系统。
背景技术
目前,推荐系统被广泛运用于电商、短视频,音乐和电影等平台网站。序列推荐系统从用户个性化的历史行为与最近行为中捕获有用的信息,通过这些信息来预测用户下一步的行为并为用户做出推荐。
现有技术中,基于注意力机制的推荐模型展现了优异的表现。例如,在文献“W.Kang and J.McAuley,"Self-Attentive Sequential Recommendation,"2018IEEEInternati onal Conference on Data Mining(ICDM),Singapore,2018,pp.197-206,doi:10.1109/ICDM.2018.00035.”中提供的SASRec模型从稀疏和密集数据中捕捉用户的长期偏好,取得了显著的预测效果。
然而,SASRec模型是基于自注意力机制的推荐系统,该模型充分发挥了注意力机制的优点,可以捕捉用户的连续购买行为之间的注意力关系。但是没有考虑到人类的主观情感因素,忽略了人的连续情感变化对物品的影响。
在文献“Lin Zheng,Naicheng Guo,Weihao Chen,Jin Yu,and DazhiJiang.2020.Sentiment-guided Sequential Recommendation.In Proceedings of the43rd Interna tional ACM SIGIR Conference on Research and Development inInformation Retrieva l(SIGIR'20).Association for Computing Machinery,NewYork,NY,USA,1957–1960.DOI:https://doi.org/10.1145/3397271.3401330”中提出了一种双通道机制对用户的行为-情感序列进行建模的方法,并且在英文数据集上取得了良好的效果。
然而,目前还缺失以中文文本的情感为导向的序列推荐方法。因此,有必要对现有的推荐方式进行改进,使其能够在中文语境中,建立一种基于用户基于中文评论的个性化情感的提取和挖掘的序列化推荐方法,以提升推荐性能。
发明内容
本发明目的在于提供一种基于中文评论情感引导的序列推荐方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
为了实现上述目的,本发明提供以下技术方案:
一种基于中文评论情感引导的序列推荐方法,所述方法包括以下步骤:
步骤S100、获取中文评论信息,基于所述中文评论信息确定评论文本集;
步骤S200、基于所述评论文本集生成情感矩阵,其中,所述情感矩阵SM包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵;
步骤S300、获取用户行为序列元组,基于所述用户行为序列元组和情感矩阵确定序列化推荐模型;其中,所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型;
步骤S400、基于所述序列化推荐模型生成用户最终偏好;基于所述用户最终偏好PF得到物品相关性高低的得分,将所述评分作为预测推荐物品的依据。
进一步,所述步骤S100包括:
步骤S110、爬取中文评论信息,对所述中文评论信息进行数据清洗和关键字提取,得到结构化评论文本;
步骤S120、对所述结构化评论文本的长度进行筛选,选取文本长度在设定范围内的评论文本,形成评论文本集;其中,所述评论文本中,每个用户与物品的交互次数均不少于设定次数。
进一步,所述步骤S200包括:
步骤S210、对评论文本集进行中文情感个性化挖掘,得到每个评论文本的情感数值;所述评论文本的情感数值包括:情感概率、情感类别、以及置信度;
步骤S220、采用等频率均分方式将所有情感数值按个数均分成n份,使得每一份中情感数值的数量相等;
步骤S230、基于数据分箱方法将所述情感数值生成情感矩阵SM;其中,所述情感矩阵SM包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵,M表示情感矩阵的项数,M=4;SM={Sp,Sn,Ss,Sc},Sp表示积极情感矩阵,Sn表示消极情感矩阵,Ss表示情感类别矩阵,Sc表示置信度矩阵,Sp,Sn,Ss,Sc∈R|s|×d,R|s|×d表示矩阵的形状,d表示数据的潜在维度。
进一步,所述步骤S300包括:
步骤S310、获取用户行为序列元组((i1,S1),(i2,S2),…,(iq,Sq)),其中,iq表示第q个消费物品,Sq表示第q个物品所对应的情感矩阵;
步骤S320、以固定长度将所述用户行为序列元组划分物品矩阵E,将所述物品矩阵和情感矩阵构造为嵌入矩阵;其中,E∈R|I|×d,R|I|×d表示矩阵的形状;
其中,Q代表注意力机制中的查询,K代表注意力机制中的键,V代表注意力机制中的值,Sm为Sp,Sn,Ss,Sc其中一个;WQ,WK,WV∈Rd×d,WQ表示Q的投影矩阵,WK表示K的投影矩阵,WV表示V的投影矩阵,Rd×d表示矩阵的形状,d表示数据的潜在维度;
步骤S350、同时采用稀疏注意力模型对情感产生的偏好进行独立性建模,将积极情感矩阵、消极情感矩阵、情感类型矩阵以及置信度矩阵聚合得到聚合矩阵,基于所述聚合矩阵得到稀疏注意力模型,计算公式为:
其中,||运算符表示仅使用距离小于或者等于r的两个行为来计算注意力,S4为聚合矩阵,r为稀疏率。
进一步,所述步骤S400包括:
步骤S410、基于所述自注意力机制模型的拼接结果得到第一用户偏好PGu,基于所述稀疏注意力模型得到第二用户偏好PGe;所述第一用户偏好的计算公式为: 其中,PGu表示第一用户偏好;所述第二用户偏好的计算公式为:其中,WP∈Ro×o,o是注意力层输出的维度,PGe表示第二用户偏好;
步骤S420、将所述第一用户偏好PGu和第二用户偏好PGe聚合生成用户最终偏好;所述用户最终偏好的计算公式为:PF=WFLayerNorm(ConCat([PGu,PGe]))+BF,其中,WF和BF为训练参数;
步骤S430、通过所述用户最终偏好PF得到物品相关性高低的得分,基于所述得分预测推荐物品。
一种计算机可读存储介质,所述计算机可读存储介质上存储有基于中文评论情感引导的序列推荐程序,所述基于中文评论情感引导的序列推荐程序被处理器执行时实现如上述任意一项所述的基于中文评论情感引导的序列推荐方法的步骤。
一种基于中文评论情感引导的序列推荐系统,所述系统包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述任一项所述的基于中文评论情感引导的序列推荐方法。
本发明的有益效果是:本发明公开一种基于中文评论情感引导的序列推荐方法及系统,本发明通过建立一种基于中文评论文本情感变化的抽取、挖掘与个性化表征方法,进而完成基于情感的序列化推荐方法。以中文文本的情感为导向,应用于序列化推荐方法中;面向电商或娱乐平台中的连续中文评论进行情感的提取和挖掘,重视评论情感的个性化挖掘与表征,在稀疏的大型数据集中表现良好,在推荐性能上有较好地提升、具有较强的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中基于中文评论情感引导的序列推荐方法的流程示意图;
图2是本发明实施例中采用等值数据分箱结果的示意图;
图3是本发明实施例中采用等频率数据分箱结果的示意图;
图4是本发明实施例中序列化推荐模型的框图。
具体实施方式
以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本申请的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参考图1,如图1所示为本申请实施例提供的一种基于中文评论情感引导的序列推荐方法,所述方法包括以下步骤:
步骤S100、获取中文评论信息,基于所述中文评论信息确定评论文本集;
步骤S200、基于所述评论文本集生成情感矩阵,其中,所述情感矩阵SM包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵;
本实施例中,采用情感矩阵对中文情感元素进行个性化表征;
步骤S300、获取用户行为序列元组,基于所述用户行为序列元组和情感矩阵确定序列化推荐模型;
其中,所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型;所述用户行为序列元组包括:用户名称、物品名称、评论时间;
步骤S400、基于所述序列化推荐模型生成用户最终偏好;基于所述用户最终偏好PF得到物品相关性高低的得分,将所述评分作为预测推荐物品的依据。
本发明公开的序列推荐方法通过对连续变化的中文评论中的情感因素进行抽取、挖掘与表征,对现有的推荐方式进行了改进,使其能够在中文语境中具有较好的推荐性能。
在一个优选的实施例中,所述步骤S100包括:
步骤S110、爬取中文评论信息,对所述中文评论信息进行数据清洗和关键字提取,得到结构化评论文本;
步骤S120、对所述结构化评论文本的长度进行筛选,选取文本长度在设定范围内的评论文本,形成评论文本集;其中,所述评论文本中,每个用户与物品的交互次数均不少于设定次数。
本实施例中,采用网络爬虫爬取中文评论信息,网络爬虫(又称网页蜘蛛,网络机器人)是一种按照一定规则进行自动抓取万维网信息的程序。
首先,进入网页定位目标数据,爬取html的源码,解析并筛选数据;使用python模拟浏览器客户端,对服务器发出请求;服务器接收并返回资源,获取数据;对获取到的数据进行解析查找,得到所需要的数据。
下面,以具体实施例说明中文评论信息的选择与爬取:
以网易云音乐和BiliBili网站(以下简称B站)为例作为中文评论信息的数据源。网易云音乐的音乐评论和B站的视频评论数量众多,全部爬取的时间成本较高,可行性不大。为了使数据集能够覆盖到数量更多的用户,同时评论内容要具有时效性(其评论时间发布不到一年),针对两个网站采取了不同的爬取方法。
(1)网易云音乐的中文评论信息的爬取方法:
不同的音乐听众拥有不同的音乐风格爱好。粉丝们往往会因为喜欢某一个歌手而喜欢该歌手的歌曲,针对这些歌曲发表评论的可能性也就越高。网易云音乐评论的爬取流程如下:
第一步:进入网页定位数据,获取对应歌手的id;
第二步:根据歌手id获取该歌手的热门歌曲的id;
第三步:根据歌曲的id爬取听众的评论内容,个人昵称,ID以及评论时间等;
第四步:解析得到中文评论信息,每条中文评论信息的保存格式如表1:
表1:网易云音乐的爬取内容:
(2)B站评论的中文评论信息的爬取方法:
B站评论的爬取流程如下:
第一步:进入网页定位数据,查找到视频ID号;
第二步:构造视频评论链接,获取到评论的页数;
第三步:获取JSON格式的评论数据;
第四步:解析JSON评论数据,根据关键字提取得到中文评论信息,每条中文评论信息的保存格式如表2:
表2:B站的爬取内容:
标识 | UserId | Username | Time | View | Item | Link |
描述 | 用户标识 | 用户名称 | 评论时间 | 文本评论 | 视频名称 | 视频链接 |
数据清洗,也称为数据清理,用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。数据清洗是深度学习建模十分重要的一步,没有经过数据清洗的数据集往往无法训练或者无法得到良好的训练效果。数据清洗包括去除残缺数据,去除错误的数据,以及去除重复的数据。之后,经过第一轮清洗的数据需要再进行评论文本长度的清洗。过长或者过短的评论都会使得数据集具有“噪声”,影响到后续模型的训练效果,因此,对评论数据的长度进行筛选是十分必要的一项工作。
传统的深度学习数据集往往经过筛选和调优,而本实施例所采集的数据集直接来自于娱乐平台(如B站、网易云音乐)最近一年产生的最热门娱乐产品(歌曲和视频)评论,因此本实施使用的数据集具有良好的时效性。
本发明提供的实施例中,在数据预处理阶段,对评论文本的长度进行筛选(去除过短和过长的评论),避免极端情感对模型的训练产生影响。为了提高推荐性能,在筛选出的数据中,每个用户与物品的交互次数均不少于20次(即每个用户至少需要有20次的物品消费记录)。作为输入的子序列(用户行为-情感序列)最大长度设置为20。相比于SGS的数据集,本实施例收集的数据集直接面向工业界,覆盖的产品和用户数量众多,具有很强的时效性和可信度。
表3:B站数据集特征:
在一个优选的实施例中,所述步骤S200包括:
步骤S210、对评论文本集进行中文情感个性化挖掘,得到每个评论文本的情感数值;所述评论文本的情感数值包括:情感概率、情感类别、以及置信度;
其中,情感概率的取值范围均为[0,1],情感概率的取值越接近0表明情感越消极,越接近于1表明情感越积极。
需要说明的是,在中文情感个性化挖掘中,我们考虑对每一个用户进行个性化的评论情感挖掘。在一些实施例中,使用技术较为成熟的百度人工智能的自然语言处理API工具对评论文本进行中文情感个性化挖掘。
调用百度API提取中文文本情感的流程包括以下步骤:
1.安装百度智能云SDK,并获取用于标识用户的APPID,AK,SK;
2.导入B站和网易云音乐的评论;
3.调用API接口,对评论文本进行情感分析,将提取的情感结果解析成标准JSON格式数据,保持结果;
4.如果提取情感数据失败则记录序号,执行步骤2;
5.遍历所有文本评论,直到提取全部的文本情感。
对于英文评论文本数据集,SGS模型采用的方法是使用Stanford-NLP工具包提取文本情感,每个评论存在五个维度的情感值:非常积极(very positive),积极(positive),中性(neutral),消极(negative),非常消极(very negative)。
而中文文本语言词汇更加丰富,内涵更加丰富,且往往更加难以量化。并且Stanford-NLP工具包只支持中文分词,并不支持中文情感提取。而基于深度学习技术和百度大数据技术,百度人工智能可以对带有主观描述的中文文本自动判断出该文本的情感极性类别(积极、消极)并给出相应的情感类别与置信度。
表4:情感提取后的数据集特征:
数据集名称 | 情感数据维度 | 评论数量(条) |
B站视频数据集 | 4 | 858960 |
网易云音乐数据集 | 4 | 81798 |
本实施例通过调用百度API提取中文文本情感。这种方法支持并发,时效性更快,并且提取的成功率相对较高。得到的情感维度只有四个维度(积极情感概率、消极情感概率、情感类别、以及置信度)。情感维度的减少,有助于缩短模型训练的时间,避免维度灾难。
表5:百度文本情感倾向分析的调用数据示例:
调用量(次) | 调用失败量(次) | 失败率 |
156467 | 8012 | 5.12% |
步骤S220、采用等频率均分方式将所有情感数值按个数均分成n份,使得每一份中情感数值的数量相等;
步骤S230、基于数据分箱方法将所述情感数值生成情感矩阵SM;其中,所述情感矩阵SM包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵,M表示情感矩阵的项数,M=4;SM={Sp,Sn,Ss,Sc},Sp表示积极情感矩阵,Sn表示消极情感矩阵,Ss表示情感类别矩阵,Sc表示置信度矩阵,Sp,Sn,Ss,Sc∈R|S|×d,R|S|×d表示矩阵的形状,d表示数据的潜在维度。
需要说明的是,获取到的情感数值属于分布连续的数值,直接运用原始数据可能导致在模型在训练时不稳定,甚至会出现过拟合的情况。本实施例中,使用数据分箱(也称为离散分箱)作为情感元素的表征技术,用于减少次要观察误差的影响,数据分箱是一种将多个连续值分组为较少数量的“分箱”的方法。
数据分箱技术可以增强模型的鲁棒性,降低模型过拟合的风险,同时离散化的数值易于模型的快速迭代。数据分箱方法可以包括有监督分箱和无监督分箱两种。无监督分箱包括等距分箱和等频分箱,有监督分箱包括卡方分箱等。
参考图2,如果使用值均分将所有的情感值根据取值范围均分成n份,使得每一份的取值长度都相等,由图2可知,观察情感数据的分布情况可知:数据情感值大部分都集中分布在0和1附近,这意味着如果采用值均分时会使得大部分的值都分配到几个接近0或1的‘箱子’中,这将导致模型性能大大降低。因此,我们采用等频率均分,将所有情感数值按个数均分成n份,使得每一份中情感数值的数量相等。等频率数据分箱效果如图3所示。
参考图4,在一个优选的实施例中,所述步骤S300包括:
步骤S310、获取用户行为序列元组((i1,S1),(i2,S2),…,(iq,Sq)),其中,iq表示第q个消费物品,Sq表示第q个物品所对应的情感矩阵;
步骤S320、以固定长度将所述用户行为序列元组划分物品矩阵E,将所述物品矩阵和情感矩阵构造为嵌入矩阵;其中,E∈R|I|×d,R|I|×d表示矩阵的形状;
本实施例中,所述固定长度为n=20,在物品矩阵使用零补充与截断,使每个物品矩阵具有相同的长度;
其中,Q代表注意力机制中的查询,K代表注意力机制中的键,V代表注意力机制中的值,Sm为Sp,Sn,Ss,Sc其中一个;WQ,WK,WV∈Rd×d,WQ表示Q的投影矩阵,WK表示K的投影矩阵,WV表示V的投影矩阵,Rd×d表示矩阵的形状,d表示数据的潜在维度;
步骤S350、同时采用稀疏注意力模型对情感产生的偏好进行独立性建模,将积极情感矩阵、消极情感矩阵、情感类型矩阵以及置信度矩阵聚合得到聚合矩阵,基于所述聚合矩阵得到稀疏注意力模型,计算公式为:
其中,||运算符表示仅使用距离小于或者等于r的两个行为来计算注意力,S4为聚合矩阵,r为稀疏率。
本实施例中的序列化推荐模型采用稀疏注意力模型机制对情感产生的偏好进行独立建模。在B站情感数据集上,经过实验证明r=10的时候表现最优。
在一个优选的实施例中,所述步骤S400包括:
步骤S410、基于所述自注意力机制模型的拼接结果得到第一用户偏好PGu,基于所述稀疏注意力模型得到第二用户偏好PGe;所述第一用户偏好的计算公式为: 其中,PGu表示第一用户偏好;所述第二用户偏好的计算公式为:其中,WP∈Ro×o,o是注意力层输出的维度,PGe表示第二用户偏好;
本步骤中,基于自注意力机制模型的拼接结果得到第一用户偏好,基于稀疏注意力模型得到第二用户偏好;
步骤S420、将所述第一用户偏好PGu和第二用户偏好PGe聚合生成用户最终偏好;所述用户最终偏好的计算公式为:PF=WFLayerNorm(ConCat([PGu,PGe]))+BF,其中,WF和BF为训练参数;
步骤S430、通过所述用户最终偏好PF得到物品相关性高低的得分,基于所述得分预测推荐物品。
本实施例中,对所述自注意力机制模型的拼接结果进行规范化操作,再使用RNN模型对行为序列上的注意力进行建模,获得情感引导的用户偏好,作为第一用户偏好;同时,使用规范化操作和RNN模型计算纯粹情感变化所产生的偏好,作为第二用户偏好;通过将两个通道所产生的两种类型的偏好聚合生成用户最终的偏好,该双通道模型统称为CSAS模型:采用二进制交叉熵损失和Adam优化器来训练CSAS模型,最后通过PF得到物品相关性高低的得分来预测下一个物品。
实验发现,B站中文数据集在SASRec模型下的表现不佳;而使用本序列化推荐模型(CSAS模型)对B站中文数据集进行调参实验,得到的效果良好。这说明了序列化推荐模型在中文语境下的运用是可行和高效的。
表6:性能对照表:
数据集 | 方法 | Hit@10 | Hit@20 | Hit@30 | Hit@40 |
B站 | SASRec | 0.04464 | 0.06022 | 0.07192 | 0.08403 |
B站 | CSAS模型 | 0.67068 | 0.78250 | 0.85607 | 0.89716 |
数据集 | 方法 | NDCG@10 | NDCG@20 | NDCG@30 | NDCG@40 |
B站 | SASRec | 0.03774 | 0.04283 | 0.04704 | 0.05006 |
B站 | CSAS模型 | 0.59830 | 0.63938 | 0.66236 | 0.67483 |
与图1的方法相对应,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于中文评论情感引导的序列推荐程序,所述基于中文评论情感引导的序列推荐程序被处理器执行时实现如上述任意一实施例所述的基于中文评论情感引导的序列推荐方法的步骤。
与图1的方法相对应,本发明实施例还提供一种基于中文评论情感引导的序列推荐系统,所述系统包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述任一实施例所述的基于中文评论情感引导的序列推荐方法。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
所述处理器可以是中央处理单元(Central-Processing-Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor,DSP)、专用集成电路(Application-Specific-Integrated-Circuit,ASIC)、现场可编程门阵列(Field-Programmable-Gate-Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于中文评论情感引导的序列推荐系统的控制中心,利用各种接口和线路连接整个基于中文评论情感引导的序列推荐系统可运行装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于中文评论情感引导的序列推荐系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart-Media-Card,SMC),安全数字(Secure-Digital,SD)卡,闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本申请的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求,考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本申请的预定范围。此外,上文以发明人可预见的实施例对本申请进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本申请的非实质性改动仍可代表本申请的等效改动。
Claims (7)
1.一种基于中文评论情感引导的序列推荐方法,其特征在于,所述方法包括以下步骤:
步骤S100、获取中文评论信息,基于所述中文评论信息确定评论文本集;
步骤S200、基于所述评论文本集生成情感矩阵,其中,所述情感矩阵SM包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵;
步骤S300、获取用户行为序列元组,基于所述用户行为序列元组和情感矩阵确定序列化推荐模型;其中,所述序列化推荐模型包括自注意力机制模型和稀疏注意力模型;
步骤S400、基于所述序列化推荐模型生成用户最终偏好;基于所述用户最终偏好PF得到物品相关性高低的得分,将所述评分作为预测推荐物品的依据。
2.根据权利要求1所述的一种基于中文评论情感引导的序列推荐方法,其特征在于,所述步骤S100包括:
步骤S110、爬取中文评论信息,对所述中文评论信息进行数据清洗和关键字提取,得到结构化评论文本;
步骤S120、对所述结构化评论文本的长度进行筛选,选取文本长度在设定范围内的评论文本,形成评论文本集;其中,所述评论文本中,每个用户与物品的交互次数均不少于设定次数。
3.根据权利要求2所述的一种基于中文评论情感引导的序列推荐方法,其特征在于,所述步骤S200包括:
步骤S210、对评论文本集进行中文情感个性化挖掘,得到每个评论文本的情感数值;所述评论文本的情感数值包括:情感概率、情感类别、以及置信度;
步骤S220、采用等频率均分方式将所有情感数值按个数均分成n份,使得每一份中情感数值的数量相等;
步骤S230、基于数据分箱方法将所述情感数值生成情感矩阵SM;其中,所述情感矩阵SM包括:积极情感矩阵、消极情感矩阵、情感类别矩阵、以及置信度矩阵,M表示情感矩阵的项数,M=4;SM={Sp,Sn,Ss,Sc},Sp表示积极情感矩阵,Sn表示消极情感矩阵,Ss表示情感类别矩阵,Sc表示置信度矩阵,Sp,Sn,Ss,Sc∈R|S|×d,R|S|×d表示矩阵的形状,d表示数据的潜在维度。
4.根据权利要求3所述的一种基于中文评论情感引导的序列推荐方法,其特征在于,所述步骤S300包括:
步骤S310、获取用户行为序列元组((i1,S1),(i2,S2),…,(iq,Sq)),其中,iq表示第q个消费物品,Sq表示第q个物品所对应的情感矩阵;
步骤S320、以固定长度将所述用户行为序列元组划分物品矩阵E,将所述物品矩阵和情感矩阵构造为嵌入矩阵;其中,E∈R|I|×d,R|I|×d表示矩阵的形状;
其中,Q代表注意力机制中的查询,K代表注意力机制中的键,V代表注意力机制中的值,Sm为Sp,Sn,Ss,Sc其中一个;WQ,WK,WV∈Rd×d,WQ表示Q的投影矩阵,WK表示K的投影矩阵,WV表示V的投影矩阵,Rd×d表示矩阵的形状,d表示数据的潜在维度;
步骤S350、同时采用稀疏注意力模型对情感产生的偏好进行独立性建模,将积极情感矩阵、消极情感矩阵、情感类型矩阵以及置信度矩阵聚合得到聚合矩阵,基于所述聚合矩阵得到稀疏注意力模型,计算公式为:
其中,||运算符表示仅使用距离小于或者等于r的两个行为来计算注意力,S4为聚合矩阵,r为稀疏率。
5.根据权利要求5所述的一种基于中文评论情感引导的序列推荐方法,其特征在于,所述步骤S400包括:
步骤S410、基于所述自注意力机制模型的拼接结果的拼接结果得到第一用户偏好PGu,基于所述稀疏注意力模型得到第二用户偏好PGe;所述第一用户偏好的计算公式为:其中,PGu表示第一用户偏好;所述第二用户偏好的计算公式为:其中,WP∈Ro×o,o是注意力层输出的维度,PGe表示第二用户偏好;
步骤S420、将所述第一用户偏好PGu和第二用户偏好PGe聚合生成用户最终偏好;所述用户最终偏好的计算公式为:PF=WFLayerNorm(ConCat([PGu,PGe]))+BF,其中,WF和BF为训练参数;
步骤S430、通过所述用户最终偏好PF得到物品相关性高低的得分,基于所述得分预测推荐物品。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于中文评论情感引导的序列推荐方法的步骤。
7.一种基于中文评论情感引导的序列推荐系统,其特征在于,所述系统包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至5任一项所述的基于中文评论情感引导的序列推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110588218.3A CN113268667B (zh) | 2021-05-28 | 2021-05-28 | 一种基于中文评论情感引导的序列推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110588218.3A CN113268667B (zh) | 2021-05-28 | 2021-05-28 | 一种基于中文评论情感引导的序列推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268667A true CN113268667A (zh) | 2021-08-17 |
CN113268667B CN113268667B (zh) | 2022-08-16 |
Family
ID=77233269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110588218.3A Active CN113268667B (zh) | 2021-05-28 | 2021-05-28 | 一种基于中文评论情感引导的序列推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268667B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781180A (zh) * | 2021-09-16 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种物品推荐方法、装置、电子设备及存储介质 |
CN114492407A (zh) * | 2022-01-26 | 2022-05-13 | 中国科学技术大学 | 一种新闻评论生成方法、系统、设备及存储介质 |
CN115223271A (zh) * | 2022-06-28 | 2022-10-21 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆剩余信息误差的关注度获得方法及相关装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391984A (zh) * | 2014-12-11 | 2015-03-04 | 南京大学 | 一种中英文混合的网络用户评论的推荐度评分方法 |
WO2017084197A1 (zh) * | 2015-11-18 | 2017-05-26 | 深圳创维-Rgb电子有限公司 | 一种基于情感识别的智能家居控制方法及其系统 |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN109918564A (zh) * | 2019-01-25 | 2019-06-21 | 汕头大学 | 一种面向完全冷启动的上下文自动编码推荐方法及系统 |
CN110119443A (zh) * | 2018-01-18 | 2019-08-13 | 中国科学院声学研究所 | 一种面向推荐服务的情感分析方法 |
CN110674339A (zh) * | 2019-09-18 | 2020-01-10 | 北京工业大学 | 一种基于多模态融合的中文歌曲情感分类方法 |
CN112133406A (zh) * | 2020-08-25 | 2020-12-25 | 合肥工业大学 | 基于情感图谱的多模态情感引导方法和系统、存储介质 |
-
2021
- 2021-05-28 CN CN202110588218.3A patent/CN113268667B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391984A (zh) * | 2014-12-11 | 2015-03-04 | 南京大学 | 一种中英文混合的网络用户评论的推荐度评分方法 |
WO2017084197A1 (zh) * | 2015-11-18 | 2017-05-26 | 深圳创维-Rgb电子有限公司 | 一种基于情感识别的智能家居控制方法及其系统 |
CN110119443A (zh) * | 2018-01-18 | 2019-08-13 | 中国科学院声学研究所 | 一种面向推荐服务的情感分析方法 |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN109918564A (zh) * | 2019-01-25 | 2019-06-21 | 汕头大学 | 一种面向完全冷启动的上下文自动编码推荐方法及系统 |
CN110674339A (zh) * | 2019-09-18 | 2020-01-10 | 北京工业大学 | 一种基于多模态融合的中文歌曲情感分类方法 |
CN112133406A (zh) * | 2020-08-25 | 2020-12-25 | 合肥工业大学 | 基于情感图谱的多模态情感引导方法和系统、存储介质 |
Non-Patent Citations (1)
Title |
---|
LIN ZHENG等: "Sentiment-guided Sequential Recommendation", 《IN PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL (SIGIR ’20)》, 30 July 2020 (2020-07-30), pages 1957 - 1960, XP058747793, DOI: 10.1145/3397271.3401330 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781180A (zh) * | 2021-09-16 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种物品推荐方法、装置、电子设备及存储介质 |
CN114492407A (zh) * | 2022-01-26 | 2022-05-13 | 中国科学技术大学 | 一种新闻评论生成方法、系统、设备及存储介质 |
CN115223271A (zh) * | 2022-06-28 | 2022-10-21 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆剩余信息误差的关注度获得方法及相关装置 |
CN115223271B (zh) * | 2022-06-28 | 2024-05-07 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆剩余信息误差的关注度获得方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113268667B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11645301B2 (en) | Cross media recommendation | |
US10783361B2 (en) | Predictive analysis of target behaviors utilizing RNN-based user embeddings | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
CN113268667B (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
He et al. | Comment-based multi-view clustering of web 2.0 items | |
CN110532479A (zh) | 一种信息推荐方法、装置及设备 | |
Hammad et al. | An approach for detecting spam in Arabic opinion reviews | |
US20180158078A1 (en) | Computer device and method for predicting market demand of commodities | |
US20090083222A1 (en) | Information Retrieval Using Query-Document Pair Information | |
US20170255862A1 (en) | Method and system for user profiling for content recommendation | |
CN112434151A (zh) | 一种专利推荐方法、装置、计算机设备及存储介质 | |
CN104615608A (zh) | 一种数据挖掘处理系统及方法 | |
KR20160057475A (ko) | 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법 | |
Alabdulrahman et al. | Catering for unique tastes: Targeting grey-sheep users recommender systems through one-class machine learning | |
EP4202725A1 (en) | Joint personalized search and recommendation with hypergraph convolutional networks | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
CN104641371A (zh) | 社交网络系统中基于上下文的对象检索 | |
CN114201680A (zh) | 一种向用户推荐营销产品内容的方法 | |
Grivolla et al. | A hybrid recommender combining user, item and interaction data | |
Guo et al. | Dynamic feature generation and selection on heterogeneous graph for music recommendation | |
Xu et al. | Towards annotating media contents through social diffusion analysis | |
Sun | Music Individualization Recommendation System Based on Big Data Analysis | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |