CN112991017A - 基于用户评论解析的标签体系精准推荐方法 - Google Patents
基于用户评论解析的标签体系精准推荐方法 Download PDFInfo
- Publication number
- CN112991017A CN112991017A CN202110327151.8A CN202110327151A CN112991017A CN 112991017 A CN112991017 A CN 112991017A CN 202110327151 A CN202110327151 A CN 202110327151A CN 112991017 A CN112991017 A CN 112991017A
- Authority
- CN
- China
- Prior art keywords
- user
- commodity
- word
- comment
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 173
- 238000004458 analytical method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 97
- 238000001914 filtration Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 33
- 230000006399 behavior Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 19
- 238000012986 modification Methods 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims 1
- 230000002996 emotional effect Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出的基于用户评论解析的标签体系精准推荐方法,针对用户·商品·标签三元关系构建兴趣模型,得到更适合标签体系的精准推荐方法,针对标签体系中用户的标签信息数据通常存在数据稀疏问题,而使用稀疏数据计算出来的用户相似度准确度低,创造性引入了用户评论数据,对用户评论信息进行文本解析,对评论信息进行中文分词和关键字词抽取,将抽取的关键字词作为伪标签,提取出用户标签扩充标签信息数据,解决标签信息数据稀疏问题,同时基于用户评论信息包含了用户喜好,对评论信息中的情感字词进行赋值计算,从用户评论中得到用户对商品的评分值,利用得到的评分值信息进一步改进标签算法,提高推荐结果的准确度。
Description
技术领域
本发明涉及一种商品定制化精准推荐方法,特别涉及一种基于用户评论解析的标签体系精准推荐方法,属于商品定制化推荐技术领域。
背景技术
随着互联网特别是移动互联网的飞速普及和发展,人们能够从网络上获取海量的资源。然而网络上资源的持续增多,也使得人们想要获取自己所需资源变得越来越困难。搜索引擎虽能够解决一部分信息过载问题,但搜索结果的准确性很大程度上基于用户输入的关键字词。当前很多系统的展示区域十分有限,要在有限的区域内尽可能多的展示出用户感兴趣的信息资源,才能更好的吸引用户。
定制化推荐系统通过数据挖掘得到推荐数据源,不需要用户参与推荐过程,可以主动、定制化的对用户进行推荐。定制化推荐系统涉及到定制化商品、邮件、广告、网上服务、音频、阅读等各个领域。目前许多互联网公司均添加了推荐功能,比如腾讯、京东、抖音、天猫等。与其它推荐方法相比较,协同过滤方法使用稳定且结果更优,协同过滤算法根据用户历史数据生成兴趣模型,然后在此基础上计算用户或商品的相似度来推荐资源。虽然协同过滤相较于基于内容或基于关联规则等算法具有更高的准确率,但存在冷启动、数据稀疏、可扩展差、用户满意度低等一系列问题。
移动互联网的发展使得标签成为绝大多数网站的必要组成部分,标签主要用于描述网站、商品等信息,具有无层次化结构。用户不仅能够查看商品的标签,还能给商品打标签,加强了用户与网站之间的交互性。同时,标签能够一定程度上反映出用户的个人喜好。因此,针对标签体系,使用协同过滤精准推荐方法,综合考虑用户、商品、标签之间的各种关系,能够获取更好的推荐效果。
协同过滤推荐方法主要用于对系统中的商品进行预测评分,假设二个用户对系统中的同一个商品评分一样,则二者在一定程度上具有相似性。日志系统记录用户对历史浏览商品的评分数据,再由这些数据找到用户的相似用户集合,进而由相似用户集合对目标商品评分,得到用户对该商品的预测评分数。协同过滤算法一般分为基于用户和基于商品推荐两类,二者都是通过计算最近邻集合进行建模推荐,协同过滤推荐方法比较适用于难以对其内容进行特征分析的资源,因为它无需对资源的内容进行分析,而是通过用户的相似用户进行的定制化推荐,比较适合音乐、电影、视频等资源的推荐。协同过滤精准推荐方法是根据相似用户进行的推荐,因此用户获取的推荐资源跟其历史资源之间可以完全没有相似度,所以给用户的推荐结果可能会让用户感到很新奇,提高推荐结果的新颖性。但是,协同过滤算法也存在着一些问题,除处理计算复杂外,协同过滤的用户评分矩阵存在着较严重的数据稀疏问题,依据稀疏矩阵计算的相似度结果会不准确,这样会导致给用户推荐的商品满意度不高。协同过滤推荐系统实时性也不高,因为系统需要维护一个很大的用户相似度矩阵,需要更新整个相似度矩阵中的数据,会非常的耗时,只能做到隔较长一段时间更新一次,实时性较低。
现有技术依然没有从根本上解决商品定制化精准推荐的难题,现有技术的难点和本发明解决的问题主要集中在以下方面:
第一,定制化推荐系统通过数据挖掘得到推荐数据源,不需要用户参与推荐过程,可以主动、定制化的对用户进行推荐。现有技术的定制化推荐一般采用协同过滤方法,协同过滤算法根据用户历史数据生成兴趣模型,然后在此基础上计算用户或商品的相似度来推荐资源。虽然协同过滤相较于基于内容或基于关联规则等算法具有更高的准确率,但现有技术存在冷启动、数据稀疏、可扩展差、用户满意度低等一系列问题;
第二,现有技术的协同过滤推荐方法存在着一些明显的问题,除处理计算复杂外,协同过滤的用户评分矩阵存在着较严重的数据稀疏问题,依据稀疏矩阵计算的相似度结果会不准确,这样会导致给用户推荐的商品满意度不高,现有技术的协同过滤推荐系统实时性也不高,因为系统需要维护一个很大的用户相似度矩阵,需要更新整个相似度矩阵中的数据,会非常的耗时,只能做到隔较长一段时间更新一次,实时性较低,无法达到理论效果;
第三,现有技术的推荐系统定制化效果差,需要用户参与推荐过程,无法依据用户历史行为数据对其进行推荐,无法根据具体的情况进行分析判断,现有技术方法的准确率、召回率低,无法解决标签体系数据稀疏问题,不适合标签系统,处理计算复杂,推荐结果满意度低,覆盖范围小,且结果的多样性也不好;
第四,现有技术的推荐系统无法解决标签体系中用户标签的数据稀疏问题,没有加入用户评论信息,通过对评论信息进行文本解析,提取商品特征值扩充标签,同时利用评论信息得到用户对商品的满意度分数的相关方案,造成准确率、召回率低,用户满意度差,且计算复杂,耗时长,对算法时间复杂度方面进行较大提升存在诸多困难;
第五,现有技术没有采用用户·商品·标签三元关系构建兴趣模型,无法得到更适合标签体系的精准推荐方法,又没有引入了用户评论数据,无法解决标签信息数据稀疏问题,没有对评论信息进行中文分词和关键字词抽取,对评论信息中的情感字词进行赋值计算,从用户评论中得到用户对商品的评分值,利用得到的评分值信息改进标签算法的相关方案,推荐结果的准确度和效率低。
发明内容
针对现有技术的不足,本发明提出的基于用户评论解析的标签体系精准推荐方法,创新点之一是针对标签体系中用户标签的数据稀疏问题,创造性的加入用户评论信息,通过对评论信息进行文本解析,提取商品特征值扩充标签,同时利用评论信息得到用户对商品的满意度分数,改进协同过滤精准推荐方法,与不加入评论信息的推荐算法计算结果对比,通过实验能够得出,本发明在准确率、召回率上有显著提升,而在覆盖率上略有提高,流行度值变高,流行度值升高是由于满意度高的资源会优先推荐给用户,会获得更高的准确度和召回率,实时性好。
为达到以上技术效果,本发明所采用的技术方案如下:
基于用户评论解析的标签体系精准推荐方法,将协同过滤方法改进融合到标签体系中,针对用户·商品·标签三元关系构建兴趣模型,得到更适合标签体系的精准推荐方法;引入用户评论数据,对用户评论信息进行文本解析,提取出用户标签扩充标签信息数据,同时基于用户评论信息包含了用户喜好,根据用户评论信息计算用户满意度分数;
对基于标签体系的协同过滤推荐方法进行改进,将标签体系中的用户评论信息加入到推荐过程中,对评论信息进行中文分词和关键字词抽取,将抽取的关键字词作为伪标签,解决标签信息数据稀疏问题,对评论信息中的情感字词进行赋值计算,从用户评论中得到用户对商品的评分值,利用得到的评分值信息进一步改进标签算法;
基于用户评论的标签体系协同过滤方法改进是对用户的评论信息进行处理转化为相应的满意度分数,对所有用户的评论信息均采取分词处理,然后获取所有依存于名词+助词后面的形容词,获取的形容词中包括系统用户对所评论商品的喜好和评价,对抽取的形容词进行处理即可得到用户对商品的评分,包括:一是利用用户评论中的隐藏信息,二是对用户评论进行处理,三是基于用户评论扩充标签,四是基于用户评论的改进精准推荐方法;基于用户评论的改进精准推荐方法具体包括:第一,处理用户评论获取评价词;第二,对评价词打分;第三,满意度分数改进精准推荐。
基于用户评论解析的标签体系精准推荐方法,进一步的,融合标签体系的协同过滤改进方法:基于标签体系,改进协同过滤方法进行定制化推荐,协同过滤推荐包括三个步骤:构建用户模型,获取相似用户集,计算生成推荐结果,
第一,构建用户模型:获取用户对资源的反馈情况,反馈包括显性反馈和隐性反馈两种,显性反馈是用户对商品的相关直接反馈,包括给产品打分、点赞/踩、用户评价,用户模型描述用户个人兴趣分布,采用用户·资源矩阵Q描述,矩阵项值Qij代表用户i对商品j的评价值,隐性反馈对用户的购买、查看、收藏历史数据进行解析;
第二,获取相似用户集:产生相邻用户,找到与目标用户相似的群体,采用余弦相似度来计算用户之间的相似度值,再采用临界值算法选出相似群体;
第三,计算生成推荐结果:用户预测评分的原理方法是:如果用户i对商品j没有评价值,得到用户i相邻用户对商品j的加权平均评价值,用其代表i对j的评分,用户·商品评价值矩阵高度稀疏,首先计算用户i已经评分项目的评分均值,然后用该值填充所有用户i未给出分数的商品的评价值。
基于用户评论解析的标签体系精准推荐方法,进一步的,本发明假设购买过相同商品的用户具有一定的相似性,主要分为三个步骤:
第1步,匹配与特定用户兴趣相似的群体;
第2步,匹配项目库中系统使用者可能喜爱,但目标使用者没有看过的项目列表;
第3步,利用Top·n方法,获取最终的推荐项目集合,要找到与特定系统用户兴趣相似的群体,计算目标用户与系统中其他用户的相似度,给定系统用户v和用户u,用户v、u有过历史行为的商品列表用M(v)、M(u)来代表,采用余弦方法计算系统用户相互之间的相似度,如式1所示,
采用离线计算的方式进行相似度计算,维护一个所有用户两两关系的相似度矩阵,保证在线推荐高效,分析式1,只有当|M(v)∩M(u)|≠0时,Kvu才有值,而大部分情况下用户之间未对同一项目进行评价打分,所以只计算|M(v)∩M(u)|≠0时的情况,生成项目到用户的倒查表,各个项目分别持有对其进行过评价打分的所有用户集合,计算用户之间相似度时,扫描项目的倒查表,把表中两两用户的|M(v)∩M(u)|值加1,得到所有不为0的|M(v)∩M(u)|值,再得出Kvu的值;
把与目标用户v最相似的W个用户(N(v,W))关注的项目推荐给用户v,采用式2计算用户v对商品i的关注度:
Q(v,i)=∑u∈N(v,w)∩M(i)Kvu 式2
式2中M(i)表示对项目i有历史行为的群体,Kvu是系统用户v,u相互之间的兴趣相似度,选取合适的W值,对K(v,W)中所有用户v没有过历史行为的项目根据式2计算用户v对其的关注值,并利用Top·n方法,获取最终的推荐项目集合。
基于用户评论解析的标签体系精准推荐方法,进一步的,得到系统中用户两两之间的相似度后,根据相似用户对目标用户进行相关商品推荐,无论是用户对商品的收藏关系还是注解关系,都能表明用户对该商品具有一定的兴趣度,找到用户的相似用户之后,针对一个商品,若用户的相似用户产生过行为且用户v没有产生过行为的商品,则系统将其推荐给用户v,具体步骤为:
步骤一,得到用户v的相似用户集合C(v);
步骤二,取C(v)的前M个用户,将每个用户u与用户v的相似度值赋值给用户u产生过历史行为的各个商品;
步骤三,商品i得到的最后的推荐值为所有C(v)中用户对商品u赋值的总和;
步骤四,将商品按照总推荐值的大小进行排序,选取前M1个商品推荐给用户v;
标签体系中没有用户对商品的评分,将相似用户过去标注的所有商品赋予相同的权值,根据步骤二,得到商品i和j将获取相同的赋值,除了标签信息,用户都会对标注的商品进行评论,评论信息中包含用户对商品的喜好,利用用户评论来改进精准推荐方法。
基于用户评论解析的标签体系精准推荐方法,进一步的,利用用户评论中的隐藏信息:用户对商品的评论信息相较于标签信息,不仅包括商品的特征,还包括用户对商品的满意度,用户评论信息作为参考元素进而改进精准推荐方法,两种信息都能在一定程度上被系统所用,进而改善推荐效果,采用两种方式对用户评论信息进行利用,一种是通过中文分词方法对用户评论信息进行处理,抽取出商品的特征值作为伪标签,另一种是对通过用户的评论得到其对商品的满意度分数,并使用该分数改进商品精准推荐方法。
基于用户评论解析的标签体系精准推荐方法,进一步的,对用户评论进行处理:推荐系统中分析相关语句的过程用到自然语言处理的方法,通过使用中文分词、词类消疑、语义依存分析对相关语句进行处理,得到感兴趣的关键字词;
中文分词:用户评论句子由词语组成,为了使机器理解中文句子,将句子划分成多个词串,本发明采用监督学习分词方法:采用分类器、序列标注分词,充分利用上下文信息,从机器学习角度看待中文分词,具体采用序列标注分词法,采用简单的基于字的序列标注问题来替代复杂的中文分词问题,构建适合的分词模型进行处理;
词类消疑:词性是词在句子中所处的作用,将其当成对词语进行类别划分的依据,词类消疑依赖于语义,同一个词可能具有几个不同的词性,但是在特定上下文环境下它的语义和词性是确定的,判断词性充分的结合它在语句中的语义和位置,本发明采用基于统计学习的词类消疑法,对句子进行分词的质量依赖于所构建的学习算法模型;
依存句法分析:依存句法表现句子中各个词的依存关系,即词和词的支配从属关系,依存关系采用有向边表示,由从属词指向支配词,且二者之间是多对一的关系,本发明采用数据驱动依存句法分析,通过建模计算句子依存结构的分数,再利用标注数据估算模型中参数,最后推断分数最大的依存结构,基于数据驱动的依存句法采用基于图和的方法,采用动态规划方法。
基于用户评论解析的标签体系精准推荐方法,进一步的,基于用户评论扩充标签:采用中文分词对用户评论进行处理,中文分词将句子划分为多个词组成的词串,以便计算机理解句子所表示的语义信息,接着需要对分词结果进行词类消疑,词性是句子划分词类的依据,汉语字典将其有具体的分类,采用词类消疑将句子中所有词在该语境下的词性标出,针对具体的语义环境,句子中所有词的词性都是确定的,进一步对句子进行依存句法分析,依存句法描述的是句子中词语间的相互依存关系,两个词如果具有依存关系,则其中一个是作为支配词,另一个是作为从属词;
根据中文依存关系,抽取形容词+助词后面的形容词,将此形容词作为句子的特征值,从用户v对商品i的评论中抽取的特征值保存在Gvi中,抽取的特征值作为商品的伪标签使用,用户对商品没有打标签时,将用户评论信息中抽取的特征值作为标签信息,特征值作为的标签并非真正的标签,而且抽取的准确度取决于用户的评论表述和抽取技术,描述商品的准确度相对于用户所打的标签较低,为伪标签,伪标签解决用户标注商品的数据稀疏性问题;
伪标签并非用户对标签的实际使用,在用户·标签二维图中使用原来的用户标签,对于三元标注关系,如果用户购买了某个商品而没有对该商品打标签,将伪标签作为商品标签使用,从而扩充用户、商品、标签三元标注关系的数据。
基于用户评论解析的标签体系精准推荐方法,进一步的,处理用户评论获取评价词:用户的评论信息中包括了用户对商品的评价词,对评论信息进行处理得到评价词的步骤为:
步骤1,从后台日志系统中读取用户对商品的评论数据集;
步骤2,对读取到的用户评论信息进行中文分词和词类消疑;
步骤3,分析该评论中是否包括名词和形容词,如果包括这两类词,使用依存句法分析方法,分析形容词和名词之间是否是修饰关系;
步骤4,如果是修饰关系则抽取出具有修饰关系的形容词·名词对,其中的形容词即为用户对商品的评价词;
步骤5,如果抽取的名词和形容词之间不存在修饰关系,则该评论中不包括用户对商品的评价词。
基于用户评论解析的标签体系精准推荐方法,进一步的,对评价词打分:获取到用户对商品的评价词之后,对评价词进行打分,对评价词进行打分使用近义词库+手动打分相结合方式进行,针对已有评分数的评价词,使用《哈工大近义词词林》进行评分扩展,具体的处理过程为:
第一步,统计每个评价词的出现次数,设置一个临界值,只保留出现次数大于该临界值的评价词;
第二步,由于评价词具有褒义和贬义之分,给评价词设置正负级性,如果评价词包括的是褒义,则将它的级性设置为正极性;如果评价词包括的是贬义,则将它级性设置为负极性;
第三步,参考其它已有的系统中对常见评价词的打分,给那些同样出现在本系统中的评价词赋予相同的分数,分数采用十分制,同时词的分数有级性,“好”和“差”的所打分数相同,均为6分,形容词“好”的级性为正,而“差”的级性为负,则最终得到“好”的分数为6分,而“差”的分数为-6分;
第四步,对本系统中有而参考系统中没有的词,采用近义词词典进行打分,对已经打分的词,找到它在近义词词典中的分类,进而给该分类打分,得到所有包括已打分词的类的分数;
第五步,对未打分的词,查找它在近义词词典中的分类,将分类的分数赋值给该词,得到该词的分数,对一个句子中所有评价词的分数取均值,得到这条评论的满意度分数Svi。
基于用户评论解析的标签体系精准推荐方法,进一步的,满意度分数改进精准推荐:改进的对用户v进行商品推荐的步骤为:
第I步,采用相似度计算方法计算得到用户的相似用户集合C(v);
第II步,C(v)中每个用户u对商品i的推荐值为用户u、v之间的相似度乘以用户u对商品i的满意度分数;
第III步,商品i的总推荐度是所有C(v)中的用户对商品i的推荐值的总和,其推荐度的计算如式3所示,
Ti(u)=∑u∈c(v)SuiCvu 式3
式中C(v)表示对商品i产生过历史行为且按与v的相似度值的大小进行排序的用户集合,Sui为处理评论得到的用户u对商品i的满意度分数,Cvu为用户v与用户u的相似度值。
与现有技术相比,本发明的贡献和创新点在于:
第一,提出了一种定制化精准推荐系统,不需要用户参与推荐过程,定制化推荐系统主要依据用户历史行为数据对其进行推荐,分为获取数据、构建兴趣模型、形成推荐结果这三部分,根据兴趣模型的构建规则,对精准推荐方法进行分类,采用基于用户评论解析的标签体系精准推荐方法,根据具体的情况进行分析判断,最后通过评测指标衡量所选算法的性能,本发明在准确率、召回率上有显著提升,而在覆盖率上略有提高,流行度值变高,从整体而言,本发明可扩展好,基于用户评论的标签体系协同过滤方法的性能有明显提升。
第二,提出了基于标签体系的协同过滤方法,分别对标签体系和协同过滤方法进行分析,结合标签体系实际情况,本发明选择了协同过滤中基于用户的推荐方法,分析基于标签体系的协同过滤方法中存在的问题,提出本发明的改进方案,充分利用标签体系中的用户评论信息对协同过滤方法进行改进,对用户评论信息进行文本解析,解决标签体系数据稀疏问题。同时处理评论信息得到用户对商品的满意度分数,利用该值改进协同过滤推荐算法,本发明的改进算法更加适合标签系统,处理计算相对容易,推荐结果的准确率、召回率更高,覆盖范围更广,且结果的多样性也更好。
第三,本发明提出的基于用户评论解析的标签体系精准推荐方法,创新点之一是针对标签体系中用户标签的数据稀疏问题,创造性的加入用户评论信息,通过对评论信息进行文本解析,提取商品特征值扩充标签,同时利用评论信息得到用户对商品的满意度分数,改进协同过滤精准推荐方法,与不加入评论信息的推荐算法计算结果对比,通过实验能够得出,本发明在准确率、召回率上有显著提升,而在覆盖率上略有提高,流行度值变高,流行度值升高是由于满意度高的资源会优先推荐给用户,会获得更高的准确度和召回率,实时性好。
第四,本发明将协同过滤方法改进融合到标签体系中,针对用户·商品·标签三元关系构建兴趣模型,得到更适合标签体系的精准推荐方法,针对标签体系中用户的标签信息数据通常存在数据稀疏问题,而使用稀疏数据计算出来的用户相似度准确度低,创造性引入了用户评论数据,对用户评论信息进行文本解析,提取出用户标签扩充标签信息数据,解决标签信息数据稀疏问题,同时基于用户评论信息包含了用户喜好,根据用户评论信息计算用户满意度分数,改进精准推荐方法;
第五,本发明提出定制化精准推荐方法,前提是对推荐引擎、理论基础、所用算法、应用等有深入理解的基础上创造性的完成的,同时充分了解标签体系与协同过滤方法,找出系统存在的不足,从而针对性的改进,创造性的将标签体系中的用户评论信息加入到推荐过程中,对评论信息进行中文分词和关键字词抽取,将抽取的关键字词作为伪标签,解决标签信息数据稀疏问题,对评论信息中的情感字词进行赋值计算,从用户评论中得到用户对商品的评分值,利用得到的评分值信息进一步改进标签算法,提高推荐结果的准确度。
附图说明
图1是本发明的协同过滤方法推荐流程示意图。
图2是本发明的总控单元调用流程步骤示意图。
图3是本发明用户评论语中词之间的依存关系示意图。
图4是处理评论信息得到用户对商品的满意度值的过程示意图。
图5是本发明的实验流程示意图。
具体实施方式
下面结合附图,对本发明提供的基于用户评论解析的标签体系精准推荐方法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本发明并能予以实施。
信息过载问题随着互联网的发展变得日益严重,现有技术的搜索引擎依赖于用户输入的关键字词,且不考虑不同用户的兴趣特征,无法提供精确定制化的服务。定制化推荐系统根据用户对商品的历史行为信息数据,预测用户可能喜爱的商品,已有的定制化推荐方法里,使用最多的是协同过滤方法。移动互联网的迅速发展使得用户与互联网之间的交互变的越来越频繁,标签体系得以广泛应用,然而现有技术的定制化推荐系统大多只考虑用户、商品二元关系构建兴趣模型,结果的准确度有待提高。因此本发明将协同过滤方法改进融合到标签体系中,针对用户·商品·标签三元关系构建兴趣模型,得到更适合标签体系的精准推荐方法。
标签体系中用户的标签信息数据通常存在数据稀疏问题,而使用稀疏数据计算出来的用户相似度准确度低,因此本发明创造性的引入了用户评论数据,对用户评论信息进行文本解析,提取出用户标签扩充标签信息数据,解决标签信息数据稀疏问题,同时基于用户评论信息包含了用户喜好,根据用户评论信息计算用户满意度分数,用于改进精准推荐方法。
一、融合标签体系的协同过滤改进方法
基于标签体系,本发明改进协同过滤方法进行定制化推荐,协同过滤推荐包括三个步骤:构建用户模型,获取相似用户集,计算生成推荐结果。如图1所示。
第一,构建用户模型:主要是获取用户对资源的反馈情况,反馈包括显性反馈和隐性反馈两种,显性反馈是用户对商品的相关直接反馈,包括给产品打分、点赞/踩、用户评价,用户模型描述用户个人兴趣分布,采用用户·资源矩阵Q描述,矩阵项值Qij代表用户i对商品j的评价值,隐性反馈对用户的购买、查看、收藏历史数据进行解析;
第二,获取相似用户集:产生相邻用户,找到与目标用户相似的群体,采用余弦相似度来计算用户之间的相似度值,再采用临界值算法选出相似群体;
第三,计算生成推荐结果:用户预测评分的原理方法是:如果用户i对商品j没有评价值,得到i相邻用户对商品j的加权平均评价值,用其代表i对j的评分,用户·商品评价值矩阵高度稀疏,首先计算用户i已经评分项目的评分均值,然后用该值填充所有用户i未给出分数的商品的评价值。
本发明不考虑商品本身的信息,且假设购买过相同商品的用户具有一定的相似性,主要分为三个步骤:
第1步,匹配与特定用户兴趣相似的群体;
第2步,匹配项目库中系统使用者可能喜爱,但目标使用者没有看过的项目列表;
第3步,利用Top·n方法,获取最终的推荐项目集合,要找到与特定系统用户兴趣相似的群体,计算目标用户与系统中其他用户的相似度,给定系统用户v和用户u,用户v、u有过历史行为的商品列表用M(v)、M(u)来代表,通常采用余弦方法计算系统用户相互之间的相似度,如式1所示,
采用离线计算的方式进行相似度计算,维护一个所有用户两两关系的相似度矩阵,保证在线推荐高效,计算用户两两之间的相似度,当用户数量大时,非常的耗时,分析式1,只有当|M(v)∩M(u)|≠0时,Kvu才有值,而大部分情况下用户之间未对同一项目进行评价打分,所以只计算|M(v)∩M(u)|≠0时的情况。生成项目到用户的倒查表,各个项目分别持有对其进行过评价打分的所有用户集合,计算用户之间相似度时,扫描项目的倒查表,把表中两两用户的|M(v)∩M(u)|值加1,得到所有不为0的|M(v)∩M(u)|值,再得出Kvu的值。
把与目标用户v最相似的W个用户(N(v,W))关注的项目推荐给用户v,采用式2计算用户v对商品i的关注度:
Q(v,i)=∑u∈N(v,w)∩M(i)Kvu 式2
式2中M(i)表示对项目i有历史行为的群体,Kvu是系统用户v,u相互之间的兴趣相似度,选取合适的W值,对K(v,W)中所有用户v没有过历史行为的项目根据式2计算用户v对其的关注值,并利用Top·n方法,获取最终的推荐项目集合。
二、基于标签体系的协同过滤改进分析
得到系统中用户两两之间的相似度后,根据相似用户对目标用户进行相关商品推荐。无论是用户对商品的收藏关系还是注解关系,都能表明用户对该商品具有一定的兴趣度,找到用户的相似用户之后,针对一个商品,若用户的相似用户产生过行为且用户v没有产生过行为的商品,则系统将其推荐给用户v,具体步骤为:
步骤一,得到用户v的相似用户集合C(v);
步骤二,取C(v)的前M个用户,将每个用户u与用户v的相似度值赋值给用户u产生过历史行为的各个商品;
步骤三,商品i得到的最后的推荐值为所有C(v)中用户对商品u赋值的总和;
步骤四,将商品按照总推荐值的大小进行排序,选取前M1个商品推荐给用户v。
标签体系中没有用户对商品的评分,将相似用户过去标注的所有商品赋予相同的权值,根据步骤二,得到商品i和j将获取相同的赋值,假设不考虑其他用户对i和j的赋值,得到A对商品i和j的推荐值相同,而实际上根据协同过滤的思想,将用户A喜爱的商品推荐给目标用户,将商品j推荐给目标用户明显是错误的。分析标签体系得到,除了标签信息,用户都会对标注的商品进行评论,评论信息中包含用户对商品的喜好,因此本发明利用用户评论来改进精准推荐方法。
本发明改进思想:用户对商品的评论中经常会包含商品的特征和内容信息,如果能够对评论进行适当处理,能从中提取出商品的标签,同时用户对商品的评论中包含用户的情感,通过对情感字词的处理,得到用户对商品的评分数,改进精准推荐方法,使用评论信息对精准推荐方法进行改进。
三、基于用户评论的标签体系协同过滤方法改进
本发明对基于标签体系的协同过滤推荐方法进行改进,创造性的将标签体系中的用户评论信息加入到推荐过程中,对评论信息进行中文分词和关键字词抽取,将抽取的关键字词作为伪标签,解决标签信息数据稀疏问题,对评论信息中的情感字词进行赋值计算,从用户评论中得到用户对商品的评分值,利用得到的评分值信息进一步改进标签算法,提高推荐结果的准确度,如图2所示。
(一)利用用户评论中的隐藏信息
用户对商品的评论信息相较于标签信息,不仅包括商品的特征,还包括用户对商品的满意度,用户评论信息作为参考元素进而改进精准推荐方法。实施例如用户对一支笔评论“这支笔很好”,可以得到两个信息,商品是“笔”且用户对笔的满意程度是“好”,其中得到的商品信息“笔”可以作为该商品的伪标签,而满意程度“好”可以对应一定的用户评分数。两种信息都能在一定程度上被系统所用,进而改善推荐效果。因此采用两种方式对用户评论信息进行利用,一种是通过中文分词方法对用户评论信息进行处理,抽取出商品的特征值作为伪标签,另一种是对通过用户的评论得到其对商品的满意度分数,并使用该分数改进商品精准推荐方法。
(二)对用户评论进行处理
推荐系统中分析相关语句的过程用到自然语言处理的方法,通过使用中文分词、词类消疑、语义依存分析对相关语句进行处理,得到感兴趣的关键字词。
1.中文分词:用户评论句子由词语组成,为了使机器理解中文句子,将句子划分成多个词串,本发明采用监督学习分词方法:采用分类器、序列标注分词,充分利用上下文信息,从机器学习角度看待中文分词,具体采用序列标注分词法,采用简单的基于字的序列标注问题来替代复杂的中文分词问题,构建适合的分词模型进行处理。
2.词类消疑:词性是词在句子中所处的作用,将其当成对词语进行类别划分的依据,词类消疑依赖于语义,同一个词可能具有几个不同的词性,但是在特定上下文环境下它的语义和词性是确定的,判断词性充分的结合它在语句中的语义和位置。本发明采用基于统计学习的词类消疑法,对句子进行分词的质量依赖于所构建的学习算法模型。
3.依存句法分析:依存句法表现句子中各个词的依存关系,即词和词的支配从属关系,依存关系采用有向边表示,由从属词指向支配词,且二者之间是多对一的关系,本发明采用数据驱动依存句法分析,通过建模计算句子依存结构的分数,再利用标注数据估算模型中参数,最后推断分数最大的依存结构,基于数据驱动的依存句法采用基于图和的方法,采用动态规划方法。
(三)基于用户评论扩充标签
采用中文分词对用户评论进行处理,中文分词将句子划分为多个词组成的词串,以便计算机理解句子所表示的语义信息。只对句子进行中文分词,不能理解句子的语义,接着需要对分词结果进行词类消疑,词性是句子划分词类的依据,汉语字典将其有具体的分类,采用词类消疑将句子中所有词在该语境下的词性标出,虽然中文用户评论中有些词可以具有多种词性,针对具体的语义环境,句子中所有词的词性都是确定的,词类消疑之后还不能真正理解句子,进一步对句子进行依存句法分析,依存句法描述的是句子中词语间的相互依存关系,两个词如果具有依存关系,则其中一个是作为支配词,另一个是作为从属词,用户评论语中词之间的依存关系如图3所示。
根据中文依存关系,抽取形容词+助词后面的形容词,将此形容词作为句子的特征值,从用户v对商品i的评论中抽取的特征值保存在Gvi中,抽取的特征值作为商品的伪标签使用,用户对商品没有打标签时,将用户评论信息中抽取的特征值作为标签信息,特征值作为的标签并非真正的标签,而且抽取的准确度取决于用户的评论表述和抽取技术,描述商品的准确度相对于用户所打的标签较低,所以称为伪标签,伪标签用来解决用户标注商品的数据稀疏性问题。
伪标签并非用户对标签的实际使用,在用户·标签二维图中使用原来的用户标签,对于三元标注关系,如果用户购买了某个商品而没有对该商品打标签,将伪标签作为商品标签使用,从而扩充用户、商品、标签三元标注关系的数据。
(四)基于用户评论的改进精准推荐方法
用户对商品的评论中包括用户的褒贬、喜爱与否、商品特征,对用户的评论信息进行处理转化为相应的满意度分数,对所有用户的评论信息均采取分词处理,然后获取所有依存于名词+助词后面的形容词,获取的形容词中包括系统用户对所评论商品的喜好和评价,对抽取的形容词进行处理即可得到用户对商品的评分,处理评论信息得到用户对商品的满意度值的过程如图4所示。
1.处理用户评论获取评价词
用户的评论信息中包括了用户对商品的评价词,对评论信息进行处理得到评价词的步骤为:
步骤1,从后台日志系统中读取用户对商品的评论数据集;
步骤2,对读取到的用户评论信息进行中文分词和词类消疑;
步骤3,分析该评论中是否包括名词和形容词,如果包括这两类词,使用依存句法分析方法,分析形容词和名词之间是否是修饰关系;
步骤4,如果是修饰关系则抽取出具有修饰关系的形容词·名词对,其中的形容词即为用户对商品的评价词;
步骤5,如果抽取的名词和形容词之间不存在修饰关系,则该评论中不包括用户对商品的评价词。
2.对评价词打分
获取到用户对商品的评价词之后,对评价词进行打分,对评价词进行打分使用近义词库+手动打分相结合方式进行,针对已有评分数的评价词,使用《哈工大近义词词林》进行评分扩展,具体的处理过程为:
第一步,统计每个评价词的出现次数,设置一个临界值,只保留出现次数大于该临界值的评价词;
第二步,由于评价词具有褒义和贬义之分,给评价词设置正负级性,如果评价词包括的是褒义,则将它的级性设置为正极性;如果评价词包括的是贬义,则将它级性设置为负极性;
第三步,参考其它已有的系统中对常见评价词的打分,给那些同样出现在本系统中的评价词赋予相同的分数,分数采用十分制,同时词的分数有级性,“好”和“差”的所打分数相同,均为6分,形容词“好”的级性为正,而“差”的级性为负,则最终得到“好”的分数为6分,而“差”的分数为-6分;
第四步,对本系统中有而参考系统中没有的词,采用近义词词典进行打分,对已经打分的词,找到它在近义词词典中的分类,进而给该分类打分,得到所有包括已打分词的类的分数;
第五步,对未打分的词,查找它在近义词词典中的分类,将分类的分数赋值给该词,得到该词的分数,对一个句子中所有评价词的分数取均值,得到这条评论的满意度分数Svi。
3.满意度分数改进精准推荐
在没有用户评分的标签体系中,进行商品推荐时,将相似用户发生过历史行为而目标用户不知道的商品推荐给用户,计算用户对商品的满意度分数之后,对商品精准推荐方法进行改进,改进的对用户v进行商品推荐的步骤为:
第I步,采用相似度计算方法计算得到用户的相似用户集合C(v);
第II步,C(v)中每个用户u对商品i的推荐值为用户u、v之间的相似度乘以用户u对商品i的满意度分数;
第III步,商品i的总推荐度是所有C(v)中的用户对商品i的推荐值的总和,其推荐度的计算如式3所示,
Ti(u)=∑u∈C(v)SuiCvu 式3
式中C(v)表示对商品i产生过历史行为且按与v的相似度值的大小进行排序的用户集合,Sui为处理评论得到的用户u对商品i的满意度分数,Cvu为用户v与用户u的相似度值。
本发明对标签体系中存在的问题做了说明,分析标签体系和它在整个推荐系统中的作用,以及在使用标签时还存在的问题,对比基于用户和基于商品两种精准推荐方法的优缺点以及各自适用环境,采用更加适合标签体系的基于用户的精准推荐方法,对基于标签体系的协同过滤推荐方法进行了详细分析,提出了基于用户评论的标签体系协同过滤方法改进方案,针对标签体系定制化推荐方法,使用评论信息对其进行改进,对用户的评论信息进行文本解析,抽取出商品的特征值作为该商品的扩充标签,解决标签信息数据稀疏问题,同时,处理评论信息得到用户对商品的满意度分数,使用该值改进协同过滤精准推荐方法。
四、基于用户评论的改进精准推荐方法的实验
针对本发明提出的基于用户评论的改进精准推荐方法,选用京东的图书购买数据作为数据集,并采用用户相似度计算,然后使用本发明基于用户评论的改进精准推荐方法计算推荐结果并与其它方法的实验结果对比。实验流程如图5所示。
两组实验产生的推荐结果计算离线指标时,选取比较有代表性、能更好反应算法性能的准确率、召回率、覆盖率、流行度指标。
考虑用户对资源的评论信息,对数据集进行离线实验。离线实验之前,需要得到适合算法的数据集,并对其进行处理,在此基础上进行相似度计算和商品推荐,最后通过离线指标证明算法的改进。
1.采集数据集
现有的标签数据集都没有包含对资源的评论信息,因此本发明使用爬虫技术获取京东购物商城中的图书购买信息作为数据集,数据集以<用户id,资源id,标签,时间,评论信息>,
2.处理数据集
将抽取到的资源信息保存到数据库里,对每条记录的评论信息进行处理。首先将评论信息分词,然后将得到的词标注词性和词类消疑,对词类消疑结果进行依存句法分析,得到所有名词+助词之后的形容词,对所有用户评论中的这些形容词进行统计,列出形容词-词频分布表,对表中的词语进行满意度赋值,采用的方式是首先使用已有的其它系统中C1的词语满意度值表,对本系统中对应的词语赋值,然而有的词不包含于C1里,使用同义词词典,根据词典中该词所对应的同义词的打分值对其进行赋值,最后每个形容词根据其褒贬词的极性分为正/负,采用十分制评分,每个词的最后分值是极性与分值的结合。根据每条评论中形容词评分得到用户通过该评论表现出的对资源的满意度数值,同时提取出资源评论中包含的资源特征值作为补充标签。
3.对比实验
对于上述处理之后的数据集,根据时间信息按8:2将其划分成训练集与测试集,在训练集上运行得到最近相邻用户集,并将评分值高的资源推荐给目标用户,同样取推荐列表长度为10,计算得到各项评测指标,与不加入评论信息的推荐算法计算结果对比,通过实验能够得出,本发明基于用户评论的标签体系协同过滤改进方法在准确率、召回率上有显著提升,而在覆盖率上略有提高,流行度值变高,流行度值升高是由于满意度高的资源会优先推荐给用户,会获得更高的准确度和召回率。综合考虑以上指标,可以得到:从整体而言,本发明基于用户评论的标签体系协同过滤方法的性能有明显提升。
通过实验对本发明提出的本发明基于用户评论的标签体系协同过滤改进方法进行验证。针对本发明利用用户评论改进推荐技术,使用京东图书数据集进行计算,并计算和对比评测指标。结果表明:本发明改进算法准确率、召回率、多样性均有所提升,覆盖率略有提高,得到本发明的改进算法更加适合标签系统,推荐结果的准确率、召回率更高,覆盖范围更广,且结果的多样性也更好。
Claims (10)
1.基于用户评论解析的标签体系精准推荐方法,其特征在于,将协同过滤方法改进融合到标签体系中,针对用户·商品·标签三元关系构建兴趣模型,得到更适合标签体系的精准推荐方法;引入用户评论数据,对用户评论信息进行文本解析,提取出用户标签扩充标签信息数据,同时基于用户评论信息包含了用户喜好,根据用户评论信息计算用户满意度分数;
对基于标签体系的协同过滤推荐方法进行改进,将标签体系中的用户评论信息加入到推荐过程中,对评论信息进行中文分词和关键字词抽取,将抽取的关键字词作为伪标签,解决标签信息数据稀疏问题,对评论信息中的情感字词进行赋值计算,从用户评论中得到用户对商品的评分值,利用得到的评分值信息进一步改进标签算法;
基于用户评论的标签体系协同过滤方法改进是对用户的评论信息进行处理转化为相应的满意度分数,对所有用户的评论信息均采取分词处理,然后获取所有依存于名词+助词后面的形容词,获取的形容词中包括系统用户对所评论商品的喜好和评价,对抽取的形容词进行处理即可得到用户对商品的评分,包括:一是利用用户评论中的隐藏信息,二是对用户评论进行处理,三是基于用户评论扩充标签,四是基于用户评论的改进精准推荐方法;基于用户评论的改进精准推荐方法具体包括:第一,处理用户评论获取评价词;第二,对评价词打分;第三,满意度分数改进精准推荐。
2.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,融合标签体系的协同过滤改进方法:基于标签体系,改进协同过滤方法进行定制化推荐,协同过滤推荐包括三个步骤:构建用户模型,获取相似用户集,计算生成推荐结果,
第一,构建用户模型:获取用户对资源的反馈情况,反馈包括显性反馈和隐性反馈两种,显性反馈是用户对商品的相关直接反馈,包括给产品打分、点赞/踩、用户评价,用户模型描述用户个人兴趣分布,采用用户·资源矩阵Q描述,矩阵项值Qij代表用户i对商品j的评价值,隐性反馈对用户的购买、查看、收藏历史数据进行解析;
第二,获取相似用户集:产生相邻用户,找到与目标用户相似的群体,采用余弦相似度来计算用户之间的相似度值,再采用临界值算法选出相似群体;
第三,计算生成推荐结果:用户预测评分的原理方法是:如果用户i对商品j没有评价值,得到用户i相邻用户对商品j的加权平均评价值,用其代表i对j的评分,用户·商品评价值矩阵高度稀疏,首先计算用户i已经评分项目的评分均值,然后用该值填充所有用户i未给出分数的商品的评价值。
3.根据权利要求2所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,本发明假设购买过相同商品的用户具有一定的相似性,主要分为三个步骤:
第1步,匹配与特定用户兴趣相似的群体;
第2步,匹配项目库中系统使用者可能喜爱,但目标使用者没有看过的项目列表;
第3步,利用Top·n方法,获取最终的推荐项目集合,要找到与特定系统用户兴趣相似的群体,计算目标用户与系统中其他用户的相似度,给定系统用户v和用户u,用户v、u有过历史行为的商品列表用M(v)、M(u)来代表,采用余弦方法计算系统用户相互之间的相似度,如式1所示,
采用离线计算的方式进行相似度计算,维护一个所有用户两两关系的相似度矩阵,保证在线推荐高效,分析式1,只有当|M(ν)∩M(u)|≠0时,Kvu才有值,而大部分情况下用户之间未对同一项目进行评价打分,所以只计算|M(v)∩M(u)|≠0时的情况,生成项目到用户的倒查表,各个项目分别持有对其进行过评价打分的所有用户集合,计算用户之间相似度时,扫描项目的倒查表,把表中两两用户的|M(v)∩M(u)|值加1,得到所有不为0的|M(v)∩M(u)|值,再得出Kvu的值;
把与目标用户v最相似的W个用户(N(v,W))关注的项目推荐给用户v,采用式2计算用户v对商品i的关注度:
Q(v,i)=∑u∈N(v,w)∩M(i)Kvu 式2
式2中M(i)表示对项目i有历史行为的群体,Kvu是系统用户v,u相互之间的兴趣相似度,选取合适的W值,对K(v,W)中所有用户v没有过历史行为的项目根据式2计算用户v对其的关注值,并利用Top·n方法,获取最终的推荐项目集合。
4.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,得到系统中用户两两之间的相似度后,根据相似用户对目标用户进行相关商品推荐,无论是用户对商品的收藏关系还是注解关系,都能表明用户对该商品具有一定的兴趣度,找到用户的相似用户之后,针对一个商品,若用户的相似用户产生过行为且用户v没有产生过行为的商品,则系统将其推荐给用户v,具体步骤为:
步骤一,得到用户v的相似用户集合C(v);
步骤二,取C(v)的前M个用户,将每个用户u与用户v的相似度值赋值给用户u产生过历史行为的各个商品;
步骤三,商品i得到的最后的推荐值为所有C(v)中用户对商品u赋值的总和;
步骤四,将商品按照总推荐值的大小进行排序,选取前M1个商品推荐给用户v;
标签体系中没有用户对商品的评分,将相似用户过去标注的所有商品赋予相同的权值,根据步骤二,得到商品i和j将获取相同的赋值,除了标签信息,用户都会对标注的商品进行评论,评论信息中包含用户对商品的喜好,利用用户评论来改进精准推荐方法。
5.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,利用用户评论中的隐藏信息:用户对商品的评论信息相较于标签信息,不仅包括商品的特征,还包括用户对商品的满意度,用户评论信息作为参考元素进而改进精准推荐方法,两种信息都能在一定程度上被系统所用,进而改善推荐效果,采用两种方式对用户评论信息进行利用,一种是通过中文分词方法对用户评论信息进行处理,抽取出商品的特征值作为伪标签,另一种是对通过用户的评论得到其对商品的满意度分数,并使用该分数改进商品精准推荐方法。
6.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,对用户评论进行处理:推荐系统中分析相关语句的过程用到自然语言处理的方法,通过使用中文分词、词类消疑、语义依存分析对相关语句进行处理,得到感兴趣的关键字词;
中文分词:用户评论句子由词语组成,为了使机器理解中文句子,将句子划分成多个词串,本发明采用监督学习分词方法:采用分类器、序列标注分词,充分利用上下文信息,从机器学习角度看待中文分词,具体采用序列标注分词法,采用简单的基于字的序列标注问题来替代复杂的中文分词问题,构建适合的分词模型进行处理;
词类消疑:词性是词在句子中所处的作用,将其当成对词语进行类别划分的依据,词类消疑依赖于语义,同一个词可能具有几个不同的词性,但是在特定上下文环境下它的语义和词性是确定的,判断词性充分的结合它在语句中的语义和位置,本发明采用基于统计学习的词类消疑法,对句子进行分词的质量依赖于所构建的学习算法模型;
依存句法分析:依存句法表现句子中各个词的依存关系,即词和词的支配从属关系,依存关系采用有向边表示,由从属词指向支配词,且二者之间是多对一的关系,本发明采用数据驱动依存句法分析,通过建模计算句子依存结构的分数,再利用标注数据估算模型中参数,最后推断分数最大的依存结构,基于数据驱动的依存句法采用基于图和的方法,采用动态规划方法。
7.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,基于用户评论扩充标签:采用中文分词对用户评论进行处理,中文分词将句子划分为多个词组成的词串,以便计算机理解句子所表示的语义信息,接着需要对分词结果进行词类消疑,词性是句子划分词类的依据,汉语字典将其有具体的分类,采用词类消疑将句子中所有词在该语境下的词性标出,针对具体的语义环境,句子中所有词的词性都是确定的,进一步对句子进行依存句法分析,依存句法描述的是句子中词语间的相互依存关系,两个词如果具有依存关系,则其中一个是作为支配词,另一个是作为从属词;
根据中文依存关系,抽取形容词+助词后面的形容词,将此形容词作为句子的特征值,从用户v对商品i的评论中抽取的特征值保存在Gvi中,抽取的特征值作为商品的伪标签使用,用户对商品没有打标签时,将用户评论信息中抽取的特征值作为标签信息,特征值作为的标签并非真正的标签,而且抽取的准确度取决于用户的评论表述和抽取技术,描述商品的准确度相对于用户所打的标签较低,为伪标签,伪标签解决用户标注商品的数据稀疏性问题;
伪标签并非用户对标签的实际使用,在用户·标签二维图中使用原来的用户标签,对于三元标注关系,如果用户购买了某个商品而没有对该商品打标签,将伪标签作为商品标签使用,从而扩充用户、商品、标签三元标注关系的数据。
8.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,处理用户评论获取评价词:用户的评论信息中包括了用户对商品的评价词,对评论信息进行处理得到评价词的步骤为:
步骤1,从后台日志系统中读取用户对商品的评论数据集;
步骤2,对读取到的用户评论信息进行中文分词和词类消疑;
步骤3,分析该评论中是否包括名词和形容词,如果包括这两类词,使用依存句法分析方法,分析形容词和名词之间是否是修饰关系;
步骤4,如果是修饰关系则抽取出具有修饰关系的形容词·名词对,其中的形容词即为用户对商品的评价词;
步骤5,如果抽取的名词和形容词之间不存在修饰关系,则该评论中不包括用户对商品的评价词。
9.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,对评价词打分:获取到用户对商品的评价词之后,对评价词进行打分,对评价词进行打分使用近义词库+手动打分相结合方式进行,针对已有评分数的评价词,使用《哈工大近义词词林》进行评分扩展,具体的处理过程为:
第一步,统计每个评价词的出现次数,设置一个临界值,只保留出现次数大于该临界值的评价词;
第二步,由于评价词具有褒义和贬义之分,给评价词设置正负级性,如果评价词包括的是褒义,则将它的级性设置为正极性;如果评价词包括的是贬义,则将它级性设置为负极性;
第三步,参考其它已有的系统中对常见评价词的打分,给那些同样出现在本系统中的评价词赋予相同的分数,分数采用十分制,同时词的分数有级性,“好”和“差”的所打分数相同,均为6分,形容词“好”的级性为正,而“差”的级性为负,则最终得到“好”的分数为6分,而“差”的分数为-6分;
第四步,对本系统中有而参考系统中没有的词,采用近义词词典进行打分,对已经打分的词,找到它在近义词词典中的分类,进而给该分类打分,得到所有包括已打分词的类的分数;
第五步,对未打分的词,查找它在近义词词典中的分类,将分类的分数赋值给该词,得到该词的分数,对一个句子中所有评价词的分数取均值,得到这条评论的满意度分数Svi。
10.根据权利要求1所述的基于用户评论解析的标签体系精准推荐方法,其特征在于,满意度分数改进精准推荐:改进的对用户v进行商品推荐的步骤为:
第I步,采用相似度计算方法计算得到用户的相似用户集合C(v);
第II步,C(v)中每个用户u对商品i的推荐值为用户u、v之间的相似度乘以用户u对商品i的满意度分数;
第III步,商品i的总推荐度是所有C(v)中的用户对商品i的推荐值的总和,其推荐度的计算如式3所示,
Ti(u)=∑u∈C(v)SuiCvu 式3
式中C(v)表示对商品i产生过历史行为且按与v的相似度值的大小进行排序的用户集合,Sui为处理评论得到的用户u对商品i的满意度分数,Cvu为用户v与用户u的相似度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110327151.8A CN112991017A (zh) | 2021-03-26 | 2021-03-26 | 基于用户评论解析的标签体系精准推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110327151.8A CN112991017A (zh) | 2021-03-26 | 2021-03-26 | 基于用户评论解析的标签体系精准推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112991017A true CN112991017A (zh) | 2021-06-18 |
Family
ID=76333917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110327151.8A Pending CN112991017A (zh) | 2021-03-26 | 2021-03-26 | 基于用户评论解析的标签体系精准推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991017A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113766281A (zh) * | 2021-09-10 | 2021-12-07 | 北京快来文化传播集团有限公司 | 短视频推荐方法、电子设备和计算机可读存储介质 |
CN114444481A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学 | 一种新闻评论的情感分析与生成方法 |
CN114490952A (zh) * | 2022-04-15 | 2022-05-13 | 广汽埃安新能源汽车有限公司 | 一种文本情感分析方法、装置、电子设备及存储介质 |
CN114661994A (zh) * | 2022-03-28 | 2022-06-24 | 徐勇 | 基于人工智能的用户兴趣数据处理方法、系统及云平台 |
CN115048526A (zh) * | 2022-08-15 | 2022-09-13 | 中国人民解放军国防科技大学 | 基于状态标记的拉请求修订进度跟踪方法、装置和设备 |
CN116245546A (zh) * | 2023-05-11 | 2023-06-09 | 广州格鲁信息技术有限公司 | 一种基于设备指纹的数据处理系统及方法 |
CN116320621A (zh) * | 2023-05-17 | 2023-06-23 | 苏州极易科技股份有限公司 | 一种基于nlp的流媒体内容分析方法及系统 |
CN116320626A (zh) * | 2023-05-11 | 2023-06-23 | 深圳市兴意腾科技电子有限公司 | 一种计算电商直播热度的方法及系统 |
CN117252667A (zh) * | 2023-11-17 | 2023-12-19 | 北京中电云华信息技术有限公司 | 一种基于大数据的产品推荐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN108776940A (zh) * | 2018-06-04 | 2018-11-09 | 南京邮电大学盐城大数据研究院有限公司 | 一种基于文本评论挖掘的智能餐饮推荐算法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN111061962A (zh) * | 2019-11-25 | 2020-04-24 | 上海海事大学 | 一种基于用户评分分析的推荐方法 |
CN111460819A (zh) * | 2020-03-31 | 2020-07-28 | 湖南大学 | 基于细粒度情感分析的个性化评论文本推荐系统及推荐方法 |
KR20200133439A (ko) * | 2019-05-20 | 2020-11-30 | 배재대학교 산학협력단 | 사용자 구매 기준을 반영한 상품 추천 시스템 및 방법 |
-
2021
- 2021-03-26 CN CN202110327151.8A patent/CN112991017A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN108776940A (zh) * | 2018-06-04 | 2018-11-09 | 南京邮电大学盐城大数据研究院有限公司 | 一种基于文本评论挖掘的智能餐饮推荐算法 |
KR20200133439A (ko) * | 2019-05-20 | 2020-11-30 | 배재대학교 산학협력단 | 사용자 구매 기준을 반영한 상품 추천 시스템 및 방법 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN111061962A (zh) * | 2019-11-25 | 2020-04-24 | 上海海事大学 | 一种基于用户评分分析的推荐方法 |
CN111460819A (zh) * | 2020-03-31 | 2020-07-28 | 湖南大学 | 基于细粒度情感分析的个性化评论文本推荐系统及推荐方法 |
Non-Patent Citations (1)
Title |
---|
张宜浩 等: "基于用户评论的深度情感分析和多视图协同融合的混合推荐方法", 计算机学报, no. 06 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113766281A (zh) * | 2021-09-10 | 2021-12-07 | 北京快来文化传播集团有限公司 | 短视频推荐方法、电子设备和计算机可读存储介质 |
CN114444481A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学 | 一种新闻评论的情感分析与生成方法 |
CN114444481B (zh) * | 2022-01-27 | 2023-04-07 | 四川大学 | 一种新闻评论的情感分析与生成方法 |
CN114661994B (zh) * | 2022-03-28 | 2022-10-14 | 中软数智信息技术(武汉)有限公司 | 基于人工智能的用户兴趣数据处理方法、系统及云平台 |
CN114661994A (zh) * | 2022-03-28 | 2022-06-24 | 徐勇 | 基于人工智能的用户兴趣数据处理方法、系统及云平台 |
CN114490952B (zh) * | 2022-04-15 | 2022-07-15 | 广汽埃安新能源汽车有限公司 | 一种文本情感分析方法、装置、电子设备及存储介质 |
CN114490952A (zh) * | 2022-04-15 | 2022-05-13 | 广汽埃安新能源汽车有限公司 | 一种文本情感分析方法、装置、电子设备及存储介质 |
CN115048526A (zh) * | 2022-08-15 | 2022-09-13 | 中国人民解放军国防科技大学 | 基于状态标记的拉请求修订进度跟踪方法、装置和设备 |
CN115048526B (zh) * | 2022-08-15 | 2022-10-25 | 中国人民解放军国防科技大学 | 基于状态标记的拉请求修订进度跟踪方法、装置和设备 |
CN116245546A (zh) * | 2023-05-11 | 2023-06-09 | 广州格鲁信息技术有限公司 | 一种基于设备指纹的数据处理系统及方法 |
CN116320626A (zh) * | 2023-05-11 | 2023-06-23 | 深圳市兴意腾科技电子有限公司 | 一种计算电商直播热度的方法及系统 |
CN116245546B (zh) * | 2023-05-11 | 2023-08-25 | 广州格鲁信息技术有限公司 | 一种基于设备指纹的数据处理系统及方法 |
CN116320626B (zh) * | 2023-05-11 | 2023-11-14 | 深圳市兴意腾科技电子有限公司 | 一种计算电商直播热度的方法及系统 |
CN116320621A (zh) * | 2023-05-17 | 2023-06-23 | 苏州极易科技股份有限公司 | 一种基于nlp的流媒体内容分析方法及系统 |
CN116320621B (zh) * | 2023-05-17 | 2023-08-04 | 苏州极易科技股份有限公司 | 一种基于nlp的流媒体内容分析方法及系统 |
CN117252667A (zh) * | 2023-11-17 | 2023-12-19 | 北京中电云华信息技术有限公司 | 一种基于大数据的产品推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A content-based recommender system for computer science publications | |
Hu et al. | Reviewer credibility and sentiment analysis based user profile modelling for online product recommendation | |
CN112991017A (zh) | 基于用户评论解析的标签体系精准推荐方法 | |
Mitra et al. | Helpfulness of online consumer reviews: A multi-perspective approach | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
Liu et al. | Riding the tide of sentiment change: sentiment analysis with evolving online reviews | |
Yeole et al. | Opinion mining for emotions determination | |
Kuo et al. | Applying particle swarm optimization algorithm-based collaborative filtering recommender system considering rating and review | |
Kiran et al. | User specific product recommendation and rating system by performing sentiment analysis on product reviews | |
Salah et al. | A systematic review on opinion mining and sentiment analysis in social media | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Huang et al. | Feature extraction of search product based on multi-feature fusion-oriented to Chinese online reviews | |
Liu et al. | A deep learning-based sentiment analysis approach for online product ranking with probabilistic linguistic term sets | |
Dai et al. | Research on image of enterprise after-sales service based on text sentiment analysis | |
Jeevanandam Jotheeswaran | Sentiment analysis: A survey of current research and techniques | |
Yu et al. | Research on intelligence computing models of fine-grained opinion mining in online reviews | |
Bharadwaj | Sentiment analysis in online product reviews: mining customer opinions for sentiment classification | |
Almutairi et al. | Review helpfulness prediction: Survey | |
Abbasi et al. | Collaborative filtering recommendation system through sentiment analysis | |
Dragoni | Extracting Linguistic Features From Opinion Data Streams For Multi-Domain Sentiment Analysis. | |
Zafar Ali Khan et al. | Hybrid Collaborative Fusion Based Product Recommendation Exploiting Sentiments from Implicit and Explicit Reviews | |
Sinyak et al. | Predicting real estate market trends and value using pre-processing and sentiment text mining analysis | |
Baral et al. | PERS: A personalized and explainable POI recommender system | |
Ibitoye et al. | Improved customer churn prediction model using word order contextualized semantics on customers’ social opinion | |
Zhang | A personalized recommendation algorithm based on text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |