CN113157971B - 一种社会网络环境下的影视资源个性化推荐方法 - Google Patents
一种社会网络环境下的影视资源个性化推荐方法 Download PDFInfo
- Publication number
- CN113157971B CN113157971B CN202110294109.0A CN202110294109A CN113157971B CN 113157971 B CN113157971 B CN 113157971B CN 202110294109 A CN202110294109 A CN 202110294109A CN 113157971 B CN113157971 B CN 113157971B
- Authority
- CN
- China
- Prior art keywords
- movie
- decision
- value
- film
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种社会网络环境下的影视资源个性化推荐方法,属于数据分析推送技术领域,包括以下步骤:S1:在线评论获取与预处理、S2:在线评论情感值计算、S3:观影决策准则及权重确定、S4:影视资源排序:结合概率语言决策矩阵、价值函数、权重函数得到电影xi的综合前景值,综合前景值越大,说明越值得推荐,其排序越靠前。本发明在考虑各客观因素的同时充分考虑了观影者的心理行为等非理性因素对观影者决策的影响,使影视资源推荐更贴合实际且精准。
Description
技术领域
本发明属于数据分析推送技术领域,更具体地,涉及一种社会网络环境下的影视资源个性化推荐方法。
背景技术
在影视资源推荐领域中,面向对象的广泛性决定了推荐工作的复杂性。影视资源推荐不仅要关注政治环境、经济环境、社会环境等相关情况的变化,而且要充分考虑观影者的个性化需求,不同的观影者对于同一部影视资源的关注点往往是不同的,其评价也会随之千差万别。尤其是在这个互联网快速发展的时代,观影者的在线评论数据呈爆炸式增长,为确保影视资源推荐的效率与准确性,观影者以及各大影视网站在进行决策过程中,均会以影视资源在线评论数据作为决策的重要依据之一。
目前,最常用的推荐算法大多利用观影者在线评论数据中的评分数据,根据评分数据将在线评论分为简单的正面评论或负面评论,进而进行简单的计算,得出影视资源的推荐指数。该方法简单、易操作,但是不能充分反映观影者对影视资源的真实评价,忽略了很多能够表达观影者情感倾向的评论文本。如某影视资源的在线评论,其评分数据星级相同,但是两位观影者体现在文本中的情感倾向可能是完全不同的。现有推荐算法大多忽略了在线评论数据中的评论文本,只使用评分数据不能准确反映观影者的情感倾向。另外,未考虑观影者的心理行为等非理性因素对观影者决策的影响。此外,对于观影者决策影响因素的研究较为集中,影视资源题材、导演、观影环境、演员等客观因素对观影者决策的影响,是目前影视资源推荐领域主要研究方向。
基于完全理性的推荐方法(如PLTS-VIKOR),对原始数据进行了充分利用,保证了推荐结果的有效性,且当决策者处于在多个方案中徘徊的情况时,PLTS-VIKOR方法会给出折衷方案以供决策者进行选择。但是PLTS-VIKOR方法假设决策者是完全理性的,这一假设前提在实际情况下总是不能满足的,也就是说,决策者总是有限理性的,决策时不但会受到客观因素的影响,而且会受到主观心理的影响。因此,基于完全理性的方法有待改善。
发明内容
针对上述存在的技术问题,本发明提出一种社会网络环境下的影视资源个性化推荐方法,该方法实现观影者决策影响因素的识别和描述,在考虑各客观因素的同时充分考虑了观影者的心理行为等非理性因素对观影者决策的影响,使影视资源推荐更贴合实际且精准。
本发明采用以下具体的技术方案:
一种社会网络环境下的影视资源个性化推荐方法,包括以下步骤:
S1:在线评论获取与预处理;
S2:在线评论情感值计算:
S2.1:采用自然语言库TextBlob计算在线评论情感值;
S2.2:观影者的情感值范围为[-1,1],将情感值从低至高依次划分为7个程度区间,并用Sτ表示不同情感程度,其中τ=0,1,2,3,4,5,6;
S2.3:用概率语言术语集PLTSs描述在线评论情感程度和概率;
S3:观影决策准则及权重确定:
S3.1:采用TF-IDF确定观影决策准则;
S3.2:使用观影决策准则所对应的在线评论数量计算其权重wj′:
S3.3:构建概率语言决策矩阵:从不同观影准则cj的角度分别对电影xi的在线评论情感程度建立矩阵;
S4:影视资源排序:结合概率语言决策矩阵、价值函数、权重函数得到电影xi的综合前景值:
其中,v(xij)为电影xi在消费者观影决策准则cj下的价值函数,wj为权重函数,综合前景值越大,说明越值得推荐,其排序越靠前。
优选的,所述S1利用八爪鱼采集器获取网站上的电影在线评论数据。
优选的,所述在线评论数据利用python库中的Natural Language Toolkit语言工具进行去停用词、词形还原、同义词获取的预处理。
优选的,所述S3.1先利用python筛选出排名靠前高频词中能够作为观影决策准则的名词形成观影决策准则表,然后从表中依次选择名词,确定观影决策准则cj分别为情节(c1)、时间(c2)、人物(c3)和表演(c4)。
优选的,所述S3.3概率语言决策矩阵包含基于情节的概率语言决策矩阵、基于时间的概率语言决策矩阵、基于人物的概率语言决策矩阵、基于表演的概率语言决策矩阵。
优选的,所述S4包含步骤:
S4.1:权重函数计算;
S4.2:价值函数计算;
S4.3:综合前景值计算。
优选的,所述S4.1计算公式为:
其中,wj表示权重函数,Hij代表电影xi在观影决策准则cj下的PLTSs:Hij={Sτp(k)},p(k)表示Hij的概率,Hj:{E(H1j),E(H2j),E(H3j),E(H4j),E(H5j)}为各准则参考点,各准则参考点由各电影Hij的得分函数E(Hij)组成,δ和γ分别代表心理期望为得、失时的风险态度系数。
优选的,所述得分函数E(Hij)计算公式如下:
优选的,所述S4.2计算公式为:
其中,v(xij)表示价值函数,d(Hij,Hj)表示Hij和Hj之间的PLTSs-Hamming距离,λ为损失规避度系数α和β分别代表决策者在相对收益和相对损失增加、减少时的风险敏感性系数。
本发明的有益效果为:
(1)不仅真实反映了观影者情感倾向,而且能将其细化为若干情感程度。现有推荐算法大多将在线评论分为正面评论和负面评论,忽略中性评论中包含的情感词。本发明不仅将在线评论中的正面、负面评论进行了分析,而且充分考虑了中性评论中的情感词,并将在线评论情感值的情感程度细分至7个级别,而不只是正、负两方面,情感程度细化之后能够更加准确地体现决策者的情感倾向,实现影视资源的精准推荐。
(2)在考虑客观因素(主题、情节、导演、演员等)的同时,充分考虑了观影者心理行为对观影者决策的影响。现有的影视资源推荐算法大多基于观影者是完全理性的,而在现实中,决策者在进行决策的过程中往往会受到多种非理性因素的影响,即观影者是有限理性的。本发明使用前景理论确定影视资源的推荐排序,充分考虑了观影者的心理行为等非理性因素。
附图说明
图1为本发明社会网络环境下的影视资源个性化推荐方法整体框架;
图2为本发明在线评论情感值区间划分示意图。
具体实施方式
下面结合具体实施例进一步说明本发明。除非特别说明,本发明实施例中采用的原料和方法为本领域常规市购的原料和常规使用的方法。
首先对本申请要用到的一些公知术语或概念进行说明:
概率语言术语集(Probabilistic Linguistic Term Sets,PLTSs)不仅包含语言术语,而且能够表示每个语言术语的权重。设S={s0,s1,...,sτ}为语言术语集,则PLTSsL(P)被定义为:
其中,L(k)(p(k))表示带有概率值p(k)的语言术语L(k),#L(P)表示PLTSs L(P)中语言术语的个数。
TextBlob是python的一个自然语言处理库,常被用来进行词性标注、情感值计算等。TextBlob的结果Ti计算公式如下:
其中,wj(1,2,...,m)表示关键词权重,代表方案xi在主题词cj下第k条评论的情感值,#Nij代表方案xi在主题词cj下的评论总数词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)中的词频(Term Frequency,TF)表示关键词在文本中出现的频率,逆文档频率(Inverse Document Frequency,IDF)表示关键词在所有文本中出现的频率,可以代表关键词的差异性,IDF越高代表区分度越低,越不可能成为文本的主要关键词。TF-IDF推荐结果TF-IDFc计算公式如下:
其中,Ncd表示关键词c在文本d中出现的频次,N表示文本d中所有关键词c出现的频率之和,|D|表示语料库中所有的文本总数,Nc表示包含关键词c的文本数量。
实施例1
如图1所示,一种社会网络环境下的影视资源个性化推荐方法,包括以下步骤:
S1:在线评论获取与预处理。本发明利用八爪鱼采集器获取Rotten Tomatoes网站上的电影在线评论数据,共获得11957条在线评论,其中AvengersEndgame(x1)2219条,KnivesOut(x2)2589条,Parasite(Gisaengchung)(x3)2436条,ToyStory4(x4)2352条,Us(x5)2361条。由于获取到的原始的在线评论数据可能存在与观影者态度无关的、重复的以及无效的词语,因此,本发明利用python库——Natural Language Toolkit(NLTK)对在线评论数据进行预处理,进行去停用词、词形还原、同义词获取等操作。
S2:在线评论情感值计算:
S2.1:采用自然语言库TextBlob计算在线评论情感值;
S2.2:得到观影者的情感值范围为[-1,1],如图2所示,为了将观影者的情感值更加细化,对在线评论情感进行划分,并用Sτ(τ=0,1,2,3,4,5,6)表示;
S2.3:根据PLTSs定义可知,可以用概率语言术语集PLTSs描述在线评论情感程度和概率;
S3:观影决策准则及权重确定:
S3.1:采用TF-IDF确定观影决策准则;首先,获取到排名前100的高频词,利用python筛选出排名前100高频词中能够作为观影决策准则的名词,形成观影决策准则表,如表1,然后从表中依次选择名词,确定观影决策准则cj分别为情节(c1)、时间(c2)、人物(c3)和表演(c4)。
表1候选观影决策准则表
S3.2:使用观影决策准则所对应的在线评论数量计算其权重wj′,减少决策方法中依靠专家评分或假设的方法确定权重存在主观性较强的不足:
其中,j=1,...,m,wj′∈[0,1],Nj表示电影xi在观影决策准则cj下在线评论的数量。根据上述实验数据以及观影决策准则权重可知,本实施例中的观影决策准则权重为:W'=(0.39,0.30,0.25,0.06)T。
S3.3:构建概率语言决策矩阵:从不同观影准则cj的角度分别对电影xi的在线评论情感程度建立矩阵(分别形成基于情节、时间、人物、表演的概率语言决策矩阵),如下表2至表5。
表2基于情节的概率语言决策矩阵
表3基于时间的概率语言决策矩阵
表4基于人物的概率语言决策矩阵
表5基于表演的概率语言决策矩阵
S4:将决策者心理行为纳入决策过程的影响因素中,通过计算价值函数、权重函数以及综合前景值的大小来判断方案的前景,进行影视资源排序:
S4.1:权重函数计算:
其中,wj表示权重函数,Hij代表电影xi在观影决策准则cj下的PLTSs:Hij={Sτp(k)},p(k)表示Hij的概率,Hj:{E(H1j),E(H2j),E(H3j),E(H4j),E(H5j)}为各准则参考点,各准则参考点由各电影Hij的得分函数E(Hij)组成,δ和γ分别代表心理期望为得、失时的风险态度系数。其中得分函数E(Hij)计算公式如下:
S4.2:价值函数计算:
其中,v(xij)表示价值函数,d(Hij,Hj)表示Hij和Hj之间的PLTSs-Hamming距离,λ为损失规避度系数α和β分别代表决策者在相对收益和相对损失增加、减少时的风险敏感性系数。在大量研究的基础上,λ=2.25,α=β=0.88,δ=0.69,γ=0.61。
S4.3:综合前景值计算:
其中,xij表示在观影决策准则cj下的电影xi(i=1,...,n),v(xij)为电影xi在消费者观影决策准则cj下的价值函数,wj为权重函数,综合前景值越大,说明越值得推荐,其排序越靠前。
根据上述概率语言决策矩阵,利用价值函数公式得到电影xi观影决策准则cj下的价值函数v(xij)(见表6),结合权重函数W=(0.33,0.28,0.26,0.13)T,得到5部电影的综合前景值(见表7)。
表6各电影的价值函数
表7各电影的综合前景值
对表4中的综合前景值进行分析,综合前景值越大,电影越值得推荐,故确定电影排序为:x5 f x3 f x1 f x2 f x4。
本实施例的推荐方法能反映决策者的意图、表达决策者的偏好。一方面,本申请提出的社会网络环境下的影视资源个性化推荐方法结合了情感分析和PLTS-PT,这一做法不仅实现了对原始数据的充分利用,而且采用TextBlob将情感值进行了精细划分,比以往的推荐方法更加精确。另一方面,针对完全理性推荐方法的不足,即未考虑决策者的心理行为,本发明提出的PLTS-PT电影推荐方法弥补了这一不足,该方法基于决策者是有限理性的假设前提之下,考虑了决策者在决策过程中受到其非理性因素的影响程度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
Claims (6)
1.一种社会网络环境下的影视资源个性化推荐方法,其特征在于,包括以下步骤:
S1:在线评论获取与预处理;
S2:在线评论情感值计算:
S2.1:采用自然语言库TextBlob计算在线评论情感值;
S2.2:观影者的情感值范围为[-1,1],将情感值从低至高依次划分为7个程度区间,并用Sτ表示不同情感程度,其中τ=0,1,2,3,4,5,6;
S2.3:用概率语言术语集PLTSs描述在线评论情感程度和概率;
S3:观影决策准则及权重确定:
S3.1:采用TF-IDF确定观影决策准则;
S3.2:使用观影决策准则所对应的在线评论数量计算其权重wj′:
S3.3:构建概率语言决策矩阵:从不同观影准则cj的角度分别对电影xi的在线评论情感程度建立矩阵;
S4:影视资源排序:结合概率语言决策矩阵、价值函数、权重函数得到电影xi的综合前景值:
其中,v(xij)为电影xi在消费者观影决策准则cj下的价值函数,wj为权重函数,综合前景值越大,说明越值得推荐,其排序越靠前;
所述S4包含步骤:
S4.1:权重函数计算;
S4.2:价值函数计算;
S4.3:综合前景值计算;
所述S4.1计算公式为:
其中,wj表示权重函数,Hij代表电影xi在观影决策准则cj下的PLTSs:Hij={Sτp(k)},p(k)表示Hij的概率,Hj:{E(H1j),E(H2j),E(H3j),E(H4j),E(H5j)}为各准则参考点,各准则参考点由各电影Hij的得分函数E(Hij)组成,γ和δ分别代表心理期望为得、失时的风险态度系数,所述代表风险态度系数为δ时,观影决策准则cj的权重,所述代表风险态度系数为γ时,观影决策准则cj的权重;
所述得分函数E(Hij)计算公式如下:
所述S4.2计算公式为:
其中,v(xij)表示价值函数,d(Hij,Hj)表示Hij和Hj之间的PLTSs-Hamming距离,λ为损失规避度系数,α和β分别代表决策者在相对收益和相对损失增加、减少时的风险敏感性系数。
2.根据权利要求1所述的社会网络环境下的影视资源个性化推荐方法,其特征在于,所述S1利用八爪鱼采集器获取网站上的电影在线评论数据。
3.根据权利要求2所述的社会网络环境下的影视资源个性化推荐方法,其特征在于,所述在线评论数据利用python库中的Natural Language Toolkit语言工具进行去停用词、词形还原、同义词获取的预处理。
5.根据权利要求1所述的社会网络环境下的影视资源个性化推荐方法,其特征在于,所述S3.1先利用python筛选出排名靠前高频词中能够作为观影决策准则的名词形成观影决策准则表,然后从表中依次选择名词,确定观影决策准则cj分别为情节c1、时间c2、人物c3和表演c4。
6.根据权利要求1所述的社会网络环境下的影视资源个性化推荐方法,其特征在于,所述S3.3概率语言决策矩阵包含基于情节的概率语言决策矩阵、基于时间的概率语言决策矩阵、基于人物的概率语言决策矩阵、基于表演的概率语言决策矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294109.0A CN113157971B (zh) | 2021-03-19 | 2021-03-19 | 一种社会网络环境下的影视资源个性化推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294109.0A CN113157971B (zh) | 2021-03-19 | 2021-03-19 | 一种社会网络环境下的影视资源个性化推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113157971A CN113157971A (zh) | 2021-07-23 |
CN113157971B true CN113157971B (zh) | 2022-07-26 |
Family
ID=76887966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110294109.0A Active CN113157971B (zh) | 2021-03-19 | 2021-03-19 | 一种社会网络环境下的影视资源个性化推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157971B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116257692B (zh) * | 2023-05-15 | 2023-08-18 | 鹏城实验室 | 一种基于云边协同的资产共享及推荐方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991966A (zh) * | 2014-07-29 | 2015-10-21 | Tcl集团股份有限公司 | 媒体内容排序方法及系统 |
CN109325659A (zh) * | 2018-08-20 | 2019-02-12 | 国网江苏省电力有限公司 | 一种电网建设项目投资排序新方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6831663B2 (en) * | 2001-05-24 | 2004-12-14 | Microsoft Corporation | System and process for automatically explaining probabilistic predictions |
-
2021
- 2021-03-19 CN CN202110294109.0A patent/CN113157971B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991966A (zh) * | 2014-07-29 | 2015-10-21 | Tcl集团股份有限公司 | 媒体内容排序方法及系统 |
CN109325659A (zh) * | 2018-08-20 | 2019-02-12 | 国网江苏省电力有限公司 | 一种电网建设项目投资排序新方法 |
Non-Patent Citations (1)
Title |
---|
融合情感分析和概率语言的影视推荐算法研究;周欢等;《情报理论与实践》;20200630;第180-186页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113157971A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
KR102008000B1 (ko) | 매체 프로그램들 사이의 유사성 계산 | |
Habibi et al. | Keyword extraction and clustering for document recommendation in conversations | |
US9117006B2 (en) | Recommending keywords | |
CN104462573B (zh) | 一种视频搜索结果展示方法及装置 | |
US7809185B2 (en) | Extracting dominant colors from images using classification techniques | |
US9135350B2 (en) | Computer-generated sentiment-based knowledge base | |
CN110569496B (zh) | 实体链接方法、装置及存储介质 | |
US20140172642A1 (en) | Analyzing commodity evaluations | |
US20120209751A1 (en) | Systems and methods of generating use-based product searching | |
CN103544267B (zh) | 一种基于搜索建议词进行搜索的方法以及装置 | |
US20150161174A1 (en) | Content-based image ranking | |
Hamborg et al. | Matrix-based news aggregation: exploring different news perspectives | |
US20160321355A1 (en) | Media content recommendation method and apparatus | |
CN103020066B (zh) | 一种识别搜索需求的方法和装置 | |
US10180964B1 (en) | Candidate answer passages | |
EP2023634A1 (en) | Program searching apparatus and program searching method | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
JP4896268B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
CN110929166A (zh) | 一种内容推荐的方法、电子设备和存储介质 | |
Chiny et al. | Netflix recommendation system based on TF-IDF and cosine similarity algorithms | |
CN105681910A (zh) | 一种基于多用户的视频推荐方法及装置 | |
Takamura et al. | Text summarization model based on the budgeted median problem | |
CN113157971B (zh) | 一种社会网络环境下的影视资源个性化推荐方法 | |
CN112862567A (zh) | 一种在线展会的展品推荐方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |