CN113792552A - 一种基于用户产生内容的观点转变指标计算方法 - Google Patents

一种基于用户产生内容的观点转变指标计算方法 Download PDF

Info

Publication number
CN113792552A
CN113792552A CN202110967939.5A CN202110967939A CN113792552A CN 113792552 A CN113792552 A CN 113792552A CN 202110967939 A CN202110967939 A CN 202110967939A CN 113792552 A CN113792552 A CN 113792552A
Authority
CN
China
Prior art keywords
user
viewpoint
users
index
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110967939.5A
Other languages
English (en)
Other versions
CN113792552B (zh
Inventor
姚春华
王效武
王海兮
常明芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202110967939.5A priority Critical patent/CN113792552B/zh
Publication of CN113792552A publication Critical patent/CN113792552A/zh
Application granted granted Critical
Publication of CN113792552B publication Critical patent/CN113792552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于用户产生内容的观点转变指标计算方法,包括:步骤1、爬取热门贴子下评论数据;步骤2、根据评论数据确定用户观点倾向;步骤3、选取部分评论数据进行数据标注;步骤4、进行数据扩充,构建训练集,并进行模型训练;步骤5、通过训练后的模型对其他评论数据进行预测,若预测结果准确率大于85%,则进入步骤5,否则进入步骤4;步骤6、计算模型预测的所有数据中所有用户最大可能转变观点次数的平均值、所有用户的转变观点次数与所有用户可能转变观点总数的比值;步骤7、计算用户墙头草指数,根据墙头草指数判断用户观点鉴定程度。本发明方案能够量化用户观点鉴定程度,在用户画像与信息过滤、个性化推荐等领域有较大的应用前景。

Description

一种基于用户产生内容的观点转变指标计算方法
技术领域
本发明涉及情感分析技术领域,特殊涉及一种基于用户产生内容的观点转变指标计算方法。
背景技术
情感分析作为一个自然语言处理分支任务受到了广泛关注,现有情感分析技术已经取得了较高的准确率,而如何将情感分析的结果加以利用并创造更大价值是大家关注的重点。在用户画像领域,用户发帖的情感倾向是一个重要的考虑因素,然而现有方法大都关注用户的某一时刻的情感倾向或者最终的情感倾向,往往忽视了观点的转变也是一个重要的用户特征。在一段时间内,基于用户观点转变的情况可以设计一个量化指标,作为衡量用户对自己观点的坚定程度的重要依据,我们称之为“墙头草”指数。现有方法多是直接使用观点转变次数,这种方法思想朴素,计算简单,但是存在重大缺陷,第一、没有上限值,这导致我们对用户的“墙头草”指数缺乏宏观认识,无法根据数值确定该用户的坚定程度在全体用户中的位置。第二、不同用户的“墙头草”指数区分度不足。当两个用户发帖数量不同而观点转变的次数相同的情况下,仅仅使用观点转变次数会导致两个用户的“墙头草”指数相同,而事实上这两个数值应该有区分。
发明内容
针对现有技术中存在的问题,提供了一种基于用户产生内容的观点转变指标计算方法,能够加准确的计算与量化用户观点转变的指标。
本发明采用的技术方案如下:一种基于用户产生内容的观点转变指标计算方法,包括以下步骤:
步骤1、爬取一段时间内某热门贴子下评论数据,进行预处理后存入数据库;
步骤2、对存入的评论数据进行分析,确定用户观点倾向;
步骤3、选取部分评论数据进行数据标注;
步骤4、对标注的评论数据进行数据扩充,构建训练集,并采用训练集进行模型训练;
步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测,并对预测结果进行判断,若准确率大于85%,则进入步骤6,否则进入步骤4;
步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值和所有用户的转变观点次数与所有用户可能转变观点总数的比值;
步骤7、计算用户墙头草指数,并根据墙头草指数判断用户观点坚定程度,墙头草指数越高表示该用户的坚定程度越低。
进一步的,所述步骤1中,评论数据包括评论内容、评论用户;预处理具体为:将评论内容中特殊字符和表情替换为文字表述,同时对同一用户发表的相同评论进行去重。
进一步的,所述步骤3具体为:根据用户观点倾向,对评论数据进行标注,将消极、中性、积极三种倾向分别标注为-1,0,1。
进一步的,所述步骤4中,采用聚类算法或其他无监督算法进行数据扩充。
进一步的,所述步骤6中,所有用户最大可能转变观点次数的平均值计算方法为:
Figure BDA0003224601910000021
其中,m为用户数量,nk表示第k个用户发表评论的总条数。
进一步的,所述步骤6中,所有用户的转变观点次数与所有用户可能转变观点总数的比值计算方法为:
Figure BDA0003224601910000022
其中,λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值;yki表示第k个用户的第i条评论的观点,nk表示第k个用户发表评论的总条数,m为用户数量。
进一步的,所述步骤7中,墙头草指数计算方法为:
Figure BDA0003224601910000023
进一步的,所述步骤7中,对仅考虑积极和消极的评论计算墙头草指数QT1,同时计算加入中性评论后的墙头草指数QT2,对墙头草指数QT1、QT2进行整合,得到用户的综合墙头草指数QTP,
Figure BDA0003224601910000024
其中,α为修正系数指数,用来对墙头草指数QT1和QT2进行缩放,使得最终的QTP结果分布更加平滑。
与现有技术相比,采用上述技术方案的有益效果为:在本发明中提出了墙头草指数,并通过该指数实现了用户观点坚定程度的量化计算。在社交网络数据分析领域未发现类似的定量化分析工作;同时针对墙头草指数的计算,我们针对具体情况的分析得出了一个行之有效的墙头草指数计算公式,填补了相关领域的空白,使得对于用户的相关属性掌握的更加全面;本发明在用户画像与信息过滤、个性化推荐等领域有较大的应用前景
附图说明
图1是本发明提出基于用户产生内容的观点转变指标计算方法流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
针对舆情分析领域,使用爬虫将网络热点帖子的评论爬取并进行数据清洗,对小规模数据完成观点倾向标注,训练情感分析模型完成对全体数据的标注。而后进行“墙头草”指数分析,将积极、中性、消极的观点定义为-1,0,1,使用用户评论之间观点值相减的值来量化用户观点的转变。首先根据所用用户的评论计算用户平均最大可能转变观点次数L和背景指数λ;之后根据当前用户的全部观点的总波动计算其“墙头草”指数,同时在公式中加入L和λ作为平滑项,最后将中性评论也加入计算并使用缩放因子使最终的“墙头草”数值在(0,1)之间分部更加均匀。具体方案如下:
如图1所示,本发明提出了一种基于用户产生内容的观点转变指标计算方法,包括以下步骤:
步骤1、爬取一端时间内某热门贴子下评论数据,进行预处理后存入数据库;
步骤2、对存入的评论数据进行分析,确定用户观点倾向;
步骤3、选取部分评论数据进行数据标注;
步骤4、对标注的评论数据进行数据扩充,构建训练集,并采用训练集进行模型训练;
步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测,并对预测结果进行判断,若准确率大于85%,则进入步骤6,否则进入步骤4;
步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值和所有用户的转变观点次数与所有用户可能转变观点总数的比值;
步骤7、计算用户墙头草指数,并根据墙头草指数判断用户观点鉴定程度。
具体的,在步骤1中,确定网络热点事件,爬取网络大V针对热点事件的发帖,并对帖子下的评论数据进行爬取,所述评论数据包括评论内容、评论用户;在爬取后对评论数据进行预处理:将评论内容中特殊字符和表情替换为文字表述,同时对同一用户发表的相同评论进行去重。
在本实施例中,可以采用人工标注、机器学习或深度学习方法对评论数据进行情感倾向分析。
步骤3中,根据倾向分析得到的用户观点倾向,对评论数据进行标注,将消极、中性、积极三种倾向分别标注为-1,0,1。
优选的,步骤4中,采用聚类算法或其他无监督算法进行数据扩充。
所述步骤5中模型采用基于BERT的预训练模型。
由于一次评论的标签变化可能带来墙头草指数的很大波动,尤其是在用户评论数量较少的情况下,因此,在步骤6中首先引入所有用户平均最大可能转变观点次数L作为平滑因子以及所有用户的转变观点次数与所有用户可能转变观点总数的比值作为背景指数λ,使得墙头草指数更加可靠,所有用户最大可能转变观点次数的平均值计算方法为:
Figure BDA0003224601910000041
其中,m为用户数量,nk表示第k个用户发表评论的总条数。
所有用户的转变观点次数与所有用户可能转变观点总数的比值,即背景指数计算方法为:
Figure BDA0003224601910000042
其中,λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值;yki表示第k个用户的第i条评论的观点,nk表示第k个用户发表观点的总条数,m为用户数量。
由此,基于平滑因子L与背景指数λ进行墙头草指数计算:
Figure BDA0003224601910000043
中性的评论在总评论中占据了较大的比例,在实际计算中应该将其考虑进去,但同时中性评论的引入会导致评论的转折趋于平缓,使得计算的“墙头草”指数偏小,针对这样的矛盾,将只考虑积极和消极的评论计算出的指数定义为QT1,在加入中性评论后,计算的指数定义为QT2,取QT1和QT2的几何平均数,尽可能的表示出用户的真实坚定程度,同时在实际计算中,因为大量用户不会改变观点,这导致指数在0附近聚集,因此,采用α对几何平均数进行缩放,得到用户的综合墙头草指数QTP,
Figure BDA0003224601910000051
该指数越高表示用户对某一观点的坚定程度越低其中,α为修正系数指数,用来对墙头草指数QT1和QT2进行缩放,使得最终的QTP结果的分布更加平滑。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (8)

1.一种基于用户产生内容的观点转变指标计算方法,其特征在于,包括以下步骤:
步骤1、爬取一段时间内某热门贴子下评论数据,进行预处理后存入数据库;
步骤2、利用深度学习模型对存入的评论数据进行分析,确定用户观点倾向;
步骤3、选取部分评论数据进行数据标注;
步骤4、对标注的评论数据进行数据扩充,构建训练集,并采用训练集进行模型训练;
步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测,并对预测结果进行判断,若准确率大于85%,则进入步骤6,否则进入步骤4;
步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值、所有用户的转变观点次数与所有用户可能转变观点总数的比值;
步骤7、计算用户墙头草指数,并根据墙头草指数判断用户观点坚定程度,墙头草指数越高表示该用户的坚定程度越低。
2.根据权利要求1所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤1中,评论数据包括评论内容、评论用户;预处理具体为:将评论内容中特殊字符和表情替换为文字表述,同时对同一用户发表的相同评论进行去重。
3.根据权利要求2所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤3具体为:根据用户观点倾向,对评论数据进行标注,将消极、中性、积极三种倾向分别标注为-1,0,1。
4.根据权利要求3所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤4中,采用聚类算法或其他无监督算法进行数据扩充。
5.根据权利要求4所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤6中,所有用户最大可能转变观点次数的平均值计算方法为:
Figure FDA0003224601900000011
其中,m为用户数量,nk表示第k个用户发表观点的总条数。
6.根据权利要求5所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤6中,所有用户的转变观点次数与所有用户可能转变观点总数的比值计算方法为:
Figure FDA0003224601900000021
其中,λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值;yki表示第k个用户的第i条评论的观点,nk表示第k个用户发表观点的总条数,m为用户数量。
7.根据权利要求6所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤7中,墙头草指数计算方法为:
Figure FDA0003224601900000022
8.根据权利要求7所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤7中,对仅考虑积极和消极的评论计算墙头草指数QT1,同时计算加入中性评论后的墙头草指数QT2,对墙头草指数QT1、QT2进行整合,得到用户的综合墙头草指数QTP,
Figure FDA0003224601900000023
该指数越高表示用户对某一观点的坚定程度越低,其中,α为修正系数指数。
CN202110967939.5A 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法 Active CN113792552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110967939.5A CN113792552B (zh) 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110967939.5A CN113792552B (zh) 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法

Publications (2)

Publication Number Publication Date
CN113792552A true CN113792552A (zh) 2021-12-14
CN113792552B CN113792552B (zh) 2023-05-09

Family

ID=78876287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110967939.5A Active CN113792552B (zh) 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法

Country Status (1)

Country Link
CN (1) CN113792552B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204140A (zh) * 2016-07-12 2016-12-07 华东师范大学 一种基于kl距离的群体观点迁移检测方法
US20180018569A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Mutual Reinforcement of Collaborative Filtering and Sentiment Analysis
CN109299252A (zh) * 2018-08-17 2019-02-01 北京奇虎科技有限公司 基于机器学习的股票评论的观点极性分类方法和装置
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法
CN112214661A (zh) * 2020-10-12 2021-01-12 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112861541A (zh) * 2020-12-15 2021-05-28 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204140A (zh) * 2016-07-12 2016-12-07 华东师范大学 一种基于kl距离的群体观点迁移检测方法
US20180018569A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Mutual Reinforcement of Collaborative Filtering and Sentiment Analysis
CN109299252A (zh) * 2018-08-17 2019-02-01 北京奇虎科技有限公司 基于机器学习的股票评论的观点极性分类方法和装置
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法
CN112214661A (zh) * 2020-10-12 2021-01-12 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112861541A (zh) * 2020-12-15 2021-05-28 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PHILIPE F.MELO 等: "10SENT: A Stable Sentiment Analysis Method Based on the Combination of Off-The-Shelf Approaches" *
肖云鹏: "在线社会网络用户行为模型与应用算法研究" *

Also Published As

Publication number Publication date
CN113792552B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN108717433A (zh) 一种面向程序设计领域问答系统的知识库构建方法及装置
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN113779260B (zh) 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN109872775A (zh) 一种文献标注方法、装置、设备及计算机可读介质
CN111914162A (zh) 一种基于知识图谱的个性化学习方案引导方法
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN111415131A (zh) 一种基于自然语言处理技术的大数据人才简历分析方法
CN113128233A (zh) 一种心理疾病知识图谱的构建方法及系统
CN115422220A (zh) 一种基于深度学习模型的自然语言转sql的方法
CN111340537A (zh) 一种广告点击率预估模型的建立方法
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113792552A (zh) 一种基于用户产生内容的观点转变指标计算方法
CN115952914A (zh) 一种基于大数据的电力计量运维工作判别规划方法
CN113240443B (zh) 面向电力客服问答的实体属性对抽取方法和系统
CN110414819B (zh) 一种工单评分方法
CN113515599A (zh) 一种安置帮教语义分析与方案推荐的方法
CN114595693A (zh) 一种基于深度学习的文本情感分析方法
Qu et al. Illation of video visual relation detection based on graph neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant