CN113792552B - 一种基于用户产生内容的观点转变指标计算方法 - Google Patents

一种基于用户产生内容的观点转变指标计算方法 Download PDF

Info

Publication number
CN113792552B
CN113792552B CN202110967939.5A CN202110967939A CN113792552B CN 113792552 B CN113792552 B CN 113792552B CN 202110967939 A CN202110967939 A CN 202110967939A CN 113792552 B CN113792552 B CN 113792552B
Authority
CN
China
Prior art keywords
viewpoint
user
users
transition
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110967939.5A
Other languages
English (en)
Other versions
CN113792552A (zh
Inventor
姚春华
王效武
王海兮
常明芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202110967939.5A priority Critical patent/CN113792552B/zh
Publication of CN113792552A publication Critical patent/CN113792552A/zh
Application granted granted Critical
Publication of CN113792552B publication Critical patent/CN113792552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于用户产生内容的观点转变指标计算方法,包括:步骤1、爬取热门贴子下评论数据;步骤2、根据评论数据确定用户观点倾向;步骤3、选取部分评论数据进行数据标注;步骤4、进行数据扩充,构建训练集,并进行模型训练;步骤5、通过训练后的模型对其他评论数据进行预测,若预测结果准确率大于85%,则进入步骤5,否则进入步骤4;步骤6、计算模型预测的所有数据中所有用户最大可能转变观点次数的平均值、所有用户的转变观点次数与所有用户可能转变观点总数的比值;步骤7、计算用户墙头草指数,根据墙头草指数判断用户观点鉴定程度。本发明方案能够量化用户观点鉴定程度,在用户画像与信息过滤、个性化推荐等领域有较大的应用前景。

Description

一种基于用户产生内容的观点转变指标计算方法
技术领域
本发明涉及情感分析技术领域,特殊涉及一种基于用户产生内容的观点转变指标计算方法。
背景技术
情感分析作为一个自然语言处理分支任务受到了广泛关注,现有情感分析技术已经取得了较高的准确率,而如何将情感分析的结果加以利用并创造更大价值是大家关注的重点。在用户画像领域,用户发帖的情感倾向是一个重要的考虑因素,然而现有方法大都关注用户的某一时刻的情感倾向或者最终的情感倾向,往往忽视了观点的转变也是一个重要的用户特征。在一段时间内,基于用户观点转变的情况可以设计一个量化指标,作为衡量用户对自己观点的坚定程度的重要依据,我们称之为“墙头草”指数。现有方法多是直接使用观点转变次数,这种方法思想朴素,计算简单,但是存在重大缺陷,第一、没有上限值,这导致我们对用户的“墙头草”指数缺乏宏观认识,无法根据数值确定该用户的坚定程度在全体用户中的位置。第二、不同用户的“墙头草”指数区分度不足。当两个用户发帖数量不同而观点转变的次数相同的情况下,仅仅使用观点转变次数会导致两个用户的“墙头草”指数相同,而事实上这两个数值应该有区分。
发明内容
针对现有技术中存在的问题,提供了一种基于用户产生内容的观点转变指标计算方法,能够加准确的计算与量化用户观点转变的指标。
本发明采用的技术方案如下:一种基于用户产生内容的观点转变指标计算方法,包括以下步骤:
步骤1、爬取一段时间内某热门贴子下评论数据,进行预处理后存入数据库;
步骤2、对存入的评论数据进行分析,确定用户观点倾向;
步骤3、选取部分评论数据进行数据标注;
步骤4、对标注的评论数据进行数据扩充,构建训练集,并采用训练集进行模型训练;
步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测,并对预测结果进行判断,若准确率大于85%,则进入步骤6,否则进入步骤4;
步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值和所有用户的转变观点次数与所有用户可能转变观点总数的比值;
步骤7、计算用户墙头草指数,并根据墙头草指数判断用户观点坚定程度,墙头草指数越高表示该用户的坚定程度越低。
进一步的,所述步骤1中,评论数据包括评论内容、评论用户;预处理具体为:将评论内容中特殊字符和表情替换为文字表述,同时对同一用户发表的相同评论进行去重。
进一步的,所述步骤3具体为:根据用户观点倾向,对评论数据进行标注,将消极、中性、积极三种倾向分别标注为-1,0,1。
进一步的,所述步骤4中,采用聚类算法或其他无监督算法进行数据扩充。
进一步的,所述步骤6中,所有用户最大可能转变观点次数的平均值计算方法为:
Figure BDA0003224601910000021
其中,m为用户数量,nk表示第k个用户发表评论的总条数。
进一步的,所述步骤6中,所有用户的转变观点次数与所有用户可能转变观点总数的比值计算方法为:
Figure BDA0003224601910000022
其中,λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值;yki表示第k个用户的第i条评论的观点,nk表示第k个用户发表评论的总条数,m为用户数量。
进一步的,所述步骤7中,墙头草指数计算方法为:
Figure BDA0003224601910000023
进一步的,所述步骤7中,对仅考虑积极和消极的评论计算墙头草指数QT1,同时计算加入中性评论后的墙头草指数QT2,对墙头草指数QT1、QT2进行整合,得到用户的综合墙头草指数QTP,
Figure BDA0003224601910000024
其中,α为修正系数指数,用来对墙头草指数QT1和QT2进行缩放,使得最终的QTP结果分布更加平滑。
与现有技术相比,采用上述技术方案的有益效果为:在本发明中提出了墙头草指数,并通过该指数实现了用户观点坚定程度的量化计算。在社交网络数据分析领域未发现类似的定量化分析工作;同时针对墙头草指数的计算,我们针对具体情况的分析得出了一个行之有效的墙头草指数计算公式,填补了相关领域的空白,使得对于用户的相关属性掌握的更加全面;本发明在用户画像与信息过滤、个性化推荐等领域有较大的应用前景
附图说明
图1是本发明提出基于用户产生内容的观点转变指标计算方法流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
针对舆情分析领域,使用爬虫将网络热点帖子的评论爬取并进行数据清洗,对小规模数据完成观点倾向标注,训练情感分析模型完成对全体数据的标注。而后进行“墙头草”指数分析,将积极、中性、消极的观点定义为-1,0,1,使用用户评论之间观点值相减的值来量化用户观点的转变。首先根据所用用户的评论计算用户平均最大可能转变观点次数L和背景指数λ;之后根据当前用户的全部观点的总波动计算其“墙头草”指数,同时在公式中加入L和λ作为平滑项,最后将中性评论也加入计算并使用缩放因子使最终的“墙头草”数值在(0,1)之间分部更加均匀。具体方案如下:
如图1所示,本发明提出了一种基于用户产生内容的观点转变指标计算方法,包括以下步骤:
步骤1、爬取一端时间内某热门贴子下评论数据,进行预处理后存入数据库;
步骤2、对存入的评论数据进行分析,确定用户观点倾向;
步骤3、选取部分评论数据进行数据标注;
步骤4、对标注的评论数据进行数据扩充,构建训练集,并采用训练集进行模型训练;
步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测,并对预测结果进行判断,若准确率大于85%,则进入步骤6,否则进入步骤4;
步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值和所有用户的转变观点次数与所有用户可能转变观点总数的比值;
步骤7、计算用户墙头草指数,并根据墙头草指数判断用户观点鉴定程度。
具体的,在步骤1中,确定网络热点事件,爬取网络大V针对热点事件的发帖,并对帖子下的评论数据进行爬取,所述评论数据包括评论内容、评论用户;在爬取后对评论数据进行预处理:将评论内容中特殊字符和表情替换为文字表述,同时对同一用户发表的相同评论进行去重。
在本实施例中,可以采用人工标注、机器学习或深度学习方法对评论数据进行情感倾向分析。
步骤3中,根据倾向分析得到的用户观点倾向,对评论数据进行标注,将消极、中性、积极三种倾向分别标注为-1,0,1。
优选的,步骤4中,采用聚类算法或其他无监督算法进行数据扩充。
所述步骤5中模型采用基于BERT的预训练模型。
由于一次评论的标签变化可能带来墙头草指数的很大波动,尤其是在用户评论数量较少的情况下,因此,在步骤6中首先引入所有用户平均最大可能转变观点次数L作为平滑因子以及所有用户的转变观点次数与所有用户可能转变观点总数的比值作为背景指数λ,使得墙头草指数更加可靠,所有用户最大可能转变观点次数的平均值计算方法为:
Figure BDA0003224601910000041
其中,m为用户数量,nk表示第k个用户发表评论的总条数。
所有用户的转变观点次数与所有用户可能转变观点总数的比值,即背景指数计算方法为:
Figure BDA0003224601910000042
其中,λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值;yki表示第k个用户的第i条评论的观点,nk表示第k个用户发表观点的总条数,m为用户数量。
由此,基于平滑因子L与背景指数λ进行墙头草指数计算:
Figure BDA0003224601910000043
中性的评论在总评论中占据了较大的比例,在实际计算中应该将其考虑进去,但同时中性评论的引入会导致评论的转折趋于平缓,使得计算的“墙头草”指数偏小,针对这样的矛盾,将只考虑积极和消极的评论计算出的指数定义为QT1,在加入中性评论后,计算的指数定义为QT2,取QT1和QT2的几何平均数,尽可能的表示出用户的真实坚定程度,同时在实际计算中,因为大量用户不会改变观点,这导致指数在0附近聚集,因此,采用α对几何平均数进行缩放,得到用户的综合墙头草指数QTP,
Figure BDA0003224601910000051
该指数越高表示用户对某一观点的坚定程度越低其中,α为修正系数指数,用来对墙头草指数QT1和QT2进行缩放,使得最终的QTP结果的分布更加平滑。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (4)

1.一种基于用户产生内容的观点转变指标计算方法,其特征在于,包括以下步骤:
步骤1、爬取一段时间内某热门贴子下评论数据,进行预处理后存入数据库;
步骤2、利用深度学习模型对存入的评论数据进行分析,确定用户观点倾向;
步骤3、选取部分评论数据进行数据标注;
步骤4、对标注的评论数据进行数据扩充,构建训练集,并采用训练集进行模型训练;
步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测,并对预测结果进行判断,若准确率大于85%,则进入步骤6,否则进入步骤4;
步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值、所有用户的转变观点次数与所有用户可能转变观点总数的比值;
步骤7、计算用户观点转变指数,并根据观点转变指数判断用户观点坚定程度,观点转变指数越高表示该用户的坚定程度越低;
所述步骤6中,所有用户最大可能转变观点次数的平均值计算方法为:
Figure FDA0004130170000000011
其中,m为用户数量,nk表示第k个用户发表观点的总条数;
所述步骤6中,所有用户的转变观点次数与所有用户可能转变观点总数的比值计算方法为:
Figure FDA0004130170000000012
其中,λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值;yki表示第k个用户的第i条评论的观点,nk表示第k个用户发表观点的总条数,m为用户数量;
所述步骤7中,观点转变指数计算方法为:
Figure FDA0004130170000000013
所述步骤7中,对仅考虑积极和消极的评论计算观点转变指数QT1,同时计算加入中性评论后的观点转变指数QT2,对观点转变指数QT1、QT2进行整合,得到用户的综合观点转变指数QTP,
Figure FDA0004130170000000021
该指数越高表示用户对某一观点的坚定程度越低,其中,α为修正系数指数。
2.根据权利要求1所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤1中,评论数据包括评论内容、评论用户;预处理具体为:将评论内容中特殊字符和表情替换为文字表述,同时对同一用户发表的相同评论进行去重。
3.根据权利要求2所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤3具体为:根据用户观点倾向,对评论数据进行标注,将消极、中性、积极三种倾向分别标注为-1,0,1。
4.根据权利要求3所述的基于用户产生内容的观点转变指标计算方法,其特征在于,所述步骤4中,采用聚类算法或其他无监督算法进行数据扩充。
CN202110967939.5A 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法 Active CN113792552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110967939.5A CN113792552B (zh) 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110967939.5A CN113792552B (zh) 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法

Publications (2)

Publication Number Publication Date
CN113792552A CN113792552A (zh) 2021-12-14
CN113792552B true CN113792552B (zh) 2023-05-09

Family

ID=78876287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110967939.5A Active CN113792552B (zh) 2021-08-23 2021-08-23 一种基于用户产生内容的观点转变指标计算方法

Country Status (1)

Country Link
CN (1) CN113792552B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204140A (zh) * 2016-07-12 2016-12-07 华东师范大学 一种基于kl距离的群体观点迁移检测方法
CN109299252A (zh) * 2018-08-17 2019-02-01 北京奇虎科技有限公司 基于机器学习的股票评论的观点极性分类方法和装置
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法
CN112214661A (zh) * 2020-10-12 2021-01-12 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112861541A (zh) * 2020-12-15 2021-05-28 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018569A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Mutual Reinforcement of Collaborative Filtering and Sentiment Analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204140A (zh) * 2016-07-12 2016-12-07 华东师范大学 一种基于kl距离的群体观点迁移检测方法
CN109299252A (zh) * 2018-08-17 2019-02-01 北京奇虎科技有限公司 基于机器学习的股票评论的观点极性分类方法和装置
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法
CN112214661A (zh) * 2020-10-12 2021-01-12 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112861541A (zh) * 2020-12-15 2021-05-28 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Philipe F.Melo 等.10SENT: A Stable Sentiment Analysis Method Based on the Combination of Off-The-Shelf Approaches.《Journal of the Association for Information Science and Technology》.2019,第70卷(第3期),205-303. *
肖云鹏.在线社会网络用户行为模型与应用算法研究.《中国博士学位论文全文数据库 信息科技辑》.2014,(第01期),I139-23. *

Also Published As

Publication number Publication date
CN113792552A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN107239529B (zh) 一种基于深度学习的舆情热点类别划分方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN111737486B (zh) 基于知识图谱、深度学习的人岗匹配方法、存储装置
CN113779260B (zh) 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN105740984A (zh) 一种基于性能预测的产品概念性能评价方法
CN110689195A (zh) 一种电力日负荷预测方法
CN112163553B (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN113723844B (zh) 一种基于集成学习的低压台区理论线损计算方法
CN108537377A (zh) 一种基于网络搜素指数的房价预测方法
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN117314266B (zh) 一种基于超图注意力机制的新型科技人才智能评价方法
CN113792552B (zh) 一种基于用户产生内容的观点转变指标计算方法
CN113626557A (zh) 一种基于要素标注与bert和rcnn算法的智能法条推荐辅助系统
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN107480126A (zh) 一种工程材料类别智能识别方法
CN111723127A (zh) 基于文本摘要情感挖掘的股票趋势预测方法和系统
CN116342167A (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN116150489A (zh) 基于多属性决策的娱乐场所推荐方法及系统
CN115952914A (zh) 一种基于大数据的电力计量运维工作判别规划方法
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
CN113610229A (zh) 一种基于范数不确定性指标的主动学习方法
CN113901203A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant