CN111767725A - 一种基于情感极性分析模型的数据处理方法及装置 - Google Patents
一种基于情感极性分析模型的数据处理方法及装置 Download PDFInfo
- Publication number
- CN111767725A CN111767725A CN202010584218.1A CN202010584218A CN111767725A CN 111767725 A CN111767725 A CN 111767725A CN 202010584218 A CN202010584218 A CN 202010584218A CN 111767725 A CN111767725 A CN 111767725A
- Authority
- CN
- China
- Prior art keywords
- data
- polarity
- evaluation data
- evaluation
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于情感极性分析模型的数据处理方法及装置,涉及人工智能技术领域,主要目的在于能够通过机器学习技术训练情感极性分析模型,对获取的评价数据进行极性分析,得到情感倾向信息,并利用区块链技术对所述评价数据和情感倾向信息进行存储,从而减少人工处理数据的工作量,提高数据处理效率。所述方法包括:获取待分析目标相关的评价数据;根据评价数据的评论类型,配置评价数据各自对应的权重值;通过情感极性数据集对评价数据分别进行极性分析,得到表征评价数据各自对应的极性等级的极性数据;根据权重值以及极性数据对所述评价数据进行处理,得到待分析目标的情感倾向信息。本发明适用于基于情感极性分析模型的数据处理。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于情感极性分析模型的数据处理方法及装置。
背景技术
随着社交网络愈发发达,通过分析人们在中文社交媒体上对某一企业的评论信息得到的情感倾向信息,有助于快速且较全面地掌握该企业的舆情动向,进而可以利用这些情感数据进行各方面的资产评估、风险预警以及舆情引导等各方面功能。而人工智能和大数据框架下不断发展的自然语言处理技术(Natural Language Processing,NLP)和不断降低的硬件环境搭建成本也使得情感数据的价值提高,未来前景广阔。
目前,通常通过人工对所述评价数据进行采集和处理,得到待分析目标的情感倾向信息。然而,随着数据爆炸式的增长,单纯通过人工进行采集和处理,不仅浪费了大量的人力资源,也导致了数据处理的效率降低,且数据处理的准确性比较差。
发明内容
有鉴于此,本发明提供一种基于情感极性分析模型的数据处理方法及装置,主要目的在于能够通过机器学习技术训练情感极性分析模型,对获取的评价数据进行极性分析,得到情感数据,并利用区块链技术对所述情感数据进行存储,从而减少人工对评价数据的处理工作量,提高数据处理的效率和准确性。
依据本发明一个方面,提供了一种基于情感极性分析模型的数据处理方法,包括:
获取待分析目标相关的评价数据;
根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;
通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;
根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
进一步地,所述通过情感极性数据集对所述评价数据分别进行极性分析,得到所述评价数据各自对应的极性等级的极性数据,包括:
利用jieba分词工具以及自定义词典对所述评价数据进行分词处理;
基于word2vec词向量模型对所述分词处理结果进行特征提取,得到所述评价数据的词向量;
根据所述词向量在所述情感极性数据集中进行匹配,得到所述评价数据各自对应的极性等级的极性数据。
进一步地,所述评论类型包括原创数据、回复数据和转发数据,所述根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值,包括:
通过对所述评价数据的各评论类型进行两两对比,配置各评论类型的相对贡献度;
根据所述各评论类型以及各评论类型的相对贡献度,生成判断矩阵;
利用几何平均法计算所述判断矩阵各行的连乘积开项数次方根,并对所述计算结果进行归一化处理,得到所述各评论类型对应的权重值。
进一步地,所述根据所述评价数据各自对应的所述权重值以及所述极性数据进行处理,得到所述待分析目标的情感倾向信息,包括:
对所述待分析目标的相关评价数据对应的所述极性数据与所述权重值的乘积进行累加,得到第一加权信息;
对所述待分析目标的相关评价数据对应的所述权重值进行累加,得到第二加权信息;
将所述第一加权信息与所述第二加权信息的比值确定为所述待分析目标的情感倾向信息。
进一步地,所述根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息之前,所述方法还包括:
利用自然语言处理技术中的关键词提取算法在所述评价数据中提取关键词数据;
利用所述关键词数据在预先建立的无效数据库中进行匹配,并将得到的无效关键词数据删除。
进一步地,所述利用预设的数据清洗算法,对所述评价数据进行数据清洗之后,所述方法还包括:
利用正则表达式对所述评价数据进行筛选,得到无效字符串数据;
将所述无效字符串数据删除。
进一步地,所述获取待分析目标相关的评价数据,包括:
利用网络爬虫工具在指定的存储地址获取所述待分析目标相关的评价数据;
将所述评价数据存储于区块链网络的区块节点中。
依据本发明二个方面,提供了一种基于情感极性分析模型的数据处理装置,包括:
获取单元,用于获取待分析目标相关的评价数据;
配置单元,用于根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;
分析单元,用于通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;
处理单元,用于根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
进一步地,所述分析单元,包括:
分词模块,用于利用jieba分词工具以及自定义词典对所述评价数据进行分词处理;
提取模块,用于基于word2vec词向量模型对所述分词处理结果进行特征提取,得到所述评价数据的词向量;
匹配模块,用于根据所述词向量在所述情感极性数据集中进行匹配,得到所述评价数据各自对应的极性等级的极性数据。
进一步地,所述配置单元,包括:
对比模块,用于通过对所述评价数据的各评论类型进行两两对比,配置各评论类型的相对贡献度;
生成模块,用于根据所述各评论类型以及各评论类型的相对贡献度,生成判断矩阵;
归一化模块,用于利用几何平均法计算所述判断矩阵各行的连乘积开项数次方根,并对所述计算结果进行归一化处理,得到所述各评论类型对应的权重值。
进一步地,所述处理单元,包括:
第一累加模块,用于对所述待分析目标的相关评价数据对应的所述极性数据与所述权重值的乘积进行累加,得到第一加权信息;
第二累加模块,用于对所述待分析目标的相关评价数据对应的所述权重值进行累加,得到第二加权信息;
确定模块,用于将所述第一加权信息与所述第二加权信息的比值确定为所述待分析目标的情感倾向信息。
进一步地,所述装置还包括:
提取单元,用于利用自然语言处理技术中的关键词提取算法在所述评价数据中提取关键词数据;
删除单元,用于利用所述关键词数据在预先建立的无效数据库中进行匹配,并将得到的无效关键词数据删除。
所述装置还包括:筛选单元。
所述筛选单元,用于利用正则表达式对所述评价数据进行筛选,得到无效字符串数据;
所述删除单元具体还用于将所述无效字符串数据删除。
进一步地,所述获取单元,包括:
获取模块,用于利用网络爬虫工具在指定的存储地址获取所述待分析目标相关的评价数据;
存储模块,用于将所述评价数据存储于区块链网络的区块节点中。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
依据本发明第四方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下步骤:获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
本发明提供一种基于情感极性分析模型的数据处理方法及装置,与现有技术通过人工对所述评价数据进行采集和处理,得到情感数据相比,本发明通过获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。从而能够通过机器学习技术训练情感极性分析模型,对获取的评价数据进行极性分析,得到情感倾向信息,并利用区块链技术对所述评价数据和情感倾向信息进行存储,从而减少人工处理数据的工作量,提高数据处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种基于情感极性分析模型的数据处理方法流程图;
图2示出了本发明实施例提供的另一种基于情感极性分析模型的数据处理方法流程图;
图3示出了本发明实施例提供的一种评价数据权重值的配置方法流程图;
图4示出了本发明实施例提供的一种对评价数据进行极性分析的方法流程图;
图5示出了本发明实施例提供的一种情感倾向信息处理方法流程图;
图6示出了本发明实施例提供的一种基于情感极性分析模型的数据处理装置的结构示意图;
图7示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,通常通过人工对所述评价数据进行采集和处理,得到待分析目标的情感倾向信息。然而,随着数据爆炸式的增长,单纯通过人工进行采集和处理,不仅浪费了大量的人力资源,也导致了数据处理的效率降低,且数据处理的准确性比较差。
为了解决上述问题,本发明实施例提供了一种基于情感极性分析模型的数据处理方法,如图1所示,所述方法包括:
101、获取待分析目标相关的评价数据。
其中,所述评价数据可以为企业评价信息,具体可以为网络评论、原创评价等。例如:评价数据可以为发布在xx公司微博页面的“xx公司环境真的太好了!”这一数据信息。具体地,接收数据处理请求后,可以解析所述数据处理请求,并得到所述请求中的评价数据。
需要说明的是,为了保证所获取的评价数据的安全性和私密性,可以将所述评价数据存储于区块链网络的区块节点中。并且将所述区块节点对应的地址和公钥保存在本地,以便于利用所述地址和公钥查找所述区块节点,并获取对应的评价数据。
102、根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值。
其中,可以根据所述评价数据的评论类型,给所述评价数据配置对应的权重值,所述评论类型具体可以包括原创评论、回复评论以及转发评论,根据具体的业务需求还可以进行细分,如转发评论可以分为一次转发和二次转发等。所述权重值具体可以根据层次分析法进行配置,将所述评论类型作为多个层次因素建立判断矩阵,并两两比对,配置相对贡献度,通过几何平均法,计算每个评论类型的权重值。本发明实施例通过对不同评论类型进行配置权重值,从而能够根据不同类别的评价数据对所述待分析目标进行情感倾向信息的分析。
103、通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据。
其中,所述情感极性数据集具体可以为通过语料标注的方式建立的数据集合。具体地,选取网络语料,通过人工标注对所述网络语料中的关键词进行极性标注,得到情感极性标签,利用所述情感极性标签建立所述情感极性数据集。所述极性分析具体可以通过所述评价数据转换的词向量以及所述情感极性数据集进行分类,以得到所述评价数据对应等级的极性数据,所述极性数据可以包括积极、消极和中性三种类型。本发明实施例通过情感极性数据集对所述评价数据分别进行极性分析,得到所述评价数据各自对应的极性等级的极性数据。从而能够对各个评价数据的情感极性进行分析,为后续待分析目标的情感倾向分析提供数据基础。
104、根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
其中,所述情感倾向信息可以为根据所述待分析目标的情感倾向信息进行处理得到的情感倾向。在实际应用场景中,所述情感倾向信息可以用于进一步进行风险评估、资产评估或者舆情引导等。例如:在企业相关信息发布网页中爬取评价数据,并处理得到情感倾向信息,以便利用所述情感情感倾向信息进行相关业务的办理,可以提高业务办理的效率,减少人力资源的消耗。
对于本发明实施例,为了保证所述情感倾向信息的安全性和私密性,可以将所述情感倾向存储于区块链的区块节点中,并将所述区块节点的地址发送给对应的终端,以便于终端从对应的区块节点中获取所述情感倾向信息。
本发明提供一种基于情感极性分析模型的数据处理方法,通过获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。能够通过机器学习技术训练情感极性分析模型,对获取的评价数据进行极性分析,得到情感倾向信息,并利用区块链技术对所述评价数据和情感倾向信息进行存储,从而减少人工处理数据的工作量,提高数据处理效率。
本发明实施例提供了另一种基于情感极性分析模型的数据处理方法,如图2所示,该方法包括:
201、根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值。
本步骤与图1所示的步骤102方法相同,在此不再赘述。
对于本发明实施例,如图3所示,所述步骤201具体可以包括:
步骤2011:通过对所述评价数据的各评论类型进行两两对比,配置各评论类型的相对贡献度;
步骤2012:根据所述各评论类型以及各评论类型的相对贡献度,生成判断矩阵;
步骤2013:利用几何平均法计算所述判断矩阵各行的连乘积开项数次方根,并对所述计算结果进行归一化处理,得到所述各评论类型对应的权重值。
其中,所述判断矩阵可以根据所述各评论类型以及所述各评论类型的相对贡献度进行生成,用于计算所述各评论类型对应的权重值。所述相对贡献度具体可以为将所述各评论类型进行两两比较,根据重要程度,赋予的相对数值,在实际应用场景中,可以根据9分位比率法。例如,如果认为两个评价类型的重要性相当,则取值为1,前者比后者稍微重要则取值为3,前者比后者稍微不重要,则取值为1/3,同理,如果认为前者比后者比较重要,则取5,十分重要则取7,绝对重要则取9。根据所述相对贡献度以及所述各评论类型,生成判断矩阵。可以利用几何平均法计算所述判断矩阵各行的连乘积开项数次方根,并对所述计算结果进行归一化处理,以得到所述各评论类型对应的权重值。具体地,首先可以根据n种类型数据生成判断矩阵C,然后将各类型数据相对贡献程度按行相乘后开n次方,最终生成和为1的各类型数据的权重值。S0类型数据的权重可以为:
其中:wS0为所述评价类型S0的权重值,C为判断矩阵,S为所述判断矩阵中的所有评价类型,t为所述判断矩阵中所述评价数据S0对应的行乘积,n为评价数据类型数。例如,如下表1所示,取4种评价类型,分别为原创内容,评论内容,1次转发,2次转发。通过9分位比率法分别得到每个评价类型的相对贡献度,并生成判断矩阵。对所述矩阵按行计算乘积并开4次方,得到所述各评价类型的权重值。
原创内容 | 评论内容 | 1次转发 | 2次转发 | 按行相乘 | 开n次方 | 权重 | |
原创内容 | 1 | 2 | 4 | 5 | 40.00 | 2.51 | 0.52 |
评论内容 | 0.5 | 1 | 1.33 | 1.67 | 1.11 | 1.03 | 0.21 |
1次转发 | 0.25 | 0.75 | 1 | 1.25 | 0.23 | 0.70 | 0.15 |
2次转发 | 0.2 | 0.6 | 0.8 | 1 | 0.10 | 0.56 | 0.12 |
统计 | 4.79 |
表1
202、通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据。
本步骤与图1所示的步骤103方法相同,在此不再赘述。
对于本发明实施例,如图4所示,所述步骤202具体可以包括:
步骤2021:利用jieba分词工具以及自定义词典对所述评价数据进行分词处理;
步骤2022:基于word2vec词向量模型对所述分词处理结果进行特征提取,得到所述评价数据的词向量;
步骤2023:根据所述词向量在所述情感极性数据集中进行匹配,得到所述评价数据各自对应的极性等级的极性数据。
其中,所述分词处理是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。对于本发明实施例,可以利用jieba开源分词工具包以及自定义词典对所述评价数据进行分词处理,例如,输入语料为{公司环境真的太好了!},根据jieba分词工具可以得到分词后的语料{公司,环境,真的,太好了,!}。需要说明的是,由于爬取的评价数据文本通常是短文本,使用jieba分词工具对所述评价数据进行分词处理即可满足中文分词的准确率,但是对于长文本,也可以通过预先训练分词模型,从而进行分词处理,以提高分词准确率,具体地,训练语料可以为获取的训练评价数据,进行人工标注然后用于分词模型的构建。采用双向长短时记忆网络条件随机场(Bi-LSTM-CRF)神经网络方法训练分词模型,在训练过程中首先将训练语料转换为向量化表示,然后输入到LSTM网络中自动学习特征信息,在此过程中加入遗弃层(dropout)控制模型训练,随机丢弃一些信息,从而缓解模型过拟合的问题,然后再将隐层输出传入到CRF层中,得到较为规范的分词结果。
另外,对于本发明实施例,在对所述评价数据进行分词处理之后,还可以通过word2vec词向量模型对所述分词结果进行特征提取,得到词向量。其中,所述word2vec词向量模型可以用于问答系统,情感分析,垃圾邮件过滤,命名实体识别,文档聚类等任务中,作为这些任务的语言模型,本发明实施例中,通过word2vec词向量模型可以将所述分词结果转化为词向量,从而便于后续对所述评价数据进行计算和分类处理。
对于本发明实施例,得到所述评价数据的词向量之后,可以利用极性分类器对所述词向量进行进行极性分析,输出所述词向量对应等级的极性数据,所述词向量对应等级的极性数据具体可以包括积极、消极和中性,所述积极极性数据可以用1表示,表示积极的感情色彩,所述消极极性数据可以用0表示,表示消极的感情色彩,所述中性极性数据可以用-1表示,表示中性的感情色彩。在实际应用场景中,可以在encoder[CLS]词位的顶层输出增加一个极性数据分类层即可。所述根据所述词向量在所述情感极性数据集中进行匹配,得到所述评价数据各自对应的极性等级的极性数据的过程可以包括:根据所述词向量,在所述情感极性数据集中匹配对应的情感极性标签,例如,对于评价数据{工作氛围好},在所述情感极性数据集中匹配到{氛围好}这一词语的情感分类标签为积极,则可以确定所述评价数据的极性数据为1。如表2所示,若所述情感极性数据为1,表示所述评价数据表达积极的情感,若所述情感极性数据为-1,表示所述评价数据表达消极的情感。对于本发明实施例,通过预先训练的情感极性分析模型,对所述评价数据进行处理,可以得到所述评价数据对应的情感极性数据。从而可以将评价数据中抽象的情感进行量化的表达,便于后续根据对情感数据的处理计算。所述极性数据的示意表格如表2所示:
表2
203、根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
本步骤与图1所示的步骤104方法相同,在此不再赘述。
对于本发明实施例,如图5所示,所述步骤203具体可以包括:
步骤2031:对所述待分析目标的相关评价数据对应的所述极性数据与所述权重值的乘积进行累加,得到第一加权信息;
步骤2032:对所述待分析目标的相关评价数据对应的所述权重值进行累加,得到第二加权信息;
步骤2033:将所述第一加权信息与所述第二加权信息的比值确定为所述待分析目标的情感倾向信息。
对于本发明实施例,可以根据得到的评价数据权重值以及极性数据,得到待分析目标的情感倾向信息,也可以生成变化趋势图,以便于更加直观的查看情感倾向信息。具体地,根据每条评价信息n的权重值wn和极性数据qn进行统计,针对预设时间段内计算情感倾向信息Ki,具体公式如下:
另外,所述情感倾向信息可以还可以用于进行各方面的资产评估、风险预警以及舆情引导等各方面功能,例如具体可以包括,近1年企业舆情得分、近1年企业舆情变化率、近6月企业舆情得分、近6月企业舆情变化率、近30天企业舆情得分、近30天企业舆情变化率等,例如,
近1年企业舆情变化率算法可以包括:a=(K365-K1)/K1
近6月企业舆情变化率算法可以包括:b=(K365-K183)/K183
近30天企业舆情变化率算法可以包括:c=(K365-K336)/K336
需要说明的是,本申请上述的情感倾向信息的具体应用场景可以根据业务需求进行设定和修改,本发明实施例在此不作具体规定。
204、利用自然语言处理技术中的关键词提取算法在所述评价数据中提取关键词数据;利用所述关键词数据在预先建立的无效数据库中进行匹配,并将得到的无效关键词数据删除。
在实际应用场景下,数据清洗是非常重要的步骤。由于中文社交媒体具有的强非结构化数据属性,通过网络爬取到的评价数据中充斥着大量的无效信息,如广告、灌水内容、垃圾信息等,这些信息如果不经过数据清洗,势必会对最终的结果产生很大的影响。而本发明实施例通过关键词提取和正则表达式两种方式对评价数据进行数据清洗,能够最大限度的提出所述评价数据中的无效数据以及无效字符串,从而提高评价数据的准确率。
具体地,所述关键词提取算法具体可以为自然语言处理技术(Natural LanguageProcessing,NLP)中的关键词提取算法,即给定一个已有的关键词库,对于接收的文档从所述词库里面匹配几个词语作为所述文档的关键词。具体地,利用所述关键词提取算法,对所述评价数据进行处理后,与预先建立的无效数据库进行匹配,得到所述评价数据中的无效数据,并将无效数据删除,从而可以删除所述评价数据中大部分的无效数据,提高数据处理的准确率。
需要说明的是,本发明实施例可以预先建立无效数据库,具体地,可以通过对收集网络评论信息作为训练语料,训练无效数据识别模型,将输出的无效数据保存至预先建立的数据库中,从而为关键词分配提供数据基础。
205、利用正则表达式对所述评价数据进行筛选,得到无效字符串数据;将所述无效字符串数据删除。
其中,正则表达式(代码中常简写regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就可以认为它“匹配”了,否则,该字符串就是不合法的。具体过程可以包括:S1:清洗HTML标签文本。S2:过滤DOCTYPE.。S3:去掉多余的空格。S4:过滤CDATA。S5:去掉SCRIPT。S6:去掉style。S7:处理换行。S8:去掉HTML标签。S9:剔除超链接。通过上述步骤可以部分删除情感信息条目中包含的无效字母、网址和标点组合等无效数据,得到剔除无效数据后的评价数据。
206、利用网络爬虫工具在指定的存储地址获取所述待分析目标相关的评价数据;将所述评价数据存储于区块链网络的区块节点中。
其中,所述网络爬虫工具可以按照一定的规则,自动抓取万维网信息的程序或者脚本,具体可以通过python编译。对于本发明实施例,通过网络爬虫工具可以得到与所述待分析目标相关的评价数据,进而对所述评价数据进行后续的处理及分析。例如,当输入一个企业名称时,网络爬虫工具会自动生成一系列的与该企业相关的关键词用于爬虫。因为网络中用户发布的内容会有原创、转发和评论等多种形式,所以在存储爬取结果时可以对于这些形式进行标记,以便后续分析中赋予其不同的权重。具体的网络爬虫工区爬取评价数据存储格式示例如表3所示:
表3
进一步地,作为图1的具体实现,本发明实施例提供了一种基于情感极性分析模型的数据处理装置,如图6所示,所述装置包括:获取单元31、配置单元32、分析单元33和处理单元34。
获取单元31,可以用于获取待分析目标相关的评价数据;
配置单元32,可以用于根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;
分析单元33,可以用于通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;
处理单元34,可以用于根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
进一步地,所述分析单元33,包括:
分词模块331,可以用于利用jieba分词工具以及自定义词典对所述评价数据进行分词处理;
提取模块332,可以用于基于word2vec词向量模型对所述分词处理结果进行特征提取,得到所述评价数据的词向量;
匹配模块333,可以用于根据所述词向量在所述情感极性数据集中进行匹配,得到所述评价数据各自对应的极性等级的极性数据。
进一步地,所述配置单元32,包括:
对比模块321,可以用于通过对所述评价数据的各评论类型进行两两对比,配置各评论类型的相对贡献度;
生成模块322,可以用于根据所述各评论类型以及各评论类型的相对贡献度,生成判断矩阵;
归一化模块323,可以用于利用几何平均法计算所述判断矩阵各行的连乘积开项数次方根,并对所述计算结果进行归一化处理,得到所述各评论类型对应的权重值。
进一步地,所述处理单元34,包括:
第一累加模块341,可以用于对所述待分析目标的相关评价数据对应的所述极性数据与所述权重值的乘积进行累加,得到第一加权信息;
第二累加模块342,可以用于对所述待分析目标的相关评价数据对应的所述权重值进行累加,得到第二加权信息;
确定模块343,可以用于将所述第一加权信息与所述第二加权信息的比值确定为所述待分析目标的情感倾向信息。
进一步地,所述装置还包括:
提取单元35,可以用于利用自然语言处理技术中的关键词提取算法在所述评价数据中提取关键词数据;
删除单元36,可以用于利用所述关键词数据在预先建立的无效数据库中进行匹配,并将得到的无效关键词数据删除。
所述装置还包括:筛选单元37。
所述筛选单元37,可以用于利用正则表达式对所述评价数据进行筛选,得到无效字符串数据;
所述删除单元36具体还可以用于将所述无效字符串数据删除。
进一步地,所述获取单元31,包括:
获取模块311,可以用于利用网络爬虫工具在指定的存储地址获取所述待分析目标相关的评价数据;
存储模块312,可以用于将所述评价数据存储于区块链网络的区块节点中。
需要说明的是,本发明实施例提供的一种基于情感极性分析模型的数据处理装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
基于上述如图1所示方法和如图6所示装置的实施例,本发明实施例还提供了一种计算机设备,如图7所示,处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43、以及通信总线44。其中:处理器41、通信接口42、以及存储器43通过通信总线44完成相互间的通信。通信接口44,用于与其它设备比如用户端或其它服务器等的网元通信。处理器41,用于执行程序,具体可以执行上述基于情感极性分析模型的数据处理方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器41可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器43,用于存放程序。存储器43可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器41执行以下操作:获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
通过本发明的技术方案,能够获取待分析目标相关的评价数据;根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。从而能够通过机器学习技术训练情感极性分析模型,对获取的评价数据进行极性分析,得到情感倾向信息,并利用区块链技术对所述评价数据和情感倾向信息进行存储,从而减少人工处理数据的工作量,提高数据处理效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种基于情感极性分析模型的数据处理方法,其特征在于,包括:
获取待分析目标相关的评价数据;
根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;
通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;
根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
2.根据权利要求1所述的方法,其特征在于,所述通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,包括:
利用jieba分词工具以及自定义词典对所述评价数据进行分词处理;
基于word2vec词向量模型对所述分词处理结果进行特征提取,得到所述评价数据的词向量;
根据所述词向量在所述情感极性数据集中匹配对应的情感极性标签,以得到所述评价数据对应的极性等级的极性数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值,包括:
通过对所述评价数据的各评论类型进行两两对比,配置各评论类型的相对贡献度;
根据所述各评论类型以及各评论类型的相对贡献度,生成判断矩阵;
计算所述判断矩阵各行的连乘积开项数次方根,并对所述计算结果进行归一化处理,得到所述各评论类型对应的权重值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息,包括:
对所述待分析目标的相关评价数据对应的所述极性数据与所述权重值的乘积进行累加,得到第一加权信息;
对所述待分析目标的相关评价数据对应的所述权重值进行累加,得到第二加权信息;
将所述第一加权信息与所述第二加权信息的比值确定为所述待分析目标的情感倾向信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值之前,所述方法还包括:
在所述评价数据中提取关键词数据;
利用所述关键词数据在预先建立的无效数据库中进行匹配,并将得到的无效关键词数据删除。
6.根据权利要求5所述的方法,其特征在于,所述利用所述关键词数据在预先建立的无效数据库中进行匹配,并将得到的无效关键词数据删除之后,所述方法还包括:
利用正则表达式对所述评价数据进行筛选,得到无效字符串数据;
将所述无效字符串数据删除。
7.根据权利要求1所述的方法,其特征在于,所述获取待分析目标相关的评价数据,包括:
利用网络爬虫工具在指定的存储地址获取所述待分析目标相关的评价数据;
将所述评价数据存储于区块链网络的区块节点中。
8.一种基于情感极性分析模型的数据处理装置,其特征在于,包括
获取单元,用于获取待分析目标相关的评价数据;
配置单元,用于根据所述评价数据的评论类型,配置所述评价数据各自对应的权重值;
分析单元,用于通过情感极性数据集对所述评价数据分别进行极性分析,得到表征所述评价数据各自对应的极性等级的极性数据,所述情感极性数据集包含不同语料分别对应的情感极性标签;
处理单元,用于根据所述权重值以及所述极性数据对所述评价数据进行处理,得到所述待分析目标的情感倾向信息。
9.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-7中任一项所述的基于情感极性分析模型的数据处理方法对应的操作。
10.一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于情感极性分析模型的数据处理对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010584218.1A CN111767725B (zh) | 2020-06-24 | 2020-06-24 | 一种基于情感极性分析模型的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010584218.1A CN111767725B (zh) | 2020-06-24 | 2020-06-24 | 一种基于情感极性分析模型的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767725A true CN111767725A (zh) | 2020-10-13 |
CN111767725B CN111767725B (zh) | 2023-06-20 |
Family
ID=72722106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010584218.1A Active CN111767725B (zh) | 2020-06-24 | 2020-06-24 | 一种基于情感极性分析模型的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767725B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308387A (zh) * | 2020-10-20 | 2021-02-02 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
CN112328586A (zh) * | 2020-11-17 | 2021-02-05 | 河北冀联人力资源服务集团有限公司 | 一种基于递归区块链的人力资源数据处理方法及系统 |
CN112329462A (zh) * | 2020-11-26 | 2021-02-05 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112651768A (zh) * | 2020-12-04 | 2021-04-13 | 苏州黑云智能科技有限公司 | 基于区块链的电商分析方法及系统 |
CN113111269A (zh) * | 2021-05-10 | 2021-07-13 | 网易(杭州)网络有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN113269250A (zh) * | 2021-05-25 | 2021-08-17 | 国网浙江省电力有限公司综合服务分公司 | 一种餐盘光盘情况评测方法 |
CN113468206A (zh) * | 2021-07-15 | 2021-10-01 | 中国银行股份有限公司 | 数据维护方法、装置、服务器、介质及产品 |
CN117521813A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于知识图谱的剧本生成方法、装置、设备及芯片 |
CN112308387B (zh) * | 2020-10-20 | 2024-05-14 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708868A (zh) * | 2015-11-16 | 2017-05-24 | 中国移动通信集团北京有限公司 | 一种互联网数据分析方法及系统 |
CN106776574A (zh) * | 2016-12-28 | 2017-05-31 | Tcl集团股份有限公司 | 用户评论文本挖掘方法及装置 |
CN109271512A (zh) * | 2018-08-29 | 2019-01-25 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
-
2020
- 2020-06-24 CN CN202010584218.1A patent/CN111767725B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708868A (zh) * | 2015-11-16 | 2017-05-24 | 中国移动通信集团北京有限公司 | 一种互联网数据分析方法及系统 |
CN106776574A (zh) * | 2016-12-28 | 2017-05-31 | Tcl集团股份有限公司 | 用户评论文本挖掘方法及装置 |
CN109271512A (zh) * | 2018-08-29 | 2019-01-25 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308387A (zh) * | 2020-10-20 | 2021-02-02 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
CN112308387B (zh) * | 2020-10-20 | 2024-05-14 | 深圳思为科技有限公司 | 客户意向度评估方法与装置、云服务器 |
CN112328586A (zh) * | 2020-11-17 | 2021-02-05 | 河北冀联人力资源服务集团有限公司 | 一种基于递归区块链的人力资源数据处理方法及系统 |
CN112328586B (zh) * | 2020-11-17 | 2023-11-03 | 河北冀联人力资源服务集团有限公司 | 一种基于递归区块链的人力资源数据处理方法及系统 |
CN112329462A (zh) * | 2020-11-26 | 2021-02-05 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112329462B (zh) * | 2020-11-26 | 2024-02-20 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112651768A (zh) * | 2020-12-04 | 2021-04-13 | 苏州黑云智能科技有限公司 | 基于区块链的电商分析方法及系统 |
CN113111269A (zh) * | 2021-05-10 | 2021-07-13 | 网易(杭州)网络有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN113269250A (zh) * | 2021-05-25 | 2021-08-17 | 国网浙江省电力有限公司综合服务分公司 | 一种餐盘光盘情况评测方法 |
CN113468206A (zh) * | 2021-07-15 | 2021-10-01 | 中国银行股份有限公司 | 数据维护方法、装置、服务器、介质及产品 |
CN113468206B (zh) * | 2021-07-15 | 2024-02-23 | 中国银行股份有限公司 | 数据维护方法、装置、服务器、介质及产品 |
CN117521813A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于知识图谱的剧本生成方法、装置、设备及芯片 |
Also Published As
Publication number | Publication date |
---|---|
CN111767725B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN111950273B (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN112084335B (zh) | 一种基于信息融合的社交媒体用户账号分类方法 | |
CN112241481A (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
Singh et al. | A comparison of linear discriminant analysis and ridge classifier on Twitter data | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
Faruque et al. | Ascertaining polarity of public opinions on Bangladesh cricket using machine learning techniques | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN115640439A (zh) | 一种网络舆情监控的方法、系统及存储介质 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
Nishiwaki et al. | A consideration of evaluation method of sentiment analysis on social listening | |
Le-Minh et al. | Aspect-based sentiment analysis using mini-window locating attention for vietnamese e-commerce reviews | |
Pertsas et al. | Ontology-driven information extraction from research publications | |
Gul et al. | Tanz-indicator: A novel framework for detection of perso-arabic-scripted urdu sarcastic opinions | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
Faria et al. | Tweet and news sentiment indicators and the behavior of the brazilian stock market | |
Yadao et al. | A semantically enhanced deep neural network framework for reputation system in web mining for Covid-19 Twitter dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |