CN112148878A - 情感数据处理方法及装置 - Google Patents
情感数据处理方法及装置 Download PDFInfo
- Publication number
- CN112148878A CN112148878A CN202011012503.2A CN202011012503A CN112148878A CN 112148878 A CN112148878 A CN 112148878A CN 202011012503 A CN202011012503 A CN 202011012503A CN 112148878 A CN112148878 A CN 112148878A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- viewpoint
- extraction
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002996 emotional effect Effects 0.000 title claims description 80
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000008451 emotion Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 88
- 238000013145 classification model Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 38
- 230000007935 neutral effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种情感数据处理方法及装置,涉及计算机技术领域。该方法包括:确定待预测的目标文本以及目标文本对应的目标实体;判断目标文本是否为观点文本,观点文本为存在观点词的文本;如果目标文本为观点文本,则提取目标文本中目标实体对应的目标观点词。以此可以快速过滤掉网络上大量的非观点文本,提高了整体算法的效率,提高了系统数据处理的吞吐量;同时减少了对于提取模块的噪音,提升了提取的效果。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种情感数据处理方法及装置。
背景技术
随着互联网的高速发展,特别是微博,豆瓣,贴吧等网站的广泛使用,广大网络用户已经从单纯的信息获取者变成了网络内容的主要制造者。越来越多的人开始在网络上发表自己对某个物品,某件事的看法。细粒度情感分析逐渐成为当前的研究热点。它的研究目的是为了利用网络上丰富的用户评论资源,进行产品的市场反馈分析,为服务方提供针对于产品各个方面的网络评价报告。细粒度情感分析主要用于判断句子对于某个实体或者方面的情感极性,一般来说分为正面,负面和中立三类。这样的话只会有一个大概的好或不好的整体评价,无法反应真实的用户需求和用户对产品的具体观点。而观点词主要用于提取句子中出现的针对某个实体或者方面的表达情感或观点的词或短语。两个任务是有比较强的相关性和内在联系。
目前的方案都是假定句子包含针对于某个实体或方面的情感和观点词。但实际上,在大量的网络评论中非观点文本是占大多数的,很多情况下人们只是顺便提到了该实体,而没有对其发表评论,如“我去过这家饭店”和“这家饭店太好吃了”,对于“饭店”这个实体来说,前者是非观点文本,后者是观点文本。这样大量的非观点文本会对分类或者提取模型造成较大的噪声。
发明内容
本发明的目的在于提供一种情感数据处理方法及装置,以缓解了现有技术中存在的识别准确率低的技术问题。
第一方面,本发明实施例提供一种情感数据处理方法,包括:
确定待预测的目标文本以及目标文本对应的目标实体;
判断目标文本是否为观点文本,观点文本为存在观点词的文本;
如果目标文本为观点文本,则提取目标文本中目标实体对应的目标观点词。
在可选的实施方式中,判断目标文本是否为观点文本的步骤,包括:
基于训练好的分类模型对目标文本进行分类,判断目标文本是否为观点文本。
在可选的实施方式中,还包括:
确定第一训练样本,第一训练样本包括观点文本样本和非观点文本样本,观点文本样本包括实体标签、情感倾向标签以及观点词标签,非观点文本样本包括实体标签以及非观点标签;
基于第一训练样本对初始分类模型进行训练,得到训练好的分类模型。
在可选的实施方式中,提取目标文本中目标实体对应的观点词的步骤包括:
提取目标文本中目标实体对应的观点词,确定目标观点词以及目标观点词对应的情感倾向。
在可选的实施方式中,提取目标文本中目标实体对应的观点词,确定目标观点词以及目标观点词对应的情感倾向的步骤包括:
基于预先训练好的提取判别模型对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在可选的实施方式中,还包括:
确定第二训练样本,第二训练样本包括观点文本样本,观点文本样本对应有实体标签、情感倾向标签以及观点词标签;
基于第二训练样本对初始的提取判别模型进行训练,得到训练好的提取判别模型,提取判别模型包括编码层、提取层以及判别层,编码层的输出为提取层和判别层的输入,提取层的输出为观点词,判别层的输出为情感倾向。
在可选的实施方式中,提取判别模型对应有损失函数,损失函数基于第一子损失函数以及第二子损失函数确定,第一子损失函数对应于提取层,第二子损失函数对应于判别层。
在可选的实施方式中,编码层为双向编码层BERT。
在可选的实施方式中,基于预先训练好的提取判别模型对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向的步骤,包括:
将目标文本切分为多个部分,多个部分包括实体左文本、实体以及实体右文本;
将多个部分输出到预先训练好的提取判别模型,对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在可选的实施方式中,情感倾向包括正面、负面以及中立。
在可选的实施方式中,提取目标文本中目标实体对应的目标观点词的步骤包括:
基于训练好的提取模型对目标文本中的目标实体对应的目标观点词进行提取。
在可选的实施方式中,还包括:
如果目标文本不是观点文本,则输出目标文本无观点词。
第二方面,本发明实施例提供一种情感数据处理装置,包括:
确定模块,用于确定待预测的目标文本以及目标文本对应的目标实体;
判断模块,用于判断目标文本是否为观点文本,观点文本为存在观点词的文本;
提取模块,用于如果目标文本为观点文本,则提取目标文本中目标实体对应的目标观点词。
在可选的实施方式中,判断模块具体用于:
基于训练好的分类模型对目标文本进行分类,判断目标文本是否为观点文本。
在可选的实施方式中,还包括,训练模块,用于:
确定第一训练样本,第一训练样本包括观点文本样本和非观点文本样本,观点文本样本包括实体标签、情感倾向标签以及观点词标签,非观点文本样本包括实体标签以及非观点标签;
基于第一训练样本对初始分类模型进行训练,得到训练好的分类模型。
在可选的实施方式中,提取模块具体用于:
提取目标文本中目标实体对应的观点词,确定目标观点词以及目标观点词对应的情感倾向。
在可选的实施方式中,提取模块具体用于:
基于预先训练好的提取判别模型对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在可选的实施方式中,还包括,训练模块,用于:
确定第二训练样本,第二训练样本包括观点文本样本,观点文本样本对应有实体标签、情感倾向标签以及观点词标签;
基于第二训练样本对初始的提取判别模型进行训练,得到训练好的提取判别模型,提取判别模型包括编码层、提取层以及判别层,编码层的输出为提取层和判别层的输入,提取层的输出为观点词,判别层的输出为情感倾向。
在可选的实施方式中,提取判别模型对应有损失函数,损失函数基于第一子损失函数以及第二子损失函数确定,第一子损失函数对应于提取层,第二子损失函数对应于判别层。
在可选的实施方式中,编码层为双向编码层BERT。
在可选的实施方式中,提取模块具体用于:
将目标文本切分为多个部分,多个部分包括实体左文本、实体以及实体右文本;
将多个部分输出到预先训练好的提取判别模型,对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在可选的实施方式中,情感倾向包括正面、负面以及中立。
在可选的实施方式中,提取具体用于:
基于训练好的提取模型对目标文本中的目标实体对应的目标观点词进行提取。
在可选的实施方式中,还包括,输出模块,用于:
如果目标文本不是观点文本,则输出目标文本无观点词。
第三方面,本发明实施例提供一种计算机设备,包括存储器以及处理器;存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述前述实施方式任一项的方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质存储有机器可运行指令,计算机可运行指令在被处理器调用和运行时,计算机可运行指令促使处理器运行前述实施方式任一项的方法。
本发明提供的本发明实施例提供一种情感数据处理方法及装置。通过确定待预测的目标文本以及目标文本对应的目标实体;判断目标文本是否为观点文本,观点文本为存在观点词的文本;如果目标文本为观点文本,则提取目标文本中目标实体对应的目标观点词。以此可以快速过滤掉网络上大量的非观点文本,提高了整体算法的效率,提高了系统数据处理的吞吐量;同时减少了对于提取模块的噪音,提升了提取的效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种情感数据处理方法流程示意图;
图2为本申请实施例提供的一种情感数据处理方法的一个示例;
图3为本申请实施例提供的一种情感数据处理装置结构示意图;
图4为本申请实施例提供的一种计算机设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1为本发明实施例提供的一种情感数据处理方法流程示意图。如图1所示,该方法可以包括如下步骤:
S110,确定待预测的目标文本以及目标文本对应的目标实体。
该待预测的目标文本可以是指带有情感倾向的文本,该情感倾向针对的对象即为目标实体,该情感倾向可以通过观点词来体现。在实际应用中,该目标文本也可以未带有情感倾向。
其中,该目标文本可以包括目标实体和观点词;也可以是仅包括观点词;还可以是即不包括目标实体,也不包括观点词。相对应的,不同情况下的目标文件,目标实体的确定方式也不同。
例如,对于一个目标文本“这家饭店的菜味道不错”,该目标文本对应的目标实体为“饭店”,观点词为“味道不错”或者“不错”,也就是改目标文本包括目标实体和观点词,此时,可以基于实体识别来确定目标文本中的实体,该实体识别可以基于序列标记模型来实现。
再例如,目标文本可以未包含目标实体,此时,该目标实体可以基于该目标文本对应的场景等获取得到,也可以是接收用户输入的目标实体。
S120,判断目标文本是否为观点文本,该观点文本为存在观点词的文本。
由于目标文本可能是带有情感倾向的文本,也可能是未带有情感倾向的文本,所以可以先判断该目标文本是否带有情感倾向,如果未带有情感倾向,则不必进行观点词提取以及情感倾向的判断,如果带有情感倾向,则可以进行观点词的提取以及情感倾向的判断。
对于该目标文本是否带有情感倾向可以包括多种判断方式。
作为一个示例,可以基于训练好的分类模型对目标文本进行分类,判断目标文本是否为观点文本,该观点文本则可以认为是带有情感倾向的文本,如果不是观点文本,则可以认为是未带有情感倾向的文本。
对训练好的分类模型,可以先确定初始分类模型以及训练样本,然后基于该训练样本对该初始分类模型进行训练,得到训练好的分类模型。
作为一个示例,可以确定第一训练样本,该第一训练样本可以包括观点文本样本和非观点文本样本,该观点文本样本可以包括实体标签、情感倾向标签以及观点词标签,该非观点文本样本可以包括实体标签以及非观点标签;然后,基于第一训练样本对初始分类模型进行训练,得到训练好的分类模型。
在具体实现时,可以获取观点数据集,然后对该观点数据集进行标注,基于标注后的观点数据集可以确定第一训练样本。例如,可以根据业务方关注的实体从微博、贴吧、豆瓣等社交网络收集一批相关的评论文本,经过一些预设的规则进行过滤,例如,可以通过该预设的规则可以过滤掉文本中的转发,转载,广告,表情等信息。在过滤完成后,可以将过滤后的观点数据集交由众包平台进行标注。在标注时,可以标注出一句话中对于每个实体的情感倾向和观点词,并可以按照(文本,实体,观点词,情感倾向)四元组的格式存储为观点数据。其中,这里的观点词可以指文中连续出现的词或短语,该情感倾向为正面、负面以及其他三类。
基于上述确定的观点数据集,可以通过如下步骤实现分类模型的训练:
步骤1),基于观点数据集来实现第一训练样本数据集的构建。其中,可以根据观点数据集中观点数据对应的情感倾向,可以将观点数据分为观点文本样本和非观点文本样本两类,该观点可以对应正面、负面以及中立等,该非观点文本样本可以对应其他。
在训练时,将第一训练样本数据集可以随机选择90%的训练样本为训练集,10%的训练样本为验证集。
步骤2),在输入分类模型之前,可以先进行输入处理。例如,可以将第一训练样本中的文本样本和实体进行拼接得到“[CLS]文本[SEP]实体[SEP]”以作为分类模型的输入,其中,这里的[CLS]、[SEP]可以认为是一个词,每个汉字也可以认为是一个词。
步骤3),基于上述处理好的输入数据,输入到分类模型中,以实现对分类模型的训练。可以使用第三方的中文BERT预训练的编码模型(还可以称为语言模型),将步骤2)中的输入数据,输入编码模型中得到上下文向量表示,例如,可以使用句中的第一个词“[CLS]”的向量,送入一个线性层,将BERT的768维向量映射为2维向量,再经过逻辑回归模型(softmax)得到二分类的概率分布。根据第一训练样本对预训练的编码模型进行微调以及对逻辑回归模型进行训练,在基于损失函数确定分类模型的识别能力符合要求后,既可以认为优化后的编码模型和逻辑回归模型,为训练好的分类模型。另外,在对分类模型的训练过程中,可以使用交叉熵来确定模型的损失函数,例如,基于该损失函数可以对分类模型训练多个周期,选择在验证集上准确率最高的优化的分类模型作为最终的训练好的分类模型。基于该训练好的分类模型,可以对目标文本进行判断,判断该目标文本是否为观点文本,在具体判断时,可以将目标文本作为该训练好的分类模型的输入,输出为判断结果。
在一些实施例中,如果目标文本不是观点文本,则输出目标文本无观点词。
例如,对于新的需要预测的目标文本,首先进行是否为观点文本的判断,若为观点文本,则执行步骤S130;若为非观点文本,则可以直接输出为“[无观点词]”和“其他”的结果,例如,最终输出为(文本,实体,观点词,情感倾向)四元组,对于非观点文本的情况,该四元组中的观点词可以为无观点词、或者为空,该情感倾向可以为其他或为无。
S130,如果目标文本为观点文本,则提取目标文本中目标实体对应的目标观点词。
其中,对于目标文本中目标观点词的提取可以包括多种提取方式。例如,还可以基于训练好的提取模型对目标文本中的目标实体对应的目标观点词进行提取,此时,可以基于预先训练好的提取模型,将该目标文本以及目标实体作为输入,输出为该目标文本中的目标观点词。
例如,可以确定第三训练样本,该第三训练样本可以包括观点文本样本,该观点文本样本可以包括实体标签、情感倾向标签以及观点词标签,基于第三训练样本对初始提取模型进行训练,得到训练好的提取模型。
基于上述确定的观点数据集,可以通过如下步骤实现分类模型的训练:
步骤一),基于观点数据集来实现第三训练样本数据集的构建。其中,可以根据观点数据集中观点数据对应的情感倾向,可以将观点数据分为观点文本样本和非观点文本样本两类,该观点可以对应正面、负面以及中立等,该非观点文本样本可以对应其他,基于该观点文本样本确定第三训练样本数据集。
在训练时,可以将第三训练样本数据集可以随机选择90%的训练样本为训练集,10%的训练样本为验证集。
步骤二),在输入提取模型之前,可以先进行输入处理。例如,可以将第三训练样本中的文本样本和实体进行拼接得到“[CLS]文本[SEP]实体[SEP]”以作为分类模型的输入。
步骤三),基于上述处理好的输入数据,输入到提取模型中,以实现对提取模型的训练。可以使用第三方的中文BERT预训练的编码模型(还可以称为语言模型),将步骤二)中的输入数据,输入编码模型中得到上下文向量表示,例如,可以使用句中的第一个词“[CLS]”的向量,送入一个线性层,将BERT的768维向量映射为2维向量,再经随机条件场(conditional random field,CRF)模型,输出得到每个词的BIO标记,对于输出可以屏蔽掉输入中的“实体[SEP]”的BIO标记。根据第三训练样本对预训练的编码模型进行微调以及对提取模型进行训练,在基于损失函数确定提取模型的提取能力符合要求后,既可以认为优化后的编码模型和CRF模型,为训练好的提取模型。另外,在对提取模型的训练过程中,可以使用交叉熵来确定模型的损失函数,例如,基于该损失函数可以对提取模型训练多个周期,选择在验证集上准确率最高的优化的提取模型作为最终的训练好的分类模型。基于该训练好的提取模型,可以对目标文本进行中的实体进行提取。
本发明实施例通过观点文本判别模块可以快速过滤掉网络上大量的非观点文本,提高了整体算法的效率,提高了系统数据处理的吞吐量;同时减少了对于提取模块的噪音,提升了提取的效果。
在一些实施例中,还可以提取目标文本中目标实体对应的目标观点词,以及确定该目标观点词对应的情感倾向。
其中,该情感倾向的粒度可以根据实际需要确定。例如,如前所述,该情感倾向可以包括正面、负面以及中立等等。
作为一个示例,可以基于预先训练好的提取判别模型对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
例如,可以将目标文本切分为多个部分,该多个部分包括实体左文本、实体以及实体右文本;将多个部分输出到预先训练好的提取判别模型,对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在提取判别之前,可以先对提取判别模型进行训练。其中,可以确定第二训练样本,该第二训练样本包括观点文本样本,该观点文本样本对应有实体标签、情感倾向标签以及观点词标签;基于该第二训练样本可以对初始的提取判别模型进行训练,得到训练好的提取判别模型。其中,该提取判别模型可以包括编码层、提取层以及判别层,该编码层的输出为提取层和判别层的输入,该提取层的输出为观点词,该判别层的输出为情感倾向。
该提取判别模型对应有损失函数,该损失函数可以基于第一子损失函数以及第二子损失函数确定,该第一子损失函数对应于提取层,该第二子损失函数对应于判别层。
该编码层可以为双向编码层BERT。
作为一个示例,该提取判别模型可以通过如下步骤实现训练。
步骤a),基于观点数据集来实现第二训练样本数据集的构建。其中,可以根据观点数据集中观点数据对应的情感倾向,可以将观点数据分为观点文本样本和非观点文本样本两类,该观点可以对应正面、负面以及中立等,该非观点文本样本可以对应其他,基于该观点文本样本确定第二训练样本数据集。
在训练时,可以将第二训练样本数据集可以随机选择90%的训练样本为训练集,10%的训练样本为验证集。
步骤b),在输入提取判别模型之前,可以先进行输入处理。例如,可以将第二训练样本中的文本样本和实体进行拼接得到“[CLS]文本[SEP]实体[SEP]”以作为分类模型的输入。可以根据实体在文本中的位置将文本切成三部分,实体左文本,实体和实体右文本,使用星号*连接,再和实体进行拼接得到模型的输入文本“[CLS]左文本*实体*右文本[SEP]实体[SEP]”。这样可以更好地编码实体在文本中的位置信息。
步骤c),基于上述处理好的输入数据,输入到提取判别模型中,以实现对提取判别模型的训练。可以使用第三方的中文BERT预训练的编码模型(还可以称为语言模型),将步骤b)中的输入数据,输入编码模型中得到上下文向量表示,例如,可以使用句中的第一个词“[CLS]”的向量,送入一个线性层,将BERT的768维向量映射为3维向量,再经过softmax得到情感三分类的概率分布。同时将整句话的序列向量输入CRF中,输出得到每个词的BIO标记,并屏蔽掉输入中的“实体[SEP]”的BIO标记。对于分类和提取这两个任务的损失函数均可以使用交叉熵,并将两个损失相加作为该多任务学习的对应的提取判别模型的损失函数。根据第二训练样本对预训练编码模型进行微调和对提取判别模型进行训练。可以训练多个周期,选择在验证集上验证情感分类的分类能力和观点词提取的提取能力,将能力总和最高的提取判别模型作为最终的提取判别模型。该提取判别模型模型结构可以如图2所示。
需要说明的是,对于上述的编码模型、分类模型以及序列标注模型皆为示例,在实际应用中,还可以采用其他的编码模型、分类模型或序列标注模型。例如,该编码模型也可以为基于观点数据集作为训练的语料库进行训练得到,例如,该编码模型可以采用自然语言模型,可以先确定初始的自然语言模型,然后基于该观点数据集对该初始的自然语言模型进行训练,在训练过程中可以基于预先确定的损失函数来控制模型的收敛,当基于损失函数确定该自然语言模型的编译结果符合预期后,可以将该自然语言模型作为提取模型或提取判别模型中的编码层。再例如,该分类模型还可以采用其他的分类模型,例如支持向量机模型等等。再例如,该序列标注模型也可以采用其他的模型,具体可以根据实际的需要确定。
另外,还需要说明的是,对于模型的训练过程和模型的识别过程,可以分别有不同的硬件设备来实现,例如,可以在开发过程中,通过开发终端来实现对模型的训练,这里的模型可以指编码模型、分类模型以及序列标注模型等等。在开发终端获得到训练好的模型后,可以将该训练好的模型发布,业务终端可以获取该训练好的模型,并将该训练好的模型安装在本地,基于该训练好的模型可以对业务终端确定的待预测的目标文本进行预测。
另外,在模型的使用过程中,还可以采用云计算的方式,例如,可以将该训练好的模型部署在云服务中,业务终端可以确定待预测的目标文本,然后将该待预测的目标文本发送至云服务器中,该云服务器基于部署的模型,对该目标文本进行判别、观点词提取以及情感倾向的判断等的操作,并可以将确定的结果发送的业务终端中。
在具体实现时,为了均衡业务终端和云服务器之间的数据处理压力,可以将对于判断目标文本是否为观点为本的能力部署在业务终端上,将观点词的提取以及情感倾向的判断部署在云服务器上。此时,对于未包含情感倾向的目标文本,业务终端可以直接生成结果,无需与云服务器进行交互,节省了通信资源,提升了数据处理的效率。对于包含情感倾向的目标文本,可以发送至云服务器,由该云服务器来进行提取与判断。由于对于观点词的提取以及情感倾向的判断,对数据处理能力的要求较强,且与实际业务更贴近,更新频率较高,所以将其部署在云端可以有效降低业务终端的数据处理压力,并且方便了对模型的更新,该更新过程对于业务终端来说,可以是透明的,提升了用户体验。
对于该云服务器的实现,可以基于边缘计算的架构来实现。此时,该中情感数据处理方法面对的用户既可以是商家也可以是用户,换句话说,该业务终端既可以是商家服务器,也可以是用户终端,该用户终端可以为用户的手机、平板以及便携式笔记本等智能终端。
本发明实施例通过利用多任务学习的方式同时提取针对特定实体的情感倾向和观点词,提升了两方面的效果,可以让业务方更清晰地了解用户的具体想法,可以使得网络评价报告更加全面准确,在结合对待预测的目标文本进行初步筛选的过程,极大的提升了对于目标文本情感判别以及观点词提取上的效率。对于大规模计算,可以快速过滤掉网络上大量的非观点文本,提高了整体算法的效率,提高了系统数据处理的吞吐量;同时减少了对于提取模块的噪音,提升了提取的效果。
图3为本发明实施例提供的一种情感数据处理装置结构示意图。如图3所示,该装置可以包括如下模块:
确定模块301,用于确定待预测的目标文本以及目标文本对应的目标实体;
判断模块302,用于判断目标文本是否为观点文本,观点文本为存在观点词的文本;
提取模块303,用于如果目标文本为观点文本,则提取目标文本中目标实体对应的目标观点词。
在一些实施例中,判断模块302具体用于:
基于训练好的分类模型对目标文本进行分类,判断目标文本是否为观点文本。
在一些实施例中,还包括,训练模块,用于:
确定第一训练样本,第一训练样本包括观点文本样本和非观点文本样本,观点文本样本包括实体标签、情感倾向标签以及观点词标签,非观点文本样本包括实体标签以及非观点标签;
基于第一训练样本对初始分类模型进行训练,得到训练好的分类模型。
在一些实施例中,提取模块303具体用于:
提取目标文本中目标实体对应的观点词,确定目标观点词以及目标观点词对应的情感倾向。
在一些实施例中,提取模块303具体用于:
基于预先训练好的提取判别模型对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在一些实施例中,还包括,训练模块,用于:
确定第二训练样本,第二训练样本包括观点文本样本,观点文本样本对应有实体标签、情感倾向标签以及观点词标签;
基于第二训练样本对初始的提取判别模型进行训练,得到训练好的提取判别模型,提取判别模型包括编码层、提取层以及判别层,编码层的输出为提取层和判别层的输入,提取层的输出为观点词,判别层的输出为情感倾向。
在一些实施例中,提取判别模型对应有损失函数,损失函数基于第一子损失函数以及第二子损失函数确定,第一子损失函数对应于提取层,第二子损失函数对应于判别层。
在一些实施例中,编码层为双向编码层BERT。
在一些实施例中,提取模块303具体用于:
将目标文本切分为多个部分,多个部分包括实体左文本、实体以及实体右文本;
将多个部分输出到预先训练好的提取判别模型,对目标文本中包括的观点词进行提取以及对目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
在一些实施例中,情感倾向包括正面、负面以及中立。
在一些实施例中,提取模块303具体用于:
基于训练好的提取模型对目标文本中的目标实体对应的目标观点词进行提取。
在一些实施例中,还包括,输出模块,用于:
如果目标文本不是观点文本,则输出目标文本无观点词。
本申请实施例提供的情感数据处理装置,与上述实施例提供的情感数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
如图4所示,本申请实施例提供的一种计算机设备700,包括:处理器701、存储器702和总线,存储器702存储有处理器701可执行的机器可读指令,当电子设备运行时,处理器701与存储器702之间通过总线通信,处理器701执行机器可读指令,以执行如上述情感数据处理方法、装置及计算机设备方法的步骤。
具体地,上述存储器702和处理器701能够为通用的存储器和处理器,这里不做具体限定,当处理器701运行存储器702存储的计算机程序时,能够执行上述情感数据处理方法。
对应于上述情感数据处理方法,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有机器可运行指令,计算机可运行指令在被处理器调用和运行时,计算机可运行指令促使处理器运行上述情感数据处理方法、装置及计算机设备方法的步骤。
本申请实施例所提供的情感数据处理方法、装置及计算机设备装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本申请各个实施例移动控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。
Claims (15)
1.一种情感数据处理方法,其特征在于,包括:
确定待预测的目标文本以及所述目标文本对应的目标实体;
判断所述目标文本是否为观点文本,所述观点文本为存在观点词的文本;
如果所述目标文本为观点文本,则提取所述目标文本中所述目标实体对应的目标观点词。
2.根据权利要求1所述的方法,其特征在于,所述判断所述目标文本是否为观点文本的步骤,包括:
基于训练好的分类模型对所述目标文本进行分类,判断所述目标文本是否为观点文本。
3.根据权利要求2所述的方法,其特征在于,还包括:
确定第一训练样本,所述第一训练样本包括观点文本样本和非观点文本样本,所述观点文本样本包括实体标签、情感倾向标签以及观点词标签,所述非观点文本样本包括实体标签以及非观点标签;
基于所述第一训练样本对初始分类模型进行训练,得到训练好的分类模型。
4.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本中所述目标实体对应的观点词的步骤包括:
提取所述目标文本中所述目标实体对应的观点词,确定目标观点词以及所述目标观点词对应的情感倾向。
5.根据权利要求4所述的方法,其特征在于,提取所述目标文本中所述目标实体对应的观点词,确定目标观点词以及所述目标观点词对应的情感倾向的步骤包括:
基于预先训练好的提取判别模型对所述目标文本中包括的观点词进行提取以及对所述目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
6.根据权利要求5所述的方法,其特征在于,还包括:
确定第二训练样本,所述第二训练样本包括观点文本样本,所述观点文本样本对应有实体标签、情感倾向标签以及观点词标签;
基于所述第二训练样本对初始的提取判别模型进行训练,得到训练好的提取判别模型,所述提取判别模型包括编码层、提取层以及判别层,所述编码层的输出为所述提取层和所述判别层的输入,所述提取层的输出为观点词,所述判别层的输出为情感倾向。
7.根据权利要求6所述的方法,其特征在于,所述提取判别模型对应有损失函数,所述损失函数基于第一子损失函数以及第二子损失函数确定,所述第一子损失函数对应于所述提取层,所述第二子损失函数对应于所述判别层。
8.根据权利要求7所述的方法,其特征在于,所述编码层为双向编码层BERT。
9.根据权利要求5所述的方法,其特征在于,基于预先训练好的提取判别模型对所述目标文本中包括的观点词进行提取以及对所述目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向的步骤,包括:
将所述目标文本切分为多个部分,所述多个部分包括实体左文本、实体以及实体右文本;
将所述多个部分输出到预先训练好的提取判别模型,对所述目标文本中包括的观点词进行提取以及对所述目标文本的情感倾向进行判别,得到目标观点词以及目标情感倾向。
10.根据权利要求4所述的方法,其特征在于,所述情感倾向包括正面、负面以及中立。
11.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本中所述目标实体对应的目标观点词的步骤包括:
基于训练好的提取模型对所述目标文本中的所述目标实体对应的目标观点词进行提取。
12.根据权利要求1所述的方法,其特征在于,还包括:
如果所述目标文本不是观点文本,则输出所述目标文本无观点词。
13.一种情感数据处理装置,其特征在于,包括:
确定模块,用于确定待预测的目标文本以及所述目标文本对应的目标实体;
判断模块,用于判断所述目标文本是否为观点文本,所述观点文本为存在观点词的文本;
提取模块,用于如果所述目标文本为观点文本,则提取所述目标文本中所述目标实体对应的目标观点词。
14.一种计算机设备,其特征在于,包括存储器以及处理器;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至12任一项所述的方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012503.2A CN112148878A (zh) | 2020-09-23 | 2020-09-23 | 情感数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012503.2A CN112148878A (zh) | 2020-09-23 | 2020-09-23 | 情感数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148878A true CN112148878A (zh) | 2020-12-29 |
Family
ID=73896366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012503.2A Pending CN112148878A (zh) | 2020-09-23 | 2020-09-23 | 情感数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148878A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016197577A1 (zh) * | 2015-06-12 | 2016-12-15 | 百度在线网络技术(北京)有限公司 | 评论信息的标注方法、装置和计算机设备 |
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
CN110399484A (zh) * | 2019-06-25 | 2019-11-01 | 平安科技(深圳)有限公司 | 长文本的情感分析方法、装置、计算机设备和存储介质 |
CN110569355A (zh) * | 2019-07-24 | 2019-12-13 | 中国科学院信息工程研究所 | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 |
CN110609899A (zh) * | 2019-08-29 | 2019-12-24 | 成都信息工程大学 | 一种基于改进bert模型的特定目标情感分类方法 |
CN110705300A (zh) * | 2019-09-27 | 2020-01-17 | 上海烨睿信息科技有限公司 | 情感分析方法、系统、计算机终端及存储介质 |
CN110704622A (zh) * | 2019-09-27 | 2020-01-17 | 北京明略软件系统有限公司 | 文本情感分类方法、装置及电子设备 |
CN111125354A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 文本分类方法及装置 |
CN111191428A (zh) * | 2019-12-27 | 2020-05-22 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
CN111324698A (zh) * | 2020-02-20 | 2020-06-23 | 苏宁云计算有限公司 | 深度学习方法、评价观点提取方法、装置和系统 |
CN111353042A (zh) * | 2020-02-27 | 2020-06-30 | 浙江大学 | 一种基于深度多任务学习的细粒度文本观点分析方法 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
-
2020
- 2020-09-23 CN CN202011012503.2A patent/CN112148878A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016197577A1 (zh) * | 2015-06-12 | 2016-12-15 | 百度在线网络技术(北京)有限公司 | 评论信息的标注方法、装置和计算机设备 |
CN111125354A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 文本分类方法及装置 |
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
CN110399484A (zh) * | 2019-06-25 | 2019-11-01 | 平安科技(深圳)有限公司 | 长文本的情感分析方法、装置、计算机设备和存储介质 |
CN110569355A (zh) * | 2019-07-24 | 2019-12-13 | 中国科学院信息工程研究所 | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 |
CN110609899A (zh) * | 2019-08-29 | 2019-12-24 | 成都信息工程大学 | 一种基于改进bert模型的特定目标情感分类方法 |
CN110705300A (zh) * | 2019-09-27 | 2020-01-17 | 上海烨睿信息科技有限公司 | 情感分析方法、系统、计算机终端及存储介质 |
CN110704622A (zh) * | 2019-09-27 | 2020-01-17 | 北京明略软件系统有限公司 | 文本情感分类方法、装置及电子设备 |
CN111191428A (zh) * | 2019-12-27 | 2020-05-22 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
CN111324698A (zh) * | 2020-02-20 | 2020-06-23 | 苏宁云计算有限公司 | 深度学习方法、评价观点提取方法、装置和系统 |
CN111353042A (zh) * | 2020-02-27 | 2020-06-30 | 浙江大学 | 一种基于深度多任务学习的细粒度文本观点分析方法 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN108885623B (zh) | 基于知识图谱的语意分析系统及方法 | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN111444326A (zh) | 一种文本数据处理方法、装置、设备以及存储介质 | |
CN110717325B (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN112329836A (zh) | 基于深度学习的文本分类方法、装置、服务器及存储介质 | |
EP3825862A2 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN112860852A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN113051380B (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN109614464B (zh) | 用于业务问题识别的方法及装置 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111242710A (zh) | 业务的分类处理方法、装置、服务平台及存储介质 | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN113761910A (zh) | 一种融合情感特征的评论文本细粒度情感分析方法 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN115861606B (zh) | 一种针对长尾分布文档的分类方法、装置及存储介质 | |
CN110750643A (zh) | 上市公司非定期公告的分类方法、装置及存储介质 | |
CN112148878A (zh) | 情感数据处理方法及装置 | |
CN116756306A (zh) | 对象分类方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |