CN112836052B - 一种汽车评论文本观点挖掘方法、设备及存储介质 - Google Patents
一种汽车评论文本观点挖掘方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112836052B CN112836052B CN202110191089.4A CN202110191089A CN112836052B CN 112836052 B CN112836052 B CN 112836052B CN 202110191089 A CN202110191089 A CN 202110191089A CN 112836052 B CN112836052 B CN 112836052B
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- word
- words
- text
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术领域,尤其涉及一种汽车评论文本观点挖掘方法、设备及存储介质。包括:对数据进行预处理;对数据进行增强;采用由BERT预训练模型、双向LSTM网络和卷积神经网络、全连接层构成的神经网络结构对属性词、观点词、评论类别和情感倾向进行抽取;本发明采用了一种双指针网络标注策略,能实现属性词和观点词的一次性抽取,降低了属性词和观点词配对复杂度,提升了属性词和观点词的抽取准确率;并且实现评价类别和情感倾向同步预测,提升情感倾向预测准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种汽车评论文本观点挖掘方法、设备及存储介质。
背景技术
汽车论坛以及汽车公司在投诉处理过程中,积累了大量的客户评论/投诉文本。汽车评论/投诉文本内容中蕴含着丰富的有价值信息。深入分析文本内容,挖掘客户评论观点,可以为产品调研、策划、研发,以及频发故障分析、预警提供指引。一般采用细粒度情感分析对评论文本进行观点挖掘。
细粒度属性情感分析目的:从一段评论文本中挖掘用户评论观点,抽取出属性词,观点词,评论类别,情感倾向。
现存已有的实现方案大概分为以下几类:
1)基于词典的方法,该类方法通过构建属性词、观点词词典来确定属性词、观点词以及对应的评论类别和情感倾向。这种方法无法正确处理包含多个属性词和情感词以及不同情绪的句子。
2)基于传统机器学习的方法,该类方法使用大量手工特征,结合机器学习算法,进行属性词和观点词的抽取,以及情感判别。这种方法高度依赖手工特征的质量,任务繁琐,耗时大,而且迁移性差。
3)基于深度学习的方法,该类方法把词/字转换为词/字向量,然后通过神经网络模型,进行属性词和观点词的抽取,以及情感判别。这种方法虽然极大缓解了手工特征的繁琐,在一定程度上提升了<属性词,观点词>抽取任务性能。但是目前方法中多数采用pipeline的模式,把<属性词,观点词>抽取作为两个独立的子任务处理,即属性词/观点词实体识别和关系抽取;采取pipeline模式的主要缺点是:(i)实体识别的错误会传播到(影响)关系抽取步骤;(ii)实体识别和关系抽取独立训练,不能捕获实体与关系之间的交互;(iii)关系抽取步骤需要对属性词和情感词进行两两匹配,复杂度较高。
发明内容
本发明是一种基于双指针网络标注策略的汽车评论文本观点挖掘方法、设备及存储设备,实现了属性词和观点词的一次性抽取,降低了属性词和观点词配对复杂度,提升了属性词和观点词的抽取准确率,并且能实现评价类别和情感倾向同步预测,提升情感倾向预测准确率;解决了现有挖掘用户评论观点方法存在的上述问题。
本发明技术方案结合附图说明如下:
第一方面,本发明实施例提供了一种汽车评论文本观点挖掘方法,包括以下方法:
步骤二、对数据进行增强;
21)标点符号替换,对字符列表中的标点符号进行随机替换;
22)对汽车品牌或车系进行替换;
23)对同义词进行替换;
步骤三、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对属性词和观点词进行抽取;
步骤四、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对评论类别和情感倾向进行判别。
进一步的,所述步骤11)的具体方法为:过滤汽车评论文本中的特殊标点符号;所述特殊标点符号是指常见标点符号和字符以外的字符。
进一步的,所述步骤12)的具体方法为:采取单个字符的形式,对汽车评论文本进行分字处理,将每一条汽车评论文本转换为字符列表。
进一步的,所述步骤13)中长度根据样本数据的字符长度分布进行确定,长度覆盖样本集95%以上。
进一步的,所述步骤三的具体方法如下:
31)将字符列表分别以[CLS]和[SEP]作为开始和结束符号,得到输入字符列表;
32)将字符列表输入到BERT预训练模型中,得到BERT表征;
33)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入;
34)将步骤33)得到的深层语义特征输入到全连接层中,然后再进入分类器中。
进一步的,所述步骤四的具体方法如下:
41)将原始文本、属性词和观点词切分成字符,并以[SEP]隔开,得到输入字符列表;
42)将字符列表输入到BERT预训练模型中,得到BERT表征;
43)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入;
44)将步骤43)得到的深层语义特征输入到全连接层中,然后再进入分类器中。
进一步的,所述步骤34)和步骤44)中的分类器均采用双指针网络的标注策略。
进一步的,所述双指针网络的标注策略的具体方法为:
a)分别使用一个起始指针和一个结束指针来标记属性词/观点词实体的起始位置和结束位置;其中,0表示当前字符既不是实体的起始位置也不是实体的结束位置;1表示独立属性词实体的起始或结束位置,即当前字符是属性词的起始位置或结束位置,且该属性词在该文本语句中无观点词与之匹配;2表示独立观点词实体的起始或结束位置,即当前字符是观点词的起始或结束位置,且该观点词在该文本语句中无属性词与之匹配;3表示组合属性词实体的起始或结束位置,即当前字符是属性词的起始或结束位置,且该属性词在该文本语句中有观点词与之匹配;4表示组合观点词实体的起始或结束位置,即当前字符是观点词的起始或结束位置,且该观点词在该文本语句中有属性词与之匹配;
b)从属性词和观点词抽取模型中获取标注结果;
c)获取实体;
d)实体标签为1或2的,直接提取出来;实体标签为3和4的是组合属性词和观点词对时,采取2个实体作为窗口大小,提取属性词和观点词词对。
第二方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述一种汽车评论文本观点挖掘方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述一种汽车评论文本观点挖掘方法。
本发明的有益效果为:
1)本发明基于双指针网络标注策略对汽车评论文本观点挖掘实现属性词和观点词的一次性抽取,降低了属性词和观点词配对复杂度,提升了属性词和观点词的抽取效率和准确率;
2)本发明能实现评价类别和情感倾向同步判别,提升评论类别和情感倾向的判别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一中的一种汽车评论文本观点挖掘方法的流程图;
图2是本发明实施例一中属性词和观点词的抽取示意图;
图3是本发明实施例一中属性词和情感词的双指针标注示意图;
图4是本发明实施例一中评论类别和情感倾向的判别示意图;
图5是本发明实施例一中评论类别和情感倾向的双指针标注示意图;
图6是本发明实施例一中步骤三和步骤四的示意图;
图7是本发明实施例一中BERT预训练模型的结构示意图。
图8是本发明实施例三中的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,一种汽车评论文本观点挖掘方法,包括以下方法:
步骤一、对数据进行预处理;
11)数据清洗;
过滤汽车评论文本中的特殊标点符号;例如:“/、*+-#¥$@&”等。所述特殊标点符号是指常见标点符号和字符以外的字符,例如过滤除[,?。!英文单词]等常见标点和字符的以外字符。
12)分字;
采取单个字符的形式,对汽车评论文本进行分字处理,将每一条汽车评论文本转换为字符列表。
13)文本字符列表长度规范,将所有训练文本的输入字符列表长度进行处理,得到定长的训练输入;
所述长度根据样本数据的字符长度分布进行确定,长度覆盖样本集95%以上。例如:样本集中,有95%的文本字符长度小于等于100,那么可以把长度定义为100。
步骤二、对数据进行增强;
21)标点符号替换,对字符列表中的标点符号进行随机替换;例如:“,”替换成“!”。
22)对汽车品牌或车系进行替换,通过一个车型替换另一个车型来增添样本数据的丰富度;例如:“红旗H5”替换成“红旗HS5”。
23)对同义词进行替换,根据同义词词典对文本中的一些词语进行同义词替换;例如:“非常”替换成“很”。
步骤三、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对属性词和观点词进行抽取;
参阅图2、图3和图6,所述步骤三的具体方法如下:
31)将字符列表分别以[CLS]和[SEP]作为开始和结束符号,得到输入字符列表;例如:[[CLS],价,格,便,宜,有,活,动,实,惠,[SEP]]。
32)将字符列表输入到BERT预训练模型中,得到BERT表征;
参阅图7,BERT全称Bidirectional Encoder Representation fromTransformers,即双向Transformer的Encoder(编码器),BERT的预训练模型架构基于多层双向Transformer的Encoder(编码器),因为Decoder(解码器)是不能获取到预测的信息的,BERT模型的pre-traing(预训练)上用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation(语义表征)。其中“双向”标识模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息,这种“双向”的来源在于BERT与传统语言模型不同,它不是在给定前几个词的基础上预测最可能的当前词,而是随机遮掩一些词,并利用没有被遮掩的词进行预测遮掩的词。BERT使用的是Transformer,相较RNN更为高效,能够捕捉更长距离的依赖。
33)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入;
34)将步骤33)得到的深层语义特征输入到全连接层中,然后再进入分类器中输出;所述分类器采用了双指针网络策略。所述全连接层是简单的线性变化。
在模型训练时,数据沿神经网络正向传播,对输入文本数据进行深层语义表征;(正向传播过程中,输入经过一系列的数学函数转换,形成更抽象、更深层次的表征);数据沿神经网络反向传播时,通过对损失函数求偏导,对参数进行梯度更新;其中,所述损失函数采用的是交叉熵损失函数,梯度更新采用的是Adam优化算法;在推断或预测时,利用训练时获得的模型参数,数据沿神经网络正向传播至分类器,进行属性词和观点词的抽取。
参阅图3,所述分类器采用双指针网络的标注策略,具体方法为:
分别使用一个起始指针和一个结束指针来标记属性词/观点词实体的起始位置和结束位置。其中,0表示当前字符既不是实体的起始位置也不是实体的结束位置;1表示独立属性词实体的起始或结束位置,即当前字符是属性词的起始位置或结束位置,且该属性词在该文本语句中无观点词与之匹配,例如:(活动,_);2表示独立观点词实体的起始或结束位置,即当前字符是观点词的起始或结束位置,且该观点词在该文本语句中无属性词与之匹配,例如:(_,实惠);3表示组合属性词实体的起始或结束位置,即当前字符是属性词的起始或结束位置,且该属性词在该文本语句中有观点词与之匹配,例如:(价格,便宜);4表示组合观点词实体的起始或结束位置,即当前字符是观点词的起始或结束位置,且该观点词在该文本语句中有属性词与之匹配,例如:(价格,便宜)。从上述双指针网络标注结果中解析属性词和观点词的具体方法如下:
1)以评论文本“价格便宜有活动实惠”为例,从属性词和观点词抽取模型中获取标注结果,起始指针:[3,0,4,0,0,1,0,2,0],结束指针:[0,3,0,4,0,0,1,0,2]。
2)获取实体:价格——3,便宜——4,活动——1,优惠——2;
3)实体标签为1或2的,可以直接提取出来;实体标签为3和4的是组合属性词和观点词对时,我们采取2个实体作为窗口大小,提取属性词和观点词词对;最终提取结果为:<价格-3,便宜-4>,<活动-1,_>,<_,实惠-2>。
当属性词和观点词实体识别和关系抽取采用pipeline独立进行的模型在验证集上的准确率为84.7%;而采用本发明的双指针网络标注策略实现属性词和观点词抽取的方法,在验证集上取得86.8%的准确率,提升了2.1%的准确率,而且因为计算复杂度的降低,推断速度更快。
参阅图4、图5和图6,步骤四、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对评论类别和情感倾向进行判别。
所述步骤四的具体方法如下:
41)将原始文本、属性词和观点词切分成字符,并以[SEP]隔开,得到输入字符列表;
42)将字符列表输入到BERT预训练模型中,得到BERT表征;
43)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入;
44)将步骤43)得到的深层语义特征输入到全连接层中,然后再进入分类器中;
在模型训练时,数据沿神经网络正向传播,对输入文本数据进行深层语义表征;数据沿神经网络反向传播时,通过对损失函数求偏导,对参数进行梯度更新;其中,所述损失函数采用的是交叉熵损失函数,梯度更新采用的是Adam优化算法;在推断或预测时,利用训练时获得的模型参数,数据沿神经网络正向传播至分类器,进行评论类别和情感倾向的抽取。
参阅图5,所述分类器采用双指针网络的标注策略来表示模型预测标签,具体方法为:
分别使用一个指针标记评论类别,一个指针标记情感倾向。评论类别指针的元素个数为定义的评论类别数:包括外观、空间、价格、舒适性、动力、油耗、内饰、操控、活动、服务10个类别。情感倾向指针的元素个数为3个,分别为:正向、中性、负向。下面阐述如何从上述双指针网络标注结果中解析属性词和观点词:
1)以评论文本“价格便宜有活动实惠”以及价格和便宜词对为例,从评论类别和情感倾向判别模型中获取标注结果,评论类别指针:[0,0,1,…,0,0],情感倾向指针:[1,0,0];
2)获取评论类别标签:评论类别指针元素为1对应的评论类别,即“价格”;
3)获取情感倾向标签:情感倾向指针元素为1对应的情感倾向,即“正向”;
4)得到评论类别,情感倾向的判别结果:价格,正向。
当评论类别和情感倾向判别独立进行的模型在验证集上的准确率为95.2%;而采用本发明的双指针网络标注策略实现<评论类别,情感倾向>判别的方法,在验证集上取得97.6%的准确率,提升了2.4%的准确率,而且因为计算复杂度的降低,推断速度更快。
实施例二
本实施例中采取的数据为汽车论坛口碑评论文本,任务是从评论文本中抽取属性词和观点词,并确认评论类别和情感倾向。具体如下:
“价格便宜有活动实惠”,需要提取出来"属性词-观点词-评论类别-情感倾向“,如下:
价格-便宜-价格-正向
活动-NULL-价格-正向
NULL-实惠-价格-正向
具体实施过程如下:
步骤一、数据预处理:
11)过滤评论文本中的特殊标点符号;
12)对评论文本进行分字处理,将每一条评论文本转换为字符列表;
13)将所有训练文本的字符列表长度进行处理,得到定长为100的训练输入。
步骤二、数据增强:
21)对字符列表中的标点符号进行随机替换;
22)对汽车品牌/车系进行随机替换;
23)同义词替换。
步骤三、对属性词和观点词进行提取:
31)将上述字符列表,分别以[CLS]和[SEP]作为开始和结束符号,得到输入字符列表,如:[[CLS],价,格,便,宜,有,活,动,实,惠,[SEP]];
32)将上述字符列表输入到BERT预训练模型中,得到BERT表征。
33)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入,进一步增强模型在时间序列中的表达能力和特征组合能力。
34)将上述深层语义特征输入到Linear全连接网络层中,然后再进入分类器中,输出采用双指针网络策略。对得到的输出进行解析得到属性词和观点词结果。例如:
以“价格便宜有活动实惠”为例,从属性词和观点词抽取模型中获取标注结果,起始指针:[3,0,4,0,0,1,0,2,0],结束指针:[0,3,0,4,0,0,1,0,2]。获取实体:价格-3,便宜-4,活动-1,优惠-2。
实体标签为1或2的,可以直接提取出来;实体标签为3和4的是完整的属性词和观点词词对,我们采取2个实体作为窗口大小,提取属性词和观点词词对。最终提取结果为:<价格-3,便宜-4>,<活动-1,_>,<_,实惠-2>。
步骤四、对评论类别和情感倾向进行判别:
41)将原始文本和属性词和观点词切分成字符,并以[SEP]隔开,得到输入字符列表。例如:[[CLS],价,格,便,宜,有,活,动,实,惠,[SEP],价,格,便,宜,[SEP]]。
42)字符列表输入到BERT预训练模型中,得到BERT表征。
43)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入,进一步增强模型再时间序列中的表达能力和特征组合能力。
44)将上述深层语义特征输入到Linear全连接网络层中,然后再进入分类器中。输出结果采取双指针网络策略。对得到的输出进行解析得到属性词,观点词,评论类别,情感倾向。例如:
以评论文本“价格便宜有活动实惠”以及价格,便宜词对为例,从评论类别,情感倾向>判别模型中获取标注结果,评论类别指针:[0,0,1,…,0,0],情感倾向指针:[1,0,0];
获取评论类别标签:评论类别指针元素为1对应的评论类别,即“价格”;
获取情感倾向标签:情感倾向指针元素为1对应的情感倾向,即“正向”;得到评论类别和情感倾向的判别结果:价格,正向,最终结果为价格,便宜,价格,正向。
综上,采用双指针标注策略的模型在测试集上的表现性能如下,相较未使用双指针标注策略的pipline模型有2个点左右的性能提升;对比表格如下:
实施例三
图8为本发明实施例三中的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图n中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种汽车评论文本观点挖掘方法:对数据进行预处理、对数据进行增强、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对属性词和观点词进行抽取、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对评论类别和情感倾向进行判别。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的一种汽车评论文本观点挖掘方法:
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (7)
1.一种汽车评论文本观点挖掘方法,其特征在于,包括以下方法:
步骤一、对数据进行预处理;
11)数据清洗;
12)分字;
13)字符列表长度规范,将所有训练文本的字符列表长度进行处理,得到定长的训练输入;
步骤二、对数据进行增强;
21)标点符号替换,对字符列表中的标点符号进行随机替换;
22)对汽车品牌或车系进行替换;
23)对同义词进行替换;
步骤三、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对属性词和观点词进行抽取;
步骤四、采用由BERT预训练模型+双向LSTM网络+卷积神经网络+全连接层构成的神经网络结构对评论类别和情感倾向进行判别。;
所述步骤三的具体方法如下:
31)将字符列表分别以[CLS]和[SEP]作为开始和结束符号,得到输入字符列表;
32)将字符列表输入到BERT预训练模型中,得到BERT表征;
33)将BERT表征结果作为双向LSTM网络+卷积神经网络的输入;
34)将步骤33)得到的深层语义特征输入到全连接层中,然后再进入分类器中;
所述步骤34)和步骤44)中的分类器均采用双指针网络的标注策略;
所述双指针网络的标注策略的具体方法为:
a)分别使用一个起始指针和一个结束指针来标记属性词/观点词实体的起始位置和结束位置;其中,0表示当前字符既不是实体的起始位置也不是实体的结束位置;1表示独立属性词实体的起始或结束位置,即当前字符是属性词的起始位置或结束位置,且该属性词在该文本语句中无观点词与之匹配;2表示独立观点词实体的起始或结束位置,即当前字符是观点词的起始或结束位置,且该观点词在该文本语句中无属性词与之匹配;3表示组合属性词实体的起始或结束位置,即当前字符是属性词的起始或结束位置,且该属性词在该文本语句中有观点词与之匹配;4表示组合观点词实体的起始或结束位置,即当前字符是观点词的起始或结束位置,且该观点词在该文本语句中有属性词与之匹配;
b)从属性词和观点词抽取模型中获取标注结果;
c)获取实体;
d)实体标签为1或2的,直接提取出来;实体标签为3和4的是组合属性词和观点词对时,采取2个实体作为窗口大小,提取属性词和观点词词对。
2.根据权利要求1所述的一种汽车评论文本观点挖掘方法,其特征在于,所述步骤11)的具体方法为:过滤汽车评论文本中的特殊标点符号;所述特殊标点符号是指常见标点符号和字符以外的字符。
3.根据权利要求1所述的一种汽车评论文本观点挖掘方法,其特征在于,所述步骤12)的具体方法为:采取单个字符的形式,对汽车评论文本进行分字处理,将每一条汽车评论文本转换为字符列表。
4.根据权利要求1所述的一种汽车评论文本观点挖掘方法,其特征在于,所述步骤13)中长度根据样本数据的字符长度分布进行确定,长度覆盖样本集95%以上。
5.根据权利要求1所述的一种汽车评论文本观点挖掘方法,其特征在于,所述步骤四的具体方法如下:
41)将原始文本、属性词和观点词切分成字符,并以[SEP]隔开,得到输入字符列表;
42)将字符列表输入到BERT预训练模型中,得到BERT表征;
43)将BERT表征结果作为双向LSTM网络和卷积神经网络的输入;
44)将步骤43)得到的深层语义特征输入到全连接层中,然后再进入分类器中。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述一种汽车评论文本观点挖掘方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述一种汽车评论文本观点挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110191089.4A CN112836052B (zh) | 2021-02-19 | 2021-02-19 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110191089.4A CN112836052B (zh) | 2021-02-19 | 2021-02-19 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836052A CN112836052A (zh) | 2021-05-25 |
CN112836052B true CN112836052B (zh) | 2023-04-07 |
Family
ID=75933870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110191089.4A Active CN112836052B (zh) | 2021-02-19 | 2021-02-19 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836052B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673219B (zh) * | 2021-08-20 | 2022-06-07 | 合肥中科类脑智能技术有限公司 | 一种停电计划文本解析方法 |
CN115292568B (zh) * | 2022-03-02 | 2023-11-17 | 内蒙古工业大学 | 一种基于联合模型的民生新闻事件抽取方法 |
CN115496039B (zh) * | 2022-11-17 | 2023-05-12 | 荣耀终端有限公司 | 一种词语提取方法及计算机设备 |
CN116011447B (zh) * | 2023-03-28 | 2023-06-30 | 杭州实在智能科技有限公司 | 电商评论分析方法、系统及计算机可读存储介质 |
CN116029294B (zh) * | 2023-03-30 | 2023-06-09 | 华南师范大学 | 词项配对方法、装置及设备 |
CN116127050B (zh) * | 2023-04-17 | 2023-07-25 | 苏州大学 | 意见挖掘方法、电子设备及计算机可读存储介质 |
CN116629387B (zh) * | 2023-07-24 | 2023-10-27 | 湖南视觉伟业智能科技有限公司 | 一种用于训练缺失条件下的文本处理方法及处理系统 |
CN117131161A (zh) * | 2023-10-24 | 2023-11-28 | 北京社会管理职业学院(民政部培训中心) | 一种电动轮椅用户需求提取方法、系统及电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11023453B2 (en) * | 2015-01-29 | 2021-06-01 | Hewlett Packard Enterprise Development Lp | Hash index |
CN110334266A (zh) * | 2018-03-13 | 2019-10-15 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
CN110008311B (zh) * | 2019-04-04 | 2020-11-24 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
SG11202003808PA (en) * | 2019-06-28 | 2020-05-28 | Advanced New Technologies Co Ltd | System and method for data processing |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111353042B (zh) * | 2020-02-27 | 2023-06-30 | 浙江大学 | 一种基于深度多任务学习的细粒度文本观点分析方法 |
CN111723569A (zh) * | 2020-05-21 | 2020-09-29 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法、装置和计算机可读存储介质 |
CN111858886B (zh) * | 2020-07-13 | 2022-05-31 | 北京航空航天大学 | 一种机场评论的对象与观点抽取系统 |
CN111858935A (zh) * | 2020-07-13 | 2020-10-30 | 北京航空航天大学 | 一种航班点评的细粒度情感分类系统 |
-
2021
- 2021-02-19 CN CN202110191089.4A patent/CN112836052B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112836052A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836052B (zh) | 一种汽车评论文本观点挖掘方法、设备及存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN107291828B (zh) | 基于人工智能的口语查询解析方法、装置及存储介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN111079432A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
CN110765889A (zh) | 法律文书的特征提取方法、相关装置及存储介质 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN114372470A (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN115730585A (zh) | 文本纠错及其模型训练方法、装置、存储介质及设备 | |
CN115757731A (zh) | 对话问句改写方法、装置、计算机设备及存储介质 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN113761895A (zh) | 文本摘要的生成方法、装置、电子设备及存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN110889717A (zh) | 文本中的广告内容过滤方法、装置、电子设备及存储介质 | |
CN113553853A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN110738054B (zh) | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 | |
Bappi et al. | CBD2023: A Hypercomplex Bangla Handwriting Character Recognition Data for Hierarchical Class Expansion | |
US11188716B2 (en) | Text display with visual distinctions per class |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |