CN112597306A - 一种基于bert的旅游评论意见挖掘方法 - Google Patents
一种基于bert的旅游评论意见挖掘方法 Download PDFInfo
- Publication number
- CN112597306A CN112597306A CN202011544268.3A CN202011544268A CN112597306A CN 112597306 A CN112597306 A CN 112597306A CN 202011544268 A CN202011544268 A CN 202011544268A CN 112597306 A CN112597306 A CN 112597306A
- Authority
- CN
- China
- Prior art keywords
- bert
- opinion
- token
- comment
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005065 mining Methods 0.000 title claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001148715 Lamarckia aurea Species 0.000 description 1
- 239000003637 basic solution Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于BERT的旅游评论意见挖掘方法,包括以下步骤:S1、处理输入的评论文本,将文本转换为符合条件的token序列;S2、应用BERT对输入序列进行层级计算处理,得到编码后的上下文表示;S3、将得到的上下文表示输入指针网络计算,得到意见词开始位置和结束位置候选集;S4、根据分类结果和相对距离对候选集进行配对,得到最终的意见词位置;S5、将意见词和对应的分类结果组合在一起得到完整的<类别,意见词>观点表达。本发明通过直接抽取意见词并进行类别标注的方式,克服了传统细粒度意见挖掘方法中方面词缺失引起的意见丢失和不完整的问题,并应用在网络旅游评论中。
Description
技术领域
本发明涉及一种基于BERT的旅游评论意见挖掘方法。
背景技术
网站的游客评论数量庞大,可以借助自然语言处理技术进行信息挖掘。方面级情感分析(Aspect-Based Sentiment Analysis,简称ABSA)是细粒度意见挖掘的一种有效方法。ABSA旨在确定评论对特定方面(包括方面词语和描述类别)的意见(包括意见词语和情感极性)。例如在评论“峨眉山金顶上的景色不错,但这价格真心贵”中,“景色”是方面词,描述的类别是风景,“不错”是描述方面词的意见词,涉及的情感极性是正向。
2014年,SemEval将方面级情感分析作为一项综合评估任务引入,已提供英语评论的通用评估框架。2016年,SemEval将句子级ABSA任务定义为,给定一份关于目标实体(如笔记本电脑、餐厅或酒店)的意见评论,目标是用以下类型的信息识别<方面类别,方面意见表达,情感极性>的所有意见组。ABSA包含了许多子任务,现有的研究大部分集中在给定方面词的前提下确定对应的情感极性(Aspect-Based Sentiment Classification,简称ABSC),但实际应用中问题会稍微复杂一些,主要体现在两个方面:一是在实际情况中,由于标注成本比较高,事先给定的方面词往往无法通过人工标注提供。之前的研究试图借助自动化的方法,使用流水线的模式先抽取方面词之后再进行情感分析,但会引入错误传播的问题;二是对爬取的游客评论进行分析后发现,中文的口语表达中有省略方面词的现象,例如评论“方便快捷,及时到位”中包含了对网络购票的积极评价,但并没有明确给出方面词。在调查的相关数据集中,只包含意见词而方面词缺失的情况约占总数的1/5。如果只对方面词进行抽取和情感分析,将会遗漏掉有效评价信息。
研究者们提出了一些融合词语抽取和分类的多任务方法,试图解决第一个问题。如在其他任务中观察到的,如果两个子任务具有强耦合(例如,NER和关系提取),则更集成的模型通常比普通解决方案更为有效。因此他们建议将两个子任务作为一个复合任务进行耦合。早期的工作尝试验证抽取和分类两个任务之间的关系,并提出更为集成的解决方案,但这些方案的效果并没有优于流水线模型。Li重新检查了任务,提出了基于两层堆叠LSTM的序列标注模型,其中利用一种简单的门机制来保持标签之间的情感一致性。他首先提出使用“统一”的标记方案,完全消除两个子任务之间的边界。方案的具体内容是使用{B,I,O}作为头标记表示当前token的位置角色,B表示在观点目标的开始,I表示在目标内部,O表示不属于目标范围,并以正(POS)、负(NEG)和中性(NUE)的尾标记表示观点目标的情绪状态。实验结果证明了两个子任务的相关性,但效果不足以投入到实际应用中。此后序列标注的方式就成为了融合任务的基本解决思路。BERT提出之后,率先在ABSC领域取得了很好的效果。Li等人随后提出了基于BERT的序列标注模型,希望用端到端的序列标注方式解决抽取和分类的融合任务,并为之后的基于BERT的融合任务研究提供基线。他们利用BERT作为嵌入层获得句子表示,并在之上构建了不同的简单解码网络进行了对比实验,结果证明了BERT的有效性。但该研究依然以抽取方面词为基础,并没有考虑在实际的中文评论中方面词缺失的情况。
同时,在ABSA序列标注的问题中,如何保持情感一致性也是解码部分的一个挑战。指针网络最初的设计是简化了attention机制,将输出序列对应到输入序列,从而可以适应输入序列长度的变化。后续应用在机器阅读理解任务(MRC)中的主要方式为设计两个输出长度为l的分类器分别预测开始位置和结束位置,其中l表示句子的长度。对于ABSA任务来说,指针网络这种直接预测词语边界的方法,可以解决之前融合任务中情感一致性的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于BERT的旅游评论意见挖掘方法,使用BERT作为编码结构提升上下文表示能力,并融合意见词抽取和描述类别分类两个方面及情感分析子任务以形成完整的观点表达。通过抽取意见词而不是方面词来弥补方面词缺失导致的有效评价信息遗漏的问题,通过类别分类来弥补方面词缺失导致的描述目标不明确的问题,并应用在实际的评论分析中。
本发明的目的是通过以下技术方案来实现的:一种基于BERT的旅游评论意见挖掘方法,包括以下步骤:
S1、处理输入的评论文本,将文本转换为符合条件的token序列;
S2、应用BERT对输入序列进行层级计算处理,得到编码后的上下文表示;
S3、将得到的上下文表示输入指针网络计算,得到意见词开始位置和结束位置候选集;
S4、根据分类结果和相对距离对候选集进行配对,得到最终的意见词位置;
S5、将意见词和对应的分类结果组合在一起得到完整的<类别,意见词>观点表达。
进一步地,所述步骤S1包括以下子步骤:
S11、加载选择的BERT预训练模型中提供的vocab,将评论文本转换成数字token的形式,无法匹配的字用<UNK>代替,完成初步的tokenizer;
S12、配合BERT训练的需要,在句子token的前后加上开始和结束标记[CLS]和[SEP];
S13、将句子token按照设定的长度进行截断和padding,padding的token为0。
进一步地,所述步骤S2包括以下子步骤:
S21、将步骤S13得到的句子token作为输入,通过BERT中的Transformer计算句子的上下文表示。计算公式为:
Hl=Trans(Hl-1);
S22、将最后一层Transformer的输出作为评论输入的最终上下文表示H。
进一步地,所述步骤S3包括以下子步骤:
S31、构造一个n分类的分类器预测意见词开始位置,其中n表示预先定义的描述类别。分类计算公式为:
Pstart=softmax(Ws·H)∈Rl×n
其中Ws为计算开始位置的参数矩阵,l表示token的长度;
S32、同样构造一个n分类的分类器预测意见词结束的位置,此时的输入为将句子token和步骤S31中得到的开始位置表示连接起来,表示为H′=(H:Ws·H),分类计算公式为:
Pend=tanh(We·H′)∈Rl×n
H′=(H:Ws·H)
其中We为计算结束位置的参数矩阵。为了降低拟合的难度,分类器之上加入了layernormalization,得到最后的Pend;
S33、Pstart和Pend共同构成了意见词范围候选集。
进一步地,所述步骤S4包括以下子步骤:
S41、根据步骤S3得到的意见词范围候选集,首先遍历开始位置iy,其中i表示当前token在句子中的位置,y表示意见词的分类结果。在结束位置候选集中,寻找是否存在分类结果相同,位置在i之后的token,若存在则配对成功,若不存在则配对失败;
S42、将配对成功的候选意集以<分类结果,开始位置,结束位置>的形式输出;
6.根据权利要求5所述的一种基于BERT的旅游评论意见挖掘方法,其特征在于,所述步骤S5包括以下子步骤:
S51、根据步骤S4得到的已配对的开始和结束位置,在原句中找到对应开始和结束位置的片段,作为意见词/短语;
S52、根据步骤S4得出的分类结果,查询对应词典得到类别名称,完善<类别,意见词>二元组,形成完整的观点表达
本发明的有益效果是:本发明使用BERT作为编码结构提升上下文表示能力,并融合意见词抽取和描述类别分类两个方面及情感分析子任务以形成完整的观点表达。通过抽取意见词而不是方面词来弥补方面词缺失导致的有效评价信息遗漏的问题,通过类别分类来弥补方面词缺失导致的描述目标不明确的问题,并应用在实际的评论分析中。
附图说明
图1为本发明的基于BERT的旅游评论意见挖掘方法的流程图;
图2是本发明的输入token预处理流程;
图3是本发明的指针网络架构图;
图4是本发明的意见词范围配对方法;
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于BERT的旅游评论意见挖掘方法,包括以下步骤:
S1、处理输入的评论文本,将文本转换为符合条件的token序列;如图2所示,具体包括以下子步骤:
S11、加载选择的BERT预训练模型中提供的vocab,将评论文本转换成数字token的形式,完成初步的tokenize。
文本向量化是NLP处理文本数据的基础,在过往的预训练模型使用的过程中,为了查询对应向量的效率和训练精度的平衡,通常会对训练数据中使用的词汇做一个统计,并保留出现频率在阈值之上的单词,作为vocabulary。而在BERT相关的预训练模型中,这个vocab是预训练模型的产出之一,在训练的时候即做了限制,可以即拿即用,不需要根据任务数据重新设置。Tokenize的目的是将文本中的词汇通过查询vocab转换成数字标记,以便在之后的embedding中通过embedding weight转换成对应的向量。但由于vocab只保留了部分高频出现的词汇,因而在vocab中,通常会保留预定义标记<UNK>,用来统一表示不在词典中(out of vocab)的词汇。
S12、配合BERT训练的需要,在句子token的前后加上开始和结束标记[CLS]和[SEP]。
训练BERT的目的是为下游任务提供基础知识,masked language model(MLM)是第一个任务。但有许多重要的下游任务,如机器问答(QA)和自然语言推理(NLI)都是基于理解两个句子之间的关系,无法通过MLM训练获得,因而BERT的第二个训练任务为下一句预测,用于理解句子的模型关系。两个句子拼接作为输入时,需要在tokenize的时候进行区别,所以在BERT中用标记[CLS]表示开始,用标记[SEP]表示每个句子的结尾,并为了统一,如果下游任务只需要输入一个句子,也需要进行开始和结束标记。
S13、将句子token按照设定的长度进行截断和padding,padding的token为0。
为了方便训练中的矩阵运算,tokenizer的另一个任务是将batch中的句子做对齐处理,根据预定义的长度限制,对评论进行截断或使用<PAD>进行补全,<PAD>也是一个vocab中的预留标记,通常表示为0。预留标记所所对应的数字token根据所给出的vocab而定,在不同的vocab中可能会有一定的差异。
S2、应用BERT对输入序列进行层级计算处理,得到编码后的上下文表示;如图2所示,具体包括以下子步骤:
S21、将步骤S13得到的句子token作为输入,通过BERT中的双向Transformer-block连接,以层级的方式计算句子的上下文表示。计算公式为:
Hl=Trans(Hl-1)
其中l表示当前计算的Transformer层数。
Transformer本身也是一个Seq2Seq的结构,利用Attention替换了以往的LSTM作为encoder实现了并行计算。Encoder是由N个相同的layer组成,其中包含两个sub-layer,分别为多头自注意力机制(multi-head self-attention mechanism)和全连接前馈网络(fullyconnected feed-forward network)。其中每个sub-layer都加了residualconnection和normalization,因此sublayer的输出可以表示为:
sub_layer_output=LayerNorm(x+SubLayer(x))
Encoder中多头自注意力的计算方式为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中Q、K和V与常规的attention中的含义相同,在self=attention中,Q、K和V取相同值。multi-head的含义是初始化多组QKV矩阵,公式中的h描述了组的数量。
Decoder的结构和encoder差不多,但多出了一个self-attention的sub-layer。
S22、将最后一层Transformer的输出作为评论输入的最终上下文表示H。
S3、将得到的上下文表示输入指针网络计算,得到意见词开始位置和结束位置候选集。
传统的Seq2Seq模型无法解决输出序列的词汇表会随着输入序列长度的改变而改变的问题,对于这类问题,输出往往是输入集合的子集。指针网络的思路是以直接操作输入序列代替设定输出词汇表,从而将指针对应到输入序列的元素。这种输出元素来自输入元素的特点使得指针网络非常适合用来直接复制输入序列中的某些元素到输出序列。这对于抽取任务是个非常有效的思路,同时只预测开始和结束位置也可以轻松解决此前序列标记任务中尽力解决的分类一致性的问题。指针网络的结构如图3所示,具体包括以下子步骤:
S31、构造一个n分类的分类器预测意见词开始位置,其中n表示预先定义的描述类别。分类计算公式为:
Pstart=softmax(Ws·H)∈Rl×n
其中Ws为计算开始位置的参数矩阵,l表示token的长度;
S32、同样构造一个n分类的分类器预测意见词结束的位置,此时的输入为将句子token和步骤S31中得到的开始位置表示连接起来,表示为H′=(H:Ws·H),分类计算公式为:
Pend=tanh(We·H′)∈Rl×n
H′=(H:Ws·H)
其中We为计算结束位置的参数矩阵。为了降低拟合的难度,分类器之上加入了layernormalization,得到最后的Pend;
S33、Pstart和Pend共同构成了意见词范围候选集。
S4、根据分类结果和相对距离对候选集进行配对,得到最终的意见词位置;如图4所示,包括以下子步骤:
S41、根据步骤S3得到的意见词范围候选集,首先遍历开始位置iy,其中i表示当前token在句子中的位置,y表示意见词的分类结果。在结束位置候选集中,寻找是否存在分类结果相同,位置在i之后的token,若存在则配对成功,若不存在则配对失败;
S42、将配对成功的候选意集以<分类结果,开始位置,结束位置>的形式输出;
S5、将意见词和对应的分类结果组合在一起得到完整的<类别,意见词>观点表达,包括以下子步骤:
S51、根据步骤S4得到的已配对的开始和结束位置,在原句中找到对应开始和结束位置的片段,作为意见词/短语;
S52、根据步骤S4得出的分类结果,查询对应词典得到类别名称,完善<类别,意见词>二元组,形成完整的观点表达
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种基于BERT的旅游评论意见挖掘方法,其特征在于,包括以下步骤:
S1、处理输入的评论文本,将文本转换为符合条件的token序列;
S2、应用BERT对输入序列进行层级计算处理,得到编码后的上下文表示;
S3、将得到的上下文表示输入指针网络计算,得到意见词开始位置和结束位置候选集;
S4、根据分类结果和相对距离对候选集进行配对,得到最终的意见词位置;
S5、将意见词和对应的分类结果组合在一起得到完整的<类别,意见词>观点表达。
2.根据权利要求1所述的一种基于BERT的旅游评论意见挖掘方法,其特征在于,所述步骤S1包括以下子步骤:
S11、加载选择的BERT预训练模型中提供的vocab,将评论文本转换成数字token的形式,无法匹配的字用<UNK>代替,完成初步的tokenizer;
S12、配合BERT训练的需要,在句子token的前后加上开始和结束标记[CLS]和[SEP];
S13、将句子token按照设定的长度进行截断和padding,padding的token为0。
3.根据权利要求2所述的一种基于BERT的旅游评论意见挖掘方法,其特征在于,所述步骤S2包括以下子步骤:
S21、将步骤S13得到的句子token作为输入,通过BERT中的Transformer计算句子的上下文表示。计算公式为:
Hl=Trans(Hl-1);
S22、将最后一层Transformer的输出作为评论输入的最终上下文表示H。
4.根据权利要求3所述的一种基于BERT的旅游评论意见挖掘方法,其特征在于,所述步骤S3包括以下子步骤:
S31、构造一个n分类的分类器预测意见词开始位置,其中n表示预先定义的描述类别。分类计算公式为:
Pstart=softmax(Ws·H)∈Rl×n
其中Ws为计算开始位置的参数矩阵,l表示token的长度;
S32、同样构造一个n分类的分类器预测意见词结束的位置,此时的输入为将句子token和步骤S31中得到的开始位置表示连接起来,表示为H′=(H:Ws·H),分类计算公式为:
Pend=tanh(We·H′)∈Rl×n
H′=(H:Ws·H)
其中We为计算结束位置的参数矩阵。为了降低拟合的难度,分类器之上加入了layernormalization,得到最后的Pend;
S33、Pstart和Pend共同构成了意见词范围候选集。
5.根据权利要求4所述的一种基于BERT的旅游评论意见挖掘方法,其特征在于,所述步骤S4包括以下子步骤:
S41、根据步骤S3得到的意见词范围候选集,首先遍历开始位置iy,其中i表示当前token在句子中的位置,y表示意见词的分类结果。在结束位置候选集中,寻找是否存在分类结果相同,位置在i之后的token,若存在则配对成功,若不存在则配对失败;
S42、将配对成功的候选意集以<分类结果,开始位置,结束位置>的形式输出。
6.根据权利要求5所述的一种基于BERT的旅游评论意见挖掘方法,其特征在于,所述步骤S5包括以下子步骤:
S51、根据步骤S4得到的已配对的开始和结束位置,在原句中找到对应开始和结束位置的片段,作为意见词/短语;
S52、根据步骤S4得出的分类结果,查询对应词典得到类别名称,完善<类别,意见词>二元组,形成完整的观点表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011544268.3A CN112597306A (zh) | 2020-12-24 | 2020-12-24 | 一种基于bert的旅游评论意见挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011544268.3A CN112597306A (zh) | 2020-12-24 | 2020-12-24 | 一种基于bert的旅游评论意见挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597306A true CN112597306A (zh) | 2021-04-02 |
Family
ID=75200579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011544268.3A Pending CN112597306A (zh) | 2020-12-24 | 2020-12-24 | 一种基于bert的旅游评论意见挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597306A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569533A (zh) * | 2021-09-26 | 2021-10-29 | 南京复保科技有限公司 | 保险内容标注方法、系统、计算机设备及存储介质 |
CN116127050A (zh) * | 2023-04-17 | 2023-05-16 | 苏州大学 | 意见挖掘方法、电子设备及计算机可读存储介质 |
CN116737922A (zh) * | 2023-03-10 | 2023-09-12 | 云南大学 | 一种游客在线评论细粒度情感分析方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
CN110909545A (zh) * | 2019-11-26 | 2020-03-24 | 电子科技大学 | 一种基于梯度提升算法的黑导游检测方法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
CN111353042A (zh) * | 2020-02-27 | 2020-06-30 | 浙江大学 | 一种基于深度多任务学习的细粒度文本观点分析方法 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
CN111488734A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 基于全局交互和句法依赖的情感特征表示学习系统及方法 |
CN111858944A (zh) * | 2020-07-31 | 2020-10-30 | 电子科技大学 | 一种基于注意力机制的实体方面级情感分析方法 |
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
-
2020
- 2020-12-24 CN CN202011544268.3A patent/CN112597306A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
CN110909545A (zh) * | 2019-11-26 | 2020-03-24 | 电子科技大学 | 一种基于梯度提升算法的黑导游检测方法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
CN111353042A (zh) * | 2020-02-27 | 2020-06-30 | 浙江大学 | 一种基于深度多任务学习的细粒度文本观点分析方法 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
CN111488734A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 基于全局交互和句法依赖的情感特征表示学习系统及方法 |
CN111858944A (zh) * | 2020-07-31 | 2020-10-30 | 电子科技大学 | 一种基于注意力机制的实体方面级情感分析方法 |
Non-Patent Citations (2)
Title |
---|
姚妮 等: "基于BERT和BiGRU的在线评论文本情感分类研究", 《轻工学报》 * |
闵昶榮: "基于深度学习的多领域商品评论情感分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569533A (zh) * | 2021-09-26 | 2021-10-29 | 南京复保科技有限公司 | 保险内容标注方法、系统、计算机设备及存储介质 |
CN116737922A (zh) * | 2023-03-10 | 2023-09-12 | 云南大学 | 一种游客在线评论细粒度情感分析方法和系统 |
CN116127050A (zh) * | 2023-04-17 | 2023-05-16 | 苏州大学 | 意见挖掘方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230129874A1 (en) | Pre-trained contextual embedding models for named entity recognition and confidence prediction | |
CN112597306A (zh) | 一种基于bert的旅游评论意见挖掘方法 | |
CN113468888A (zh) | 基于神经网络的实体关系联合抽取方法与装置 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112231472A (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN113158671B (zh) | 一种结合命名实体识别的开放域信息抽取方法 | |
CN113901208B (zh) | 融入主题特征的中越跨语言评论情感倾向性分析方法 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115455970A (zh) | 一种多模态语义协同交互的图文联合命名实体识别方法 | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及系统 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
Tarride et al. | A comparative study of information extraction strategies using an attention-based neural network | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
Xue et al. | A method of chinese tourism named entity recognition based on bblc model | |
CN115809666B (zh) | 一种融合词典信息和注意力机制的命名实体识别方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN110210033A (zh) | 基于主述位理论的汉语基本篇章单元识别方法 | |
CN114880994B (zh) | 一种直白文本到反讽文本的文本风格转换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210402 |
|
WD01 | Invention patent application deemed withdrawn after publication |