CN112446201A - 文本的评论性质确定方法及装置 - Google Patents
文本的评论性质确定方法及装置 Download PDFInfo
- Publication number
- CN112446201A CN112446201A CN201910741324.3A CN201910741324A CN112446201A CN 112446201 A CN112446201 A CN 112446201A CN 201910741324 A CN201910741324 A CN 201910741324A CN 112446201 A CN112446201 A CN 112446201A
- Authority
- CN
- China
- Prior art keywords
- comment
- text
- vector
- property
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 303
- 239000011159 matrix material Substances 0.000 claims abstract description 73
- 238000010801 machine learning Methods 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 10
- 230000007935 neutral effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000446 fuel Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本的评论性质确定方法及装置,可以根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;从所述向量矩阵中提取多个文本底层特征向量;根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本发明可以自动确定文本对评论对象的评论性质,效率较高。
Description
技术领域
本发明涉及文本处理领域,尤其涉及文本的评论性质确定方法及装置。
背景技术
随着互联网的发展,越来越多的人在互联网上进行信息浏览、评论发表等行为。
通过收集和分析用户在互联网上发表的评论可以了解用户的观点。例如:从某汽车论坛上收集和分析用户对某款汽车的评论可以了解用户对该款汽车的各个方面的评论的性质,如:某评论中对该款汽车的外观持正面观点,但对该款汽车的内饰持负面观点。
现有技术只能通过人工读取评论的方式来确定评论的性质,效率较低。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的文本的评论性质确定方法及装置,方案如下:
一种文本的评论性质确定方法,包括:
根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
从所述向量矩阵中提取多个文本底层特征向量;
根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
可选的,所述从所述向量矩阵中提取多个文本底层特征向量,包括:
通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
可选的,所述根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量,包括:
使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
可选的,所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质,包括:
将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率。
可选的,所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质,还包括:
根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
一种文本的评论性质确定装置,包括:向量矩阵获得单元、底层特征向量获得单元、评论特征向量获得单元和评论性质确定单元,
所述向量矩阵获得单元,用于根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
所述底层特征向量获得单元,用于从所述向量矩阵中提取多个文本底层特征向量;
所述评论特征向量获得单元,用于根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
所述评论性质确定单元,用于根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
可选的,所述底层特征向量获得单元具体用于:通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
可选的,所述评论特征向量获得单元,包括:第一向量获得子单元和第二向量获得子单元,
所述第一向量获得子单元,用于使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
所述第二向量获得子单元,用于使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
可选的,所述评论性质确定单元包括概率获得子单元,所述概率获得子单元,用于将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率。
可选的,所述评论性质确定单元还包括:文本性质确定子单元,用于根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
借由上述技术方案,本发明提供的一种文本的评论性质确定方法及装置,可以根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;从所述向量矩阵中提取多个文本底层特征向量;根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本发明可以通过多头注意力机制从一个文本中同时获得多个评论对象对应的评论特征向量,然后根据评论特征向量确定所述文本分别对多个所述评论对象的评论性质。可见,本发明可以从一个文本中同时获得文本分别对多个评论对象的评论性质,实现了更细粒度的文本分析,具有较高的准确度和效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本的评论性质确定方法的流程图;
图2示出了本发明实施例提供的根据文本获得向量矩阵的流程图;
图3示出了本发明实施例提供的特征向量的处理过程示意图;
图4示出了本发明实施例提供的一种文本的评论性质确定装置的结构示意图;
图5示出了本发明实施例提供的一种设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供了一种文本的评论性质确定方法,可以包括:
S100、根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
其中,所述文本可以为用户的评论文本,该评论文本可以位于网页中,也可以在于应用程序的界面中。本发明可以从应用程序或网页中爬取用户的评论文本。当然,本发明还可以通过其他方式获得评论文本,本发明在此不做限定。其中,所述向量矩阵还可以包括所述文本中各词汇的词性向量。所述词向量和词性向量可以组成词汇向量。
可选的,如图2所示,步骤S100可以具体包括:
S110、获得评论文本,对所述评论文本进行分词,获得词汇序列;
其中,评论文本可以为用户完整评论内容的一部分或全部,可以理解的是,评论文本是用户对某事物的看法、意见、理解等。
可选的,本发明可以使用多种分词工具进行分词获得词汇序列,如哈工大LTP、jieba等。除获得词汇序列外,本发明还可以对各词汇的词性进行识别,从而获得词性序列。
例如采用哈工大LTP处理“动力很足,但是油耗高。”,LTP返回的分词结果可以为[动力,很,足,但是,油耗,高],词性序列为[n,adv,adj,conj,n,adj]。
S120、获得所述词汇序列中各词汇的词汇向量构成的向量矩阵。
其中,步骤S120可以具体包括:
对所述词汇序列中的每个词汇:获得该词汇的词向量及词性向量,将该词汇的词向量及词性向量拼接为该词汇的词汇向量;
按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列,获得所述词汇序列中各词汇的词汇向量构成的向量矩阵。
具体的,本发明可以通过wordvector技术获得词向量。如果词汇不在wordvector的词汇表中,则使用指定的预设词向量进行表达。
本发明可以使用一定维度的随机向量来表达词性,使词性特征化。例如对于共计30种词性[A1,A2,…,A30],可以用向量a1表示A1,向量a2表示A2等。其中a1、a2等的维度为一个指定的固定值,例如20维,每一个维度都是一个随机生成的接近于0的小数。
在获得词向量与词性向量后,将二者拼接即可形成词汇的向量化表达,即:词汇向量。词汇向量的维度为词向量的维度+词性向量的维度。对于评论文本中的每个词汇,都获得其词汇向量,再将评论文本中的每个词汇的词汇向量拼接起来,就形成一个向量矩阵。例如:当拼接后的词汇向量维度为120且评论文本中排列的词汇数量为200时,本发明可以生成一个维度为200×120的向量矩阵。本发明可以将这个向量矩阵在词汇数量方向扩充至一个特定长度(例如600,形成600×120的向量矩阵),扩充的部分通过补0进行处理。
可以理解的是,上述向量矩阵包含了评论文本的特征信息。
图2所示实施例中,向量矩阵包括词汇向量,在其他实施例中,向量矩阵可以仅由词向量构成,而不包括词性向量。
S200、从所述向量矩阵中提取多个文本底层特征向量;
其中,步骤S200可以具体包括:通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
可以理解的是,向量矩阵的特征向量是矩阵理论上的重要概念之一,它有着广泛的应用。数学上,线性变换的特征向量(本征向量)是一个非简并的向量,其方向在该变换下不变。由于所述向量矩阵根据文本得到,因此本发明可以在所述向量矩阵中提取多个文本底层特征向量。所述多个文本底层特征向量可以为词汇、短句、句子等较小粒度的特征向量。文本底层特征向量可以为所述向量矩阵中的部分特征向量。
可以理解的是,由于向量矩阵中携带有大量的文本底层特征,因此本发明可以通过机器学习的方法来从所述向量矩阵中提取多个文本底层特征向量。具体的,本发明可以首先根据Transformer、LSTM、GRU、循环神经网络RNN、循环注意力网络等机器学习方法训练得到一个机器学习模型,然后使用该机器学习模型从向量矩阵中提取用于确定评论性质的多个文本底层特征向量。
S300、根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
具体的,本发明可以通过机器学习模型中的多头注意力特征提取层执行步骤S300,以获得多个评论对象对应的评论特征向量。
其中,评论对象可以有多种,评论对象可以为物、人、机构、虚构概念等一切可评论的对象。
可选的,步骤S300可以具体包括:
使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
可以理解的是,本发明可以通过多头注意力机制从一个文本中同时获得多个评论对象对应的评论特征向量,然后根据评论特征向量确定所述文本分别对多个所述评论对象的评论性质。可见,本发明可以从一个文本中同时获得文本分别对多个评论对象的评论性质,效率较高。
具体的,本发明的步骤S300可以使用机器学习模型完成,权重组中包括多个权重,上述权重组可以通过该机器学习模型的训练过程得到。
可选的,上述每个文本高层特征向量都可以由各文本底层特征向量根据一个权重组加权求和得到。各文本高层特征向量的计算过程所使用的权重组可以不同。
例如:如图3所示,设本发明获得的各文本底层特征向量分别为:h1至hn,共n个文本底层特征向量。则本发明可以得到m个文本高层特征向量:e1至em。则e1=x11×h1+x12×h2+…+x1n×hn;e2=x21×h1+x22×h2+…+x2n×hn;以此类推。
上述x11、x12……x1n为一个权重组,上述x21、x22……x2n为另一个权重组。
可选的,由于文本底层特征向量的粒度较小,因此本发明可以首先根据第一权重组对所述多个文本底层特征向量进行加权求和,获得多个较大粒度的文本高层特征向量。文本高层特征向量可以包含用户对评论对象的整体评价信息以及用户对评论对象各方面的评价信息。例如当评论对象为汽车时,文本高层特征向量可以包含用户对汽车整体的评价信息以及用户对汽车的动力、油耗、外观、内饰等多个方面的评价信息。在实际应用中,文本底层特征向量和文本高层特征向量的粒度大小关系可以是相对的,例如:当文本底层特征向量为词汇粒度的特征向量时,文本高层特征向量可以为短句粒度的特征向量,或为句子粒度的特征向量,或为段落粒度的特征向量,或为全文粒度的特征向量。当文本底层特征向量为短句粒度的特征向量时,文本高层特征向量可以为句子粒度的特征向量,或为段落粒度的特征向量,或为全文粒度的特征向量。当文本底层特征向量为句子粒度的特征向量时,文本高层特征向量可以为段落粒度的特征向量,或为全文粒度的特征向量。以此类推。
可选的,本发明可以对每个评论对象都生成一个该评论对象对应的评论特征向量。每个评论特征向量均根据所述多个文本高层特征向量进行加权求和得到。具体的,各评论特征向量进行加权求和时使用的权重组可以不同。
例如:如图3所示,设本发明获得的m个文本高层特征向量为:e1至em。则本发明可以根据如下加权求和公式获得N个评论对象对应的评论特征向量f1至fN。每一个评论特征向量均和一个评论对象A对应。
加权求和公式:
f1=y11×e1+y12×e2+…+y1N×eN;f2=y21×e1+y22×e2+…+y2N×eN;以此类推。
上述y11、y12……y1N为一个权重组,上述y21、y22……y2N为另一个权重组。
S400、根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
其中步骤S400可以包括:
将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率。
具体的,本发明可以通过机器学习模型中的全连接层执行步骤S400。可选的,所述评论性质可以包括:正面、负面、中性和未提及中的至少一种。
如图3所示,对每一个评论对象A对应的评论特征向量f,本发明都可以将其映射到文本对该评论对象的评论性质分别为正面、负面、中性和未提及的概率。例如评论对象为A1,则可以将评论特征向量f1映射到P11、P12、P13、P14这四个概率上。具体的,P11可以为文本对评论对象A1的评论性质为正面的概率,P12可以为文本对评论对象A1的评论性质为中性的概率,P13可以为文本对评论对象A1的评论性质为负面的概率,P14可以为文本对评论对象A1的评论性质为未提及的概率,
本发明图1所示方法中的步骤S200至步骤S400可以通过机器学习模型进行处理。该机器学习模型的输入可以为:向量矩阵,输出可以为:文本对评论对象的评论性质的概率。该机器学习模型可以为基于多头注意力的神经网络模型,该基于多头注意力的神经网络模型的结构可以包括:输入层、多头注意力特征提取层、全连接层和输出层。其中,如图3所示,输入层用于执行步骤S200,多头注意力特征提取层用于执行步骤S300,全连接层用于执行步骤S400,输出层用于将确定的文本对所述评论对象的评论性质输出。
在实际应用中,本发明还可以将各评论性质进行量化处理,例如:为正面、中性、负面和未提及分别赋值1、0、-1和-2。当然,本发明也可以将所赋的值作为评论对象的评论性质标记。
本发明中的评论对象可以为预设评论对象组中的评论对象。本发明可以预先收集多个词汇并构建至少一个预设评论对象组。例如:当需要确定用户对某款汽车的评论性质时,本发明可以预先收集用户可能会评价到的该款汽车所涉及的词汇,如:外观、内饰、油耗、价格、空间、排量、安全性、性价比、质量、油门、操控、发动机、加速等。本发明可以将这些词汇放入该款汽车的评论对象组中作为一个预设评论对象组。
例如,针对“我只能这样说用了7个月,感觉这款汽车的操控还是非常棒的。比我以前的那款要好很多,缺点就是很多内饰比较挫,刹车嘎吱嘎吱的,很多东西要自己慢慢习惯就是。看你银子多少,银子多就上另一款吧。”这个评论中,涉及的评论对象包括:操控、内饰和刹车,这三个评论对象的评论性质标记分别为1、-1、-1。而针对该款汽车的评论对象组中的其他评论对象,如性价比、发动机、油耗等,则未提及,可以这些评论对象的评论性质标记为-2。
其中,基于多头注意力的神经网络模型输出的文本对评论对象的评论性质的概率可以包括:至少一个评论对象的评论性质分别为正面、负面、中性和未提及的概率。例如:对性价比而言,基于多头注意力的神经网络模型输出的对性价比的评论性质概率为:正面3%,负面87%,中性10%,未提及0%。
在其他实施例中,所述评论对象为第一粒度的评论对象,步骤S400还可以包括:
根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
可以理解的是,本发明可以根据各评论对象的评价得分获得文本的评价得分。例如:评论对象包括:内饰、油耗和动力。本发明的基于多头注意力的神经网络模型输出的文本对内饰的评论性质概率分别为:正面3%,负面87%,中性10%,未提及0%。本发明的基于多头注意力的神经网络模型输出的文本对油耗的评论性质概率分别为:正面73%,负面17%,中性10%,未提及0%。本发明的基于多头注意力的神经网络模型输出的文本对动力的评论性质概率分别为:正面3%,负面8%,中性4%,未提及85%。则当为正面、中性、负面和未提及分别赋值1、0、-1和-2时,则文本对内饰的评价得分为:1×0.03+(﹣1)×0.87+0×0.1+(﹣2)×0=﹣0.84。相应的,文本对油耗的评价得分为:0.56,文本对动力的评价得分为:﹣1.75。在实际应用中,本发明可以将未提及的评价得分去除,不用于对文本的评价得分的计算过程。则文本的评价得分为:﹣0.84+0.56=﹣0.28。则可以确定文本的评论性质为负面。
本发明实施例提供的一种文本的评论性质确定方法,可以根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;从所述向量矩阵中提取多个文本底层特征向量;根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本发明可以自动确定文本对评论对象的评论性质,效率较高。
可选的,本发明可以基于tensorflow、mxnet、pytorch等深度学习框架训练基于多头注意力的神经网络模型。
本发明实施例还提供了一种机器学习模型获得方法,可以包括:
获得带有对多个评论对象的评论性质标注的训练语料;
根据所述训练语料获得向量矩阵;
对所述向量矩阵及评论性质标注进行机器学习,获得机器学习模型,所述机器学习模型的输入为:向量矩阵,所述机器学习模型的输出为:文本对评论对象的评论性质。
与图1所示方法相对应,本发明实施例还提供了一种文本的评论性质确定装置。
如图4所示,本发明实施例提供的一种文本的评论性质确定装置,可以包括:向量矩阵获得单元100、底层特征向量获得单元200、评论特征向量获得单元300和评论性质确定单元400,
所述向量矩阵获得单元100,用于根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
所述底层特征向量获得单元200,用于从所述向量矩阵中提取多个文本底层特征向量;
所述评论特征向量获得单元300,用于根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
所述评论性质确定单元400,用于根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
其中,所述底层特征向量获得单元200可以具体用于:通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
可选的,所述评论特征向量获得单元300,可以包括:第一向量获得子单元和第二向量获得子单元,
所述第一向量获得子单元,用于使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
所述第二向量获得子单元,用于使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
可以理解的是,本发明可以通过多头注意力机制从一个文本中同时获得多个评论对象对应的评论特征向量,然后根据评论特征向量确定所述文本分别对多个所述评论对象的评论性质。可见,本发明可以从一个文本中同时获得文本分别对多个评论对象的评论性质,效率较高。
可选的,所述评论性质确定单元400可以包括概率获得子单元,所述概率获得子单元,用于将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率。
可选的,所述评论性质确定单元400还可以包括:文本性质确定子单元,用于根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
本发明实施例提供的一种文本的评论性质确定装置,可以根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;从所述向量矩阵中提取多个文本底层特征向量;根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本发明可以自动确定文本对评论对象的评论性质,效率较高。
所述文本的评论性质确定装置包括处理器和存储器,上述向量矩阵获得单元、底层特征向量获得单元、评论特征向量获得单元和评论性质确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定文本对评论对象的评论性质。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本的评论性质确定方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本的评论性质确定方法。
如图5所示,本发明实施例提供了一种设备70,设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的文本的评论性质确定方法。本文中的设备70可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
从所述向量矩阵中提取多个文本底层特征向量;
根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
可选的,所述从所述向量矩阵中提取多个文本底层特征向量,包括:
通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
可选的,所述根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量,包括:
使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
可选的,所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质,包括:
将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率。
可选的,所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质,还包括:
根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本的评论性质确定方法,其特征在于,包括:
根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
从所述向量矩阵中提取多个文本底层特征向量;
根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
2.根据权利要求1所述的方法,其特征在于,所述从所述向量矩阵中提取多个文本底层特征向量,包括:
通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量,包括:
使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
4.根据权利要求1所述的方法,其特征在于,所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质,包括:
将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率。
5.根据权利要求4所述的方法,其特征在于,所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质,还包括:
根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
6.一种文本的评论性质确定装置,其特征在于,包括:向量矩阵获得单元、底层特征向量获得单元、评论特征向量获得单元和评论性质确定单元,
所述向量矩阵获得单元,用于根据文本获得向量矩阵,所述向量矩阵包括所述文本中各词汇的词向量;
所述底层特征向量获得单元,用于从所述向量矩阵中提取多个文本底层特征向量;
所述评论特征向量获得单元,用于根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量;
所述评论性质确定单元,用于根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
7.根据权利要求6所述的装置,其特征在于,所述底层特征向量获得单元具体用于:通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
8.根据权利要求6所述的装置,其特征在于,所述评论特征向量获得单元,包括:第一向量获得子单元和第二向量获得子单元,
所述第一向量获得子单元,用于使用至少一个权重组对所述多个文本底层特征向量进行加权求和,获得多个文本高层特征向量;
所述第二向量获得子单元,用于使用至少一个权重组,基于多头注意力机制对所述多个文本高层特征向量进行加权求和,获得至少一个评论对象对应的评论特征向量,每个所述评论对象对应所述多头注意力机制中的一个头。
9.根据权利要求6所述的装置,其特征在于,所述评论性质确定单元包括概率获得子单元,所述概率获得子单元,用于将所述评论特征向量映射到多个评论性质的概率上,获得所述文本对所述评论对象的各评论性质的概率;
并且,所述评论性质确定单元还包括:文本性质确定子单元,用于根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的文本的评论性质确定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741324.3A CN112446201A (zh) | 2019-08-12 | 2019-08-12 | 文本的评论性质确定方法及装置 |
PCT/CN2020/079696 WO2021027284A1 (zh) | 2019-08-12 | 2020-03-17 | 文本的评论性质确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741324.3A CN112446201A (zh) | 2019-08-12 | 2019-08-12 | 文本的评论性质确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446201A true CN112446201A (zh) | 2021-03-05 |
Family
ID=74569746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741324.3A Pending CN112446201A (zh) | 2019-08-12 | 2019-08-12 | 文本的评论性质确定方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112446201A (zh) |
WO (1) | WO2021027284A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268457A1 (en) * | 2012-04-05 | 2013-10-10 | Fujitsu Limited | System and Method for Extracting Aspect-Based Ratings from Product and Service Reviews |
CN107291696A (zh) * | 2017-06-28 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种基于深度学习的评论词情感分析方法及系统 |
CN107862343A (zh) * | 2017-11-28 | 2018-03-30 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN108647205A (zh) * | 2018-05-02 | 2018-10-12 | 深圳前海微众银行股份有限公司 | 细粒度情感分析模型构建方法、设备及可读存储介质 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180077846A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 논쟁 유발성 문서 판별 장치 및 방법 |
CN107863147B (zh) * | 2017-10-24 | 2021-03-16 | 清华大学 | 基于深度卷积神经网络的医疗诊断的方法 |
CN109284506B (zh) * | 2018-11-29 | 2023-09-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
-
2019
- 2019-08-12 CN CN201910741324.3A patent/CN112446201A/zh active Pending
-
2020
- 2020-03-17 WO PCT/CN2020/079696 patent/WO2021027284A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268457A1 (en) * | 2012-04-05 | 2013-10-10 | Fujitsu Limited | System and Method for Extracting Aspect-Based Ratings from Product and Service Reviews |
CN107291696A (zh) * | 2017-06-28 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种基于深度学习的评论词情感分析方法及系统 |
CN107862343A (zh) * | 2017-11-28 | 2018-03-30 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN108647205A (zh) * | 2018-05-02 | 2018-10-12 | 深圳前海微众银行股份有限公司 | 细粒度情感分析模型构建方法、设备及可读存储介质 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
Non-Patent Citations (1)
Title |
---|
YOUWEI SONG 等: "Attentional Encoder Network for Targeted Sentiment Classification", pages 1 - 7, Retrieved from the Internet <URL:https://arxiv.org/pdf/1902.09314> * |
Also Published As
Publication number | Publication date |
---|---|
WO2021027284A1 (zh) | 2021-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akita et al. | Deep learning for stock prediction using numerical and textual information | |
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN108228704A (zh) | 识别风险内容的方法及装置、设备 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN104137102A (zh) | 非事实型询问应答系统以及计算机程序 | |
CN108763535A (zh) | 信息获取方法及装置 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN114782054A (zh) | 基于深度学习算法的客服服务质量检测方法及相关设备 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN110969276B (zh) | 判决预测方法、判决预测模型获得方法及装置 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN110020196A (zh) | 一种基于不同数据源的用户分析方法和装置及计算设备 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN111061870A (zh) | 文章的质量评价方法及装置 | |
Posokhov et al. | Personalizing dialogue agents for Russian: retrieve and refine | |
CN115357711A (zh) | 一种方面级情感分析方法、装置、电子设备及存储介质 | |
CN112446201A (zh) | 文本的评论性质确定方法及装置 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN116150308A (zh) | 识别模型的训练方法、识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |