CN111144103A - 影评识别方法和装置 - Google Patents
影评识别方法和装置 Download PDFInfo
- Publication number
- CN111144103A CN111144103A CN201911311671.9A CN201911311671A CN111144103A CN 111144103 A CN111144103 A CN 111144103A CN 201911311671 A CN201911311671 A CN 201911311671A CN 111144103 A CN111144103 A CN 111144103A
- Authority
- CN
- China
- Prior art keywords
- recognition model
- evaluation
- target
- sample
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种影评识别方法和装置。其中,该方法包括:获取待识别的目标影评;将目标影评输入到目标识别模型中,其中,目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,目标识别模型用于对样本影评进行识别以得到样本影评的评价类型,样本影评中包括第一样本影评与第二样本影评,第二样本影评为使用第二命名实体对第一样本影评中的第一命名实体进行替换后得到的影评,第一命名实体与第二命名实体类型相同;获取目标识别模型输出的目标影评的评价类型,其中,评价类型为正面评价、中性评价或负面评价。本发明解决了相关技术中对影评识别的效率低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种影评识别方法和装置。
背景技术
相关技术中,在对影评的类型进行识别的过程中,可以使用神经网络模型来进行识别。然而,使用神经网络模型识别影评时,需要预先对神经网络模型进行训练,训练需要预先准备多个样本数据。
然而,采用上述方法,相关技术中需要准备的样本数据过多,每一条样本数据均需要消耗较多的人力,造成对影评识别的效率低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种影评识别方法和装置,以至少解决相关技术中对影评识别的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种影评识别方法,包括:获取待识别的目标影评;将上述目标影评输入到目标识别模型中,其中,上述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,上述目标识别模型用于对上述样本影评进行识别以得到上述样本影评的评价类型,上述样本影评中包括第一样本影评与第二样本影评,上述第二样本影评为使用第二命名实体对上述第一样本影评中的第一命名实体进行替换后得到的影评,上述第一命名实体与上述第二命名实体类型相同;获取上述目标识别模型输出的上述目标影评的评价类型,其中,上述评价类型为正面评价、中性评价或负面评价。
作为一种可选的示例,在上述将上述目标影评输入到目标识别模型中之前,上述方法还包括:获取上述第一样本影评;确定上述第一样本影评中的上述第一命名实体;获取知识图谱中与上述第一命名实体类型相同的上述第二命名实体;使用上述第二命名实体替换上述第一命名实体,得到上述第二样本影评。
作为一种可选的示例,在上述获取知识图谱中与上述第一命名实体类型相同的上述第二命名实体之前,还包括:获取多个上述第一样本影评;将上述多个上述第一样本影评中的每一个第一样本影评进行分词,并标注分词后的上述每一个第一样本影评中的每一个词,得到标注结果;从上述标注结果中获取被标注为命名实体的词;在被标注为命名实体的词中,对同一类型的词建立关联,并保存到上述知识图谱中。
作为一种可选的示例,在上述使用上述第二命名实体替换上述第一命名实体,得到上述第二样本影评之后,上述方法还包括:将上述样本影评输入到上述原始识别模型中,获取上述原始识别模型输出的上述样本影评的评价类型;在上述原始识别模型输入M个上述样本影评后,输出上述M个样本影评的评价类型的情况下,且输出的上述M个样本影评的评价类型中包括N个符合预定条件的评价类型的情况下,将上述原始识别模型确定为上述目标识别模型,其中,上述预定条件用于指示上述原始识别模型输出的当前样本影评的评价类型与上述当前样本影评被预先标注的评价类型相同,上述M与上述N为正整数,N/M大于第一阈值。
作为一种可选的示例,在将上述目标影评输入到目标识别模型中之前,上述方法还包括:在上述目标识别模型中添加注意力层,其中,上述注意力层为使用上述目标识别模型中的特征矩阵将实体词组转化为词向量后,上述特征矩阵与上述词向量的乘积,上述实体词组为上述目标影评中所有的命名实体组成的词组,上述特征矩阵为上述目标识别模型中用于提取词向量特征的矩阵;上述将上述目标影评输入到目标识别模型中包括:将上述目标影评输入到添加了上述注意力层的上述目标识别模型中;上述获取上述目标识别模型输出的上述目标影评的评价类型包括:获取使用添加了上述注意力层的上述目标识别模型输出的上述目标影评的上述评价类型。
根据本发明实施例的另一方面,还提供了一种影评识别装置,包括:第一获取单元,用于获取待识别的目标影评;第一输入单元,用于将上述目标影评输入到目标识别模型中,其中,上述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,上述目标识别模型用于对上述样本影评进行识别以得到上述样本影评的评价类型,上述样本影评中包括第一样本影评与第二样本影评,上述第二样本影评为使用第二命名实体对上述第一样本影评中的第一命名实体进行替换后得到的影评,上述第一命名实体与上述第二命名实体类型相同;第二获取单元,用于获取上述目标识别模型输出的上述目标影评的评价类型,其中,上述评价类型为正面评价、中性评价或负面评价。
作为一种可选的示例,上述装置还包括:第三获取单元,用于在上述将上述目标影评输入到目标识别模型中之前,获取上述第一样本影评;第一确定单元,用于确定上述第一样本影评中的上述第一命名实体;第四获取单元,用于获取知识图谱中与上述第一命名实体类型相同的上述第二命名实体;替换单元,用于使用上述第二命名实体替换上述第一命名实体,得到上述第二样本影评。
作为一种可选的示例,上述装置还包括:第五获取单元,用于在上述获取知识图谱中与上述第一命名实体类型相同的上述第二命名实体之前,获取多个上述第一样本影评;分词单元,用于将上述多个上述第一样本影评中的每一个第一样本影评进行分词,并标注分词后的上述每一个第一样本影评中的每一个词,得到标注结果;第六获取单元,用于从上述标注结果中获取被标注为命名实体的词;关联单元,用于在被标注为命名实体的词中,对同一类型的词建立关联,并保存到上述知识图谱中。
作为一种可选的示例,上述装置还包括:第二输入单元,用于在上述使用上述第二命名实体替换上述第一命名实体,得到上述第二样本影评之后,将上述样本影评输入到上述原始识别模型中,获取上述原始识别模型输出的上述样本影评的评价类型;第二确定单元,用于在上述原始识别模型输入M个上述样本影评后,输出上述M个样本影评的评价类型的情况下,且输出的上述M个样本影评的评价类型中包括N个符合预定条件的评价类型的情况下,将上述原始识别模型确定为上述目标识别模型,其中,上述预定条件用于指示上述原始识别模型输出的当前样本影评的评价类型与上述当前样本影评被预先标注的评价类型相同,上述M与上述N为正整数,N/M大于第一阈值。
作为一种可选的示例,上述装置还包括:添加单元,用于在将上述目标影评输入到目标识别模型中之前,在上述目标识别模型中添加注意力层,其中,上述注意力层为使用上述目标识别模型中的特征矩阵将实体词组转化为词向量后,上述特征矩阵与上述词向量的乘积,上述实体词组为上述目标影评中所有的命名实体组成的词组,上述特征矩阵为上述目标识别模型中用于提取词向量特征的矩阵;上述第一输入单元包括:输入模块,用于将上述目标影评输入到添加了上述注意力层的上述目标识别模型中;上述第二获取单元包括:获取模块,用于获取使用添加了上述注意力层的上述目标识别模型输出的上述目标影评的上述评价类型。
在本发明实施例中,采用获取待识别的目标影评;将上述目标影评输入到目标识别模型中,其中,上述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,上述目标识别模型用于对上述样本影评进行识别以得到上述样本影评的评价类型,上述样本影评中包括第一样本影评与第二样本影评,上述第二样本影评为使用第二命名实体对上述第一样本影评中的第一命名实体进行替换后得到的影评,上述第一命名实体与上述第二命名实体类型相同;获取上述目标识别模型输出的上述目标影评的评价类型,其中,上述评价类型为正面评价、中性评价或负面评价的方法。由于在上述方法中,在对识别影评的模型进行训练的过程中,可以在获取到第一样本影评后,对第一样本影评的第一命名实体进行替换,从而可以获取到多个样本数据,提高了对模型进行训练的效率,进一步提高了识别影评的效率。解决了相关技术中对影评识别的效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的影评识别方法的流程示意图;
图2是根据本发明实施例的一种可选的影评识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种影评识别方法,可选地,作为一种可选的实施方式,如图1所示,上述影评识别方法包括:
S102,获取待识别的目标影评;
S104,将所述目标影评输入到目标识别模型中,其中,所述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,所述目标识别模型用于对所述样本影评进行识别以得到所述样本影评的评价类型,所述样本影评中包括第一样本影评与第二样本影评,所述第二样本影评为使用第二命名实体对所述第一样本影评中的第一命名实体进行替换后得到的影评,所述第一命名实体与所述第二命名实体类型相同;
S106,获取所述目标识别模型输出的所述目标影评的评价类型,其中,所述评价类型为正面评价、中性评价或负面评价。
可选地,上述影评识别方法可以但不限于应用于可以计算数据的终端上,例如手机、平板电脑、笔记本电脑、PC机等终端上,终端可以通过网络与服务器进行交互,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
可选地,上述影评识别方法可以应用于识别影评类型的过程中。例如,对于一个电影,统计该电影的所有影评,对影评进行分析,可以得到该电影的评价。或者,分析某一用户对各个电影的影评,可以得知该用户对电影的偏好。
以识别影评为例,对于一个电影的一条目标影评,在获取到目标影评之后,将目标影评输入到目标识别模型中,由目标识别模型输出该影评为对电影的正面评价或者中性评价或者负面评价。
目标识别模型经过预训练而成。在训练目标识别模型时,首先获取样本影评。样本影评可以包括第一样本影评。在获取到第一样本影评后,可以识别第一样本影评中的命名实体,命名实体可以有零个或者一个或者多个。确定命名实体中的第一命名实体(不包括命名实体的影评不用确定第一命名实体),然后,使用与第一命名实体类型相同的第二命名实体替换第一命名实体,得到第二样本类型。从而,一个样本数据经过替换后,得到了多条样本数据。使用多条样本数据训练模型,提高了目标识别模型的训练效率。再使用目标识别模型识别目标影评,提高了影评的识别效率。
可选地,目标识别模型是对原始识别模型训练得到。原始识别模型的识别准确度可能较低,使用样本训练原始识别模型时,输入样本数据后,原始识别模型会输出该样本数据的评价类型。若是输出的评价类型与样本数据被预先标注的评价类型一致,则说明原始识别模型的识别是正确的。若是模型识别正确的概率大于了第一阈值,如99%,则说明模型已经足够准确,此时将原始识别模型确定为目标识别模型并投入使用。目标识别模型还可以在使用过程中,进行校正,以进一步提高准确度。
可选地,上述过程中的替换命名实体的过程需要获取与第一命名实体类型相同的第二命名实体。可以预先建立影评的知识图谱,将各个命名实体进行关联与类型的确定。
上述知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对“来刻画它的内在特性,比如说人物,他有年龄、身高、体重属性。
命名实体是指一种现实世界中的人或物,例如人、地点、组织、产品等等可以被命名的实体。既可以是具体的实体,也可以是抽象的概念。
上述实体是知识库所表示成的图中的一个节点,表示成物理世界中的物体或者概念。例如“北京”就可以表示图中的一个实体。
实体类型存储了相关信息的人员、组织、对象类型或概念。描述正在被掌控的信息的类型。比如北京上海是地点类型。
关系是知识库所表示成的图中的一条边,连接两个实体,用于表示两个实体的联系,具有方向。例如“北京”位于“上海”北方,其中“北京”与“上海”均为实体,位于北方就是“北京”与“上海”的关系。
关系类型是实体与实体,实体与属性的类型,如果关系有方向就是有向,没有关系就是无向。
序列标注任务就是给一个序列每个单元的数据标注一个类别标签,常用于分词、词性标注、命名实体识别等任务。例如一个简单的序列标注任务事先定义了标签:人名(PER),组织(ORG)和其他(O),序列标注模型会为一句话(序列)——“小明在北京大学就读”——打上标签。如下表(1)
小 | 明 | 在 | 北 | 京 | 大 | 学 | 就 | 读 |
PER | PER | O | ORG | ORG | ORG | ORG | O | O |
表(1)
条件随机场(Conditional Random Field)是一种统计算法,用于序列标注任务。
长短记忆网络(LSTM)是一种循环神经网络模型,适用于处理时间序列数据,常用于文本分类任务。Bi-LSTM是使用两层LSTM分别从序列的正向和反向提取文本的信息。
在获取到一条影评后,该影评是被标注的影评。如:
{“内容”:“复联4的终章,不错。利用时空重返与之前的自己对话还是很有梗的。最终黑寡妇和钢铁侠的结局赚泪无数。”,“评价”:
“正面评价”}
首先,从影评数据集中抽取实体(电影名称、演员、导演、角色……),即命名实体识别(NER)是序列标注任务,可以是基于一定自定义规则的关键词匹配模型;或基于统计的算法,如CRF模型;或基于深度学习的算法,如Bi-LSTM模型。例如使用IOB标注标准设计影视实体序列标注文本。
在标注时,可以使用B_MOV标注电影(movie)实体的开始字符,I_MOV标注电影(movie)实体的中间字符,B_CHAR标注角色(character)实体的开始字符,I_CHAR标注角色(character)实体的中间字符,O标注其他,从而得到如下表(2)。
复 | 联 | 4 | 的 | 终 | 章 | 不 | 错 | 利 | 用 | 时 |
B_MOV | I_MOV | I_MOV | O | O | O | O | O | O | O | O |
空 | 重 | 返 | 与 | 之 | 前 | 的 | 自 | 己 | 对 | 话 |
O | O | O | O | O | O | O | O | O | O | O |
还 | 是 | 很 | 有 | 梗 | 的 | 最 | 终 | 黑 | 寡 | 妇 |
O | O | O | O | O | O | O | O | B_char | I_char | I_char |
和 | 钢 | 铁 | 侠 | 的 | 结 | 局 | 赚 | 泪 | 无 | 数 |
O | B_char | I_char | I_char | O | O | O | O | O | O | O |
表(2)
上述是对一条影评的标注结果。在包括多条影评的情况下,可以对多条影评进行标注,从而可以得到相同类型的多个命名实体。将相同类型的多个命名实体保存到知识图谱中。在使用时,获取到一条影评后,将该影评进行标注,通过替换该影评中的命名实体,从而得到多条影评,使用多条影评训练模型效果更佳。
例如前例使用电影泰坦尼克号和角色等位替换实体,构造人工数据:
{“内容”:“【泰坦尼克号】的终章,不错。利用时空重返于之前的自己对话还是很有梗的。最终【杰克】和【露丝】的结局赚泪无数。”,
“评价”:”正面”}。
可见,通过替换泰坦尼克号与杰克与露丝等命名实体,获取到了另一个样本影评。
本方案中除上述过程之外,还可以在模型中添加注意力层。在文本分类任务中,加入注意力机制令模型在训练中为不同的词语学习到不同的权重,可以解释为训练模型“注意到”对分类结果有影响的词语。
文本分类模型有基于统计的词频模型,或基于预训练的语言模型等,本质上都是将文本编码为一些特征的加权向量。在词频模型中,这些特征实际上就是词语组成的词典,每一个词语具有一个编号,输入的文本是词语的加权向量;而使用预训练的语言模型,实际上是事先使用大量文本数据对词典进行了特征维度的压缩,使用时,输入文本数据的每一个词经过预训练模型的转化为一个特征向量,文本是所有字的特征向量的平均值,还可以加入字词的在文本中的位置信息编码为向量等等方法对文本进行预处理。文本分类的模型训练过程就是为特征选取合适的权重,来提高分类模型的准确性。
将影视图谱中的实体词按类型分组,使用分类模型中的特征矩阵将实体词组转化为词向量,将这个词向量与特征矩阵再做乘积,作为深度学习模型的注意力层,即计算文本向量与实体词组向量的相似度,可以提高实体词语的特征权重,使模型在学习中注意到对结果有影响的实体组,因此可以在据此判断情感分类结果的出发点,例如上文中影评的正面情感来自电影角色方面,在模型学习中会增加角色名词的权重。输入一篇新的文本,不仅可以预测情感极性,也可以通过注意力层权重在词语上的分布找到情感极性的来源。
通过本实施例,通过上述方法,从而提高了识别目标影评的效率。进一步地,由于添加了注意力层,从而可以对影评进行更准确的识别,提高了识别影评的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述影评识别方法的影评识别装置。如图2所示,该装置包括:
(1)第一获取单元202,用于获取待识别的目标影评;
(2)第一输入单元204,用于将所述目标影评输入到目标识别模型中,其中,所述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,所述目标识别模型用于对所述样本影评进行识别以得到所述样本影评的评价类型,所述样本影评中包括第一样本影评与第二样本影评,所述第二样本影评为使用第二命名实体对所述第一样本影评中的第一命名实体进行替换后得到的影评,所述第一命名实体与所述第二命名实体类型相同;
(3)第二获取单元206,用于获取所述目标识别模型输出的所述目标影评的评价类型,其中,所述评价类型为正面评价、中性评价或负面评价。
可选地,上述影评识别装置可以应用于识别影评类型的过程中。例如,对于一个电影,统计该电影的所有影评,对影评进行分析,可以得到该电影的评价。或者,分析某一用户对各个电影的影评,可以得知该用户对电影的偏好。
以识别影评为例,对于一个电影的一条目标影评,在获取到目标影评之后,将目标影评输入到目标识别模型中,由目标识别模型输出该影评为对电影的正面评价或者中性评价或者负面评价。
目标识别模型经过预训练而成。在训练目标识别模型时,首先获取样本影评。样本影评可以包括第一样本影评。在获取到第一样本影评后,可以识别第一样本影评中的命名实体,命名实体可以有零个或者一个或者多个。确定命名实体中的第一命名实体(不包括命名实体的影评不用确定第一命名实体),然后,使用与第一命名实体类型相同的第二命名实体替换第一命名实体,得到第二样本类型。从而,一个样本数据经过替换后,得到了多条样本数据。使用多条样本数据训练模型,提高了目标识别模型的训练效率。再使用目标识别模型识别目标影评,提高了影评的识别效率。
可选地,目标识别模型是对原始识别模型训练得到。原始识别模型的识别准确度可能较低,使用样本训练原始识别模型时,输入样本数据后,原始识别模型会输出该样本数据的评价类型。若是输出的评价类型与样本数据被预先标注的评价类型一致,则说明原始识别模型的识别是正确的。若是模型识别正确的概率大于了第一阈值,如99%,则说明模型已经足够准确,此时将原始识别模型确定为目标识别模型并投入使用。目标识别模型还可以在使用过程中,进行校正,以进一步提高准确度。
可选地,上述过程中的替换命名实体的过程需要获取与第一命名实体类型相同的第二命名实体。可以预先建立影评的知识图谱,将各个命名实体进行关联与类型的确定。
上述知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对“来刻画它的内在特性,比如说人物,他有年龄、身高、体重属性。
命名实体是指一种现实世界中的人或物,例如人、地点、组织、产品等等可以被命名的实体。既可以是具体的实体,也可以是抽象的概念。
上述实体是知识库所表示成的图中的一个节点,表示成物理世界中的物体或者概念。例如“北京”就可以表示图中的一个实体。
实体类型存储了相关信息的人员、组织、对象类型或概念。描述正在被掌控的信息的类型。比如北京上海是地点类型。
关系是知识库所表示成的图中的一条边,连接两个实体,用于表示两个实体的联系,具有方向。例如“北京”位于“上海”北方,其中“北京”与“上海”均为实体,位于北方就是“北京”与“上海”的关系。
关系类型是实体与实体,实体与属性的类型,如果关系有方向就是有向,没有关系就是无向。
序列标注任务就是给一个序列每个单元的数据标注一个类别标签,常用于分词、词性标注、命名实体识别等任务。例如一个简单的序列标注任务事先定义了标签:人名(PER),组织(ORG)和其他(O),序列标注模型会为一句话(序列)——“小明在北京大学就读”——打上标签。如下表(1)
小 | 明 | 在 | 北 | 京 | 大 | 学 | 就 | 读 |
PER | PER | O | ORG | ORG | ORG | ORG | O | O |
表(1)
条件随机场(Conditional Random Field)是一种统计算法,用于序列标注任务。
长短记忆网络(LSTM)是一种循环神经网络模型,适用于处理时间序列数据,常用于文本分类任务。Bi-LSTM是使用两层LSTM分别从序列的正向和反向提取文本的信息。
在获取到一条影评后,该影评是被标注的影评。如:
{“内容”:“复联4的终章,不错。利用时空重返与之前的自己对话还是很有梗的。最终黑寡妇和钢铁侠的结局赚泪无数。”,“评价”:
“正面评价”}
首先,从影评数据集中抽取实体(电影名称、演员、导演、角色……),即命名实体识别(NER)是序列标注任务,可以是基于一定自定义规则的关键词匹配模型;或基于统计的算法,如CRF模型;或基于深度学习的算法,如Bi-LSTM模型。例如使用IOB标注标准设计影视实体序列标注文本。
在标注时,可以使用B_MOV标注电影(movie)实体的开始字符,I_MOV标注电影(movie)实体的中间字符,B_CHAR标注角色(character)实体的开始字符,I_CHAR标注角色(character)实体的中间字符,O标注其他,从而得到如下表(2)。
复 | 联 | 4 | 的 | 终 | 章 | 不 | 错 | 利 | 用 | 时 |
B_MOV | I_MOV | I_MOV | O | O | O | O | O | O | O | O |
空 | 重 | 返 | 与 | 之 | 前 | 的 | 自 | 己 | 对 | 话 |
O | O | O | O | O | O | O | O | O | O | O |
还 | 是 | 很 | 有 | 梗 | 的 | 最 | 终 | 黑 | 寡 | 妇 |
O | O | O | O | O | O | O | O | B_char | I_char | I_char |
和 | 钢 | 铁 | 侠 | 的 | 结 | 局 | 赚 | 泪 | 无 | 数 |
O | B_char | I_char | I_char | O | O | O | O | O | O | O |
表(2)
上述是对一条影评的标注结果。在包括多条影评的情况下,可以对多条影评进行标注,从而可以得到相同类型的多个命名实体。将相同类型的多个命名实体保存到知识图谱中。在使用时,获取到一条影评后,将该影评进行标注,通过替换该影评中的命名实体,从而得到多条影评,使用多条影评训练模型效果更佳。
例如前例使用电影泰坦尼克号和角色等位替换实体,构造人工数据:
{“内容”:“【泰坦尼克号】的终章,不错。利用时空重返于之前的自己对话还是很有梗的。最终【杰克】和【露丝】的结局赚泪无数。”,
“评价”:”正面”}。
可见,通过替换泰坦尼克号与杰克与露丝等命名实体,获取到了另一个样本影评。
本方案中除上述过程之外,还可以在模型中添加注意力层。在文本分类任务中,加入注意力机制令模型在训练中为不同的词语学习到不同的权重,可以解释为训练模型“注意到”对分类结果有影响的词语。
文本分类模型有基于统计的词频模型,或基于预训练的语言模型等,本质上都是将文本编码为一些特征的加权向量。在词频模型中,这些特征实际上就是词语组成的词典,每一个词语具有一个编号,输入的文本是词语的加权向量;而使用预训练的语言模型,实际上是事先使用大量文本数据对词典进行了特征维度的压缩,使用时,输入文本数据的每一个词经过预训练模型的转化为一个特征向量,文本是所有字的特征向量的平均值,还可以加入字词的在文本中的位置信息编码为向量等等方法对文本进行预处理。文本分类的模型训练过程就是为特征选取合适的权重,来提高分类模型的准确性。
将影视图谱中的实体词按类型分组,使用分类模型中的特征矩阵将实体词组转化为词向量,将这个词向量与特征矩阵再做乘积,作为深度学习模型的注意力层,即计算文本向量与实体词组向量的相似度,可以提高实体词语的特征权重,使模型在学习中注意到对结果有影响的实体组,因此可以在据此判断情感分类结果的出发点,例如上文中影评的正面情感来自电影角色方面,在模型学习中会增加角色名词的权重。输入一篇新的文本,不仅可以预测情感极性,也可以通过注意力层权重在词语上的分布找到情感极性的来源。
通过本实施例,通过上述方法,从而提高了识别目标影评的效率。进一步地,由于添加了注意力层,从而可以对影评进行更准确的识别,提高了识别影评的准确性。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种影评识别方法,其特征在于,包括:
获取待识别的目标影评;
将所述目标影评输入到目标识别模型中,其中,所述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,所述目标识别模型用于对所述样本影评进行识别以得到所述样本影评的评价类型,所述样本影评中包括第一样本影评与第二样本影评,所述第二样本影评为使用第二命名实体对所述第一样本影评中的第一命名实体进行替换后得到的影评,所述第一命名实体与所述第二命名实体类型相同;
获取所述目标识别模型输出的所述目标影评的评价类型,其中,所述评价类型为正面评价、中性评价或负面评价。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标影评输入到目标识别模型中之前,所述方法还包括:
获取所述第一样本影评;
确定所述第一样本影评中的所述第一命名实体;
获取知识图谱中与所述第一命名实体类型相同的所述第二命名实体;
使用所述第二命名实体替换所述第一命名实体,得到所述第二样本影评。
3.根据权利要求2所述的方法,其特征在于,在所述获取知识图谱中与所述第一命名实体类型相同的所述第二命名实体之前,还包括:
获取多个所述第一样本影评;
将所述多个所述第一样本影评中的每一个第一样本影评进行分词,并标注分词后的所述每一个第一样本影评中的每一个词,得到标注结果;
从所述标注结果中获取被标注为命名实体的词;
在被标注为命名实体的词中,对同一类型的词建立关联,并保存到所述知识图谱中。
4.根据权利要求2所述的方法,其特征在于,在所述使用所述第二命名实体替换所述第一命名实体,得到所述第二样本影评之后,所述方法还包括:
将所述样本影评输入到所述原始识别模型中,获取所述原始识别模型输出的所述样本影评的评价类型;
在所述原始识别模型输入M个所述样本影评后,输出所述M个样本影评的评价类型的情况下,且输出的所述M个样本影评的评价类型中包括N个符合预定条件的评价类型的情况下,将所述原始识别模型确定为所述目标识别模型,其中,所述预定条件用于指示所述原始识别模型输出的当前样本影评的评价类型与所述当前样本影评被预先标注的评价类型相同,所述M与所述N为正整数,N/M大于第一阈值。
5.根据权利要求1至4任意一项所述的方法,其特征在于,
在将所述目标影评输入到目标识别模型中之前,所述方法还包括:在所述目标识别模型中添加注意力层,其中,所述注意力层为使用所述目标识别模型中的特征矩阵将实体词组转化为词向量后,所述特征矩阵与所述词向量的乘积,所述实体词组为所述目标影评中所有的命名实体组成的词组,所述特征矩阵为所述目标识别模型中用于提取词向量特征的矩阵;
所述将所述目标影评输入到目标识别模型中包括:将所述目标影评输入到添加了所述注意力层的所述目标识别模型中;
所述获取所述目标识别模型输出的所述目标影评的评价类型包括:获取使用添加了所述注意力层的所述目标识别模型输出的所述目标影评的所述评价类型。
6.一种影评识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的目标影评;
第一输入单元,用于将所述目标影评输入到目标识别模型中,其中,所述目标识别模型为使用样本影评对原始识别模型进行训练后得到的模型,所述目标识别模型用于对所述样本影评进行识别以得到所述样本影评的评价类型,所述样本影评中包括第一样本影评与第二样本影评,所述第二样本影评为使用第二命名实体对所述第一样本影评中的第一命名实体进行替换后得到的影评,所述第一命名实体与所述第二命名实体类型相同;
第二获取单元,用于获取所述目标识别模型输出的所述目标影评的评价类型,其中,所述评价类型为正面评价、中性评价或负面评价。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于在所述将所述目标影评输入到目标识别模型中之前,获取所述第一样本影评;
第一确定单元,用于确定所述第一样本影评中的所述第一命名实体;
第四获取单元,用于获取知识图谱中与所述第一命名实体类型相同的所述第二命名实体;
替换单元,用于使用所述第二命名实体替换所述第一命名实体,得到所述第二样本影评。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第五获取单元,用于在所述获取知识图谱中与所述第一命名实体类型相同的所述第二命名实体之前,获取多个所述第一样本影评;
分词单元,用于将所述多个所述第一样本影评中的每一个第一样本影评进行分词,并标注分词后的所述每一个第一样本影评中的每一个词,得到标注结果;
第六获取单元,用于从所述标注结果中获取被标注为命名实体的词;
关联单元,用于在被标注为命名实体的词中,对同一类型的词建立关联,并保存到所述知识图谱中。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二输入单元,用于在所述使用所述第二命名实体替换所述第一命名实体,得到所述第二样本影评之后,将所述样本影评输入到所述原始识别模型中,获取所述原始识别模型输出的所述样本影评的评价类型;
第二确定单元,用于在所述原始识别模型输入M个所述样本影评后,输出所述M个样本影评的评价类型的情况下,且输出的所述M个样本影评的评价类型中包括N个符合预定条件的评价类型的情况下,将所述原始识别模型确定为所述目标识别模型,其中,所述预定条件用于指示所述原始识别模型输出的当前样本影评的评价类型与所述当前样本影评被预先标注的评价类型相同,所述M与所述N为正整数,N/M大于第一阈值。
10.根据权利要求6至9任意一项所述的装置,其特征在于,
所述装置还包括:添加单元,用于在将所述目标影评输入到目标识别模型中之前,在所述目标识别模型中添加注意力层,其中,所述注意力层为使用所述目标识别模型中的特征矩阵将实体词组转化为词向量后,所述特征矩阵与所述词向量的乘积,所述实体词组为所述目标影评中所有的命名实体组成的词组,所述特征矩阵为所述目标识别模型中用于提取词向量特征的矩阵;
所述第一输入单元包括:输入模块,用于将所述目标影评输入到添加了所述注意力层的所述目标识别模型中;
所述第二获取单元包括:获取模块,用于获取使用添加了所述注意力层的所述目标识别模型输出的所述目标影评的所述评价类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911311671.9A CN111144103A (zh) | 2019-12-18 | 2019-12-18 | 影评识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911311671.9A CN111144103A (zh) | 2019-12-18 | 2019-12-18 | 影评识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111144103A true CN111144103A (zh) | 2020-05-12 |
Family
ID=70518807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911311671.9A Withdrawn CN111144103A (zh) | 2019-12-18 | 2019-12-18 | 影评识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144103A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597804A (zh) * | 2020-05-15 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 一种实体识别模型训练的方法以及相关装置 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710680A (zh) * | 2018-05-18 | 2018-10-26 | 哈尔滨理工大学 | 一种利用深度学习进行基于情感分析的电影推荐方法 |
CN108733652A (zh) * | 2018-05-18 | 2018-11-02 | 大连民族大学 | 基于机器学习的影评情感倾向性分析的测试方法 |
US10410224B1 (en) * | 2014-03-27 | 2019-09-10 | Amazon Technologies, Inc. | Determining item feature information from user content |
CN110489744A (zh) * | 2019-07-25 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 一种语料的处理方法、装置、电子设备和存储介质 |
-
2019
- 2019-12-18 CN CN201911311671.9A patent/CN111144103A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410224B1 (en) * | 2014-03-27 | 2019-09-10 | Amazon Technologies, Inc. | Determining item feature information from user content |
CN108710680A (zh) * | 2018-05-18 | 2018-10-26 | 哈尔滨理工大学 | 一种利用深度学习进行基于情感分析的电影推荐方法 |
CN108733652A (zh) * | 2018-05-18 | 2018-11-02 | 大连民族大学 | 基于机器学习的影评情感倾向性分析的测试方法 |
CN110489744A (zh) * | 2019-07-25 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 一种语料的处理方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
侯艳辉等: "基于本体特征的影评细粒度情感分类", 《计算机应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597804A (zh) * | 2020-05-15 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 一种实体识别模型训练的方法以及相关装置 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
CN111666751B (zh) * | 2020-06-04 | 2023-09-29 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11645517B2 (en) | Information processing method and terminal, and computer storage medium | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN111339306A (zh) | 分类模型训练方法、分类方法及装置、设备和介质 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN112257452B (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN116010684A (zh) | 物品推荐方法、装置及存储介质 | |
CN110390084A (zh) | 文本查重方法、装置、设备及存储介质 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN111144103A (zh) | 影评识别方法和装置 | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN114722174A (zh) | 提词方法和装置、电子设备及存储介质 | |
CN110826327A (zh) | 情感分析方法、装置、计算机可读介质及电子设备 | |
CN113935880A (zh) | 政策推荐方法、装置、设备及存储介质 | |
CN106055657A (zh) | 用于特定人群的观影指数评价系统 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN113449103A (zh) | 融入标签与文本交互机制的银行交易流水分类方法及系统 | |
CN106095839A (zh) | 特定观影群体数据的提取及其处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200512 |