CN111324698A

CN111324698A - 深度学习方法、评价观点提取方法、装置和系统

Info

Publication number: CN111324698A
Application number: CN202010104388.5A
Authority: CN
Inventors: 林坡; 沈艺; 陈述; 许加书; 梁诗雯
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-23
Anticipated expiration: 2040-02-20
Also published as: CN111324698B

Abstract

本发明公开了一种深度学习方法、评价观点提取方法、装置和系统，其中提取方法包括：对待提取的评价信息进行分词处理得到分词结果；判断分词结果中是否有与分别与预设的词典表中的至少一个属性词和至少一个情感词匹配的目标属性词和目标情感词；若有，则提取目标属性词和目标情感词并生成特征数据；特征数据包括目标属性词和目标情感词之间的词距离；将特征数据输入深度学习模型中，以得到目标属性词与目标情感词之间的修饰关系；确定待提取的评价信息的目标类别并确定目标情感词的目标极性；根据目标类别、目标极性以及修饰关系形成评价观点。该方法可以正确、高效的提取评价信息的观点。

Description

深度学习方法、评价观点提取方法、装置和系统

技术领域

本申请涉及信息技术领域，具体涉及一种深度学习方法、评价观点提取方法、装置和系统。

背景技术

在网络购物中，消费者一般通过其他消费者的评价信息来判断网络商品值不值得购买。

但目前经常出现评价信息的文字部分为负面内容如质量粗糙等，但等级评价为好评的情况，造成内容与等级不符。为按照文字部分正确评估评价信息的等级，需要对评价信息进行分析以对评价观点进行提取。

目前在处理评价信息中，对评价信息的数据特征通过结巴分词的精确模式(jieba)将句子进行准确切分，并通过词向量，将自然语言中的词转换为计算机可以理解的稠密向量。使用BIO表示法来定义序列标注的标签集，AP是Aspect的缩写，其中B表示评价观点属性词的开始，B_AP是Begin of Aspect的缩写；I表示评价观点属性词的中间，I_AP是Inside of Aspect的缩写；O表示其它非评价观点属性词，即Other的缩写，通过B_AP、I_AP和O这三个标签可以将不同的语块赋予不同标签。

采用基于记忆网络的深度学习模型，将记忆网络融入到双向长短记忆网络中(Me-BiLSTM)，抽取历史句子中存在的评论观点模式存储并应用到未知评论句子上。

首先应用BiLSTM抽取句子中词与词之间的前后依赖信息，然后将得到的前后依赖信息压缩为句子表征向量，一方面利用表征向量从记忆网络中抽取已经存储的相关评论句子模式向量，另一方面将当前处理的句子模式存储到记忆网络中。最后将句子的前后依赖信息和匹配到的句子模式向量融合，用条件随机场进行最后的句子标注工作。

这样的做法，①过分依赖数据纯度，未考虑数据不平衡问题。对训练中文评价数据中的属性词和情感词数据量要求过高，通常需要获得足够的中文数据量，否则准确率较低。②训练速度过慢，当中文评论句子长度过长，准确率会较低。③无法对新出现的属性词和情感词进行分析。

为此需要提供一种更高效、更准确的方法对评价信息进行分析，以提取评价观点。

发明内容

本发明的目的在于针对现有技术的不足之处，提供一种深度学习方法、评价观点提取方法和系统，以训练模型对评价信息进行分析判断，进而高效、准确的提取评价观点。

本发明公开了一种深度学习方法，包括：

对样本评价信息进行分词处理、词性标注和词距离标注得到样本分词结果；

提取所述样本分词结果中的样本属性词和样本情感词并结合所述样本属性词和所述样本情感词之间的词距离生成样本特征数据；

对所述样本分词结果中的样本属性词和样本情感词之间的样本修饰关系进行标注；

以所述样本特征数据为输入，以所述样本修饰关系为输出，训练得到深度学习模型。

优选的，所述提取所述样本分词结果中的样本属性词和样本情感词包括：

在包含词语及词性对应关系的词库表中进行查询，提取所述样本分词结果中的所述样本属性词和样本情感词。

本发明还公开了一种评价观点提取方法，所述方法包括：

对待提取的评价信息进行分词处理和词性标注得到分词结果；

提取所述分词结果中的目标属性词和目标情感词并结合并所述目标属性词和所述目标情感词之间的词距离生成特征数据；

将所述特征数据输入所述深度学习模型中，以得到所述目标属性词与所述目标情感词之间的修饰关系；

确定所述待提取的评价信息的目标类别并确定所述目标情感词的目标极性；

根据所述目标类别、目标极性以及所述修饰关系形成所述评价观点。

优选的，所述方法还包括：

若所述分词结果中有目标情感词且无目标属性词，则根据预设的情感词与属性词对应关系为所述目标情感词匹配对应的目标属性词。

优选的，所述确定所述目标情感词的目标极性包括：

若所述目标情感词与所述目标属性词在固定搭配极性对应关系中匹配到目标固定搭配极性，则根据所述目标固定搭配极性确定所述目标情感词的极性；所述固定搭配极性对应关系包括至少一对极性、情感词和属性词的固定搭配的对应关系；

若所述目标情感词与所述目标属性词在固定搭配极性对应关系中未匹配到目标固定搭配极性，则根据预设的情感词与极性对应关系确定所述目标情感词的目标极性。

优选的，所述确定所述待提取的评价信息的目标类别包括：

根据预设的属性词与评价信息类别对应关系确定所述目标属性词对应的至少一个目标类别。

优选的，所述目标类别为商品、物流、服务以及价格中的至少一项。

本发明还公开一种深度学习装置，包括：

样本分词单元，用于对样本评价信息进行分词处理、词性标注和词距离标注得到样本分词结果；

样本特征数据单元，用于提取所述样本分词结果中的样本属性词和样本情感词并结合所述样本属性词和所述样本情感词之间的词距离生成样本特征数据；

样本修饰关系标注单元，用于对所述样本分词结果中的样本属性词和样本情感词之间的样本修饰关系进行标注；

模型训练单元，用于以所述样本特征数据为输入，以所述样本修饰关系为输出，训练得到深度学习模型。

本发明还公开一种评价观点提取装置，应用了上述深度学习模型，所述装置包括：

分词单元，用于对待提取的评价信息进行分词处理和词性标注得到分词结果；

特征数据单元，用于提取所述分词结果中的目标属性词和目标情感词并结合并所述目标属性词和所述目标情感词之间的词距离生成特征数据；

模型预测单元，用于将所述特征数据输入所述深度学习模型中，以得到所述目标属性词与所述目标情感词之间的修饰关系；

类别确定单元，用于确定所述待提取的评价信息的目标类别；

极性确定单元，用于确定所述目标情感词的目标极性；

评价观点单元，用于根据所述目标类别、目标极性以及所述修饰关系形成所述评价观点。

最后还公开一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述所述的方法。

本发明的有益效果：

本发明能够通过深度学习模型判断出评价信息中属性词与情感词的修饰关系，进而结合极性以及类别判断生成评价观点。本发明模型只需要对评价信息进行分词、词性标注和词距离标注即可进行判断，实现简单，高效，无需依赖上下文，正确率高，还可以对新的情感词、属性词进行分析，从而进一步提高了评价观点的正确率。基于提取的评价观点可以很好的将评价信息与对应的等级评价对应，避免因为错误的匹配等级与评价内容造成的问题。

附图说明

所包括的附图用来提供对本申请实施例的进一步的理解，其构成了说明书的一部分，用于例示本申请的实施方式，并与文字描述一起来阐释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1、2是本申请样本评价信息标注结果示意图；

图3是本申请的实施例2评价观点提取方法流程图；

图4是本申请的实施例4评价观点提取装置结构图；

图5是本申请计算机系统结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

评价观点一般需要描述对何种分类下(产品、物流、服务、价格等)的何种属性进行了何种情感描述，这一描述是正极性还是负极性。

比如我们分析后提取到用户评价观点为：产品的质量粗糙，负极性。其中，产品为分类，质量为属性，粗糙为情感描述，而该情感的极性为负极性。

为此本申请中需要分析出评价信息中的上述各元素即评价信息涉及何种分类、何种属性进行了何种情感描述，这一描述是正还是负。属性以及情感描述涉及到词性即情感词、属性词，因此需要分词处理、词性标注并提取情感词和属性词。而何种属性进行了何种情感描述还涉及到要对情感词与属性词之间的修饰关系进行识别即哪个情感词是用来修饰哪个属性词。

分词等可以借助目前常见的分词工具如ansj进行处理，提取情感词和属性词可以通过预设的词库表进行匹配。如将评价领域常用词语及词性(情感词、属性词)预置一张词库表，通过将评价信息分词后的结果与该表匹配确定分词后的每个词词性，以提取其中的情感词和属性词。

关于对情感词与属性词之间的修饰关系进行识别，本申请提供了一种深度学习方法，借助情感词与属性词之间的词距离来训练模型以用于后续对修饰关系进行识别。

首先，准备样本集，样本集为一定数量的样本评价信息。

接着对样本评价信息进行分词及标注，该标注包括词性标注以及词距离标注、修饰关系标注。可以借助预置的包含该领域常用词语及词性(情感词、属性词)对应关系的词库表提取其中的样本属性词和样本情感词。而词距离可以通过各分词预置的索引值确定，具体实现可借助现有技术中词距离的相关方法。修饰关系分为有修饰关系和无修饰关系，具体可以用RIGHT(有修饰关系),RELATION_WRONG(有修饰关系)表示。如图1、2所示，为经过处理的数据特征，包括属性词A和情感词S和非属性词、非属性词O，词距离以及修饰关系描述。

将上述标注信息输入预设模型，以词性标注以及词距离标注为输入，以修饰关系标注为输出进行深度学习，训练得到模型。

上述模型具体可谓基于深度学习分类模型的Textcnn模型，通过训练，Textcnn模型可以判断评价信息中的情感词和属性词是否存在修饰关系。

算法预研部分分为训练、验证部分，训练集和验证集比例分为5：1，神经网络模型部分采用卷积层、激活层、池化层、全连接层，并使用3个不同的卷积核。

通过上述训练好的模型，即可确定评价信息中的情感词和属性词的修饰关系，进而结合其他信息如情感词的极性、属性词的分类等形成评价观点。如下为利用训练好的模型形成评价观点的具体步骤：

首先加载上述训练好的模型以及运行模型用到的配置文件，并对待提取的评价信息进行分词获得分词结果；

之后利用预置的包含该领域常用词语及词性(情感词、属性词)对应关系的词库表提取上述分词结果中的属性词和情感词。由于借助了词库表，后续也可以往词库表添加或修改属性词和情感词进行动态修改。

如果提取到属性词和情感词，则根据属性词与情感词之间的词距离生成特征数据输入模型中，利用模型输出属性词与情感词之间的修饰关系。

之后确定情感词极性以及评价信息的类别，结合修饰关系生成评价观点。

关于确定情感词的极性可以通过如下方法：

若所述目标情感词与所述目标属性词在固定搭配极性对应关系中匹配到目标固定搭配极性，则根据所述目标固定搭配极性确定所述目标情感词的目标极性；所述固定搭配极性对应关系包括至少一对极性、情感词和属性词的固定搭配的对应关系；

若所述目标情感词与所述目标属性词在固定搭配极性对应关系中未匹配到目标固定搭配极性，则根据预设的情感词与极性对应关系确定情感词的极性。

例如评价信息中出现“服务不满意”、“质量差”等词句，可利用预设的情感词与极性对应关系判断其中的情感词“不满意”、“差”为负极性；例如评价信息中出现“服务满意”、“质量好”等词句，判断其中的情感词“满意”、“好”为正极性。

考虑到一些词语在特定场景下具有特定的极性，比如简单很多情况下极性为正，但如果搭配包装简单，则是负极性。另外，还有否定词的情况下，极性出现反转，如不满意为负极性。为此可根据固定搭配极性对应关系确定此类情况下的极性。

例如，包装简单，通过固定搭配极性对应关系确定为负极性。服务不满意，否定词，极性反转为负极性。

确定所述待提取的评价信息的类别可以通过如下方法：

根据预设的属性词与评价信息类别对应关系确定属性词对应的至少一个目标类别。类别具体可以为商品、物流、服务以及价格中的至少一项。

如：属性词为态度好，则可为其匹配多类别服务、物流。

需要说明的是，若与词库表匹配后，分词结果中有情感词且无属性词，则可以从预设的情感与属性关系词库中为情感词匹配对应的属性词。如评价信息中只出现“便宜”这一情感词，添加与“便宜”相对应的常见属性词“价格”，最后等到完整的提取信息，如:价格:便宜:价格便宜:1.0。

通过上述方法中的模型训练方式，训练到了一种模型，可以根据提取的属性词、情感词之间的词距离判断属性词与情感词之间的修饰关系，进而可以结合类别和极性得到评价观点。操作简单，无需依赖上下文，正确率高，还可以对新增加的情感词、属性词进行分析判断。

实施例1

综上，本发明实施例1提供了一种深度学习方法，包括：

优选的，所述深度学习模型为TextCNN深度学习模型。

实施例2

对应上述模型，本发明实施例2还公开了一种评价观点提取方法，应用了上述模型，如图3所示，所述方法包括：

S31对待提取的评价信息进行分词处理和词性标注得到分词结果。

该步骤可以借助分词工具如ansj进行。

S32提取所述分词结果中的目标属性词和目标情感词并结合并所述目标属性词和所述目标情感词之间的词距离生成特征数据。

在提取目标属性词和目标情感词时可根据预先设置的词库表进行。比如统计整理评价领域的常见属性词和情感词，整理为表。利用该表对分词结果进行匹配过滤，提取出评价信息中的目标属性词和目标情感词。

基于表的形式，后续还可以根据需要对表中的属性词和情感词进行增删修改。

模型的预测需要用到词距离，为此可进一步对目标属性词和目标情感词之间的词距离进行确定。具体可以利用索引值表进行确定。词距离的确定在现有技术中有成型的方案，本发明对此不作具体限定。

基于提取出的目标属性词和目标情感词以及词距离生成特征数据，作为模型的输入参数。

S33将所述特征数据输入所述深度学习模型中，以得到所述目标属性词与所述目标情感词之间的修饰关系。

评价信息中可能会提取多个目标属性词与目标情感词，基于模型可逐个判断出每个目标属性词与每个目标情感词之间的修饰关系。

如评价信息为“发货快，包装结实，质量有点粗糙”，则判断结果为：快与发货之间具有修饰关系，结实与包装之间具有修饰关系，粗糙与质量之间具有修饰关系。

S34确定所述待提取的评价信息的目标类别并确定所述目标情感词的目标极性。

类别可包括物流、服务、商品、价格等，通过属性词与类别的对应关系可确定对应类别。如属性词为发货，则类别为物流。属性词与类别对应关系可预先设置。

极性即为前文提到的正极性和负极性，通过情感词即可确定。

S35根据所述目标类别、目标极性以及所述修饰关系形成所述评价观点。

评价观点可按照“原始数据类别(存在多类别)：属性词：情感词：信息截取部分：极性”的数据结构进行表述如：商品:质量:好:质量好:正极性。当然，极性可以用数字表示，如正极性为1.0，负极性为-1.0，则上述例子可以表述为商品:质量:好:质量好:1.0。

优选实施例中，所述方法还包括：

因为评价信息由用户输入，可能并不规范，因此根据词库表匹配时，可能分词结果中只能匹配到目标情感词但无目标属性词，此时可根据预设的情感词与属性词对应关系为所述目标情感词匹配对应的目标属性词。

优选实施例中，所述确定所述目标情感词的目标极性包括：

优选实施例中，所述确定所述待提取的评价信息的目标类别包括：

实施例3

对应实施例1，本发明还公开一种深度学习装置，包括：

实施例4

对应上述实施例2，本发明还公开一种评价观点提取装置，应用了上述深度学习模型，如图4所示，所述装置包括：

分词单元41，用于对待提取的评价信息进行分词处理和词性标注得到分词结果；

特征数据单元42，用于提取所述分词结果中的目标属性词和目标情感词并结合并所述目标属性词和所述目标情感词之间的词距离生成特征数据；

模型预测单元43，用于将所述特征数据输入所述深度学习模型中，以得到所述目标属性词与所述目标情感词之间的修饰关系；

类别确定单元44，用于确定所述待提取的评价信息的目标类别；

极性确定单元45，用于确定所述目标情感词的目标极性；

评价观点单元46，用于根据所述目标类别、目标极性以及所述修饰关系形成所述评价观点。

实施例5

对应实施例2，本发明实施例5还公开一种计算机系统，包括：

一个或多个处理器；以及

其中，图5示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central ProcElasticsearchsing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific IntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccElasticsearchs Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本发明实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本发明所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的方法、装置及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种深度学习方法，其特征在于，包括步骤：

2.如权利要求1所述的一种深度学习方法，其特征在于，提取所述样本分词结果中的样本属性词和样本情感词包括：

3.一种评价观点提取方法，其特征在于，所述评价观点提取方法包括步骤：

4.如权利要求3所述的一种评价观点提取方法，其特征在于，所述方法还包括：

5.如权利要求3或4所述的一种评价观点提取方法，其特征在于，所述确定所述目标情感词的目标极性包括：

6.如权利要求5所述的一种评价观点提取方法，其特征在于，所述确定所述待提取的评价信息的目标类别包括：

7.如权利要求3所述的一种评价观点提取方法，其特征在于，

所述目标类别为商品、物流、服务以及价格中的至少一项。

8.一种深度学习装置，其特征在于，包括：

9.一种评价观点提取装置，应用了如权利要求1所述的深度学习模型，其特征在于，所述装置包括：

特征数据单元，用于提取所述分词结果中的目标属性词和目标情感词并结合所述目标属性词和所述目标情感词之间的词距离生成特征数据；

极性确定单元，用于确定所述目标情感词的目标极性；

10.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求3-7任一项所述的方法。