CN110738046A

CN110738046A - 观点抽取方法及装置

Info

Publication number: CN110738046A
Application number: CN201810720034.6A
Authority: CN
Inventors: 雍倩; 尹存祥; 吴伟佳; 潘旭; 韦庭; 崔路男
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2020-01-31
Anticipated expiration: 2038-07-03
Also published as: CN110738046B

Abstract

本发明提出一种观点抽取方法及装置，其中方法包括：获取待处理的文本内容；将文本内容中的各个语句输入预设的主观句识别模型，获取各个语句中的主观句；主观句为对评论对象进行评论的语句；针对主观句，抽取主观句中的观点五元组；观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；根据观点五元组，确定针对评论对象和评论属性的各类型评论的占比；将针对评论对象和评论属性的各类型评论的占比，以及主观句，确定为文本内容对应的观点，从而能够先提取文本内容中的主观句，然后针对主观句进行五元组抽取和观点分析操作，减少了需要分析的五元组的数量，提高了五元组分析的准确度，能够满足实时性和准确率的要求。

Description

观点抽取方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种观点抽取方法及装置。

背景技术

目前的观点抽取方法主要包括：从新闻文章的各个语句中抽取评论对象、对评论对象的情感等信息，根据对评论对象的情感等信息，分析确定新闻文章中的观点。然而上述方法中，需要针对新闻文章中的每个语句进行抽取操作，大大增加了抽取到的信息的数量，大大增加了对抽取到的信息的分析时间，且难以分析得到准确的观点，从而降低了计算效率和计算准确度，难以满足实时性和准确率的要求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种观点抽取方法，用于解决现有技术中观点抽取效率差和准确率差的问题。

本发明的第二个目的在于提出一种观点抽取装置。

本发明的第三个目的在于提出一种电子设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种观点抽取方法，包括：

获取待处理的文本内容；

将所述文本内容中的各个语句输入预设的主观句识别模型，获取所述各个语句中的主观句；所述主观句为对评论对象进行评论的语句；

针对所述主观句，抽取所述主观句中的观点五元组；所述观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；

根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比；

将针对所述评论对象和所述评论属性的各类型评论的占比，以及所述主观句，确定为所述文本内容对应的观点。

进一步的，所述将所述文本内容中的各个语句输入预设的主观句识别模型，获取所述各个语句中的主观句之前，还包括：

按照预设的语句切分规则对所述文本内容进行语句切分，获取所述文本内容中的各个语句；

所述语句切分规则包括以下规则中的任意一种或者多种：按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。

获取训练数据；所述训练数据中包括：至少一个训练语句，以及所述训练语句对应的类型；所述类型包括：主观句和客观句；

采用所述训练数据对初始的主观句识别模型进行训练，得到所述预设的主观句识别模型。

进一步的，所述针对所述主观句，抽取所述主观句中的观点五元组，包括：

对所述主观句进行分词，获取所述主观句中的各个词语以及所述词语的词性；

将词性为名词、动名词或者名词性短语的词语，确定为所述评论对象和所述评论属性；

将词性为形容词或者副词的词语，确定为所述评论词；

将所述各个词语输入预设的人名识别模型，获取所述各个词语中的评论者；

将所述各个词语中与时间相关的词语，确定为评论时间。

进一步的，所述根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比之前，还包括：

获取预设的过滤规则；所述过滤规则中包括：至少一个观点五元组模板；判断所述观点五元组与所述观点五元组模板是否匹配；若所述观点五元组与所述观点五元组模板不匹配，则过滤掉所述观点五元组；

和/或，

将所述观点五元组输入预设的随机森林模型，过滤掉输出结果不满足预设条件的观点五元组。

进一步的，所述根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比，包括：

将所述观点五元组中，评论对象相同且评论属性相同的观点五元组聚合在一起，得到所述评论对象和所述评论属性对应的观点五元组集合；

针对所述观点五元组集合，获取所述集合中的各个观点五元组中的评论词，获取所述评论词的类型；所述类型包括：正面、负面和中立；

对所述观点五元组集合中，各个类型的评论词进行统计，获取针对所述评论对象和所述评论属性的各类型评论的占比。

本发明实施例的观点抽取方法，通过获取待处理的文本内容；将文本内容中的各个语句输入预设的主观句识别模型，获取各个语句中的主观句；主观句为对评论对象进行评论的语句；针对主观句，抽取主观句中的观点五元组；观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；根据观点五元组，确定针对评论对象和评论属性的各类型评论的占比；将针对评论对象和评论属性的各类型评论的占比，以及主观句，确定为文本内容对应的观点，从而能够先提取文本内容中的主观句，然后针对主观句进行五元组抽取和观点分析操作，减少了需要分析的五元组的数量，提高了五元组分析的准确度，能够满足实时性和准确率的要求。

为达上述目的，本发明第二方面实施例提出了一种观点抽取装置，包括：

获取模块，用于获取待处理的文本内容；

输入模块，用于将所述文本内容中的各个语句输入预设的主观句识别模型，获取所述各个语句中的主观句；所述主观句为对评论对象进行评论的语句；

抽取模块，用于针对所述主观句，抽取所述主观句中的观点五元组；所述观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；

确定模块，用于根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比；

所述确定模块，还用于将针对所述评论对象和所述评论属性的各类型评论的占比，以及所述主观句，确定为所述文本内容对应的观点。

进一步的，所述的装置还包括：

语句切分模块，用于按照预设的语句切分规则对所述文本内容进行语句切分，获取所述文本内容中的各个语句；

进一步的，所述的装置还包括：训练模块；

所述获取模块，还用于获取训练数据；所述训练数据中包括：至少一个训练语句，以及所述训练语句对应的类型；所述类型包括：主观句和客观句；

所述训练模块，用于采用所述训练数据对初始的主观句识别模型进行训练，得到所述预设的主观句识别模型。

进一步的，所述抽取模块具体用于，

将词性为形容词或者副词的词语，确定为所述评论词；

将所述各个词语中与时间相关的词语，确定为评论时间。

进一步的，所述的装置还包括：

过滤模块，用于获取预设的过滤规则；所述过滤规则中包括：至少一个观点五元组模板；判断所述观点五元组与所述观点五元组模板是否匹配；若所述观点五元组与所述观点五元组模板不匹配，则过滤掉所述观点五元组；

和/或，

进一步的，所述确定模块具体用于，

本发明实施例的观点抽取装置，通过获取待处理的文本内容；将文本内容中的各个语句输入预设的主观句识别模型，获取各个语句中的主观句；主观句为对评论对象进行评论的语句；针对主观句，抽取主观句中的观点五元组；观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；根据观点五元组，确定针对评论对象和评论属性的各类型评论的占比；将针对评论对象和评论属性的各类型评论的占比，以及主观句，确定为文本内容对应的观点，从而能够先提取文本内容中的主观句，然后针对主观句进行五元组抽取和观点分析操作，减少了需要分析的五元组的数量，提高了五元组分析的准确度，能够满足实时性和准确率的要求。

为达上述目的，本发明第三方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的观点抽取方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的观点抽取方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上所述的观点抽取方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种观点抽取方法的流程示意图；

图2为本发明实施例提供的另一种观点抽取方法的流程示意图；

图3为本发明实施例提供的一种观点抽取装置的结构示意图；

图4为本发明实施例提供的另一种观点抽取装置的结构示意图；

图5为本发明实施例提供的另一种观点抽取装置的结构示意图；

图6为本发明实施例提供的另一种观点抽取装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的观点抽取方法及装置。

图1为本发明实施例提供的一种观点抽取方法的流程示意图。如图1所示，该观点抽取方法包括以下步骤：

S101、获取待处理的文本内容。

本发明提供的观点抽取方法的执行主体为观点抽取装置，观点抽取装置可以为终端设备、服务器等硬件设备，或者为硬件设备上安装的软件。另外，观点抽取装置还可以为API 接口函数，当其他设备需要抽取某个文本内容中的观点时，可以将文本内容作为参数调用上述API接口函数，API接口函数的返回值为文本内容中的观点。其中，待处理的文本内容可以为新闻文章、对新闻文章的评论等文本内容。

S102、将文本内容中的各个语句输入预设的主观句识别模型，获取各个语句中的主观句；主观句为对评论对象进行评论的语句。

本实施例中，主观句识别模型例如可以为，双向循环神经网络模型BILSTM+注意力模型attention，用于获取语句中的词语，根据词语判断语句的类型。其中，主观句识别模型的输入可以为语句，输出可以为语句的类型。其中，语句的类型包括：主观句和客观句。

本实施例中，预设的主观句识别模型的训练过程具体可以为，获取训练数据；训练数据中包括：至少一个训练语句，以及训练语句对应的类型；采用训练数据对初始的主观句识别模型进行训练，得到预设的主观句识别模型。

进一步的，在上述实施例的基础上，所述的方法还可以包括：对文本内容进行切分获取各个语句。本实施例中，观点抽取装置对文本内容进行切分获取各个语句的过程具体可以为，按照预设的语句切分规则对文本内容进行语句切分，获取文本内容中的各个语句；语句切分规则包括以下规则中的任意一种或者多种：按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。其中，语句结束符号例如，句号、问号、感叹号等。点符号之前和之后为数字的情况例如94.5％。

S103、针对主观句，抽取主观句中的观点五元组；观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间。

本实施例中，观点抽取装置抽取主观句中的观点五元组的过程具体可以为，对主观句进行分词，获取主观句中的各个词语以及词语的词性；将词性为名词、动名词或者名词性短语的词语，确定为评论对象和评论属性；将词性为形容词或者副词的词语，确定为评论词；将各个词语输入预设的人名识别模型，获取各个词语中的评论者；将各个词语中与时间相关的词语，确定为评论时间。

其中，评论者指的是做出评论词的人员；评论对象为评论者评论的对象；评论属性指的是评论对象当前被评论的属性。以评论对象为“鲜花”为例，其对应的评论属性可以为“颜色”、“味道”、“形状”等属性。

本实施例中，可以从一个主观句中抽取出多个观点五元组。例如，假设某个主观句中，可作为评论对象的词语有3个，可作为评论属性的词语有3个，可作为评论词的词语有2个，可作为评论者的词语有1个，可作为评论时间的词语有1个，则从主观句中抽取得到的观点五元组的数量为3×3×2×1×1＝18个，也就是说，从该主观句中抽取出18个观点五元组。

另外，需要说明的是，并不是每个主观句中都能抽取到观点五元组中的5个元素，有些元素可能抽取不到，例如，评论时间、评论者等，观点抽取装置可以将未抽取到的部分元素置为空。

S104、根据观点五元组，确定针对评论对象和评论属性的各类型评论的占比。

本实施例中，观点抽取装置可以根据包括相同评论对象和相同评论属性的观点五元组中的评论词，来计算确定针对评论对象和评论属性的各类型评论的占比。

进一步的，在上述实施例的基础上，为了减少需要统计分析的观点五元组的数量，可以将步骤103中获取到的观点五元组中不合适的观点五元组过滤掉，因此，步骤104之前，所述的方法还可以包括以下步骤：获取预设的过滤规则；过滤规则中包括：至少一个观点五元组模板；判断观点五元组与观点五元组模板是否匹配；若观点五元组与观点五元组模板不匹配，则过滤掉观点五元组；和/或，将观点五元组输入预设的随机森林模型，过滤掉输出结果不满足预设条件的观点五元组。

其中，观点抽取装置可以先根据预设的过滤规则与观点五元组进行匹配，获取匹配的观点五元组；若未获取到匹配的观点五元组，则将观点五元组输入预设的随机森林模型，过滤掉输出结果不满足预设条件的观点五元组。其中，随机森林模型为分类模型，可以根据随机森林模型的分类结果来确定是否满足预设条件；此时，预设条件可以为预设的分类结果。

本实施例中，对步骤103中获取到的观点五元组的过滤过程，可以减少需要分析的观点五元组的数量，大大降低了对抽取到的信息的分析时间，且容易分析得到准确的观点，从而提高了计算效率和计算准确度，能够满足实时性和准确率的要求。

S105、将针对评论对象和评论属性的各类型评论的占比，以及主观句，确定为文本内容对应的观点。

本实施例中，观点抽取装置获取到文本内容对应的观点后，可以将观点按照预设的格式进行统一，统一后进行存储，以便后续进行查询。

结合参考图2，在图1所示实施例的基础上，步骤104具体可以包括以下步骤：

S1041、将观点五元组中，评论对象相同且评论属性相同的观点五元组聚合在一起，得到评论对象和评论属性对应的观点五元组集合。

本实施例中，观点抽取装置具体可以将评论对象相同或相似，且评论属性相同或相似的观点五元组聚合在一起，得到各个评论对象和评论属性对应的观点五元组集合。具体地，观点抽取装置执行上述步骤的过程具体可以为，针对各个观点五元组，获取其中的评论对象对应的word2vec向量，以及获取其中的评论属性对应的word2vec向量。其中，针对含义相同或相似的两个词语，该两个词语对应的word2vec向量的相似度较高；针对含义不同且不相似的两个词语，该两个词语对应的word2vec向量的相似度较低。因此，针对任意两个观点五元组，可以在两个评论对象的word2vec向量的相似度大于第一相似度阈值，且两个评论属性的word2vec向量的相似度大于第二相似度阈值时，将该两个观点五元组聚合在一起，得到评论对象和评论属性对应的观点五元组集合。

S1042、针对观点五元组集合，获取集合中的各个观点五元组中的评论词，获取评论词的类型；类型包括：正面、负面和中立。

本实施例中，针对观点五元组集合中的各个观点五元组，可以将其中的评论词输入预设的评论词识别模型，获取评论词的类型。其中，评论词识别模型可以根据大量标注了类型的评论词进行训练。

S1043、对观点五元组集合中，各个类型的评论词进行统计，获取针对评论对象和评论属性的各类型评论的占比。

本实施例中，针对观点五元组集合，获取到其中评论词的类型后，可以计算评论词类型相同的观点五元组的数量，根据各类型的观点五元组的数量，确定各类型评论的占比。

本发明实施例的观点抽取方法，通过获取待处理的文本内容；将文本内容中的各个语句输入预设的主观句识别模型，获取各个语句中的主观句；主观句为对评论对象进行评论的语句；针对主观句，抽取主观句中的观点五元组；观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；将观点五元组中，评论对象相同且评论属性相同的观点五元组聚合在一起，得到评论对象和评论属性对应的观点五元组集合；针对观点五元组集合，获取集合中的各个观点五元组中的评论词，获取评论词的类型；类型包括：正面、负面和中立；对观点五元组集合中，各个类型的评论词进行统计，获取针对评论对象和评论属性的各类型评论的占比；将针对评论对象和评论属性的各类型评论的占比，以及主观句，确定为文本内容对应的观点，从而能够先提取文本内容中的主观句，然后针对主观句进行五元组抽取和观点分析操作，减少了需要分析的五元组的数量，提高了五元组分析的准确度，能够满足实时性和准确率的要求。

图3为本发明实施例提供的一种观点抽取装置的结构示意图。如图3所示，包括：获取模块31、输入模块32、抽取模块33和确定模块34。

其中，获取模块31，用于获取待处理的文本内容；

输入模块32，用于将所述文本内容中的各个语句输入预设的主观句识别模型，获取所述各个语句中的主观句；所述主观句为对评论对象进行评论的语句；

抽取模块33，用于针对所述主观句，抽取所述主观句中的观点五元组；所述观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；

确定模块34，用于根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比；

所述确定模块34，还用于将针对所述评论对象和所述评论属性的各类型评论的占比，以及所述主观句，确定为所述文本内容对应的观点。

本发明提供的观点抽取装置可以为终端设备、服务器等硬件设备，或者为硬件设备上安装的软件。另外，观点抽取装置还可以为API接口函数，当其他设备需要抽取某个文本内容中的观点时，可以将文本内容作为参数调用上述API接口函数，API接口函数的返回值为文本内容中的观点。其中，待处理的文本内容可以为新闻文章、对新闻文章的评论等文本内容。

进一步的，结合参考图4，在图3所示实施例的基础上，所述的装置还可以包括：训练模块35。对应的，所述获取模块31，还用于获取训练数据；所述训练数据中包括：至少一个训练语句，以及所述训练语句对应的类型；所述类型包括：主观句和客观句；所述训练模块35，用于采用所述训练数据对初始的主观句识别模型进行训练，得到所述预设的主观句识别模型。

进一步的，结合参考图5，在图3所示实施例的基础上，所述的装置还可以包括：语句切分模块36，用于对文本内容进行切分获取各个语句。本实施例中，观点抽取装置对文本内容进行切分获取各个语句的过程具体可以为，按照预设的语句切分规则对文本内容进行语句切分，获取文本内容中的各个语句；语句切分规则包括以下规则中的任意一种或者多种：按照语句结束符号进行切分、点符号之前和之后为数字时不进行切分。其中，语句结束符号例如，句号、问号、感叹号等。点符号之前和之后为数字的情况例如94.5％。

进一步的，在上述实施例的基础上，所述抽取模块33具体用于，对所述主观句进行分词，获取所述主观句中的各个词语以及所述词语的词性；将词性为名词、动名词或者名词性短语的词语，确定为所述评论对象和所述评论属性；将词性为形容词或者副词的词语，确定为所述评论词；将所述各个词语输入预设的人名识别模型，获取所述各个词语中的评论者；将所述各个词语中与时间相关的词语，确定为评论时间。

进一步的，在上述实施例的基础上，为了减少需要统计分析的观点五元组的数量，可以将获取到的观点五元组中不合适的观点五元组过滤掉，因此，结合参考图6，在图3所示实施例的基础上，所述的装置还可以包括：过滤模块37，用于获取预设的过滤规则；过滤规则中包括：至少一个观点五元组模板；判断观点五元组与观点五元组模板是否匹配；若观点五元组与观点五元组模板不匹配，则过滤掉观点五元组；和/或，将观点五元组输入预设的随机森林模型，过滤掉输出结果不满足预设条件的观点五元组。

本实施例中，对获取到的观点五元组的过滤过程，可以减少需要分析的观点五元组的数量，大大降低了对抽取到的信息的分析时间，且容易分析得到准确的观点，从而提高了计算效率和计算准确度，能够满足实时性和准确率的要求。

进一步的，在上述实施例的基础上，所述确定模块34具体用于，

本发明实施例的观点抽取装置，通过获取待处理的文本内容；将文本内容中的各个语句输入预设的主观句识别模型，获取各个语句中的主观句；主观句为对评论对象进行评论的语句；针对主观句，抽取主观句中的观点五元组；观点五元组包括：评论对象、评论属性、评论词、评论者以及评论时间；将观点五元组中，评论对象相同且评论属性相同的观点五元组聚合在一起，得到评论对象和评论属性对应的观点五元组集合；针对观点五元组集合，获取集合中的各个观点五元组中的评论词，获取评论词的类型；类型包括：正面、负面和中立；对观点五元组集合中，各个类型的评论词进行统计，获取针对评论对象和评论属性的各类型评论的占比；将针对评论对象和评论属性的各类型评论的占比，以及主观句，确定为文本内容对应的观点，从而能够先提取文本内容中的主观句，然后针对主观句进行五元组抽取和观点分析操作，减少了需要分析的五元组的数量，提高了五元组分析的准确度，能够满足实时性和准确率的要求。

图7为本发明实施例提供的一种电子设备的结构示意图。该电子设备包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行所述程序时实现上述实施例中提供的观点抽取方法。

进一步地，电子设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器1002，用于执行所述程序时实现上述实施例所述的观点抽取方法。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本发明还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的观点抽取方法。

本发明还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上所述的观点抽取方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种观点抽取方法，其特征在于，包括：

获取待处理的文本内容；

2.根据权利要求1所述的方法，其特征在于，所述将所述文本内容中的各个语句输入预设的主观句识别模型，获取所述各个语句中的主观句之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述文本内容中的各个语句输入预设的主观句识别模型，获取所述各个语句中的主观句之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述针对所述主观句，抽取所述主观句中的观点五元组，包括：

将词性为形容词或者副词的词语，确定为所述评论词；

将所述各个词语中与时间相关的词语，确定为评论时间。

5.根据权利要求1或4所述的方法，其特征在于，所述根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比之前，还包括：

和/或，

6.根据权利要求1所述的方法，其特征在于，所述根据所述观点五元组，确定针对所述评论对象和所述评论属性的各类型评论的占比，包括：

7.一种观点抽取装置，其特征在于，包括：

获取模块，用于获取待处理的文本内容；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7所述的装置，其特征在于，还包括：训练模块；

10.根据权利要求7所述的装置，其特征在于，所述抽取模块具体用于，

将词性为形容词或者副词的词语，确定为所述评论词；

将所述各个词语中与时间相关的词语，确定为评论时间。

11.根据权利要求7或10所述的装置，其特征在于，还包括：

和/或，

12.根据权利要求7所述的装置，其特征在于，所述确定模块具体用于，

13.一种电子设备，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一所述的观点抽取方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的观点抽取方法。

15.一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如权利要求1-6中任一所述的观点抽取方法。