CN110399484A - 长文本的情感分析方法、装置、计算机设备和存储介质 - Google Patents

长文本的情感分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110399484A
CN110399484A CN201910554396.7A CN201910554396A CN110399484A CN 110399484 A CN110399484 A CN 110399484A CN 201910554396 A CN201910554396 A CN 201910554396A CN 110399484 A CN110399484 A CN 110399484A
Authority
CN
China
Prior art keywords
sentence
notebook data
value
type
long article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910554396.7A
Other languages
English (en)
Inventor
吴冶成
张建
叶曙峰
陈泽晖
黄鸿顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910554396.7A priority Critical patent/CN110399484A/zh
Publication of CN110399484A publication Critical patent/CN110399484A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种长文本的情感分析方法、装置、计算机设备和存储介质。所述方法包括:获取待分析的长文本数据,对长文本数据进行分句,得到多个语句;获取各语句中各个词汇的词向量,并输入至预先构建的分类模型中,得到各语句的语句类型,语句类型包括观点型以及非观点型;从多个语句中筛选出观点型语句,将观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到观点型语句的用于表征情感导向的导向值;根据各观点型语句的导向值计算长文本数据的目标导向值,根据长文本数据的目标导向值确定长文本数据的情感导向类型。本方法基于机器学习技术,通过排除长文本数据中非观点语句的干扰,减少干扰因素,提高长文本情感导向分析的准确性。

Description

长文本的情感分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种长文本的情感分析方法、装置、计算机设备和存储介质。
背景技术
通过情感分析对文本材料进行挖掘和分析,获取文本材料中对不同问题的观点的情感导向,能够实现对文本材料中的信息的有效利用;目前,对于文本的情感分析主要分为两类,一是基于构建情感词典,通过情感词典统计文本中的各个词语的极性词对文本的情感进行分析;另一种是基于机器学习,通过词语向量化后利用机器学习方法训练分类学,利用分类器对文本的情感进行分类;但是,传统的情感分析方法通常都是对日常语句等短文本进行情感分析,在应用于篇章级别长文本时,其情感分析准确性大大降低。
发明内容
基于此,有必要针对上述技术问题,提供一种长文本的情感分析方法、装置、计算机设备和存储介质。
一种长文本的情感分析方法,所述方法包括:
获取待分析的长文本数据,对所述长文本数据进行分句,得到多个语句;
获取各所述语句中各个词汇的词向量;
分别将各所述语句中的词向量输入至预先构建的分类模型中,得到各所述语句的语句类型,所述语句类型包括观点型以及非观点型;
从多个所述语句中筛选出观点型语句,将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到所述观点型语句的用于表征情感导向的导向值;
根据各所述观点型语句的导向值计算所述长文本数据的目标导向值,根据所述长文本数据的目标导向值确定所述长文本数据的情感导向类型。
在其中一个实施例中,所述对所述长文本数据进行分句,得到多个语句的步骤之后,还包括:
获取各所述语句在所述长文本数据中的位置信息,并根据各所述语句的位置信息确定各所述语句的权重值;
所述根据各所述观点型语句的导向值计算所述长文本数据的目标导向值的步骤,包括:
确定各所述观点型语句的权重值;
根据各所述观点型语句的权重值以及导向值计算所述长文本数据的目标导向值。
在其中一个实施例中,所述获取各所述语句在所述长文本数据中的位置信息,并根据各所述语句的位置信息确定各所述语句的权重值的步骤,包括:
根据所述长文本数据的段落结构对所述长文本数据进行段落分析,将所述长文本数据划分为多个段落;
根据各所述段落在所述长文本数据的位置,标记各所述段落的正文位置信息;
根据各所述语句在所属段落中的位置,标记各个语句的段落位置信息;
根据各所述语句的段落位置信息以及所属段落的正文位置信息,设置各所述语句的权重值。
在其中一个实施例中,所述根据各所述语句的位置信息确定各所述语句的权重值的步骤之后,还包括:
将所述语句中的词汇与预设观点词进行匹配;
若匹配成功,调整所述语句的权重值,将调整后的权重值确定为所述语句的权重值。
在其中一个实施例中,所述分别将各所述语句中的词向量输入至预先构建的分类模型中的步骤之前,还包括:
获取第一语句训练集,所述第一语句训练集中包括第一训练语句以及所述第一训练语句对应的语句类型标签;
获取所述第一训练语句的词向量,将所述第一训练语句的词向量以及语句类型标签输入至第一CNN-LSTM模型进行有监督训练,得到分类模型。
在其中一个实施例中,所述将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中的步骤之前,还包括:
获取第二语句训练集,所述第二语句训练集中包括第二训练语句以及所述第二训练语句对应的导向值标签;
获取所述第二训练语句的词向量,将所述第二训练语句的词向量以及导向值标签输入至第二CNN-LSTM模型进行有监督训练,得到情感导向预测模型。
一种长文本的情感分析装置,所述装置包括:
文本语句划分模块,用于获取待分析的长文本数据,对所述长文本数据进行分句,得到多个语句;
词向量获取模块,用于获取各所述语句中各个词汇的词向量;
语句分类模块,用于分别将各所述语句中的词向量输入至预先构建的分类模型中,得到各所述语句的语句类型,所述语句类型包括观点型以及非观点型;
语句导向值获取模块,用于从多个所述语句中筛选出观点型语句,将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到所述观点型语句的用于表征情感导向的导向值;
目标导向值获取模块,用于根据各所述观点型语句的导向值计算所述长文本数据的目标导向值,根据所述长文本数据的目标导向值确定所述长文本数据的情感导向类型。
在其中一个实施例中,所述装置还包括语句权重值设置模块,用于获取各所述语句在所述长文本数据中的位置信息,并根据各所述语句的位置信息确定各所述语句的权重值;目标导向值获取模块,用于确定各所述观点型语句的权重值;根据各所述观点型语句的权重值以及导向值计算所述长文本数据的目标导向值。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分析的长文本数据,对所述长文本数据进行分句,得到多个语句;
获取各所述语句中各个词汇的词向量;
分别将各所述语句中的词向量输入至预先构建的分类模型中,得到各所述语句的语句类型,所述语句类型包括观点型以及非观点型;
从多个所述语句中筛选出观点型语句,将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到所述观点型语句的用于表征情感导向的导向值;
根据各所述观点型语句的导向值计算所述长文本数据的目标导向值,根据所述长文本数据的目标导向值确定所述长文本数据的情感导向类型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分析的长文本数据,对所述长文本数据进行分句,得到多个语句;
获取各所述语句中各个词汇的词向量;
分别将各所述语句中的词向量输入至预先构建的分类模型中,得到各所述语句的语句类型,所述语句类型包括观点型以及非观点型;
从多个所述语句中筛选出观点型语句,将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到所述观点型语句的用于表征情感导向的导向值;
根据各所述观点型语句的导向值计算所述长文本数据的目标导向值,根据所述长文本数据的目标导向值确定所述长文本数据的情感导向类型。
上述长文本的情感分析方法、装置、计算机设备和存储介质,通过将长文本的文本数据分解为独立的语句,通过将语句中各个词汇的词向量输入至分类模型中识别语句是否为观点型语句,进而利用情感导向预测模型获取观点型语句的用于表征情感导向的导向值,并根据长文本数据中的观点型语句的导向值计算长文本数据的导向值,确定长文本数据的情感导向类型,通过排除长文本数据中非观点语句的干扰,减少干扰因素,提高长文本数据的情感导向分析的准确性。
附图说明
图1为一个实施例中长文本的情感分析方法的应用场景图;
图2为一个实施例中长文本的情感分析方法的流程示意图;
图3为一个实施例中获取各语句在长文本数据中的位置信息步骤的流程示意图;
图4为另一个实施例中长文本的情感分析方法的流程示意图;
图5为一个实施例中长文本的情感分析装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的长文本的情感分析方法,可以应用于如图1所示的应用环境中。图1提供了一种计算机设备,该计算机设备可以是服务器,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据、模型的参数以及长文本数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种长文本的情感分析方法,通过将长文本的文本内容分解为独立的语句,通过将语句输入至分类模型识别语句是否为观点型语句,进而利用情感导向预测模型获取观点型语句的导向值,从而利用观点型语句的导向值计算长文本数据的导向值,通过排除长文本数据中非观点语句的干扰,减少干扰因素,有效提高长文本情感导向分析的准确性。
在一个实施例中,如图2所示,提供了一种长文本的情感分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S210,获取待分析的长文本数据,对长文本数据进行分句,得到多个语句。
长文本数据可以是具有完整内容观点的新闻报道、券商的研究报告等。服务器可以通过网络爬虫技术从互联网上获取待分析的长文本数据,也可以接收由用户终端发送的长文本数据。服务器获得长文本数据后,可以对长文本数据进行符号识别,当识别到句号或者分号时,将后续的文本数据确定为新的语句,实现将长文本数据划分为多个语句,得到长文本数据中的所有语句。
步骤S220:获取各语句中各个词汇的词向量。
具体的,服务器可以分别对各个语句进行结巴分词处理以及去停用词处理等预处理,以获得语句中所有的词汇,然后利用word2vce模型获取语句中各个词汇对应的词向量。
步骤S230:分别将各语句中的词向量输入至预先构建的分类模型中,得到各语句的语句类型,语句类型包括观点型以及非观点型。
对于预先构建的分类模型,已经将语句中所有词汇对应的词向量设置分类模型的输入项,将语句的语句类型设置为分类模型的输出项;服务器将长文本数据中的语句对应的词向量输入至分类模型中,预先构建的分类模型对应输出语句的语句类型。
其中,观点型语句是指在新闻报道或者券商研究报告中表达作者观点的语句,该语句具有观点,例如,“A指数持续下降,不建议长期持有A债券”;非观点型语句是指在新闻报道或者券商研究报告中的陈述事实的语句,该语句不具有观点,例如“X年X月X日,在某某地区发生某某事件”,服务器通过将语音中所有词汇的词向量输入至分类模型中,分类模型根据词向量计算语句为观点型语句的概率以及为非观点型语句的概率,进而将概率较大的类型确定为语句类型。
通过识别长文本中每一个语句是否为观点性语句,后续通过对观点性语句进行分析获取长文本的情感导向,排除长文本中非观点型语句的干扰,有效提高长文本情感分析的准确性。
步骤S240:从多个语句中筛选出观点型语句,将观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到观点型语句的用于表征情感导向的导向值。
本步骤中,导向值是用于表征语句所表达观点的情感导向为积极的概率值,具体的,导向值大于或等于预设阈值的语句所表达观点的情感类型为积极类型,导向值小于预设阈值的语句所表达观点的情感类型为消极类型;对于情感导向预测模型,已经将语句中所有词汇对应的词向量设置情感导向预测模型的输入项,将语句的情感导向设置为情感导向预测模型的输出项;服务器在确定长文本数据中所有语句的语句类型后,从所有语句中筛选出语句类型为观点型的语句,并将语句类型为观点型的语句的词向量输入至情感导向预测模型中,情感导向预测模型对应输出该语句的导向值,以获得语句的情感导向类型。
步骤S250:根据各观点型语句的导向值计算长文本数据的目标导向值,根据长文本数据的目标导向值确定长文本数据的情感导向类型。
本步骤中,服务器在获得观点型语句的导向值后,根据观点型语句的情感获取长文本数据的目标导向值,从而根据目标导向值确定长文本数据的情感类型,具体的,服务器可以计算长文本数据中所有观点型语句的导向值的平均值,将平均值确定为长文本数据的目标导向值,当长文本数据的目标导向值大于或等于预设阈值时,该长文本数据所表达观点的情感类型为积极类型,即正面观点,当长文本数据的目标导向值小于该预设阈值时,该长文本数据所表达观点的情感类型为消极类型,即负面观点。
上述长文本的情感分析方法中,通过将长文本的文本数据分解为独立的语句,通过将语句中各个词汇的词向量输入至分类模型中识别语句是否为观点型语句,进而利用情感导向预测模型获取观点型语句的用于表征情感导向的导向值,并根据长文本数据中的观点型语句的导向值计算长文本数据的导向值,确定长文本数据的情感导向类型,通过排除长文本数据中非观点语句的干扰,减少干扰因素,提高长文本数据的情感导向分析的准确性。
在一个实施例中,以长文本数据为券商研究报告为例,对上述技术方案进行进一步的说明;商券研究报告的篇章较长,其中往往包含大量的市场现状、资本现状等描述性的非观点型语句,而表达作者观点的观点型语句往往所占篇幅较少;服务器获取待分析的商券研究报告的长文本数据,对长文本数据进行分句获得多个语句,将每个语句中的词向量输入至分类模型中,获取语句的语句类型,进而剔除商券研究报告中对现状描述性的非观点型语句,将观点型语句的词向量输入至目标导向值预测模型中,预测观点型语句的导向值,最终利用商券研究报告中所有的观点型语句的导向值计算商券研究报告的目标导向值,获得商券研究报告对于某一商券的情感导向,使得商券研究报告的情感导向分析的准确性提高。
在一个实施例中,对长文本数据进行分句,得到多个语句的步骤之后,还包括:获取各语句在长文本数据中的位置信息,并根据各语句的位置信息确定各语句的权重值;根据各观点型语句的导向值计算长文本数据的目标导向值的步骤,包括:确定各观点型语句的权重值;根据各观点型语句的权重值以及导向值计算长文本数据的目标导向值。
长文本不同的位置的句子所表达的观点对长文本的情感分析的影响是不同的,例如按照文本的书写习惯,表达长文本总结性观点的大概率出现在文本的首尾部分,所以在长文本首尾位置的句子的导向值对表征语句所表达的目标导向值影响。本实施例中,通过对各个语句在长文本数据中所处的不同位置,设置不同的权重值,具体的,在获得观点型语句的目标导向值后,可以将各个观点型语句的目标导向值进行加权求和,获得整篇长文本的目标导向值,实现将观点型语句在长文本数据中的位置信息作为一个考虑因素,加入至长文本的情感分析中,有效提高长文本情感分析的准确性。
进一步的,在一个实施例中,如图3所示,提供了一种获取各语句在长文本数据中的位置信息步骤的流程示意图,获取各语句在长文本数据中的位置信息的步骤,包括:
步骤310:根据长文本数据的段落结构对长文本数据进行段落分析,将长文本数据划分为多个段落。
本步骤中,服务器根据长文本数据的段落结构将长文本数据划分为多个段落,例如,服务器从长文本数据的第一个字符开始对长文本数据进行符号识别,当识别到段落换行的标志符号时,例如“\n”或者TAB符号时,将后续的文本内容作为新的段落处理,从而将长文本数据划分为多个段落。
步骤320:根据各段落在长文本数据的位置,标记各段落的正文位置信息。
本步骤中,服务器根据段落的划分结果,确定各个段落在长文本数据的位置,标记各个段落的正文位置信息;具体的,在获得长文本数据的所有段落后,按照段落所处的位置,例如文本起始位置(文首)、文本非起始非结束位置(文中)以及文本结束位置(文末)三种情况,分别将各个段落标记为文首段落、文中段落以及文末段落。
步骤330:根据各语句在所属段落中的位置,标记各个语句的段落位置信息。
本步骤中,服务器根据各个语句在对应段落中的位置,标记各个段落的正文位置信息,具体的,服务器可以分别对每个段落进行符号识别,当识别到句号或者分号时,将段落后续的文本作为新的句子处理,从而将一个段落划分为多个句子;在获得一个段落中的所有语句后,按照语句所处的位置,例如段落起始位置(段首)、段落非起始非结束位置(段中)以及段落结束位置(段末)三种情况,分别将各个语句标记为段首语句、段中语句以及段末语句。
步骤340:根据各语句的段落位置信息以及所属段落的正文位置信息,设置各语句的权重值。
在获得每个语句段落位置信息以及所属段落的正文位置信息后,服务器根据段落位置信息以及正文位置信息确定各个语句在在长文本数据中的位置信息,从而根据长文本数据中的位置信息设置对应的权重值。具体的,服务器可以根据语句所属段落的正文位置信息设置第一权重值,根据语句的段落位置信息设置第二权重值,最终,将第一权重值以及第二权重值的乘积作为该语句的权重值。通过对大量文章的分析可以得知,文本的首段和末端以及各个段落的首句和末句大概率,表达文本或该段落的总结观点,所以在文本首尾位置、段落首尾位置的句子的重要性较高,因此,服务器在根据语句所属段落的正文位置信息设置第一权重值时,对文首段落以及文末段落设置较高的第一权重值,对文中段落设置较低的第一权重值;在根据语句的段落位置信息设置第二权重值时,对段首语句以及段末语句设置较高的第二权重值,对段中语句设置较低的第二权重值。
本实施例中,通过综合考虑单个语句所属段落的位置信息以及该语句在段落中的位置信息,对各个语句设置了不同的权重值,在获得观点型语句的目标导向值后,将各个观点型语句的目标导向值进行加权求和,获得整篇长文本的目标导向值,实现将观点型语句在长文本数据中的位置信息作为一个考虑因素,加入至长文本的情感分析中,有效提高长文本情感分析的准确性。
在一个实施例中,根据各语句的位置信息确定各语句的权重值的步骤之后,还包括:将语句中的词汇与预设观点词进行匹配;若匹配成功,调整语句的权重值,将调整后的权重值确定为语句的权重值。
在经过对大量的文本数据统计后,文本数据中包含“推荐”、“持有”、“建议”、“总而言之”以及“综上”等词汇的句子表达着整篇文本数据的核心内容或者观点,这些句子的情感导向往往代表整篇文本的情感导向;因此,服务器可以预先将这些词汇作为预设观点词,保存至数据库中;在获得待分析的长文本数据后,获取长文本数据中各个语句中的词汇,利用语句中的词汇与数据库中的预设观点词进行匹配,当语句中的词汇与预设观点词一致,即匹配成功,该语句可以认为是表达着长文本数据的核心内容或者观点的语句,服务器增大该语句的权重值。通过将包含预设观点词的句子的权重值增大,以提高对长文本情感导向预测的准确性。
在一个实施例中,分别将各语句中的词向量输入至预先构建的分类模型中的步骤之前,还包括:获取第一语句训练集,第一语句训练集中包括第一训练语句以及第一训练语句对应的语句类型标签;获取第一训练语句的词向量,将第一训练语句的词向量以及语句类型标签输入至第一CNN-LSTM模型进行有监督训练,得到分类模型。
本实施例为分类模型的训练过程,具体的,服务器将第一训练语句中的词向量输入至CNN-LSTM模型进行训练,获取CNN-LSTM模型的输出结果,得到第一训练语句的预测类型;通过计算预测类型与语句类型标签之间的损失函数,根据损失函数利用反向传播和梯度下降法对CNN-LSTM模型的参数进行调整,直至损失函数最小。通过将CNN模型与LSTM模型结合,可以有效地捕捉文本局部的情感信息的同时,通过序列的方式整合文本克服文本的长距离依赖关系,很好的将句子中每个单词的特征信息和单词之间的信息结合,提高对句子分类的准确性,进而提高对长文本情感导向分析预测的准确性。
在一个实施例中,将观点型语句中的词向量输入至预先构建的情感导向预测模型中的步骤之前,还包括:获取第二语句训练集,第二语句训练集中包括第二训练语句以及第二训练语句对应的导向值标签;获取第二训练语句的词向量,将第二训练语句的词向量以及导向值标签输入至第二CNN-LSTM模型进行有监督训练,得到情感导向预测模型。
本实施例为情感导向预测模型的训练过程,具体的,将第二训练语句中的词向量输入至CNN-LSTM模型进行训练,获取CNN-LSTM模型的输出结果,得到第二训练语句的预测导向值;计算预测导向值与导向值标签之间的损失函数,根据损失函数利用反向传播和梯度下降法对CNN-LSTM模型的参数进行调整,直至损失函数最小。通过将CNN模型与LSTM模型结合,可以很好的将句子中每个单词的特征信息和单词之间的信息结合,提高对句子的情感导向值预测的准确性,进而提高对长文本情感导向分析预测的准确性。
进一步的,在对一些特定领域的长文本进行情感分析时,例如具有专业性强、观点隐晦、方向较偏等特点的商券的研究报告,第一训练语句以及第二训练语句可以选择该领域长文本中的语句,利用人工添加标签的方法以获得第一语句训练集以及第二语句训练集。利用特定领域的长文本的语句对第一CNN-LSTM模型以及第二CNN-LSTM模型进行训练,有效提高情感分析的准确性。
在一个实施例中,如图4所示,提供了一种长文本的情感分析方法,包括以下步骤:
步骤S401:获取待分析的长文本数据,对长文本数据进行分句,得到多个语句;
步骤S402:根据长文本数据的段落结构对长文本数据进行段落分析,将长文本数据划分为多个段落;
步骤S403:根据各段落在长文本数据的位置,标记各段落的正文位置信息;
步骤S404:根据各语句在所属段落中的位置,标记各个语句的段落位置信息;
步骤S405:根据各语句的段落位置信息以及所属段落的正文位置信息,为各语句设置权重值;
步骤S406:将语句中的词汇与预设观点词进行匹配,若匹配成功,调整语句的权重值,将调整后的权重值确定为语句的权重值;
步骤S407:获取各语句中各个词汇的词向量;
步骤S408:分别将各语句中的词向量输入至预先构建的分类模型中,得到各语句的语句类型,语句类型包括观点型以及非观点型;
步骤S409:从多个语句中筛选出观点型语句,将观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到观点型语句的用于表征情感导向的导向值;
步骤S410:确定各观点型语句的权重值,根据各观点型语句的权重值以及导向值计算长文本数据的目标导向值;
步骤S411:根据长文本数据的目标导向值确定长文本数据的情感导向类型。
上述长文本的情感分析方法中,通过综合考虑单个语句所属段落的位置信息以及该语句在段落中的位置信息,对各个语句设置了不同的权重值,在将长文本的文本内容分解为独立的语句后,将语句输入至分类模型识别语句是否为观点型语句,进而利用情感导向预测模型获取观点型语句的导向值,最终将各个观点型语句的导向值进行加权求和,获得整篇长文本的目标导向值,通过排除长文本数据中非观点语句的干扰,减少干扰因素,并将观点型语句在长文本数据中的位置信息作为一个考虑因素,加入至长文本的情感分析中,有效提高长文本情感分析的准确性。
应该理解的是,虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种长文本的情感分析装置,包括:文本语句划分模块510、词向量获取模块520、语句分类模块530、语句导向值获取模块540和目标导向值获取模块550,其中:
文本语句划分模块510,用于获取待分析的长文本数据,对长文本数据进行分句,得到多个语句;
词向量获取模块520,用于获取各语句中各个词汇的词向量;
语句分类模块530,用于分别将各语句中的词向量输入至预先构建的分类模型中,得到各语句的语句类型,语句类型包括观点型以及非观点型;
语句导向值获取模块540,用于从多个语句中筛选出观点型语句,将观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到观点型语句的用于表征情感导向的导向值;
目标导向值获取模块550,用于根据各观点型语句的导向值计算长文本数据的目标导向值,根据长文本数据的目标导向值确定长文本数据的情感导向类型。
在一个实施例中,长文本的情感分析装置还包括语句权重值设置模块,用于获取各语句在长文本数据中的位置信息,并根据各语句的位置信息确定各语句的权重值;目标导向值获取模块,用于确定各观点型语句的权重值;根据各观点型语句的权重值以及导向值计算长文本数据的目标导向值。
在一个实施例中,语句权重值设置模块,用于根据长文本数据的段落结构对长文本数据进行段落分析,将长文本数据划分为多个段落;根据各段落在长文本数据的位置,标记各段落的正文位置信息;根据各语句在所属段落中的位置,标记各个语句的段落位置信息;根据各语句的段落位置信息以及所属段落的正文位置信息,设置各语句的权重值。
在一个实施例中,语句权重值设置模块还用于将语句中的词汇与预设观点词进行匹配;在匹配成功时,调整语句的权重值,将调整后的权重值确定为语句的权重值。
在一个实施例中,长文本的情感分析装置还包括分类模型训练模块,用于获取第一语句训练集,第一语句训练集中包括第一训练语句以及第一训练语句对应的语句类型标签;获取第一训练语句的词向量,将第一训练语句的词向量以及语句类型标签输入至第一CNN-LSTM模型进行有监督训练,得到分类模型。
在一个实施例中,长文本的情感分析装置还包括情感导向预测模型训练模块,用于获取第二语句训练集,第二语句训练集中包括第二训练语句以及第二训练语句对应的导向值标签;获取第二训练语句的词向量,将第二训练语句的词向量以及导向值标签输入至第二CNN-LSTM模型进行有监督训练,得到情感导向预测模型。
关于长文本的情感分析装置的具体限定可以参见上文中对于长文本的情感分析方法的限定,在此不再赘述。上述长文本的情感分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储长文本数据、预先构建的分类模型的参数数据以及预先构建的目标导向值预测模型的参数数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种长文本的情感分析方法。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待分析的长文本数据,对长文本数据进行分句,得到多个语句;
获取各语句中各个词汇的词向量;
分别将各语句中的词向量输入至预先构建的分类模型中,得到各语句的语句类型,语句类型包括观点型以及非观点型;
从多个语句中筛选出观点型语句,将观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到观点型语句的用于表征情感导向的导向值;
根据各观点型语句的导向值计算长文本数据的目标导向值,根据长文本数据的目标导向值确定长文本数据的情感导向类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各语句在长文本数据中的位置信息,并根据各语句的位置信息确定各语句的权重值;处理器执行计算机程序实现根据各观点型语句的导向值计算长文本数据的目标导向值的步骤,具体实现以下步骤:确定各观点型语句的权重值;根据各观点型语句的权重值以及导向值计算长文本数据的目标导向值。
在一个实施例中,处理器执行计算机程序实现获取各语句在长文本数据中的位置信息,并根据各语句的位置信息确定各语句的权重值的步骤时,具体实现以下步骤:根据长文本数据的段落结构对长文本数据进行段落分析,将长文本数据划分为多个段落;根据各段落在长文本数据的位置,标记各段落的正文位置信息;根据各语句在所属段落中的位置,标记各个语句的段落位置信息;根据各语句的段落位置信息以及所属段落的正文位置信息,设置各语句的权重值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将语句中的词汇与预设观点词进行匹配;若匹配成功,调整语句的权重值,将调整后的权重值确定为语句的权重值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第一语句训练集,第一语句训练集中包括第一训练语句以及第一训练语句对应的语句类型标签;获取第一训练语句的词向量,将第一训练语句的词向量以及语句类型标签输入至第一CNN-LSTM模型进行有监督训练,得到分类模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第二语句训练集,第二语句训练集中包括第二训练语句以及第二训练语句对应的导向值标签;获取第二训练语句的词向量,将第二训练语句的词向量以及导向值标签输入至第二CNN-LSTM模型进行有监督训练,得到情感导向预测模型
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待分析的长文本数据,对长文本数据进行分句,得到多个语句;
获取各语句中各个词汇的词向量;
分别将各语句中的词向量输入至预先构建的分类模型中,得到各语句的语句类型,语句类型包括观点型以及非观点型;
从多个语句中筛选出观点型语句,将观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到观点型语句的用于表征情感导向的导向值;
根据各观点型语句的导向值计算长文本数据的目标导向值,根据长文本数据的目标导向值确定长文本数据的情感导向类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各语句在长文本数据中的位置信息,并根据各语句的位置信息确定各语句的权重值;计算机程序被处理器执行实现根据各观点型语句的导向值计算长文本数据的目标导向值的步骤,具体实现以下步骤:确定各观点型语句的权重值;根据各观点型语句的权重值以及导向值计算长文本数据的目标导向值。
在一个实施例中,计算机程序被处理器执行实现获取各语句在长文本数据中的位置信息,并根据各语句的位置信息确定各语句的权重值的步骤时,具体实现以下步骤:根据长文本数据的段落结构对长文本数据进行段落分析,将长文本数据划分为多个段落;根据各段落在长文本数据的位置,标记各段落的正文位置信息;根据各语句在所属段落中的位置,标记各个语句的段落位置信息;根据各语句的段落位置信息以及所属段落的正文位置信息,设置各语句的权重值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将语句中的词汇与预设观点词进行匹配;若匹配成功,调整语句的权重值,将调整后的权重值确定为语句的权重值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第一语句训练集,第一语句训练集中包括第一训练语句以及第一训练语句对应的语句类型标签;获取第一训练语句的词向量,将第一训练语句的词向量以及语句类型标签输入至第一CNN-LSTM模型进行有监督训练,得到分类模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第二语句训练集,第二语句训练集中包括第二训练语句以及第二训练语句对应的导向值标签;获取第二训练语句的词向量,将第二训练语句的词向量以及导向值标签输入至第二CNN-LSTM模型进行有监督训练,得到情感导向预测模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种长文本的情感分析方法,所述方法包括:
获取待分析的长文本数据,对所述长文本数据进行分句,得到多个语句;
获取各所述语句中各个词汇的词向量;
分别将各所述语句中的词向量输入至预先构建的分类模型中,得到各所述语句的语句类型,所述语句类型包括观点型以及非观点型;
从多个所述语句中筛选出观点型语句,将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到所述观点型语句的用于表征情感导向的导向值;
根据各所述观点型语句的导向值计算所述长文本数据的目标导向值,根据所述长文本数据的目标导向值确定所述长文本数据的情感导向类型。
2.根据权利要求1所述的方法,其特征在于,所述对所述长文本数据进行分句,得到多个语句的步骤之后,还包括:
获取各所述语句在所述长文本数据中的位置信息,并根据各所述语句的位置信息确定各所述语句的权重值;
所述根据各所述观点型语句的导向值计算所述长文本数据的目标导向值的步骤,包括:
确定各所述观点型语句的权重值;
根据各所述观点型语句的权重值以及导向值计算所述长文本数据的目标导向值。
3.根据权利要求2所述的方法,其特征在于,所述获取各所述语句在所述长文本数据中的位置信息,并根据各所述语句的位置信息确定各所述语句的权重值的步骤,包括:
根据所述长文本数据的段落结构对所述长文本数据进行段落分析,将所述长文本数据划分为多个段落;
根据各所述段落在所述长文本数据的位置,标记各所述段落的正文位置信息;
根据各所述语句在所属段落中的位置,标记各个语句的段落位置信息;
根据各所述语句的段落位置信息以及所属段落的正文位置信息,设置各所述语句的权重值。
4.根据权利要求2所述的方法,其特征在于,所述根据各所述语句的位置信息确定各所述语句的权重值的步骤之后,还包括:
将所述语句中的词汇与预设观点词进行匹配;
若匹配成功,调整所述语句的权重值,将调整后的权重值确定为所述语句的权重值。
5.根据权利要求1所述的方法,其特征在于,所述分别将各所述语句中的词向量输入至预先构建的分类模型中的步骤之前,还包括:
获取第一语句训练集,所述第一语句训练集中包括第一训练语句以及所述第一训练语句对应的语句类型标签;
获取所述第一训练语句的词向量,将所述第一训练语句的词向量以及语句类型标签输入至第一CNN-LSTM模型进行有监督训练,得到分类模型。
6.根据权利要求1所述的方法,其特征在于,所述将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中的步骤之前,还包括:
获取第二语句训练集,所述第二语句训练集中包括第二训练语句以及所述第二训练语句对应的导向值标签;
获取所述第二训练语句的词向量,将所述第二训练语句的词向量以及导向值标签输入至第二CNN-LSTM模型进行有监督训练,得到情感导向预测模型。
7.一种长文本的情感分析装置,其特征在于,所述装置包括:
文本语句划分模块,用于获取待分析的长文本数据,对所述长文本数据进行分句,得到多个语句;
词向量获取模块,用于获取各所述语句中各个词汇的词向量;
语句分类模块,用于分别将各所述语句中的词向量输入至预先构建的分类模型中,得到各所述语句的语句类型,所述语句类型包括观点型以及非观点型;
语句导向值获取模块,用于从多个所述语句中筛选出观点型语句,将所述观点型语句中的词向量输入至预先构建的情感导向预测模型中,得到所述观点型语句的用于表征情感导向的导向值;
目标导向值获取模块,用于根据各所述观点型语句的导向值计算所述长文本数据的目标导向值,根据所述长文本数据的目标导向值确定所述长文本数据的情感导向类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括语句权重值设置模块,用于获取各所述语句在所述长文本数据中的位置信息,并根据各所述语句的位置信息确定各所述语句的权重值;目标导向值获取模块,用于确定各所述观点型语句的权重值;根据各所述观点型语句的权重值以及导向值计算所述长文本数据的目标导向值。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910554396.7A 2019-06-25 2019-06-25 长文本的情感分析方法、装置、计算机设备和存储介质 Pending CN110399484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910554396.7A CN110399484A (zh) 2019-06-25 2019-06-25 长文本的情感分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910554396.7A CN110399484A (zh) 2019-06-25 2019-06-25 长文本的情感分析方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110399484A true CN110399484A (zh) 2019-11-01

Family

ID=68323504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910554396.7A Pending CN110399484A (zh) 2019-06-25 2019-06-25 长文本的情感分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110399484A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN111985223A (zh) * 2020-08-25 2020-11-24 武汉长江通信产业集团股份有限公司 一种基于长短记忆网络和情感词典结合的情感计算方法
CN112148878A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 情感数据处理方法及装置
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112800747A (zh) * 2021-02-02 2021-05-14 虎博网络技术(北京)有限公司 文本处理方法、装置及计算机设备
CN112836049A (zh) * 2021-01-28 2021-05-25 网易(杭州)网络有限公司 一种文本分类方法、装置、介质和计算设备
CN112860843A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 一种新闻长文本情感分析方法及装置
CN113076720A (zh) * 2021-04-29 2021-07-06 新声科技(深圳)有限公司 长文本的分段方法及装置、存储介质、电子装置
CN113220885A (zh) * 2021-05-21 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本处理方法和系统
CN113689886A (zh) * 2021-07-13 2021-11-23 北京工业大学 语音数据情感检测方法、装置、电子设备和存储介质
CN114757489A (zh) * 2022-03-18 2022-07-15 国网电子商务有限公司 一种商业指标的生成方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN106294312A (zh) * 2015-06-29 2017-01-04 北京大学 信息处理方法和信息处理系统
CN108038240A (zh) * 2017-12-26 2018-05-15 武汉大学 基于内容、用户多因素分析的社交网络谣言检测方法
CN109858026A (zh) * 2019-01-17 2019-06-07 深圳壹账通智能科技有限公司 文本情感分析方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN106294312A (zh) * 2015-06-29 2017-01-04 北京大学 信息处理方法和信息处理系统
CN108038240A (zh) * 2017-12-26 2018-05-15 武汉大学 基于内容、用户多因素分析的社交网络谣言检测方法
CN109858026A (zh) * 2019-01-17 2019-06-07 深圳壹账通智能科技有限公司 文本情感分析方法、装置、计算机设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985223A (zh) * 2020-08-25 2020-11-24 武汉长江通信产业集团股份有限公司 一种基于长短记忆网络和情感词典结合的情感计算方法
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN112148878A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 情感数据处理方法及装置
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112836049A (zh) * 2021-01-28 2021-05-25 网易(杭州)网络有限公司 一种文本分类方法、装置、介质和计算设备
CN112800747A (zh) * 2021-02-02 2021-05-14 虎博网络技术(北京)有限公司 文本处理方法、装置及计算机设备
CN112860843A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 一种新闻长文本情感分析方法及装置
CN113076720A (zh) * 2021-04-29 2021-07-06 新声科技(深圳)有限公司 长文本的分段方法及装置、存储介质、电子装置
CN113076720B (zh) * 2021-04-29 2022-01-28 新声科技(深圳)有限公司 长文本的分段方法及装置、存储介质、电子装置
CN113220885A (zh) * 2021-05-21 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本处理方法和系统
CN113689886A (zh) * 2021-07-13 2021-11-23 北京工业大学 语音数据情感检测方法、装置、电子设备和存储介质
CN114757489A (zh) * 2022-03-18 2022-07-15 国网电子商务有限公司 一种商业指标的生成方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN110399484A (zh) 长文本的情感分析方法、装置、计算机设备和存储介质
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
CN109446514B (zh) 新闻实体识别模型的构建方法、装置和计算机设备
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN109767261A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN110021439A (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN109711874A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN109815333A (zh) 信息获取方法、装置、计算机设备和存储介质
CN109766917A (zh) 面试视频数据处理方法、装置、计算机设备和存储介质
CN109410071A (zh) 核保数据处理方法、装置、计算机设备和存储介质
CN109858010A (zh) 领域新词识别方法、装置、计算机设备和存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN110890088A (zh) 语音信息反馈方法、装置、计算机设备和存储介质
CN109886110A (zh) 微表情评分方法、装置、计算机设备及存储介质
CN112580329B (zh) 文本噪声数据识别方法、装置、计算机设备和存储介质
CN111860669A (zh) Ocr识别模型的训练方法、装置和计算机设备
CN110047469A (zh) 语音数据情感标注方法、装置、计算机设备及存储介质
CN111368061B (zh) 短文本过滤方法、装置、介质及计算机设备
CN110135694A (zh) 产品风险评估方法、装置、计算机设备和存储介质
CN112380346A (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination