CN108287922A - 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 - Google Patents

一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 Download PDF

Info

Publication number
CN108287922A
CN108287922A CN201810165734.3A CN201810165734A CN108287922A CN 108287922 A CN108287922 A CN 108287922A CN 201810165734 A CN201810165734 A CN 201810165734A CN 108287922 A CN108287922 A CN 108287922A
Authority
CN
China
Prior art keywords
sentence
topic
attribute
emotion
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810165734.3A
Other languages
English (en)
Other versions
CN108287922B (zh
Inventor
廖祥文
陈国龙
赵楠
杨定达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810165734.3A priority Critical patent/CN108287922B/zh
Publication of CN108287922A publication Critical patent/CN108287922A/zh
Application granted granted Critical
Publication of CN108287922B publication Critical patent/CN108287922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,包括:对话题的文本语料集进行预处理;输入话题语料集和背景语料集;提取话题语料集的话题属性;将得到的话题属性添加情感极性,对句子向量化;将得到的话题属性作为评价对象,得出句子包含的情感属性特征,通过话题属性和情感分析方法将一个句子进行特征向量化;利用得到的话题属性集合、文本句子特征向量集合S构建三层图结构,把所有文本句子聚类;从类簇中挑选句子组成观点摘要,挑选得分高的句子组成观点摘要。本发明使得采用提取话题属性方法提取的话题属性更为精准,同样使其不仅仅应用与中文微博领域,更可以用于网站新闻、商品评论领域。

Description

一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
技术领域
本发明涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论分析等实际应用场景。
背景技术
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,并没有在图结构中融合话题属性的细粒度情感信息,在一定程度上。
当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。
一般而言,观点摘要的两个基础性质是:1)保证得到的摘要覆盖话题文本主旨;2)得到的摘要覆盖富有情感色彩的话题主旨。不足的是,现有的多数图模型考虑利用文本句子和话题特征来构建图结构,并且通过整个文本句子的情感信息刻画观点摘要的情感信息,没有在图结构中融合话题属性的情感信息,没有考虑不同情感的话题特征是两个不同含义的主体,导致包含不同情感话题属性的句子被关联起来。因此,人们迫切希望能有一种更加高效准确的观点摘要研究方法,该方法通过实体抽取方法从源文本中提取话题属性单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以话题属性为评价对象的情感信息,并将带情感信息的话题属性融入到图结构中。
发明内容
本发明的目的是解决从海量观点文本数据的抽取观点句子的问题,提出一种融合话题属性情感信息的观点摘要方法,从话题属性及其情感信息出发解决当前研究方法存在的问题,能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。
为实现上述目的,本发明采用以下技术方案:一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示;步骤S6:利用步骤S5得到的、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类;步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。
在本发明一实施例中,步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;防止在后续步骤提取话题属性中的影响其结果,过滤规则由如下:
(1)去除评论句子中的网页链接;
(2)去除字符长度小于3的评论句子;
(3)去除评论句子中的常用不相关词;
(4)将所有英文表成小写。
在本发明一实施例中,步骤S2中针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,步骤S3中借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动词、数词,提取话题语料集的话题属性。
在本发明一实施例中,步骤S5中面向多评价对象的动态词序列方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量,文本句子特征向量集合表示为S。
在本发明一实施例中,步骤S5中词序列的方法流程如下:步骤S51:确定评价对象在句子中的位置,针对每一个句子,以话题属性集合A中的话题属性为评价对象,按照句子前到后的方向确定各个评价对象在句子中的位置,位置从小到大;步骤S52:以句子中评价对象的位置为中心向左右两个方向扩展,直到遇到标点符号或其他评价对象;步骤S53:若向左或向右遇到标点符号,则截取标点符号到评价对象内的左词序列或右词序列;步骤S54:若向左或向右遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列或右词序列;步骤S55:经过上述步骤后得到某一评价对象的左词序列和右词序列,左词序列和右词序列合并得到该评价对象完整的词序列
,其中是评价对象,做情感分析时去掉,参数范围,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样;同时,对于任意两个动态词序列,满足条件,即两个词序列没有重合的单词序列。
在本发明一实施例中,步骤S7中利用基于图聚类的观点句子选择方法来挑选句子,首先定义观点句子评分函数,利用评分函数对类簇中的句子评分并排序,从每个类簇中选择排序靠前的句子组成观点摘要,其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数;其中观点句子评分函数考虑三个因素:句子包含的情感话题属性个数、情感话题属性被包含的句子个数、句子的情感信息;针对这三者得到线性评分函数。
与现有技术相比,本发明具有以下优点:
1、数据的预处理,为了使应用更加广泛,本发明在原始数据的基础上,将数据进行清理操作,过滤不相关文本,使得采用提取话题属性方法提取的话题属性更为精准,同样使其不仅仅应用与中文微博领域,更可以用于网站新闻、商品评论领域。
2、在模型中考虑话题属性的情感极性,考虑话题属性的正面、负面情感,不讨论中性情感。利用正面话题属性、负面话题属性、句子集合构建三层图结构,并利用三层图结构对句子聚类。利用聚类得到的类簇,从类簇利用基于图聚类的观点句子选择方法选择句子组成观点摘要。
附图说明
图1为本发明的主要流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步解释说明。
一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示;步骤S6:利用步骤S5得到的、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类;步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。本发明的主要流程示意图参见图1。
在本发明一实施例中,步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;防止在后续步骤提取话题属性中的影响其结果,过滤规则由如下:
(1)去除评论句子中的网页链接,例如“http://t.cn/RcwWYQZ”。
(2)去除字符长度小于3的评论句子,这类评论句子包含的信息过少,大多数都是表情符,并无其他有用信息。
(3)去除评论句子中的常用不相关词,如“组图”、“原文转发”等。
(4)将所有英文表成小写,统一成小写英文。
在本发明一实施例中,步骤S2中针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,步骤S3中借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动词、数词,提取话题语料集的话题属性。
在本发明一实施例中,步骤S5中面向多评价对象的动态词序列方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量,文本句子特征向量集合表示为S。
在本发明一实施例中,步骤S5中词序列的方法流程如下:步骤S51:确定评价对象在句子中的位置,针对每一个句子,以话题属性集合A中的话题属性为评价对象,按照句子前到后的方向确定各个评价对象在句子中的位置,位置从小到大;步骤S52:以句子中评价对象的位置为中心向左右两个方向扩展,直到遇到标点符号(句号、问号、感叹号、分号等)或其他评价对象;步骤S53:若向左或向右遇到标点符号,则截取标点符号到评价对象内的左词序列或右词序列;步骤S54:若向左或向右遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列或右词序列;步骤S55:经过上述步骤后得到某一评价对象的左词序列和右词序列,左词序列和右词序列合并得到该评价对象完整的词序列,其中是评价对象,做情感分析时去掉,参数范围,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样;同时,对于任意两个动态词序列,满足条件,即两个词序列没有重合的单词序列。
步骤S6利用句子和情感话题属性之间的包含关系将正面情感话题属性集合、负面情感话题属性集合、句子向量集合构建为三层网络图,并利用图的连通性从网络图中得到多个关联图,每一个图中的句子作为一个类簇,利用图结构对句子进行聚类。
在本发明一实施例中,步骤S7中利用基于图聚类的观点句子选择方法来挑选句子,首先定义观点句子评分函数,利用评分函数对类簇中的句子评分并排序,从每个类簇中选择排序靠前的句子组成观点摘要,其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数;其中观点句子评分函数考虑三个因素:句子包含的情感话题属性个数、情感话题属性被包含的句子个数、句子的情感信息;针对这三者得到线性评分函数。
本发明提出了一种融合话题属性情感信息的观点摘要方法,其包含两个基本假设,1)文本的话题属性是文本的中心思想、主旨;2)不同情感的同一个话题属性是不同的,两者都作为文本的主旨、主要讨论内容;包含一个基于对数似然比的话题属性提取方法;包含一个基于情感词典的动态词序列情感分析方法;包含一个基于三层图结构句子聚类方法,将情感话题属性的情感融入到图结构中,并利用图结构对句子聚类;包含一个基于图聚类的观点句子选择方法,从带情感极性的话题属性、话题属性被包含的句子个数、句子情感信息三个方面构建观点句子评分函数,对类簇中的句子评分并排序用于作为挑选句子的依据。
在本发明一实施例中,具体包括以下步骤:
步骤S1:对微博语料集进行预处理,清理一些不相关的词,避免影响话题属性的抽取。
步骤S2:输入话题语料集和背景语料集,此处背景语料集是其他话题语料集组成的。步骤S3:利用对数似然比方法提取话题语料集的话题属性。
步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化。
步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示。其中面向多评价对象的动态词序列方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量,文本句子特征向量集合表示为S。
步骤S6:利用步骤S5得到的、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类。
步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素、句子的情感信息因素等三个因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:
步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;
步骤S2:输入话题语料集和背景语料集;
步骤S3:利用对数似然比方法提取话题语料集的话题属性;
步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;
步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示;
步骤S6:利用步骤S5得到的、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类;
步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。
2.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;防止在后续步骤提取话题属性中的影响其结果,过滤规则由如下:
(1)去除评论句子中的网页链接;
(2)去除字符长度小于3的评论句子;
(3)去除评论句子中的常用不相关词;
(4)将所有英文表成小写。
3.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S2中针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,步骤S3中借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动词、数词,提取话题语料集的话题属性。
4.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:
步骤S5中面向多评价对象的动态词序列方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量,文本句子特征向量集合表示为S。
5.根据权利要求4所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S5中词序列的方法流程如下:
步骤S51:确定评价对象在句子中的位置,针对每一个句子,以话题属性集合A中的话题属性为评价对象,按照句子前到后的方向确定各个评价对象在句子中的位置,位置从小到大;
步骤S52:以句子中评价对象的位置为中心向左右两个方向扩展,直到遇到标点符号或其他评价对象;
步骤S53:若向左或向右遇到标点符号,则截取标点符号到评价对象内的左词序列或右词序列;
步骤S54:若向左或向右遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列或右词序列;
步骤S55:经过上述步骤后得到某一评价对象的左词序列和右词序列,左词序列和右词序列合并得到该评价对象完整的词序列,其中是评价对象,做情感分析时去掉,参数范围,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样;同时,对于任意两个动态词序列,满足条件,即两个词序列没有重合的单词序列。
6.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S7中利用基于图聚类的观点句子选择方法来挑选句子,首先定义观点句子评分函数,利用评分函数对类簇中的句子评分并排序,从每个类簇中选择排序靠前的句子组成观点摘要,其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数;其中观点句子评分函数考虑三个因素:句子包含的情感话题属性个数、情感话题属性被包含的句子个数、句子的情感信息;针对这三者得到线性评分函数。
CN201810165734.3A 2018-02-28 2018-02-28 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 Active CN108287922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810165734.3A CN108287922B (zh) 2018-02-28 2018-02-28 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810165734.3A CN108287922B (zh) 2018-02-28 2018-02-28 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法

Publications (2)

Publication Number Publication Date
CN108287922A true CN108287922A (zh) 2018-07-17
CN108287922B CN108287922B (zh) 2022-03-08

Family

ID=62833004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810165734.3A Active CN108287922B (zh) 2018-02-28 2018-02-28 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法

Country Status (1)

Country Link
CN (1) CN108287922B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109766434A (zh) * 2018-12-29 2019-05-17 北京百度网讯科技有限公司 摘要生成方法及装置
CN110263319A (zh) * 2019-03-21 2019-09-20 国家计算机网络与信息安全管理中心 一种基于网页文本的学者观点抽取方法
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110889292A (zh) * 2019-11-29 2020-03-17 福州大学 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
CN110941963A (zh) * 2019-11-29 2020-03-31 福州大学 一种基于句子情感属性的文本属性生成观点摘要方法与系统
CN110941962A (zh) * 2019-11-26 2020-03-31 中国科学院自动化研究所 基于图网络的答案句选择方法及装置
CN111475640A (zh) * 2020-04-03 2020-07-31 支付宝(杭州)信息技术有限公司 基于情感摘要的文本情感识别方法及装置
CN112949299A (zh) * 2021-02-26 2021-06-11 深圳市北科瑞讯信息技术有限公司 新闻稿件的生成方法及装置、存储介质、电子装置
CN113032550A (zh) * 2021-03-29 2021-06-25 同济大学 一种基于预训练语言模型的观点摘要评价系统
CN113111269A (zh) * 2021-05-10 2021-07-13 网易(杭州)网络有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN113127610A (zh) * 2019-12-31 2021-07-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113157993A (zh) * 2021-02-08 2021-07-23 电子科技大学 一种基于时序图极化分析的网络水军行为预警模型
CN113641788A (zh) * 2021-08-06 2021-11-12 人民网股份有限公司 一种基于无监督的长短影评细粒度观点挖掘方法
CN114417821A (zh) * 2022-03-29 2022-04-29 南昌华梦达航空科技发展有限公司 基于云平台的金融文本核查分析系统
CN116541505A (zh) * 2023-07-05 2023-08-04 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116739656A (zh) * 2023-08-14 2023-09-12 北京数字一百信息技术有限公司 一种客户体验管理方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
JP2015045940A (ja) * 2013-08-27 2015-03-12 株式会社ジオクリエイツ 感情抽出方法、感情抽出プログラム、感情抽出装置、及び建築物設計方法
US20160350651A1 (en) * 2015-05-29 2016-12-01 North Carolina State University Automatically constructing training sets for electronic sentiment analysis
CN106599063A (zh) * 2016-11-15 2017-04-26 武汉璞华大数据技术有限公司 基于主题情感语义提取的细粒度观点挖掘方法
EP3239854A1 (en) * 2016-04-29 2017-11-01 Fujitsu Limited Textual emotion detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
JP2015045940A (ja) * 2013-08-27 2015-03-12 株式会社ジオクリエイツ 感情抽出方法、感情抽出プログラム、感情抽出装置、及び建築物設計方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US20160350651A1 (en) * 2015-05-29 2016-12-01 North Carolina State University Automatically constructing training sets for electronic sentiment analysis
EP3239854A1 (en) * 2016-04-29 2017-11-01 Fujitsu Limited Textual emotion detection
CN106599063A (zh) * 2016-11-15 2017-04-26 武汉璞华大数据技术有限公司 基于主题情感语义提取的细粒度观点挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RATHAWUT LERTSUKSAKDA; PONRUDEE NETISOPAKUL; KITSUCHART PASUPA: ""Thai sentiment terms construction using the Hourglass of Emotions"", 《2014 6TH INTERNATIONAL CONFERENCE ON KNOWLEDGE AND SMART TECHNOLOGY (KST)》 *
陈巧红,孙超红,贾宇波: ""文本数据观点挖掘技术综述"", 《工业控制计算机》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109766434B (zh) * 2018-12-29 2020-12-11 北京百度网讯科技有限公司 摘要生成方法及装置
CN109766434A (zh) * 2018-12-29 2019-05-17 北京百度网讯科技有限公司 摘要生成方法及装置
CN110263319A (zh) * 2019-03-21 2019-09-20 国家计算机网络与信息安全管理中心 一种基于网页文本的学者观点抽取方法
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110347934B (zh) * 2019-07-18 2023-12-08 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110941962B (zh) * 2019-11-26 2021-09-28 中国科学院自动化研究所 基于图网络的答案句选择方法及装置
CN110941962A (zh) * 2019-11-26 2020-03-31 中国科学院自动化研究所 基于图网络的答案句选择方法及装置
CN110889292A (zh) * 2019-11-29 2020-03-17 福州大学 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
CN110941963A (zh) * 2019-11-29 2020-03-31 福州大学 一种基于句子情感属性的文本属性生成观点摘要方法与系统
CN110889292B (zh) * 2019-11-29 2022-06-03 福州大学 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
CN113127610B (zh) * 2019-12-31 2024-04-19 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113127610A (zh) * 2019-12-31 2021-07-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN111475640A (zh) * 2020-04-03 2020-07-31 支付宝(杭州)信息技术有限公司 基于情感摘要的文本情感识别方法及装置
CN113157993A (zh) * 2021-02-08 2021-07-23 电子科技大学 一种基于时序图极化分析的网络水军行为预警模型
CN112949299A (zh) * 2021-02-26 2021-06-11 深圳市北科瑞讯信息技术有限公司 新闻稿件的生成方法及装置、存储介质、电子装置
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113157857B (zh) * 2021-03-13 2023-06-02 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113032550A (zh) * 2021-03-29 2021-06-25 同济大学 一种基于预训练语言模型的观点摘要评价系统
CN113111269A (zh) * 2021-05-10 2021-07-13 网易(杭州)网络有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN113641788A (zh) * 2021-08-06 2021-11-12 人民网股份有限公司 一种基于无监督的长短影评细粒度观点挖掘方法
CN113641788B (zh) * 2021-08-06 2024-02-23 人民网股份有限公司 一种基于无监督的长短影评细粒度观点挖掘方法
CN114417821A (zh) * 2022-03-29 2022-04-29 南昌华梦达航空科技发展有限公司 基于云平台的金融文本核查分析系统
CN116541505A (zh) * 2023-07-05 2023-08-04 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116541505B (zh) * 2023-07-05 2023-09-19 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116739656A (zh) * 2023-08-14 2023-09-12 北京数字一百信息技术有限公司 一种客户体验管理方法和系统
CN116739656B (zh) * 2023-08-14 2023-10-20 北京数字一百信息技术有限公司 一种客户体验管理方法和系统

Also Published As

Publication number Publication date
CN108287922B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN108287922A (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
Asghar et al. T‐SAF: Twitter sentiment analysis framework using a hybrid classification scheme
CN108268668A (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
Naseem et al. A survey of pre-processing techniques to improve short-text quality: a case study on hate speech detection on twitter
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN104598588B (zh) 基于双聚类的微博用户标签自动生成算法
CN107633044A (zh) 一种基于热点事件的舆情知识图谱构建方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN103761239B (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN108897784A (zh) 一个基于社交媒体的突发事件多维分析系统
US11379656B2 (en) System and method of automatic template generation
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN106295702B (zh) 一种基于个体情感行为分析的社交平台用户分类方法
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN103646097B (zh) 一种基于约束关系的意见目标和情感词联合聚类方法
Lu et al. Sentiment analysis of film review texts based on sentiment dictionary and SVM
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN107944911A (zh) 一种基于文本分析的推荐系统的推荐方法
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Bansal et al. Code-switching patterns can be an effective route to improve performance of downstream NLP applications: A case study of humour, sarcasm and hate speech detection
CN106202200B (zh) 一种基于固定主题的文本情感倾向性分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant