CN108536762A - 一种大批量文本数据自动分析方案 - Google Patents

一种大批量文本数据自动分析方案 Download PDF

Info

Publication number
CN108536762A
CN108536762A CN201810234028.XA CN201810234028A CN108536762A CN 108536762 A CN108536762 A CN 108536762A CN 201810234028 A CN201810234028 A CN 201810234028A CN 108536762 A CN108536762 A CN 108536762A
Authority
CN
China
Prior art keywords
word
analysis
scheme
weight
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810234028.XA
Other languages
English (en)
Inventor
王悦
陈石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wei Mdt Infotech Ltd
Original Assignee
Shanghai Wei Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wei Mdt Infotech Ltd filed Critical Shanghai Wei Mdt Infotech Ltd
Priority to CN201810234028.XA priority Critical patent/CN108536762A/zh
Publication of CN108536762A publication Critical patent/CN108536762A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大批量文本数据自动分析方案,它涉及文本类数据分析领域。此方案从五大角度对文本类数据进行分析,分别是1.数据基本信息与词句统计;2.词语和短语的权重统计;3.情感词推断;4.分类分析;5.主题分析;系统通过模型算法进行这五类分析之后,将结果解析并生成特定的可视化图表展现出来,进而用户可以直观获取到文本数据全面分析结论。本发明通过一系列功能、算法和图表的设计,实现一种对大批量文本数据的自动化分析,帮助分析人员快速获得关于文本数据的总结性结论。

Description

一种大批量文本数据自动分析方案
技术领域
本发明涉及的是文本类数据分析领域,具体涉及一种对大批量文本数据进行多个不同角度的计算分析并形成总结性结果的算法流程方案,主要应用在舆情分析、社交网络分析、客服对话分析等场景。
背景技术
日常和商业行为中会产生大量的文本类数据,相关技术的发展也使得文本数据分析越来越重要。目前对于文本类数据的自动分析方法,主要是先通过人工建模、编程,进行单一角度的分析,再由专业人员理解和解释计算机后台表格的结果。
采用这类方案需要较为专业的技术人员,其优点是可以对特定数据、特定角度进行定制化的深入分析。但对于一般分析人员,这类方法较难掌握,高成本低效率,且其结果无法对大批量文本数据有一个全面、直观的解释。目前,尚没有一种综合技术方案,可以自动化地、高效率地实现对大批量文本数据的分析,并形成图表化的、易理解的分析结果。
综上所述,本发明设计了一种大批量文本数据自动分析方案。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种大批量文本数据自动分析方案,通过一系列功能、算法和图表的设计,实现一种对大批量文本数据的自动化分析,帮助分析人员快速获得关于文本数据的总结性结论。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种大批量文本数据自动分析方案,此方案从五大角度对文本类数据进行分析,分别是1.数据基本信息与词句统计;2. 词语和短语的权重统计;3.情感词推断;4.分类分析;5.主题分析;系统通过模型算法进行这五类分析之后,将结果解析并生成特定的可视化图表展现出来,进而用户可以直观获取到文本数据全面分析结论。
本发明定义文本类数据中,每一条记录为一个文档,每个文档由一名用户产生,例如一条评论、一条微博、一篇文章,每一个文档都有一个文档编号进行独立区分。对于本发明,文档数据条数在十万量级左右,所带来的有益效果最高。
基于上述五个角度的分析,用户可以快速、自动化地获得对于待分析文档的全面、直观认识,从而更快、更准确的切入到对于大量文本内容的分析中去。
本发明与现有技术相比有如下优势和有益效果:
1.本发明设计的分析流程方法实现后是全自动的,省去了复杂人工开发调整,不仅节省了很大工作量,还使得文本分析更容易得到使用,不再需要由专业技术人员开发;
2.本发明抓住了不同场景、不同类型下的文本分析的共同需求,从文本分析的五个最重要的角度出发,对文档进行了全方位分析,使得用户对文档有更全面的认识,提升实际应用分析的效果;
3.本发明中核心算法的结果,被转化为可视化图表的形式展现,不再需要专业人员解读,使得一般用户可理解,并且更加直观可靠。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的自动分析方案框图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1,本具体实施方式采用以下技术方案:一种大批量文本数据自动分析方案,此方案从五大角度对文本类数据进行分析,分别是1.数据基本信息与词句统计;2. 词语和短语的权重统计;3.情感词推断;4.分类分析;5.主题分析;系统通过模型算法进行这五类分析之后,将结果解析并生成特定的可视化图表展现出来,进而用户可以直观获取到文本数据全面分析结论。
本具体实施方式所涉及的第一个角度的分析为数据基本信息与词句统计,包括用户数量,文档数量,文档日期范围,文档总词数,文档有效词数(名词、动词、形容词),文档数量按日期的趋势。此部分的结果,主要以统计数字的形式展示出来,其中文档数量按日期的趋势可以用折线图或柱状图显示。
第二个角度的分析是关于词语和短语的权重统计,包括热词(基于文档频率的权重计算),关键词(基于词频和逆文档率的词频计算),重要短语(基于特殊算法的重要短语抽取技术)。此部分的结果,以词云的形式展示出来,其中,颜色代表类型,字的大小代表权重高低。
第三个角度的分析是对情感词的推断,主要方法是内置一份常用情感词表,标注好基础情感词,比如正面情感词有:喜欢,很好,满意等;负面情感词有:劣质,欺骗,糟心等。利用这些基础情感词,通过特定算法,即可计算出其他可能的情感词和情感倾向性。此部分的结果,以类词云形式展现:图表为一个平面,左右两级分别表示推断情感词的倾向性大小,垂直方向的上下表示情感词词频权重的大小。
第四个角度的分析是对文档整体的分类分析,主要方法是对每篇文档做中文分词,然后以词的词频相关权重(如TF-IDF)或者word embedding词向量为模型特征,利用聚类相关算法继续机器学习,从而计算出每个文档的分类。算法完成后,再基于分类结果,计算分类文档数量统计和各个分类的关键词汇及权重(如互信息值)。此部分的结果,用矩形树图(或压力图)展示,其中矩形树图中每个块区代表一个分类,标明分类的名称和分类文档的数量统计,块区内罗列该分类内权重最高的若干个关键词汇,每个块区的颜色不同或深浅,可以表示为不同分类,也可以表示为分类文档数量的大小。
第五个角度的分析是对文档整体的主题分析,主要用到了主题模型,利用文本主题分析模型(如LDA)对全部文档进行学习计算,得到各个主题和主题关键词及权重。算法完成后,再基于主题分布结果,计算主题权重(如主题覆盖比率值)和主题间相关性(如主题-文档分布的相关分析)。此部分的结果,主要使用比如气泡网络图+柱状图组合方式显示,其中气泡大小代表主题权重,气泡间网络连接代表主题相关性,选中某一气泡后,柱状图显示该主题的词汇权重最高的若干个词及其权重。
基于上述五个角度的分析,用户可以快速、自动化地获得对于待分析文档的全面、直观认识,从而更快、更准确的切入到对于大量文本内容的分析中去。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1. 一种大批量文本数据自动分析方案,其特征在于,此方案从五大角度对文本类数据进行分析,分别是(1).数据基本信息与词句统计;(2). 词语和短语的权重统计;(3).情感词推断;(4).分类分析;(5).主题分析;系统通过模型算法进行这五类分析之后,将结果解析并生成特定的可视化图表展现出来,进而用户可以直观获取到文本数据全面分析结论。
2.根据权利要求1所述的一种大批量文本数据自动分析方案,其特征在于,所述的数据基本信息与词句统计,包括用户数量,文档数量,文档日期范围,文档总词数,文档有效词数,文档数量按日期的趋势;此部分的结果,主要以统计数字的形式展示出来,其中文档数量按日期的趋势可以用折线图或柱状图显示。
3.根据权利要求1所述的一种大批量文本数据自动分析方案,其特征在于,所述的词语和短语的权重统计,包括热词,关键词,重要短语;此部分的结果,以词云的形式展示出来,其中,颜色代表类型,字的大小代表权重高低。
4.根据权利要求1所述的一种大批量文本数据自动分析方案,其特征在于,所述的情感词推断,主要方法是内置一份常用情感词表,标注好基础情感词,利用这些基础情感词,通过特定算法,即可计算出其他可能的情感词和情感倾向性;此部分的结果,以类词云形式展现:图表为一个平面,左右两级分别表示推断情感词的倾向性大小,垂直方向的上下表示情感词词频权重的大小。
5.根据权利要求1所述的一种大批量文本数据自动分析方案,其特征在于,所述的分类分析是对文档整体的分类分析,主要方法是对每篇文档做中文分词,然后以词的词频相关权重或者word embedding词向量为模型特征,利用聚类相关算法继续机器学习,从而计算出每个文档的分类;算法完成后,再基于分类结果,计算分类文档数量统计和各个分类的关键词汇及权重;此部分的结果,用矩形树图展示,其中矩形树图中每个块区代表一个分类,标明分类的名称和分类文档的数量统计,块区内罗列该分类内权重最高的若干个关键词汇,每个块区的颜色不同或深浅,可以表示为不同分类,也可以表示为分类文档数量的大小。
6.根据权利要求1所述的一种大批量文本数据自动分析方案,其特征在于,所述的主题分析是对文档整体的主题分析,主要用到了主题模型,利用文本主题分析模型对全部文档进行学习计算,得到各个主题和主题关键词及权重;算法完成后,再基于主题分布结果,计算主题权重和主题间相关性;此部分的结果,主要使用比如气泡网络图+柱状图组合方式显示,其中气泡大小代表主题权重,气泡间网络连接代表主题相关性,选中某一气泡后,柱状图显示该主题的词汇权重最高的若干个词及其权重。
CN201810234028.XA 2018-03-21 2018-03-21 一种大批量文本数据自动分析方案 Pending CN108536762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810234028.XA CN108536762A (zh) 2018-03-21 2018-03-21 一种大批量文本数据自动分析方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810234028.XA CN108536762A (zh) 2018-03-21 2018-03-21 一种大批量文本数据自动分析方案

Publications (1)

Publication Number Publication Date
CN108536762A true CN108536762A (zh) 2018-09-14

Family

ID=63484545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810234028.XA Pending CN108536762A (zh) 2018-03-21 2018-03-21 一种大批量文本数据自动分析方案

Country Status (1)

Country Link
CN (1) CN108536762A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109511006A (zh) * 2018-11-13 2019-03-22 广州虎牙科技有限公司 一种词云图生成方法、装置、设备和存储介质
CN111177395A (zh) * 2020-01-13 2020-05-19 庄诗琪 一种人工智能海量问题生成方法
CN111339286A (zh) * 2020-02-14 2020-06-26 重庆邮电大学 一种基于主题可视化的探索机构研究状况的方法
CN111680516A (zh) * 2020-06-04 2020-09-18 宁波浙大联科科技有限公司 Pdm系统产品设计需求信息语义分析提取方法及系统
CN112560469A (zh) * 2020-12-29 2021-03-26 珠海横琴博易数据技术有限公司 一种自动化中文文本主题探索的方法及系统
CN114416945A (zh) * 2021-12-30 2022-04-29 北京火山引擎科技有限公司 一种词云图显示方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JD ZHANG 等: ""CRATS: An LDA-Based Model for Jointly Mining Latent Communities, Regions, Activities, Topics, and Sentiments from Geosocial Network Data"", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING ( VOLUME: 28, ISSUE: 11, NOV. 1 2016)》 *
黄发良 等: ""基于多特征融合的微博主题情感挖掘"", 《计算机学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109511006A (zh) * 2018-11-13 2019-03-22 广州虎牙科技有限公司 一种词云图生成方法、装置、设备和存储介质
CN111177395A (zh) * 2020-01-13 2020-05-19 庄诗琪 一种人工智能海量问题生成方法
CN111339286A (zh) * 2020-02-14 2020-06-26 重庆邮电大学 一种基于主题可视化的探索机构研究状况的方法
CN111339286B (zh) * 2020-02-14 2024-02-09 四川超易宏科技有限公司 一种基于主题可视化的探索机构研究状况的方法
CN111680516A (zh) * 2020-06-04 2020-09-18 宁波浙大联科科技有限公司 Pdm系统产品设计需求信息语义分析提取方法及系统
CN112560469A (zh) * 2020-12-29 2021-03-26 珠海横琴博易数据技术有限公司 一种自动化中文文本主题探索的方法及系统
CN114416945A (zh) * 2021-12-30 2022-04-29 北京火山引擎科技有限公司 一种词云图显示方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108536762A (zh) 一种大批量文本数据自动分析方案
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN101599071B (zh) 对话文本主题的自动提取方法
CN107025299B (zh) 一种基于加权lda主题模型的金融舆情感知方法
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN106570708A (zh) 一种智能客服知识库的管理方法及系统
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
KR101713558B1 (ko) 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN111309864B (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN104731874B (zh) 一种评价信息生成方法和装置
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN105183718B (zh) 一种用于出版行业的热点选题获取方法及其系统
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN105930416A (zh) 一种用户反馈信息的可视化处理方法及系统
CN107562843A (zh) 一种基于标题高频切分的新闻热点短语提取方法
Massung et al. Structural parse tree features for text representation
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914