CN106484783A

CN106484783A - 一种报表数据的图形化展示方法

Info

Publication number: CN106484783A
Application number: CN201610829966.5A
Authority: CN
Inventors: 王放
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-03-08

Abstract

本发明公开了一种报表数据的图形化展示方法，属于计算机系统数据分析领域，本发明要解决的技术问题为如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用，将用户自定义的词汇加入高发词库中。技术方案为：该方法包括如下步骤：（1）、读取excel或者文档文件；（2）、获取excel或文档文件中的表转换为json数据；（3）、分词和基于TF‑IDF算法的关键词抽取；（4）、调整词语序列；（5）、在excel或文档指定data中设置数据变量，形成高低分解模式，基于高低分解模式展示图表。

Description

一种报表数据的图形化展示方法

技术领域

本发明涉及计算机系统数据分析领域，具体地说是一种报表数据的图形化展示方法。

背景技术

在当前一些公关部门、信访部门或者是一些学校及公司，经常会需要审阅大量的文档，从文档中获得具体信息，了解提交材料人群对相关问题的关注点及重点意见建议。

审阅文档的过程需要耗费大量的人力和时间，因此产生了类似需求，如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用，将用户自定义的词汇加入高发词库中是目前现有技术中存在的技术问题。

专利号为CN 104317943 A的专利文献公开了一种考核系统的图形化报表展示方法及系统，所述方法包括：步骤1，提取考核数据，并将考核数据以表结构的形式进行存储；步骤2，从存储考核数据的表结构中查询出需进行图形化报表展示的数据，并将查询得到的数据封装成XML格式的数据；步骤3，在JPS页面设置图形化报表样式，选择一种图形化报表样式，并调用FusionCharts插件将XML格式的数据解析生成为报表，并在JPS页面展示生成的报表。但是该技术方案存在操作复杂，使用范围小等缺点。

发明内容

本发明的技术任务是针对以上不足之处，提供一种报表数据的图形化展示方法，来解决如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用，将用户自定义的词汇加入高发词库中的问题。

本发明解决其技术问题所采用的技术方案是：一种报表数据的图形化展示方法，该方法包括如下步骤：

（1）、读取excel或者文档文件：通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中；

（2）、获取excel或文档文件中的表转换为json数据：解析内存中的excel或者文档对象获取workbook对象，获取表格后解析指定区域内的有效数据信息，并将有效数据信息转化为json格式数据；

（3）、分词和基于TF-IDF算法的关键词抽取：将已有的有效数据信息做分词操作，返回指定个数的 TF-IDF 权重最大的关键词；TF-IDF（term frequency–inverse documentfrequency）是一种用于信息检索与数据挖掘的常用加权技术。

（4）、调整词语序列；

（5）、在excel或文档指定data中设置数据变量，形成高低分解模式，基于高低分解模式展示图表。

作为优选，所述步骤（1）中采用javastript中read方式获取文件，而非通常所使用的流处理方式。JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在HTML（标准通用标记语言下的一个应用）网页上使用，用来给HTML网页增加动态功能。

作为优选，所述步骤（1）中采用对象方式存储文件。

作为优选，所述步骤（3）中提起关键词使用逆向文件频率（IDF）文本语料库或自定义文本库。

更优地，所述自定义文本库是指自己自定义的词典，包含词库中未包含的词，虽然有新词识别能力，但是自行添加新词可以保证更高的正确率。

作为优选，所述步骤（5）中图表展示还可以采用html和flash格式。

作为优选，该方法使用过程中还包括如下步骤：

①、加载工作表并解析；

②、加载数据并启动服务。

本发明的报表数据的图形化展示方法和现有技术相比，具有以下有益效果：

1、本发明是通过解析用户导入或者系统自动生成的excel或者其他日志或报告文档，获取excel或者文档中的指定位置的文字信息，同时按照字符分解文档中的文字信息，分解之后再通过文字规则按照中文词组的编码方式重新排列，排列之后的词组根据用户指定的格式形成报表；

2、本发明允许用户通过文档方式加载数据到当前功能中，通过解析文件、分词及归类等方式，最终由html的数据报表形式展现出来，用户可以很直观的看到词汇出现的频率，按照指定方式展现。

故本发明具有设计合理、结构简单、使用方便、一物多用等特点，因而，具有很好的推广使用价值。

附图说明

下面结合附图对本发明进一步说明。

附图1为报表数据的图形化展示方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如附图1所示，本发明的报表数据的图形化展示方法，该方法包括如下步骤：

（1）、读取excel或者文档文件：通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中；该步骤采用javastript中read方式获取文件，而非通常所使用的流处理方式并采用对象方式存储文件；

（2）、获取excel或文档文件中的表转换为json数据：解析内存中的excel或者文档对象获取workbook对象，获取表格后解析指定区域内的有效数据信息，并将有效数据信息转化为json格式数据；具体事例如下：

var sheetNames = workbook.SheetNames；// 返回表名

// 根据表名获取对应某张表

var worksheet = workbook.Sheets[sheetNames[0]]；

通过 worksheet[address] 来操作表格

// 获取 A1 单元格对象

let a1 = worksheet['A1']；// 返回 { v: 'hello', t: 's', ... }

// 获取 A1 中的值

a1.v // 返回 'hello'

// 获取表的有效范围

worksheet['!ref'] // 返回 'A1:B20'

worksheet['!range'] // 返回 range 对象，{ s: { r: 0, c: 0}, e: { r: 100,c: 2 } }

// 获取合并过的单元格

worksheet['!merges'] // 返回一个包含 range 对象的列表，[ {s: { r: 0, c: 0}, c: { r: 2, c: 1 } } ]

utils.sheet_to_json(worksheet) //针对单个表，返回序列化json数据。

（3）、分词和基于TF-IDF算法的关键词抽取：将已有的有效数据信息做分词操作，返回指定个数的 TF-IDF 权重最大的关键词；提起关键词使用逆向文件频率（IDF）文本语料库或自定义文本库，自定义文本库是指自己自定义的词典，包含词库中未包含的词，虽然有新词识别能力，但是自行添加新词可以保证更高的正确率。

需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型。

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8。

返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)。

其中，基于TF-IDF算法的关键词抽取，具体事例如下：

USAGE = "usage: python extract_tags.py [file name] -k [top k]"

parser = OptionParser(USAGE)

parser.add_option("-k", dest="topK")

opt, args = parser.parse_args()

if len(args) < 1:

print(USAGE)

sys.exit(1)

file_name = args[0]

if opt.topK is None:

topK = 10

else:

topK = int(opt.topK)

content = open(file_name, 'rb').read()

tags = jieba.analyse.extract_tags(content, topK=topK)

print(",".join(tags))

（4）、调整词语序列；

（5）、在excel或文档指定data中设置数据变量，形成高低分解模式，基于高低分解模式展示图表，图表展示还可以采用html和flash格式。

该方法使用过程中还包括如下步骤：

①、加载工作表并解析，具体事例如下：

app.get('/', function (req, res) {

var obj = xlsx.parse('jfls.xlsx')；

//第一个工作表的数据

var data = obj[0].data；

var results = data.map(function(item) {

if (item[2]) {

return node.cut(item[2])；

}else {

return []；

}

})；

var sumResult = []；

for (var i = 0; i < results.length; i++) {

for (var j = 0； j < results[i].length；j++) {

sumResult = sumResult.concat(results[i][j])；

}

// console.log(result)；

res.send(JSON.stringify(sumResult))；

})；

app.use(express.static('public'))；

app.listen(3000, function () {

console.log('Example app listening on port 3000!')；

})。

②、加载数据并启动服务，具体事例如下：

function createRandomItemStyle() {

return {

normal: {

color: 'rgb(' + [

Math.round(Math.random() * 160),

Math.round(Math.random() * 160)

].join(',') + ')'

}

}；

}

function generateWordCloud(data) {

var mergedData = mergeData(data)；

console.log(mergedData)；

var option = {

title: {

text: '自定义标签',

link: ' '

},

tooltip: {

show: true

},

series: [{

name: 'Google Trends',

type: 'wordCloud',

size: ['100%', '100%'],

textRotation : [0, 45, -45],

textPadding: 0,

autoSize: {

enable: true,

minSize: 14

},

data: mergedData

}]

}；

var my = e.init(document.getElementById('test'))；

my.setOption(option)；

}

function mergeData(data) {

var result = {}；

data.forEach(function(item) {

if (result.hasOwnProperty(item)) {

result[item] = result[item] + 1；

}else {

result[item] = 1;

}

})；

var optionData = []；

for (var key in result) {

if (key !== ',' && key.length >= 2 && result[key] > 3) {

optionData.push({

name: key,

value: result[key],

itemStyle: createRandomItemStyle()

})；

}

return optionData；

}

$.ajax({

type: 'GET',

url: 'http://localhost:3000/',

dataType: 'JSON',

data: {},

success: generateWordCloud

})。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的一种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种报表数据的图形化展示方法，其特征在于该方法包括如下步骤：

（3）、分词和基于TF-IDF算法的关键词抽取：将已有的有效数据信息做分词操作，返回指定个数的 TF-IDF 权重最大的关键词；

（4）、调整词语序列；

2.根据权利要求1所述的报表数据的图形化展示方法，其特征在于所述步骤（1）中采用javastript中read方式获取文件。

3.根据权利要求1所述的报表数据的图形化展示方法，其特征在于所述步骤（1）中采用对象方式存储文件。

4.根据权利要求1所述的报表数据的图形化展示方法，其特征在于所述步骤（3）中提起关键词使用逆向文件频率文本语料库或自定义文本库。

5.根据权利要求4所述的报表数据的图形化展示方法，其特征在于所述自定义文本库是指自己自定义的词典，包含词库中未包含的词。

6.根据权利要求1所述的报表数据的图形化展示方法，其特征在于所述步骤（5）中图表展示还可以采用html和flash格式。

7.根据权利要求1所述的报表数据的图形化展示方法，其特征在于该方法使用过程中还包括如下步骤：

①、加载工作表并解析；

②、加载数据并启动服务。