CN106484783A - 一种报表数据的图形化展示方法 - Google Patents
一种报表数据的图形化展示方法 Download PDFInfo
- Publication number
- CN106484783A CN106484783A CN201610829966.5A CN201610829966A CN106484783A CN 106484783 A CN106484783 A CN 106484783A CN 201610829966 A CN201610829966 A CN 201610829966A CN 106484783 A CN106484783 A CN 106484783A
- Authority
- CN
- China
- Prior art keywords
- document
- data
- excel
- graphical representation
- representation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种报表数据的图形化展示方法,属于计算机系统数据分析领域,本发明要解决的技术问题为如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用,将用户自定义的词汇加入高发词库中。技术方案为:该方法包括如下步骤:(1)、读取excel或者文档文件;(2)、获取excel或文档文件中的表转换为json数据;(3)、分词和基于TF‑IDF算法的关键词抽取;(4)、调整词语序列;(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。
Description
技术领域
本发明涉及计算机系统数据分析领域,具体地说是一种报表数据的图形化展示方法。
背景技术
在当前一些公关部门、信访部门或者是一些学校及公司,经常会需要审阅大量的文档,从文档中获得具体信息,了解提交材料人群对相关问题的关注点及重点意见建议。
审阅文档的过程需要耗费大量的人力和时间,因此产生了类似需求,如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用,将用户自定义的词汇加入高发词库中是目前现有技术中存在的技术问题。
专利号为CN 104317943 A的专利文献公开了一种考核系统的图形化报表展示方法及系统,所述方法包括:步骤1,提取考核数据,并将考核数据以表结构的形式进行存储;步骤2,从存储考核数据的表结构中查询出需进行图形化报表展示的数据,并将查询得到的数据封装成XML格式的数据;步骤3,在JPS页面设置图形化报表样式,选择一种图形化报表样式,并调用FusionCharts插件将XML格式的数据解析生成为报表,并在JPS页面展示生成的报表。但是该技术方案存在操作复杂,使用范围小等缺点。
发明内容
本发明的技术任务是针对以上不足之处,提供一种报表数据的图形化展示方法,来解决如何能够通过计算机自动解析出文档中出现频率较高的词语或者通过用户自定义词语的方式在定义范围内查找词语或者将上述两种方式融合使用,将用户自定义的词汇加入高发词库中的问题。
本发明解决其技术问题所采用的技术方案是:一种报表数据的图形化展示方法,该方法包括如下步骤:
(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;
(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;
(3)、分词和基于TF-IDF算法的关键词抽取:将已有的有效数据信息做分词操作,返回指定个数的 TF-IDF 权重最大的关键词;TF-IDF(term frequency–inverse documentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。
(4)、调整词语序列;
(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。
作为优选,所述步骤(1)中采用javastript中read方式获取文件,而非通常所使用的流处理方式。JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。
作为优选,所述步骤(1)中采用对象方式存储文件。
作为优选,所述步骤(3)中提起关键词使用逆向文件频率(IDF)文本语料库或自定义文本库。
更优地,所述自定义文本库是指自己自定义的词典,包含词库中未包含的词,虽然有新词识别能力,但是自行添加新词可以保证更高的正确率。
作为优选,所述步骤(5)中图表展示还可以采用html和flash格式。
作为优选,该方法使用过程中还包括如下步骤:
①、加载工作表并解析;
②、加载数据并启动服务。
本发明的报表数据的图形化展示方法和现有技术相比,具有以下有益效果:
1、本发明是通过解析用户导入或者系统自动生成的excel或者其他日志或报告文档,获取excel或者文档中的指定位置的文字信息,同时按照字符分解文档中的文字信息,分解之后再通过文字规则按照中文词组的编码方式重新排列,排列之后的词组根据用户指定的格式形成报表;
2、本发明允许用户通过文档方式加载数据到当前功能中,通过解析文件、分词及归类等方式,最终由html的数据报表形式展现出来,用户可以很直观的看到词汇出现的频率,按照指定方式展现。
故本发明具有设计合理、结构简单、使用方便、一物多用等特点,因而,具有很好的推广使用价值。
附图说明
下面结合附图对本发明进一步说明。
附图1为报表数据的图形化展示方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如附图1所示,本发明的报表数据的图形化展示方法,该方法包括如下步骤:
(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;该步骤采用javastript中read方式获取文件,而非通常所使用的流处理方式并采用对象方式存储文件;
(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;具体事例如下:
var sheetNames = workbook.SheetNames;// 返回表名
// 根据表名获取对应某张表
var worksheet = workbook.Sheets[sheetNames[0]];
通过 worksheet[address] 来操作表格
// 获取 A1 单元格对象
let a1 = worksheet['A1'];// 返回 { v: 'hello', t: 's', ... }
// 获取 A1 中的值
a1.v // 返回 'hello'
// 获取表的有效范围
worksheet['!ref'] // 返回 'A1:B20'
worksheet['!range'] // 返回 range 对象,{ s: { r: 0, c: 0}, e: { r: 100,c: 2 } }
// 获取合并过的单元格
worksheet['!merges'] // 返回一个包含 range 对象的列表,[ {s: { r: 0, c: 0}, c: { r: 2, c: 1 } } ]
utils.sheet_to_json(worksheet) //针对单个表,返回序列化json数据。
(3)、分词和基于TF-IDF算法的关键词抽取:将已有的有效数据信息做分词操作,返回指定个数的 TF-IDF 权重最大的关键词;提起关键词使用逆向文件频率(IDF)文本语料库或自定义文本库,自定义文本库是指自己自定义的词典,包含词库中未包含的词,虽然有新词识别能力,但是自行添加新词可以保证更高的正确率。
需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型。
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8。
返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)。
其中,基于TF-IDF算法的关键词抽取,具体事例如下:
USAGE = "usage: python extract_tags.py [file name] -k [top k]"
parser = OptionParser(USAGE)
parser.add_option("-k", dest="topK")
opt, args = parser.parse_args()
if len(args) < 1:
print(USAGE)
sys.exit(1)
file_name = args[0]
if opt.topK is None:
topK = 10
else:
topK = int(opt.topK)
content = open(file_name, 'rb').read()
tags = jieba.analyse.extract_tags(content, topK=topK)
print(",".join(tags))
(4)、调整词语序列;
(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表,图表展示还可以采用html和flash格式。
该方法使用过程中还包括如下步骤:
①、加载工作表并解析,具体事例如下:
app.get('/', function (req, res) {
var obj = xlsx.parse('jfls.xlsx');
//第一个工作表的数据
var data = obj[0].data;
var results = data.map(function(item) {
if (item[2]) {
return node.cut(item[2]);
}else {
return [];
}
});
var sumResult = [];
for (var i = 0; i < results.length; i++) {
for (var j = 0; j < results[i].length;j++) {
sumResult = sumResult.concat(results[i][j]);
}
}
// console.log(result);
res.send(JSON.stringify(sumResult));
});
app.use(express.static('public'));
app.listen(3000, function () {
console.log('Example app listening on port 3000!');
})。
②、加载数据并启动服务,具体事例如下:
function createRandomItemStyle() {
return {
normal: {
color: 'rgb(' + [
Math.round(Math.random() * 160),
Math.round(Math.random() * 160),
Math.round(Math.random() * 160)
].join(',') + ')'
}
};
}
function generateWordCloud(data) {
var mergedData = mergeData(data);
console.log(mergedData);
var option = {
title: {
text: '自定义标签',
link: ' '
},
tooltip: {
show: true
},
series: [{
name: 'Google Trends',
type: 'wordCloud',
size: ['100%', '100%'],
textRotation : [0, 45, -45],
textPadding: 0,
autoSize: {
enable: true,
minSize: 14
},
data: mergedData
}]
};
var my = e.init(document.getElementById('test'));
my.setOption(option);
}
function mergeData(data) {
var result = {};
data.forEach(function(item) {
if (result.hasOwnProperty(item)) {
result[item] = result[item] + 1;
}else {
result[item] = 1;
}
});
var optionData = [];
for (var key in result) {
if (key !== ',' && key.length >= 2 && result[key] > 3) {
optionData.push({
name: key,
value: result[key],
itemStyle: createRandomItemStyle()
});
}
}
return optionData;
}
$.ajax({
type: 'GET',
url: 'http://localhost:3000/',
dataType: 'JSON',
data: {},
success: generateWordCloud
})。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的一种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (7)
1.一种报表数据的图形化展示方法,其特征在于该方法包括如下步骤:
(1)、读取excel或者文档文件:通过用户指定路径的方式获取本地excel或者文档转存到内存中或者通过用户导入的方式获取导入的excel或者文档转存到内存中;
(2)、获取excel或文档文件中的表转换为json数据:解析内存中的excel或者文档对象获取workbook对象,获取表格后解析指定区域内的有效数据信息,并将有效数据信息转化为json格式数据;
(3)、分词和基于TF-IDF算法的关键词抽取:将已有的有效数据信息做分词操作,返回指定个数的 TF-IDF 权重最大的关键词;
(4)、调整词语序列;
(5)、在excel或文档指定data中设置数据变量,形成高低分解模式,基于高低分解模式展示图表。
2.根据权利要求1所述的报表数据的图形化展示方法,其特征在于所述步骤(1)中采用javastript中read方式获取文件。
3.根据权利要求1所述的报表数据的图形化展示方法,其特征在于所述步骤(1)中采用对象方式存储文件。
4.根据权利要求1所述的报表数据的图形化展示方法,其特征在于所述步骤(3)中提起关键词使用逆向文件频率文本语料库或自定义文本库。
5.根据权利要求4所述的报表数据的图形化展示方法,其特征在于所述自定义文本库是指自己自定义的词典,包含词库中未包含的词。
6.根据权利要求1所述的报表数据的图形化展示方法,其特征在于所述步骤(5)中图表展示还可以采用html和flash格式。
7.根据权利要求1所述的报表数据的图形化展示方法,其特征在于该方法使用过程中还包括如下步骤:
①、加载工作表并解析;
②、加载数据并启动服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610829966.5A CN106484783A (zh) | 2016-09-19 | 2016-09-19 | 一种报表数据的图形化展示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610829966.5A CN106484783A (zh) | 2016-09-19 | 2016-09-19 | 一种报表数据的图形化展示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106484783A true CN106484783A (zh) | 2017-03-08 |
Family
ID=58267386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610829966.5A Pending CN106484783A (zh) | 2016-09-19 | 2016-09-19 | 一种报表数据的图形化展示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484783A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169076A (zh) * | 2017-05-10 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 用于二维数据清洗的方法、系统及计算机可读存储介质 |
CN109344193A (zh) * | 2018-10-24 | 2019-02-15 | 中国银行股份有限公司 | 一种将结构化数据转化为非结构化数据的方法及系统 |
CN109359153A (zh) * | 2018-12-27 | 2019-02-19 | 杭州全维技术股份有限公司 | 基于django数据库改变数据显示内容的方法 |
CN109408780A (zh) * | 2018-09-07 | 2019-03-01 | 山东中磁视讯股份有限公司 | 一种Excel文件转换为JSON文件的方法 |
CN112597062A (zh) * | 2021-02-04 | 2021-04-02 | 北京关键科技股份有限公司 | 军用软件结构化质量数据抽取方法、装置及软件测试装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630328A (zh) * | 2009-08-20 | 2010-01-20 | 浙江大学 | Web服务属性图形化展示方法 |
CN104317943A (zh) * | 2014-10-31 | 2015-01-28 | 北京思特奇信息技术股份有限公司 | 一种考核系统的图形化报表展示方法及系统 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
-
2016
- 2016-09-19 CN CN201610829966.5A patent/CN106484783A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630328A (zh) * | 2009-08-20 | 2010-01-20 | 浙江大学 | Web服务属性图形化展示方法 |
CN104317943A (zh) * | 2014-10-31 | 2015-01-28 | 北京思特奇信息技术股份有限公司 | 一种考核系统的图形化报表展示方法及系统 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
Non-Patent Citations (1)
Title |
---|
BYUFENG: "TF-IDF判重算法在小规模和大规模数据集上的应用", 《HTTPS://BLOG.CSDN.NET/XYS228280987/ARTICLE/DETAILS/51085401》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169076A (zh) * | 2017-05-10 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 用于二维数据清洗的方法、系统及计算机可读存储介质 |
CN107169076B (zh) * | 2017-05-10 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 用于二维数据清洗的方法、系统及计算机可读存储介质 |
CN109408780A (zh) * | 2018-09-07 | 2019-03-01 | 山东中磁视讯股份有限公司 | 一种Excel文件转换为JSON文件的方法 |
CN109344193A (zh) * | 2018-10-24 | 2019-02-15 | 中国银行股份有限公司 | 一种将结构化数据转化为非结构化数据的方法及系统 |
CN109344193B (zh) * | 2018-10-24 | 2020-09-15 | 中国银行股份有限公司 | 一种将结构化数据转化为非结构化数据的方法及系统 |
CN109359153A (zh) * | 2018-12-27 | 2019-02-19 | 杭州全维技术股份有限公司 | 基于django数据库改变数据显示内容的方法 |
CN112597062A (zh) * | 2021-02-04 | 2021-04-02 | 北京关键科技股份有限公司 | 军用软件结构化质量数据抽取方法、装置及软件测试装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484783A (zh) | 一种报表数据的图形化展示方法 | |
US10108907B2 (en) | Method and system to provide related data | |
US7613996B2 (en) | Enabling selection of an inferred schema part | |
US8683324B2 (en) | Dynamic generation of target files from template files and tracking of the processing of target files | |
US20040221233A1 (en) | Systems and methods for report design and generation | |
US8977606B2 (en) | Method and apparatus for generating extended page snippet of search result | |
CN100550007C (zh) | 基于要素的多个文件的分析系统和方法 | |
AU2021212025B2 (en) | Intelligent question answering on tabular content | |
US20030120671A1 (en) | Extensible stylesheet designs in visual graphic environments | |
CN107808010A (zh) | 一种弹窗页面生成方法、装置、浏览器及存储介质 | |
CN103077185A (zh) | 一种基于对象的自定义扩展信息的方法 | |
EP1604304A2 (en) | Web server for adapted web content | |
US20060184639A1 (en) | Web content adaption process and system | |
CN108171600A (zh) | 征信报告解析方法、服务器及存储介质 | |
CN109240692A (zh) | 一种基于通用模板的网页数据库开发的建立方法和系统 | |
CN101908078A (zh) | 一种将网页数据导入excel表格的方法和装置 | |
KR101243057B1 (ko) | 학술논문 xml 풀텍스트 생성을 위한 자동화 입력 시스템 및 방법 | |
US11755663B2 (en) | Search activity prediction | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN107870915A (zh) | 对搜索结果的指示 | |
KR101287371B1 (ko) | 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체 | |
US20150058716A1 (en) | System and method for summarizing documents | |
US9280528B2 (en) | Method and system for processing and learning rules for extracting information from incoming web pages | |
US9619445B1 (en) | Conversion of content to formats suitable for digital distributions thereof | |
CN108319586B (zh) | 一种信息提取规则的生成和语义解析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170308 |
|
RJ01 | Rejection of invention patent application after publication |