CN115169284B - 基于视觉化分析的凭证信息遗漏填补方法 - Google Patents
基于视觉化分析的凭证信息遗漏填补方法 Download PDFInfo
- Publication number
- CN115169284B CN115169284B CN202211089881.XA CN202211089881A CN115169284B CN 115169284 B CN115169284 B CN 115169284B CN 202211089881 A CN202211089881 A CN 202211089881A CN 115169284 B CN115169284 B CN 115169284B
- Authority
- CN
- China
- Prior art keywords
- information
- filling
- certificate information
- voucher
- voucher information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000004458 analytical method Methods 0.000 title claims abstract description 64
- 238000012800 visualization Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 46
- 230000000694 effects Effects 0.000 claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 19
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 2
- 230000019771 cognition Effects 0.000 abstract description 2
- 238000013079 data visualisation Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于视觉化分析的凭证信息遗漏填补方法,属于数据填补技术领域,首先通过凭证信息上传后,对凭证信息分析后,先了解凭证信息填补前的情况,对于上传来源的凭证信息需要有初步的认知,后续才能进行对凭证信息的遗漏值处理以及资料视觉化,并且可以一次选取多种填补方法来比较填补效果,最终选取适合的填补方法,将遗漏的资料处理完成。将填补完成的资料,以视觉化呈现的图形样式,从而更直接的观察凭证信息的填补效果。
Description
技术领域
本发明属于数据填补技术领域,具体涉及基于视觉化分析的凭证信息遗漏填补方法。
背景技术
随着社会的发展,电子凭证以其方便快捷、节约纸张等特点逐渐取代传统纸质凭证。资料分析从凭证中提取有价值的信息。而如果将未处理的凭证进行资料分析,可能得到有偏差的分析结果。因此,有必要提出处理凭证信息遗漏的方法,从而确保凭证的完整性,避免因为凭证信息的缺失而影响到最终的决策。
公开号为CN104679868A的中国发明专利,公开了一种基于数据间关联关系的遗漏数据填补方法,其利用数据之间的关联关系,通过设计BP神经网络解决了遗漏数据的填补问题,为后期的数据分析提供了高质量的数据。但是,其具有以下不足:
1,凭证信息主要分为两种,分别为数值型态以及字符串型态。该对比文件的方法,仅适用于数值型态,使得该对比文件,对于凭证信息遗漏填补的适用范围受到限制。
2,凭证信息的预处理是至关重要的步骤之一,用于管理庞大凭证信息中各种问题,以生成高质量的凭证信息。所有凭证信息都需要先进行资料前处理,确保全部的凭证信息是适合以及干净的,并且提高日后决策准确性。该对比文件的方法,并没有对信息信息进行预处理。
3,该对比文件是基于数据间关联关系的遗漏数据填补方法,仅适用于数据之间具有强关联的情况,而现实是,大量数据存在随机性甚至是完全随机,并不能单一的适用该方法。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供基于视觉化分析的凭证信息遗漏填补方法。
为了达到上述目的,本发明采取了以下的技术方案。
基于视觉化分析的凭证信息遗漏填补方法,包括以下步骤:
步骤S1,建立凭证信息遗漏填补系统;凭证信息遗漏填补系统,包括:凭证信息上传单元、遗漏分析单元、填补设定单元、遗漏值处理单元、预览填补单元和凭证信息输出单元;
步骤S2,凭证信息的上传:凭证信息上传单元,取得凭证信息来源的档案,将档案进行格式判断以及重新命名,并且将凭证信息进行储存得到原始凭证信息,接着传递给遗漏分析单元;
步骤S3,遗漏分析视觉化:遗漏分析单元,将原始凭证信息传递给Python中的套件进行凭证信息遗漏视觉化,得到凭证信息遗漏状态,以及计算凭证信息中的字段的遗失率,并且将原始凭证信息进行凭证信息行与列的筛选调整,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用;
步骤S4,填补设定:填补设定单元,解析读取调整后凭证信息,并且判断凭证信息字段所属的类型,以及填补字段以及选择填补方法;
步骤S5,遗漏值处理:遗漏值处理单元,读取填补设定单元所设定填补方法及填补字段,根据设定的填补方法,将凭证信息的字段删除或是遗漏填补;
步骤S6,预览填补:预览填补单元,读取填补完成凭证信息,选择图形样式并设定该图形维度的参数,通过Python套件产生出填补完成凭证信息视觉化的图形,从而了解凭证信息填补效果;
步骤S7,凭证信息输出:凭证信息输出单元,将填补完成凭证信息进行输出。
步骤S2中,凭证信息上传单元,包括档案格式判断元件、档案重新命名元件和原始凭证信息储存元件;
步骤S201,档案格式判断元件,将上传的凭证信息进行档案的格式判断,处理的凭证信息的档案格式为EXCEL或CSV格式,否则,凭证信息须重新上传;
步骤S202,档案重新命名元件,将上传的凭证信息的档案名称重新命名,而命名规则按照来源档案名称,并且加上上传时的日期与时间;
步骤S203,原始凭证信息储存元件,将上传的凭证信息储存至服务器中得到原始凭证信息,并将原始凭证信息传递给遗漏分析单元进行读取使用。
步骤S3中,遗漏分析单元,包括档案格式判断元件、凭证信息解析读取元件、凭证信息遗漏视觉化元件、遗失率计算元件、凭证信息行调整元件、凭证信息列调整元件和调整后凭证信息储存元件;
步骤S301,档案格式判断元件,将服务器读取的原始凭证信息进行档案格式判断,将原始凭证信息根据档案格式进行归类;
步骤S302,凭证信息解析读取元件,取得判断完档案格式后的凭证信息,给予凭证信息与其格式相对应的读取方法,进而载入提供给凭证信息遗漏视觉化元件、遗失率计算元件、凭证信息行调整元件;
步骤S303,凭证信息遗漏视觉化元件,将解析后的凭证信息读取,并且呼叫Python工具库的Missingno套件,产生凭证信息遗漏状态图,分别为数据矩阵图、长条图、热图,作为填补方法选择的参考依据;
步骤S304,遗失率计算元件,将解析后的的凭证信息读取,并计算每个凭证信息中的字段的遗失率;
步骤S305,凭证信息行调整元件,将解析后的的凭证信息读取,针对凭证信息中字段的行的遗失率高于阈值或不需要填补的字段行,进行该字段的行删除的动作;
步骤S306,凭证信息列调整元件,将行调整后的凭证信息读取,针对凭证信息中字段的列的遗失率高于阈值或不需要填补的字段列,并进行凭证信息列的整笔删除的动作;
步骤S307,调整后凭证信息储存元件,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用;
步骤S4中,填补设定单元,包括第一调整后凭证信息解析读取元件、字段类型判断元件、填补字段选择元件和填补方法选择元件;
步骤S401,第一调整后凭证信息解析读取元件,从服务器取得调整后凭证信息并且对其读取分析,然后将其传递给字段类型判断元件后续使用;
步骤S402,字段类型判断元件,将第一调整后凭证信息解析读取元件提供的凭证信息读取后,将所有的字段判断出其所属的类型,分别为数值型态以及字符串型态;
步骤S403,填补字段选择元件,选择欲填补遗漏值的字段,并且传递给遗漏分析单元执行;
步骤S404,填补方法选择元件,依照字段所属的类型给予相对应填补方法,提供给遗漏分析单元执行执行;
当字段所属的类型为数值型态,选择的填补方法为:平均值法、最近邻居法、线性回归法、多重插补法或列表删除法;
当字段所属的类型为字符串型态,选择的填补方法为:众值、逻辑回归法或列表删除法。
步骤S5中,遗漏值处理单元,包括第二调整后凭证信息解析读取元件、载入填补字段元件、载入填补方法元件、凭证信息完整度分类元件、凭证信息遗漏填补元件和凭证信息删除处理元件;
步骤S501,第二调整后凭证信息解析读取元件,从服务器取得调整后凭证信息并且对其读取分析,然后将其传递给凭证信息完整度分类元件、凭证信息遗漏填补元件、凭证信息删除处理元件;
步骤S502,载入填补字段元件,载入填补设定单元所建置的字段,然后提供给第二调整后凭证信息解析读取元件,供后续进行凭证信息遗漏值处理使用;
步骤S503,载入填补方法元件,载入填补设定单元所建置的方法,然后提供给第二调整后凭证信息解析读取元件,供后续进行凭证信息遗漏值处理使用;
步骤S504,凭证信息完整度分类元件,判断载入的填补方法是否需要凭证信息完整度分类,而完整度分类是指将凭证信息解析读取后分为两类,一部分为不含有遗漏值的完整凭证信息,另一部份为含有遗漏值的不完整凭证信息;接着进行模型训练,然后传递给凭证信息遗漏填补元件使用;
步骤S505,凭证信息遗漏填补元件,根据载入的填补方法进行凭证信息的遗漏填补,如果此方法需要模型训练,则向凭证信息完整度分类元件取得模型后,读取第二调整后凭证信息解析读取元件传递的凭证信息,执行凭证信息遗漏填补,得到填补完成凭证信息;否则直接读取第二调整后凭证信息解析读取元件传递的凭证信息,执行凭证信息遗漏填补,得到填补完成凭证信息;
步骤S506,凭证信息删除处理元件,凭证信息删除处理元件,根据载入的填补方法进行列表删除法,针对此字段存在遗漏值的凭证信息整笔删除,得到填补完成凭证信息。
步骤S6中,预览填补单元,包括第一填补完成凭证信息解析读取元件、图形样式选择元件、图表参数设定元件和填补完成视觉化元件;
步骤S601,第一填补完成凭证信息解析读取元件,对填补完成凭证信息解析并且读取,并且传递给图形样式选择元件和图表参数设定元件;
步骤S602,图形样式选择元件,选择凭证信息视觉化欲使用的图表样式,并且将选择的图表样式所需的维度属性传递至图表参数设定元件;
步骤S603,图表参数设定元件,根据图表样式选择元件所提供的信息,设定图表维度对应的凭证信息字段,并且将其传递至填补完成视觉化元件;
步骤S604,填补完成视觉化元件,读取图形样式和图标参数的设定信息后,并呼叫Python工具库的Matplotlib套件以及Seaborn套件,产生出填补完成视觉化的填补效果图。
本方案,采用长条图来呈现分布与集中情况,以及圆饼图表示各项目占的比例,以及容易观察变量之间的变化或是关联的盒状图,最后是散点图表示数据的散点分布。将填补完成的资料,以视觉化呈现的图形样式,从而更直接的观察凭证信息的填补效果。
本方案,处理每种凭证信息的遗漏值时,都有不同的处理方法。先根据利用Python套件将凭证信息遗漏视觉化,将繁杂的大量资料转换成容易查看的图表,通过视觉化工具有效降低了凭证信息的理解难度,然后通过查看各个填补的效果差异,选择合适的处理方法,并且节省大量的时间以及人力成本。
本方案,首先通过凭证信息上传后,对凭证信息分析后,先了解凭证信息填补前的情况,对于上传来源的凭证信息需要有初步的认知,后续才能进行对凭证信息的遗漏值处理以及资料视觉化,并且可以一次选取多种填补方法来比较填补效果,最终选取适合的填补方法,将遗漏的资料处理完成,以便日后的资料分析。
本方案,可以一次选择多种填补方法,以及多种图形样式来预览填补,只要设定要处理的遗漏字段,并且设定填补方法以及视觉化的图形样式,接着在预览填补的时候就可以比较出填补效果,最后选择最合适的填补方法来处理遗漏值。
附图说明
图1为本发明的系统框图;
图2为步骤S2凭证信息的上传的流程框图;
图3为步骤S3遗漏分析视觉化的流程框图;
图4为步骤S4填补设定的流程框图;
图5为步骤S5遗漏值处理的流程框图;
图6为步骤S6预览填补的流程框图;
图7为步骤S7凭证信息输出的流程框图;
图8为行业名称圆饼图。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
基于视觉化分析的凭证信息遗漏填补方法,如图1所示,首先将凭证信息来源经由凭证信息上传单元进行档案上传,得到原始凭证信息;接着,遗漏分析单元,将原始凭证信息产生出凭证信息的遗漏状态,并且调整凭证信息的行与列;然后,填补设定单元,设定凭证信息的字段与填补方法,并且让遗漏值处理单元进行凭证信息的遗漏值处理,接着将填补完的凭证信息载入预览填补单元,产生填补效果差异图,最终根据填补效果差异图选取填补方法,将凭证信息填补完成,经由凭证信息输出单元将凭证信息进行档案输出。
基于视觉化分析的凭证信息遗漏填补方法,包括以下步骤:
步骤S1,建立凭证信息遗漏填补系统;凭证信息遗漏填补系统,如图1所示,包括:
凭证信息上传单元,取得凭证信息来源的档案,将档案进行格式判断以及重新命名,并且将凭证信息进行储存得到原始凭证信息,接着传递给遗漏分析单元进行后续使用;
遗漏分析单元,将原始凭证信息传递给Python中的套件进行凭证信息遗漏视觉化,得到凭证信息遗漏状态,作为填补方法选择的参考依据,以及计算凭证信息中的字段的遗失率,并且将原始凭证信息进行凭证信息行与列的筛选调整,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用。
填补设定单元,解析读取调整后凭证信息,并且判断凭证信息字段所属的类型,以及填补字段以及选择填补方法。
遗漏值处理单元,读取填补设定单元所建置的方法,将其中设定填补方法及填补字段载入,根据设定的填补方法,将凭证信息的字段删除或是遗漏填补。
预览填补单元,读取填补完成凭证信息,选择图形样式并设定该图形维度的参数,通过Python套件产生出填补完成凭证信息视觉化的图形,从而了解凭证信息填补效果。
凭证信息输出单元,将填补完成凭证信息进行输出。
步骤S2,凭证信息的上传。凭证信息上传单元,取得凭证信息来源的档案,将档案进行格式判断以及重新命名,并且将凭证信息进行储存得到原始凭证信息,接着传递给遗漏分析单元进行后续使用;
结合图2对本步骤进行说明。
凭证信息上传单元,包括档案格式判断元件、档案重新命名元件、原始凭证信息储存元件。
步骤S201,档案格式判断元件,将上传的凭证信息进行档案的格式判断,处理的凭证信息的档案格式为EXCEL或CSV格式,否则,凭证信息须重新上传。
步骤S202,档案重新命名元件,将上传的凭证信息的档案名称重新命名,而命名规则按照来源档案名称,并且加上上传时的日期与时间,以便区别服务器中档案名称重复的问题。
步骤S203,原始凭证信息储存元件,将上传的凭证信息储存至服务器中得到原始凭证信息,并将原始凭证信息传递给遗漏分析单元进行读取使用。
步骤S3,遗漏分析视觉化。遗漏分析单元,将原始凭证信息传递给Python中的套件进行凭证信息遗漏视觉化,得到凭证信息遗漏状态,作为填补方法选择的参考依据,以及计算凭证信息中的字段的遗失率,并且将原始凭证信息进行凭证信息行与列的筛选调整,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用。
结合图3对本步骤进行说明。
遗漏分析单元,包括档案格式判断元件、凭证信息解析读取元件、凭证信息遗漏视觉化元件、遗失率计算元件、凭证信息行调整元件、凭证信息列调整元件、调整后凭证信息储存元件。
步骤S301,档案格式判断元件,将服务器读取的原始凭证信息进行档案格式判断,将原始凭证信息根据档案格式进行归类。由于不同格式的解读都需要不同的方法,故须经由判断归类档案格式。
步骤S302,凭证信息解析读取元件,取得判断完档案格式后的凭证信息,给予凭证信息与其格式相对应的读取方法,进而载入提供给凭证信息遗漏视觉化元件、遗失率计算元件、凭证信息行调整元件。
步骤S303,凭证信息遗漏视觉化元件,将解析后的凭证信息读取,并且呼叫Python工具库的Missingno套件,产生凭证信息遗漏状态图,分别为数据矩阵图、长条图、热图,作为填补方法选择的参考依据。
Python是一种广泛使用的直译式、进阶编程、通用型程序语言,Python 的设计哲学主要强调程序码的可读性以及简洁的程序码语法,编程语言提供适用于计算和视觉化任务的开发环境,主要优势之一是允许开发人员使用扩展语言的提供较高级的功能。例如阵列和矩阵操作、图像处理、数字信号处理和视觉化,而Python的套件中有一个名称为Missingno,主要用于资料漏视觉化,可以更快速直观的分析资料,主要的工作是转换表格,将数据矩阵转换为布林函数,最后将资料遗漏视觉化以供评估。
Python工具库的Missingno套件,是一个可以将缺失值情况进行可视化的库。本方案,利用Python工具库的Missingno套件来将资料遗漏视觉化,并且将填补完成资料视觉化,了解填补效果的各种差异性。
步骤S304,遗失率计算元件,将解析后的的凭证信息读取,并计算每个凭证信息中的字段的遗失率。
步骤S305,凭证信息行调整元件,将解析后的的凭证信息读取,针对凭证信息中字段的行的遗失率高于阈值或不需要填补的字段行,进行该字段的行删除的动作。
步骤S306,凭证信息列调整元件,将行调整后的凭证信息读取,针对凭证信息中字段的列的遗失率高于阈值或不需要填补的字段列,并进行凭证信息列的整笔删除的动作。
步骤S307,调整后凭证信息储存元件,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用。
步骤S4,填补设定。填补设定单元,解析读取调整后凭证信息,并且判断凭证信息字段所属的类型,以及填补字段以及选择填补方法。
结合图4对本步骤进行说明。
填补设定单元,包括第一调整后凭证信息解析读取元件、字段类型判断元件、填补字段选择元件、填补方法选择元件。
步骤S401,第一调整后凭证信息解析读取元件,从服务器取得调整后凭证信息并且对其读取分析,然后将其传递给字段类型判断元件后续使用。
步骤S402,字段类型判断元件,将第一调整后凭证信息解析读取元件提供的凭证信息读取后,将所有的字段判断出其所属的类型,分别为数值型态以及字符串型态。
步骤S403,填补字段选择元件,选择欲填补遗漏值的字段,并且传递给遗漏分析单元执行。
步骤S404,填补方法选择元件,依照字段所属的类型给予相对应填补方法,提供给遗漏分析单元执行执行。
当字段所属的类型为数值型态,选择的填补方法为:平均值法、最近邻居法、线性回归法、多重插补法或列表删除法。
当字段所属的类型为字符串型态,选择的填补方法为:众值、逻辑回归法或列表删除法。
步骤S5,遗漏值处理。遗漏值处理单元,读取填补设定单元所设定填补方法及填补字段,根据设定的填补方法,将凭证信息的字段删除或是遗漏填补。
结合图5对本步骤进行说明。
遗漏值处理单元,包括第二调整后凭证信息解析读取元件、载入填补字段元件、载入填补方法元件、凭证信息完整度分类元件、凭证信息遗漏填补元件、凭证信息删除处理元件。
步骤S501,第二调整后凭证信息解析读取元件,从服务器取得调整后凭证信息并且对其读取分析,然后将其传递给凭证信息完整度分类元件、凭证信息遗漏填补元件、凭证信息删除处理元件。
步骤S502,载入填补字段元件,载入填补设定单元所建置的字段,然后提供给第二调整后凭证信息解析读取元件,供后续进行凭证信息遗漏值处理使用。
步骤S503,载入填补方法元件,载入填补设定单元所建置的方法,然后提供给第二调整后凭证信息解析读取元件,供后续进行凭证信息遗漏值处理使用。
步骤S504,凭证信息完整度分类元件,判断载入的填补方法是否需要凭证信息完整度分类,而完整度分类是指将凭证信息解析读取后分为两类,一部分为不含有遗漏值的完整凭证信息,另一部份为含有遗漏值的不完整凭证信息;接着进行模型训练,然后传递给凭证信息遗漏填补元件使用。
步骤S505,凭证信息遗漏填补元件,根据载入的填补方法进行凭证信息的遗漏填补,如果此方法需要模型训练,则向凭证信息完整度分类元件取得模型后,读取第二调整后凭证信息解析读取元件传递的凭证信息,执行凭证信息遗漏填补,得到填补完成凭证信息;否则直接读取第二调整后凭证信息解析读取元件传递的凭证信息,执行凭证信息遗漏填补,得到填补完成凭证信息。
本方案,遗漏填补需要进一步判断此方法是否需要进行凭证信息完整度分类,以供模型训练来进行填补。公开号为CN104679868A的中国发明专利,就是需要训练模型的填补方法。
步骤S506,凭证信息删除处理元件,凭证信息删除处理元件,根据载入的填补方法进行列表删除法,针对此字段存在遗漏值的凭证信息整笔删除,得到填补完成凭证信息。
列表删除法可能会导致样本量减少。
步骤S6,预览填补。预览填补单元,读取填补完成凭证信息,选择图形样式并设定该图形维度的参数,通过Python套件产生出填补完成凭证信息视觉化的图形,从而了解凭证信息填补效果。
结合图6对本步骤进行说明。
预览填补单元,包括第一填补完成凭证信息解析读取元件、图形样式选择元件、图表参数设定元件、填补完成视觉化元件。
步骤S601,第一填补完成凭证信息解析读取元件,对填补完成凭证信息解析并且读取,并且传递给图形样式选择元件和图表参数设定元件。
步骤S602,图形样式选择元件,选择凭证信息视觉化欲使用的图表样式,并且将选择的图表样式所需的维度属性传递至图表参数设定元件。
步骤S603,图表参数设定元件,根据图表样式选择元件所提供的信息,设定图表维度对应的凭证信息字段,并且将其传递至填补完成视觉化元件。
步骤S604,填补完成视觉化元件,读取图形样式和图标参数的设定信息后,并呼叫Python工具库的Matplotlib套件以及Seaborn套件,产生出填补完成视觉化的填补效果图。
Matplotlib套件是一个Python的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。seaborn套件是python中的一个可视化库,是对Matplotlib套件进行二次封装而成。
步骤S7,凭证信息输出。凭证信息输出单元,将填补完成凭证信息进行输出。
结合图7对本步骤进行说明。
凭证信息输出单元,包括第二填补完成凭证信息解析读取元件、凭证信息输出设定元件、凭证信息输出元件。
第二填补完成凭证信息解析读取元件,对填补完成凭证信息解析并且读取,并且传递给凭证信息输出设定元件。
凭证信息输出设定元件,设定凭证信息输出格式,并且传递给凭证信息输出元件。
凭证信息输出元件,对填补完成凭证信息,进行凭证信息输出。
为了验证本方案的可行性,以电子发票开立资料作为实际的范例,来进行操作处理。
表1为电子发票开立资料的部分内容。
首先设定字段“行业名称”为文字型态,为了呈现不同的填补效果,选择全部的方法来填补遗漏值,分别为众值以及逻辑回归法与列表删除法,接着设定所有的视觉化样式,分别为长条图以及圆饼图来呈现不同是视觉效果。
图8为行业名称圆饼图,可以从圆饼图,观察到填补行业名称的字段,各个填补方法的填补差异性。
接着填补字段为平均客单价为数值型态,以及选择所有的填补方法,分别为平均值、众值、最近邻居法、线性回归法、多重插补法与列表删除法,接着设定所有视觉化图表样式,分别为长条图、圆饼图、盒状图、以及散点图并且设定Y轴为平均开立张数,来呈现不同视觉效果。
从执行的结果可见,通过预览填补,来达到比较视觉化填补效果的差异,进而观察出与原始凭证信息分布趋势较接近的填补方法,依据资料本身特质,设定适合的填补方法来填补遗漏值,使填补完凭证信息比原本的凭证信息质量提升,并且达到视觉化辅助资料遗漏值填补的成效。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (5)
1.基于视觉化分析的凭证信息遗漏填补方法,其特征在于,包括以下步骤:
步骤S1,建立凭证信息遗漏填补系统;凭证信息遗漏填补系统,包括:凭证信息上传单元、遗漏分析单元、填补设定单元、遗漏值处理单元、预览填补单元和凭证信息输出单元;
步骤S2,凭证信息的上传:凭证信息上传单元,取得凭证信息来源的档案,将档案进行格式判断以及重新命名,并且将凭证信息进行储存得到原始凭证信息,接着传递给遗漏分析单元;
步骤S3,遗漏分析视觉化:遗漏分析单元,将原始凭证信息传递给Python中的套件进行凭证信息遗漏视觉化,得到凭证信息遗漏状态,以及计算凭证信息中的字段的遗失率,并且将原始凭证信息进行凭证信息行与列的筛选调整,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用;
步骤S4,填补设定:填补设定单元,解析读取调整后凭证信息,并且判断凭证信息字段所属的类型,以及填补字段以及选择填补方法;
步骤S4中,填补设定单元,包括第一调整后凭证信息解析读取元件、字段类型判断元件、填补字段选择元件和填补方法选择元件;
步骤S401,第一调整后凭证信息解析读取元件,从服务器取得调整后凭证信息并且对其读取分析,然后将其传递给字段类型判断元件后续使用;
步骤S402,字段类型判断元件,将第一调整后凭证信息解析读取元件提供的凭证信息读取后,将所有的字段判断出其所属的类型,分别为数值型态以及字符串型态;
步骤S403,填补字段选择元件,选择欲填补遗漏值的字段,并且传递给遗漏分析单元执行;
步骤S404,填补方法选择元件,依照字段所属的类型给予相对应填补方法,提供给遗漏分析单元执行;
当字段所属的类型为数值型态,选择的填补方法为:平均值法、最近邻居法、线性回归法、多重插补法或列表删除法;
当字段所属的类型为字符串型态,选择的填补方法为:众值、逻辑回归法或列表删除法;
步骤S5,遗漏值处理:遗漏值处理单元,读取填补设定单元所设定填补方法及填补字段,根据设定的填补方法,将凭证信息的字段删除或是遗漏填补;
步骤S6,预览填补:预览填补单元,读取填补完成凭证信息,选择图形样式并设定该图形维度的参数,通过Python套件产生出填补完成凭证信息视觉化的图形,从而了解凭证信息填补效果;
步骤S7,凭证信息输出:凭证信息输出单元,将填补完成凭证信息进行输出。
2.根据权利要求1所述的基于视觉化分析的凭证信息遗漏填补方法,其特征在于,步骤S2中,凭证信息上传单元,包括档案格式判断元件、档案重新命名元件和原始凭证信息储存元件;
步骤S201,档案格式判断元件,将上传的凭证信息进行档案的格式判断,处理的凭证信息的档案格式为EXCEL或CSV格式,否则,凭证信息须重新上传;
步骤S202,档案重新命名元件,将上传的凭证信息的档案名称重新命名,而命名规则按照来源档案名称,并且加上上传时的日期与时间;
步骤S203,原始凭证信息储存元件,将上传的凭证信息储存至服务器中得到原始凭证信息,并将原始凭证信息传递给遗漏分析单元进行读取使用。
3.根据权利要求2所述的基于视觉化分析的凭证信息遗漏填补方法,其特征在于,步骤S3中,遗漏分析单元,包括档案格式判断元件、凭证信息解析读取元件、凭证信息遗漏视觉化元件、遗失率计算元件、凭证信息行调整元件、凭证信息列调整元件和调整后凭证信息储存元件;
步骤S301,档案格式判断元件,将服务器读取的原始凭证信息进行档案格式判断,将原始凭证信息根据档案格式进行归类;
步骤S302,凭证信息解析读取元件,取得判断完档案格式后的凭证信息,给予凭证信息与其格式相对应的读取方法,进而载入提供给凭证信息遗漏视觉化元件、遗失率计算元件、凭证信息行调整元件;
步骤S303,凭证信息遗漏视觉化元件,将解析后的凭证信息读取,并且呼叫Python工具库的Missingno套件,产生凭证信息遗漏状态图,分别为数据矩阵图、长条图、热图,作为填补方法选择的参考依据;
步骤S304,遗失率计算元件,将解析后的凭证信息读取,并计算每个凭证信息中的字段的遗失率;
步骤S305,凭证信息行调整元件,将解析后的凭证信息读取,针对凭证信息中字段的行的遗失率高于阈值或不需要填补的字段行,进行该字段的行删除的动作;
步骤S306,凭证信息列调整元件,将行调整后的凭证信息读取,针对凭证信息中字段的列的遗失率高于阈值或不需要填补的字段列,并进行凭证信息列的整笔删除的动作;
步骤S307,调整后凭证信息储存元件,将原始凭证信息储存为调整后凭证信息,并提供给填补设定单元和遗漏值处理单元使用。
4.根据权利要求3所述的基于视觉化分析的凭证信息遗漏填补方法,其特征在于,步骤S5中,遗漏值处理单元,包括第二调整后凭证信息解析读取元件、载入填补字段元件、载入填补方法元件、凭证信息完整度分类元件、凭证信息遗漏填补元件和凭证信息删除处理元件;
步骤S501,第二调整后凭证信息解析读取元件,从服务器取得调整后凭证信息并且对其读取分析,然后将其传递给凭证信息完整度分类元件、凭证信息遗漏填补元件、凭证信息删除处理元件;
步骤S502,载入填补字段元件,载入填补设定单元所建置的字段,然后提供给第二调整后凭证信息解析读取元件,供后续进行凭证信息遗漏值处理使用;
步骤S503,载入填补方法元件,载入填补设定单元所建置的方法,然后提供给第二调整后凭证信息解析读取元件,供后续进行凭证信息遗漏值处理使用;
步骤S504,凭证信息完整度分类元件,判断载入的填补方法是否需要凭证信息完整度分类,而完整度分类是指将凭证信息解析读取后分为两类,一部分为不含有遗漏值的完整凭证信息,另一部份为含有遗漏值的不完整凭证信息;接着进行模型训练,然后传递给凭证信息遗漏填补元件使用;
步骤S505,凭证信息遗漏填补元件,根据载入的填补方法进行凭证信息的遗漏填补,如果此方法需要模型训练,则向凭证信息完整度分类元件取得模型后,读取第二调整后凭证信息解析读取元件传递的凭证信息,执行凭证信息遗漏填补,得到填补完成凭证信息;否则直接读取第二调整后凭证信息解析读取元件传递的凭证信息,执行凭证信息遗漏填补,得到填补完成凭证信息;
步骤S506,凭证信息删除处理元件,凭证信息删除处理元件,根据载入的填补方法进行列表删除法,针对此字段存在遗漏值的凭证信息整笔删除,得到填补完成凭证信息。
5.根据权利要求4所述的基于视觉化分析的凭证信息遗漏填补方法,其特征在于,步骤S6中,预览填补单元,包括第一填补完成凭证信息解析读取元件、图形样式选择元件、图表参数设定元件和填补完成视觉化元件;
步骤S601,第一填补完成凭证信息解析读取元件,对填补完成凭证信息解析并且读取,并且传递给图形样式选择元件和图表参数设定元件;
步骤S602,图形样式选择元件,选择凭证信息视觉化欲使用的图表样式,并且将选择的图表样式所需的维度属性传递至图表参数设定元件;
步骤S603,图表参数设定元件,根据图表样式选择元件所提供的信息,设定图表维度对应的凭证信息字段,并且将其传递至填补完成视觉化元件;
步骤S604,填补完成视觉化元件,读取图形样式和图标参数的设定信息后,并呼叫Python工具库的Matplotlib套件以及Seaborn套件,产生出填补完成视觉化的填补效果图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211089881.XA CN115169284B (zh) | 2022-09-07 | 2022-09-07 | 基于视觉化分析的凭证信息遗漏填补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211089881.XA CN115169284B (zh) | 2022-09-07 | 2022-09-07 | 基于视觉化分析的凭证信息遗漏填补方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115169284A CN115169284A (zh) | 2022-10-11 |
CN115169284B true CN115169284B (zh) | 2022-11-29 |
Family
ID=83480347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211089881.XA Active CN115169284B (zh) | 2022-09-07 | 2022-09-07 | 基于视觉化分析的凭证信息遗漏填补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115169284B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116362816B (zh) * | 2023-05-30 | 2023-09-26 | 浙江爱信诺航天信息技术有限公司 | 凭证信息遗漏识别及处理方法、系统与介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679868A (zh) * | 2015-03-06 | 2015-06-03 | 四川深度信息技术有限责任公司 | 一种基于数据间关联关系的遗漏数据填补方法 |
CN111179062A (zh) * | 2019-12-31 | 2020-05-19 | 中国银行股份有限公司 | 凭证补打方法及装置 |
CN111459925A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种园区综合能源异常数据组合式插补方法 |
CN114444478A (zh) * | 2021-12-31 | 2022-05-06 | 石化盈科信息技术有限责任公司 | 一种凭证可视化方法、装置、电子设备及存储介质 |
CN114817615A (zh) * | 2022-06-27 | 2022-07-29 | 广州盛祺信息科技股份有限公司 | 一种会计原始凭证快速扫描及云端管理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7627620B2 (en) * | 2004-12-16 | 2009-12-01 | Oracle International Corporation | Data-centric automatic data mining |
WO2009154484A2 (en) * | 2008-06-20 | 2009-12-23 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
CN110782330A (zh) * | 2019-10-18 | 2020-02-11 | 四川长虹电器股份有限公司 | 一种财务云平台记账凭证的配置方法 |
-
2022
- 2022-09-07 CN CN202211089881.XA patent/CN115169284B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679868A (zh) * | 2015-03-06 | 2015-06-03 | 四川深度信息技术有限责任公司 | 一种基于数据间关联关系的遗漏数据填补方法 |
CN111179062A (zh) * | 2019-12-31 | 2020-05-19 | 中国银行股份有限公司 | 凭证补打方法及装置 |
CN111459925A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种园区综合能源异常数据组合式插补方法 |
CN114444478A (zh) * | 2021-12-31 | 2022-05-06 | 石化盈科信息技术有限责任公司 | 一种凭证可视化方法、装置、电子设备及存储介质 |
CN114817615A (zh) * | 2022-06-27 | 2022-07-29 | 广州盛祺信息科技股份有限公司 | 一种会计原始凭证快速扫描及云端管理系统 |
Non-Patent Citations (3)
Title |
---|
Techniques to deal with missing data;Jadran Sessa等;《IEEE Xplore》;20170119;全文 * |
利用概率增进树和路径形态学的遥感道路条带提取;钱海明等;《科学技术与工程》;20180118(第02期);全文 * |
基于图像识别的移动端原始凭证电子化智能填单系统;鲁静等;《计算机工程》;20170615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115169284A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8015239B2 (en) | Method and system to reduce false positives within an automated software-testing environment | |
Charte et al. | Working with multilabel datasets in R: The mldr package | |
TWI416342B (zh) | 指定、設定以及發現試算表文件之參數的方法及計算裝置 | |
US8104020B2 (en) | Method and system to automate software testing using sniffer side and browser side recording and a toolbar interface | |
US8269789B2 (en) | Method and system for displaying performance constraints in a flow design tool | |
US11380087B2 (en) | Data analyzing device | |
US7760405B2 (en) | Apparatus and method for integrating print preview with data modeling document editing | |
US20160378843A1 (en) | Systems and methods for intelligent data preparation and visualization | |
US20070226606A1 (en) | Method of processing annotations using filter conditions to accentuate the visual representations of a subset of annotations | |
CN104657274B (zh) | 软件界面测试方法及装置 | |
CN115169284B (zh) | 基于视觉化分析的凭证信息遗漏填补方法 | |
CN117093219B (zh) | 一种基于数据源的可视化方法、电子设备及存储介质 | |
CN111427544A (zh) | 软件需求文档的生成方法、装置、存储介质及电子设备 | |
US20050119852A1 (en) | Semiconductor test data analysis system | |
KR102039154B1 (ko) | 데이터를 시각화하는 장치 및 방법 | |
US10831991B1 (en) | Systems and methods for testing content developed for access via a network | |
JP7055064B2 (ja) | データベースマイグレーション支援システム及びプログラム | |
CN118860380A (zh) | 一种用于软件开发的智能辅助方法及系统 | |
US20180067837A1 (en) | Framework for detecting source code anomalies | |
JP4770495B2 (ja) | シミュレーションモデルジェネレータ | |
US20200257926A1 (en) | Data Analyzing Device | |
CN117272495A (zh) | 一种图像及数据组织、融合加载和展示方法及系统 | |
US20230401265A1 (en) | Cross-application componentized document generation | |
US20220215034A1 (en) | Electronic apparatus and controlling method thereof | |
CN115238662A (zh) | 一种招投标文件快速编辑方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |