CN115310407B - 一种Excel模型的解析方法及系统 - Google Patents

一种Excel模型的解析方法及系统 Download PDF

Info

Publication number
CN115310407B
CN115310407B CN202211138089.9A CN202211138089A CN115310407B CN 115310407 B CN115310407 B CN 115310407B CN 202211138089 A CN202211138089 A CN 202211138089A CN 115310407 B CN115310407 B CN 115310407B
Authority
CN
China
Prior art keywords
cells
matching
matched
determining
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211138089.9A
Other languages
English (en)
Other versions
CN115310407A (zh
Inventor
胡凯
孙小强
白雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Danwo Intelligent Technology Co ltd
Original Assignee
Changsha Danwo Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Danwo Intelligent Technology Co ltd filed Critical Changsha Danwo Intelligent Technology Co ltd
Priority to CN202211138089.9A priority Critical patent/CN115310407B/zh
Publication of CN115310407A publication Critical patent/CN115310407A/zh
Application granted granted Critical
Publication of CN115310407B publication Critical patent/CN115310407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种Excel模型的解析方法及系统,所述方法包括:获取待解析的Excel模型文件,待解析的Excel模型文件包括多个单元格;提取每个单元格的特征属性和依赖关系;根据特征属性和预设的匹配模式从全部单元格中确定目标表格,目标表格包括目标单元格;根据目标单元格的特征属性和依赖关系确定业务指标和指标关系。本发明的Excel模型的解析方法,基于单元格属性和依赖关系来辅助推断Excel模型中有业务关联的区域,应用近邻移动匹配算法进行特征属性识别,能够更加完整的识别Excel模型关系,完整解析Excel模型中的关键业务信息,快速解析出Excel模型结构。

Description

一种Excel模型的解析方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种Excel模型的解析方法及系统。
背景技术
Excel作为一款功能强大的数据处理软件,应用十分广泛,尤其是各种各样的业务模型和财务模型等,很多都是通过Excel制作。但采用Excel的制作模型有如下问题:1)以文件方式存储,但由于Excel文件不能直接被其他软件系统操作,因此无法将Excel文件中的数据录入到软件系统,不利于信息共享;2)模型中的计算关系和指标间依赖关系难以理解;3)文件存储在个人电脑,信息安全存在风险。因此有必要提出一种新的Excel模型解析方法,使得Excel文件中的数据在保持权限控制的同时实现更好的信息共享,更利于维护和使用。
发明内容
本发明要解决的技术问题是提供一种能够完整识别Excel模型内容并快速解析Excel模型结构的Excel模型解析方法及系统。
为实现上述目的,基于本发明一方面,提供一种Excel模型的解析方法,包括:
获取待解析的Excel模型文件,所述待解析的Excel模型文件包括多个单元格;
提取每个所述单元格的特征属性和依赖关系;
根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,所述目标表格包括目标单元格;
根据所述目标单元格的所述特征属性和所述依赖关系确定业务指标和指标关系。
在其中一实施例中,所述特征属性包括基本属性和延展属性,所述提取每个所述单元格的特征属性和依赖关系,包括:
提取每个所述单元格的所述基本属性,所述基本属性包括公式;
根据所述基本属性确定对应所述单元格的所述延展属性;
基于Excel公式文法将所述公式解析为公式语法树,确定所述单元格之间的依赖关系。
在其中一实施例中,所述根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,包括:
从多个待选择的所述匹配模式中选取一个作为当前的所述匹配模式,所述匹配模式包括多个匹配操作,每个所述匹配操作均包括移格方向、移格数量和属性匹配条件,所述属性匹配条件用于与所述单元格的所述特征属性进行匹配,所述移格方向和所述移格数量用于确定进行匹配的所述单元格;
从全部所述单元格中筛去已匹配单元格并确定待匹配单元格;
从所述待匹配单元格中选取一个作为初始的匹配起点,依次执行当前的所述匹配模式中的多个所述匹配操作;
在当前的所述匹配模式执行完毕的情况下,将与各所述匹配操作匹配的所述单元格确定为所述已匹配单元格和所述目标单元格,将下一个所述匹配模式作为当前的所述匹配模式,并进入所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部所述单元格都确定为已匹配单元格,或者,任一待选择的所述匹配模式已相对全部所述单元格执行完毕/执行终止;
在当前的所述匹配模式执行终止的情况下,将下一个所述匹配模式作为当前的所述匹配模式,并进入所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部所述单元格都确定为已匹配单元格,或者,任一待选择的所述匹配模式已相对全部所述单元格执行完毕/执行终止。
在其中一实施例中,所述依次执行当前的所述匹配模式中的多个所述匹配操作,包括:
从全部的所述匹配操作中确定当前的所述匹配操作;
根据当前的所述移动方向和当前的所述移格数量从当前的所述待匹配单元格移动至下一个所述待匹配单元格,将下一个所述待匹配单元格作为当前的所述待匹配单元格;
确定当前的所述待匹配单元格的特征属性与当前的所述属性匹配条件是否匹配;
在当前的所述待匹配单元格的特征属性与当前的所述属性匹配条件匹配的情况下,将依次的下一个所述匹配操作确定为当前的所述匹配操作,进入根据当前的移动方向和当前的移格数量从当前的待匹配单元格移动至下一个所述待匹配单元格,将下一个所述待匹配单元格作为当前的所述待匹配单元格的步骤;
在当前的所述待匹配单元格的特征属性与当前的所述属性匹配条件不匹配的情况下,确定当前的所述匹配模式执行终止;
在全部的所述匹配操作均执行完毕的情况下,确定当前的所述匹配模式执行完毕。
在其中一实施例中,所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格,包括:
从全部所述单元格中去除预设区域内的所述单元格,所述预设区域包括指标文本区域、指标数据区域、时间维度区域中的至少一种;
从剩余的所述单元格中筛去已匹配单元格并确定待匹配单元格。
在其中一实施例中,在所述根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格的步骤后,所述Excel模型的解析方法还包括:
从全部的所述单元格中筛除所述目标单元格,得到非目标单元格;
根据所述依赖关系将所述非目标单元格关联到所述目标表格,以更新所述目标表格。
在其中一实施例中,所述根据所述目标单元格的所述特征属性和所述依赖关系确定业务指标和指标关系,包括:
根据所述目标单元格的所述特征属性确定多个业务指标名称;
根据各所述目标单元格的所述依赖关系,进行第一次遍历,对所述依赖关系中每一所述目标单元格的位置坐标建立一个到业务指标名称的映射关系;
进行第二次遍历,将每一所述映射关系中每一所述指标名称依赖的所述位置坐标,替换为对应的所述业务指标名称,确定表征公式含义的业务指标关系。
基于同一个发明构思,本发明还提供一种Excel模型的解析系统,包括:模型文件获取模块,用于获取待解析的Excel模型文件,所述待解析的Excel模型文件包括多个单元格;特征属性处理模块,用于提取每个所述单元格的特征属性和依赖关系;目标表格匹配模块,用于根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,所述目标表格包括目标单元格;业务指标解析模块,用于根据所述目标单元格的所述特征属性和所述依赖关系确定业务指标和指标关系。
基于同一个发明构思,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的Excel模型的解析方法。
基于同一个发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令用于使计算机执行如实现上述任一项所述的Excel模型的解析方法。
本发明提供的一种Excel模型的解析方法及系统,进行单元格特征属性和依赖关系提取,基于单元格的数据类型、公式、合并状态、样式、依赖关系等来辅助推断模型中有业务关联的区域,结合近邻移动匹配算法进行表格特征识别,能够进行勾稽关系、依赖关系、计算关系识别,完整识别Excel模型关系,从而能够更加完整的解析Excel模型中的关键信息,快速解析出模型结构;解耦了模型算法与模型展现,有效的将历史静态模型,转换为与显示无关的底层模型算法,进行结构化解析,能够快速利用大量的现有历史模型文件,快速转换为与其他决策系统集成的内部算法,有更多的手段能够多角度分析模型;并且,近邻移动匹配算法的匹配模式可以根据新的标准表格模式进行动态添加,可实现更多种类的Excel模型的结构化解析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种Excel模型的解析方法一实施例的流程示意图;
图2为本发明一种Excel模型的解析系统一实施例的结构示意图;
图3为本发明一实施例中电子设备的示意图。
具体实施方式
为使本发明所要解决的技术问题、技术方案及有益效果更为清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明一实施例提供一种Excel模型的解析方法,具体包括以下步骤:
S1:获取待解析的Excel模型文件,待解析的Excel模型文件包括多个单元格。
具体的,导入待解析的Excel模型文件时,可以使用任何允许访问Excel内部结构的技术,获取的待解析Excel模型文件中,包含至少一个有效Sheet页,任一有效sheet页中包含记录Excel模型内容的多个非空单元格。
S2:提取每个单元格的特征属性和依赖关系。
在本实施例中,特征属性包括基本属性和延展属性,提取每个单元格的特征属性和依赖关系的步骤,包括:提取每个单元格的基本属性,基本属性包括公式,根据基本属性确定对应单元格的延展属性,基于Excel公式文法将公式解析为公式语法树,确定单元格之间的依赖关系。
具体的,进行特征属性和依赖关系提取的单元格为有效Sheet页中的非空单元格。在提取的过程中,对于Excel模型文件中空白的或只有简单文本既没有数据也没有公式的Sheet页,作为明显不需要解析的内容进行滤除。
提取的基本属性属于单元格信息,包括值、公式、样式(如背景、前景、边框)、合并状态(如合并长度、合并宽度)等,每个单元格的基本属性对应的单元格位置信息为索引进行存储,单元格位置信息为单元格所在页、行、列。
单元格的延展属性包括时间属性、指标名称属性、指标值属性、标题属性等,根据基本属性确定对应单元格的延展属性,包括:对各单元格的基本属性进行检测,包括数据类型检测、公式检测和样式检测。例如,进行数据类型检测时,发现同一行上的单元格的值依次为2022、2021、2020……,那么就可对这一行各个单元格,标记上一个“时间属性”,又或者,进行样式检测时,某个单元格的文本是个粗体的文本,位于表格最上方的合并单元格中,就可对该合并单元格标记一个“标题属性”,又或者,进行公式检测时,某个单元格有公式,该公式引用了其他单元格的值,那么该单元格极有可能是个业务指标,就可标记一个“指标属性”。延展属性的检测可以采用NLP技术,即通过NLP技术判断文本是否具有对应的业务领域专有词汇含义,进而填充对应单元格的延展属性。
对于单元格基本属性中的公式,是可以直接从单元格中提取到公式表达式的,基于Excel公式文法,将公式解析为公式语法树,即可确定单元格之间的依赖关系。例如,某个单元格公式的表达式为“E5=E8+G5”,把这个表达式变成一颗公式语法树,就解析为公式语法树中节点E5引用节点E8和节点G5,然后在公式语法树上对应的增加语义或者程序方面的操作,表明节点E5是由节点E8和节点G5相加。公式语法树中的各个节点,通过对应单元格的位置信息进行表征。
在其他的实施例中,如果存在无法解析的公式,还可以通过人工标记单元格特征属性的方式,对公式的依赖关系进行提取。
S3:根据特征属性和预设的匹配模式从全部单元格中确定目标表格,目标表格包括目标单元格。
在本实施例中,根据特征属性和预设的匹配模式从全部单元格中确定目标表格的步骤包括:
S31:从多个待选择的匹配模式中选取一个作为当前的匹配模式,匹配模式包括多个匹配操作,每个匹配操作均包括移格方向、移格数量和属性匹配条件,属性匹配条件用于与单元格的特征属性进行匹配,移格方向和移格数量用于确定进行匹配的单元格。
S32:从全部单元格中筛去已匹配单元格并确定待匹配单元格。
S33:从待匹配单元格中选取一个作为初始的匹配起点,依次执行当前的匹配模式中的多个匹配操作,依次执行当前的匹配模式中的多个匹配操作具体包括:从全部的匹配操作中确定当前的匹配操作,根据当前的移动方向和当前的移格数量从当前的待匹配单元格移动至下一个待匹配单元格,将下一个待匹配单元格作为当前的待匹配单元格,确定当前的待匹配单元格的特征属性与当前的属性匹配条件是否匹配,在当前的待匹配单元格的特征属性与当前的属性匹配条件匹配的情况下,将依次的下一个匹配操作确定为当前的匹配操作,进入根据当前的移动方向和当前的移格数量从当前的待匹配单元格移动至下一个待匹配单元格,将下一个待匹配单元格作为当前的待匹配单元格的步骤,在当前的待匹配单元格的特征属性与当前的属性匹配条件不匹配的情况下,确定当前的匹配模式执行终止,在全部的匹配操作均执行完毕的情况下,确定当前的匹配模式执行完毕。
S34:在当前的匹配模式执行完毕的情况下,将与各匹配操作匹配的单元格确定为已匹配单元格和目标单元格,将下一个匹配模式作为当前的匹配模式,并进入从全部单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部单元格都确定为已匹配单元格或者任一待选择的匹配模式已相对全部单元格执行完毕/执行终止。
S35:在当前的匹配模式执行终止的情况下,将下一个匹配模式作为当前的匹配模式,并进入从全部单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部单元格都确定为已匹配单元格或者任一待选择的匹配模式已相对全部单元格执行完毕/执行终止。
在本实施例中,预设的匹配模式为近邻移动匹配模式,每个近邻移动匹配模式用于从Excel模型文件的有效Sheet页中,匹配出符合预定义标准表格模式的目标表格,即一个匹配模式执行完毕时确定的全部目标单元格,共同组成符合预定义标准表格模式的目标表格,预定义标准表格模式为预定义的具有特定特征的完整表格。根据特征属性和预设的匹配模式从全部单元格中确定目标表格,目的在于,根据预设的全部匹配模式,尽可能的将待解析Excel模型中符合任一种预定义标准表格模式的目标表格都确定出来,通过目标表格的匹配确定,能够更加完整的识别Excel模型关系,完整的解析Excel模型中的关键业务信息,因此,无论是当前匹配模式执行完毕,匹配到与某一标准表格模式相符的目标表格,还是当前匹配模式执行终止,Excel模型中没有与对应标准表格模式相符的目标表格,需要选择下一个匹配模式继续进行匹配,对于待解析的Excel模型,都需要把整个Sheet页上的非空单元格进行遍历,直到全部的非空单元格都已确定到其所对应的目标表格中,实际上,Excel模型中整个Sheet页上的非空单元格一般不会恰好都是组成目标表格的目标单元格,对于这种情况,一般是将待选择的匹配模式全部都执行匹配,无论匹配模式的执行情况(完毕/终止)如何,至少确保Sheet页中符合预定义的标准表格模式的目标表格,都能被匹配出来,不会遗漏。
近邻移动匹配模式根据近邻移动匹配算法进行设置,本发明的近邻移动匹配算法,是基于状态机实现的一个区域位置模式匹配算法,该算法包含三个基本操作,即:操作一,初始操作,任意指定一个单元格位置,为算法执行的初始位置;操作二,移动操作,根据预定义的标准表格模式的定义,跨越对应个长度对位置进行移动;操作三,条件匹配操作,该操作的属性匹配条件通过单元格的特征属性来指定,根据单元格的特征属性与指定的一个匹配条件是否相符来描述是否匹配成功,比如指定文本属性作为当前位置的属性匹配条件,以判断当前位置是否是一个具有文本属性的单元格,或者,指定当前位置是否包含一个时间轴区域作为属性匹配条件,每个匹配操作都包含了对应的操作二和操作三,即包含了对应的移格方向、移格数量和属性匹配条件。
本发明的近邻移动匹配算法,基于上述三个基本操作,定义如下表所示的可执行功能:
在本实施例中,预设的匹配模式为近邻移动匹配模式,近邻移动匹配模式根据近邻移动匹配算法进行设置,具体的,通过上述可执行功能,可以预先定义多个类型的标准表格模式,这些标准表格模式是Excel模型中常出现的表格形式,例如,定义一个基础横向的、纵向多维度的、包括横向时间维度的指标数据表格模式:
基于该指标数据表格模式,可以对应的配置一个用于确定待解析Excel模型的Sheet页中符合该指标数据表格模式的目标表格的匹配模式,关于该指标数据表格模式各个单元格匹配条件的定义对应的转换为匹配模式中各个匹配操作的属性匹配条件,进而通过该匹配模式匹配出有效sheet页中,符合该指标数据表格模式的全部目标单元格,即目标表格,然后从中目标表格中解析出业务指标信息。
在本实施例中,实际上,标准表格模式是可以动态添加的,当有新的Excel模型需要解析,而Excel模型中出现新的表格模式时,可以把想要解析的新的表格模式通过近邻移动匹配算法预定义为对应的标准表格模式,根据预定义的标准表格模式配置新的匹配模式和对应的匹配操作,对于想要解析的Excel模型,可以根据预定义的各类型标准表格模式将其拆解成多个标准表格模式,然后根据这些标准表格模式对应的匹配模式,配置对应的近邻移动匹配算法,实现各类目标表格的匹配,因此,可以根据实际Excel模型解析的需要,动态的添加多种预定义的标准表格模式,实现匹配模式的动态添加。预定义的标准表格模式对应的是具体的匹配模式和具体的匹配操作,因此在配置具体的匹配算法时,只需按照选取的标准表格模式对近邻移动匹配算法进行匹配模式的配置,让程序在启动时将所选取的标准表格模式所对应的匹配模式加载进近邻移动匹配算法中,就可以开始进行目标表格的匹配操作了。
在本实施例中,在根据特征属性和预设的匹配模式从全部单元格中确定目标表格的步骤后,Excel模型的解析方法还包括:从全部的单元格中筛除目标单元格,得到非目标单元格;根据依赖关系将非目标单元格关联到对应的目标表格,以更新目标表格。这一步的目的在于,根据Excel模型中单元格之间的依赖关系,将Excel模型中具有业务指标含义但又不能通过近邻移动匹配算法匹配出来的,即不满足标准表格模式的特殊布局单元格解析出来。
在其他的实施例中,步骤S32从全部单元格中筛去已匹配单元格并确定待匹配单元格,还可以是,先从全部单元格中去除预设区域内的单元格,预设区域包括指标文本区域、指标数据区域、时间维度区域中的至少一种,然后,从剩余的单元格中筛去已匹配单元格并确定待匹配单元格。这样的处理,是在提取每个单元格的特征属性和依赖关系之后,在根据近邻移动匹配模式匹配目标表格之前,将符合预设区域格式的单元格区域筛选出来,预设区域为预定义的具有特定规则的标准区域,是一般的Excel模型中通用的且格式单一的区域,如一整行或一整列都是指标文本的单元格区域(指标文本区域),或一整行或一整列都是年份或月份的单元格区域(时间维度区域),或紧挨着指标文本区域的一整行或一整列都是指标数据的单元格区域(指标数据区域),通过提前预设好这些标准区域的识别,可以先对目标表格中的一些单元格区域进行识别,使得标准区域可以作为后续近邻移动匹配算法的匹配条件,在应用近邻移动匹配算法进行目标表格的匹配时,符合预设标准区域的单元格区域无需再单个单元格的进行匹配,减少了近邻移动匹配算法的匹配工作,达到了提升效率和节省工作量的效果。
S4:根据目标单元格的特征属性和依赖关系确定业务指标和指标关系。
在本实施例中,步骤S4具体包括根据目标单元格的特征属性确定多个业务指标名称和业务指标值;根据各目标单元格的依赖关系,进行第一次遍历,对依赖关系中每一目标单元格的位置坐标建立一个到业务指标名称的映射关系,进行第二次遍历,将每一映射关系中每一指标名称依赖的位置坐标,替换为对应的业务指标名称,确定表征公式含义的业务指标关系,识别出能够表征Excel模型业务含义的业务指标名称、业务指标值、业务指标运算公式等业务信息。
本发明提供的Excel模型的解析方法,进行单元格特征属性和依赖关系提取,基于单元格的数据类型、公式、合并状态、样式、依赖关系等来辅助推断模型中有业务关联的区域,结合近邻移动匹配算法进行表格特征识别,能够进行勾稽关系、依赖关系、计算关系识别,完整识别Excel模型关系,从而能够更加完整的解析Excel模型中的关键信息,快速解析出模型结构;解耦了模型算法与模型展现,有效的将历史静态模型,转换为与显示无关的底层模型算法,进行结构化解析,能够快速利用大量的现有历史模型文件,快速转换为与其他决策系统集成的内部算法,有更多的手段能够多角度分析模型;并且,近邻移动匹配算法的匹配模式可以根据新的标准表格模式进行动态添加,可实现更多种类的Excel模型的结构化解析。
如图2所示,基于同一发明构思,与上述实施例方法相对应的,本发明一实施例还提供了一种Excel模型的解析系统,包括:
模型文件获取模块10,用于获取待解析的Excel模型文件,待解析的Excel模型文件包括多个单元格;
特征属性处理模块20,用于提取每个单元格的特征属性和依赖关系;
目标表格匹配模块30,用于根据特征属性和预设的匹配模式从全部单元格中确定目标表格,目标表格包括目标单元格;
业务指标解析模块40,用于根据目标单元格的特征属性和依赖关系确定业务指标和指标关系。
上述实施例的系统用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本发明一实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述的Excel模型的解析方法。
图3示出了本实施例所提供的一种更为具体的电子设备硬件示意图,该设备可以包括:处理器100、存储器200、输入/输出接口300、通信接口400和总线500。其中处理器100、存储器200、输入/输出接口300与通信接口400、总线500实现彼此之间在设备内部的通信连接。
处理器100可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案。
存储器200可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备、动态存储设备等形式实现。存储器200可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明实施例所提供的技术方案时,相关的程序代码保存在存储器200中,并由处理器100来调用执行。
输入/输出接口300用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触控屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口400用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线500包括一通路,在设备的各个组件(例如处理器100、存储器200,输入/输出接口300和通信接口400)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器100、存储器200、输入/输出接口300、通信接口400以及总线500,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
基于同一发明构思,与上述任意实施例方法相对应的,本发明一实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行如上述实施例所述的Excel模型的解析方法。
本实施例的计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储;该信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。
上述实施例的计算机存储介质存储的计算机指令用于使计算机执行如上实施例所述的Excel模型的解析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明实施例的,不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明实施例旨在涵盖落入本发明的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种Excel模型的解析方法,其特征在于,包括:
获取待解析的Excel模型文件,所述待解析的Excel模型文件包括多个单元格;
提取每个所述单元格的特征属性和依赖关系;
根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,所述目标表格包括目标单元格;
所述根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,包括:从多个待选择的所述匹配模式中选取一个作为当前的所述匹配模式,所述匹配模式包括多个匹配操作,每个所述匹配操作均包括移格方向、移格数量和属性匹配条件,所述属性匹配条件用于与所述单元格的所述特征属性进行匹配,所述移格方向和所述移格数量用于确定进行匹配的所述单元格;从全部所述单元格中筛去已匹配单元格并确定待匹配单元格;从所述待匹配单元格中选取一个作为初始的匹配起点,依次执行当前的所述匹配模式中的多个所述匹配操作;在当前的所述匹配模式执行完毕的情况下,将与各所述匹配操作匹配的所述单元格确定为所述已匹配单元格和所述目标单元格,将下一个所述匹配模式作为当前的所述匹配模式,并进入所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部所述单元格都确定为已匹配单元格,或者,任一待选择的所述匹配模式已相对全部所述单元格执行完毕或执行终止;在当前的所述匹配模式执行终止的情况下,将下一个所述匹配模式作为当前的所述匹配模式,并进入所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部所述单元格都确定为已匹配单元格,或者,任一待选择的所述匹配模式已相对全部所述单元格执行完毕或执行终止;
根据所述目标单元格的所述特征属性和所述依赖关系确定业务指标和指标关系。
2.如权利要求1所述的Excel模型的解析方法,其特征在于,所述特征属性包括基本属性和延展属性,所述提取每个所述单元格的特征属性和依赖关系,包括:
提取每个所述单元格的所述基本属性,所述基本属性包括公式;
根据所述基本属性确定对应所述单元格的所述延展属性;
基于Excel公式文法将所述公式解析为公式语法树,确定所述单元格之间的依赖关系。
3.如权利要求1所述的Excel模型的解析方法,其特征在于,所述依次执行当前的所述匹配模式中的多个所述匹配操作,包括:
从全部的所述匹配操作中确定当前的所述匹配操作;
根据当前的所述移格方向和当前的所述移格数量从当前的所述待匹配单元格移动至下一个所述待匹配单元格,将下一个所述待匹配单元格作为当前的所述待匹配单元格;
确定当前的所述待匹配单元格的特征属性与当前的所述属性匹配条件是否匹配;
在当前的所述待匹配单元格的特征属性与当前的所述属性匹配条件匹配的情况下,将依次的下一个所述匹配操作确定为当前的所述匹配操作,进入根据当前的移格方向和当前的所述移格数量从当前的所述待匹配单元格移动至下一个所述待匹配单元格,将下一个所述待匹配单元格作为当前的所述待匹配单元格的步骤;
在当前的所述待匹配单元格的特征属性与当前的所述属性匹配条件不匹配的情况下,确定当前的所述匹配模式执行终止;
在全部的所述匹配操作均执行完毕的情况下,确定当前的所述匹配模式执行完毕。
4.如权利要求1所述的Excel模型的解析方法,其特征在于,所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格,包括:
从全部所述单元格中去除预设区域内的所述单元格,所述预设区域包括指标文本区域、指标数据区域、时间维度区域中的至少一种;
从剩余的所述单元格中筛去已匹配单元格并确定待匹配单元格。
5.如权利要求1-4任一项所述的Excel模型的解析方法,其特征在于,在所述根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格的步骤后,所述Excel模型的解析方法还包括:
从全部的所述单元格中筛除所述目标单元格,得到非目标单元格;
根据所述依赖关系将所述非目标单元格关联到所述目标表格,以更新所述目标表格。
6.如权利要求1-4任一项所述的Excel模型的解析方法,其特征在于,所述根据所述目标单元格的所述特征属性和所述依赖关系确定业务指标和指标关系,包括:
根据所述目标单元格的所述特征属性确定多个业务指标名称;
根据各所述目标单元格的所述依赖关系,进行第一次遍历,对所述依赖关系中每一所述目标单元格的位置坐标建立一个到业务指标名称的映射关系;
进行第二次遍历,将每一所述映射关系中每一所述业务指标名称依赖的所述位置坐标,替换为对应的所述业务指标名称,确定表征公式含义的业务指标关系。
7.一种Excel模型的解析系统,其特征在于,包括:
模型文件获取模块,用于获取待解析的Excel模型文件,所述待解析的Excel模型文件包括多个单元格;
特征属性处理模块,用于提取每个所述单元格的特征属性和依赖关系;
目标表格匹配模块,用于根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,所述目标表格包括目标单元格;所述根据所述特征属性和预设的匹配模式从全部所述单元格中确定目标表格,包括:从多个待选择的所述匹配模式中选取一个作为当前的所述匹配模式,所述匹配模式包括多个匹配操作,每个所述匹配操作均包括移格方向、移格数量和属性匹配条件,所述属性匹配条件用于与所述单元格的所述特征属性进行匹配,所述移格方向和所述移格数量用于确定进行匹配的所述单元格;从全部所述单元格中筛去已匹配单元格并确定待匹配单元格;从所述待匹配单元格中选取一个作为初始的匹配起点,依次执行当前的所述匹配模式中的多个所述匹配操作;在当前的所述匹配模式执行完毕的情况下,将与各所述匹配操作匹配的所述单元格确定为所述已匹配单元格和所述目标单元格,将下一个所述匹配模式作为当前的所述匹配模式,并进入所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部所述单元格都确定为已匹配单元格,或者,任一待选择的所述匹配模式已相对全部所述单元格执行完毕或执行终止;在当前的所述匹配模式执行终止的情况下,将下一个所述匹配模式作为当前的所述匹配模式,并进入所述从全部所述单元格中筛去已匹配单元格并确定待匹配单元格的步骤,直到全部所述单元格都确定为已匹配单元格,或者,任一待选择的所述匹配模式已相对全部所述单元格执行完毕或执行终止;
业务指标解析模块,用于根据所述目标单元格的所述特征属性和所述依赖关系确定业务指标和指标关系。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的Excel模型的解析方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,其特征在于,所述计算机指令用于使计算机执行如权利要求1至6中任一项所述的Excel模型的解析方法。
CN202211138089.9A 2022-09-19 2022-09-19 一种Excel模型的解析方法及系统 Active CN115310407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211138089.9A CN115310407B (zh) 2022-09-19 2022-09-19 一种Excel模型的解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211138089.9A CN115310407B (zh) 2022-09-19 2022-09-19 一种Excel模型的解析方法及系统

Publications (2)

Publication Number Publication Date
CN115310407A CN115310407A (zh) 2022-11-08
CN115310407B true CN115310407B (zh) 2023-09-08

Family

ID=83866701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211138089.9A Active CN115310407B (zh) 2022-09-19 2022-09-19 一种Excel模型的解析方法及系统

Country Status (1)

Country Link
CN (1) CN115310407B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985201A (zh) * 2020-08-19 2020-11-24 支付宝(杭州)信息技术有限公司 一种数据处理规则生成方法、装置及电子设备
CN113420537A (zh) * 2021-06-22 2021-09-21 平安科技(深圳)有限公司 电子表格数据处理方法、装置、设备及存储介质
CN113505580A (zh) * 2021-07-26 2021-10-15 京东科技控股股份有限公司 表格文件的解析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985201A (zh) * 2020-08-19 2020-11-24 支付宝(杭州)信息技术有限公司 一种数据处理规则生成方法、装置及电子设备
CN113420537A (zh) * 2021-06-22 2021-09-21 平安科技(深圳)有限公司 电子表格数据处理方法、装置、设备及存储介质
CN113505580A (zh) * 2021-07-26 2021-10-15 京东科技控股股份有限公司 表格文件的解析方法和装置

Also Published As

Publication number Publication date
CN115310407A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
EP3588279B1 (en) Automated extraction of rules embedded in software application code using machine learning
CN111078221B (zh) 页面颜色主题的切换方法、装置、存储介质及电子设备
CN103488482A (zh) 一种生成测试用例的方法和装置
CN107451112B (zh) 表格工具数据检查方法、装置、终端设备及存储介质
CN108804458A (zh) 一种爬虫网页采集方法和装置
CN110705226A (zh) 电子表格的创建方法、装置及计算机设备
CN108664471A (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN111190880B (zh) 一种数据库检测方法、装置和计算机可读存储介质
CN110532773B (zh) 恶意访问行为识别方法、数据处理方法、装置和设备
CN103235757B (zh) 基于自动化造数对输入域测试对象进行测试的装置和方法
CN116682130A (zh) 图签信息的提取方法、装置、设备及可读存储介质
CN107832271B (zh) 函数图像绘制方法、装置、设备及计算机存储介质
CN115310407B (zh) 一种Excel模型的解析方法及系统
CN112800371A (zh) 一种处理web网页内电子表格数据的方法及装置
CN117033309A (zh) 一种数据转换方法、装置、电子设备及可读存储介质
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN114185958B (zh) 血缘关系生成方法、装置、计算机设备和存储介质
CN115129590A (zh) 一种测试用例的生成方法及装置、电子设备、存储介质
CN105740260A (zh) 提取模板文件数据结构的方法和装置
CN114296726A (zh) 一种代码生成方法、装置、计算机设备和存储介质
CN113001538B (zh) 一种命令解析方法及系统
CN113312895A (zh) 自治系统as的组织机构映射方法、装置及电子设备
CN113127408A (zh) 数据转换方法及装置
CN112288585B (zh) 保险业务精算数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant