CN110502516A - 表格数据解析方法、装置、计算机设备及存储介质 - Google Patents
表格数据解析方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110502516A CN110502516A CN201910777799.8A CN201910777799A CN110502516A CN 110502516 A CN110502516 A CN 110502516A CN 201910777799 A CN201910777799 A CN 201910777799A CN 110502516 A CN110502516 A CN 110502516A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- parsing
- similarity
- gauge outfit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了表格数据解析方法、装置、计算机设备及存储介质。方法包括:根据相似度计算模型获取待解析表格中每一行数据与必要字段对应的相似度信息,并对相似度信息进行判断以确定表头行数据,根据解析映射集中与表头行数据对应的解析映射关系对待解析表格进行解析得到标准数据表,或根据相似度计算模型获取预置解析策略库中与表头行数据对应的标准解析字段,根据标准解析字段对应的解析策略对待解析表格进行解析以得到标准数据表。通过上述方法,可避免因传统方法中解析代码难以进行维护而影响解析效率,可快速确定待解析表格的表头行数据,并获取与待解析表格对应的解析映射关系或标准解析字段,大幅提高了对表格数据进行解析的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种表格数据解析方法、装置、计算机设备及存储介质。
背景技术
交易信息可记载于银行流水文件中,流水文件以表格的形式进行呈现,但不同银行所提供的表格中数据格式存在差异,为对企业的资产进行核算需获取多个银行所提供的流水文件,而在对格式繁多的流水文件进行处理时耗时耗力。为方便对不同格式的流水文件进行处理,可对流水文件中的数据进行解析以得到格式统一的数据,传统的解析方法通过解析代码对流水文件进行解析,若某一格式的流水文件无法通过解析代码进行解析,则需根据该格式对解析代码进行更新,解析代码增加至一定量后导致复杂度过高而难以进行更新维护,将直接影响对流水文件进行解析的效率。因而,现有的表格数据解析方法存在解析效率不高的问题。
发明内容
本发明实施例提供了一种表格数据解析方法、装置、计算机设备及存储介质,旨在解决现有技术方法中表格数据解析方法所存在的解析效率不高的问题。
第一方面,本发明实施例提供了一种表格数据解析方法,其包括:
若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息;
根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据;
判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系;
若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表;
若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段;
根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
第二方面,本发明实施例提供了一种表格数据解析装置,其包括:
相似度信息获取单元,用于若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息;
相似度信息判断单元,用于根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据;
解析映射关系匹配单元,用于判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系;
第一表格解析单元,用于若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表;
标准解析字段匹配单元,用于若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段;
第二表格解析单元,用于根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的表格数据解析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的表格数据解析方法。
本发明实施例提供了一种表格数据解析方法、装置、计算机设备及存储介质。根据相似度计算模型获取待解析表格中每一行数据与必要字段对应的相似度信息,并对相似度信息进行判断以确定表头行数据,根据解析映射集中与表头行数据对应的解析映射关系对待解析表格进行解析得到标准数据表,或根据相似度计算模型获取预置解析策略库中与表头行数据对应的标准解析字段,根据标准解析字段对应的解析策略对待解析表格进行解析以得到标准数据表。通过上述方法,可避免因传统方法中解析代码难以进行维护而影响解析效率,可快速确定待解析表格的表头行数据,并获取与待解析表格对应的解析映射关系或标准解析字段,大幅提高了对表格数据进行解析的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的表格数据解析方法的流程示意图;
图2为本发明实施例提供的表格数据解析方法的子流程示意图;
图3为本发明实施例提供的表格数据解析方法的另一流程示意图;
图4为本发明实施例提供的表格数据解析方法的另一子流程示意图;
图5为本发明实施例提供的表格数据解析方法的另一子流程示意图;
图6为本发明实施例提供的表格数据解析装置的示意性框图;
图7为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的表格数据解析方法的流程示意图。该表格数据解析方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行表格数据解析方法以对表格中的数据进行解析的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示,该方法包括步骤S110~S160。
S110、若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息。
若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息。待解析表格由多行数据组成,每一行所包含的数据即组成一条行数据,待解析表格中包含表头行数据,表头行数据中包含多个数据字段,每一数据字段对应待解析表格中的一列,待解析表格中其他行数据则分别为与相应数据字段对应的字段值,数据字段及字段值统统一视为待解析表格中的数据信息。
例如,某一待解析表格如表1所示。
交易日期 | 交易时间 | 交易账号 | 交易金额 | 账户余额 | 备注 |
2018-11-03 | 13:05:33 | 6315XXXX | -600.00 | 13836.20 | 转账 |
2018-11-10 | 00:02:10 | 6212XXXX | +7316.12 | 21152.32 | 代发工资 |
2018-11-11 | 08:12:28 | 4581XXXX | -5.50 | 21146.82 | 转账 |
表1
表头行数据即为待解析表格的流水元数据,通过获取流水元数据即可确定该待解析表格中所包含的具体内容,表头行数据在待解析表格中的哪一行并不固定,而表头行数据与其他行数据均为文本信息,因此可基于行数据中的文本信息获取待解析表格的表头行数据。必要字段即是用于对表头行数据与其他行数据进行区分的字段,必要字段可适用于对所有数据格式对应的表格进行判断,不同数据格式的表头行数据中均包含与每一必要字段对应的信息,其他行数据中仅包含与部分必要字段对应的信息或不包含与任一必要字段对应的信息,必要字段中可以为一个或多个,每一必要字段对应一个或多个关键词,若某一必要字段对应多个关键词,则获取该必要字段中与数据信息相似度最高的关键词的相似度,作为该数据信息与该必要字段的相似度。相似度计算模型即是用于获取两个字符串之间相似度的模型,由多个字符所组成的文本信息均可视为字符串,相似度计算模型包括编辑距离获取规则及相似度计算公式。
在一实施例中,如图2所示,步骤S110包括子步骤S111、S112和S113。
S111、根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED。
根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED。编辑距离也称莱文斯坦距离(Levenshtein distance),两个字符串之间的编辑距离即为一个字符串变成另一个字符串的过程中需对单个字符进行编辑的最少编辑次数,编辑的方式包括删除、加入或取代字符串中的任意一个字符,编辑距离获取规则即可获取两个字符串之间的编辑距离,可采用递归法、全矩阵迭代法或两行迭代法作为编辑距离获取规则,不同方法获取到的编辑距离均相同。若某一必要字段对应一个或多个关键词,则获取该必要字段中与数据信息编辑距离最小的一个关键词的作为目标关键词,并获取该数据信息与该目标关键词的编辑距离。
例如,某一必要字段“交易金额”对应的两个关键词分别为“交易金额”及“Transeation amount”,某一行数据所包含的一个数据信息为“Transeation-amount”,则该数据信息与该必要字段之间的编辑距离ED为1,目标关键词为“Transeation amount”。
S112、获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax。
获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax。具体的,获取必要字段中与该数据信息编辑距离最小的关键字作为目标关键字,并分别获取该数据信息及目标关键字的字符数,取其中字符数较多字段的字符数记为Lmax。
例如,目标关键词“Transeation amount”的字符数为18,数据信息“Transeation-amount”的字符数也为18,则Lmax为18。
S113、根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。
根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。获取到编辑距离ED及字符数较多字段的字符数Lmax后,即可根据上述相似度计算公式计算该数据信息与必要字段之间的相似度S。
例如,编辑距离ED为1,Lmax为18,则相似度S=1-1/18=94.44%。
S120、根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据。
根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据。相似度判断规则即是用于对每一行数据的相似度信息进行判断的规则信息,若某一行数据的相似度信息满足相似度判断规则,则可将该行数据作为表头行数据,获取到表头行数据后即可对该表头行数据在待解析表格中所处的位置进行定位。具体的,相似度判断规则可以是对每一必要字段在某一行数据中是否均对应至少一个相似度大于判断阈值的数据信息,若每一必要字段在某一行数据中均对应至少一个相似度大于判断阈值的数据信息,则表明在该行数据中存在与每一必要字段相对应的数据信息,将该行数据作为满足相似度判断规则的表头行数据;若每一必要字段在某一行数据中不均对应至少一个相似度大于判断阈值的数据信息,则表明该行数据中仅包含与部分必要字段对应的信息或不包含与任一必要字段对应的信息,该行数据不满足相似度判断规则。
例如,在相似度判断规则中设置判断阈值为90%,若每一必要字段在某一行数据中均对应至少一个相似度大于90%的数据信息,则判断该行数据满足相似度判断规则。
S130、判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系。
判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系。解析映射集中包含多种相对固定的解析映射关系,由于银行所提供的流水文件的数据格式不会轻易发生变更,因此可将与某一数据格式对应的解析方法进行整理得到相应的解析映射关系,数据格式的特征体现于与该数据格式相匹配的表头行数据中,因此每一解析映射关系即对应一种数据格式的表头行数据。表头行数据按列进行划分后即可得到该表头行数据中所包含的多个数据字段,每一数据字段对应表头行数据中的一列,通过表头行数据中所包含的数据字段即可对解析映射集中每一解析映射关系是否与该表头行数据相匹配进行判断。具体的,每一解析映射关系中包含多个解析字段及每一解析字段对应的解析策略,若表头行数据中所包含的数据字段与某一解析映射关系中所包含的解析字段一一对应,则该解析映射关系与该表头行数据相匹配。
S140、若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。其中,解析映射关系中包含多个解析字段及每一解析字段对应的解析策略,解析策略包括与解析字段对应的字段转换映射及数据转换映射,由于已明确表头行数据在待解析表格中所处的位置,因此可对待解析表格中的表头行数据与其他行数据进行明确区分,根据字段转换映射对表头行数据进行解析,根据数据转换映射对待解析数据表中其他行数据进行解析,不同数据格式的待解析表格通过与之相匹配的解析映射关系进行解析后,均能得到数据格式统一的标准数据表。
在一实施例中,如图3所示,步骤S140包括子步骤S141、S142和S143。
S141、根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段。
根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段。每一解析字段对应一个字段转换映射,字段转换映射即为将与解析字段对应的数据字段转换为标准字段的映射关系。
例如,某一字段转换映射为“交易金额→交易类型金额”,则根据该字段转换映射需将表1中的“交易金额”这一数据字段对应转换为“交易类型”及“金额”两个标准字段。
S142、根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值。
根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值。每一解析字段还对应一个数据转换映射,数据转换映射即为将与解析字段对应数据字段中的字段值转换为标准字段值的映射关系。
例如,某一数据转换映射为“交易金额:+/-XXX→交易类型:收入/支出金额:XXX”,根据该数据转换映射需将表1中交易金额为“-600.00”的字段值拆分为“支出”及“600.00”。
S143、将所述标准字段值添加至对应标准字段所在列以得到标准数据表。
将所述标准字段值添加至对应标准字段所在列以得到标准数据表。具体的,若某一解析字段对应一个标准字段及一列标准字段值,将该列标准字段值添加至该标准字段所在的列,即可得到标准数据表;若某一解析字段对应多个标准字段及多列标准字段值,将多列标准字段值依次添加至多个标准字段所在的列,即可得到标准数据表。
例如,标准字段为“交易类型”及“金额”,对应得到的标准字段值为“支出”及“600.00”,则将“支出”添加至“交易类型”所在列,“600”添加至“金额”所在列。
S150、若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段。
若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段。具体的,预置解析策略库中包含多个标准解析字段及每一标准解析字段对应的解析策略,若未获取到与表头行数据相匹配的解析映射关系,则可根据相似度计算模型计算数据字段与预置解析策略库中每一标准解析字段之间的相似度,并根据计算结果获取与每一数据字段相匹配的标准解析字段。
在一实施例中,如图4所示,步骤S150包括子步骤S151、S152和S153。
S151、根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度。
根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度。相似度计算模型包括编辑距离获取规则及相似度计算公式,计算过程包括:根据编辑距离获取规则获取数据字段与某一标准解析字段之间的编辑距离;获取该数据字段与该标准解析字段中字符数较多的字段的字符数;根据相似度计算公式计算该数据字段与该标准解析字段之间的相似度,具体的计算过程同上述步骤,在此不作赘述。
S152、判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果。
判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果。若数据字段与某一标准解析字段之间的相似度大于预置相似度阈值,则表明该数据字段与该标准解析字段之间关联性较强;若数据字段与某一标准解析字段之间的相似度不大于相似度阈值,则表明该数据字段与该标准字段之间关联性较弱。获取数据字段与每一标准解析字段之间的相似度,并判断相似度大于相似度阈值的数据是否大于零以得到该数据字段的数量判断结果。
S153、若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段。
若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段,通过上述方法即可获取每一数据字段对应的标准解析字段。若所述数据字段的数量判断结果为否,则向用户反馈提示信息以提示用户无法对该待解析表格进行解析。
S160、根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。若未向用户反馈提示信息,则表明表头行数据中每一数据字段均能获取到与之相匹配的标准解析字段,则可根据标准解析字段对应的解析策略对待解析表格进行解析。其中,标准解析字段对应的解析策略中包括与标准解析字段对应的字段转换映射及数据转换映射。通过标准解析字段对应的解析策略对待解析表格中所包含的数据信息进行解析后,即可得到对应的标准数据表,具体的,根据表头行数据在待解析表格中所处的位置对表头行数据与其他行数据进行区分,根据字段转换映射对表头行数据进行解析,根据数据转换映射对待解析数据表中其他行数据进行解析,具体的解析方式同上述步骤中的解析方式,在此不作赘述。
在一实施例中,如图5所示,步骤S160之后还包括步骤S170。
S170、根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。
根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。具体的,表头行数据中每一数据字段与一个标准解析字段相对应,因此可根据解析字段与表头行数据中数据字段的对应关系,将解析字段及对应解析策略与表头行数据中所包含的数据字段进行组合,以生成相应的解析映射关系并添加至解析映射集中,若再次对与该表头行数据的数据类型相同的表格进行解析时,则可从直接从解析映射集中匹配到与该数据类型相同的解析映射关系对该表格进行解析。
在本发明实施例所提供的表格数据解析方法中,根据相似度计算模型获取待解析表格中每一行数据与必要字段对应的相似度信息,并对相似度信息进行判断以确定表头行数据,根据解析映射集中与表头行数据对应的解析映射关系对待解析表格进行解析得到标准数据表,或根据相似度计算模型获取预置解析策略库中与表头行数据对应的标准解析字段,根据标准解析字段对应的解析策略对待解析表格进行解析以得到标准数据表。通过上述方法,可避免因传统方法中解析代码难以进行维护而影响解析效率,可快速确定待解析表格的表头行数据,并获取与待解析表格对应的解析映射关系或标准解析字段,大幅提高了对表格数据进行解析的效率。
本发明实施例还提供一种表格数据解析装置,该表格数据解析装置用于执行前述表格数据解析方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的表格数据解析装置的示意性框图。该表格数据解析装置可以配置于用户终端中。
如图6所示,表格数据解析装置100包括相似度信息获取单元110、相似度信息判断单元120、解析映射关系匹配单元130、第一表格解析单元140、标准解析字段匹配单元150和第二表格解析单元160。
相似度信息获取单元110,用于若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息。
若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息。待解析表格由多行数据组成,每一行所包含的数据即组成一条行数据,待解析表格中包含表头行数据,表头行数据中包含多个数据字段,每一数据字段对应待解析表格中的一列,待解析表格中其他行数据则分别为与相应数据字段对应的字段值,数据字段及字段值统统一视为待解析表格中的数据信息。
表头行数据即为待解析表格的流水元数据,通过获取流水元数据即可确定该待解析表格中所包含的具体内容,表头行数据在待解析表格中的哪一行并不固定,而表头行数据与其他行数据均为文本信息,因此可基于行数据中的文本信息获取待解析表格的表头行数据。必要字段即是用于对表头行数据与其他行数据进行区分的字段,必要字段可适用于对所有数据格式对应的表格进行判断,不同数据格式的表头行数据中均包含与每一必要字段对应的信息,其他行数据中仅包含与部分必要字段对应的信息或不包含与任一必要字段对应的信息,必要字段中可以为一个或多个,每一必要字段对应一个或多个关键词,若某一必要字段对应多个关键词,则获取该必要字段中与数据信息相似度最高的关键词的相似度,作为该数据信息与该必要字段的相似度。相似度计算模型即是用于获取两个字符串之间相似度的模型,由多个字符所组成的文本信息均可视为字符串,相似度计算模型包括编辑距离获取规则及相似度计算公式。
其他发明实施例中,所述相似度信息获取单元110包括子单元:编辑距离获取单元、字符数确定单元和计算单元。
编辑距离获取单元,用于根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED。
根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED。编辑距离也称莱文斯坦距离(Levenshtein distance),两个字符串之间的编辑距离即为一个字符串变成另一个字符串的过程中需对单个字符进行编辑的最少编辑次数,编辑的方式包括删除、加入或取代字符串中的任意一个字符,编辑距离获取规则即可获取两个字符串之间的编辑距离,可采用递归法、全矩阵迭代法或两行迭代法作为编辑距离获取规则,不同方法获取到的编辑距离均相同。若某一必要字段对应一个或多个关键词,则获取该必要字段中与数据信息编辑距离最小的一个关键词的作为目标关键词,并获取该数据信息与该目标关键词的编辑距离。
字符数确定单元,用于获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax。
获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax。具体的,获取必要字段中与该数据信息编辑距离最小的关键字作为目标关键字,并分别获取该数据信息及目标关键字的字符数,取其中字符数较多字段的字符数记为Lmax。
计算单元,用于根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。
根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。获取到编辑距离ED及字符数较多字段的字符数Lmax后,即可根据上述相似度计算公式计算该数据信息与必要字段之间的相似度S。
相似度信息判断单元120,用于根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据。
根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据。相似度判断规则即是用于对每一行数据的相似度信息进行判断的规则信息,若某一行数据的相似度信息满足相似度判断规则,则可将该行数据作为表头行数据,获取到表头行数据后即可对该表头行数据在待解析表格中所处的位置进行定位。具体的,相似度判断规则可以是对每一必要字段在某一行数据中是否均对应至少一个相似度大于判断阈值的数据信息,若每一必要字段在某一行数据中均对应至少一个相似度大于判断阈值的数据信息,则表明在该行数据中存在与每一必要字段相对应的数据信息,将该行数据作为满足相似度判断规则的表头行数据;若每一必要字段在某一行数据中不均对应至少一个相似度大于判断阈值的数据信息,则表明该行数据中仅包含与部分必要字段对应的信息或不包含与任一必要字段对应的信息,该行数据不满足相似度判断规则。
解析映射关系匹配单元130,用于判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系。
判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系。解析映射集中包含多种相对固定的解析映射关系,由于银行所提供的流水文件的数据格式不会轻易发生变更,因此可将与某一数据格式对应的解析方法进行整理得到相应的解析映射关系,数据格式的特征体现于与该数据格式相匹配的表头行数据中,因此每一解析映射关系即对应一种数据格式的表头行数据。表头行数据按列进行划分后即可得到该表头行数据中所包含的多个数据字段,每一数据字段对应表头行数据中的一列,通过表头行数据中所包含的数据字段即可对解析映射集中每一解析映射关系是否与该表头行数据相匹配进行判断。具体的,每一解析映射关系中包含多个解析字段及每一解析字段对应的解析策略,若表头行数据中所包含的数据字段与某一解析映射关系中所包含的解析字段一一对应,则该解析映射关系与该表头行数据相匹配。
第一表格解析单元140,用于若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。其中,解析映射关系中包含多个解析字段及每一解析字段对应的解析策略,解析策略包括与解析字段对应的字段转换映射及数据转换映射,由于已明确表头行数据在待解析表格中所处的位置,因此可对待解析表格中的表头行数据与其他行数据进行明确区分,根据字段转换映射对表头行数据进行解析,根据数据转换映射对待解析数据表中其他行数据进行解析,不同数据格式的待解析表格通过与之相匹配的解析映射关系进行解析后,均能得到数据格式统一的标准数据表。
其他发明实施例中,所述第一表格解析单元140包括子单元:标准字段获取单元、标准字段值获取单元和标准数据表获取单元。
标准字段获取单元,用于根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段。
根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段。每一解析字段对应一个字段转换映射,字段转换映射即为将与解析字段对应的数据字段转换为标准字段的映射关系。
标准字段值获取单元,用于根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值。
根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值。每一解析字段还对应一个数据转换映射,数据转换映射即为将与解析字段对应数据字段中的字段值转换为标准字段值的映射关系。
标准数据表获取单元,用于将所述标准字段值添加至对应标准字段所在列以得到标准数据表。
将所述标准字段值添加至对应标准字段所在列以得到标准数据表。具体的,若某一解析字段对应一个标准字段及一列标准字段值,将该列标准字段值添加至该标准字段所在的列,即可得到标准数据表;若某一解析字段对应多个标准字段及多列标准字段值,将多列标准字段值依次添加至多个标准字段所在的列,即可得到标准数据表。
标准解析字段匹配单元150,用于若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段。
若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段。具体的,预置解析策略库中包含多个标准解析字段及每一标准解析字段对应的解析策略,若未获取到与表头行数据相匹配的解析映射关系,则可根据相似度计算模型计算数据字段与预置解析策略库中每一标准解析字段之间的相似度,并根据计算结果获取与每一数据字段相匹配的标准解析字段。
其他发明实施例中,所述标准解析字段匹配单元150包括子单元:相似度计算单元、数量判断单元和标准解析字段获取单元。
相似度计算单元,用于根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度。
根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度。相似度计算模型包括编辑距离获取规则及相似度计算公式,计算过程包括:根据编辑距离获取规则获取数据字段与某一标准解析字段之间的编辑距离;获取该数据字段与该标准解析字段中字符数较多的字段的字符数;根据相似度计算公式计算该数据字段与该标准解析字段之间的相似度,具体的计算过程同上述步骤,在此不作赘述。
数量判断单元,用于判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果。
判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果。若数据字段与某一标准解析字段之间的相似度大于预置相似度阈值,则表明该数据字段与该标准解析字段之间关联性较强;若数据字段与某一标准解析字段之间的相似度不大于相似度阈值,则表明该数据字段与该标准字段之间关联性较弱。获取数据字段与每一标准解析字段之间的相似度,并判断相似度大于相似度阈值的数据是否大于零以得到该数据字段的数量判断结果
标准解析字段获取单元,用于若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段。
若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段,通过上述方法即可获取每一数据字段对应的标准解析字段。若所述数据字段的数量判断结果为否,则向用户反馈提示信息以提示用户无法对该待解析表格进行解析。
第二表格解析单元160,用于根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。若未向用户反馈提示信息,则表明表头行数据中每一数据字段均能获取到与之相匹配的标准解析字段,则可根据标准解析字段对应的解析策略对待解析表格进行解析。其中,标准解析字段对应的解析策略中包括与标准解析字段对应的字段转换映射及数据转换映射。通过标准解析字段对应的解析策略对待解析表格中所包含的数据信息进行解析后,即可得到对应的标准数据表,具体的,根据表头行数据在待解析表格中所处的位置对表头行数据与其他行数据进行区分,根据字段转换映射对表头行数据进行解析,根据数据转换映射对待解析数据表中其他行数据进行解析,具体的解析方式同上述步骤中的解析方式,在此不作赘述。
其他发明实施例中,所述表格数据解析装置100包括子单元:解析映射关系生成单元。
解析映射关系生成单元,用于根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。
根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。具体的,表头行数据中每一数据字段与一个标准解析字段相对应,因此可根据解析字段与表头行数据中数据字段的对应关系,将解析字段及对应解析策略与表头行数据中所包含的数据字段进行组合,以生成相应的解析映射关系并添加至解析映射集中,若再次对与该表头行数据的数据类型相同的表格进行解析时,则可从直接从解析映射集中匹配到与该数据类型相同的解析映射关系对该表格进行解析。
在本发明实施例所提供的表格数据解析装置用于执行上述表格数据解析方法,根据相似度计算模型获取待解析表格中每一行数据与必要字段对应的相似度信息,并对相似度信息进行判断以确定表头行数据,根据解析映射集中与表头行数据对应的解析映射关系对待解析表格进行解析得到标准数据表,或根据相似度计算模型获取预置解析策略库中与表头行数据对应的标准解析字段,根据标准解析字段对应的解析策略对待解析表格进行解析以得到标准数据表。通过上述方法,可避免因传统方法中解析代码难以进行维护而影响解析效率,可快速确定待解析表格的表头行数据,并获取与待解析表格对应的解析映射关系或标准解析字段,大幅提高了对表格数据进行解析的效率。
上述表格数据解析装置可以实现为计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本发明实施例提供的计算机设备的示意性框图。
参阅图7,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行表格数据解析方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行表格数据解析方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息;根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据;判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系;若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表;若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段;根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
在一实施例中,处理器502在执行若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息的步骤时,执行如下操作:根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED;获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax;根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。
在一实施例中,处理器502在执行若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表的步骤时,执行如下操作:根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段;根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值;将所述标准字段值添加至对应标准字段所在列以得到标准数据表。
在一实施例中,处理器502在执行若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段的步骤时,执行如下操作:根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度;判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果;若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段。
在一实施例中,处理器502在执行根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表的步骤之后,还执行如下操作:根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息;根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据;判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系;若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表;若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段;根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
在一实施例中,所述若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息的步骤,包括:根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED;获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax;根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。
在一实施例中,所述若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表的步骤,包括:根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段;根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值;将所述标准字段值添加至对应标准字段所在列以得到标准数据表。
在一实施例中,所述若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段的步骤,包括:根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度;判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果;若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段。
在一实施例中,所述根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表的步骤之后,还包括:根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种表格数据解析方法,应用于用户终端,其特征在于,包括:
若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息;
根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据;
判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系;
若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表;
若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段;
根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
2.根据权利要求1所述的表格数据解析方法,其特征在于,所述相似度计算模型包括编辑距离获取规则及相似度计算公式,所述根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息,包括:
根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED;
获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax;
根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。
3.根据权利要求1所述的表格数据解析方法,其特征在于,所述解析映射关系包括多个解析字段及与每一所述解析字段对应的解析策略,所述根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表,包括:
根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段;
根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值;
将所述标准字段值添加至对应标准字段所在列以得到标准数据表。
4.根据权利要求1所述的表格数据解析方法,其特征在于,所述根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段,包括:
根据所述相似度计算模型获取所述表头行数据中每一数据字段与预置解析字段库中标准解析字段之间的相似度;
判断与所述数据字段之间相似度大于预置相似度阈值的标准解析字段的数量是否大于零,以得到每一所述数据字段的数量判断结果;
若所述数据字段的数量判断结果为是,将与所述数据字段之间相似度最高的标准解析字段作为与所述数据字段相匹配的标准解析字段。
5.根据权利要求1所述的表格数据解析方法,其特征在于,所述根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表之后,还包括:
根据所述标准解析字段对应的解析策略生成与所述表头行数据对应的解析映射关系并添加至所述解析映射集中。
6.一种表格数据解析装置,其特征在于,包括:
相似度信息获取单元,用于若接收到用户所输入的待解析表格,根据预置的相似度计算模型获取所述待解析表格中每一行数据的数据信息与预置的必要字段之间的相似度以得到相似度信息;
相似度信息判断单元,用于根据预置的相似度判断规则对所述相似度信息进行判断,以将满足所述相似度判断规则的行数据作为表头行数据;
解析映射关系匹配单元,用于判断预置的解析映射集中是否包含与所述表头行数据相匹配的解析映射关系;
第一表格解析单元,用于若预置的解析映射集中包含与所述表头行数据相匹配的解析映射关系,根据与所述表头行数据相匹配的解析映射关系及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表;
标准解析字段匹配单元,用于若预置的解析映射集中不包含与所述表头行数据相匹配的解析映射关系,根据所述相似度计算模型获取预置解析策略库中与所述表头行数据的数据字段相匹配的标准解析字段;
第二表格解析单元,用于根据所述标准解析字段对应的解析策略及所述表头行数据对所述待解析表格中所包含的数据信息进行解析以得到标准数据表。
7.根据权利要求6所述的表格数据解析装置,其特征在于,所述相似度信息获取单元,包括:
编辑距离获取单元,用于根据所述编辑距离获取规则获取所述数据信息与所述必要字段之间的编辑距离ED;
字符数确定单元,用于获取所述数据信息与所述必要字段中字符数较多的字段的字符数Lmax;
计算单元,用于根据相似度计算公式S=1-ED/Lmax计算得到所述数据信息与所述必要字段之间的相似度S。
8.根据权利要求6所述的表格数据解析装置,其特征在于,所述第一表格解析单元,包括:
标准字段获取单元,用于根据所述解析策略中的字段转换映射生成与所述表头行数据中每一数据字段对应的标准字段;
标准字段值获取单元,用于根据所述解析策略中的数据转换映射生成与每一所述数据字段的字段值对应的标准字段值;
标准数据表获取单元,用于将所述标准字段值添加至对应标准字段所在列以得到标准数据表。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的表格数据解析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的表格数据解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777799.8A CN110502516B (zh) | 2019-08-22 | 2019-08-22 | 表格数据解析方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777799.8A CN110502516B (zh) | 2019-08-22 | 2019-08-22 | 表格数据解析方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502516A true CN110502516A (zh) | 2019-11-26 |
CN110502516B CN110502516B (zh) | 2021-10-19 |
Family
ID=68588957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910777799.8A Active CN110502516B (zh) | 2019-08-22 | 2019-08-22 | 表格数据解析方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502516B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN111367988A (zh) * | 2020-03-31 | 2020-07-03 | 中国建设银行股份有限公司 | 数据导入方法及装置 |
CN111476015A (zh) * | 2020-04-10 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 一种文档处理方法、装置、电子设备及存储介质 |
CN112036144A (zh) * | 2020-09-03 | 2020-12-04 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN112084757A (zh) * | 2020-09-11 | 2020-12-15 | 北京中油瑞飞信息技术有限责任公司 | 一种基于工业应用平台的列表构建方法及装置 |
CN112233746A (zh) * | 2020-11-05 | 2021-01-15 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN112597927A (zh) * | 2020-12-28 | 2021-04-02 | 电子科技大学 | 二维表格识别方法、装置、设备及系统 |
CN113010503A (zh) * | 2021-03-01 | 2021-06-22 | 广州智筑信息技术有限公司 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
CN113435701A (zh) * | 2021-05-28 | 2021-09-24 | 消费者报道杂志社有限公司 | 一种消费品质量信息的处理方法和装置 |
CN113505580A (zh) * | 2021-07-26 | 2021-10-15 | 京东科技控股股份有限公司 | 表格文件的解析方法和装置 |
CN113627892A (zh) * | 2021-08-16 | 2021-11-09 | 深圳市云采网络科技有限公司 | 一种bom数据的识别方法及其电子设备 |
CN114880353A (zh) * | 2021-04-16 | 2022-08-09 | 中国再保险(集团)股份有限公司 | 续转数据处理方法、装置、计算机设备和存储介质 |
CN115203309A (zh) * | 2022-09-15 | 2022-10-18 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN115834605A (zh) * | 2023-02-20 | 2023-03-21 | 塔比星信息技术(深圳)有限公司 | 数据采集方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011257824A (ja) * | 2010-06-07 | 2011-12-22 | Okwave Co Ltd | ヘルプデスクシステム及びプログラム |
CN106156239A (zh) * | 2015-04-27 | 2016-11-23 | 中国移动通信集团公司 | 一种表格抽取方法和装置 |
CN108170683A (zh) * | 2018-01-22 | 2018-06-15 | 北京百度网讯科技有限公司 | 用于获取信息的方法和装置 |
CN109325041A (zh) * | 2018-08-14 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 业务数据处理方法、装置、计算机设备及存储介质 |
-
2019
- 2019-08-22 CN CN201910777799.8A patent/CN110502516B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011257824A (ja) * | 2010-06-07 | 2011-12-22 | Okwave Co Ltd | ヘルプデスクシステム及びプログラム |
CN106156239A (zh) * | 2015-04-27 | 2016-11-23 | 中国移动通信集团公司 | 一种表格抽取方法和装置 |
CN108170683A (zh) * | 2018-01-22 | 2018-06-15 | 北京百度网讯科技有限公司 | 用于获取信息的方法和装置 |
CN109325041A (zh) * | 2018-08-14 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 业务数据处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
张兴兰: "Web实体表格结构识别研究", 《软件导刊》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN111367988A (zh) * | 2020-03-31 | 2020-07-03 | 中国建设银行股份有限公司 | 数据导入方法及装置 |
CN111476015A (zh) * | 2020-04-10 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 一种文档处理方法、装置、电子设备及存储介质 |
CN111476015B (zh) * | 2020-04-10 | 2024-01-05 | 北京字节跳动网络技术有限公司 | 一种文档处理方法、装置、电子设备及存储介质 |
CN112036144A (zh) * | 2020-09-03 | 2020-12-04 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN112036144B (zh) * | 2020-09-03 | 2024-04-02 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN112084757A (zh) * | 2020-09-11 | 2020-12-15 | 北京中油瑞飞信息技术有限责任公司 | 一种基于工业应用平台的列表构建方法及装置 |
CN112233746A (zh) * | 2020-11-05 | 2021-01-15 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN112233746B (zh) * | 2020-11-05 | 2023-09-01 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN112597927A (zh) * | 2020-12-28 | 2021-04-02 | 电子科技大学 | 二维表格识别方法、装置、设备及系统 |
CN113010503A (zh) * | 2021-03-01 | 2021-06-22 | 广州智筑信息技术有限公司 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
CN114880353A (zh) * | 2021-04-16 | 2022-08-09 | 中国再保险(集团)股份有限公司 | 续转数据处理方法、装置、计算机设备和存储介质 |
CN113435701B (zh) * | 2021-05-28 | 2022-05-31 | 消费者报道杂志社有限公司 | 一种消费品质量信息的处理方法和装置 |
CN113435701A (zh) * | 2021-05-28 | 2021-09-24 | 消费者报道杂志社有限公司 | 一种消费品质量信息的处理方法和装置 |
CN113505580A (zh) * | 2021-07-26 | 2021-10-15 | 京东科技控股股份有限公司 | 表格文件的解析方法和装置 |
CN113627892A (zh) * | 2021-08-16 | 2021-11-09 | 深圳市云采网络科技有限公司 | 一种bom数据的识别方法及其电子设备 |
CN113627892B (zh) * | 2021-08-16 | 2023-09-01 | 深圳市云采网络科技有限公司 | 一种bom数据的识别方法及其电子设备 |
CN115203309B (zh) * | 2022-09-15 | 2022-11-29 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN115203309A (zh) * | 2022-09-15 | 2022-10-18 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN115834605A (zh) * | 2023-02-20 | 2023-03-21 | 塔比星信息技术(深圳)有限公司 | 数据采集方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110502516B (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502516A (zh) | 表格数据解析方法、装置、计算机设备及存储介质 | |
AU2018272840B2 (en) | Automated dependency analyzer for heterogeneously programmed data processing system | |
KR101660348B1 (ko) | 데이터세트 요소의 매핑 | |
CA3033859C (en) | Method and system for automatically extracting relevant tax terms from forms and instructions | |
CN107391739A (zh) | 一种查询语句生成方法、装置及电子设备 | |
US9443002B1 (en) | Dynamic data analysis and selection for determining outcomes associated with domain specific probabilistic data sets | |
CN107680661B (zh) | 用于估计医疗资源需求的系统和方法 | |
CN109542966B (zh) | 数据融合方法、装置、电子设备及计算机可读介质 | |
JP2008039983A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
CN109783802A (zh) | 一种业务规则处理方法、服务器及计算机可读存储介质 | |
CN109272402A (zh) | 评分卡的建模方法、装置、计算机设备及存储介质 | |
CN109614599A (zh) | 报表生成方法、装置、计算机设备及存储介质 | |
Steimann et al. | Generic model assist | |
Cámara et al. | Synthesis and quantitative verification of tradeoff spaces for families of software systems | |
CN102918522B (zh) | 用于生成统计研究信息的系统、方法以及设备 | |
CN106844550A (zh) | 一种虚拟化平台操作推荐方法及装置 | |
EP3718116B1 (en) | Apparatus for patient data availability analysis | |
CN113110843B (zh) | 合约生成模型训练方法、合约生成方法及电子设备 | |
CN110009128A (zh) | 行业舆情指数预测方法、装置、计算机设备及存储介质 | |
CN109885747A (zh) | 行业舆情监控方法、装置、计算机设备及存储介质 | |
CN109597948A (zh) | 访问url链接的方法、系统及存储介质 | |
CN110928535B (zh) | 衍生变量部署方法、装置、设备及可读存储介质 | |
CN108241607A (zh) | 算法测试案例的自动导入方法、服务器及存储介质 | |
US20030009744A1 (en) | Source code line counting system and method | |
CN109785155A (zh) | 基于医保报销模型调整医保策略的方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |