CN115827862A - 一种多元费用凭证数据关联采集方法 - Google Patents

一种多元费用凭证数据关联采集方法 Download PDF

Info

Publication number
CN115827862A
CN115827862A CN202211516281.7A CN202211516281A CN115827862A CN 115827862 A CN115827862 A CN 115827862A CN 202211516281 A CN202211516281 A CN 202211516281A CN 115827862 A CN115827862 A CN 115827862A
Authority
CN
China
Prior art keywords
data
file
expense
voucher
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211516281.7A
Other languages
English (en)
Inventor
田亚丽
刘宝华
陈端迎
杜乃瀚
王圣东
邵长冬
李欧阳
姜厚禄
张桂平
赵子慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jierui Information Technology Co ltd
716th Research Institute of CSIC
CSIC Information Technology Co Ltd
Original Assignee
Jiangsu Jierui Information Technology Co ltd
716th Research Institute of CSIC
CSIC Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jierui Information Technology Co ltd, 716th Research Institute of CSIC, CSIC Information Technology Co Ltd filed Critical Jiangsu Jierui Information Technology Co ltd
Priority to CN202211516281.7A priority Critical patent/CN115827862A/zh
Publication of CN115827862A publication Critical patent/CN115827862A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多元费用凭证数据关联采集方法。本发明针对大规模装备价格管理工作过程普遍遇到的海量多样化费用凭证数据采集与管理难题,建立费用凭证电子文档的智能化识别与分析处理流程,实现海量的财务报表、发票、合同、技术方案等多种类型费用凭证文件的自动化导入、识别、转换、解析、提取、标注、关联与集成,完成费用数据与费用凭证数据的关联性构建与数据集成管理,能大幅提升费用采集与管理工作效率,提高数据准确性和利用率。

Description

一种多元费用凭证数据关联采集方法
技术领域
本发明属于装备价格管理与经济论证技术领域,特别是费用凭证数据采集、集成与管理领域,尤其涉及一种多元费用凭证数据关联采集方法。
背景技术
装备价格管理与经济论证业务往往面临多样化费用数据及其相关支撑凭证数据文件的采集、集成与管理。由于装备科研生产涉及到的工业门类多、技术单位多、系统设备多、系统结构复杂等特点,费用数据的采集过程耗费极大的人力物力。随着装备价格数据管理要求的逐步提高,以及装备经济论证对数据使用和理解深度的提高,传统的人工数据采编模式无法满足业务发展需要。
传统的经济论证过程中,使用Excel等电子表格工具进行费用数据项的记录采集,但对应各类费用凭证文件无法灵活适用,数据表的行级数据对象与其所对应的多种费用凭证文件无法在统一的数据空间中进行维护与管理,使用电子表格中单元格的外部链接虽然可以建立磁盘文件与表格数据单元的关系,但是存在手工操作的复杂性和低效率问题,以及磁盘文件路径变更适应性不足的问题。这样传统的数据管理方式,既低效又难以保障数据质量,完全无法适应当前工作需要。
为了有效提高数据管理问题,采用传统业务管理系统模式开发的应用软件,在数据库技术基础上,对数据、文件进行统一管理,在一定程度上解决了数据关联管理和统一存储问题,但是需要使用者操作软件界面逐一维护数据与文件的关联关系,操作复杂且低效,在面对海量数据情况下,不具备实际使用的意义。
面对大规模装备价格管理与经济论证工作普遍遇到的海量多样化费用凭证数据采集与管理难题,迫切需要探索一种有效的费用凭证数据关联集成方法,实现费用数据与费用凭证数据的关联性构建与数据集成管理,大幅提升费用采集与管理工作效率,提高数据准确性和利用率。
发明内容
本发明的目的在于针对现有技术存在的问题,提供一种多元费用凭证数据关联采集方法。
实现本发明目的的技术解决方案为:一种多元费用凭证数据关联采集方法,所述方法包括以下步骤:
步骤1,批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制功能;
步骤2,执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,同时对电子文件中表格内容与格式进行识别;
步骤3,对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别多种类型费用凭证文件;
步骤4,加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成。
进一步地,步骤2中的电子表格识别,基于预训练模型对电子表格的边框、单元格内容进行识别处理,区分电子表头与表格体部分,将识别输出的单元格文字、表格结构与单元格定位等内容以描述性数据结构进行记录与存储,并支持将表格与内容导出为excel文件格式。
进一步地,步骤3中费用凭证文件自动分类,基于已定义的多类型文件结构特征,建立文件类型特征空间及其特征提取分析模型,通用的文件结构特征包括文件标题关键词、文档目录形式、表头关键词等方面。
进一步地,步骤4中的费用凭证数据关联集成,基于费用数据表中数据行的对象名称、规格型号、数量单价等内容特征,与费用凭证数据特征空间进行关联性匹配分析,生成费用数据对象与费用数据凭证的关系网络模型,在图数据库中存储关系模型数据,在关系数据库中存储费用数据对象及其与所挂接关联凭证文件的特征关键词、文件链接地址等信息,实现对费用凭证数据与费用对象的关联管理与数据集成管理。
本发明与现有技术相比,其显著优点为:
(1)本发明采用图像识别和文件结构分析技术对各类费用凭证文件中的图片和影印文件内容进行识别与转换,将不同类型的票据、报表转换为格式化的电子文件内容,能实现表格样式及内容的识别转换。
(2)本发明建立文件类型特征空间,支持基于电子文件内容及结构形式,生成不同类别的文件差异性数据特征,能完成电子文件的自动化识别与分类。
(3)本发明构建费用维度空间的关联关系与数据映射规则,能实现单个费用维度空间内跨维度数据关联计算规则的定义,实现不同维度空间的费用维度数据的双向映射、费用传递链路配置及计算规则定义。
(4)本发明基于费用数据对象与其费用凭证的内在关联关系,能实现单个费用对象单元与多种费用凭证数据的关联匹配,实现不同费用凭证数据的集成化管理。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明多元费用凭证数据关联采集方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在一个实施例中,结合图1,提供了一种多元费用凭证数据关联采集方法,具体包括以下步骤:
步骤1,批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制等能力。具体步骤如下:
步骤1-1,批量加载费用凭证文件,从计算机磁盘的文件系统中读取费用凭证文件的存储根路径,加载根路径及所包含的子目录和文件,将文件名称、文件扩展名、文件路径、上级目录等信息存储在计算机内存对象中;
步骤1-2,创建文件存储空间,按照分布式系统结构关系,生成一组物理存储空间,每一个子节点都由管理节点进行调度管理,管理节点形成包含全部分布式节点的逻辑存储空间;
步骤1-3,批量导入费用凭证文件,根据文件的不同类型,分别记录文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间、版本等基本信息;
步骤1-4,创建文件索引空间,根据文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间等属性集合,生成包含单属性、组合属性的索引文件;
步骤1-5,生成费用凭证数据服务,根据文件的属性集合抽象定义服务协议接口,自动化封装费用凭证查询检索费用,可使用文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间、版本等属性集合为组合条件进行费用凭证数据的服务访问。
步骤2,执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,对电子文件中表格内容与格式进行识别。具体处理步骤如下:
步骤2-1,构建预训练模型,支持按照不同类型的电子文件内容,生成多组内容识别模型,包括章节目录识别、段落结构识别、表格样式识别、表格内容识别、文本内容识别等方面;
步骤2-2,识别文件内容结构,首先对文件章节进行识别与区隔,将文件内容按章节进行分割,然后识别文字段落、表格、图形图表等内容类型;
步骤2-3,识别表格结构,判定表头及表头位置,识别行、列边框,判定行列数量,判定合并单元格;
步骤2-4,识别文本内容,基于OCR技术对文字块进行识别,包括标题、单元格、段落、表题注、图题注等文字内容;
步骤2-5,识别结果记录与存储,采用XML标记语言将识别输出的标题文字、标题位置、段落文字、段落位置、单元格文字、单元格定位与表格结构等内容以描述性数据结构进行统一记录与存储。
步骤3,对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别财务报表、发票、合同、技术方案等多种类型费用凭证文件,具体处理步骤如下:
步骤3-1,分析文字块、单元格等内容的文本语义,包括中文分词、中英文词性标注、中英文依存句法分析、中英文语义角色标注、语义依存关系分析等过程,实现文本基础结构信息的预处理,为文本信息抽取、分析等提供数据;
步骤3-2,面向标题、题注、段落、单元格等部位的文字内容,提取业务对象关键词,主要包括业务对象实体识别、业务对象要素抽取、业务对象事件抽取、关键词抽取等过程步骤,进一步完成文本信息结构化处理;
步骤3-3,构建文本内容特征空间与特征关联匹配,基于预训练模型从文本块、关键词中提取语义和文本特征,配置多个特征维度构建不同类型文本的特征空间,按照特征空间内的聚类分析结果,结合文本关键词的频繁项分析,实现多对多的特征关系构建,完成文本内容的关联匹配;
步骤3-4,费用凭证文件自动分类识别,基于预设定的合同、发票、技术报告、报表等多类型文件的结构特征,建立文件类型特征空间及其特征提取分析模型,提取通用文件结构特征,包括文件标题关键词、文档目录形式、表头关键词等方面,在特征空间内采用聚类分析进行费用凭证文件的预分类,基于典型分类样本的特征集合采用决策树等分类模型的组合判定方法完成分类处理;
步骤3-5,生成数据标签并进行自动化标注,基于定义的多个维度的数据属性标签集合,自动配置费用凭证数据的标签,包括文件类型标签、关键词标签、关键词频度等多种类型标签标注。
步骤4,加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成,具体处理步骤如下:
步骤4-1,费用数据采集表导入与加载,读取费明细数据文件并加载数据,基于已定义数据表的维度空间,匹配明细数据结构与费用维度结构、费用维度属性集合,完成数据结构一致性校验后按费用表的维度依次导入费用数据集合;
步骤4-2,费用数据项对象内容解析,按照费用数据表的维度定义,解析各表的费用数据项的对象属性内容,包括装备名称、设备名称、材料名称、费用项名称、型号、规格、数量、单价、技术指标等内容;
步骤4-3,费用数据内容特征关联匹配,基于费用数据表中数据行的对象名称、规格型号、数量单价等数据项对象属性内容特征,与费用凭证数据特征空间的内容特征进行关联性匹配分析,基于特征空间内的距离测度生成关联度匹配系数;
步骤4-4,生成费用凭证数据关联网络,基于图模型构建费用凭证数据与费用数据对象的关联关系,记录关联度匹配系数和关联频繁度;
步骤4-5,费用凭证数据关联信息集成化存储管理,在图数据库中存储关系模型数据,在关系数据库中存储费用数据对象及其与所挂接关联凭证文件的特征关键词、文件链接地址等信息,实现费用数据对象与费用凭证数据的关联查询检索。
在一个实施例中,提供了一种多元费用凭证数据关联采集系统,所述系统包括:
第一模快,用于批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制功能;
第二模快,用于执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,同时对电子文件中表格内容与格式进行识别;
第三模快,用于对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别多种类型费用凭证文件;
第四模快,用于加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成。
关于多元费用凭证数据关联采集系统的具体限定可以参见上文中对于多元费用凭证数据关联采集方法的限定,在此不再赘述。上述多元费用凭证数据关联采集系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤1,批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制功能;
步骤2,执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,同时对电子文件中表格内容与格式进行识别;
步骤3,对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别多种类型费用凭证文件;
步骤4,加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成。
关于每一步的具体限定可以参见上文中对于多元费用凭证数据关联采集方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤1,批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制功能;
步骤2,执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,同时对电子文件中表格内容与格式进行识别;
步骤3,对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别多种类型费用凭证文件;
步骤4,加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成。
关于每一步的具体限定可以参见上文中对于多元费用凭证数据关联采集方法的限定,在此不再赘述。
本发明可广泛应用在装备价格管理与经济论证业务背景下的装备费用数据采集、数据管理与论证评估工作过程,有效地解决海量多类型费用凭证数据的结构化采集、数据关联、数据集成与数据统一管理的难题,减轻了数据管理与评估分析人员对原始费用凭证数据采集与集成管理的复杂度及工作量,提高数据管理工作的适应性,保障数据治理的效果。并可拓展到其他相似业务领域,具有良好的社会效益和广阔的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多元费用凭证数据关联采集方法,其特征在于,所述方法包括以下步骤:
步骤1,批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制功能;
步骤2,执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,同时对电子文件中表格内容与格式进行识别;
步骤3,对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别多种类型费用凭证文件;
步骤4,加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成。
2.根据权利要求1所述的多元费用凭证数据关联采集方法,其特征在于,步骤1的具体过程包括:
步骤1-1,批量加载费用凭证文件,从计算机磁盘的文件系统中读取费用凭证文件的存储根路径,加载根路径及所包含的子目录和文件,将文件名称、文件扩展名、文件路径以及上级目录信息存储在计算机内存对象中;
步骤1-2,创建文件存储空间,按照分布式系统结构关系,生成一组物理存储空间,每一个子节点均由管理节点进行调度管理,管理节点形成包含全部分布式节点的逻辑存储空间;
步骤1-3,批量导入费用凭证文件,根据文件的不同类型,分别记录文件的基本信息,包括文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间以及版本;
步骤1-4,创建文件索引空间,根据文件属性集合,生成包含单属性、组合属性的索引文件;所述文件属性集合包括文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间和版本;
步骤1-5,生成费用凭证数据服务,根据文件的属性集合抽象定义服务协议接口,自动化封装费用凭证查询检索费用,可使用文件属性集合为组合条件进行费用凭证数据的服务访问。
3.根据权利要求2所述的多元费用凭证数据关联采集方法,其特征在于,步骤1中的费用凭证文件指多种类型的电子文件,包括财务报表、发票、合同和技术方案,采用的文件格式包括图片格式和文件格式。
4.根据权利要求1所述的多元费用凭证数据关联采集方法,其特征在于,步骤2中电子文件中表格识别,包括:基于预训练模型对电子表格的边框、单元格内容进行识别处理,区分电子表头与表格体部分,将识别输出的单元格文字、表格结构与单元格定位内容以描述性数据结构进行记录与存储,并支持将表格与内容导出为excel文件格式。
5.根据权利要求4所述的多元费用凭证数据关联采集方法,其特征在于,步骤2中对电子文件中表格内容与格式进行识别,具体过程包括:
步骤2-1,构建预训练模型,支持按照不同类型的电子文件内容,生成多组内容识别模型,包括章节目录识别、段落结构识别、表格样式识别、表格内容识别、文本内容识别模型;
步骤2-2,识别文件内容结构,首先对文件章节进行识别与区隔,将文件内容按章节进行分割,然后识别内容类型,包括文字段落、表格和图形图表;
步骤2-3,识别表格结构,判定表头及表头位置,识别行、列边框,判定行列数量,判定合并单元格;
步骤2-4,识别文本内容,基于OCR技术对文字块进行识别,包括标题、单元格、段落、表题注、图题注这些文字内容;
步骤2-5,识别结果记录与存储,采用XML标记语言将识别输出的标题文字、标题位置、段落文字、段落位置、单元格文字、单元格定位与表格结构这些内容以描述性数据结构进行统一记录与存储。
6.根据权利要求5所述的多元费用凭证数据关联采集方法,其特征在于,步骤3的具体过程包括:
步骤3-1,分析文字块、单元格的文本语义,包括中文分词、中英文词性标注、中英文依存句法分析、中英文语义角色标注和语义依存关系分析,实现文本基础结构信息的预处理;
步骤3-2,面向标题、题注、段落、单元格这些位置的文字内容,提取业务对象关键词,包括进行业务对象实体识别、业务对象要素抽取、业务对象事件抽取和关键词抽取,进一步完成文本信息结构化处理;
步骤3-3,构建文本内容特征空间与特征关联匹配,基于预训练模型从文本块、关键词中提取语义和文本特征,配置多个特征维度构建不同类型文本的特征空间,按照特征空间内的聚类分析结果,结合文本关键词的频繁项分析,实现多对多的特征关系构建,完成文本内容的关联匹配;
步骤3-4,费用凭证文件自动分类识别,基于预设定的多种类型的电子文件的结构特征,建立文件类型特征空间及其特征提取分析模型,提取通用文件结构特征,包括文件标题关键词、文档目录形式、表头关键词,在特征空间内采用聚类分析进行费用凭证文件的预分类,基于典型分类样本的特征集合采用分类模型的组合判定方法完成分类处理;
步骤3-5,生成数据标签并进行自动化标注,基于定义的多个维度的数据属性标签集合,自动配置费用凭证数据的标签,包括文件类型标签、关键词标签、关键词频度标签。
7.根据权利要求6所述的多元费用凭证数据关联采集方法,其特征在于,所述步骤3中提取的业务对象关键词包括对象名称、型号、规格、数量、单价和技术指标。
8.根据权利要求1所述的多元费用凭证数据关联采集方法,其特征在于,步骤4中的费用凭证数据关联集成,具体为:基于费用数据表中数据行的对象名称、规格型号、数量单价这些内容特征,与费用凭证数据特征空间进行关联性匹配分析,生成费用数据对象与费用数据凭证的关系网络模型,在图数据库中存储关系模型数据,在关系数据库中存储费用数据对象及其与所挂接关联凭证文件的特征关键词、文件链接地址信息,实现对费用凭证数据与费用对象的关联管理与数据集成管理。
9.根据权利要求8所述的多元费用凭证数据关联采集方法,其特征在于,步骤4的具体过程包括:
步骤4-1,费用数据采集表导入与加载:读取费明细数据文件并加载数据,基于已定义数据表的维度空间,匹配明细数据结构与费用维度结构、费用维度属性集合,完成数据结构一致性校验后按费用表的维度依次导入费用数据集合;
步骤4-2,费用数据项对象内容解析:按照费用数据采集表的维度定义,解析各表的费用数据项的对象属性内容,包括对象名称、型号、规格、数量、单价和技术指标;
步骤4-3,费用数据内容特征关联匹配:基于费用数据表中数据行的数据项的对象属性内容特征,与费用凭证数据特征空间的内容特征进行关联性匹配分析,基于特征空间内的距离测度生成关联度匹配系数;
步骤4-4,生成费用凭证数据关联网络:基于图模型构建费用凭证数据与费用数据对象的关联关系,并记录关联度匹配系数和关联频繁度;
步骤4-5,费用凭证数据关联信息集成化存储管理:在图数据库中存储关系模型数据,在关系数据库中存储费用数据对象及其与所挂接关联凭证文件的特征关键词、文件链接地址信息,实现费用数据对象与费用凭证数据的关联查询检索。
CN202211516281.7A 2022-11-30 2022-11-30 一种多元费用凭证数据关联采集方法 Pending CN115827862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211516281.7A CN115827862A (zh) 2022-11-30 2022-11-30 一种多元费用凭证数据关联采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211516281.7A CN115827862A (zh) 2022-11-30 2022-11-30 一种多元费用凭证数据关联采集方法

Publications (1)

Publication Number Publication Date
CN115827862A true CN115827862A (zh) 2023-03-21

Family

ID=85532883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211516281.7A Pending CN115827862A (zh) 2022-11-30 2022-11-30 一种多元费用凭证数据关联采集方法

Country Status (1)

Country Link
CN (1) CN115827862A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132997A (zh) * 2023-10-26 2023-11-28 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117648912A (zh) * 2024-01-29 2024-03-05 中国电建集团西北勘测设计研究院有限公司 一种识别多格式电子表格源数据的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132997A (zh) * 2023-10-26 2023-11-28 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117132997B (zh) * 2023-10-26 2024-03-12 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117648912A (zh) * 2024-01-29 2024-03-05 中国电建集团西北勘测设计研究院有限公司 一种识别多格式电子表格源数据的方法
CN117648912B (zh) * 2024-01-29 2024-05-03 中国电建集团西北勘测设计研究院有限公司 一种识别多格式电子表格源数据的方法

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
EP1679625B1 (en) Method and apparatus for structuring documents based on layout, content and collection
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN107562919A (zh) 一种基于信息检索的多索引集成软件构件检索方法及系统
CN114817481A (zh) 基于大数据的智慧供应链可视化方法及装置
CN111522950B (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN114207598A (zh) 电子表单表转换
CN116821376B (zh) 煤矿安全生产领域的知识图谱构建方法及系统
CN112199960B (zh) 一种标准知识元粒度解析系统
TWI793432B (zh) 工程專案文件管理方法與系統
CN114077652A (zh) 一种基于多维数据立方体的数据处理方法及电子装置
CN112183037A (zh) 一种平行企业财税SaaS系统中数据分类汇总方法及系统
CN116595008A (zh) 一种页面表单与数据库表自动映射方法及其系统
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents
CN113342844A (zh) 工业智能搜索系统
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
CN118378168B (zh) 一种非结构化数据建模方法及系统
CN117876104B (zh) 一种基于ai语言模型的智能信贷管控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination