CN117520528A - 一种电子表格数据提取方法及装置 - Google Patents

一种电子表格数据提取方法及装置 Download PDF

Info

Publication number
CN117520528A
CN117520528A CN202311588880.4A CN202311588880A CN117520528A CN 117520528 A CN117520528 A CN 117520528A CN 202311588880 A CN202311588880 A CN 202311588880A CN 117520528 A CN117520528 A CN 117520528A
Authority
CN
China
Prior art keywords
data
converted
electronic form
determining
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311588880.4A
Other languages
English (en)
Inventor
唐家星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202311588880.4A priority Critical patent/CN117520528A/zh
Publication of CN117520528A publication Critical patent/CN117520528A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种电子表格数据提取方法及装置,涉及人工智能领域,也可用于金融领域,包括:根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;对所述待转换数据进行转置处理,生成目标文档;分析所述目标文档,得到所述配置选择结果对应的关键信息。本申请能够准确、灵活地将电子表格转换为电子文档,并生成需要的文档关键信息,提升电子表格的可读性与可用性。

Description

一种电子表格数据提取方法及装置
技术领域
本申请涉及人工智能领域,可以用于金融领域,具体是一种电子表格数据提取方法及装置。
背景技术
电子表格是一种用于数据分析与处理的工具,并能够实现对数据的组织与存储。它以表格的形式呈现数据,包含行和列,每个单元格可以存储文本、数字、公式及其他数据类型。电子表格对应的软件提供了各种编辑功能,使用户能够进行数据输入、计算、排序、过滤及图表绘制等操作。电子表格可以用于处理和分析大量数据,进行预测和建模,制作报表和图表以及进行数据可视化。电子表格广泛应用于各个领域,如会计、金融、统计、科学研究等。
电子表格以电子文档的形式呈现,电子文档是以数字形式存储的文本文件,实现对文本的排版、存储和管理。它以段落的形式呈现文本数据,可以包含文字、图像、表格、图表、多媒体等内容。电子文档提供了各种文字处理功能,使用户可以创建、编辑和格式化文本内容,包括字体、段落、样式、布局等内容,提高了文本处理效率,提供了快速、准确和可靠的文档访问和传递方式。无论是个人、教育机构、企业组织还是政府部门,都可以使用电子文档创建各种笔记、信函、报告、手册、简历等材料。
然而,电子表格不适合展示包含大量文本的内容,当单元格充满了文字时,往往会因为文字密度过高、单元格内容显示不全、列数过多超出屏幕显示宽度、缩放时文字不会自适应屏幕宽度等问题,使电子文档变得不利于阅读和打印。在上述情况下,需要点选单元格查看编辑栏,或者扩大列宽、行高,才能看全单元格中的内容。为了看到超出屏幕宽度的列的内容,需要左右翻动页面,操作繁琐。而对于列数多的表格,在打印时往往出现单页打印文字过小无法阅读,分页打印破坏表格连续性的问题。
针对上述技术问题,需要提供一种能将电子表格转换为电子文档的方法,提高电子表格的使用便捷性。
发明内容
针对现有技术中的问题,本申请提供一种电子表格数据提取方法及装置,能够准确、灵活地将电子表格转换为电子文档,并生成需要的文档关键信息,提升电子表格的可读性与可用性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种电子表格数据提取方法,包括:
根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
对所述待转换数据进行转置处理,生成目标文档;
分析所述目标文档,得到所述配置选择结果对应的关键信息。
进一步地,所述根据获取的环境信息及配置选择结果确定电子表格中的待转换数据,包括:
根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据;
根据所述配置选择结果从所述原始数据中筛选得到所述待转换数据。
进一步地,所述根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据,包括:
利用预先训练的字段筛选模型确定所述待转换字段;其中,所述字段筛选模型基于用户操作历史数据构建;
读取所述待转换字段对应的各单元格内容,得到所述原始数据。
进一步地,所述根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据,包括:
利用预先构建的专家知识库确定所述待转换字段;其中,所述专家知识库包括与所述环境信息对应的字段筛选策略;
读取所述待转换字段对应的各单元格内容,得到所述原始数据。
进一步地,所述待转换数据包括多个数据分组;所述对所述待转换数据进行转置处理,生成目标文档,包括:
确定所述待转换数据的数据分组级别;
按照所述数据分组级别获取各数据分组的数据内容;
将所述数据分组的数据内容生成目标文档。
进一步地,所述分析所述目标文档,得到所述配置选择结果对应的关键信息,包括:
根据所述配置选择结果中的关键词对所述目标文档进行自然语言解析,得到对应的关键信息。
第二方面,本申请提供一种电子表格数据提取装置,包括:
转换数据确定单元,用于根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
目标文档生成单元,用于对所述待转换数据进行转置处理,生成目标文档;
关键信息生成单元,用于分析所述目标文档,得到所述配置选择结果对应的关键信息。
进一步地,所述转换数据确定单元,包括:
原始数据确定模块,用于根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据;
转换数据确定模块,用于根据所述配置选择结果从所述原始数据中筛选得到所述待转换数据。
进一步地,所述原始数据确定模块,包括:
第一转换字段确定子模块,用于利用预先训练的字段筛选模型确定所述待转换字段;其中,所述字段筛选模型基于用户操作历史数据构建;
第一转换数据确定子模块,用于读取所述待转换字段对应的各单元格内容,得到所述原始数据。
进一步地,所述原始数据确定模块,包括:
第二转换字段确定子模块,用于利用预先构建的专家知识库确定所述待转换字段;其中,所述专家知识库包括与所述环境信息对应的字段筛选策略;
第二转换数据确定子模块,用于读取所述待转换字段对应的各单元格内容,得到所述原始数据。
进一步地,所述待转换数据包括多个数据分组;所述目标文档生成单元,包括:
分组级别确定模块,用于确定所述待转换数据的数据分组级别;
数据内容确定模块,用于按照所述数据分组级别获取各数据分组的数据内容;
目标文档生成模块,用于将所述数据分组的数据内容生成目标文档。
进一步地,所述关键信息生成单元,包括:
语言解析模块,用于根据所述配置选择结果中的关键词对所述目标文档进行自然语言解析,得到对应的关键信息。
第三方面,本申请提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述电子表格数据提取方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述电子表格数据提取方法的步骤。
第五方面,本申请提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述电子表格数据提取方法的步骤。
针对现有技术中的问题,本申请提供的电子表格数据提取方法及装置,能够将电子表格智能地转换为另一种电子文档,使转换后的电子文档准确地映射出表格中数据逻辑关系,并且转换过程具备处理智能、配置灵活、转换高效、产物通用的特点,使用户可以更好地阅读、汇报、打印及分析电子表格中的内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中电子表格数据提取方法的流程图;
图2为本申请实施例中确定待转换数据的流程图;
图3为本申请实施例中确定原始数据的流程图之一;
图4为本申请实施例中确定原始数据的流程图之二;
图5为本申请实施例中生成目标文档的流程图;
图6为本申请实施例中电子表格数据提取装置的结构图;
图7为本申请实施例中转换数据确定单元的结构图;
图8为本申请实施例中原始数据确定模块的结构图之一;
图9为本申请实施例中原始数据确定模块的结构图之二;
图10为本申请实施例中目标文档生成单元的结构图;
图11为本申请实施例中的电子设备的结构示意图;
图12为本申请实施例中的各选项示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请提供的医疗贷款额度确定方法及装置,可用于金融领域,也可用于除金融领域之外的任意领域,本申请提供的医疗贷款额度确定方法及装置的应用领域不做限定。
本申请技术方案中对数据的获取、存储、使用及处理等均符合法律法规的相关规定。
一实施例中,参见图1,为了能够准确、灵活地将电子表格转换为电子文档,并生成需要的文档关键信息,提升电子表格的可读性与可用性,本申请提供一种电子表格数据提取方法,包括:
S101:根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
S102:对所述待转换数据进行转置处理,生成目标文档;
S103:分析所述目标文档,得到所述配置选择结果对应的关键信息。
可以理解的是,本申请实施例能够将电子表格智能地转换为电子文档,也就是将电子表格中以表格形式展现的内容转换为电子文档中成段落的描述。本申请实施例包含两个过程:转换配置以及转换执行。其中,转换配置步骤包含:电子表格列名解析、配置界面生成、配置操作(智能配置+配置干预)四个子步骤。转换执行步骤包含:电子表格解析、数据筛选、数据分组、文本转置、电子文档生成五个子步骤。具体地,针对各个步骤的描述如下:
1.电子表格格式解析:解析出电子表格的各列名称,作为配置界面上的可选参数。
2.配置界面生成:配置界面提供筛选、分组和正文三种输入项,选项内容从电子表格格式解析步骤获取。其中,筛选、分组、正文输入项显示电子表格的各列。
3.配置操作:包括智能配置、配置干预两个独立过程。
4.电子表格解析:解析获取电子表格中的各行、各列文本,作为转置需要的原始数据。
5.数据筛选:根据配置操作步骤中选择的筛选输入项的选择结果,从原始数据中,筛选出指定列的内容等于指定值的行。对于多个筛选选择结果,则迭代处理,筛选出相应的行。筛选后,获得数据分组需要的筛选结果。
6.数据分组:根据配置操作步骤中选择的分组输入项的选择结果,获取筛选结果中的对应的列的值,按列值对各行数据进行分组。对于多个分组选择结果,则按选择顺序,按多个列值对各行数据进行多级分组。分组后,获得文本转置需要的分组结果。
7.文本转置:将分组结果转置为文本格式,写入输出流。
8.电子文档生成:将输出流写入电子文档文件中,最终生成目标文档。
9.阅读目标文档,通过上下翻阅具有章节段落的文字,获取信息。通过电子文档的自动排版功能打印成册,便于在需要书面材料的场合使用。
10.分析目标文档,通过NLP对大段的上下文进行理解,经过组织归纳,获得重要信息摘要。
从上述描述可知,本申请提供的电子表格数据提取方法,能够将电子表格智能地转换为另一种电子文档,使转换后的电子文档准确地映射出表格中数据逻辑关系,并且转换过程具备处理智能、配置灵活、转换高效、产物通用的特点,使用户可以更好地阅读、汇报、打印及分析电子表格中的内容。
下面对步骤S101至步骤S103分别进行详细说明。
一实施例中,参见图2,所述根据获取的环境信息及配置选择结果确定电子表格中的待转换数据,包括:
S201:根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据;
S202:根据所述配置选择结果从所述原始数据中筛选得到所述待转换数据。
可以理解的是,对于智能配置过程,其是根据所获得的环境信息,为用户自动完成筛选输入项、分组输入项和正文输入项三种输入项的选择,帮助用户获得最期待的转换方式。其中,环境信息包括:用户身份数据、用户操作习惯数据、系统状态信息等。基于这些信息,通过专家知识库或人工智能模型,计算出三种输入项相应的选择结果。
其中,专家知识库中包含有专家规则,其是一种基于规则与知识模拟专家人类的决策过程;人工智能模型是指基于机器学习与深度学习等技术构建的用于决策的模型。在本申请实施例中,专家知识库、人工智能模型通常为熟知领域所掌握,属于现有技术,本发明不再做进一步的阐释。
从上述描述可知,本申请提供的电子表格数据提取方法,能够根据获取的环境信息及配置选择结果确定电子表格中的待转换数据。
一实施例中,参见图3,所述根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据,包括:
S301:利用预先训练的字段筛选模型确定所述待转换字段;其中,所述字段筛选模型基于用户操作历史数据构建;
S302:读取所述待转换字段对应的各单元格内容,得到所述原始数据。
可以理解的是,对智能配置过程的第一实施例及其效果说明如下:根据系统记录的用户操作历史,自动选择用户最常使用的筛选、分组和正文输入项。例如,当系统状态处于营销子系统时,自动选择适合于生成营销分析报告的转换配置;当系统处于绩效子系统时,自动选择适合于生成绩效分析报告的转换配置。用户身份数据、用户操作习惯数据、系统状态信息也可以综合使用,自动获得最适合选型,满足不同场景下的使用需要。其中,能够执行上述自动选择过程的人工智能模型为字段筛选模型,该模型为预先训练的一个人工智能模型,其基于用户操作历史数据构建,具体的训练过程可参见现有技术。
进一步地,在执行智能配置过程后,还可以继续执行配置干预过程。该过程处于智能配置过程之后,如果用户认为智能配置的结果不符合预期,可通过手动配置干预智能配置的结果,亦即对于筛选输入项与分组输入项两种输入项,用户在配置界面上分别选择一个或多个列,或者删除一个或者多个列。通过这种调整,获得符合预期的配置效果。如果用户认为智能配置的结果已经符合预期,则不需要再行配置,可跳过配置干预过程。
完成配置操作后,系统记录用户选择的选项以及选择顺序。
从上述描述可知,本申请提供的电子表格数据提取方法,能够根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据。
一实施例中,参见图4,所述根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据,包括:
S401:利用预先构建的专家知识库确定所述待转换字段;其中,所述专家知识库包括与所述环境信息对应的字段筛选策略;
S402:读取所述待转换字段对应的各单元格内容,得到所述原始数据。
可以理解的是,对智能配置过程的第二实施例及其效果说明如下:用户身份数据中岗位如网点经理、网点主管、数据分析师等。可以在专家知识库中,设置专家规则,例如:当用户为网点经理时,筛选输入项中自动选择所属网点辖区,分组输入项中自动选择是否已开卡、信用卡状态,正文输入项自动选择持卡人基本信息、交易日期、交易描述、欺诈警报信息、咨询信息,辅助形成一份网点经理关切的持卡人报告所需的转换配置;当用户为网点主管时,筛选输入项中自动选择开卡日期,分组输入项中自动选择网点经理,正文输入项中自动选择持卡人信息等,辅助形成一份网点主管关注的网点经理单日开卡业绩报告所需的转换配置;当用户为分析师时,筛选输入框中自动选择城市、区县,分组筛选框中自动选择是否开卡、信用卡状态,正文输入项中自动选择欺诈警报信息、持卡人咨询信息,辅助形成一份开卡业务营销分析报告所需的转换配置。
从上述描述可知,本申请提供的电子表格数据提取方法,能够根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据。
一实施例中,参见图5,所述待转换数据包括多个数据分组;所述对所述待转换数据进行转置处理,生成目标文档,包括:
S501:确定所述待转换数据的数据分组级别;
S502:按照所述数据分组级别获取各数据分组的数据内容;
S503:将所述数据分组的数据内容生成目标文档。
可以理解的是,接下来进行电子表格解析、数据筛选、数据分组及文本转置的过程,最终生成电子文档,也称目标文档。
首先,解析获取电子表格中的各行、各列文本,作为转置需要的原始数据。然后,根据配置操作步骤中选择的筛选输入项的选择结果,从原始数据中,筛选出指定列的内容等于指定值的行。对于多个筛选选择结果,则迭代处理,筛选出相应的行。筛选后,获得数据分组需要的筛选结果。接下来,根据配置操作步骤中选择的分组输入项的选择结果,获取筛选结果中的对应的列的值,按列值对各行数据进行分组。对于多个分组选择结果,则按选择顺序,按多个列值对各行数据进行多级分组。分组后,获得文本转置需要的分组结果。
进一步地,进行文本转置,即分组结果转置为文本格式,写入输出流。具体包括:
①获取一个分组名称,作为当前分组,写入输出流。注:根据处理逻辑,这里的分组名称即选择的分组列所对应的值。
②对于多级分组,则获取下一级分组名称,重复①的步骤,直至处理完最后一个分组。
③从当前分组中获取一行数据。根据配置操作步骤中选择的正文输入项的选择结果,获取该列的值,写入输出流。对于多个正文选择结果,则重复获取各列的值,顺序写入输出流。
④从当前分组中获取下一行数据,重复②的步骤,直至处理完分组中最后一行数据。
⑤重复①处理下一个分组,直至处理完所有同级分组。
⑥对于多级分组,则返回上级分组,处理②。
最后,将输出流写入电子文档文件中,最终生成目标文档。
从上述描述可知,本申请提供的电子表格数据提取方法,能够对所述待转换数据进行转置处理,生成目标文档。
一实施例中,所述分析所述目标文档,得到所述配置选择结果对应的关键信息,包括:根据所述配置选择结果中的关键词对所述目标文档进行自然语言解析,得到对应的关键信息。
可以理解的是,在生成了目标文档之后,可以阅读以及分析目标文档。具体地,可以通过上下翻阅具有章节段落的文字,获取信息。通过电子文档的自动排版功能打印成册,便于在需要书面材料的场合使用;还可以通过自然语言解析算法,对大段的上下文进行理解,经过组织归纳,获得重要信息摘要,也称关键信息。
从上述描述可知,本申请提供的电子表格数据提取方法,能够分析所述目标文档,得到所述配置选择结果对应的关键信息。
综上所述,本申请提供的方法,主要优势至少在于:
1.针对不同用户身份、使用习惯、应用场景,智能地为用户提供电子表格转电子文档的建议,并完成转换。
2.允许用户对智能推荐建议进行修正,并根据修正结果完成转换。
3.根据筛选输入项选择结果,可以排除掉不关心的数据行,使生成的电子文档中的内容聚焦要点,提升阅读、汇报和打印体验。
4.根据分组输入项选择顺序,可以实现不同的数据分组,使电子文档中的章节分级、段落顺序按所需要的顺序排列,并且可以随时调整。
5.根据正文输入项选择顺序,使电子文档中的段落按顺序排列,并且可以随时调整。
6.转换结果的电子文档,易于人工阅读理解,方便打印后书面传阅。
7.转换结果的电子文档,易于自然语言解析技术进行自然语言处理,帮助重点提炼、归纳总结。
8.为表格的阅读理解提供了一种智能、可干预、快捷的转接工具。
下面以一个具体实施例,说明本申请提供的方法的具体执行过程:
用户登录系统,触发银行信用卡数据资产大宽表智能读表转换:
步骤1:系统读取大宽表BigTableCard表的信息,分析该表元数据信息,获得表列为:持卡人基本信息(账号、姓名)、持卡人联系信息(城市、区县、所属网点辖区)、是否已开卡、开卡日期、交易日期、交易描述、信用卡状态(正常、逾期、冻结等)、到期日期、欺诈警报信息、咨询信息、开卡客户经理ID、开卡客户经理名称等。
步骤2:根据表列信息,生成配置界面根据各个表列类型、数据最大长度,持卡人姓名、是否已开卡、开卡客户经理等可分类字段作为筛选输入项内容,用以筛选指定的客户、已开卡客户、未开卡客户、开卡客户经理相关的数据。城市、区县、所属网点辖区、开卡客户经理等可归类字段作为分组输入项内容,用以在待生成的电子文档中按城市、区县、所属网点辖区、开卡客户经理分段。各表列,特别是欺诈报警信息、持卡人咨询信息等长文本,作为正文输入项内容,用户拼接形成电子文档正文。
步骤3:根据用户身份数据、用户操作习惯数据、系统状态信息,为上述步骤2的筛选、分组和正文输入项自动选择合适的一个或多个选项。
步骤4:用户根据自身需要,在配置界面上有选择地调整筛选、分组和正文三种输入项的选择内容。
步骤5:系统开始读取BigTableCard表数据。具体过程包含步骤6至步骤7。(本实施例仅以一种算法过程加以说明,不同算法过程实现的相同效果与本过程应该归为本发明的同一步骤)
步骤6:系统根据网点经理所在网点辖区,筛选出相应的数据(数据集SetA)。
步骤7:系统生成电子文档内存对象(此处以冯诺依曼结构计算机作为本发明所述系统的实现载体),并向其输出文档内容。
步骤7-1:输出一级标题是否已开卡——“已开卡”、输出二级标题信用卡状态“正常”。
步骤7-2:系统在数据集SetA中筛选出已开卡、信用卡状态为正常的数据。循环每一条筛选出的数据行,依次输出段落:交易日期、交易描述、欺诈警报信息、持卡人咨询信息。
步骤7-3:输出一级标题是否已开卡——“已开卡”、输出二级标题信用卡状态“逾期”。
步骤7-4:系统在数据集SetA中筛选出已开卡、信用卡状态为逾期的数据。循环每一条筛选出的数据行,依次输出段落:交易日期、交易描述、欺诈警报信息、持卡人咨询信息。
步骤7-5:输出一级标题是否已开卡——“已开卡”、输出二级标题信用卡状态“冻结”。
步骤7-6:系统在数据集SetA中筛选出已开卡、信用卡状态为冻结的数据。循环每一条筛选出的数据行,依次输出段落:交易日期、交易描述、欺诈警报信息、持卡人咨询信息。
步骤7-7:输出一级标题是否已开卡——“未开卡”、输出二级标题信用卡状态“-”(注:此处信用卡未开卡,案例中固定输出“-”占位以保持文档格式)。
步骤7-8:系统在数据集SetA中筛选出未开卡的数据(注:此处信用卡未开卡,案例中对信用卡状态不作筛选)。循环每一条筛选出的数据行,依次输出段落:交易日期、交易描述、欺诈警报信息、持卡人咨询信息。
步骤8:以doc格式保存电子文档至磁盘等持久存储介质。此时,网点经理可以打开电子文档,浏览网点区域内信用卡用户情况。或将电子文档打印出来,在工作会议作为汇报素材使用。
步骤9:将电子文档作为原始材料,使用AIGC技术对材料提炼出已开卡用户欺诈警报信息的归纳材料,呈现给网点经理,帮助其快速获得总结性信息。
综上所述,本发明的有益效果至少包括:
1、易阅读:电子表格中,包含大段文本的单元格行高过低、列宽过窄时,会导致文本没有全部显示在屏幕上,阅读时需要调整行高、列宽,或者将文本复制出来,才能够看全。使用本发明转换后,文本以段落的形式展现,用户可以在显示设备上一屏浏览更多文本。
2、易操作:电子表格中,对于大段文本的多个单元格,需要重复上述调整操作,以看全所有单元格内容。使用本发明转换后,所有单元格的文本以若干个段落的形式展现,用户可以在显示设备上一屏浏览更多文本,并通过上下翻页查看显示设备显示之外的内容。
3、易打印:电子表格中,列数、行数超出一定宽度、高度后(一般为超出显示设备的宽度、高度),会变得不便于打印。其中,通过将打印范围设置为整表,会致使打印出的文字字体过小、过密,导致无法阅读;通过将打印范围设置成分页打印,会致使表格被横向、纵向切分打印到不同的纸张上,破坏了数据逻辑关系、不便于组织和理解。使用本发明转换后,文本以段落的形式展现,打印时,文本自适应打印设置,文字大小可调节,数据逻辑关系按段落层级关系保留。
4、易分析:电子表格不适合NLP、AIGC等技术进行分析和归纳。通过本发明实现了电子表格到电子文档的智能转换,且人工配置作为保障措施提高了转换的最终正确性,消减了电子表格到电子文档的格式差异,增加了电子表格的阅读模式,为NLP、AIGC技术直接分析电子表格进行自然语言处理提供了通用的转接设备。
5、可分类:电子表格可以通过在不同列中定义分类和内容,具有按类别组织数据的能力,参见图12所示。
6、可配置:电子表格的分类列可以相互独立,而没有固定的上下级分类关系。例如一个商品信息表,具有商品分类、商品产地、商品描述的3字段电子表格,可以按商品分类-商品产地的顺序去阅读,也可以按商品产地-商品分类的顺序去阅读。使用本发明转换后,电子文档的段落层级关系可以按分类列灵活地调整层级组织关系,用户可以按需选择转换方式,满足各种阅读需要。
电子表格允许用户按列内容进行筛选。例如上述商品信息表,用户可只筛选出商品分类为图书的内容阅读。使用本发明转换后,电子文档可以仅显示筛选后的内容,用户可以按需筛选特定的行,阅读所关注的内容。
7、可复用:电子表格内容允许用户通过复制、粘贴将内容粘贴成非表格形式,以便于阅读、汇报和打印。但手工步骤繁复、耗时长、容易出错。本发明提供一种转换系统,实现电子表格到电子文档的高效、准确的转换,用户可重复执行、快速获得转换结果。
基于同一发明构思,本申请实施例还提供了一种电子表格数据提取装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于电子表格数据提取装置解决问题的原理与电子表格数据提取方法相似,因此电子表格数据提取装置的实施可以参见基于软件性能基准确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
一实施例中,参见图6,为了能够准确、灵活地将电子表格转换为电子文档,并生成需要的文档关键信息,提升电子表格的可读性与可用性,本申请提供一种电子表格数据提取装置,包括:转换数据确定单元601、目标文档生成单元602及关键信息生成单元603。
转换数据确定单元601,用于根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
目标文档生成单元602,用于对所述待转换数据进行转置处理,生成目标文档;
关键信息生成单元603,用于分析所述目标文档,得到所述配置选择结果对应的关键信息。
一实施例中,参见图7,所述转换数据确定单元601,包括:原始数据确定模块701及转换数据确定模块702。
原始数据确定模块701,用于根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据;
转换数据确定模块702,用于根据所述配置选择结果从所述原始数据中筛选得到所述待转换数据。
一实施例中,参见图8,所述原始数据确定模块701,包括:第一转换字段确定子模块801及第一转换数据确定子模块802。
第一转换字段确定子模块801,用于利用预先训练的字段筛选模型确定所述待转换字段;其中,所述字段筛选模型基于用户操作历史数据构建;
第一转换数据确定子模块802,用于读取所述待转换字段对应的各单元格内容,得到所述原始数据。
一实施例中,参见图9,所述原始数据确定模块701,包括:第二转换字段确定子模块901及第二转换数据确定子模块902。
第二转换字段确定子模块901,用于利用预先构建的专家知识库确定所述待转换字段;其中,所述专家知识库包括与所述环境信息对应的字段筛选策略;
第二转换数据确定子模块902,用于读取所述待转换字段对应的各单元格内容,得到所述原始数据。
一实施例中,参见图10,所述待转换数据包括多个数据分组;所述目标文档生成单元602,包括:分组级别确定模块1001、数据内容确定模块1002及目标文档生成模块1003。
分组级别确定模块1001,用于确定所述待转换数据的数据分组级别;
数据内容确定模块1002,用于按照所述数据分组级别获取各数据分组的数据内容;
目标文档生成模块1003,用于将所述数据分组的数据内容生成目标文档。
一实施例中,所述关键信息生成单元,包括:
语言解析模块,用于根据所述配置选择结果中的关键词对所述目标文档进行自然语言解析,得到对应的关键信息。
从硬件层面来说,为了能够准确、灵活地将电子表格转换为电子文档,并生成需要的文档关键信息,提升电子表格的可读性与可用性,本申请提供一种用于实现所述电子表格数据提取方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(Processor)、存储器(Memory)、通讯接口(Communications Interface)和总线;其中,所述处理器、存储器、通讯接口通过所述总线完成相互间的通讯;所述通讯接口用于实现所述电子表格数据提取装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的电子表格数据提取方法的实施例,以及电子表格数据提取装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,电子表格数据提取方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通讯模块(即通讯单元),可以与远程的服务器进行通讯连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通讯链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图11为本申请实施例的电子设备9600的系统构成的示意框图。如图11所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图11是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,电子表格数据提取方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
S101:根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
S102:对所述待转换数据进行转置处理,生成目标文档;
S103:分析所述目标文档,得到所述配置选择结果对应的关键信息。
从上述描述可知,本申请提供的电子表格数据提取方法及装置,能够将电子表格智能地转换为另一种电子文档,使转换后的电子文档准确地映射出表格中数据逻辑关系,并且转换过程具备处理智能、配置灵活、转换高效、产物通用的特点,使用户可以更好地阅读、汇报、打印及分析电子表格中的内容。
在另一个实施方式中,电子表格数据提取装置可以与中央处理器9100分开配置,例如可以将数据复合传输装置电子表格数据提取装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现电子表格数据提取方法的功能。
如图11所示,该电子设备9600还可以包括:通讯模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图11中所示的所有部件;此外,电子设备9600还可以包括图11中没有示出的部件,可以参考现有技术。
如图11所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通讯功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通讯模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通讯模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通讯终端的情况相同。
基于不同的通讯技术,在同一电子设备中,可以设置有多个通讯模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通讯模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的电子表格数据提取方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的电子表格数据提取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
S102:对所述待转换数据进行转置处理,生成目标文档;
S103:分析所述目标文档,得到所述配置选择结果对应的关键信息。
从上述描述可知,本申请提供的电子表格数据提取方法及装置,能够将电子表格智能地转换为另一种电子文档,使转换后的电子文档准确地映射出表格中数据逻辑关系,并且转换过程具备处理智能、配置灵活、转换高效、产物通用的特点,使用户可以更好地阅读、汇报、打印及分析电子表格中的内容。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种电子表格数据提取方法,其特征在于,包括:
根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
对所述待转换数据进行转置处理,生成目标文档;
分析所述目标文档,得到所述配置选择结果对应的关键信息。
2.根据权利要求1所述的电子表格数据提取方法,其特征在于,所述根据获取的环境信息及配置选择结果确定电子表格中的待转换数据,包括:
根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据;
根据所述配置选择结果从所述原始数据中筛选得到所述待转换数据。
3.根据权利要求2所述的电子表格数据提取方法,其特征在于,所述根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据,包括:
利用预先训练的字段筛选模型确定所述待转换字段;其中,所述字段筛选模型基于用户操作历史数据构建;
读取所述待转换字段对应的各单元格内容,得到所述原始数据。
4.根据权利要求2所述的电子表格数据提取方法,其特征在于,所述根据所述环境信息确定所述电子表格中的待转换字段对应的原始数据,包括:
利用预先构建的专家知识库确定所述待转换字段;其中,所述专家知识库包括与所述环境信息对应的字段筛选策略;
读取所述待转换字段对应的各单元格内容,得到所述原始数据。
5.根据权利要求1所述的电子表格数据提取方法,其特征在于,所述待转换数据包括多个数据分组;所述对所述待转换数据进行转置处理,生成目标文档,包括:
确定所述待转换数据的数据分组级别;
按照所述数据分组级别获取各数据分组的数据内容;
将所述数据分组的数据内容生成目标文档。
6.根据权利要求1所述的电子表格数据提取方法,其特征在于,所述分析所述目标文档,得到所述配置选择结果对应的关键信息,包括:
根据所述配置选择结果中的关键词对所述目标文档进行自然语言解析,得到对应的关键信息。
7.一种电子表格数据提取装置,其特征在于,包括:
转换数据确定单元,用于根据获取的环境信息及配置选择结果确定电子表格中的待转换数据;
目标文档生成单元,用于对所述待转换数据进行转置处理,生成目标文档;
关键信息生成单元,用于分析所述目标文档,得到所述配置选择结果对应的关键信息。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的电子表格数据提取方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的电子表格数据提取方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任一项所述的电子表格数据提取方法的步骤。
CN202311588880.4A 2023-11-24 2023-11-24 一种电子表格数据提取方法及装置 Pending CN117520528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311588880.4A CN117520528A (zh) 2023-11-24 2023-11-24 一种电子表格数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311588880.4A CN117520528A (zh) 2023-11-24 2023-11-24 一种电子表格数据提取方法及装置

Publications (1)

Publication Number Publication Date
CN117520528A true CN117520528A (zh) 2024-02-06

Family

ID=89741778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311588880.4A Pending CN117520528A (zh) 2023-11-24 2023-11-24 一种电子表格数据提取方法及装置

Country Status (1)

Country Link
CN (1) CN117520528A (zh)

Similar Documents

Publication Publication Date Title
CN110503236A (zh) 基于知识图谱的风险预测方法、装置、设备以及存储介质
CN106021394A (zh) 一种网站的建站方法和装置
AU2012258648B2 (en) A method and system for computer-aided consumption of information from application data files
CN110286974A (zh) 基于h5页面的应用配置方法、装置、设备及存储介质
CN111783873B (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN107436936A (zh) 基于二维码的在线阅读方法及平台
CN113268971B (zh) 演示报告智能生成方法、装置、计算机设备及存储介质
CN109783184B (zh) 用户自定义表单生成方法
CN107807917A (zh) 文本内容提取方法、装置、系统及存储介质
US8687210B2 (en) Document data access
CN112579773A (zh) 风险事件分级方法及装置
CN117520528A (zh) 一种电子表格数据提取方法及装置
CN116644728A (zh) 一种基于条款数字化的合同生成方法及系统
CN116110065A (zh) 题卡数据生成方法、装置、计算机设备和存储介质
US20210073458A1 (en) Comic data display system, method, and program
CN114218907A (zh) 演示文稿生成方法、装置、电子设备及存储介质
CN110489735A (zh) 一种演示文稿生成方法、装置及设备
CN114282498A (zh) 一种应用于电力交易的数据知识处理系统
CN110046336A (zh) 位置编码表单处理方法及系统
CN117992601B (zh) 基于人工智能的公文生成方法及装置
CN115964989B (zh) 电子表格的信息显示方法、装置及存储介质
CN115796405B (zh) 针对优化模型的求解报告生成方法及计算设备
CN110472117B (zh) 一种目标文档的确定方法及装置
CN112035739B (zh) 一种基于日历的知识推送方法、装置及计算机存储介质
CN117951547B (zh) 基于人工智能的招投标数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination