CN117093589B - 一种非结构化数据入库方法及装置 - Google Patents

一种非结构化数据入库方法及装置 Download PDF

Info

Publication number
CN117093589B
CN117093589B CN202311336755.4A CN202311336755A CN117093589B CN 117093589 B CN117093589 B CN 117093589B CN 202311336755 A CN202311336755 A CN 202311336755A CN 117093589 B CN117093589 B CN 117093589B
Authority
CN
China
Prior art keywords
control
content
document
target document
warehousing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311336755.4A
Other languages
English (en)
Other versions
CN117093589A (zh
Inventor
宋海涛
王钢
马恩彪
张志昌
董国卿
林干�
马宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bnc Technologies Co ltd
Original Assignee
Bnc Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bnc Technologies Co ltd filed Critical Bnc Technologies Co ltd
Priority to CN202311336755.4A priority Critical patent/CN117093589B/zh
Publication of CN117093589A publication Critical patent/CN117093589A/zh
Application granted granted Critical
Publication of CN117093589B publication Critical patent/CN117093589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种非结构化数据入库方法及装置,涉及数据处理技术领域,主要目的在于解决非结构化数据入库效率低下和录入错误的问题,以为软件系统提供有效的数据支撑。本申请主要的技术方案为:获取目标文档,所述目标文档用于表征通过内容控件对非结构化数据进行标记的文档;根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则;基于各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中。本申请用于非结构化数据的快速、准确入库。

Description

一种非结构化数据入库方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种非结构化数据入库方法及装置。
背景技术
随着信息化的发展,各行各业的信息资料从以前的纸质文档变为电子文档,有些电子文档需要作为文件存储于软件系统中,即企业数据库中。而软件系统中存储的数据包括结构化数据和非结构化数据,结构化数据可以为用户提供数据支撑,但是非结构化数据用户只能查阅,不能进行数据分析及使用,用户使用其内容时,则需要先下载或在线打开电子文档,然后通过再查找的方式进行。
目前,现有技术对于存在多样化非结构化数据的电子文档以结构化形式存储入库通常采用人工录入的方式实现,这样不仅效率低下还有可能信息录入错误,导致无法为软件系统提供有效的数据支撑。
发明内容
鉴于上述问题,本申请提供一种非结构化数据入库方法及装置,主要目的是解决非结构化数据入库效率低下和录入错误的问题,以为软件系统提供有效的数据支撑。
为解决上述技术问题,本申请提出以下方案:
第一方面,本申请提供了一种非结构化数据入库方法,所述方法包括:
获取目标文档,所述目标文档用于表征通过内容控件对非结构化数据进行标记的文档;
根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则;
基于各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中。
第二方面,本申请提供了一种非结构化数据入库装置,所述装置包括:
获取单元,用于获取目标文档,所述目标文档用于表征通过内容控件对非结构化数据进行标记的文档;
第一确定单元,用于根据所述获取单元获得的所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则;
处理单元,用于基于所述第一确定单元获得的各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中。
为了实现上述目的,根据本申请的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的非结构化数据入库方法。
为了实现上述目的,根据本申请的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面的非结构化数据入库方法。
借由上述技术方案,本申请提供的一种非结构化数据入库方法及装置,是在需要对非结构化数据进行提取入库时,首先获取到需要入库的目标文档,而目标文档是通过内容控件对非结构化数据进行标记的文档,然后根据该目标文档中各个内容控件的控件类型确定各个内容控件对应的指定入库规则,最后使用各个指定入库规则对各个内容控件进行处理,以将目标文档以结构化形式存储至数据库中,使非结构化数据以结构式形式入库。通过本申请提供的技术方案,能够通过内容控件对多样化的非结构数据进行标记替换,并设置不同类型内容控件的入库规则,利用入库规则将内容控件对应的控件内容以结构化形式存储至数据库中,从而实现多样化非结构化数据的快速、准确入库,从而为软件系统提供有效的数据支撑,以便于软件系统进行精确的统计分析、决策。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种非结构化数据入库方法流程图;
图2示出了本申请实施例提供的另一种非结构化数据入库方法流程图;
图3示出了本申请实施例提供的一种非结构化数据入库装置的组成框图;
图4示出了本申请实施例提供的另一种非结构化数据入库装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
目前,现有技术对于存在多样化非结构化数据的电子文档以结构化形式存储入库通常采用人工录入的方式实现,例如在产品技术状态管理过程中产生的技术状态文档,文档内容很多是关于产品的多样化的非结构化信息,而此时需要把这些非结构化信息录入软件系统,则需要以人工录入的方式进行,这样不仅效率低下还有可能信息录入错误,导致无法为软件系统提供有效的数据支撑。
发明人经过研究发现,可以结合Office中的文档辅助编辑工具,其是通过VSTO(Visual Studio Tools for Office)实现的能够辅助用户编写文档、提取文档数据的工具集,该工具集集成于Office的加载项,通过文档辅助编辑工具中的多类型的内容控件即可充当特定类型内容的容器,即充当多样化非结构化数据的内容容器,再通过抽取内容控件中的控件内容即可将非结构化数据以结构化形式入库。这样,在面对上述提及的技术状态文档时,即可无需人工录入,通过内容控件的使用即可完成多样化非结构化数据的快速、准确入库,从而为软件系统提供有效的数据支撑,以便于软件系统进行精确的统计分析、决策。
基于上述考虑,本申请实施例提供了一种非结构化数据入库的技术方案。具体为:率先获取目标文档,目标文档用于表征通过内容控件对非结构化数据进行标记的文档,然后根据目标文档中各个内容控件的控件类型确定各个内容控件对应的指定入库规则,最后基于各个指定入库规则对各个内容控件进行处理,以将目标文档以结构化形式存储至数据库中。
基于上述的非结构化数据入库的技术方案,本申请实施例提供了一种网络安全风险评估方法及装置。本申请实施例提供的非结构化数据入库方法及装置可以应用于任意一个需要将电子文档中的非结构化数据以结构化形式入库的场景中。
下面对本申请实施例提供的网络安全风险评估方法及装置进行具体说明。
如图1所示,本申请实施例提供了一种非结构化数据入库方法,通过该方法能够解决非结构化数据入库效率低下和录入错误的问题,以为软件系统提供有效的数据支撑,该非结构化数据入库方法主要包括如下步骤101-103:
101、获取目标文档。
在本实施例中,目标文档可以为任意业务下的技术状态文档,也可以是非技术相关但存在非结构化数据的文档,其用于表征通过内容控件对非结构化数据进行标记的文档。其中,对于目标文档的内容控件标记,可通过文档辅助编辑工具实现,具体可以是基于历史文档的人为后期基于不同内容控件进行标记的文档,也可以是前期基于不同类型内容控件生成的文档模板,基于该文档模板撰写的文档,对此,本实施例不做限定,仅需保证该目标文档基于对用户需求将通过内容控件对非结构化数据进行标记即可,该标记的范围可以为部分非结构化数据,也可以为全部非结构化数据。
102、根据目标文档中各个内容控件的控件类型确定各个内容控件对应的指定入库规则。
其中,由于目标文档中的非结构化数据可以是多样化的,即其存在不同格式的内容,因此,为了将满足对多样化非结构化数据的需求,内容控件的控件类型包括但不限于:纯文本类型、图片类型、格式文本类型、表格类型、复选框类型、组合框类型、日期选取器类型和富文本类型,而在此之前,由于不同类型的内容控件的对应的控件内容格式不同,也就是说,其对应的入库的规则不同,因此,为了保证不同类型的内容控件的快速入库,需要预先配置规则库并设置专用接口,该规则库用于存储不同类型的内容控件对应的入库规则,而该入库规则即为将控件内容转换为结构化数据并自动入库的规则,当确定目标文档中内容控件的控件类型后,可基于内容控件的控件类型与规则库的入库规则进行匹配,而匹配成功的即为指定入库规则,通过专用接口调用指定入库规则,以便执行后续步骤103。
103、基于各个指定入库规则对各个内容控件进行处理,以将目标文档以结构化形式存储至数据库中。
在本步骤中,由于指定入库规则即为该目标文档中各个内容控件将其控件内容以结构化形式存储至数据库中需要用到的入库规则,因此,可基于控件类型将各个指定入库规则和各个内容控件构建对应关系,具体的,可以维护一个对应关系表,以便更为快速地利用指定入库规则对其对应内容控件的控件内容进行结构化处理,例如编码、加密等,使控件内容转换为结构化数据,进而能够快速、精确存入关系型数据库对应的字段中,从而在后续基于软件系统对数据进行查询、使用时,为软件系统提供有效的数据支撑,以便于软件系统进行精确的统计分析、决策。
基于上述图1的实现方式可以看出,本申请提供的一种非结构化数据入库方法,是在需要对非结构化数据进行提取入库时,首先获取到需要入库的目标文档,而目标文档是通过内容控件对非结构化数据进行标记的文档,然后根据该目标文档中各个内容控件的控件类型确定各个内容控件对应的指定入库规则,最后使用各个指定入库规则对各个内容控件进行处理,以将目标文档以结构化形式存储至数据库中,即将非结构化数据以结构式形式入库。通过本申请提供的技术方案,能够通过内容控件对多样化的非结构数据进行标记替换,并设置不同类型内容控件的入库规则,利用入库规则将内容控件对应的控件内容以结构化形式存储至数据库中,从而实现多样化非结构化数据的快速、准确入库,从而为软件系统提供有效的数据支撑,以便于软件系统进行精确的统计分析、决策。
如图2所示,本申请优选实施例是在上述图1的基础上,针对非结构化数据入库的过程进行的详细说明,该非结构化数据入库的过程主要包括如下步骤201-205:
201、获取目标文档。
本步骤结合上述方法中101步骤的描述,在此相同的内容不赘述。
202、对各个内容控件对应的控件内容进行预览核验,以获得对应的核验结果。
需要说明的是,由于前述步骤101可知,目标文档中的各个内容控件可通过文档辅助编辑工具实现,具体可以是基于历史文档的人为后期基于不同内容控件进行标记的文档,也可以是前期基于不同类型内容控件生成的文档模板,基于该文档模板撰写的文档,也就是说,在本步骤中,为了保证各个内容控件对应的控件内容与目标文档中被标记的非结构化数据对应的内容一致性,从而保证后续非结构化数据入库的精确性,可对各个内容控件对应的控件内容进行预览核验,该核验具体为对内容完整性和一致性核验,以便用户能够预先查看其正确性,具体的,可基于内容控件在标记时对应的标记位置信息确定目标文档中的标记内容,并比对标记内容与内容控件对应的控件内容的一致性,以获得对应的核验结果,其中,该标记位置信息可以为行标签、段落标签等,当核验结果为异常时,即说明内容控件对应的控件内容存在缺失或错误等,此时执行后续步骤202,当核验结果为正常时,即说明内容控件对应的控件内容不存在缺失或错误等,此时执行后续步骤203。
由于文档在撰写过程中,一般是以段落的形式对不同内容进行划分的,因此,在实际标记过程中,用户也习惯基于目标文档中的段落对文档内容进行标记,而为了进一步保证内容控件对应的控件内容与目标文档完整一致,即避免因标记操作而导致数据丢失或错误等情况,对于上述提及的对各个内容控件对应的控件内容进行预览核验的具体执行过程具体为:获取各个内容控件对应于目标文档的段落标签确定各个内容控件对应的目标段落内容;将各个目标段落内容与各个内容控件对应的控件内容进行一致性核验,以获得核验结果。
其中,段落标签是在对目标文档中的非结构化数据替换为内容控件时自动生成的,即其表征该内容控件标记的是目标文档中的第几段内容,因此,当对某一内容控件对应的控件内容一致性进行核验时,基于段落标签即可确定出该内容控件在目标文档中标记的是第几段内容,并将其定义为目标段落内容,通过各个目标段落内容与各个内容控件对应的控件内容进行比对,从而获得核验结果,而需要说明的是,本步骤中的一致性核验并不局限于文本内容,还可以包括但不限于源编码等,由于控件类型至少包括纯文本类型、图片类型、格式文本类型、表格类型、复选框类型、组合框类型、日期选取器类型和富文本类型。而对于图片类型或富文本类型的内容控件,其中涉及图片或其他非文本内容,即其是无法基于文本内容进行比对的,因此,可基于源编码进行比对,同样能够获得核验结果。
由于目标文档可以是基于历史文档的人为后期基于不同内容控件进行标记的文档,也可以是前期基于不同类型内容控件生成的文档模板,基于该文档模板撰写的文档,但两种形式相比较而言,基于前期生成的文档模板撰写的文档,一般不会出现数据丢失或错误等情况,反而基于历史文档的人为后期基于不同内容控件进行标记时是更为容易出现数据丢失或错误等情况,因此,为了提升对内容控件对应的控件内容入库的效率,在步骤201执行之前,具体的,确定目标文档的文档类型,文档类型包括控件模板写入文档和后期标记控件文档;基于目标文档对各个内容控件对应的控件内容进行完整性核验,以获得对应的核验结果,包括:当文档类型为后期标记控件文档时,基于目标文档对各个内容控件对应的控件内容进行完整性核验,以获得对应的核验结果。
其中,控件模板写入文档为前期基于不同类型内容控件生成的文档模板,基于该文档模板撰写的文档,而后期标记控件文档则为基于历史文档的人为后期基于不同内容控件进行标记的文档,具体的,可通过设置不同文档类型标识的方式对二者进行划分,也可以单独对控件模板写入文档对应的控件模板设置身份标识的方式实现对二者进行划分,对此,本实施例不做限定,而在当文档类型为后期标记控件文档时,则基于目标文档对各个内容控件对应的控件内容进行完整性核验,以获得对应的核验结果。
203、当核验结果为异常时,则基于核验异常的内容控件生成提示确认信息。
在本步骤中,由于核验结果为异常,即说明内容控件对应的控件内容存在缺失或错误等,即目标文档中对应的标记内容不一致,因此,此时可核验异常的内容控件生成提示确认信息,其中,该提示确认信息可通过标记、弹窗、提示音等形式出现,而对于其具体提示的内容,可以基于核验异常的内容控件的位置、类型等信息生成的,也可以基于核验异常的内容控件的位置、类型以及目标文档中对应该内容控件的段落标签生成,对此,本实施不做限定,进行保证能够准确反映异常的内容控件即可。
204、所述核验结果为正常时,则根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则。
在本步骤中,由于核验结果为正常,即说明内容控件对应的控件内容不存在缺失或错误等,即目标文档中对应的标记内容不一致,因此,此时可直接根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则。具体可结合上述方法中102步骤的描述,在此相同的内容不赘述。
205、基于各个指定入库规则对各个内容控件对应的控件内容进行加密并编码,以获得各个内容控件对应的结构化数据,并将目标文档对应的所有结构化数据存储至数据库中。
在本步骤中,由于结构化数据是关系型数据,其一般是通过字段存储在关系型数据库中,因此,为了将各个内容控件对应的控件内容准确转换为结构化数据,可以基于Base64等编码方式编码处理后直接存入数据库字段中, Base64是最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法,而为了保证数据的安全性,再编码前还可以基于AES加密等加密算法对其进行加密,AES加密算法(Advanced Encryption Standard)是一种对称加密算法,也称为高级加密标准,具有高强度、高速度和易于实现等优点,通过各个内容控件对应的控件内容进行加密并编码,即可将非结构化数据转换为能够入库的结构化数据,同时保证数据入库的安全、快速和准确,具体的,可通过设置不同的接口实现入库。
而需要说明的是,对于不同控件类型的内容控件对应的指定入库规则,其具体的入库方式如下所示:
控件类型至少包括纯文本类型、图片类型、格式文本类型、表格类型、复选框类型、组合框类型、日期选取器类型和富文本类型,其中,
纯文本格式:文本数据进行AES加密和Base64编码处理后直接存入数据库字段中;图片格式:图片数据进行AES加密和Base64编码存入文件再压缩,最后存储至文件服务器,文件路径存储至数据库字段中;
格式文本:文本数据进行AES加密和Base64编码、格式文本数据进行Base64编码分别存入数据库字段中;表格:表格数据进行AES加密和Base64编码存储于标识的结构化数据库表中,同时表格对象保存为对象并进行序列化,序列化后的数据进行Base64编码存入数据库字段;
复选框:复选框文本数据进行AES加密和Base64编码后存入数据库字段中;
组合框:组合框文本数据进行AES加密和Base64编码后存入数据库字段中;
日期选取器:日期选取器文本数据进行AES加密和Base64编码后存入数据库字段中;
富文本(RTF):富文本数据(图片、文字、表格带格式任意组合形式的内容)包括文本数据和富文本对象,文本数据进行AES加密和Base64编码、富文本对象序列化后进行Base64编码,处理后的文本数据和富文本对象数据分别存入数据库字段中。
为了提升用户后续在软件系统中查询相关数据的便捷性,在步骤201之后,具体的,生成目标文档对应的缩略图,并确定缩略图对应的缩略图入库规则;基于各个指定入库规则对各个内容控件进行处理,以将目标文档以结构化形式存储至数据库中,包括:基于缩略图入库规则对缩略图进行处理,以及基于各个指定入库规则对各个内容控件进行处理,以将缩略图和目标文档共同以结构化形式存储至数据库中。
其中,缩略图可以基于目标文档的属性生成内容缩略图,该属性包括但不限于摘要、内容、统计或自定义的一种,其用于清晰地表征目标文档的基本内容,具体的,可通过RichTextBox控件等处理工具生成缩略图,RichTextBox控件是C#中提供的一种控件,允许用户输入和编辑文本的同时提供了比普通的TextBox控件更高级的格式特征,RichTextBox控件可以打开和保存富文本RTF文件或普通的ASCII文本文件。而在生成目标文档对应的缩略图后,由于缩略图的作用是提升用户后续在软件系统中查询相关数据的便捷性,即其同样需要入库,因此,此时可确定缩略图对应的缩略图入库规则,具体的,可将该缩略图入库规则同时设置在用于存储内容控件对应的入库规则的规则库中,通过该缩略图入库规则对缩略图进行加密并编码等,即进行AES加密和Base64编码,以将缩略图和目标文档共同以结构化形式存储至数据库中,用户后续在软件系统中查询相关数据时,可先通过缩略图对目标文档中对应的数据进行确定,进而为用户在软件系统中查询业务数据提供帮助。
需要说明的是,本步骤中的缩略图可以与步骤202同时进行,即设置触发指令,在步骤202执行时触发,也可以在步骤202前后进行,即在步骤201执行后或在步骤204执行后触发,对此,本实施例不做限定。
进一步地,作为对上述图1-2所示方法实施例的实现,本申请实施例提供了一种非结构化数据入库装置,该装置用于解决非结构化数据入库效率低下和录入错误的问题,以为软件系统提供有效的数据支撑。该装置的实施例与前述方法实施例对应,为便于阅读,本实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。具体如图3所示,该装置包括:
获取单元31,用于获取目标文档,所述目标文档用于表征通过内容控件对非结构化数据进行标记的文档;
第一确定单元32,用于根据所述获取单元31获得的所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则;
处理单元33,用于基于所述第一确定单元32获得的各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中。
进一步地,如图4所示,所述处理单元33,具体用于,
基于各个所述指定入库规则对各个所述内容控件对应的控件内容进行加密并编码,以获得各个所述内容控件对应的结构化数据,并将所述目标文档对应的所有结构化数据存储至所述数据库中。
进一步地,如图4所示,所述装置还包括:
核验单元34,用于在所述第一确定单元32之前对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果;
第一生成单元35,用于当所述核验单元34获得的所述核验结果为异常时,则基于核验异常的内容控件生成提示确认信息。
所述第一确定单元32,具体用于,
当所述核验单元34获得的所述核验结果为正常时,则根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则。
进一步地,如图4所示,所述装置还包括:
第二确定单元36,在所述核验单元34之前确定所述目标文档的文档类型,所述文档类型包括控件模板写入文档和后期标记控件文档;
所述核验单元34,具体用于,
当所述文档类型为所述后期标记控件文档时,基于所述目标文档对各个所述内容控件对应的控件内容进行完整性核验,以获得对应的核验结果。
进一步地,如图4所示,所述核验单元34,包括:
获取模块341,用于获取各个所述内容控件对应于所述目标文档的段落标签确定各个所述内容控件对应的目标段落内容,所述段落标签是在对所述目标文档中的非结构化数据替换为所述内容控件时自动生成的;
核验模块342,用于所述获取模块341获得的将各个所述目标段落内容与各个所述内容控件对应的控件内容进行一致性核验,以获得所述核验结果。
进一步地,如图4所示,所述装置还包括:
第二生成单元37,用于在所述获取单元31之后生成所述目标文档对应的缩略图,并确定所述缩略图对应的缩略图入库规则;
所述处理单元33,具体用于,
基于所述第二生成单元37获得的所述缩略图入库规则对所述缩略图进行处理,以及基于各个所述指定入库规则对各个所述内容控件进行处理,以将所述缩略图和所述目标文档共同以结构化形式存储至数据库中。
进一步地,如图4所示,
所述控件类型至少包括纯文本类型、图片类型、格式文本类型、表格类型、复选框类型、组合框类型、日期选取器类型和富文本类型。
本申请提供的一种非结构化数据入库方法及装置,是在需要对非结构化数据进行提取入库时,首先获取到需要入库的目标文档,而目标文档是通过内容控件对非结构化数据进行标记的文档,然后根据该目标文档中各个内容控件的控件类型确定各个内容控件对应的指定入库规则,最后使用各个指定入库规则对各个内容控件进行处理,以将目标文档以结构化形式存储至数据库中,即将非结构化数据以结构式形式入库。通过本申请提供的技术方案,能够通过内容控件对多样化的非结构数据进行标记替换,并设置不同类型内容控件的入库规则,利用入库规则将内容控件对应的控件内容以结构化形式存储至数据库中,从而实现多样化非结构化数据的快速、准确入库,从而为软件系统提供有效的数据支撑,以便于软件系统进行精确的统计分析、决策。
进一步地,本申请实施例还提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述图1-2中所述的非结构化数据入库方法。
进一步地,本申请实施例还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述图1-2中所述的非结构化数据入库方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种非结构化数据入库方法,其特征在于,所述方法包括:
获取目标文档,所述目标文档用于表征通过内容控件对非结构化数据进行标记的文档,所述目标文档的文档类型包括后期标记控件文档,所述后期标记控件文档为人为后期基于不同内容控件进行标记的文档;
根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则;
基于各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中;
在所述根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则之前,所述方法还包括:
对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果;
当所述核验结果为异常时,则基于核验异常的内容控件生成提示确认信息;
当所述核验结果为正常时,则根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则。
2.根据权利要求1所述的方法,其特征在于,所述基于各个所述指定入库规则对各个所述内容控件进行处理,包括:
基于各个所述指定入库规则对各个所述内容控件对应的控件内容进行加密并编码,以获得各个所述内容控件对应的结构化数据,并将所述目标文档对应的所有结构化数据存储至所述数据库中。
3.根据权利要求1所述的方法,其特征在于,在所述对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果之前,包括:
确定所述目标文档的文档类型,所述文档类型包括控件模板写入文档和后期标记控件文档;
所述对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果,包括:
当所述文档类型为所述后期标记控件文档时,对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果。
4.根据权利要求3所述的方法,其特征在于,所述对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果,包括:
获取各个所述内容控件对应于所述目标文档的段落标签确定各个所述内容控件对应的目标段落内容,所述段落标签是在对所述目标文档中的非结构化数据替换为所述内容控件时自动生成的;
将各个所述目标段落内容与各个所述内容控件对应的控件内容进行一致性核验,以获得所述核验结果。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述获取目标文档之后,所述方法还包括:
生成所述目标文档对应的缩略图,并确定所述缩略图对应的缩略图入库规则;
所述基于各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中,包括:
基于所述缩略图入库规则对所述缩略图进行处理,以及基于各个所述指定入库规则对各个所述内容控件进行处理,以将所述缩略图和所述目标文档共同以结构化形式存储至数据库中。
6.根据权利要求1-4中任一项所述的方法,其特征在于,
所述控件类型至少包括纯文本类型、图片类型、格式文本类型、表格类型、复选框类型、组合框类型、日期选取器类型和富文本类型。
7.一种非结构化数据入库装置,其特征在于,所述装置包括:
获取单元,用于获取目标文档,所述目标文档用于表征通过内容控件对非结构化数据进行标记的文档,所述目标文档的文档类型包括后期标记控件文档,所述后期标记控件文档为人为后期基于不同内容控件进行标记的文档;
第一确定单元,用于根据所述获取单元获得的所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则;
处理单元,用于基于所述第一确定单元获得的各个所述指定入库规则对各个所述内容控件进行处理,以将所述目标文档以结构化形式存储至数据库中;
核验单元,用于在所述第一确定单元之前对各个所述内容控件对应的控件内容进行预览核验,以获得对应的核验结果;
第一生成单元,用于当所述核验单元获得的所述核验结果为异常时,则基于核验异常的内容控件生成提示确认信息;
所述第一确定单元,具体用于,
当所述核验单元获得的所述核验结果为正常时,则根据所述目标文档中各个所述内容控件的控件类型确定各个所述内容控件对应的指定入库规则。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1至权利要求6中任意一项所述的非结构化数据入库方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1至权利要求6中任意一项所述的非结构化数据入库方法。
CN202311336755.4A 2023-10-16 2023-10-16 一种非结构化数据入库方法及装置 Active CN117093589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311336755.4A CN117093589B (zh) 2023-10-16 2023-10-16 一种非结构化数据入库方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311336755.4A CN117093589B (zh) 2023-10-16 2023-10-16 一种非结构化数据入库方法及装置

Publications (2)

Publication Number Publication Date
CN117093589A CN117093589A (zh) 2023-11-21
CN117093589B true CN117093589B (zh) 2024-01-16

Family

ID=88782100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311336755.4A Active CN117093589B (zh) 2023-10-16 2023-10-16 一种非结构化数据入库方法及装置

Country Status (1)

Country Link
CN (1) CN117093589B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793531A (zh) * 2014-02-26 2014-05-14 中国银行股份有限公司 非结构化数据管理系统
CN107145480A (zh) * 2017-05-26 2017-09-08 上交所技术有限责任公司 一种基于Word进行XBRL报告编制的方法
CN108021632A (zh) * 2017-11-23 2018-05-11 中国移动通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法
CN109446503A (zh) * 2018-10-17 2019-03-08 天津字节跳动科技有限公司 文档内容导出方法和装置
CN109582647A (zh) * 2018-11-21 2019-04-05 珠海市新德汇信息技术有限公司 一种面向非结构化证据文件的分析方法及系统
CN112487036A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 数据处理方法及装置
CN115600803A (zh) * 2022-09-30 2023-01-13 国家石油天然气管网集团有限公司(Cn) 一种多业务系统的数据质量检查方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210319173A1 (en) * 2020-04-09 2021-10-14 Rsa Security Llc Determining syntax parse trees for extracting nested hierarchical structures from text data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793531A (zh) * 2014-02-26 2014-05-14 中国银行股份有限公司 非结构化数据管理系统
CN107145480A (zh) * 2017-05-26 2017-09-08 上交所技术有限责任公司 一种基于Word进行XBRL报告编制的方法
CN108021632A (zh) * 2017-11-23 2018-05-11 中国移动通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法
CN109446503A (zh) * 2018-10-17 2019-03-08 天津字节跳动科技有限公司 文档内容导出方法和装置
CN109582647A (zh) * 2018-11-21 2019-04-05 珠海市新德汇信息技术有限公司 一种面向非结构化证据文件的分析方法及系统
CN112487036A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 数据处理方法及装置
CN115600803A (zh) * 2022-09-30 2023-01-13 国家石油天然气管网集团有限公司(Cn) 一种多业务系统的数据质量检查方法和系统

Also Published As

Publication number Publication date
CN117093589A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN109816327B (zh) 合同数据处理方法、装置、计算机设备和存储介质
US11176317B2 (en) Automated file merging through content classification
CN106776515B (zh) 数据处理的方法及装置
CN112732641A (zh) 一种电子档案的归档方法及装置、介质
CN106681854B (zh) 一种信息校验方法、装置及系统
CN109002443B (zh) 一种文本信息的分类方法及装置
US9009175B2 (en) System and method for database migration and validation
WO2020206838A1 (zh) 代码片段翻译方法、装置、计算机设备和存储介质
CN115328853A (zh) 一种基于autosar的文件配置方法及装置
CN115391439B (zh) 文档数据导出方法、装置、电子设备和存储介质
US11250128B2 (en) System and method for detecting source code anomalies
CN113010169A (zh) 用于将ui图转换成代码文件的方法和装置
CN111367890A (zh) 一种数据迁移的方法、装置、计算机设备及可读存储介质
CN117093589B (zh) 一种非结构化数据入库方法及装置
CN110673828A (zh) 一种产品配置方法
CN116595588A (zh) 铁路信号系统开发过程安全分析方法及装置
CN110717131B (zh) 页面改版的监控方法及相关系统
CN111882419B (zh) 质检文件的方法、装置及服务器
CN110851400B (zh) 文本数据的处理方法及装置
CN114070737A (zh) 设备的配置数据的检查方法、装置、存储介质及电子设备
CN112712421A (zh) 一种流水账单自动下载的方法、设备及存储介质
CN111078574A (zh) 生成影响分析报告的方法及装置
CN113778880B (zh) 一种基于形式化验证的智能合约功能验证方法及装置
CN109933049B (zh) 一种电力调度日志故障分类方法及系统
CN110554867A (zh) 一种应用程序的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant