CN106815268A - 海量非结构化电子文件的结构化处理方法及系统 - Google Patents

海量非结构化电子文件的结构化处理方法及系统 Download PDF

Info

Publication number
CN106815268A
CN106815268A CN201510870916.7A CN201510870916A CN106815268A CN 106815268 A CN106815268 A CN 106815268A CN 201510870916 A CN201510870916 A CN 201510870916A CN 106815268 A CN106815268 A CN 106815268A
Authority
CN
China
Prior art keywords
nuclear power
destructuring
file
power technology
magnanimity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510870916.7A
Other languages
English (en)
Inventor
白鹤
杨帆
罗亚林
王云福
涂红兵
侯斌
刘东海
戴伟琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
Original Assignee
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, China Nuclear Power Engineering Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201510870916.7A priority Critical patent/CN106815268A/zh
Publication of CN106815268A publication Critical patent/CN106815268A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种海量非结构化电子文件的结构化处理方法及系统。该系统包括元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;以及内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件的结构化转换效率及准确率,降低人工成本。本系统还可完整记录海量非结构化数据结构化转变过程中产生的报错信息,利于后期追踪及回滚。

Description

海量非结构化电子文件的结构化处理方法及系统
技术领域
本发明属于文档管理信息化技术领域,更具体地说,本发明涉及一种海量非结构化电子文件的结构化处理方法及系统。
背景技术
核电工程资料多以图纸,文档,软件输入输入数据,三维模型为主,其非结构化程度较高,通常使用企业内容管理平台(Enterprise Content Management,ECM)进行管理,企业内容管理平台将部分结构化信息存储在数据库中,便于通过特征元数据快速检索和利用,而技术资料的主要技术信息则存储在实体的电子文件中。
核电工程设计企业外部文档资料数量庞大,达到百万级别,尤其是AP1000、EPR三代核电技术转让资料,由于技术转让资料大部分是非结构化或半结构化文件档案,这些海量资料存在时间跨度大,数量庞大,编码复杂,文件版本多,重复提交现象严重,元数据信息不全,电子文件命名不规范等诸多问题。目前这些海量资料的结构化梳理方式以文档人员手动处理为主,不仅耗费大量人力物力,而且,海量资料人工梳理的工作效率极为低下。
因此,如何开发及提供一种能够对半结构化甚至非结构化核电文档资料进行高效的结构化处理的核电技术资料处理方法及系统,已成为亟待解决的技术问题。
发明内容
本发明的目的在于:针对现有技术的上述缺陷,提供一种通过智能化分布式处理方式对海量非结构化电子文件进行高效的结构化处理,节省人工成本, 显著提高数据结构化转换效率及准确率的结构化处理方法及系统。
为了实现上述发明目的,本发明提供了一种海量非结构化电子文件的结构化处理方法,该方法包括:
根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;
根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。
本发明还提供了一种海量非结构化电子文件的结构化处理系统,该系统包括:
元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;
结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;
内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。
本发明提供了一种智能化程度高,科学严谨,简单实用,且运行可靠稳定的海量非结构化电子文件的结构化处理方法及系统,应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件(比如结构化程度低的海量核电技术文件)的结构化转换效率及准确率,降低人工成本。另外,本发明还可通过日志对元数据形式化约束条件校验或匹配过程中的报错作完整记录,利于后期追踪及回滚,本发明系统还支持对因存在数据噪声而被滤除,但经人工干预更正的那部分核电技术文件进行再一次的结构化处理,以提高非结构化数据结构化转换的成功率。
附图说明
下面结合附图和具体实施方式,对本发明海量非结构化电子文件的结构化处理方法及系统进行说明,其中:
图1为本发明较佳实施例提供的海量非结构化电子文件的结构化处理方法的流程图;
图2为图1中包含的海量非结构化核电技术文件的结构化处理过程的具体流程图;
图3为图2中包含的滤除海量核电技术文件中存在数据噪声的核电技术文件的流程图;
图4为图2中包含的将海量结构化核电技术文件导入核电企业内容管理系统的流程图;
图5为本发明另一较佳实施例提供的海量非结构化电子文件的结构化处理系统的结构框图;
图6为图5中结构化处理模块的结构框图;
图7为图6中数据噪声滤除子模块的结构框图。
具体实施方式
为了使本发明的发明目的、技术方案及其技术效果更加清晰,以下结合附图和具体实施方式,对本发明进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。
如图1所示,针对现有技术中核电技术资料数量庞大且大部分为非结构化或半结构化的文件,结构化梳理方式落后且处理效率低下,以及人工成本高的技术缺陷,本发明提出了一种海量非结构化电子文件的结构化处理方法,该方法包括以下步骤:
S100、根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条 件。该元数据形式化约束条件用于判断某个元数据m实例是否符合该元数据集合中对应元素m的限制条件,判断条件以元数据枚举库或形式化正则表达约束函数作为依据。
S200、根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统600结构要求的海量结构化数据。在步骤S200中,优选地,对海量非结构化核电技术文件进行分布式处理,以此提高核电技术文件的处理效率,缩短海量核电技术文件结构化处理的耗时。
S300、将该海量结构化数据导入核电企业内容管理系统600。
在本发明海量非结构化核电技术文件的结构化处理方法中,应用分布式数据处理方式对海量非结构化核电技术文件进行分布式处理,提高了海量非结构化核电技术文件结构化梳理的处理效率,缩短了海量数据结构化处理的耗时。本发明可根据核电技术文件特点进行自由组合及配置,可适应多种核电技术路线。
进一步地,如图2所示,本发明步骤S200具体包括:
步骤S201、根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,将抽取的结构化信息存储于元数据结构化信息数据库400。
其中,海量非结构化核电技术文件的结构化信息的抽取过程如下:
采用分布式处理方式对海量非结构化核电技术文件中的元数据进行扫描,获得海量非结构化核电技术文件的文件属性(例如,文件名称、文件类型、空间大小、创建日期、Hash码等)及目录属性(如技术转让任务包、传递文件的函件编码、传递文件的日期甚至文件的编码日期);以及
对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。
S202、根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在 数据噪声的核电技术文件。在本发明中,由于一些电子文件的结构化数据表述模糊且形式不规范,致使该类电子文件中存在数据噪声。通过海量非结构化核电技术文件的结构化处理,滤除海量非结构化核电技术文件中存在数据噪声的核电技术文件,并建立关联结构化信息及核电技术文件的映射关系,为后面的核电技术文件的查找、索引提供了极大方便,保证了海量数据的有序、可用。
进一步地,如图3所示,本发明提出了包含于步骤S202中的一种数据噪声过滤方案,该数据噪声过滤方案具体包括如下步骤:
步骤S2021、抓取非结构化核电技术文件自带的结构化信息。
步骤S2022、通过元数据形式化约束条件对该非结构化核电技术文件自带的结构化信息进行校验,以判断该结构化信息是否满足制定的元数据形式化约束条件。
步骤S2023、如该结构化信息符合该元数据形式化约束条件,则执行下一步骤S2024;否则,执行步骤S2026。
步骤S2024、将该结构化信息与元数据结构化信息数据库400中的结构化信息进行匹配分析。
该匹配分析过程具体如下:
应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,并将该匹配分数与设定的匹配分数阈值进行比较;
该匹配分值计算公式如下所示:
其中:
MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;
δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元 数据组中第i个元数据/元数据组;
λi表示第i个元数据/元数据组的权值;
Fii,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。
步骤S2025、判断匹配是否成功。如该非结构化核电技术文件的结构化信息的匹配分数超过该设定的匹配分数阈值,则判定匹配成功,执行步骤S2027;否则,判定匹配失败,执行步骤S2026。
步骤S2026、报错并通过日志记录报错信息。该报错信息包括校验错误信息及匹配错误信息。通过日志记录报错信息,本发明可完整记录海量非结构化核电技术文件的结构化转变过程,利于追踪及回滚,保证了数据的完整性及一致性。
步骤S2027、记录匹配成功的结构化信息,并建立该匹配成功的结构化信息及其对应的经结构化处理的核电技术文件的映射关系。
待步骤S2027及步骤S2026执行完毕后,返回步骤S2021。
进一步地,本发明还提出了一种包含在步骤S300中的基于结构化信息的海量结构化数据的索引及导入方法。
请结合图4,该海量数据索引及导入方法具体包括:
步骤S301、根据匹配成功的结构化信息索引与之存在映射关系的,经结构化处理且满足核电企业内容管理系统600结构化要求的核电技术文件;
步骤S302、将该结构化核电技术文件导入核电企业内容管理系统600。
进一步地,本发明在步骤S300之后还可以包括:
步骤S400、在完成海量结构化数据的导入之后,根据元数据中的文件属性创建资料文件授权组,该资料文件授权组由文件的类别、任务包、文件所属领域及文件密级数据拼接而成。
可选地,本发明还可以包括:
步骤S500、接收经人工干预更正的核电技术文件,根据元数据形式化约束 条件对该部分更正的核电技术文件进行再一次的结构化处理(由于更正的核电技术文件的结构化处理方案与本申请上述步骤S200基本相同,故在此不再赘述)。
本发明对已知结构化元数据结构框架下的多个维度(即元数据或元数据组)及不同维度的权值进行全面考量,合理设定结构化匹配条件,应用科学严谨的匹配分值计算公式计算海量非结构化核电技术文件的结构化信息与已知的结构化元数据结构框架下的匹配程度,达到了高效精确地过滤海量非结构性核电技术文件中存在数据噪声而无法满足核电企业内容管理系统600结构化要求的核电技术文件,得到有序、可用的海量结构化数据。因此,本发明不仅大大降低了人工成本及生产成本,还能显著提高海量数据的结构化转换效率及其准确率,提高了时间效率。
基于图1至图4所述的海量非结构化电子文件的结构化处理方法,本发明还提出了一种海量非结构化电子文件的结构化处理系统。
请结合图5,该海量非结构化电子文件的结构化处理系统包括:
元数据形式化约束配置模块100,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;
结构化处理模块200,用于根据元数据形式化约束条件对海量非结构化电子文件进行分布式的结构化处理,得到满足核电企业内容管理系统600结构要求的海量结构化数据;
内容管理系统集成模块300,用于将该海量结构化数据导入核电企业内容管理系统600。
请结合图6,进一步地,该结构化处理模块200还包括:
非结构化电子文件结构化数据抽取子模块201,用于根据制定的元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息;该结构化信息包括非结构化核电技术文件的文件属性、目录属性及内容属性。
数据噪声滤除子模块202,用于根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。
进一步地,该系统还包括:
元数据结构化信息数据库400,用于存储该非结构化电子文件结构化数据抽取子模块201抽取的结构化信息。
请结合图7,进一步地,该数据噪声滤除子模块202可以包括:
结构化信息校验单元2021,用于抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对该结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;
匹配分析单元2022,用于该非结构化核电技术文件的结构化信息通过校验时,应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较,根据比较结果判断该非结构化核电技术文件的元数据是否匹配成功,据此判断该非结构化核电技术文件是否为存在数据噪声的核电技术文件;其中:
该匹配分值计算公式如下所示:
其中:
MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;
δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元数据组中第i个元数据/元数据组;
λi表示第i个元数据/元数据组的权值;
Fii,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。
具体地,该内容管理系统集成模块300用于根据匹配成功的结构化信息索 引与该结构化信息存在映射关系的结构化核电技术文件,并将该结构化核电技术文件导入核电企业内容管理系统600。
进一步地,该系统还可以包括一个日志记录及报错模块500,该日志记录及报错模块500用于当该结构化信息不符合制定的元数据形式化约束条件,或者该结构化信息匹配失败时,报错并通过日志记录报错信息,该报错信息包括校验错误信息及匹配错误信息。
可选地,该结构化处理模块200还用于接收由外部输入的,经人工干预更正的核电技术文件,根据制定的元数据形式化约束条件对该部分更正的核电技术文件进行再一次的结构化处理。
综上所述,本发明提供了一种智能化程度高,科学严谨,简单实用,且运行可靠稳定的海量非结构化电子文件的结构化处理方法及系统,应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件(比如结构化程度低的海量核电技术文件)的结构化转换效率及准确率,降低人工成本。另外,本发明还可通过日志对元数据形式化约束条件校验或匹配过程中的报错作完整记录,利于后期追踪及回滚,本发明系统还支持对因存在数据噪声而被滤除,但经人工干预更正的那部分核电技术文件进行再一次的结构化处理,以提高非结构化数据结构化转换的成功率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保 护的范围情况下,还可作出很多形式,这些均属于本发明的保护之内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (17)

1.一种海量非结构化电子文件的结构化处理方法,其特征在于,该方法包括:
根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;
根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。
2.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理的步骤包括:
根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,该结构化信息包括海量非结构化核电技术文件的文件属性、目录属性及内容属性;
将抽取的结构化信息存储于元数据结构化信息数据库。
3.根据权利要求2所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息的步骤包括:
提取海量非结构化核电技术文件中的元数据,获得海量非结构化核电技术文件的文件属性及目录属性;以及
对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。
4.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件执行海量非结构化电子文件的结构化处理 的步骤还包括:
根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。
5.根据权利要求4所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件的步骤具体包括:
抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对抓取的结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;
如该结构化信息不符合元数据形式化约束条件,则将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错;
如该结构化信息符合元数据形式化约束条件,则将该结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析,判断两者是否匹配成功;
如匹配成功,则执行下一个非结构化核电技术文件的抓取及匹配工作;反之,将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错。
6.根据权利要求5所述的海量非结构化电子文件的结构化处理方法,其特征在于,将非结构化核电技术文件的结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析的步骤具体包括:
应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较;如该非结构化核电技术文件的结构化信息的匹配分数超过该设定的匹配分数阈值,则判定匹配成功,并建立匹配成功的结构化信息及其对应的经结构化处理的核电技术文件的映射关系;
该匹配分值计算公式如下所示:
其中:
MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;
δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元数据组中第i个元数据/元数据组;
λi表示第i个元数据/元数据组的权值;
Fii,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。
7.根据权利要求4或5所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在过滤存在数据噪声的非结构化核电技术文件之后还包括:
通过日志记录及保存报错信息。
8.根据权利要求7所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在完成海量非结构性核电技术文件的结构化处理及对结构化处理过程中的报错信息进行记录之后还包括:
接收经人工干预更正的核电技术文件,根据元数据形式化约束条件对该部分更正的核电技术文件进行再一次的结构化处理。
9.根据权利要求6所述的海量非结构化电子文件的结构化处理方法,其特征在于,将该海量结构化数据导入核电企业内容管理系统的步骤具体包括:
根据匹配成功的结构化信息索引与之存在映射关系的结构化核电技术文件,将该结构化核电技术文件导入核电企业内容管理系统。
10.根据权利要求9所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在完成海量结构化数据的导入之后还包括:
根据元数据中的文件属性创建资料文件授权组,该资料文件授权组由文件的类别、任务包、文件所属领域及文件密级数据拼接而成。
11.一种海量非结构化电子文件的结构化处理系统,其特征在于,该系统包括:
元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规 则制定元数据形式化约束条件;
结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;
内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。
12.根据权利要求11所述的海量非结构化电子文件的结构化处理系统,其特征在于,该结构化处理模块包括:
非结构化电子文件结构化数据抽取子模块,用于根据制定的元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,该结构化信息包括非结构化核电技术文件的文件属性、目录属性及内容属性;
该系统还包括:
元数据结构化信息数据库,用于存储该非结构化电子文件结构化数据抽取子模块抽取的结构化信息。
13.根据权利要求11所述的海量非结构化电子文件的结构化处理系统,其特征在于,该结构化处理模块还包括:
数据噪声滤除子模块,用于根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。
14.根据权利要求11所述的海量非结构化电子文件的结构化处理系统,其特征在于,该数据噪声滤除子模块包括:
结构化信息校验单元,用于抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对该结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;
匹配分析单元,用于该非结构化核电技术文件的结构化信息通过校验时,应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同 维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较,根据比较结果判断该非结构化核电技术文件的元数据是否匹配成功,并据此判断该非结构化核电技术文件是否为存在数据噪声的核电技术文件;其中:
该匹配分值计算公式如下所示:
其中:
MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;
δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据中第i个元数据;
λi表示第i个元数据的权值;
Fii,mi)为用于计算划分的每个元数据的匹配分值的匹配函数。
15.根据权利要求11所述的海量非结构化电子文件的结构化处理系统,其特征在于,该系统还包括:
日志记录及报错模块,用于当该结构化信息不符合制定的元数据形式化约束条件,或者当该结构化信息匹配失败时,报错并通过日志记录报错信息,该报错信息包括校验错误信息及匹配错误信息。
16.根据权利要求11所述的海量非结构化电子文件的结构化处理系统,其特征在于:
该结构化处理模块还用于接收由外部输入的,经人工干预更正的核电技术文件,根据制定的元数据形式化约束条件对该部分更正的核电技术文件进行再一次的结构化处理。
17.根据权利要求11所述的海量非结构化电子文件的结构化处理系统,其特征在于:
该内容管理系统集成模块具体用于根据匹配成功的结构化信息索引与该结构化信息存在映射关系的结构化核电技术文件,并将该结构化核电技术文件导入核电企业内容管理系统。
CN201510870916.7A 2015-12-01 2015-12-01 海量非结构化电子文件的结构化处理方法及系统 Pending CN106815268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510870916.7A CN106815268A (zh) 2015-12-01 2015-12-01 海量非结构化电子文件的结构化处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510870916.7A CN106815268A (zh) 2015-12-01 2015-12-01 海量非结构化电子文件的结构化处理方法及系统

Publications (1)

Publication Number Publication Date
CN106815268A true CN106815268A (zh) 2017-06-09

Family

ID=59108447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510870916.7A Pending CN106815268A (zh) 2015-12-01 2015-12-01 海量非结构化电子文件的结构化处理方法及系统

Country Status (1)

Country Link
CN (1) CN106815268A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376393A (zh) * 2018-09-26 2019-02-22 中广核工程有限公司 核电厂管道力学分析方法以及系统
CN109446345A (zh) * 2018-09-26 2019-03-08 深圳中广核工程设计有限公司 核电文件校验处理方法以及系统
CN109710413A (zh) * 2018-12-29 2019-05-03 重庆誉存大数据科技有限公司 一种半结构化文本数据的规则引擎系统的整体计算方法
CN110879824A (zh) * 2019-10-23 2020-03-13 中广核工程有限公司 一种基于物理数据库的核电工程业务数据挖掘系统及方法
US20230418882A1 (en) * 2022-06-22 2023-12-28 Docusign, Inc. Customized agreement validation
CN117556112A (zh) * 2024-01-11 2024-02-13 中国标准化研究院 电子档案信息智能管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070013967A1 (en) * 2005-07-15 2007-01-18 Indxit Systems, Inc. Systems and methods for data indexing and processing
CN101908176A (zh) * 2010-08-02 2010-12-08 国电南瑞科技股份有限公司 一种基于电力信息数据建模及元数据管理应用方法
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN103310025A (zh) * 2013-07-08 2013-09-18 北京邮电大学 非结构化数据的描述方法及装置
CN103678682A (zh) * 2013-12-26 2014-03-26 中国科学院遥感与数字地球研究所 基于抽象模板的海量栅格数据处理及管理方法
CN104239506A (zh) * 2014-09-12 2014-12-24 北京优特捷信息技术有限公司 一种非结构化数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070013967A1 (en) * 2005-07-15 2007-01-18 Indxit Systems, Inc. Systems and methods for data indexing and processing
CN101908176A (zh) * 2010-08-02 2010-12-08 国电南瑞科技股份有限公司 一种基于电力信息数据建模及元数据管理应用方法
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN103310025A (zh) * 2013-07-08 2013-09-18 北京邮电大学 非结构化数据的描述方法及装置
CN103678682A (zh) * 2013-12-26 2014-03-26 中国科学院遥感与数字地球研究所 基于抽象模板的海量栅格数据处理及管理方法
CN104239506A (zh) * 2014-09-12 2014-12-24 北京优特捷信息技术有限公司 一种非结构化数据处理方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376393A (zh) * 2018-09-26 2019-02-22 中广核工程有限公司 核电厂管道力学分析方法以及系统
CN109446345A (zh) * 2018-09-26 2019-03-08 深圳中广核工程设计有限公司 核电文件校验处理方法以及系统
CN109376393B (zh) * 2018-09-26 2023-06-27 中广核工程有限公司 核电厂管道力学分析方法以及系统
CN109710413A (zh) * 2018-12-29 2019-05-03 重庆誉存大数据科技有限公司 一种半结构化文本数据的规则引擎系统的整体计算方法
CN110879824A (zh) * 2019-10-23 2020-03-13 中广核工程有限公司 一种基于物理数据库的核电工程业务数据挖掘系统及方法
US20230418882A1 (en) * 2022-06-22 2023-12-28 Docusign, Inc. Customized agreement validation
CN117556112A (zh) * 2024-01-11 2024-02-13 中国标准化研究院 电子档案信息智能管理系统
CN117556112B (zh) * 2024-01-11 2024-04-16 中国标准化研究院 电子档案信息智能管理系统

Similar Documents

Publication Publication Date Title
CN106815268A (zh) 海量非结构化电子文件的结构化处理方法及系统
CN109669934B (zh) 一种切合电力客服业务的数据仓库系统及其构建方法
Chen et al. Analysis of decomposability and complexity for design problems in the context of decomposition
CN102741803B (zh) 用于促进数据发现的系统和方法
CN103279542B (zh) 数据导入处理方法及数据处理装置
CN104361018B (zh) 电子档案信息整编方法及装置
US8315997B1 (en) Automatic identification of document versions
Vassiliadis et al. Modeling ETL activities as graphs.
US8112421B2 (en) Query selection for effectively learning ranking functions
CN103229167A (zh) 用于为电子发现数据编索引的系统和方法
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
Xue et al. Optimizing ontology alignment through memetic algorithm based on partial reference alignment
US20190387056A1 (en) Irc-infoid data standardization for use in a plurality of mobile applications
CN111061679A (zh) 一种基于rete和drools规则的科技创新政策速配的方法和系统
CN106528794A (zh) 一种基于档案管理系统的电子文件归档方法
CN115795131A (zh) 基于人工智能的电子档案分类方法、装置及电子设备
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN117172319A (zh) 基于大语言模型的自然资源行业知识库构建方法及系统
US20230129094A1 (en) Method and system for training a query ranking machine-learning model to provide an answer for a user query
CN116561345A (zh) 一种基于多模态数据公司情报知识图谱构建方法
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储系统
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
KR102444589B1 (ko) 건설분야 문서 분석 방법
JPH0327441A (ja) 知識情報処理システムにおけるデータベース利用方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609