CN112487152B - 一种文档自动检测方法及装置 - Google Patents

一种文档自动检测方法及装置 Download PDF

Info

Publication number
CN112487152B
CN112487152B CN202011492808.8A CN202011492808A CN112487152B CN 112487152 B CN112487152 B CN 112487152B CN 202011492808 A CN202011492808 A CN 202011492808A CN 112487152 B CN112487152 B CN 112487152B
Authority
CN
China
Prior art keywords
information
target
content
standard
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011492808.8A
Other languages
English (en)
Other versions
CN112487152A (zh
Inventor
谢元呈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202011492808.8A priority Critical patent/CN112487152B/zh
Publication of CN112487152A publication Critical patent/CN112487152A/zh
Application granted granted Critical
Publication of CN112487152B publication Critical patent/CN112487152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文档自动检测方法及装置,从获取的文档中提取检测信息;将预设规则模型中的标准目录与检测信息中的目标目录信息中的目录进行匹配,得到目标目录信息的匹配信息;将预设规则模型中的标准内容规则指示的关键词与检测信息中的目标内容信息中的内容进行比对,得到目标内容信息的比对信息;若匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告;若匹配信息表征目标目录信息匹配不成功,或比对信息表征目标内容信息比对不成功,根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告。本发明,提高了检测文档的效率和准确性。

Description

一种文档自动检测方法及装置
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种文档自动检测方法及装置。
背景技术
随着计算机技术的不断发展,越来越多的企业基于计算机技术和文档架构设计文档模板,以便员工根据所设置的文档模板编写相应的文档,虽然设计的文档的模板中为文档编写的内容、文字的格式以及章节布局做了一定要求,但是仍会存在员工根据所设置的文档模板编写相应的文档时出现错误的情况,因此,在提交时需要对所编写的文档进行相应的检查。
在现有技术中,员工在根据所设置的文档模板编写相应的文档后,发送给相关负责人,由相关负责人统一检查。这种方式主要是采用人工对所编写的文档进行检查,但是采用人工对文档进行检查,不仅工作量大效率低,还容易出现遗漏。
发明内容
因此,本发明提供一种文档自动检测方法及装置,以提高检测文档的效率和准确性。
本发明第一方面公开一种文档自动检测方法,所述方法包括:
获取用户编写的文档;
从所述文档中提取检测信息,所述检测信息至少包括目标目录信息和目标内容信息,所述目标内容信息包括所述目标目录信息中每个目录对应的内容;
将预设的规则模型中的标准目录与所述目标目录信息中的目录进行匹配,得到所述目标目录信息的匹配信息;
将所述预设的规则模型中的标准内容规则指示的关键词与所述目标内容信息中的内容进行比对,得到所述目标内容信息的比对信息;
若所述匹配信息表征所述目标目录信息匹配成功,且所述比对信息表征所述目标内容信息比对成功,根据所述匹配信息和所述比对信息生成表征所述文档符合质量要求的检测报告;
若所述匹配信息表征所述目标目录信息匹配不成功,或所述比对信息表征所述目标内容信息比对不成功,根据所述匹配信息和所述比对信息生成表征所述文档不符合质量要求的检测报告。
可选的,所述将预设的规则模型中的标准目录与所述目标目录信息中的目录进行匹配,得到所述目标目录的匹配信息,包括:
将预设的规则模型中的每个标准目录与所述目标目录信息中的目录进行匹配;
若所述预设的规则模型中的每个所述标准目录均与所述目标目录信息中的目录匹配成功,生成表征所述目标目录信息匹配成功的匹配信息;
若所述预设的规则模型中存在与所述目标目录信息中的目录匹配不成功的标准目录,生成与所述目标目录信息中的目录匹配不成功的标准信息的第一补充信息,并根据所述第一补充信息生成表征所述目标目录信息匹配不成功的匹配信息。
可选的,所述将所述预设的规则模型中的标准内容规则指示的关键词与所述目标内容信息中的内容进行比对,得到所述目标内容信息的比对信息,包括:
从所述目标内容信息中选取与所述预设的规则模型中的标准目录匹配的至少一个目标内容;
从所述预设的规则模型中选取与所述目标内容对应的标准内容规则;
将每个所述目标内容与对应的标准内容规则指示的关键词进行比对;
若每个所述目标内容均与对应的标准内容规则指示的关键词比对成功,生成表征所述目标内容信息比对成功的比对信息;
若存在与对应的标准内容规则指示的关键词比对不成功的目标内容,生成与对应的标准内容规则指示的关键词比对不成功的目标内容的第二补充信息,并根据所述第二补充信息生成表征所述目标内容信息比对不成功的比对信息。
可选的,所述预设的规则模型的过程,包括:
获取标准文档;
提取所述标准文档中的多个目录,并根据预设的目录条件确定所述多个目标中的至少一个标准目录和至少一个非标准目录;
根据预设的内容条件确定每个所述标准目录的内容对应的至少一个关键词,并根据与其对应的所述至少一个关键词生成每个所述标准目录对应的内容的标准内容规则;
基于所述至少一个非标准目录和所述至少一个标准目录以及每个所述标准目录对应的内容的标准内容规则生成规则模型。
本发明第二方面公开一种文档自动检测装置,所述装置包括:
第一获取单元,用于获取用户编写的文档;
检测信息提取单元,用于从所述文档中提取检测信息,所述检测信息至少包括目标目录信息和目标内容信息,所述目标内容信息包括所述目标目录信息中每个目录对应内容;
匹配单元,用于将预设的规则模型中的标准目录与所述目标目录信息中目录进行匹配,得到所述目标目录信息的匹配信息;
比对单元,用于将所述预设的规则模型中的标准内容规则指示的关键词与所述目标内容信息中的内容进行比对,得到所述目标内容信息的比对信息;
第一生成单元,用于若所述匹配信息表征所述目标目录信息匹配成功,且所述比对信息表征所述目标内容信息比对成功,根据所述匹配信息和所述比对信息生成表征所述文档符合质量要求的检测报告;
第二生成单元,用于若所述匹配信息表征所述目标目录信息匹配不成功,或所述比对信息表征所述目标内容信息比对不成功,根据所述匹配信息和所述比对信息生成表征所述文档不符合质量要求的检测报告。
可选的,所述匹配单元,包括:
匹配子单元,用于将预设的规则模型中的每个标准目录与所述目标目录信息中的目录进行匹配;
第三生成单元,用于若所述预设的规则模型中的每个所述标准目录均与所述目标目录信息中的目录匹配成功,生成表征所述目标目录信息匹配成功的匹配信息;
第四生成单元,用于若所述预设的规则模型中存在与所述目标目录信息中的目录匹配不成功的标准目录,生成与所述目标目录信息中的目录匹配不成功的标准信息的第一补充信息,并根据所述第一补充信息生成表征所述目标目录信息匹配不成功的匹配信息。
可选的,所述比对单元,包括:
第一选取单元,用于从所述目标内容信息中选取与所述预设的规则模型中的标准目录匹配的至少一个目标内容;
第二选取单元,用于从所述预设的规则模型中选取与所述目标内容对应的标准内容规则;
比对子单元,用于将每个所述目标内容与对应的标准内容规则指示的关键词进行比对;
第五生成单元,用于若每个所述目标内容均与对应的标准内容规则指示的关键词比对成功,生成表征所述目标内容信息比对成功的比对信息;
第六生成单元,用于若存在与对应的标准内容规则指示的关键词比对不成功的目标内容,生成与对应的标准内容规则指示的关键词比对不成功的目标内容的第二补充信息,并根据所述第二补充信息生成表征所述目标内容信息比对不成功的比对信息。
可选的,所述预设的规则模型的过程,包括:
第二获取单元,用于获取标准文档;
提取单元,用于所述标准文档中的多个目录,并根据预设的目录条件确定所述多个目标中的至少一个标准目录和至少一个非标准目录;
确定单元,用于根据预设的内容条件确定每个所述标准目录的内容对应的至少一个关键词,并根据与其对应的所述至少一个关键词生成每个所述标准目录对应的内容的标准内容规则;
规则模型生成单元,用于基于所述至少一个标准目录以及每个所述标准目录对应的内容的标准内容规则生成规则模型。
本发明提供一种文档自动检测方法及装置,通过预先构建规则模型,在获取到用户编写的文档后,从所获取的文档中提取检测信息,以便将预先构建的规则模型中标准目录与检测信息中目标目录信息中的目录进行匹配得到目标目录信息的匹配信息,以及将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息,在匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功的情况下,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告,在匹配信息表征目标目录信息匹配不成功,且比对信息表征目标内容信息比对不成功,根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告。本发明提供的技术方案,不需要人工的介入,利用预先构建的规则模型便可实现对用户提交的文档进行检测,提高了文件的检测效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种文档自动检测方法的流程示意图;
图2为本发明实施例提供的一种文档自动检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
参见图1,示出了本发明实施例提供的一种文档自动检测方法的流程示意图,该文档自动检测方法具体包括以下步骤:
S101:获取用户编写的文档。
在具体执行步骤S101的过程中,在用户编写好文档并提交后,响应用户的提交操作获取该用户提交的文档。
S102:从文档中提取检测信息,检测信息至少包括目标目录信息和目标内容信息,目标内容信息包括目标目录信息中每个目录对应的内容。
在具体执行步骤S102的过程中,在获取到用户编写的文档后,可以从所获取的文档中提取目标目录信息和目标内容信息,以便根据所提取的目标目录信息和目标内容信息生成检测信息,其中,目标内容信息包括目标目录信息中每个目录对应的内容。
比如,从获取的文档中提取到的检测信息可以如表1所示。
表1:
从表1中可以知道,从所获取的文档中提取到的检测信息中的目标目录信息中的目录为基本情况和功能需求,且目录为基本情况的内容为P3.T1.1.1基本情况-审查对象,P3.T2.审查对象:XX,技术方案项目情况:XXXX,审查制度:XXXX;目录为功能需求的内容为P20.第1个:表格13行4列,P20.第2个:表格13行4列,其中,P表示该目录在文档中的页数,T为具体的目录数。
S103:将预设的规则模型中的标准目录与目标目录信息中的目录进行匹配,得到目标目录信息的匹配信息。
在步骤S103中,为了保证编写的文档的质量,可以根据文档的目录的要求(为了便于区分将文档的目录要求成为预设的目录条件,)和目录对应的内容的要求(为了便于区分,将目录对应的内容的要求称为预设的内容条件)对编写的文档的目录和每个目录对应的内容进行检查。为了保证对文档进行检查的准确定和效率,本发明通过根据预设的目录条件和预设的内容条件构建了规则模型,以便利用构建的规则模型对用户编写的文档进行检测,从而保证用户编写的文档的质量。
需要说明的是,预设的目录条件可以为文档中必须包含的目录,预设的内容条件可以为目录对应的内容中必须包含的关键词,其中,目录对应的内容必须包含的关键词可以为必须包含的关键字、必须插入的图表、表格、链接文件等等。
在本申请实施例中,根据文档的目录要求和每个目录对应的内容的要求构建的规则模型的过程如下所示:
A11:获取技术人员根据预设的文档模板编写的标准文档。
在具体执行步骤A11的过程中,技术人员根据自身经验编写好标准文档后提交,响应技术人员的提交操作获取标准文档。
A12:提取标准文档中的多个目录,并根据预设的目录条件确定多个目标中的至少一个标准目录和至少一个非标准目录;根据预设的内容条件确定每个标准目录的内容对应的至少一个关键词,并根据与其对应的至少一个关键词生成每个标准目录对应的内容的标准内容规则。
在步骤A12的过程中,在获取到标准文档后,从所获取的标准目录中提取多个目录,以便根据预设的目录条件从所提取的多个目录中确定哪些目录为文档中必须包含的目录,哪些目录不是文档中必须包含的目录(为了便于区分,将文档中必须包含的目录称为标准目录,将不是文档中必须包含的目录称为非标准目录)。
在从多个目录中确定出多个标准目录后,根据预设的内容条件确定标准目录对应的内容的关键词,进而根据所确定的关键词生成该标准目录的对应的内容的标准内容规则。
比如,预设的目录条件为文档中必须包含基本情况、业务规划、组织架构、项目目标、业务流程和功能需求等目录。
预设的内容条件为标准目录为项目基本情况对应的内容必须包含的关键词为基本情况和监管要求;标准目录为项目目标对应的内容必须包含的关键词为项目实施范围和项目开发模型;标准目标为业务流程对应的内容必须包含的关键词为Visio图、组合图和图表;标准目标为功能需求对应的内容必须包含的关键词为表格(需求清单);标准目录为业务规划对应的内容没有必须包含的关键词;标准目录为组织架构对应的内容没有必须包含的关键词。
若从所获取的标准文档中提取的多个目录为目基本情况、建设背景、业务规划、组织架构、系统现状、需求概述、项目目标、业务流程和功能需求;根据预设的目录条件从所提取的多个目录中可以确定基本情况、业务规划、组织架构、项目目标、业务流程和功能需求为标准目录,建设背景、系统现状和需求概述为非标准目录。
根据预设的内容条件可以确定标准目录为基本情况的内容对应的关键词为基本情况和监管要求;标准目录为项目目标的内容对应的关键词为项目实施范围和项目开发模型;标准目标为业务流程的内容对应的到的关键词为Visio图、组合图和图表;标准目录为功能需求的内容对应的关键词表格(需求清单)。
进而根据基本情况和监管要求生成基本情况(标准目录)对应的内容的标准内容规则,根据项目实施范围和项目开发模型生成项目目标(标准目录)对应内容的标准内容规则,根据Visio图、组合图和图表生成业务流程(标准目录)对应的内容的标准内容规则,根据表格(需求清单)生成功能需求对应的内容的标准内容规则;针对没有包含必须关键词的标准目录对应的内容(业务规划对应的内容、组织结构对应的内容和系统现状对应的内容),直接生成该标准目录对应的内容(业务规划对应的内容、组织结构对应的内容和系统现状对应的内容)的标准内容规则,此时所生成标准内容规则中没有指示的关键词。
A13:根据至少一个非标准目录、至少一个标准目录以及每个标准目录对应的内容的标准内容规则生成规则模型。
比如,以上述A12示出的例子为例,根据至少一个非标准目录、至少一个标准目录以及每个标准目录对应的内容的标准内容规则生成的规则模型如表2所示。
表2:
目录 目录检查要求 标准内容规则
1.1.基本情况 必需 基本情况\监管要求
1.2.建设背景
1.2.1.业务规划 必需
1.2.2.组织架构 必需
1.2.3.系统现状
2.需求概述
2.1.项目目标 必需 项目实施范围\项目开发模型
2.2.业务流程 必需 Visio图\组合图\图表
2.3.1.功能需求 必需 表格(需求清单)
其中,目标检查要求为必需的目录为标准目录,其余的目录为非标准目录,即基本情况、业务规划、组织架构、项目目标、业务流程和功能需求为标准目录,建设背景、系统现状和需求概述为非标准目录。
在具体执行步骤S103的过程中,在从所获取的文档中提取到检测信息后,可以将预设的规则模型中的每个标准目标与所提取到的检测信息中的目标目录信息中目标进行匹配,若预设的规则模型中的每个标准目录均与目标目录信息中目录匹配成功,说明目标目录信息中包含有预设的规则模型中全部的标准目录,此时可以认为用户编写的文档中的目标满足要求,进而生成表征目标目录信息匹配成功的匹配信息。
若预设的规则模型中存在与目标目录信息中的目录匹配不成功的标准信息,说明目标目录信息未全部包含预设的规则模型中的标准目录,此时,针对与目标目录信息中目录匹配不成功的标准信息,可以生成与目标目录信息中目录匹配不成功的标准目录的补充信息(为了便于区分,将与目标目录信息中目标匹配不成功的标准目录的补充信息称为第一补充信息),以便根据第一补充信息生成表征目标目录信息匹配不成功的匹配信息。
需要说明的是,所生成的与目标目录信息中目标匹配不成功的标准目标的第一补充信息可以为,文档未包含该与目标目录信息中目标匹配不成功的标准目录。比如,若预设的规则模型中存在于目标目录信息中的目录匹配不成功的标准目录为业务规则,生成业务规则的第一补充信息,生成的业务规划的第一补充信息可以为文档中为包含【业务规划】目录!。
S104:将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息。
在具体执行步骤S104的过程中,在从所获取的文档中提取到检测信息后,从所获取的目标内容信息中选取与预设的规则模型中的标准目录匹配的至少一个目标内容;针对每个目标内容而言,从预设的规则模型中选取与该目标内容对应的标准内容规则,以便将该目标内容与其对应的标准内容规则指示的关键词进行比对;在每个目标内容均与其对应的标准内容规则指示的关键词比对成功的情况下,说明每个目标内容均包括与其对应的标准内容规则指示的关键词,此时可以认为用户编写的文档中的目标的内容满足要求,进而生成表征目标内容信息匹配成功的匹配信息。
若存在与对应的标准内容规则指示的关键词比对不成功的目标内容,生成与对应的标准内容规则指示的关键词比对不成功的目标内容的补充信息(为了便于区分,将与对应的标准内容规则指示的关键词比对不成功的目标内容的补充信息称为第二补充信息),以便根据第二补充信息生成表征所述目标内容信息比对不成功的比对信息。
需要说明的是,所生成的对应的标准内容规则指示的关键词比对不成功的目标内容的第二补充信息可以为,该标准内容规则对应的目标内容对应的目录未包含该标准内容规则指示的关键词。
S105:判断匹配信息是否表征目标目录信息匹配成功,以及比对信息是否表征目标内容信息比对成功;若匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功,执行步骤S106;若匹配信息表征目标目录信息匹配不成功,或比对信息表征目标内容信息比对不成功,执行步骤S107。
在具体执行步骤S105的过程中,在将预设的规则模型中的标准目录与所述目标目录信息中的目录进行匹配,得到目标目录信息的匹配信息,以及将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息后,判断得到匹配信息是否表征目标目录信息匹配成功,以及比对信息是否表征目标内容信息比对成功,在匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功情况下,根据匹配和比对信息生成表征文档符合质量要求的检测报告。
在匹配信息表征目标目录信息匹配不成功,或者比对信息表征目标内容信息比对不成功情况下,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告。
S106:根据匹配信息和比对信息生成表征文档符合质量要求的检测报告。
在具体执行步骤S106的过程中,在匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功情况下,说明所获取的文档与预设的规则模型完全匹配,即所获取的文档符合质量要求,根据匹配和比对信息生成表征文档符合质量要求的检测报告。
比如,以表2所示的规则模型为例,若将预设的规则模型中的标准目录与所述目标目录信息中的目录进行匹配,得到目标目录信息的匹配信息表征目标目录信息匹配成功,以及将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息表征目标内容信息比对成功,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告如表3所示。
表3:
S107:根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告。
在具体执行步骤S107的过程中,在匹配信息表征目标目录信息匹配不成功,或者比对信息表征目标内容信息比对不成功情况下,说明所获取的文档未包含规则模型中的某些标准目录或者某些标准内容规则指示的关键词,则可以确定所获取的文档不符合质量要求,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告。
需要说明的是,若是匹配信息表征目标目录信息匹配不成功,而比对信息表征目标内容信息比对成功,则根据匹配信息和比对信息生成表征文档符合质量要求的检测报告包括至少一条第一补充信息;若是匹配信息表征目标目录信息匹配成功,而比对信息表征目标内容信息比对不成功,则根据匹配信息和比对信息生成表征文档符合质量要求的检测报告包括至少一条第二补充信息;若是匹配信息表征目标目录信息匹配不成功,且比对信息表征目标内容信息比对不成功,则匹配信息和比对信息生成表征文档符合质量要求的检测报告包括至少一条第一补充信息和至少一条第二补充信息。
本发明提供一种文档自动检测方法,通过预先构建规则模型,在获取到用户编写的文档后,从所获取的文档中提取检测信息,以便将预先构建的规则模型中标准目录与检测信息中目标目录信息中的目录进行匹配得到目标目录信息的匹配信息,以及将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息,在匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功的情况下,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告,在匹配信息表征目标目录信息匹配不成功,且比对信息表征目标内容信息比对不成功,根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告。本发明提供的技术方案,不需要人工的介入,利用预先构建的规则模型便可实现对用户提交的文档进行检测,提高文件的检测效率和准确性。
比如,从上述表1中可以知道,从文档中提取到的检测信息中的目标目录信息中的目标为基本情况和功能需求,从上述表2中可以知道,预设的规则模型中的标准目录为基本情况、业务规则、组织架构、项目目标、业务流程和功能需求。
将预设的规则模型中的基本情况与目标目录信息中的目录(基本情况和功能需求)进行匹配,可以确定预设规则模型的中基本情况与目标目录信息中的目录匹配成功;将预设的规则模型中的功能需求与目标目录信息中的目录(基本情况和功能需求)进行匹配,可以确定预设规则模型的中功能需求与目标目录信息中的目录匹配成功。
将预设的规则模型中的业务规则与目标目录信息中的目录(基本情况和功能需求)进行匹配,可以确定预设的规则模型中的业务规则与目标目录信息中的目录匹配不成功;将预设的规则模型中的组织架构与目标目录信息中的目录(基本情况和功能需求)进行匹配,可以确定预设的规则模型中的组织架构与目标目录信息中的目录匹配不成功;将预设的规则模型中的项目目标与目标目录信息中的目录(基本情况和功能需求)进行匹配,可以确定预设的规则模型中的项目目标与目标目录信息中的目录匹配不成功;将预设的规则模型中的业务流程与目标目录信息中的目录(基本情况和功能需求)进行匹配,可以确定预设的规则模型中的业务流程与目标目录信息中的目录匹配不成功。
由于预设的规则模型中存在于目标目录信息中的目录匹配不成功的标准目录,生成业务规则(与目标目录信息中的目录匹配不成功的标准目录)的第一补充信息(文档中为包含【业务规划】目录!),组织架构的第一补充信息(文档中为包含【组织架构】目录!),项目目标的第一补充信息(文档中为包含【项目目标】目录!)以及业务流程的第一补充信息(文档中为包含【业务流程】目录!),以便根据业务规则的第一补充信息,组织架构的第一补充信息,系统现状的第一补充信息,项目目标的补充信息以及业务流程的第一补充信息生成表征该目标目录信息匹配不成功的匹配信息。
从上述表1中可以知道,从目标内容信息中选取与预设的规则模型中的标准目录匹配的目标内容为基本情况的内容为P3.T1.1.1基本情况-审查对象,P3.T2.审查对象:XX,技术方案项目情况:XXXX,审查制度:XXXX;目录为功能需求的内容为P20.第1个:表格13行4列,P20.第2个:表格13行4列。
从预设的规则库中选取与基本情况的内容对应的标准内容规则指示的关键词为基本情况、监管要求;与功能需求的内容对应的标准内容规则指示的关键词为表格(需求清单);将目标目录信息中的功能需求的内容(目标内容)与其对应的标准规则指示的关键词(基本情况、监管要求)进行比对,可以确定目标目录信息中的功能需求的内容(目标内容)包含其对应的标准规则指示的关键词(表格),进而确定目标目录信息中的功能的内容(目标内容)与其对应的标准规则指示的关键词比对成功。
将目标目录信息中的基本情况的内容(目标内容)与其对应的标准规则指示的关键词(基本情况、监管要求)进行比对,可以确定目标目录信息中的基本情况的内容(目标内容)未包含其对应的标准规则指示的关键词(监管要求),进而确定目标目录信息中的基本情况的内容(目标内容)与其对应的标准规则指示的关键词比对不成功,生成基本情况的内容(目标内容)的第二补充信息(基本情况(目录)未包含监管要求)。进而根据第二补充信息(基本情况(目录)未包含监管要求)生成表征目标内容信息比对不成功的比对信息。
根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告如表4所示。
表4:
与上述本发明试试提供的一种文档自动检测方法相对应,如图2所示,本发明实施例还提供一种文档自动检测装置,该文档自动检测装置包括:
第一获取单元21,用于获取用户编写的文档;
检测信息提取单元22,用于从文档中提取检测信息,检测信息至少包括目标目录信息和目标内容信息,目标内容信息包括目标目录信息中每个目录对应内容;
匹配单元23,用于将预设的规则模型中的标准目录与目标目录信息中目录进行匹配,得到目标目录信息的匹配信息;
比对单元24,用于将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息;
第一生成单元25,用于若匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告;
第二生成单元26,用于若匹配信息表征目标目录信息匹配不成功,或比对信息表征目标内容信息比对不成功,根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告。
上述本发明实施例公开的文档自动检测装置中各个单元具体的原理和执行过程,与上述本发明实施例图1公开的文档自动检测方法相同,可参见上述本发明实施例图1公开的文档自动检测方法中相应的部分,这里不再进行赘述。
本发明提供一种文档自动检测装置,通过预先构建规则模型,在获取到用户编写的文档后,从所获取的文档中提取检测信息,以便将预先构建的规则模型中标准目录与检测信息中目标目录信息中的目录进行匹配得到目标目录信息的匹配信息,以及将预设的规则模型中的标准内容规则指示的关键词与目标内容信息中的内容进行比对,得到目标内容信息的比对信息,在匹配信息表征目标目录信息匹配成功,且比对信息表征目标内容信息比对成功的情况下,根据匹配信息和比对信息生成表征文档符合质量要求的检测报告,在匹配信息表征目标目录信息匹配不成功,且比对信息表征目标内容信息比对不成功,根据匹配信息和比对信息生成表征文档不符合质量要求的检测报告。本发明提供的技术方案,不需要人工的介入,利用预先构建的规则模型便可实现对用户提交的文档进行检测,提高文件的检测效率和准确性。
优选的,匹配单元,包括:
匹配子单元,用于将预设的规则模型中的每个标准目录与目标目录信息中的目录进行匹配;
第三生成单元,用于若预设的规则模型中的每个标准目录均与目标目录信息中的目录匹配成功,生成表征目标目录信息匹配成功的匹配信息;
第四生成单元,用于若预设的规则模型中存在与目标目录信息中的目录匹配不成功的标准目录,生成与目标目录信息中的目录匹配不成功的标准信息的第一补充信息,并根据第一补充信息生成表征目标目录信息匹配不成功的匹配信息。
优选的,比对单元,包括:
第一选取单元,用于从目标内容信息中选取与预设的规则模型中的标准目录匹配的至少一个目标内容;
第二选取单元,用于从预设的规则模型中选取与目标内容对应的标准内容规则;
比对子单元,用于将每个目标内容与对应的标准内容规则指示的关键词进行比对;
第五生成单元,用于若每个目标内容均与对应的标准内容规则指示的关键词比对成功,生成表征目标内容信息比对成功的比对信息;
第六生成单元,用于若存在与对应的标准内容规则指示的关键词比对不成功的目标内容,生成与对应的标准内容规则指示的关键词比对不成功的目标内容的第二补充信息,并根据第二补充信息生成表征目标内容信息比对不成功的比对信息。
优选的,预设的规则模型的过程,包括:
第二获取单元,用于获取标准文档;
提取单元,用于提取标准文档中的多个目录,并根据预设的目录条件确定多个目标中的至少一个标准目录和至少一个非标准目录;
确定单元,用于根据预设的内容条件确定每个标准目录的内容对应的至少一个关键词,并根据与其对应的所述至少一个关键词生成每个标准目录对应的内容的标准内容规则;
规则模型生成单元,用于基于至少一个非标准目录和至少一个标准目录以及每个标准目录对应的内容的标准内容规则生成规则模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (2)

1.一种文档自动检测方法,其特征在于,所述方法包括:
获取用户编写的文档;
从所述文档中提取检测信息,所述检测信息至少包括目标目录信息和目标内容信息,所述目标内容信息包括所述目标目录信息中每个目录对应的内容;
将预设的规则模型中的标准目录与所述目标目录信息中的目录进行匹配,得到所述目标目录信息的匹配信息;
将所述预设的规则模型中的标准内容规则指示的关键词与所述目标内容信息中的内容进行比对,得到所述目标内容信息的比对信息;
若所述匹配信息表征所述目标目录信息匹配成功,且所述比对信息表征所述目标内容信息比对成功,根据所述匹配信息和所述比对信息生成表征所述文档符合质量要求的检测报告;
若所述匹配信息表征所述目标目录信息匹配不成功,或所述比对信息表征所述目标内容信息比对不成功,根据所述匹配信息和所述比对信息生成表征所述文档不符合质量要求的检测报告;
其中,所述将预设的规则模型中的标准目录与所述目标目录信息中的目录进行匹配,得到所述目标目录的匹配信息,包括:
将预设的规则模型中的每个标准目录与所述目标目录信息中的目录进行匹配;
若所述预设的规则模型中的每个所述标准目录均与所述目标目录信息中的目录匹配成功,生成表征所述目标目录信息匹配成功的匹配信息;
若所述预设的规则模型中存在与所述目标目录信息中的目录匹配不成功的标准目录,生成与所述目标目录信息中的目录匹配不成功的标准信息的第一补充信息,并根据所述第一补充信息生成表征所述目标目录信息匹配不成功的匹配信息;
所述将所述预设的规则模型中的标准内容规则指示的关键词与所述目标内容信息中的内容进行比对,得到所述目标内容信息的比对信息,包括:
从所述目标内容信息中选取与所述预设的规则模型中的标准目录匹配的至少一个目标内容;
从所述预设的规则模型中选取与所述目标内容对应的标准内容规则;
将每个所述目标内容与对应的标准内容规则指示的关键词进行比对;
若每个所述目标内容均与对应的标准内容规则指示的关键词比对成功,生成表征所述目标内容信息比对成功的比对信息;
若存在与对应的标准内容规则指示的关键词比对不成功的目标内容,生成与对应的标准内容规则指示的关键词比对不成功的目标内容的第二补充信息,并根据所述第二补充信息生成表征所述目标内容信息比对不成功的比对信息;
所述预设的规则模型的过程,包括:
获取标准文档;
提取所述标准文档中的多个目录,并根据预设的目录条件确定所述多个目标中的至少一个标准目录和至少一个非标准目录;
根据预设的内容条件确定每个所述标准目录的内容对应的至少一个关键词,并根据与其对应的所述至少一个关键词生成每个所述标准目录对应的内容的标准内容规则;
基于所述至少一个非标准目录和所述至少一个标准目录以及每个所述标准目录对应的内容的标准内容规则生成规则模型。
2.一种文档自动检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取用户编写的文档;
检测信息提取单元,用于从所述文档中提取检测信息,所述检测信息至少包括目标目录信息和目标内容信息,所述目标内容信息包括所述目标目录信息中每个目录对应内容;
匹配单元,用于将预设的规则模型中的标准目录与所述目标目录信息中目录进行匹配,得到所述目标目录信息的匹配信息;
比对单元,用于将所述预设的规则模型中的标准内容规则指示的关键词与所述目标内容信息中的内容进行比对,得到所述目标内容信息的比对信息;
第一生成单元,用于若所述匹配信息表征所述目标目录信息匹配成功,且所述比对信息表征所述目标内容信息比对成功,根据所述匹配信息和所述比对信息生成表征所述文档符合质量要求的检测报告;
第二生成单元,用于若所述匹配信息表征所述目标目录信息匹配不成功,或所述比对信息表征所述目标内容信息比对不成功,根据所述匹配信息和所述比对信息生成表征所述文档不符合质量要求的检测报告;
其中,所述匹配单元,包括:
匹配子单元,用于将预设的规则模型中的每个标准目录与所述目标目录信息中的目录进行匹配;
第三生成单元,用于若所述预设的规则模型中的每个所述标准目录均与所述目标目录信息中的目录匹配成功,生成表征所述目标目录信息匹配成功的匹配信息;
第四生成单元,用于若所述预设的规则模型中存在与所述目标目录信息中的目录匹配不成功的标准目录,生成与所述目标目录信息中的目录匹配不成功的标准信息的第一补充信息,并根据所述第一补充信息生成表征所述目标目录信息匹配不成功的匹配信息;
所述比对单元,包括:
第一选取单元,用于从所述目标内容信息中选取与所述预设的规则模型中的标准目录匹配的至少一个目标内容;
第二选取单元,用于从所述预设的规则模型中选取与所述目标内容对应的标准内容规则;
比对子单元,用于将每个所述目标内容与对应的标准内容规则指示的关键词进行比对;
第五生成单元,用于若每个所述目标内容均与对应的标准内容规则指示的关键词比对成功,生成表征所述目标内容信息比对成功的比对信息;
第六生成单元,用于若存在与对应的标准内容规则指示的关键词比对不成功的目标内容,生成与对应的标准内容规则指示的关键词比对不成功的目标内容的第二补充信息,并根据所述第二补充信息生成表征所述目标内容信息比对不成功的比对信息;
所述预设的规则模型的过程,包括:
第二获取单元,用于获取标准文档;
提取单元,用于所述标准文档中的多个目录,并根据预设的目录条件确定所述多个目标中的至少一个标准目录和至少一个非标准目录;
确定单元,用于根据预设的内容条件确定每个所述标准目录的内容对应的至少一个关键词,并根据与其对应的所述至少一个关键词生成每个所述标准目录对应的内容的标准内容规则;
规则模型生成单元,用于基于所述至少一个标准目录以及每个所述标准目录对应的内容的标准内容规则生成规则模型。
CN202011492808.8A 2020-12-17 2020-12-17 一种文档自动检测方法及装置 Active CN112487152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011492808.8A CN112487152B (zh) 2020-12-17 2020-12-17 一种文档自动检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011492808.8A CN112487152B (zh) 2020-12-17 2020-12-17 一种文档自动检测方法及装置

Publications (2)

Publication Number Publication Date
CN112487152A CN112487152A (zh) 2021-03-12
CN112487152B true CN112487152B (zh) 2023-12-08

Family

ID=74916447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011492808.8A Active CN112487152B (zh) 2020-12-17 2020-12-17 一种文档自动检测方法及装置

Country Status (1)

Country Link
CN (1) CN112487152B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344246B (zh) * 2021-05-11 2023-05-16 广东核电合营有限公司 一种核电厂监督要求优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114461A (ja) * 1993-10-20 1995-05-02 Fujitsu Ltd オブジェクト指向データ処理システム
WO2001039028A2 (en) * 1999-11-22 2001-05-31 Accenture Llp Method for affording a market space interface between a plurality of manufacturers and service providers and installation management via a market space interface
WO2001067309A2 (en) * 2000-03-03 2001-09-13 Radiant Logic, Inc. System and method for providing access to databases via directories and other hierarchical structures and interfaces
EP1445713A1 (en) * 2003-02-10 2004-08-11 Xerox Corporation Method for automatic discovery of query language features of web sites
WO2011094734A2 (en) * 2010-02-01 2011-08-04 Jumptap, Inc. Integrated advertising system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US10007895B2 (en) * 2007-01-30 2018-06-26 Jonathan Brian Vanasco System and method for indexing, correlating, managing, referencing and syndicating identities and relationships across systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114461A (ja) * 1993-10-20 1995-05-02 Fujitsu Ltd オブジェクト指向データ処理システム
WO2001039028A2 (en) * 1999-11-22 2001-05-31 Accenture Llp Method for affording a market space interface between a plurality of manufacturers and service providers and installation management via a market space interface
WO2001067309A2 (en) * 2000-03-03 2001-09-13 Radiant Logic, Inc. System and method for providing access to databases via directories and other hierarchical structures and interfaces
EP1445713A1 (en) * 2003-02-10 2004-08-11 Xerox Corporation Method for automatic discovery of query language features of web sites
WO2011094734A2 (en) * 2010-02-01 2011-08-04 Jumptap, Inc. Integrated advertising system

Also Published As

Publication number Publication date
CN112487152A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
US11682226B2 (en) Method and system for assessing similarity of documents
CN107977415B (zh) 自动问答方法及装置
CN101952802B (zh) 供作者和出版者验证参考文献的方法和系统
US11972201B2 (en) Facilitating auto-completion of electronic forms with hierarchical entity data models
US10049096B2 (en) System and method of template creation for a data extraction tool
US8296124B1 (en) Method and apparatus for detecting incorrectly translated text in a document
US20130191329A1 (en) Systems, methods and software for entity relationship resolution
JP6874729B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN110688349B (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN114207604A (zh) 使用针对性问题回答来提取科学测量背景的系统和方法
CN112487152B (zh) 一种文档自动检测方法及装置
CN115577703A (zh) 一种证监报送数据校验方法、装置、系统及存储介质
TW201316186A (zh) 中文數位反抄襲偵測比對系統與方法
JP7430437B1 (ja) 印刷物に印刷された文字情報を収集する方法、プログラム及び情報処理装置
US8670618B2 (en) Systems and methods for extracting pedigree and family relationship information from documents
CN116719843A (zh) 数据库系统的查询方法、存储介质及设备
CN108153715A (zh) 比较表格自动产生方法及装置
Kurniati et al. Web scraping and winnowing algorithms for plagiarism detection of final project titles
CN112035440B (zh) 知识库的管理方法、装置、电子设备和存储介质
US20210174012A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP5304397B2 (ja) 帳票処理装置及び帳票処理プログラム
CN107256260A (zh) 一种智能语义识别方法、搜索方法、装置及系统
CN101593233A (zh) 一种Word操作题的考评系统
JP2006133933A (ja) コンピュータ処理方法
Zakaria Measuring Typographical Errors in Online Catalogs of Academic Libraries Using Ballard’s List: A Case Study from Egypt

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant