CN115599908A - 非结构化数据文档的标注方法及系统 - Google Patents

非结构化数据文档的标注方法及系统 Download PDF

Info

Publication number
CN115599908A
CN115599908A CN202211371394.2A CN202211371394A CN115599908A CN 115599908 A CN115599908 A CN 115599908A CN 202211371394 A CN202211371394 A CN 202211371394A CN 115599908 A CN115599908 A CN 115599908A
Authority
CN
China
Prior art keywords
mode
data
entity
document
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211371394.2A
Other languages
English (en)
Inventor
黎峰
许新颖
于沺
邵柄莱
察兴坤
张永强
贾玉强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinxiandai Information Industry Co ltd
Original Assignee
Jinxiandai Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinxiandai Information Industry Co ltd filed Critical Jinxiandai Information Industry Co ltd
Priority to CN202211371394.2A priority Critical patent/CN115599908A/zh
Publication of CN115599908A publication Critical patent/CN115599908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了非结构化数据文档标注方法及系统;其中所述方法,包括:构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;进行数据标注,对数据标注结果进行审核,判断审核是否通过,如果是判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。本发明通过知识图谱和标注工具结合的方式实现标注数据的可视化,而且在数据标注完成以后,可以在线预览标注数据。

Description

非结构化数据文档的标注方法及系统
技术领域
本发明涉及文档标注技术领域,特别是涉及非结构化数据文档标注方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着知识图谱技术的逐渐成熟,越来越多的系统开始集成知识图谱的应用,而应用知识图谱需要从大量的数据中抽取实体、关系、属性形成知识网络,其中一个重要的数据来源就是非结构化数据,这就使得人们对于数据标注的需求也随之增加。目前数据标注大多需要依靠标注人员的经验,进行人工标注,效率低下,标注后的数据没有可视化的展示并且不能直接使用。
发明内容
为了解决现有技术的不足,本发明提供了非结构化数据文档标注方法及系统;本发明通过知识图谱和标注工具结合的方式实现标注数据的可视化,而且在数据标注完成以后,可以在线预览标注数据。
第一方面,本发明提供了非结构化数据文档标注方法;
非结构化数据文档标注方法,包括:
(1)构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;
(2)进行数据标注,对数据标注结果进行审核,进入(3);
(3)判断审核是否通过,如果是就进入(4);如果否就返回(2);
(4)判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。
第二方面,本发明提供了非结构化数据文档标注系统;
非结构化数据文档标注系统,包括:
规则构建模块,其被配置为:构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;
数据标注模块,其被配置为:进行数据标注,对数据标注结果进行审核,进入审核判断模块;
审核判断模块,其被配置为:判断审核是否通过,如果是就进入模式判断模块;如果否就返回数据标注模块;
模式判断模块,其被配置为:判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
(1)提高数据标注效率:本方案提供可视化的标注规则构建,操作简便、使用简单。提供可视化数据标注,同时支持实例、关系、属性的标注,在一个任务内用户可以标注更多类型的数据。同时支持图谱实时预览,帮助用户及时发现标注数据问题。对于标注完成的数据自动生成标注语料或入图,节省用户操作,无需用户手动转换。
(2)提高数据标注质量:本方案提供标注对齐功能,通过对标注实例的相似度计算,智能推荐标注重复的实例,大大减少冗余数据入图,进而减少入图后数据的清洗工作。
(3)标注数据全生命周期管理:系统从标注规则创建到待标注文件管理到标注任务创建再到数据标注及最终入图,对数据标注进行全生命周期管理,减少用户多系统切换,从而减少用户的工作量。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
术语解释:知识图谱:知识图谱是以结构化的形式描述客观世界中的概念、实体及其关系的大型知识网络。
实施例一
本实施例提供了非结构化数据文档标注方法;
如图1所示,非结构化数据文档标注方法,包括:
S101:构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;
S102:进行数据标注,对数据标注结果进行审核,进入S103;
S103:判断审核是否通过,如果是就进入S104;如果否就返回S102;
S104:判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。
进一步地,S101:所述构建标注规则,具体包括:
S101-1:在分组树上新增分组,设置分组名称和分组路径;
S101-2:设置每个分组下的实体,设置实体名称、实体标识、实体路径以及实体的属性;
S101-3:设置两个实体之间的关系;所述两个实体之间的关系,包括:关系名称和关系属性。
进一步地,S101:所述对待标注文档进行审核,具体包括:
审核待标注文档格式是否为doc格式、docx格式、txt格式或可编辑的pdf格式,如果是,则审核待标注文档大小是否小于设定值,所述设定值为5M;如果审核待标注文档大小小于设定值,则待标注文档可以用于标注任务,否则审核不通过。
进一步地,S101:所述创建标注任务,其中,标注任务,包括:生成语料任务和生成知识图谱任务。
进一步地,S102:所述进行数据标注,具体过程包括:
对文档中的实体、实体间的关系和实体的属性进行标注;
标注的过程中允许进行图谱展示;
标注的过程中,将实体与实体间的关系存储到列表中;
标注的过程中,如果收到实体查询指令,则输出实体在文档中的位置。
进一步地,S102:对数据标注结果进行审核,具体包括:
根据本体构建设计的实体、属性、关系,审核标注的实例所属实体类别是否正确,审核标注实例属性是否正确、审核所标注实例间的关系是否正确,对审核不通过的数据进行错误标注,提醒标注者重新标注;
在审核的过程中,如果接收到数据修改指令,则允许对数据进行修改。
进一步地,S103:判断审核是否通过,判断准则是
同一标注任务中所有标注结果完全正确,审核通过,否则审核不通过。
进一步地,S104:判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;生成语料的过程包括:
将标注结果从数据库取出,转化为包含实例、关系、属性的json格式的txt文本。
进一步地,所述将标注结果生成语料,根据不同用途生成实体语料、关系语料和属性语料。
示例性地,按照训练深度学习模型的不同,来生成实体语料、关系语料和属性语料。如训练命名实体识别模型,则生成实体语料。如训练关系识别模型则生成关系语料。
进一步地,S104:如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理,其中对齐操作的具体过程包括:
对标注数据的同一实体类型的任意两个实体,计算两个实体之间的文本相似度;
将文本相似度高于设定阈值的实体进行对齐操作。
示例性地,所述文本相似度算法,选择编辑距离计算。
进一步地,S104:如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理,其中对齐操作的具体过程包括:
S104-1:接收对齐指令,将至少两个待对齐的实体的名称、属性和关系进行显示;
S104-2:接收用户从两个待对齐的实体中所选择的实体,对所选择的实体进行保存;
S104-3:根据用户选择,对实体的属性进行合并或第一次覆盖;所述合并是指保存两个待对齐实体的所有属性,所述第一次覆盖,是指只保留被用户选中的实体的属性;
S104-4:根据用户选择,对实体的关系进行合并去重或第二次覆盖;所述合并去重,是指将两个待对齐实体的关系进行合并,去除重复关系;所述第二次覆盖是指只保留被用户选中的实体关系;
S104-5:将对齐后的实体的名称、属性和关系进行数据预览;对对齐后的实体的名称、属性和关系进行数据保存。
比如标注数据中有“A公司”与“A股份有限公司”两个实体,这两个实体实际指代的是同一实体。将标注任务中同一实体类型中名称相似的实体进行列表展示。
进一步地,S104:如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理,其中入图处理的具体过程包括:
标注数据对齐后,标注数据进行在线图谱展示,人工确认对齐后标注数据实例类型和实例之间关系是否准确,确认无误后,将标注数据直接存储到图数据库中。
标注数据在线预览及图谱展示,对于标注过程中的数据可以进行在线预览并可以按照图谱进行展示,同时可以统计标注的实例数量,展示标注实例和关系列表,单击标注实例跳到标注位置,支持按照名称查询实例和关系。标注完成的数据根据任务模式支持图谱的在线预览或者语料的在线预览。
实施例二
本实施例提供了非结构化数据文档标注系统;
非结构化数据文档标注系统,包括:
规则构建模块,其被配置为:构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;
数据标注模块,其被配置为:进行数据标注,对数据标注结果进行审核,进入审核判断模块;
审核判断模块,其被配置为:判断审核是否通过,如果是就进入模式判断模块;如果否就返回数据标注模块;
模式判断模块,其被配置为:判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。
此处需要说明的是,上述规则构建模块、数据标注模块、审核判断模块和模式判断模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.非结构化数据文档标注方法,其特征是,包括:
(1)构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;
(2)进行数据标注,对数据标注结果进行审核,进入(3);
(3)判断审核是否通过,如果是就进入(4);如果否就返回(2);
(4)判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。
2.如权利要求1所述的非结构化数据文档标注方法,其特征是,所述构建标注规则,具体包括:
在分组树上新增分组,设置分组名称和分组路径;
设置每个分组下的实体,设置实体名称、实体标识、实体路径以及实体的属性;
设置两个实体之间的关系;所述两个实体之间的关系,包括:关系名称和关系属性。
3.如权利要求1所述的非结构化数据文档标注方法,其特征是,所述对待标注文档进行审核,具体包括:审核待标注文档格式是否为doc格式、docx格式、txt格式或可编辑的pdf格式,如果是,则审核待标注文档大小是否小于设定值;如果审核待标注文档大小小于设定值,则待标注文档可以用于标注任务,否则审核不通过。
4.如权利要求1所述的非结构化数据文档标注方法,其特征是,所述进行数据标注,具体过程包括:
对文档中的实体、实体间的关系和实体的属性进行标注;
标注的过程中允许进行图谱展示;
标注的过程中,将实体与实体间的关系存储到列表中;
标注的过程中,如果收到实体查询指令,则输出实体在文档中的位置。
5.如权利要求1所述的非结构化数据文档标注方法,其特征是,对数据标注结果进行审核,具体包括:
根据本体构建设计的实体、属性、关系,审核标注的实例所属实体类别是否正确,审核标注实例属性是否正确、审核所标注实例间的关系是否正确,对审核不通过的数据进行错误标注,提醒标注者重新标注;
在审核的过程中,如果接收到数据修改指令,则允许对数据进行修改。
6.如权利要求1所述的非结构化数据文档标注方法,其特征是,判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;生成语料的过程包括:
将标注结果从数据库取出,转化为包含实例、关系、属性的json格式的txt文本;所述将标注结果生成语料,根据不同用途生成实体语料、关系语料和属性语料。
7.如权利要求1所述的非结构化数据文档标注方法,其特征是,
如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理,其中对齐操作的具体过程包括:对标注数据的同一实体类型的任意两个实体,计算两个实体之间的文本相似度;将文本相似度高于设定阈值的实体进行对齐操作;
其中,对齐操作的具体过程还包括:
接收对齐指令,将至少两个待对齐的实体的名称、属性和关系进行显示;
接收用户从两个待对齐的实体中所选择的实体,对所选择的实体进行保存;
根据用户选择,对实体的属性进行合并或第一次覆盖;所述合并是指保存两个待对齐实体的所有属性,所述第一次覆盖,是指只保留被用户选中的实体的属性;
根据用户选择,对实体的关系进行合并去重或第二次覆盖;所述合并去重,是指将两个待对齐实体的关系进行合并,去除重复关系;所述第二次覆盖是指只保留被用户选中的实体关系;
将对齐后的实体的名称、属性和关系进行数据预览;对对齐后的实体的名称、属性和关系进行数据保存。
8.非结构化数据文档标注系统,其特征是,包括:
规则构建模块,其被配置为:构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;
数据标注模块,其被配置为:进行数据标注,对数据标注结果进行审核,进入审核判断模块;
审核判断模块,其被配置为:判断审核是否通过,如果是就进入模式判断模块;如果否就返回数据标注模块;
模式判断模块,其被配置为:判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202211371394.2A 2022-11-03 2022-11-03 非结构化数据文档的标注方法及系统 Pending CN115599908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211371394.2A CN115599908A (zh) 2022-11-03 2022-11-03 非结构化数据文档的标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211371394.2A CN115599908A (zh) 2022-11-03 2022-11-03 非结构化数据文档的标注方法及系统

Publications (1)

Publication Number Publication Date
CN115599908A true CN115599908A (zh) 2023-01-13

Family

ID=84851283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211371394.2A Pending CN115599908A (zh) 2022-11-03 2022-11-03 非结构化数据文档的标注方法及系统

Country Status (1)

Country Link
CN (1) CN115599908A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860979A (zh) * 2023-09-04 2023-10-10 上海柯林布瑞信息技术有限公司 基于标签知识库的医疗文本标注方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860979A (zh) * 2023-09-04 2023-10-10 上海柯林布瑞信息技术有限公司 基于标签知识库的医疗文本标注方法及装置
CN116860979B (zh) * 2023-09-04 2023-12-08 上海柯林布瑞信息技术有限公司 基于标签知识库的医疗文本标注方法及装置

Similar Documents

Publication Publication Date Title
WO2018180970A1 (ja) 情報処理システム、特徴量説明方法および特徴量説明プログラム
US9058317B1 (en) System and method for machine learning management
CN112163553B (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN103310315A (zh) 一种基于工作流的流程自动审批工具
CN110543303A (zh) 一种可视化业务平台
CN113886606B (zh) 一种基于知识图谱的数据标注方法、装置、介质及设备
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
US20190122124A1 (en) System and method for cognitive troubleshooting assistance
CN112579466A (zh) 测试用例的生成方法、装置及计算机可读存储介质
CN115599908A (zh) 非结构化数据文档的标注方法及系统
CA3170083A1 (en) Systems and methods for project and program management using artificial intelligence
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
CN111524043A (zh) 诉讼风险评估问卷自动生成的方法和装置
Burggräf et al. How to Improve Collaboration Efficiency in the Built Environment of Factories by Using an Integrated Factory Modelling Concept–An Expert Study
WO2018180971A1 (ja) 情報処理システム、特徴量説明方法および特徴量説明プログラム
CN116560631B (zh) 一种机器学习模型代码的生成方法及装置
CN110928995B (zh) 一种交互信息处理方法、装置、设备及存储介质
CN116595191A (zh) 一种交互式低代码知识图谱的构建方法及装置
WO2023180343A1 (en) Analysing communications data
CN113836304A (zh) 一种基于自然语言处理的智能打标签方法及系统
CN114238370A (zh) 一种ner实体识别算法在报表查询中的应用方法及系统
CN112287005B (zh) 一种数据处理方法、装置、服务器及介质
CN111882419B (zh) 质检文件的方法、装置及服务器
Abideen et al. Digitalization of construction life cycle: A systematic review of building and reliability information modelling (BRIM)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination