CN112001163B - 一种文件完整性的检测方法、系统、电子设备及存储介质 - Google Patents
一种文件完整性的检测方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112001163B CN112001163B CN202010916020.9A CN202010916020A CN112001163B CN 112001163 B CN112001163 B CN 112001163B CN 202010916020 A CN202010916020 A CN 202010916020A CN 112001163 B CN112001163 B CN 112001163B
- Authority
- CN
- China
- Prior art keywords
- directory
- file
- standard
- detected
- judging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 claims abstract description 105
- 238000012795 verification Methods 0.000 claims abstract description 96
- 238000012549 training Methods 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007613 environmental effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010865 sewage Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文件完整性的检测方法,所述检测方法包括根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。本申请能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。本申请还公开了一种文件完整性的检测系统、一种电子设备及一种存储介质,具有以上有益效果。
Description
技术领域
本申请涉及文件校验技术领域,特别涉及一种文件完整性的检测方法、系统、一种电子设备及一种存储介质。
背景技术
公司在发行上市或持续监管过程中应当完整披露信息,即所有可能影响潜在投资者投资决策的信息都应得到披露。对于某一信息的披露,该信息的所有方面都应该得到全面、周密的揭示,不得有所遗漏。
如招股书、并购重组公告等公告文件的内容较多,涉及的审核点数百个,人工判断完整性工作量较大。由于公告文件由不同机构和人员编写,其内容存在文字和表格混排情况,对完整性判断形成了较大挑战。
因此,如何自动判断文件是否缺少公开内容,提高文件完整性检测的效率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种文件完整性的检测方法、系统、一种电子设备及一种存储介质,能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。
为解决上述技术问题,本申请提供一种文件完整性的检测方法,该文件完整性的检测方法包括:
根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;
将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;
判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;
若是,则判定所述待检测文件通过文件完整性验证;
若否,则判定所述待检测文件缺少公开内容。
可选的,判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录,包括:
从待检测文件的实际文件目录中确定当前检测目录;
判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值;其中,所述预设目录层级为当前检测目录的目录层级;
若是,则判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;
若否,则判定不存在与当前检测目录匹配的标准文件目录。
可选的,判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值,包括:
判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;
若目录内容的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若目录内容的语义相似度小于所述预设值,则判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及标准文件目录下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及当前检测目录下一层级的目录进行拼接得到;
若目录子树的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若目录子树的语义相似度小于所述预设值,则判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;
若段落文本的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若段落文本的语义相似度小于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值。
可选的,还包括:
判断所述待检测文件中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;
若否,则执行所述从待检测文件的实际文件目录中确定当前检测目录的操作。
可选的,在判定所述待检测文件通过文件完整性验证之后,还包括:
将所述实际文件目录作为第一训练样本;
将所述实际文件目录的文件完整性验证结构对所述第一训练样本添加标注;
利用添加标注后的第一训练样本训练文件完整性检测模型,以便利用所述文件完整性检测模型判断半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录。
可选的,在判定所述待检测文件通过文件完整性之后,还包括:
根据所述标准文件目录与完整性验证问题的映射关系确定所述实际文件目录对应的目标完整性验证问题;
判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题;
若是,则判定所述待检测文件通过信息披露完整性验证;
若否,则判定所述待检测文件缺少公开内容。
可选的,还包括:
在判定所述待检测文件通过信息披露完整性验证之后,确定所述实际文件目录下所有段落文本的内容中与所述目标完整性验证问题对应的问题答案;
判断所述问题答案是否为所述目标完整性验证问题对应的标准答案;
若是,则判定所述待检测文件关于所述目标完整性验证问题的答案不存在问题;
若否,则判定所述待检测文件关于所述目标完整性验证问题的答案存在问题。
可选的,还包括:
将所述实际文件目录下所有段落文本的内容作为第二训练样本;
将所述实际文件目录的信息披露完整性验证结果对所述第二训练样本添加标注;
利用添加标注后的第二训练样本训练内容完整性检测模型,以便利用所述内容完整性检测模型判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题。
本申请还提供了一种文件完整性的检测系统,该系统包括:
标准字典确定模块,用于根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;
文件解析模块,用于将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;
检测模块,用于判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文件完整性的检测方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文件完整性的检测方法执行的步骤。
本申请提供了一种文件完整性的检测方法,包括:根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。
本申请先确定待检测文件对应的标准目录字典,标准目录字典中包括待检测文件的文件类型对应的标准文件包括的所有目录,即标准文件目录。通过将待检测文件解析为半结构化文件可以得到待检测文件的实际文件目录,将实际文件目录与标准目录字典中的标准文件目录进行匹配,可以判断待检测文件中是否包括与标准目录字典中所有标准文件目录对应的实际文件目录。通过上述方式可以自动化检测待检测文件中是否缺少公开内容,并自动化判定半结构化文档中存在所有标准文件目录匹配的实际文件目录的待检测文件通过文件完整性验证。由此可见,本申请能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。本申请同时还提供了一种文件完整性的检测系统、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种文件完整性的检测方法的流程图;
图2为本申请实施例所提供的一种目录匹配方法的流程图;
图3为本申请实施例所提供的一种文件完整性的检测系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种文件完整性的检测方法的流程图。
具体步骤可以包括:
S101:根据待检测文件的文件类型确定对应的标准目录字典;
其中,本实施例中待检测文件为需要进行文件完整性检验的文件,该文件可以为招股书、并购重组报告、投标书等。本实施例可以为每一种文件类型构建对应的标准目录字典,在本步骤之前还可以存在获取待检测文件的文件类型的操作,进而根据待检测文件的文件类型确定对应的标准目录字典。
标准目录字典可以包括多个标准文件目录,标准文件目录为该文件类型对应的标准文件的目录。即标准目录字典中的标准文件目录为待检测文件应该包括的目录。举例说明上述内容,若待检测文件为经营模式介绍文件,那么该经营模式介绍文件对应的标准目录字典中包括以下标准文件目录:(1)采购模式;(2)研发模式;(3)生产模式;(4)销售模式;(5)盈利模式。若经营模式介绍文件中包括以上五个标准文件目录,则判定该经营模式介绍文件通过文件完整性验证。
S102:将待检测文件解析为半结构化文档,并根据半结构化文档确定待检测文件的实际文件目录;
其中,本步骤可以通过结构化解析将待检测文件解析为半结构化文档,在半结构化文档中保留文件内容和段落的层次,把多级标题单独抽取出来作为目录。半结构化文档具体指:把待检测文件的目录和内容拆解开来形成的树形xml文件。在得到半结构化文档之后可以确定待检测文件的实际文件目录。
S103:判断半结构化文档中是否存在与所有标准文件目录匹配的实际文件目录;若是,则进入S104;若否,则进入S105;
在得到待检测文件的实际文件目录的基础上,可以将每一时间文件目录与每一标准文件目录进行匹配。若实际文件目录与某一标准文件目录匹配成功,则说明半结构化文档中包括与该标准文件目录相同的目录。
判断实际文件目录与标准文件目录是否匹配的方式可以包括以下几种:(1)根据目录本身的语义向量相似度判断两个目录是否匹配;(2)根据目录下所有子目录拼接后的语义向量判断两个目录是否匹配;(3)根据目录或子目录下的文件内容的语义向量两个目录是否匹配。
作为一种可行的实施方式,本实施还可以按照预设周期判断所述半结构化文档中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;若是,则判定半结构化文档匹配完毕;若否,则继续执行S103中判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值的操作。
S104:判定待检测文件通过文件完整性验证;
其中,本实施例中的文件完整性验证指:判断文件中是否缺少特定的目录的验证过程;通过文件完整性验证的待检测文件可以包括标准目录字典中的所有标准文件目录。
S105:判定待检测文件缺少公开内容。
其中,本步骤建立在半结构化文档中不存在所有标准文件目录匹配的实际文件目录的基础上,即:当待检测文件中未公开任意数量个与标准文件目录匹配的实际文件目录时,判定待检测文件未通过文件完整性验证,缺少公开内容。作为一种可行的实施方式,本实施例可以在判定待检测文件缺少公开内容之后,将待检测文件缺少的标准文件目录进行标记,以便提示用户文件缺少的具体内容。
本实施例先确定待检测文件对应的标准目录字典,标准目录字典中包括待检测文件的文件类型对应的标准文件包括的所有目录,即标准文件目录。通过将待检测文件解析为半结构化文件可以得到待检测文件的实际文件目录,将实际文件目录与标准目录字典中的标准文件目录进行匹配,可以判断待检测文件中是否包括与标准目录字典中所有标准文件目录对应的实际文件目录。通过上述方式可以自动化检测待检测文件中是否缺少公开内容,并自动化判定半结构化文档中存在所有标准文件目录匹配的实际文件目录的待检测文件通过文件完整性验证。由此可见,本实施例能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。
请参见图2,图2为本申请实施例所提供的一种目录匹配方法的流程图,本实施例是对图1对应实施例中S103的进一步介绍,可以将本实施例与图1对应的实施例相结合得到进一步的实施方式,本实施例可以包括以下步骤:
S201:从待检测文件的实际文件目录中确定当前检测目录;
其中,待检测文件中可以存在多个实际文件目录,在本实施例中可以将待检测文件的实际文件目录逐一与标准目录字典进行匹配。首先从待检测文件的实际文件目录中确定当前检测目录,当前检测目录与标准文件目录进行匹配度判断后,可以重新选取新的当前检测目录进入S202~S204的相关操作。
S202:判断预设目录层级的标准文件目录与当前检测目录的匹配度是否大于或等于预设值;若是,则进入S203;若否,则进入S204;
其中,预设目录层级为当前检测目录的目录层级。在确定当前检测目录之后,可以从标准目录字典中选取与当前检测目录的目录层级相同的标准文件目录,进而与当前检测目录进行匹配度判断操作。
S203:判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;
其中,本步骤建立在已经判定预设目录层级的标准文件目录与所述当前检测目录的匹配度大于预设值的基础上,选择匹配度最高的标准文件目录作为与当前检测目录匹配的标准文件目录。
S204:判定不存在与当前检测目录匹配的标准文件目录。
作为一种可行的实施方式,在执行S203或S204的相关步骤之后,还可以判断所述待检测文件中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;若是,则判定半结构化文档匹配完毕;若否,则执行S201中从待检测文件的实际文件目录中确定当前检测目录的操作。
作为一种可行的实施方式,图2对应的实施例S202判断匹配度是否大于或等于预设值的过程可以包括以下步骤:
步骤1:判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;若是,则进入步骤2;若否,则进入步骤3;
步骤2:判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
步骤3:判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;若是,则进入步骤2;若否,则进入步骤4
其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及其(标准文件目录)下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及其(当前检测目录)下一层级的目录进行拼接得到;
步骤4:判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;若是,则进入步骤2;若否,则进入步骤5;
步骤5:判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值。
在上述实施例中依次从目录内容的语义相似度、目录子树的语义相似度、以及段落文本的语义相似度三个层次对实际文件目录和标准文件目录的匹配度进行判断,提高了目录匹配的准确度。
作为对于图1对应实施例的进一步介绍,在判定所述待检测文件通过文件完整性验证之后,还可以将所述实际文件目录作为第一训练样本;将所述实际文件目录的文件完整性验证结构对所述第一训练样本添加标注;利用添加标注后的第一训练样本训练文件完整性检测模型,以便利用所述文件完整性检测模型判断半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录。
作为对于图1对应实施例的进一步介绍,在判定所述待检测文件通过文件完整性之后,还可以根据所述标准文件目录与完整性验证问题的映射关系确定所述实际文件目录对应的目标完整性验证问题;判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题;若是,则判定所述待检测文件通过信息披露完整性验证;若否,则判定所述待检测文件缺少公开内容。进一步的,判定所述待检测文件通过信息披露完整性验证之后,还可以对待检测文件中关于目标完整性验证问题的问题答案进行分析,具体过程如下:确定所述实际文件目录下所有段落文本的内容中与所述目标完整性验证问题对应的问题答案;判断所述问题答案是否为所述目标完整性验证问题对应的标准答案;若是,则判定所述待检测文件关于所述目标完整性验证问题的答案不存在问题;若否,则判定所述待检测文件关于所述目标完整性验证问题的答案存在问题。
可以理解的是,每一实际文件目录下均可以有其对应的段落文本,上述实施方式对段落文本的内容进行了完整性验证。每一标准文件目录均有其对应的目标完整性验证问题,在确定实际文件目录与标准文件目录的匹配关系后,可以判断所述实际文件目录下所有段落文本的内容是否符合目标完整性验证问题。
进一步的,本实施例还可以将所述实际文件目录下所有段落文本的内容作为第二训练样本;将所述实际文件目录的信息披露完整性验证结果对所述第二训练样本添加标注;利用添加标注后的第二训练样本训练内容完整性检测模型,以便利用所述内容完整性检测模型判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题。
下面通过在实际应用中的实施例说明上述实施例描述的流程。
首先本实施例可以预先构建以下四个字典:
字典1、针对特定公告建立标准目录;
字典2、针对标准目录,建立该目录下段落文本的平均语义向量;
字典3、构建完整性验证问题清单;
字典4、将标准目录和完整性验证问题清单进行映射。
基于上述四个字典,对信息披露公告(即待检测文件)的完整性验证过程包括以下步骤:
步骤1:对信息披露公告进行结构化解析:将公告文本解析为半结构化文档,保留内容和段落的层次,把多级标题单独抽取出来作为目录。
步骤2:对目录进行标准化:定义统一的标准文件目录,对抽取目录进行相似度匹配,将其一一对应到标准目录下,该相似度方法详细如下:
循环执行①、②、③,以便处理所有层次目录:
①对层次一致的目录进行相似度计算,记录下相似度评分;
②对于无法匹配的目录,可以对该目录及该目录的下级目录进行拼接,将该子树的结果和标准文件目录的所有子树进行语义相似度匹配,记录下相似度评分;
其中,目录所在子树是指该目录以及该目录的下级目录,目的是因为单个目录无法匹配了,获取更多的上下文,继续进行下一步匹配。
③计算该目录下所有段落的所有平均语义向量,与标准目录对应的文本平均与意语义向量计算相似度,记录下相似度评分。
当然,本实施例还可以对相似度评分进行标注和训练,获得标准目录模型,以便利用标准目录模型判断半结构化文档中是否存在与所有标准文件目录匹配的实际文件目录。具体的,可以把内容向量的相似度评分标注为0或者1,也就是不相似和相似两种,然后进行标准目录模型的训练。
步骤3:通过标准文件目录可以将需要进行完整性验证的问题准确定位到与标准文件目录对应的实际文件目录;
其中,由于待分析的信息披露公告是不同公司写的,所以相同类型的公告的目录是不一样的,通过上述方式可以将标准化目录和完整性验证问题清单一一对应的,还可以把不同目录挂到标准化目录上以便获取问题清单。
步骤4:将完整性验证问题和该目录下所有段落进行分类计算,分类计算的结果可以包括以下三种:①存在关于完整性验证问题的描述且该描述的答案不存在问题;②存在关于完整性验证问题的描述但该描述的答案存在问题;③不存在关于完整性验证问题的描述。
例如,完整性验证问题为“是否存在重大环境处罚”,且该完整性验证问题的标准答案为“不存在重大环境处罚”。若文本中不存在关于环境处罚的描述,则判定该文本缺少公开内容;若文本中存在关于环境处罚的描述,则判定待检测文件通过信息披露完整性验证。
进一步的,可以确定文件的内容中与完整性验证问题“是否存在重大环境处罚”对应的问题答案。如果在文本中描述了“2018年,因污水处理问题收到XX环保局的处罚”则问题答案为“存在重大环境处罚”,该问题答案不为完整性验证问题对应的标准答案,因此可以判定存在关于完整性验证问题的描述且该描述的答案存在问题。如果文本中描述了“2017年至2018年,未因污水处理问题收到XX环保局的处罚”则问题答案为“不存在重大环境处罚”,该问题答案为完整性验证问题对应的标准答案,因此可以判定存在关于完整性验证问题的描述且该描述的答案不存在问题。
步骤5:对所有段落的计算结果进行分类计算,最终获得该问题的答案;
步骤6:针对步骤4和步骤5,构建联合训练模型并优化;
具体的,本步骤可以将该目录下所有段落的内容作为训练样本,将该目录的信息披露完整性验证结果对训练样本添加标注,利用添加标注后的训练样本构建联合训练模型并优化,以便利用联合训练模型判断其他目录下的文本内容是否符合目标完整性验证问题。
步骤7:重复上述步骤,完成所有完整性验证问题的验证。
上述实施例提出了可计算的信息披露完整性验证方法、信息披露复杂公告的标准目录及其映射方法、以及基于问答的完整性验证方法,能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。
请参见图3,图3为本申请实施例所提供的一种文件完整性的检测系统的结构示意图;
该系统可以包括:
标准字典确定模块100,用于根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;
文件解析模块200,用于将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;
检测模块300,用于判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。
本实施例先确定待检测文件对应的标准目录字典,标准目录字典中包括待检测文件的文件类型对应的标准文件包括的所有目录,即标准文件目录。通过将待检测文件解析为半结构化文件可以得到待检测文件的实际文件目录,将实际文件目录与标准目录字典中的标准文件目录进行匹配,可以判断待检测文件中是否包括与标准目录字典中所有标准文件目录对应的实际文件目录。通过上述方式可以自动化检测待检测文件中是否缺少公开内容,并自动化判定半结构化文档中存在所有标准文件目录匹配的实际文件目录的待检测文件通过文件完整性验证。由此可见,本实施例能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。
进一步的,检测模块300包括:
目录确定单元,用于从待检测文件的实际文件目录中确定当前检测目录;
匹配单元,用于判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值;其中,所述预设目录层级为当前检测目录的目录层级;
结果输出单元,用于若预设目录层级的标准文件目录与所述当前检测目录的匹配度大于或等于预设值,则判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;还用于若预设目录层级的标准文件目录与所述当前检测目录的匹配度小于预设值,则判定不存在与当前检测目录匹配的标准文件目录。
进一步的,所述匹配单元用于判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;若目录内容的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若目录内容的语义相似度小于所述预设值,则判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及其下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及其下一层级的目录进行拼接得到;若目录子树的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若目录子树的语义相似度小于所述预设值,则判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;若段落文本的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若段落文本的语义相似度小于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值。
进一步的,还包括:
匹配检测模块,用于判断所述待检测文件中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;若否,则执行启动匹配单元对应的工作流程。
进一步的,还包括:
第一模型训练模块,用于在判定所述待检测文件通过文件完整性验证之后,将所述实际文件目录作为第一训练样本;还用于将所述实际文件目录的文件完整性验证结构对所述第一训练样本添加标注;还用于利用添加标注后的第一训练样本训练文件完整性检测模型,以便利用所述文件完整性检测模型判断半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录。
进一步的,还包括:
目标验证条件确定模块,用于在判定所述待检测文件通过文件完整性之后,根据所述标准文件目录与完整性验证问题的映射关系确定所述实际文件目录对应的目标完整性验证问题;
条件判断模块,用于判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题;若是,则判定所述待检测文件通过信息披露完整性验证;若否,则判定所述待检测文件缺少公开内容。
进一步的,还包括:
答案确定模块,用于在判定所述待检测文件通过信息披露完整性验证之后,确定所述实际文件目录下所有段落文本的内容中与所述目标完整性验证问题对应的问题答案;
单盘判断模块,用于判断所述问题答案是否为所述目标完整性验证问题对应的标准答案;若是,则判定所述待检测文件关于所述目标完整性验证问题的答案不存在问题;若否,则判定所述待检测文件关于所述目标完整性验证问题的答案存在问题。
进一步的,还包括:
第二模型训练模块,用于将所述实际文件目录下所有段落文本的内容作为第二训练样本;还用于将所述实际文件目录的信息披露完整性验证结果对所述第二训练样本添加标注;还用于利用添加标注后的第二训练样本训练内容完整性检测模型,以便利用所述内容完整性检测模型判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种文件完整性的检测方法,其特征在于,包括:
根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;
将所述待检测文件解析为保留文件内容和段落层次的半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;
判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;
若是,则判定所述待检测文件通过文件完整性验证;
若否,则判定所述待检测文件缺少公开内容;
其中,判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录,包括:
从待检测文件的实际文件目录中确定当前检测目录;
判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;其中,所述预设目录层级为当前检测目录的目录层级;
若目录内容的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若目录内容的语义相似度小于所述预设值,则判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及其下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及其下一层级的目录进行拼接得到;
若目录子树的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若目录子树的语义相似度小于所述预设值,则判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;
若段落文本的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若段落文本的语义相似度小于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值;
若所述标准文件目录与所述当前检测目录的匹配度大于或等于所述预设值,则判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;
若所述标准文件目录与所述当前检测目录的匹配度小于所述预设值,则判定不存在与当前检测目录匹配的标准文件目录。
2.根据权利要求1所述检测方法,其特征在于,还包括:
判断所述待检测文件中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;
若否,则执行所述从待检测文件的实际文件目录中确定当前检测目录的操作。
3.根据权利要求1所述检测方法,其特征在于,在判定所述待检测文件通过文件完整性验证之后,还包括:
将所述实际文件目录作为第一训练样本;
将所述实际文件目录的文件完整性验证结构对所述第一训练样本添加标注;
利用添加标注后的第一训练样本训练文件完整性检测模型,以便利用所述文件完整性检测模型判断半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录。
4.根据权利要求1所述检测方法,其特征在于,在判定所述待检测文件通过文件完整性之后,还包括:
根据所述标准文件目录与完整性验证问题的映射关系确定所述实际文件目录对应的目标完整性验证问题;
判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题;
若是,则判定所述待检测文件通过信息披露完整性验证;
若否,则判定所述待检测文件缺少公开内容。
5.根据权利要求4所述检测方法,其特征在于,在判定所述待检测文件通过信息披露完整性验证之后,还包括:
确定所述实际文件目录下所有段落文本的内容中与所述目标完整性验证问题对应的问题答案;
判断所述问题答案是否为所述目标完整性验证问题对应的标准答案;
若是,则判定所述待检测文件关于所述目标完整性验证问题的答案不存在问题;
若否,则判定所述待检测文件关于所述目标完整性验证问题的答案存在问题。
6.根据权利要求4所述检测方法,其特征在于,还包括:
将所述实际文件目录下所有段落文本的内容作为第二训练样本;
将所述实际文件目录的信息披露完整性验证结果对所述第二训练样本添加标注;
利用添加标注后的第二训练样本训练内容完整性检测模型,以便利用所述内容完整性检测模型判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题。
7.一种文件完整性的检测系统,其特征在于,包括:
标准字典确定模块,用于根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;
文件解析模块,用于将所述待检测文件解析为保留文件内容和段落层次的半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;
检测模块,用于判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容;
其中,所述检测模块包括:
目录确定单元,用于从待检测文件的实际文件目录中确定当前检测目录;
匹配单元,用于判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值;其中,所述预设目录层级为当前检测目录的目录层级;
结果输出单元,用于若预设目录层级的标准文件目录与所述当前检测目录的匹配度大于或等于预设值,则判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;还用于若预设目录层级的标准文件目录与所述当前检测目录的匹配度小于预设值,则判定不存在与当前检测目录匹配的标准文件目录;
其中,所述匹配单元用于判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;若目录内容的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若目录内容的语义相似度小于所述预设值,则判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及其下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及其下一层级的目录进行拼接得到;若目录子树的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若目录子树的语义相似度小于所述预设值,则判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;若段落文本的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若段落文本的语义相似度小于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值。
8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至6任一项所述文件完整性的检测方法的步骤。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至6任一项所述文件完整性的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916020.9A CN112001163B (zh) | 2020-09-03 | 2020-09-03 | 一种文件完整性的检测方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916020.9A CN112001163B (zh) | 2020-09-03 | 2020-09-03 | 一种文件完整性的检测方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001163A CN112001163A (zh) | 2020-11-27 |
CN112001163B true CN112001163B (zh) | 2024-01-30 |
Family
ID=73466200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010916020.9A Active CN112001163B (zh) | 2020-09-03 | 2020-09-03 | 一种文件完整性的检测方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001163B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308048B (zh) * | 2020-12-03 | 2023-12-19 | 云知声智能科技股份有限公司 | 基于少量标注数据的病历完整性判别的方法、装置及系统 |
CN112580108B (zh) * | 2020-12-10 | 2024-04-19 | 深圳证券信息有限公司 | 签名和印章完整性验证方法及计算机设备 |
CN114218166A (zh) * | 2021-11-04 | 2022-03-22 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915295A (zh) * | 2011-03-31 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 文档检测方法及装置 |
CN106844476A (zh) * | 2016-12-23 | 2017-06-13 | 上海上讯信息技术股份有限公司 | 一种识别文件格式及对应完整性的方法和设备 |
CN110175322A (zh) * | 2019-05-22 | 2019-08-27 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化方法及装置 |
CN110442872A (zh) * | 2019-08-06 | 2019-11-12 | 中科鼎富(北京)科技发展有限公司 | 一种文本要素完整性审核方法及装置 |
CN110826312A (zh) * | 2019-10-12 | 2020-02-21 | 湖南大学 | 一种软件需求规格说明书的评价方法 |
-
2020
- 2020-09-03 CN CN202010916020.9A patent/CN112001163B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915295A (zh) * | 2011-03-31 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 文档检测方法及装置 |
CN106844476A (zh) * | 2016-12-23 | 2017-06-13 | 上海上讯信息技术股份有限公司 | 一种识别文件格式及对应完整性的方法和设备 |
CN110175322A (zh) * | 2019-05-22 | 2019-08-27 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化方法及装置 |
CN110442872A (zh) * | 2019-08-06 | 2019-11-12 | 中科鼎富(北京)科技发展有限公司 | 一种文本要素完整性审核方法及装置 |
CN110826312A (zh) * | 2019-10-12 | 2020-02-21 | 湖南大学 | 一种软件需求规格说明书的评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112001163A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001163B (zh) | 一种文件完整性的检测方法、系统、电子设备及存储介质 | |
Turcios et al. | How much of library and information science literature qualifies as research? | |
KR101060973B1 (ko) | 에세이에서 과도하게 반복되는 단어 사용의 자동 평가 | |
CN111209734A (zh) | 试题去重方法及其系统 | |
CN108984766B (zh) | 一种政策解读的方法及装置 | |
Dautovic et al. | Automatic checking of quality best practices in software development documents | |
CN111125443A (zh) | 一种基于自动去重的试题题库在线更新方法 | |
CN113204581A (zh) | 基于大数据的题目推荐方法、装置、设备及存储介质 | |
CN110705278A (zh) | 主观题阅卷方法和主观题阅卷装置 | |
CN113259763A (zh) | 教学视频处理方法、装置和电子设备 | |
CN117112767A (zh) | 问答结果生成方法和商业查询大模型训练方法、及装置 | |
CN114780785B (zh) | 基于知识图谱的音乐教学推荐方法及系统 | |
CN112016607B (zh) | 一种基于深度学习的错因分析方法 | |
CN114860772A (zh) | 试卷生成方法、装置、电子设备和存储介质 | |
Gao et al. | Learning information extraction patterns from tabular web pages without manual labelling | |
CN111858938B (zh) | 一种裁判文书标签的提取方法及装置 | |
CN111767401B (zh) | 一种nqi指标自动生成方法 | |
Dautovic et al. | Automated quality defect detection in software development documents | |
CN114139053A (zh) | 基于学分银行和大数据分析的终身学习资源智能推送系统 | |
CN113553416A (zh) | 基于语义相似度的问答方法、系统和可读存储介质 | |
Bahaidarah et al. | Toward reusable science with readable code and reproducibility | |
US20050106539A1 (en) | Self-configuring keyword derivation | |
CN113553861B (zh) | 一种基于对话系统的信息处理方法、装置及存储介质 | |
KR102665966B1 (ko) | 도서목록정보(marc data) 구축을 위한 인공지능을 이용한 분류번호(kdc, ddc) 생성 방법 및 시스템 | |
Raposo et al. | Automatically generating labeled examples for web wrapper maintenance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |