CN114550193A - 文档完整性检测方法、系统和电子设备 - Google Patents

文档完整性检测方法、系统和电子设备 Download PDF

Info

Publication number
CN114550193A
CN114550193A CN202210160143.3A CN202210160143A CN114550193A CN 114550193 A CN114550193 A CN 114550193A CN 202210160143 A CN202210160143 A CN 202210160143A CN 114550193 A CN114550193 A CN 114550193A
Authority
CN
China
Prior art keywords
document
detected
determining
integrity
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210160143.3A
Other languages
English (en)
Inventor
曹军
吴存锋
陈翔
张城
楼新园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Original Assignee
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xinghan Information Technology Ltd By Share Ltd filed Critical Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority to CN202210160143.3A priority Critical patent/CN114550193A/zh
Publication of CN114550193A publication Critical patent/CN114550193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文档完整性检测方法、系统和电子设备,涉及计算机技术领域,该方法包括获取待检测文档;基于参考特征对待检测文档的文档结构进行完整性检测,并在待检测文档的文档结构完整时,判断待检测文档的文档内容是否缺失;其中,参考特征为与待检测文档具有相同文档类型的文档特征;如果缺失,则确定待检测文档为不完整文档;如果未缺失,则确定待检测文档为完整文档。本发明能够提升文档完整性检测的准确性。

Description

文档完整性检测方法、系统和电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种文档完整性检测方法、系统和电子设备。
背景技术
目前存储的文档格式众多,大量打印文档被数字化并作为图像存储在数据库中,因此电子文档不仅是文本文档,也可能是纸质文档的图像。例如,对于以图像格式存储的文档,为了从图像文档中获取信息,需要首先对图像文档进行文字识别(诸如OCR识别),然而,如果图像文档存在图像质量差、识别精度低等问题,则会导致识别出的文档中的内容缺失,因此,如何提升文档完整性的准确检测是目前亟待解决的问题。
发明内容
本发明的目的在于提供一种文档完整性检测方法、系统和电子设备,能够提升文档完整性检测的准确性。
第一方面,本发明提供一种文档完整性检测方法,包括:获取待检测文档;基于参考特征对待检测文档的文档结构进行完整性检测,并在待检测文档的文档结构完整时,判断待检测文档的文档内容是否缺失;其中,参考特征为与待检测文档具有相同文档类型的文档特征;如果缺失,则确定待检测文档为不完整文档;如果未缺失,则确定待检测文档为完整文档。
在可选的实施方式中,获取待检测文档,包括:获取初始文档;初始文档包括文本文档或图像文档;当初始文档为文本文档时,将文本文档确定为待检测文档;当初始文档为图像文档时,对图像文档中的文字进行识别,并将图像文档对应的识别得到的文字确定为待检测文档。
在可选的实施方式中,基于参考特征对待检测文档的文档结构进行完整性检测,包括:确定文档类型对应的参考特征;参考特征包括文档公共结构,文档公共结构以第一结构图的形式表征;对待检测文档进行结构解析,确定待检测文档对应的第二结构图;将第二结构图与第一结构图进行对比,对待检测文档的文档结构进行完整性检测。
在可选的实施方式中,确定文档类型对应的参考特征,包括:确定文档类型对应的文档集合;其中,文档集合中至少包括一个与文档类型对应的参考文档;对文档集合中的每个参考文档进行段落划分,得到每个参考文档对应的段落特征集合,并基于段落特征集合中每个段落之间的关系构建参考文档对应的文档结构图;对文档集合包含的全部参考文档的文档结构图的文档公共结构进行匹配,确定文档类型对应的第一结构图。
在可选的实施方式中,对待检测文档进行结构解析,确定待检测文档对应的第二结构图,包括:基于待检测文档的上下文对待检测文档进行段落划分,并把划分后得到的每个段落确定为节点,段落之间的关系确定为节点的连边;基于节点和连边确定待检测文档对应的第二结构图。
在可选的实施方式中,参考特征包括共有类别实体;判断待检测文档的文档内容是否缺失,包括:确定文档集合中的参考文档的共有类别实体;共有类别实体用于表征文档集合中每个参考文档均包含的内容类别;对待检测文档的类别实体进行提取,确定目标类别实体;通过判断共有类别实体是否为目标类别实体的子集,判断待检测文档的文档内容是否缺失。
在可选的实施方式中,确定文档集合中的参考文档的共有类别实体,包括:对文档集合中的参考文档进行分词处理,并对分词处理后的文档进行词性标准化处理和去除停用词处理,确定参考文档所包含的目标词语;计算目标词语在参考文档的第一词频,以及目标词语在文档集合中的第二词频;基于第一词频和第二词频确定目标词频,并将目标词频小于预设词频阈值的目标词语确定为文档集合中的参考文档的共有类别实体。
在可选的实施方式中,对待检测文档的类别实体进行提取,确定目标类别实体,包括:对待检测文档进行格式转换,得到格式转换后的待检测文档对应的类别标签;基于类别标签确定文档内容在待检测文档中的文档位置;通过预先匹配的提取规则对文档位置的文档内容进行提取,确定目标类别实体。
第二方面,本发明提供一种文档完整性检测系统,包括:文档获取模块,用于获取待检测文档;结构检测模块,用于基于参考特征对待检测文档的文档结构进行完整性检测;其中,参考特征为与待检测文档具有相同文档类型的文档特征;判断模块,用于确定待检测文档的文档结构完整时,判断待检测文档的文档内容是否缺失;结果确定模块,用于待检测文档的文档内容缺失时,则确定待检测文档为不完整文档;待检测文档的文档内容无缺失时,则确定待检测文档为完整文档。
第三方面,本发明提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现前述实施方式任一项的文档完整性检测方法。
本发明实施例提供的文档完整性检测方法、系统和电子设备,该方法首先获取待检测文档,然后基于参考特征对待检测文档的文档结构进行完整性检测,并在待检测文档的文档结构完整时,判断待检测文档的文档内容是否缺失。如果待检测文档的文档内容缺失,则确定待检测文档为不完整文档;如果待检测文档的文档内容无缺失,则确定待检测文档为完整文档。其中,上述参考特征为与待检测文档具有相同文档类型的文档特征。上述方式通过首先判断文档结构的完整性,并在满足结构完整时对文档内容进行完整性检测,可以提升对文档整体完整性检测的准确性,并且,通过参考特征进行文档结构和文档内容的完整性检测,可以针对文档类型进行针对性的完整性检测,提升了检测的效率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文档完整性检测方法的流程图;
图2为本发明实施例提供的一种结构图构建的示意图;
图3为本发明实施例提供的一种第一结构图的示意图;
图4为本发明实施例提供的一种格式转换文档的示意图;
图5为本发明实施例提供的一种文档完整性检测装置的结构图;
图6为本发明实施例提供的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前存储的文档格式众多,诸如,对于以图像格式存储的文档,为了从图像文档中获取信息,需要首先对图像文档进行文字识别(诸如OCR识别),然而,如果图像文档存在图像质量差、识别精度低等问题,则会导致识别出的文档中的内容缺失,当存在大量的文档时,可能需要保留完整的文档而丢弃不完整的文档,因此,如何提升文档完整性的准确检测是目前亟待解决的问题。基于此,本发明实施例提供的一种文档完整性检测方法、系统和电子设备,可以提升了文档的完整性检测的准确性。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文档完整性检测方法进行详细介绍,参见图1所示,该方法主要包括以下步骤:
步骤S110,获取待检测文档。
上述待检测文档可以包括直接获取的文本文档或由图像文档进行文字提取或获取的文本文档。在一种实施方式中,可以首先获取初始文档,该初始文档包括文本文档或图像文档,当初始文档为文本文档时,将文本文档确定为待检测文档,当初始文档为图像文档时,对图像文档中的文字进行识别,并将图像文档对应的识别得到的文字确定为待检测文档。
可选的,待检测文档也可以为其他形式的文档。在一种示例中,当默认的文档播放器读取的文档为Word格式的文档,当需对PDF格式的文档进行检测时,也可以首先将PDF格式的文档转换为Word格式的文档,并将转换后的文档确定为待检测文档。
步骤S120,基于参考特征对待检测文档的文档结构进行完整性检测。
上述参考特征为与待检测文档具有相同文档类型的文档特征,在判断时,首先对文档结构进行完整性检测,如果确定文档结构是完整的,则才进行文档内容的完整检测。如若待检测文档的文档结构是不完整的,则无需进行文档内容的检测,则直接确定该待检测文档为不完整文档。
在对待检测文档的文档结构进行完整性检测时,可以为预先选取的多个参考文档确定文档集合,该参考特征则相应的为该文档集合中的参考文档所共有的文档公共结构。
步骤S130,确定待检测文档的文档结构完整时,判断待检测文档的文档内容是否缺失。
在对待检测文档的文档内容进行完整性检测时,该参考特征则相应的为文档集合中的共有类别实体,该共有类别实体用于表征文档集合中每个参考文档均包含的内容类别。
步骤S140,如果缺失,则确定待检测文档为不完整文档;如果未缺失,则确定待检测文档为完整文档。
本发明实施例提供的文档完整性检测方法,通过首先判断文档结构的完整性,并在满足结构完整时对文档内容进行完整性检测,可以提升对文档整体完整性检测的准确性,并且,通过参考特征进行文档结构和文档内容的完整性检测,可以针对文档类型进行针对性的完整性检测,提升了检测的效率。
为便于理解,以下分别对文档结构的完整性检测和文档内容的完整性检测进行分别介绍:
针对文档结构的完整性检测:
在一可选的实施方式中,基于参考特征对待检测文档的文档结构进行完整性检测的步骤,包括:
步骤1.1),确定文档类型对应的参考特征;该参考特征包括文档公共结构,文档公共结构以第一结构图的形式表征。结构图包括节点和节点之间的连边,在一种实施方式中,可以将文档的段落作为节点,段落与段落之间的关系作为节点和节点之间的连接,从而确定结构图。第一结构图为与待检测文档同属同一类别的文档的参考文档或参考文档构成的文档集合确定的文档公共结构的图形表示。通过结构图进行表征,可以更加直观的确定参考特征,从而在进行后续对比时,更加便捷,提升了对比的效率。
步骤1.2),对待检测文档进行结构解析,确定待检测文档对应的第二结构图。在一种示例中,第二结构图可以为以待检测文档的段落作为节点,段落与段落之间的关系作为连边确定的结构图。
步骤1.3),将第二结构图与第一结构图进行对比,对待检测文档的文档结构进行完整性检测。在一种示例中,可以通过对第二结构图和第一结构图的节点及连边关系依次比对,如果第二结构图中包括第一结构图的全部节点,并且节点的连边关系均相同,则确定待检测文档的文档结构是完整的,反之则不完整。在另一种示例中,可以直接判断第一结构图是否为第二结构图的子集,如果是,则可以确定待检测文档包括该类文档的文档公共结构,则确定待检测文档的文档结构是完整的,反之则不完整。
针对上述步骤1.1),在确定文档类型对应的参考特征时,可以包括以下步骤:
步骤1.1.1,确定文档类型对应的文档集合;其中,文档集合中至少包括一个与文档类型对应的参考文档。
步骤1.1.2,对文档集合中的每个参考文档进行段落划分,得到每个参考文档对应的段落特征集合,并基于段落特征集合中每个段落之间的关系构建参考文档对应的文档结构图。诸如,将对同一类型文档集合D={d1,d2,···,dn}中的每个文档di进行分段,得到每个文档的段落特征项集合d={p1,p2,···},根据段落之间的关系构建文档的结构图。在一种示例中,以3个参考文档为例,分别对文档集合D中的文档d1、文档d2、文档d3进行段落划分,确定文档d1的段落为p1,p2,p3,p4,文档d2的段落为p2,p3,p4,p5,文档d3的段落为p1,p2,p3,p4,p6,段落之间的关系如图2所示,则可以确定参考文档对应的文档结构图。
步骤1.1.3,对文档集合包含的全部参考文档的文档结构图的文档公共结构进行匹配,确定文档类型对应的第一结构图。在确定出每个参考文档的结构图,然后根据该类型文档的结构图匹配出共有的结构特征。以上述图2为例,当确定出每个参考文档的结构图之后,通过匹配每个参考文档的结构图,确定文档集合对应的文档公共结构对应的第一结构图,第一结构图参加图3所示。
针对上述步骤1.2),在具体实施时,可以包括以下步骤:
步骤1.2.1,基于待检测文档的上下文对待检测文档进行段落划分,并把划分后得到的每个段落确定为节点,段落之间的关系确定为节点的连边。
步骤1.2.2,基于节点和连边确定待检测文档对应的第二结构图。
上述待检测文档的段落划分及结构图的构建与上述参考文档的处理方式相同,此处不再赘述。
综上,当对待检测文档进行检测时,可以根据段落之间的关系构建该待检测文档的第二结构图G,判断第二结构图G(V,E)是否包含了最大公共子图(也即第一结构图)g(N,L),其中V表示结构图G的节点集合,E表示结构图G的边集合,N表示结构图g的节点集合,L表示结构图g的边集合:
G(V,E)V={v1,v2,···,vn} E={e1,e2,···,et};
g(N,L)M={n1,n2,···,nk} L={l1,l2,···,lr};
判断N和L是否为V和E的子集,若是,则表示图G包含了最大公共子图g,那么,可以判断待检测文档基本完整,否则,待检测文档不完整。进一步,可以在待检测文档不完整时,查找缺失的部分。
针对文档内容的完整性检测:
上述参考特征包括文档集合包含的全部参考文档的共有类别实体,其中,类别实体可以为针对文档类型确定的,诸如,针对论文文档,则类别实体可以包括各类标题对应的文档实体,诸如文档摘要、关键词、第X章、第Y节、节、参考文献等。该类别实体通常采用与正文不同的字体形式进行表征。共有类别实体可以通过词频公式计算的结果和预先设置的阈值确定。
在一可选的实施方式中,在进行文档内容的完整性检测时,判断待检测文档的文档内容是否缺失的步骤,可以包括:
步骤2.1),确定文档集合中的参考文档的共有类别实体;共有类别实体用于表征文档集合中每个参考文档均包含的内容类别,在具体表示时,可以通过与正文不同的字体形式进行表征,诸如,相对正文内容加粗的字体、字号加大的字体、字体不同的字体等。
步骤2.2),对待检测文档的类别实体进行提取,确定目标类别实体。
步骤2.3),通过判断共有类别实体是否为目标类别实体的子集,判断待检测文档的文档内容是否缺失。
针对上述步骤2.1),在确定文档集合中的参考文档的共有类别实体时,可以包括步骤:
步骤2.1.1,对文档集合中的参考文档进行分词处理,并对分词处理后的文档进行词性标准化处理和去除停用词处理,确定参考文档所包含的目标词语。在一种示例中,可以分别对文档集合中D={d1,d2,···,dn}进行处理,得到每个d确定出的m个词语d={w1,w2,···wm}。
步骤2.1.2,计算目标词语在参考文档的第一词频,以及目标词语在文档集合中的第二词频。
在计算词语wi在某个参考文档d中的第一词频f1时,可以采用下式:
Figure BDA0003514206410000091
其中,
Figure BDA0003514206410000092
表示的是wi在参考文档d中出现的次数,nW表示的是经过数据预处理后参考文档d所有的词语的数量。
在计算词语wi出现在文档集合D中的第一词频f2时,可以采用下式:
Figure BDA0003514206410000093
其中,N表示的是文档集合D中文档的总个数,n表示的是wi出现在文档集合D中的个数。
步骤2.1.3,基于第一词频和第二词频确定目标词频,并将目标词频小于预设词频阈值的目标词语确定为文档集合中的参考文档的共有类别实体。在确定目标词频时,可以采用下式:
Figure BDA0003514206410000101
其中,f值越小,表示对应的词语越能代表文档集合中的参考文档共有的而不是单个参考文档特有的,因此可以认为目标词频f较小的词语为参考文档的共有类别实体。以论文为例,论文一般包括题目、作者、摘要、关键词、正文和参考文献等(这些词代表论文这种类型文档共有的而不是单个文档特有的),这些词语在一篇论文中出现的次数较少,但在每一篇论文中几乎都会出现,因此这些词的f1很小,f2很小,f=f1f2很小,因此通过目标词频f进行共有类别实体的判断,可以更加准确确定出该共有类别实体。
一般地,
Figure BDA0003514206410000102
即f<10-5可认为f较小。诸如,文档集合中有100份参考文档,每份参考文档的总字数约为10000字,则可以将f<10-5的词语确定为共有类别实体。因此在一种示例中,上述预设词频阈值可以设置为10-5
针对上述步骤2.2),对待检测文档的类别实体进行提取,确定目标类别实体的步骤,包括:
步骤2.2.1,对待检测文档进行格式转换,得到格式转换后的待检测文档对应的类别标签。格式转化诸如可以为将待检测文档转换成xml格式的文档,以论文为例,可以通过python中etree库将论文文档转换成xml格式的文档,并对其进行解析,例如“参考文献”,参见图4所示。由于参考文献是通过“黑体”形式表征的,因此可以将该“黑体”表征的“参考文献”确定为类别标签。
步骤2.2.2,基于类别标签确定文档内容在待检测文档中的文档位置。当确定上述“参考文献”的类别标签后,可以根据该类别标签确定黑体表示的“参考文献”在待检测文档中的文档位置。
步骤2.2.3,通过预先匹配的提取规则对文档位置的文档内容进行提取,确定目标类别实体。在一种实施方式中,可以通过正则表达式进行提取,诸如,可以预先设置正则表达式的匹配规则,进而根据匹配规则对文档位置的文档内容进行提取。以上述“参考文献”为例,可以将正则表达式的匹配规则设置为“黑体”,则在匹配时,则会将该“黑体”的文档内容进行提取,从而确定目标类别实体。
综上,本实施例提供的文档完整性检测方法,通过首先判断文档结构的完整性,并在满足结构完整时对文档内容进行完整性检测,可以提升对文档整体完整性检测的准确性,并且,通过参考特征进行文档结构和文档内容的完整性检测,可以针对文档类型进行针对性的完整性检测,提升了检测的效率。
针对上述文档完整性检测方法,本发明实施例提供了一种文档完整性检测系统,参见图5所示,该系统包括以下部分:
文档获取模块51,用于获取待检测文档;
结构检测模块52,用于基于参考特征对待检测文档的文档结构进行完整性检测;其中,参考特征为与待检测文档具有相同文档类型的文档特征;
内容检测模块53,用于确定待检测文档的文档结构完整时,判断待检测文档的文档内容是否缺失;
结果确定模块54,用于待检测文档的文档内容缺失时,则确定待检测文档为不完整文档;待检测文档的文档内容无缺失时,则确定待检测文档为完整文档。
本发明实施例提供的文档完整性检测系统,通过首先判断文档结构的完整性,并在满足结构完整时对文档内容进行完整性检测,可以提升对文档整体完整性检测的准确性,并且,通过参考特征进行文档结构和文档内容的完整性检测,可以针对文档类型进行针对性的完整性检测,提升了检测的效率。
在一些实施方式中,上述文档获取模块51,还用于:
获取初始文档;初始文档包括文本文档或图像文档;当初始文档为文本文档时,将文本文档确定为待检测文档;当初始文档为图像文档时,对图像文档中的文字进行识别,并将图像文档对应的识别得到的文字确定为待检测文档。
在一些实施方式中,上述结构检测模块52,还用于:
确定文档类型对应的参考特征;参考特征包括文档公共结构,文档公共结构以第一结构图的形式表征;对待检测文档进行结构解析,确定待检测文档对应的第二结构图;将第二结构图与第一结构图进行对比,对待检测文档的文档结构进行完整性检测。
在一些实施方式中,上述结构检测模块52,还用于:
确定文档类型对应的文档集合;其中,文档集合中至少包括一个与文档类型对应的参考文档;对文档集合中的每个参考文档进行段落划分,得到每个参考文档对应的段落特征集合,并基于段落特征集合中每个段落之间的关系构建参考文档对应的文档结构图;对文档集合包含的全部参考文档的文档结构图的文档公共结构进行匹配,确定文档类型对应的第一结构图。
在一些实施方式中,上述结构检测模块52,还用于:
基于待检测文档的上下文对待检测文档进行段落划分,并把划分后得到的每个段落确定为节点,段落之间的关系确定为节点的连边;基于节点和连边确定待检测文档对应的第二结构图。
在一些实施方式中,上述内容检测模块53,还用于:
确定文档集合中的参考文档的共有类别实体;共有类别实体用于表征文档集合中每个参考文档均包含的内容类别;对待检测文档的类别实体进行提取,确定目标类别实体;通过判断共有类别实体是否为目标类别实体的子集,判断待检测文档的文档内容是否缺失。
在一些实施方式中,上述内容检测模块53,还用于:
对文档集合中的参考文档进行分词处理,并对分词处理后的文档进行词性标准化处理和去除停用词处理,确定参考文档所包含的目标词语;计算目标词语在参考文档的第一词频,以及目标词语在文档集合中的第二词频;基于第一词频和第二词频确定目标词频,并将目标词频小于预设词频阈值的目标词语确定为文档集合中的参考文档的共有类别实体。
在一些实施方式中,上述内容检测模块53,还用于:
对待检测文档进行格式转换,得到格式转换后的待检测文档对应的类别标签;基于类别标签确定文档内容在待检测文档中的文档位置;通过预先匹配的提取规则对文档位置的文档内容进行提取,确定目标类别实体。
本发明实施例所提供的系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图6为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的文档完整性检测方法、系统和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文档完整性检测方法,其特征在于,包括:
获取待检测文档;
基于参考特征对所述待检测文档的文档结构进行完整性检测,其中,所述参考特征为与所述待检测文档具有相同文档类型的文档特征;
确定所述待检测文档的文档结构完整时,判断所述待检测文档的文档内容是否缺失;
如果缺失,则确定所述待检测文档为不完整文档;
如果未缺失,则确定所述待检测文档为完整文档。
2.根据权利要求1所述的文档完整性检测方法,其特征在于,获取待检测文档,包括:
获取初始文档;所述初始文档包括文本文档或图像文档;
当所述初始文档为文本文档时,将所述文本文档确定为待检测文档;
当所述初始文档为图像文档时,对所述图像文档中的文字进行识别,并将所述图像文档对应的识别得到的文字确定为所述待检测文档。
3.根据权利要求1所述的文档完整性检测方法,其特征在于,基于参考特征对所述待检测文档的文档结构进行完整性检测,包括:
确定所述文档类型对应的参考特征;所述参考特征包括文档公共结构,所述文档公共结构以第一结构图的形式表征;
对所述待检测文档进行结构解析,确定所述待检测文档对应的第二结构图;
将所述第二结构图与所述第一结构图进行对比,对所述待检测文档的文档结构进行完整性检测。
4.根据权利要求3所述的文档完整性检测方法,其特征在于,确定所述文档类型对应的参考特征,包括:
确定所述文档类型对应的文档集合;其中,所述文档集合中至少包括一个与所述文档类型对应的参考文档;
对所述文档集合中的每个参考文档进行段落划分,得到每个参考文档对应的段落特征集合,并基于所述段落特征集合中每个段落之间的关系构建所述参考文档对应的文档结构图;
对所述文档集合包含的全部参考文档的文档结构图的文档公共结构进行匹配,确定所述文档类型对应的第一结构图。
5.根据权利要求3所述的文档完整性检测方法,其特征在于,对所述待检测文档进行结构解析,确定所述待检测文档对应的第二结构图,包括:
基于所述待检测文档的上下文对所述待检测文档进行段落划分,并把划分后得到的每个段落确定为节点,段落之间的关系确定为节点的连边;
基于所述节点和连边确定所述待检测文档对应的第二结构图。
6.根据权利要求4所述的文档完整性检测方法,其特征在于,所述参考特征包括共有类别实体;判断所述待检测文档的文档内容是否缺失,包括:
确定所述文档集合中的参考文档的共有类别实体;所述共有类别实体用于表征所述文档集合中每个参考文档均包含的内容类别;
对所述待检测文档的类别实体进行提取,确定目标类别实体;
通过判断所述共有类别实体是否为所述目标类别实体的子集,判断所述待检测文档的文档内容是否缺失。
7.根据权利要求6所述的文档完整性检测方法,其特征在于,确定所述文档集合中的参考文档的共有类别实体,包括:
对所述文档集合中的参考文档进行分词处理,并对分词处理后的文档进行词性标准化处理和去除停用词处理,确定所述参考文档所包含的目标词语;
计算所述目标词语在所述参考文档的第一词频,以及所述目标词语在所述文档集合中的第二词频;
基于所述第一词频和所述第二词频确定目标词频,并将所述目标词频小于预设词频阈值的目标词语确定为文档集合中的参考文档的共有类别实体。
8.根据权利要求1所述的文档完整性检测方法,其特征在于,对所述待检测文档的类别实体进行提取,确定目标类别实体,包括:
对所述待检测文档进行格式转换,得到格式转换后的所述待检测文档对应的类别标签;
基于所述类别标签确定文档内容在待检测文档中的文档位置;
通过预先匹配的提取规则对所述文档位置的文档内容进行提取,确定所述目标类别实体。
9.一种文档完整性检测系统,其特征在于,包括:
文档获取模块,用于获取待检测文档;
结构检测模块,用于基于参考特征对所述待检测文档的文档结构进行完整性检测;其中,所述参考特征为与所述待检测文档具有相同文档类型的文档特征;
判断模块,用于确定所述待检测文档的文档结构完整时,判断所述待检测文档的文档内容是否缺失;
结果确定模块,用于所述待检测文档的文档内容缺失时,则确定所述待检测文档为不完整文档;所述待检测文档的文档内容无缺失时,则确定所述待检测文档为完整文档。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述的文档完整性检测方法。
CN202210160143.3A 2022-02-22 2022-02-22 文档完整性检测方法、系统和电子设备 Pending CN114550193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210160143.3A CN114550193A (zh) 2022-02-22 2022-02-22 文档完整性检测方法、系统和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210160143.3A CN114550193A (zh) 2022-02-22 2022-02-22 文档完整性检测方法、系统和电子设备

Publications (1)

Publication Number Publication Date
CN114550193A true CN114550193A (zh) 2022-05-27

Family

ID=81678461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210160143.3A Pending CN114550193A (zh) 2022-02-22 2022-02-22 文档完整性检测方法、系统和电子设备

Country Status (1)

Country Link
CN (1) CN114550193A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226036A (zh) * 2023-05-05 2023-06-06 中信天津金融科技服务有限公司 一种文档管理方法、装置和设备
CN116955306A (zh) * 2023-06-21 2023-10-27 东莞市铁石文档科技有限公司 一种基于分布式存储的档案管理系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226036A (zh) * 2023-05-05 2023-06-06 中信天津金融科技服务有限公司 一种文档管理方法、装置和设备
CN116226036B (zh) * 2023-05-05 2023-07-18 中信天津金融科技服务有限公司 一种文档管理方法、装置和设备
CN116955306A (zh) * 2023-06-21 2023-10-27 东莞市铁石文档科技有限公司 一种基于分布式存储的档案管理系统
CN116955306B (zh) * 2023-06-21 2024-04-12 东莞市铁石文档科技有限公司 一种基于分布式存储的档案管理系统

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
CN114550193A (zh) 文档完整性检测方法、系统和电子设备
US20120045132A1 (en) Method and apparatus for localizing an object within an image
US9047533B2 (en) Parsing tables by probabilistic modeling of perceptual cues
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN111079480A (zh) 身份证信息的识别方法、装置及终端设备
CN113762100B (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN111598099B (zh) 图像文本识别性能的测试方法、装置、测试设备及介质
CN108334800B (zh) 印章图像的处理装置、方法以及电子设备
EP4133410A1 (en) Text classification
CN112287936A (zh) 光学字符识别测试方法、装置、可读存储介质及终端设备
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN114743012A (zh) 一种文本识别方法及装置
CN114298236A (zh) 非结构化内容相似度确定方法、装置和电子设备
CN114581934A (zh) 试卷图像的处理方法、装置及设备
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN111125225A (zh) 账单数据解析方法、装置及服务器
CN111144943A (zh) 获取消费数据的方法、装置和服务器
CN113343051B (zh) 一种异常sql检测模型构建方法及检测方法
CN115712925A (zh) 网页篡改检测方法、装置、电子设备及可读存储介质
Agarwal et al. Broken news: making newspapers accessible to print-impaired
CN110765263B (zh) 一种检索案件的显示方法及装置
Sara et al. Label-Value Extraction from Documents Using Co-SSL Framework
CN116010547A (zh) 用于文件的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination