CN111680634A - 公文文件处理方法、装置、计算机设备及存储介质 - Google Patents

公文文件处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111680634A
CN111680634A CN202010523793.0A CN202010523793A CN111680634A CN 111680634 A CN111680634 A CN 111680634A CN 202010523793 A CN202010523793 A CN 202010523793A CN 111680634 A CN111680634 A CN 111680634A
Authority
CN
China
Prior art keywords
document
format
file
content
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010523793.0A
Other languages
English (en)
Other versions
CN111680634B (zh
Inventor
金晓辉
阮晓雯
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010523793.0A priority Critical patent/CN111680634B/zh
Publication of CN111680634A publication Critical patent/CN111680634A/zh
Priority to US17/620,817 priority patent/US11914968B2/en
Priority to PCT/CN2020/135718 priority patent/WO2021121158A1/zh
Application granted granted Critical
Publication of CN111680634B publication Critical patent/CN111680634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于大数据领域,尤其涉及一种公文文件处理方法、装置、计算机设备及存储介质。所述方法包括:对待评审公文文件进行格式解析后,获取标准文件类型的待评审公文文件,并识别标准文件类型的待评审公文文件中的所有文件成分内容;通过预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后,获取格式检测结果、内容检测结果和版式检测结果;通过格式检测结果、内容检测结果和版式检测结果生成检测错误内容,调用出与检测错误内容对应的标准写作规则,将检测错误内容和标准写作规则标注在待评审公文文件中。本发明还涉及区块链技术,所述标准写作规则存储于区块链中。通过本发明能提高公文文件的评审效率。

Description

公文文件处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及大数据的数据分析领域,尤其涉及一种公文文件处理方法、 装置、计算机设备及存储介质。
背景技术
目前,在将要发布公文文件时,首先需要对公文文件的规范进行评审, 在现有技术中,需要人工对公文文件的文面格式和要求等进行详尽的评审, 在人工评审公文文件的过程中,要求评审人员对《党政机关公文处理工作条 例》的15类公文文种中不同组成要素的各个评审规范都了如指掌,但目前各 机关部门的公文文件产出量大,若采用人工针对每次不同的公文文件去进行 逐字逐句的评审,耗时耗力,而且极易出现评审规范点遗漏的问题。因此本 领域人员亟需寻找一种可自动对公文文件进行精准评审的方法以解决上述提到的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种公文文件处理方法、装置、 计算机设备及存储介质,用于自动化对公文文件进行评审处理,以提高公文 文件的评审效率和评审精准度。
一种公文文件处理方法,包括:
接收用户发送的包含待评审公文文件的评审请求,对所述待评审公文文 件进行格式解析并获取所述待评审公文文件的文件类型后,获取标准文件类 型的所述待评审公文文件,并通过预设bert模型识别标准文件类型的所述待 评审公文文件中的所有文件成分内容;
通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、 文本内容检测以及框架版式检测之后,获取格式检测结果、内容检测结果和 版式检测结果;所述文本格式检测包括调用与每一个所述文件成分内容对应 的格式检测规则,提取所述文件成分内容中的文本格式关键词,根据所述文 本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结 果;所述文本内容检测包括对所述文件成分内容进行内容检测后,获取内容 检测结果;所述框架版式检测包括对标准文件类型的所述待评审公文文件进 行坐标信息的划分,并根据划分的所述坐标信息以对所述待评审公文文件进 行框架版式检测,获取版式检测结果;
通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内 容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误内容 和所述标准写作规则标注在所述待评审公文文件中的预设位置,并将已标注 成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位 置。
一种公文文件处理装置,包括:
识别模块,用于接收用户发送的包含待评审公文文件的评审请求,对所 述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后, 获取标准文件类型的所述待评审公文文件,并通过预设bert模型识别标准文 件类型的所述待评审公文文件中的所有文件成分内容;
获取模块,用于通过基于分布式框架构建的预设文本处理模型同步执行 文本格式检测、文本内容检测以及框架版式检测之后,获取格式检测结果、 内容检测结果和版式检测结果;所述文本格式检测包括调用与每一个所述文 件成分内容对应的格式检测规则,提取所述文件成分内容中的文本格式关键 词,根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条 获取格式检测结果;所述文本内容检测包括对所述文件成分内容进行内容检 测后,获取内容检测结果;所述框架版式检测包括对标准文件类型的所述待 评审公文文件进行坐标信息的划分,并根据划分的所述坐标信息以对所述待 评审公文文件进行框架版式检测,获取版式检测结果;
发送模块,用于通过所述格式检测结果、内容检测结果和版式检测结果 生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将所 述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位 置,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发 送至预设接收位置。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在 所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上 述公文文件处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序, 所述计算机程序被处理器执行时实现上述公文文件处理方法。
上述公文文件处理方法、装置、计算机设备及存储介质,通过分布式框 架构建的预设文本处理模型同时实现待评审公文文件多种规范化要求的评审 (包括对待评审公文文件的文本格式、文本内容和框架版式的评审处理), 不仅无需借助人力,而且可快速精准完成一篇待评审公文文件的评审,能确 保文件评审规范点不被遗漏,可见能提高评审效率和评审精准度;且每一种 规范化要求的评审是单独存在并不互相影响,并以批注方式将检测错误内容 和标准写作规则标注在待评审公文文件中的预设位置,从而用户可直接根据批注内容对待评审公文文件进行修改。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性 劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中公文文件处理方法的一应用环境示意图;
图2是本发明一实施例中公文文件处理方法的一流程图;
图3是本发明一实施例中公文文件处理装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创 造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的公文文件处理方法,可应用在如图1的应用环境中,其中, 客户端通过网络与服务器进行通信。其中,客户端可以但不限于各种个人计 算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以 用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种公文文件处理方法,以该方法应 用在图1中的服务器为例进行说明,包括如下步骤:
S10,接收用户发送的包含待评审公文文件的评审请求,对所述待评审公 文文件进行格式解析并获取所述待评审公文文件的文件类型后,获取标准文 件类型的所述待评审公文文件,并通过预设bert模型识别标准文件类型的所 述待评审公文文件中的所有文件成分内容;
可理解地,待评审公文文件可为各种机关和机构中待审查规范的公文文 件,其中,每一种待评审公文文件至少存在一个以上的标准公文文件所具备 的规范化要求,该规范化要求可包括但不限于文件格式、文件内容、文件文 字格式和文件排版等,具体地,用户可在显示设备选择出待评审公文文件的 评审要求后由该显示设备发出该评审请求,其中,该评审要求是可对待评审 公文文件中所有的规范化要求进行检测;识别标准文件类型的待评审公文文 件是将结构化的文本数据(待评审公文文件)转换为有意义的文本数据而进行文本解析的过程,该过程结束之后可以得到各种结构成分的文件成分内容, 其中,识别过程中可使用语言、统计和机器学习模型等多种解析技术,在本 实施例中主要是从待评审公文文件中分析、挖掘和识别出所有文件成分内容, 其中,本实施例提到的文件成分内容包括文件文号、文件标题、文件主送单 位、文件正文、文件落款、文件附件和文件公文附注等;预设bert模型是一 种可用于对待评审公文文件的文件成分内容进行分析的语言表征模型,该bert 模型具体的训练过程为:首先需要训练待评审公文文件中的文件成分内容进行标注,接着对bert模型进行建模,且在对bert模型训练之前可根据待评审 公文文件中已标注成功的文件成分内容对bert模型中已有的词向量进行增强 训练,以令词向量表征的分布更贴合于待评审公文文件,且在对bert模型训 练时可通过bert-base的基础上对bert模型不断进行微调以令词向量分布更加 合理,最后对所有的词向量训练完成后,可从bert模型输出位置获取待评审 公文文件的文件成分内容分类(一种类别可代表一个文件成分内容)的分类 结果,该分类结果输出的形式为待评审公文文件中不同文件成分内容所对应的概率,将分类结果中的各个概率与其预设阈值进行对比后,就可确定出该 分类结果所对应的文件成分内容。本实施例中,服务器上设置了一个接口来 专门接收用户在发出评审请求时而同时上传的待评审公文文件,但用户上传 的待评审公文文件可能存在多种文件类型,其中,文件类型包括但不限于.docx 或.doc或.pdf等,因此为了统一且快速识别出待评审公文文件,可通过该服务 器中的文件类型转换模块来将待评审公文文件的文件类型转换成所需的标准 文件类型,标准文件类型可为.docx或.doc或.pdf中的任意一种,且本实施例 也通过预设bert模型从结构化的待评审公文文件中识别和确认出各种结构的 文件成分内容,从而方便于后续对其中一个或多个文件成分内容进行数据处 理。
S20,通过基于分布式框架构建的预设文本处理模型同步执行文本格式检 测、文本内容检测以及框架版式检测之后,获取格式检测结果、内容检测结 果和版式检测结果;所述文本格式检测包括调用与每一个所述文件成分内容 对应的格式检测规则,提取所述文件成分内容中的文本格式关键词,根据所 述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检 测结果;所述文本内容检测包括对所述文件成分内容进行内容检测后,获取 内容检测结果;所述框架版式检测包括对标准文件类型的所述待评审公文文 件进行坐标信息的划分,并根据划分的所述坐标信息以对所述待评审公文文 件进行框架版式检测,获取版式检测结果;
可理解地,格式检测结果是通过规则引擎来完成,其中,规则引擎具体 执行主要分为接受数据输入,解释预设规则和根据预设规则做出规则决策过 程,具体地,本实施例是通过格式检测规则来对待评审公文文件的文件成分 内容进行文件格式检测,主要是在规则引擎的运行过程通过关键词检索技术 别对各文件成分内容执行与其对应的格式检测规则,可见,各种成分内容对 应的格式检测规则并不一致,因此一种成分内容至少对应一种格式检测规则, 比如,在待评审公文文件为公文文件时,其中公文文件存在一个文件文号, 而文件文号是由发文单位代字+年份+序号组成的格式条,此时通过规则引擎 中的关键词检索技术提取该待评审公文文件中的文件文号所对应的文本格式 关键词,并判断该文本格式关键词是否与文件文号对应的格式检测规则(格 式条所要求的文本格式关键词)一致,从而来确定出待评审公文文件中的文 件成分内容中的文件文号的文件格式是正确或错误的检测结果(上述提到的 一致可确定出该文件成分内容的文件格式是正确,反之亦然,其他文件成分 内容同理检测)。本实施例利用规则引擎来对待评审公文文件的文件格式进 行检测,是因为规则引擎是可基于预设规则去执行检测,无需进行编码,方 便对格式检测规则进行修改而适应待评审公文文件的格式检测规则的变化, 且利用规则引擎可提升检测速度,并可将规则引擎输出且与各种文件成分内 容关联的格式检测结果在规则引擎中集中记录以便于导出使用。
内容检测结果是通过NLP算法引擎来完成,其中,NLP(natural languageprocessing,NLP)算法引擎为自然语言处理算法引擎,其基本任务是确定句子 的句法结构或者句子中词汇之间的依存关系(在此中的句子存在各种文件成 分内容中),在本实施例中NLP算法引擎的运行任务可总结为错别字识别、 俚语识别、人名识别和词性标注,具体地,本实施例中的NLP算法引擎是通 过与其对应的错别字识别、俚语识别、人名识别和词性标注模型来检测待评 审公文文件的文件内容的表述、组合及标点的正确与错误,其中,表述错误 包括但不限于错别字、文字重复、俚语或网络用语等,比如,在“统计信息 中心中心健康医疗大数据”中,“中心”二字重复出现,则为上述提到的表 述错误中的文字错误,在“打这儿开始收集健康医疗数据”中,“打这儿” 为俚语,则为上述提到的表述错误中的俚语,组合错误主要为一些词语与词 语的搭配应当不予出现在特定的场景的待评审公文文件中,比如在会议纪要 的场景对应的待评审公文文件中,一般人民不直接与动词进行搭配,标点错 误包括常规标点错误和固定搭配点错误,比如,小标题“一”后面要加“、”, “科技+金融”中引号和加号的使用。本实施例利用NLP算法引擎对文本解 析后的文件成分内容进行文件内容的检测,能基于人类的思维和语言的习惯 来较准确检测出内容检测结果,并提升检测的效率。
版式检测结果是通过NLP算法引擎来完成,其中,OCR(Optical CharacterRecognition)算法引擎为光学字符识别算法引擎,其通过图像处理和模式识别 技术对光学字符进行识别,具体地,本实施例中的OCR算法引擎主要是将标 准文件类型的待评审公文文件转换为预设文件类型的待评审公文文件以实现 对预设文件类型的待评审公文文件进行框架版式检测(其中,框架版式包括 文字格式和排版),并以待评审公文文件中的一页文件的任意两边为坐标轴, 解析待评审公文文件中的各个文本块后得到各个文本块中的光学字符的坐标 信息,并通过光学字符的坐标信息确定出待评审公文文件的文字格式和排版 是否与文字格式和排版要求的一致以确定文字格式和排版的正确与错误,比 如,待评审公文文件中的文件落款要求与结束语空2行,落款靠右,待评审 公文文件中的所有的页码需要求设成奇偶页不同,页码字体用宋体小四号, 奇数页码在右边,并右缩进一个字符,偶数页码在左边并左缩进一个字符, 并分别在奇偶页码的左右两边加上一条横线“—”,若通过光学字符的坐标 信息识别出来的文字格式或/和排版不与上述文字格式和排版要求的一致,则 可确定待评审公文文件的文字格式或/和排版存在错误,反之亦然。本实施例 利用OCR算法引擎对标准文件类型的待评审公文文件的框架版式进行检测, 是因为该OCR算法引擎对待评审公文文件中的光学字符的误识率低和识别速 度高,并借用该光学字符来进一步确定出待评审公文文件的文字格式和排版 的正确与错误。
S30,通过所述格式检测结果、内容检测结果和版式检测结果生成检测错 误内容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误 内容和所述标准写作规则标注在所述待评审公文文件中的预设位置,并将已 标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接 收位置。
可理解地,上述的格式检测结果、内容检测结果和版式检测结果是可通 过预设文本处理模型获取,其中,预设文本处理模型中包括执行格式检测的 规则引擎(对应格式检测结果)、执行文件内容检测的NLP算法引擎(对应 内容检测结果)和执行框架版式检测的OCR算法引擎(对应版式检测结果), 且三种引擎分别部署在分布式框架中;检测错误内容包含了所有的格式检测 结果、内容检测结果和版式检测结果中错误的检测结果,其中,检测错误内 容中一个错误的检测结果至少对应一个标准写作规则;预设位置是待评审公 文文件中与检测错误内容和标准写作规则对应的位置,也即是待评审公文文 件中出现错误的位置。本实施例将检测错误内容和标准写作规则标注在待评 审公文文件中的预设位置中,一方面是为了让用户清楚观察到错误结果和错 误原因,另一方面是便于用户后续根据标准写作规则更改待评审公文文件中 的检测错误内容。
进一步地,所述标准写作规则存储于区块链中,所述通过所述格式检测 结果、内容检测结果和版式检测结果生成检测错误内容,调用出与所述检测 错误内容对应的标准写作规则,将所述检测错误内容和所述标准写作规则标 注在所述待评审公文文件中的预设位置,并将已标注成功的所述待评审公文 文件根据所述用户指定的存放路径发送至预设接收位置,还包括:
将所述格式检测结果、内容检测结果和版式检测结果输入至预设评分模 型进行评分,获取所述预设评分模型输出的所述待评审公文文件的评分结果;
通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内 容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误内容、 所述评分结果和所述标准写作规则标注在所述待评审公文文件中的预设位置 中,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发 送至预设接收位置。
可理解地,预设评分模型中已预设设置了各种检测结果对应的评分分数 的评分表,该预设评分模型通过查询评分表中的各维度中与检测结果对应的 评分分数,并将各检测结果(格式检测结果、内容检测结果和版式检测结果) 的评分分数汇总得到待评审公文文件的评分结果(该评分结果包括总评分情 况也包括单独一项检测结果对应的评分情况),其中,评分表对应的评分分 数可根据需求自行设置评分规则,比如,评分规则为待评审公文文件中出现 一次错别字及错别标点符号则扣2分,并在扣满10分为止。
另外需要强调的是,为进一步保证上述标准写作规则的私密和安全性, 上述标准写作规则还可以存储于一区块链的节点中。其中,本发明所指区块 链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新 型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串 使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交 易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包 括区块链底层平台、平台产品服务层以及应用服务层等。区块链提供的去中心化的完全分布式DNS服务通过网络中各个节点之间的点对点数据传输服务 就能实现域名的查询和解析,可用于确保某个重要的基础设施的操作系统和 固件没有被篡改,可以监控软件的状态和完整性,发现不良的篡改,并确保 所传输的数据没用经过篡改,将标准写作规则存储在区块链中,能够确保标 准写作规则的私密和安全性。
进一步地,所述文件成分内容包括文件标题;所述调用与每一个所述文 件成分内容对应的格式检测规则,包括:
根据所述待评审公文文件的所述文件标题确定所述待评审公文文件的文 件文种;
在所述文件文种属于预设文种时,利用所述规则引擎调用与各所述文件 成分内容对应的格式检测规则;
在所述文件文种不属于预设文种时,提示所述待评审公文文件不属于公 文文件。
可理解地,在评审文件为公文文件时,可通过评审文件的文件成分内容 中的文件标题确定待评审公文文件的文件文种,因为公文写作要求在文件标 题中体现出15种公文文种名称,而不属于15类公文文种的内容将被判定为 其他文件文种。本实施例主要是为了判定待评审公文文件是否属于预设文种, 从而可进一步地对预设文种的待评审公文文件进行下一步处理。
进一步地,所述对所述待评审公文文件进行格式解析之后,还包括:
在所述待评审公文文件中不存在文件内容时,提示所述用户重新上传所 述待评审公文文件并驳回当前所述评审请求。
可理解地,本实施例中的待评审公文文件是用户自行上传的,在用户上 传的待评审公文文件不存在文件内容时,无需对待评审公文文件进行评审, 本实施例主要是用来排除不存在文件内容的待评审公文文件,避免增加服务 器的工作量。其中,待评审公文文件中是否存在文件内容可通过随机在待评 审公文文件中的任意区域中进行复制,并查看是否存在粘贴的内容来进行确 定或者通过文字数字识别模型来进行识别确定。
进一步地,所述调用与每一个所述文件成分内容对应的格式检测规则, 提取所述文件成分内容中的文本格式关键词,根据所述文本格式关键词以及 与其对应的所述格式检测规则中的格式条获取格式检测结果,包括:
利用规则引擎调用与每一个所述文件成分内容对应的格式检测规则;一 个所述格式检测规则中包含至少一种数据类型及各所述数据类型的组合形式 的格式条;
通过所述规则引擎的关键词搜索技术提取所述文件成分内容中的文本格 式关键词,并确定所述文本格式关键词是否和与其对应的所述格式检测规则 中的格式条一致;一个所述文件成分内容对应至少一个所述文本格式关键词;
在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规 则中的格式条一致时,获取所述文件成分内容的文件格式正确的所述格式检 测结果;
在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规 则中的格式条并不一致时,获取所述文件成分内容的文件格式错误的所述格 式检测结果。
具体地,一个文件成分内容对应一个格式检测规则,文件文号对应发文 单位代字+年份+序号(平保发〔201X〕X号)的格式检测规则,文件落款的 日期对应数字年+数字月+数字日(201X年XX月XX日)的格式检测规则, 其中,发文单位代字、年份、序号和数字都为数据类型,而发文单位代字+年 份+序号和数字年+数字月+数字日为数据类型的组合形式的格式条,从而本实 施例首先利用规则引擎调用出与每一个文件成分内容对应的格式检测规则, 也即确定出各文件成分内容的格式条;接着利用规则引擎的关键词搜索技术 检测各个文件成分内容中的文本格式关键词是否和与其对应的格式检测规则 中的格式条一致,比如文件落款的日期中的数字年+数字月+数字日的格式条 中的数字是否为阿拉伯数字等;最后通过比较一致来确定出格式检测结果以 实现对待评审公文文件的文件格式正确和错误的检测。
进一步地,所述获取标准文件类型的所述待评审公文文件之后,还包括:
在检测到所述待评审公文文件中存在表格时,对所述表格进行解析,将 解析之后的所述表格中的各个表格内容分别记录为所述文件成分内容。
可理解地,由于本实施例中的待评审公文文件可能存在表格或者图表等 不为常规的文件成分内容,此时可通过解析表格或者图表的内容,并将表格 或者图表转换为常规的文件成分内容,从而保证待评审公文文件各文件成分 内容在评审过程中的完整性。
进一步地,所述对标准文件类型的所述待评审公文文件进行坐标信息的 划分,并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检 测,包括:
将标准文件类型的所述待评审公文文件转化成预设文件类型,得到预设 文件类型的所述待评审公文文件;
利用OCR算法引擎将预设文件类型的所述待评审公文文件,输入与所述 待评审公文文件的文本文种关联的文件块划分模型,接收所述文件快划分模 型输出的划分文本块,提取所述划分文本块的坐标信息;所述坐标信息表征 了所述划分文本块的大小和位置;
根据所述坐标信息对标准文件类型的所述待评审公文文件的文字格式和 排版进行框架版式检测。
可理解地,待评审公文文件要很好被OCR算法引擎进行识别检测,可首 先将标准文件类型的待评审公文文件转化成预设文件类型的待评审公文文件 (比如PDF文件类型的待评审公文文件),从而保证识别检测过程中的稳定 性;文件块划分模型是为了将预设文件类型的待评审公文文件划分成多个可 便于识别的文本块,其中,每个文本块存在至少一个光学字符,每个光学字 符可对应至少一个坐标信息,也通过该坐标信息确定出文本块中的光学字符 的大小和位置,因此最后可通过该文本块中的光学字符的坐标信息确定出文本块文字格式和排版是否与文字格式和排版要求的一致以实现对待评审公文 文件的文字格式和排版的检测。
综上所述,上述提供了一种公文文件处理方法,通过分布式框架构建的 预设文本处理模型同时实现待评审公文文件多种规范化要求的评审(包括对 待评审公文文件的文本格式、文本内容和框架版式的评审处理),不仅无需 借助人力,而且可快速精准完成一篇待评审公文文件的评审,能确保文件评 审规范点不被遗漏,可见能提高评审效率和评审精准度;且每一种规范化要 求的评审是单独存在并不互相影响,并以批注方式将检测错误内容和标准写 作规则标注在待评审公文文件中的预设位置,从而用户可直接根据批注内容对待评审公文文件进行修改。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后, 各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实 施过程构成任何限定。
在一实施例中,提供一种公文文件处理装置,该公文文件处理装置与上 述实施例中公文文件处理方法一一对应。如图3所示,该公文文件处理装置 包括识别模块11、获取模块12和发送模块13。各功能模块详细说明如下:
识别模块11,用于接收用户发送的包含待评审公文文件的评审请求,对 所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型 后,获取标准文件类型的所述待评审公文文件,并通过预设bert模型识别标 准文件类型的所述待评审公文文件中的所有文件成分内容;
获取模块12,用于通过基于分布式框架构建的预设文本处理模型同步执 行文本格式检测、文本内容检测以及框架版式检测之后,获取格式检测结果、 内容检测结果和版式检测结果;所述文本格式检测包括调用与每一个所述文 件成分内容对应的格式检测规则,提取所述文件成分内容中的文本格式关键 词,根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条 获取格式检测结果;所述文本内容检测包括对所述文件成分内容进行内容检 测后,获取内容检测结果;所述框架版式检测包括对标准文件类型的所述待 评审公文文件进行坐标信息的划分,并根据划分的所述坐标信息以对所述待 评审公文文件进行框架版式检测,获取版式检测结果;
发送模块13,用于通过所述格式检测结果、内容检测结果和版式检测结 果生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将 所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设 位置,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径 发送至预设接收位置。
进一步地,所述标准写作规则存储于区块链中,所述发送模块包括:
第一获取子模块,用于将所述格式检测结果、内容检测结果和版式检测 结果输入至预设评分模型进行评分,获取所述预设评分模型输出的所述待评 审公文文件的评分结果;
发送子模块,用于通过所述格式检测结果、内容检测结果和版式检测结 果生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将 所述检测错误内容、所述评分结果和所述标准写作规则标注在所述待评审公 文文件中的预设位置中,并将已标注成功的所述待评审公文文件根据所述用 户指定的存放路径发送至预设接收位置。
进一步地,所述获取模块包括:
第一确定子模块,用于根据所述待评审公文文件的所述文件标题确定所 述待评审公文文件的文件文种;
第一调用子模块,用于在所述文件文种属于预设文种时,利用所述规则 引擎调用与各所述文件成分内容对应的格式检测规则;
提示子模块,用于在所述文件文种不属于预设文种时,提示所述待评审 公文文件不属于公文文件。
进一步地,所述公文文件处理装置还包括:
驳回模块,用于在所述待评审公文文件中不存在文件内容时,提示所述 用户重新上传所述待评审公文文件并驳回当前所述评审请求。
进一步地,所述获取模块包括:
第二调用子模块,用于利用规则引擎调用与每一个所述文件成分内容对 应的格式检测规则;一个所述格式检测规则中包含至少一种数据类型及各所 述数据类型的组合形式的格式条;
第二确定子模块,用于通过所述规则引擎的关键词搜索技术提取所述文 件成分内容中的文本格式关键词,并确定所述文本格式关键词是否和与其对 应的所述格式检测规则中的格式条一致;一个所述文件成分内容对应至少一 个所述文本格式关键词;
第二获取子模块,用于在所述文件成分内容中的文本格式关键词和与其 对应的所述格式检测规则中的格式条一致时,获取所述文件成分内容的文件 格式正确的所述格式检测结果;
第三获取子模块,用于在所述文件成分内容中的文本格式关键词和与其 对应的所述格式检测规则中的格式条并不一致时,获取所述文件成分内容的 文件格式错误的所述格式检测结果。
进一步地,所述公文文件处理装置还包括:
记录模块,用于在检测到所述待评审公文文件中存在表格时,对所述表 格进行解析,将解析之后的所述表格中的各个表格内容分别记录为所述文件 成分内容。
进一步地,所述获取模块包括:
转化子模块,用于将标准文件类型的所述待评审公文文件转化成预设文 件类型,得到预设文件类型的所述待评审公文文件;
提取子模块,用于利用OCR算法引擎将预设文件类型的所述待评审公文 文件,输入与所述待评审公文文件的文本文种关联的文件块划分模型,接收 所述文件快划分模型输出的划分文本块,提取所述划分文本块的坐标信息; 所述坐标信息表征了所述划分文本块的大小和位置;
检测子模块,用于根据所述坐标信息对标准文件类型的所述待评审公文 文件的文字格式和排版进行框架版式检测。
关于公文文件处理装置的具体限定可以参见上文中对于公文文件处理方 法的限定,在此不再赘述。上述公文文件处理装置中的各个模块可全部或部 分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立 于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储 器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理 器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计 算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。 该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为 非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设 备的数据库用于存储公文文件处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时 以实现一种公文文件处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储 在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实 现上述实施例中公文文件处理方法的步骤,例如图2所示的步骤S10至步骤 S30。或者,处理器执行计算机程序时实现上述实施例中公文文件处理装置的
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现上述实施例中公文文件处理方法的步骤, 例如图2所示的步骤S10至步骤S30。或者,计算机程序被处理器执行时实现 上述实施例中公文文件处理装置的各模块/单元的功能,例如图3所示模块11 至模块13的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可 存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包 括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用 的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或 易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存 储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、 动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器 总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算 法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心 化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中 包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个 区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以 上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而 将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划 分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参 照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技 术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱 离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之 内。

Claims (10)

1.一种公文文件处理方法,其特征在于,包括:
接收用户发送的包含待评审公文文件的评审请求,对所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后,获取标准文件类型的所述待评审公文文件,并通过预设bert模型识别标准文件类型的所述待评审公文文件中的所有文件成分内容;
通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后,获取格式检测结果、内容检测结果和版式检测结果;所述文本格式检测包括调用与每一个所述文件成分内容对应的格式检测规则,提取所述文件成分内容中的文本格式关键词,根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果;所述文本内容检测包括对所述文件成分内容进行内容检测后,获取内容检测结果;所述框架版式检测包括对标准文件类型的所述待评审公文文件进行坐标信息的划分,并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测,获取版式检测结果;
通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。
2.根据权利要求1所述的公文文件处理方法,其特征在于,所述通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置,包括:
将所述格式检测结果、内容检测结果和版式检测结果输入至预设评分模型进行评分,获取所述预设评分模型输出的所述待评审公文文件的评分结果;
通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误内容、所述评分结果和所述标准写作规则标注在所述待评审公文文件中的预设位置中,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。
3.根据权利要求1所述的公文文件处理方法,其特征在于,所述调用与每一个所述文件成分内容对应的格式检测规则,包括:
根据所述待评审公文文件的所述文件标题确定所述待评审公文文件的文件文种;
在所述文件文种属于预设文种时,利用所述规则引擎调用与各所述文件成分内容对应的格式检测规则;
在所述文件文种不属于预设文种时,提示所述待评审公文文件不属于公文文件。
4.根据权利要求1所述的公文文件处理方法,其特征在于,对所述待评审公文文件进行格式解析之后,还包括:
在所述待评审公文文件中不存在文件内容时,提示所述用户重新上传所述待评审公文文件并驳回当前所述评审请求。
5.根据权利要求1所述的公文文件处理方法,其特征在于,所述调用与每一个所述文件成分内容对应的格式检测规则,提取所述文件成分内容中的文本格式关键词,根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果,包括:
利用规则引擎调用与每一个所述文件成分内容对应的格式检测规则;一个所述格式检测规则中包含至少一种数据类型及各所述数据类型的组合形式的格式条;
通过所述规则引擎的关键词搜索技术提取所述文件成分内容中的文本格式关键词,并确定所述文本格式关键词是否和与其对应的所述格式检测规则中的格式条一致;一个所述文件成分内容对应至少一个所述文本格式关键词;
在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规则中的格式条一致时,获取所述文件成分内容的文件格式正确的所述格式检测结果;
在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规则中的格式条并不一致时,获取所述文件成分内容的文件格式错误的所述格式检测结果。
6.根据权利要求1所述的公文文件处理方法,其特征在于,所述获取标准文件类型的所述待评审公文文件之后,还包括:
在检测到所述待评审公文文件中存在表格时,对所述表格进行解析,将解析之后的所述表格中的各个表格内容分别记录为所述文件成分内容。
7.根据权利要求1所述的公文文件处理方法,其特征在于,所述对标准文件类型的所述待评审公文文件进行坐标信息的划分,并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测,包括:
将标准文件类型的所述待评审公文文件转化成预设文件类型,得到预设文件类型的所述待评审公文文件;
利用OCR算法引擎将预设文件类型的所述待评审公文文件,输入与所述待评审公文文件的文本文种关联的文件块划分模型,接收所述文件快划分模型输出的划分文本块,提取所述划分文本块的坐标信息;所述坐标信息表征了所述划分文本块的大小和位置;
根据所述坐标信息对标准文件类型的所述待评审公文文件的文字格式和排版进行框架版式检测。
8.一种公文文件处理装置,其特征在于,包括:
识别模块,用于接收用户发送的包含待评审公文文件的评审请求,对所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后,获取标准文件类型的所述待评审公文文件,并通过预设bert模型识别标准文件类型的所述待评审公文文件中的所有文件成分内容;
获取模块,用于通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后,获取格式检测结果、内容检测结果和版式检测结果;所述文本格式检测包括调用与每一个所述文件成分内容对应的格式检测规则,提取所述文件成分内容中的文本格式关键词,根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果;所述文本内容检测包括对所述文件成分内容进行内容检测后,获取内容检测结果;所述框架版式检测包括对标准文件类型的所述待评审公文文件进行坐标信息的划分,并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测,获取版式检测结果;
发送模块,用于通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容,调用出与所述检测错误内容对应的标准写作规则,将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置,并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述公文文件处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述公文文件处理方法。
CN202010523793.0A 2020-06-10 2020-06-10 公文文件处理方法、装置、计算机设备及存储介质 Active CN111680634B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010523793.0A CN111680634B (zh) 2020-06-10 2020-06-10 公文文件处理方法、装置、计算机设备及存储介质
US17/620,817 US11914968B2 (en) 2020-06-10 2020-12-11 Official document processing method, device, computer equipment and storage medium
PCT/CN2020/135718 WO2021121158A1 (zh) 2020-06-10 2020-12-11 公文文件处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010523793.0A CN111680634B (zh) 2020-06-10 2020-06-10 公文文件处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111680634A true CN111680634A (zh) 2020-09-18
CN111680634B CN111680634B (zh) 2023-08-01

Family

ID=72435411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010523793.0A Active CN111680634B (zh) 2020-06-10 2020-06-10 公文文件处理方法、装置、计算机设备及存储介质

Country Status (3)

Country Link
US (1) US11914968B2 (zh)
CN (1) CN111680634B (zh)
WO (1) WO2021121158A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363981A (zh) * 2020-11-13 2021-02-12 长城计算机软件与系统有限公司 用于ldif文件的自动纠错方法及系统
WO2021121158A1 (zh) * 2020-06-10 2021-06-24 平安科技(深圳)有限公司 公文文件处理方法、装置、计算机设备及存储介质
CN113435854A (zh) * 2021-07-05 2021-09-24 北京致远互联软件股份有限公司 一种公文智能签收方法及设备
CN113704498A (zh) * 2021-09-01 2021-11-26 云知声(上海)智能科技有限公司 用于文档的智能审核方法及其系统
CN114169294A (zh) * 2021-11-30 2022-03-11 中国电子科技集团公司第十五研究所 一种基于对抗网络的办公文书自动生成方法及系统
CN114782029A (zh) * 2022-06-20 2022-07-22 北京圣博润高新技术股份有限公司 文档审核方法、系统、计算机设备及存储介质
CN117151073A (zh) * 2023-08-12 2023-12-01 上海东方怡动信息技术有限公司 一种文件发文审核方法、装置和存储介质
CN118468811A (zh) * 2024-07-15 2024-08-09 江苏中威科技软件系统有限公司 通过机器学习实现格式文件规范化的方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428367B (zh) * 2020-03-25 2023-08-15 无锡先导智能装备股份有限公司 工件安装位置检测方法、装置、计算机设备和存储介质
CN113887361B (zh) * 2021-09-23 2024-01-09 苏州浪潮智能科技有限公司 一种文献校对方法、系统、存储介质及设备
CN117829116A (zh) * 2023-12-27 2024-04-05 青矩技术股份有限公司 文档调整方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN110633461A (zh) * 2019-09-10 2019-12-31 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
RU2571378C2 (ru) * 2013-12-18 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Устройство и способ поиска различий в документах
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及系统
US20190236102A1 (en) * 2018-01-29 2019-08-01 Planet Data Solutions System and method for differential document analysis and storage
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
WO2021086837A1 (en) * 2019-10-29 2021-05-06 Woolly Labs, Inc. Dba Vouched System and methods for authentication of documents
CN111680634B (zh) * 2020-06-10 2023-08-01 平安科技(深圳)有限公司 公文文件处理方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN110633461A (zh) * 2019-09-10 2019-12-31 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021121158A1 (zh) * 2020-06-10 2021-06-24 平安科技(深圳)有限公司 公文文件处理方法、装置、计算机设备及存储介质
CN112363981A (zh) * 2020-11-13 2021-02-12 长城计算机软件与系统有限公司 用于ldif文件的自动纠错方法及系统
CN113435854A (zh) * 2021-07-05 2021-09-24 北京致远互联软件股份有限公司 一种公文智能签收方法及设备
CN113704498A (zh) * 2021-09-01 2021-11-26 云知声(上海)智能科技有限公司 用于文档的智能审核方法及其系统
CN114169294A (zh) * 2021-11-30 2022-03-11 中国电子科技集团公司第十五研究所 一种基于对抗网络的办公文书自动生成方法及系统
CN114782029A (zh) * 2022-06-20 2022-07-22 北京圣博润高新技术股份有限公司 文档审核方法、系统、计算机设备及存储介质
CN117151073A (zh) * 2023-08-12 2023-12-01 上海东方怡动信息技术有限公司 一种文件发文审核方法、装置和存储介质
CN117151073B (zh) * 2023-08-12 2024-10-18 上海东方怡动信息技术有限公司 一种文件发文审核方法、装置和存储介质
CN118468811A (zh) * 2024-07-15 2024-08-09 江苏中威科技软件系统有限公司 通过机器学习实现格式文件规范化的方法

Also Published As

Publication number Publication date
WO2021121158A1 (zh) 2021-06-24
US11914968B2 (en) 2024-02-27
US20220414345A1 (en) 2022-12-29
CN111680634B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN108874928B (zh) 简历数据信息解析处理方法、装置、设备及存储介质
CN109101469B (zh) 从数字化文档提取可搜索的信息
WO2020147238A1 (zh) 关键词的确定方法、自动评分方法、装置、设备及介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN112651236A (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN111930976A (zh) 演示文稿生成方法、装置、设备及存储介质
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN113705198B (zh) 场景图生成方法、装置、电子设备及存储介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
CN113449083B (zh) 作业安全管理方法、装置、设备及存储介质
CN113050933B (zh) 脑图数据处理方法、装置、设备及存储介质
CN112395865A (zh) 报关单校验方法及装置
CN112257400A (zh) 表格数据提取方法、装置、计算机设备和存储介质
CN113515588A (zh) 表单数据检测方法、计算机装置及存储介质
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质
CN114444489B (zh) 一种信息抽取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant