CN111967245A - 一种自动审核校验文档的方法、装置、及计算机设备 - Google Patents

一种自动审核校验文档的方法、装置、及计算机设备 Download PDF

Info

Publication number
CN111967245A
CN111967245A CN202010657137.XA CN202010657137A CN111967245A CN 111967245 A CN111967245 A CN 111967245A CN 202010657137 A CN202010657137 A CN 202010657137A CN 111967245 A CN111967245 A CN 111967245A
Authority
CN
China
Prior art keywords
document
content
verification
matched
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010657137.XA
Other languages
English (en)
Inventor
周峰
张旭凯
庄莉
梁懿
林振天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zigong Power Supply Co Of State Grid Sichuan Electric Power Corp
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Hunan Electric Power Co Ltd
State Grid Sichuan Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
Zigong Power Supply Co Of State Grid Sichuan Electric Power Corp
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Hunan Electric Power Co Ltd
State Grid Sichuan Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zigong Power Supply Co Of State Grid Sichuan Electric Power Corp, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Hunan Electric Power Co Ltd, State Grid Sichuan Electric Power Co Ltd, Fujian Yirong Information Technology Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical Zigong Power Supply Co Of State Grid Sichuan Electric Power Corp
Priority to CN202010657137.XA priority Critical patent/CN111967245A/zh
Publication of CN111967245A publication Critical patent/CN111967245A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Abstract

一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备,包括:通过TIKA算法抽取需要审核的文档的文本内容;对抽取的文本内容进行分析处理,匹配MD5码库,判断是否为重复文件;对文档题名和文档内容进行过滤规则定制;抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。本次发明对文档的内容进行抽取分析,增加审核规则,通过制定的规则,实现对文档的真实性、合法性的初审,若通过审核规则无法检测到文档内容的真实性,再交由人工继续审核,实现人工审核前的初步审核,给与审核人员审核文档时较为准确的参考。

Description

一种自动审核校验文档的方法、装置、及计算机设备
【技术领域】
本发明属于计算机软件的技术领域,具体涉及一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备。
【背景技术】
传统的文档审核一般由人工判断来完成,根据个人的经验,对文档的标题、文档的版权、文档的内容等信息进行判断,从而决定文档是否合法、是否有利用价值、是否涉及侵权,主观随意性较大,且不同的审核人员水平参差不齐,容易出现审核纰漏的情况,无法准确的对文档进行审核。
【发明内容】
本发明所要解决的技术问题在于提供一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备。
本发明是这样实现的:
第一方面,本发明提供了一种自动审核校验文档的方法,包括如下步骤:
步骤一:通过TIKA算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
步骤三:若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
第二方面,本发明提供了一种自动审核校验文档的装置,包括:
抽取文本模块,用于对需要审核的文档通过TIKA算法抽取文本内容;
MD5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
MD5匹配模块,用于将生成的MD5码匹配MD5码库;若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
第三方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本发明的优点在于:本次发明主要针对审核文档进行设计,对文档的内容进行抽取分析,增加审核规则,通过制定的规则,实现对文档的真实性、合法性的初审,若通过审核规则无法检测到文档内容的真实性,再交由人工继续审核,实现人工审核前的初步审核,给与审核人员审核文档时较为准确的参考。自动审核校验文档能为管理员审核文档提供支持。自动审核校验文档可自定义过滤规则,如敏感词过滤、相同文件过滤等,为管理员提供机器初审结果。通过自动审核校验,能充分发挥文档部门及其人员的工作积极性,提高其审阅文档的能力和效率,履行其辅助决策的职责。准确的自动审核结果能够方便文档审核管理员审核文档时参考,能使管理员的审核意见在自动审核结果的基础上更加明确具体,有助于节省管理员大量的时间和精力。
【附图说明】
下面参照附图结合实施例对本发明作进一步的描述。
图1是本发明的流程示意图。
【具体实施方式】
实施例一
本实施例提供一种自动审核校验文档的方法,如图1所示,包括如下步骤:
步骤一:通过TIKA算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
步骤三:若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二:
在本实施例中提供了一种自动审核校验文档的装置,包括:抽取文本模块,用于对需要审核的文档通过TIKA算法抽取文本内容;
MD5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
MD5匹配模块,用于将生成的MD5码匹配MD5码库;若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的计算机设备实施例,详见实施例三。
实施例三
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。

Claims (3)

1.一种自动审核校验文档的方法,其特征在于:包括如下步骤:
步骤一:通过TIKA算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
步骤三:若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
2.一种自动审核校验文档的装置,其特征在于:包括:
抽取文本模块,用于对需要审核的文档通过TIKA算法抽取文本内容;
MD5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
MD5匹配模块,用于将生成的MD5码匹配MD5码库;若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
3.一种自动审核校验文档的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1项所述的方法。
CN202010657137.XA 2020-07-09 2020-07-09 一种自动审核校验文档的方法、装置、及计算机设备 Withdrawn CN111967245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657137.XA CN111967245A (zh) 2020-07-09 2020-07-09 一种自动审核校验文档的方法、装置、及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657137.XA CN111967245A (zh) 2020-07-09 2020-07-09 一种自动审核校验文档的方法、装置、及计算机设备

Publications (1)

Publication Number Publication Date
CN111967245A true CN111967245A (zh) 2020-11-20

Family

ID=73361232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657137.XA Withdrawn CN111967245A (zh) 2020-07-09 2020-07-09 一种自动审核校验文档的方法、装置、及计算机设备

Country Status (1)

Country Link
CN (1) CN111967245A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836160A (zh) * 2021-01-29 2021-05-25 世纪龙信息网络有限责任公司 一种内容审核方法、装置和设备
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996180A (zh) * 2009-08-12 2011-03-30 升东网络科技发展(上海)有限公司 图片审核过滤系统及方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
US20120102543A1 (en) * 2010-10-26 2012-04-26 360 GRC, Inc. Audit Management System
CN104361097A (zh) * 2014-11-21 2015-02-18 国家电网公司 一种基于多模匹配的电力敏感邮件实时检测方法
CN105843912A (zh) * 2016-03-24 2016-08-10 新浪网技术(中国)有限公司 文件审核处理方法及装置
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996180A (zh) * 2009-08-12 2011-03-30 升东网络科技发展(上海)有限公司 图片审核过滤系统及方法
US20120102543A1 (en) * 2010-10-26 2012-04-26 360 GRC, Inc. Audit Management System
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN104361097A (zh) * 2014-11-21 2015-02-18 国家电网公司 一种基于多模匹配的电力敏感邮件实时检测方法
CN105843912A (zh) * 2016-03-24 2016-08-10 新浪网技术(中国)有限公司 文件审核处理方法及装置
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836160A (zh) * 2021-01-29 2021-05-25 世纪龙信息网络有限责任公司 一种内容审核方法、装置和设备
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品
CN114492409B (zh) * 2022-01-27 2022-12-20 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Similar Documents

Publication Publication Date Title
US9003529B2 (en) Apparatus and method for identifying related code variants in binaries
US8286171B2 (en) Methods and systems to fingerprint textual information using word runs
US9852122B2 (en) Method of automated analysis of text documents
CN108399164B (zh) 基于模板的电子公文分类分级系统
CN111967245A (zh) 一种自动审核校验文档的方法、装置、及计算机设备
JP2018170036A (ja) ファイル共有ネットワークにおけるスニペット照合
CN109800575A (zh) 一种Android应用程序的安全检测方法
CN111581638A (zh) 一种开源软件的安全分析方法及装置
CN107368592B (zh) 一种用于网络安全报告的文本特征模型建模方法及装置
CN110719278A (zh) 一种网络入侵数据的检测方法、装置、设备及介质
CN114036561A (zh) 信息隐藏、信息获取方法、装置、存储介质及电子设备
CN110990867B (zh) 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统
Zhang et al. Osldetector: Identifying open-source libraries through binary analysis
CN109857748B (zh) 一种合同数据处理方法、装置及电子设备
WO2023125336A1 (en) Methods and devices for generating sensitive text detectors
CN111967437A (zh) 文本识别方法、装置、设备及存储介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
Zhang et al. A program plagiarism detection model based on information distance and clustering
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
CN104794397A (zh) 病毒检测方法和装置
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
CN112948415A (zh) Sql语句检测方法、装置、终端设备及存储介质
CN114676428A (zh) 基于动态特征的应用程序恶意行为检测方法及设备
Zhi et al. Extracting features from app descriptions based on POS and dependency
CN111191291A (zh) 一种基于攻击概率的数据库属性敏感度量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201120

WW01 Invention patent application withdrawn after publication