CN111967245A - 一种自动审核校验文档的方法、装置、及计算机设备 - Google Patents
一种自动审核校验文档的方法、装置、及计算机设备 Download PDFInfo
- Publication number
- CN111967245A CN111967245A CN202010657137.XA CN202010657137A CN111967245A CN 111967245 A CN111967245 A CN 111967245A CN 202010657137 A CN202010657137 A CN 202010657137A CN 111967245 A CN111967245 A CN 111967245A
- Authority
- CN
- China
- Prior art keywords
- document
- content
- verification
- matched
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Abstract
一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备,包括:通过TIKA算法抽取需要审核的文档的文本内容;对抽取的文本内容进行分析处理,匹配MD5码库,判断是否为重复文件;对文档题名和文档内容进行过滤规则定制;抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。本次发明对文档的内容进行抽取分析,增加审核规则,通过制定的规则,实现对文档的真实性、合法性的初审,若通过审核规则无法检测到文档内容的真实性,再交由人工继续审核,实现人工审核前的初步审核,给与审核人员审核文档时较为准确的参考。
Description
【技术领域】
本发明属于计算机软件的技术领域,具体涉及一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备。
【背景技术】
传统的文档审核一般由人工判断来完成,根据个人的经验,对文档的标题、文档的版权、文档的内容等信息进行判断,从而决定文档是否合法、是否有利用价值、是否涉及侵权,主观随意性较大,且不同的审核人员水平参差不齐,容易出现审核纰漏的情况,无法准确的对文档进行审核。
【发明内容】
本发明所要解决的技术问题在于提供一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备。
本发明是这样实现的:
第一方面,本发明提供了一种自动审核校验文档的方法,包括如下步骤:
步骤一:通过TIKA算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
步骤三:若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
第二方面,本发明提供了一种自动审核校验文档的装置,包括:
抽取文本模块,用于对需要审核的文档通过TIKA算法抽取文本内容;
MD5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
MD5匹配模块,用于将生成的MD5码匹配MD5码库;若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
第三方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本发明的优点在于:本次发明主要针对审核文档进行设计,对文档的内容进行抽取分析,增加审核规则,通过制定的规则,实现对文档的真实性、合法性的初审,若通过审核规则无法检测到文档内容的真实性,再交由人工继续审核,实现人工审核前的初步审核,给与审核人员审核文档时较为准确的参考。自动审核校验文档能为管理员审核文档提供支持。自动审核校验文档可自定义过滤规则,如敏感词过滤、相同文件过滤等,为管理员提供机器初审结果。通过自动审核校验,能充分发挥文档部门及其人员的工作积极性,提高其审阅文档的能力和效率,履行其辅助决策的职责。准确的自动审核结果能够方便文档审核管理员审核文档时参考,能使管理员的审核意见在自动审核结果的基础上更加明确具体,有助于节省管理员大量的时间和精力。
【附图说明】
下面参照附图结合实施例对本发明作进一步的描述。
图1是本发明的流程示意图。
【具体实施方式】
实施例一
本实施例提供一种自动审核校验文档的方法,如图1所示,包括如下步骤:
步骤一:通过TIKA算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
步骤三:若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二:
在本实施例中提供了一种自动审核校验文档的装置,包括:抽取文本模块,用于对需要审核的文档通过TIKA算法抽取文本内容;
MD5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
MD5匹配模块,用于将生成的MD5码匹配MD5码库;若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的计算机设备实施例,详见实施例三。
实施例三
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
Claims (3)
1.一种自动审核校验文档的方法,其特征在于:包括如下步骤:
步骤一:通过TIKA算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
步骤三:若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
2.一种自动审核校验文档的装置,其特征在于:包括:
抽取文本模块,用于对需要审核的文档通过TIKA算法抽取文本内容;
MD5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过MessageDigest类进行MD5加密,然后转换成16进制的MD5码值生成该文本内容的唯一的MD5码;
MD5匹配模块,用于将生成的MD5码匹配MD5码库;若生成的若MD5码匹配到MD5码库,则判断为重复文件,审核不通过;若MD5码无法匹配到MD5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
3.一种自动审核校验文档的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010657137.XA CN111967245A (zh) | 2020-07-09 | 2020-07-09 | 一种自动审核校验文档的方法、装置、及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010657137.XA CN111967245A (zh) | 2020-07-09 | 2020-07-09 | 一种自动审核校验文档的方法、装置、及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111967245A true CN111967245A (zh) | 2020-11-20 |
Family
ID=73361232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010657137.XA Withdrawn CN111967245A (zh) | 2020-07-09 | 2020-07-09 | 一种自动审核校验文档的方法、装置、及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967245A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836160A (zh) * | 2021-01-29 | 2021-05-25 | 世纪龙信息网络有限责任公司 | 一种内容审核方法、装置和设备 |
CN114492409A (zh) * | 2022-01-27 | 2022-05-13 | 百度在线网络技术(北京)有限公司 | 文件内容的评价方法、装置、电子设备及程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996180A (zh) * | 2009-08-12 | 2011-03-30 | 升东网络科技发展(上海)有限公司 | 图片审核过滤系统及方法 |
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
US20120102543A1 (en) * | 2010-10-26 | 2012-04-26 | 360 GRC, Inc. | Audit Management System |
CN104361097A (zh) * | 2014-11-21 | 2015-02-18 | 国家电网公司 | 一种基于多模匹配的电力敏感邮件实时检测方法 |
CN105843912A (zh) * | 2016-03-24 | 2016-08-10 | 新浪网技术(中国)有限公司 | 文件审核处理方法及装置 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
-
2020
- 2020-07-09 CN CN202010657137.XA patent/CN111967245A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996180A (zh) * | 2009-08-12 | 2011-03-30 | 升东网络科技发展(上海)有限公司 | 图片审核过滤系统及方法 |
US20120102543A1 (en) * | 2010-10-26 | 2012-04-26 | 360 GRC, Inc. | Audit Management System |
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
CN104361097A (zh) * | 2014-11-21 | 2015-02-18 | 国家电网公司 | 一种基于多模匹配的电力敏感邮件实时检测方法 |
CN105843912A (zh) * | 2016-03-24 | 2016-08-10 | 新浪网技术(中国)有限公司 | 文件审核处理方法及装置 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836160A (zh) * | 2021-01-29 | 2021-05-25 | 世纪龙信息网络有限责任公司 | 一种内容审核方法、装置和设备 |
CN114492409A (zh) * | 2022-01-27 | 2022-05-13 | 百度在线网络技术(北京)有限公司 | 文件内容的评价方法、装置、电子设备及程序产品 |
CN114492409B (zh) * | 2022-01-27 | 2022-12-20 | 百度在线网络技术(北京)有限公司 | 文件内容的评价方法、装置、电子设备及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9003529B2 (en) | Apparatus and method for identifying related code variants in binaries | |
US8286171B2 (en) | Methods and systems to fingerprint textual information using word runs | |
US9852122B2 (en) | Method of automated analysis of text documents | |
CN108399164B (zh) | 基于模板的电子公文分类分级系统 | |
CN111967245A (zh) | 一种自动审核校验文档的方法、装置、及计算机设备 | |
JP2018170036A (ja) | ファイル共有ネットワークにおけるスニペット照合 | |
CN109800575A (zh) | 一种Android应用程序的安全检测方法 | |
CN111581638A (zh) | 一种开源软件的安全分析方法及装置 | |
CN107368592B (zh) | 一种用于网络安全报告的文本特征模型建模方法及装置 | |
CN110719278A (zh) | 一种网络入侵数据的检测方法、装置、设备及介质 | |
CN114036561A (zh) | 信息隐藏、信息获取方法、装置、存储介质及电子设备 | |
CN110990867B (zh) | 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 | |
Zhang et al. | Osldetector: Identifying open-source libraries through binary analysis | |
CN109857748B (zh) | 一种合同数据处理方法、装置及电子设备 | |
WO2023125336A1 (en) | Methods and devices for generating sensitive text detectors | |
CN111967437A (zh) | 文本识别方法、装置、设备及存储介质 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
Zhang et al. | A program plagiarism detection model based on information distance and clustering | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
CN104794397A (zh) | 病毒检测方法和装置 | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
CN112948415A (zh) | Sql语句检测方法、装置、终端设备及存储介质 | |
CN114676428A (zh) | 基于动态特征的应用程序恶意行为检测方法及设备 | |
Zhi et al. | Extracting features from app descriptions based on POS and dependency | |
CN111191291A (zh) | 一种基于攻击概率的数据库属性敏感度量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201120 |
|
WW01 | Invention patent application withdrawn after publication |