CN112633852A - 一种业务文档的审查系统 - Google Patents

一种业务文档的审查系统 Download PDF

Info

Publication number
CN112633852A
CN112633852A CN202011624108.XA CN202011624108A CN112633852A CN 112633852 A CN112633852 A CN 112633852A CN 202011624108 A CN202011624108 A CN 202011624108A CN 112633852 A CN112633852 A CN 112633852A
Authority
CN
China
Prior art keywords
document
word
control center
image information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011624108.XA
Other languages
English (en)
Other versions
CN112633852B (zh
Inventor
杜斌
魏焱
刘嘉宁
林斌
曾凯文
张飞
曹彦朝
廖鹏
刘振国
周昉昉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Original Assignee
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd filed Critical Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority to CN202011624108.XA priority Critical patent/CN112633852B/zh
Publication of CN112633852A publication Critical patent/CN112633852A/zh
Application granted granted Critical
Publication of CN112633852B publication Critical patent/CN112633852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种业务文档的审查系统,通过新词发现模块将从待审查文档中确定并剔除专业新词,得到剔除后的文档,通过错别字纠正模块纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档,通过第三方单位实体从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档,通过识别所述二次剔除后的文档中的图像信息,得到解析后的文档,以及通过查重模块利用相似度评分规则,对所述解析后的文档进行相似度评分。从而提高业务文档审查的效率,提高审查的信息化和数字化程度。

Description

一种业务文档的审查系统
技术领域
本发明涉及一种文档处理技术领域,尤其涉及一种业务文档的审查系统。
背景技术
现阶段,对于公司可能存在的工作项目立项评审环节、提交材料检查环节、项目执行过程审查环节,以及对项目成果评判环节等,都需要人工对大量的文档进行审查。
这种审查方式存在效率低、浪费人力的问题,且容易受审查人员的主观影响,因此,提出一种文档审查系统用于对公司的业务文档进行自动化审查,具有重大意义。
发明内容
本发明提供了一种业务文档的审查系统,通过新词发现模块、错别字纠正模块、第三方单位识别识别模块、图像解析模块、查重模块和控制中心对的联合作用,能够提高业务文档审查的效率,提高审查的信息化和数字化程度。
本发明提供的一种业务文档的审查系统,包括:
新词发现模块,与控制中心双向连接,用于从待审查文档中确定并剔除专业新词,得到剔除后的文档,所述待审查文档为所示控制中心获取;
错别字纠正模块,与所述控制中心连接,用于接收所述控制中心发送的所述剔除后的文档;纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档;
第三方单位实体识别模块,与所述控制中心连接,用于接收所述控制中心发送的纠正后的文档;从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档;
图像解析模块,与所述控制中心连接,用于接收所述控制中心发送的所述二次剔除后的文档;识别所述二次剔除后的文档中的图像信息,得到解析后的文档;
查重模块,与所述控制中心连接,用于接收所述控制中心发送的所述解析后的文档;利用相似度评分规则,对所述解析后的文档进行相似度评分;根据所述相似度评分确定所述待审查文档的查重结果。
可选地,述新词发现模块具体用于:
从所述待审查文档中确定多个所述目标潜在词及对应的自由运用程度和凝固度;根据每个所述目标潜在词的自由运用程度和凝固度,确定并剔除所述待评价文档中的所有所述专业新词,得到所述剔除后的文档。
可选地,所述新词发现模块包括:
词频统计单元,用于对所述待审查文档进行词频统计,得到统计结果;基于所述统计结果确定目标潜在词;
左右熵计算单元,用于采用熵计算模型,分别计算所有所述目标潜在词的左熵和右熵;以同一个目标潜在词对应的左熵和右熵中的较小值,作为所述目标潜在词的自由运用程度;
凝固度计算单元,用于采用凝固度计算模型,计算所有所述目标潜在词的凝固度。
可选地,所述错别字纠正模块包括:
错误检测单元,用于将所述剔除后的文档中的每个字的自向量输入RNN 序列模型和条件随机场CRF模型,得到多个错误文本部分;将所述错误文本部分组成错误候选集;
错误纠正单元,用于根据所述错误候选集,从数据库中匹配得到替换候选集;利用所述替换候选集中的候选文本部分替换对应的错误文本部分,并输入预先训练好的语言模型中,得到候选分数值;将最大候选分数值对应的候选文本对所述错误文本部分进行纠正,得到纠正后的文档。
可选地,所述第三方单位实体识别模块具体用于:
采用序列标注模型对所述纠正后的文档的上下文关系进行识别,确定并剔除所述带协单位。
可选地,所述图像信息包括文档图像信息和印章图像信息;所述图像解析模块包括:
图像识别单元,用于对所述二次剔除后的文档进行文档图像识别,确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置;对所述文档图像信息进行识别,得到文档图像信息对应的文本信息;
印章识别单元,用于通过HSV颜色通道提取所述印章图像信息中的红色部分;利用霍夫变换,基于所述红色部分查找所述印章图像信息的圆形轮廓;检测所述圆形轮廓的圆心和半径,得到所述圆形轮廓的极坐标;转换所述极坐标,得到所述印章图像信息对应的文本信息。
可选地,述印章识别单元还用于:
当所述利用霍夫变换查找所述印章图像信息的圆形轮廓的步骤失败时,通过图像的形态学变换方法确定所述圆形轮廓;重新检测所述圆形轮廓的圆心和半径。
可选地,所述查重模块具体用于:
对所述解析后的文档进行分句处理,通过TF-IDF机制过滤常用语句,得到多个待评分语句;从预置的语句数据库中获取与所述带评分语句相关联的相似语句,采用相似度评分模型对所述所有所述待评分语句进行相似度评分;判断所否相似度评分是否小于预设阈值,若是,则定义所述待审查文档具备原创性;若否,则定义所述待审查文档不具备原创性。
可选地,所述熵计算模型具体为:
Figure BDA0002874470260000031
其中,entropy为熵值,N为目标潜在词邻字出现的次数,m为邻字中不同字的种类数,ni为第i种字作为邻字出现的次数,i为1到m中的任意自然数。
可选地,所述相似度评分模型具体为:
sim(sent1,sent2)=dist(sent1,sent2)/max(len(sent1),len(sent2))
其中,sent1为待评分语句,sent2为相似语句,sim(sent1,sent2)为待评分语句的相似度,len(sent1)为待评分语句的语句长度,len(sent2)为相似语句的语句长度,dist(sent1,sent2)为待评分语句和相似语句的字词差别长度。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过新词发现模块,与控制中心双向连接,用于从待审查文档中确定并剔除专业新词,得到剔除后的文档,所述待审查文档为所示控制中心获取,从而避免由于大量的专业新词影响后续的模块对于文档的处理。
错别字纠正模块,与所述控制中心连接,用于接收所述控制中心发送的所述剔除后的文档;纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档,通过找出剔除专业新词后的文档中出现的如混淆字音、字词顺序颠倒等情况,从而大大减少文档错别字、。
第三方单位实体识别模块,与所述控制中心连接,用于接收所述控制中心发送的纠正后的文档;从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档,通过检测出外协单位名称并对其进行剔除,从而减少工作人员检测外协单位名称的麻烦、。
图像解析模块,与所述控制中心连接,用于接收所述控制中心发送的所述二次剔除后的文档;识别所述二次剔除后的文档中的图像信息,得到解析后的文档,实现通过对待处理文档中的图像信息进行识别,从而获取所有图像信息中的文字信息。
查重模块,与所述控制中心连接,用于接收所述控制中心发送的所述解析后的文档;利用相似度评分规则,对所述解析后的文档进行相似度评分;根据所述相似度评分确定所述待审查文档的查重结果,从而实现高效准确的查重效果。
通过新词发现模块、错别字纠正模块、第三方单位实体识别模块、图像解析模块和查重模块间的协同作用,提高审查业务文档的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图;
图1为本发明的一种业务文档的审查系统的结构框图;
图2为本发明的一种业务文档的审查系统的可选实施例中待审查文档的处理路径;
图3为本发明的一种业务文档的审查系统的可选实施例中剔除后的文档的处理路径;
图4为本发明的一种业务文档的审查系统的可选实施例中二次剔除后的文档的处理路径。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明实施例提供了一种业务文档的审查系统,通过新词发现模块、错别字纠正模块、第三方单位识别识别模块、图像解析模块、查重模块和控制中心对的联合作用,能够提高业务文档审查的效率,提高审查的信息化和数字化程度。
请参阅图1,图1为本发明的一种业务文档的审查系统的结构框图,在本发明的一种业务文档的审查系统实施例中,包括:
新词发现模块101,与控制中心102双向连接,用于从待审查文档中确定并剔除专业新词,得到剔除后的文档,所述待审查文档为所示控制中心102 获取;
错别字纠正模块103,与所述控制中心102连接,用于接收所述控制中心102发送的所述剔除后的文档;纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档;
第三方单位实体识别模块104,与所述控制中心102连接,用于接收所述控制中心102发送的纠正后的文档;从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档;
图像解析模块105,与所述控制中心102连接,用于接收所述控制中心 102发送的所述二次剔除后的文档;识别所述二次剔除后的文档中的图像信息,得到解析后的文档;
查重模块106,与所述控制中心102连接,用于接收所述控制中心102发送的所述解析后的文档;利用相似度评分规则,对所述解析后的文档进行相似度评分;根据所述相似度评分确定所述待审查文档的查重结果。
在本发明的业务文档的审查系统的可选实施例中,所述新词发现模块具体用于:
从所述待审查文档中确定多个所述目标潜在词及对应的自由运用程度和凝固度;根据每个所述目标潜在词的自由运用程度和凝固度,确定并剔除所述待评价文档中的所有所述专业新词,得到所述剔除后的文档。
请查阅图2,图2为本发明的一种业务文档的审查系统的可选实施例中待审查文档的处理路径,在本发明的业务文档的审查系统的可选实施例中,所述新词发现模块101包括:
词频统计单元1011,用于对所述待审查文档进行词频统计,得到统计结果;基于所述统计结果确定目标潜在词;
左右熵计算单元1012,用于采用熵计算模型,分别计算所有所述目标潜在词的左熵和右熵;以同一个目标潜在词对应的左熵和右熵中的较小值,作为所述目标潜在词的自由运用程度;
所述熵计算模型具体为:
Figure BDA0002874470260000061
其中,entropy为熵值,N为目标潜在词邻字出现的次数,m为邻字中不同字的种类数,ni为第i种字作为邻字出现的次数,i为1到m中的任意自然数;
凝固度计算单元1013,用于采用凝固度计算模型,计算所有所述目标潜在词的凝固度。
在具体实现中,控制中心102将待审查文档发送至新词发现模块101,然后新词发现模块101将待审查文档首先发送至词频统计单元1011,通过词频统计单元1011对待审查文档进行词频统计,并根据词频统计结果确定目标潜在词;然后分别将目标潜在词的相关信息,包括目标潜在词的左(右)邻字出现的种类和此处等信息输入到熵计算模型当中,分别计算计算得到目标潜在词的左熵和右熵,并以吗,每一个目标潜在词的左熵和右熵的较小值作为目标潜在词的自由运用程度。
同时还要计算目标潜在词的凝固度,以目标潜在词“abc”为例,该目标潜在词的凝固度计算为:
Figure BDA0002874470260000071
其中aggregation(abc)为abc的凝固度。P(abc)为“abc”出现的概率, p(ab)为以“ab”出现的概率,p(bc)为以“bc”出现的概率。
在本发明实施例中,当目标潜在词的词频统计结果、自由运用程度和凝固度都到达了用户或系统预先设定的阈值,且目标潜在词不在现有的词典当中,则可认为这个目标潜在词是新词,在确定了所有的新词之后,为了方便待审查文档的处理,将待审查文档中的所有新词进行剔除,得到剔除后的
请查阅图3,图3为为本发明的一种业务文档的审查系统的可选实施例中剔除后的文档的处理路径,在本发明的业务文档的审查系统的可选实施例中,所述错别字纠正模块103包括:
错误检测单元1031,用于将所述剔除后的文档中的每个字的自向量输入 RNN序列模型和条件随机场CRF模型,得到多个错误文本部分;将所述错误文本部分组成错误候选集;
错误纠正单元1032,用于根据所述错误候选集,从数据库中匹配得到替换候选集;利用所述替换候选集中的候选文本部分替换对应的错误文本部分,并输入预先训练好的语言模型中,得到候选分数值;将最大候选分数值对应的候选文本对所述错误文本部分进行纠正,得到纠正后的文档。
在具体实现中,错别字纠正模块103包括错误检测单元1031和错误纠正单元1032,控制中心102将剔除后的文档发送至错别字纠正模块103,然后错别字纠正模块103将剔除后的文档发送至错误检测单元1031,用于将剔除后的文档中的每个字的自向量输入预先训练好的RNN序列模型和条件随机场 CRF模型,得到多个错误文本部分,进而得到错误候选集,然后通过错误纠正单元1032,将作物候选集中的错误文本部分进行替换,得到纠正后的文档。
在本发明的业务文档的审查系统的可选实施例中,所述第三方单位实体识别模块104具体用于:
采用序列标注模型对所述纠正后的文档的上下文关系进行识别,确定并剔除所述带协单位。
请参阅图4,图4为本发明的一种业务文档的审查系统的可选实施例中二次剔除后的文档的处理路径,在本发明的业务文档的审查系统的可选实施例中,所述图像信息包括文档图像信息和印章图像信息;所述图像解析模块105 包括:
图像识别单元1051,用于对所述二次剔除后的文档进行文档图像识别,确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置;对所述文档图像信息进行识别,得到文档图像信息对应的文本信息;
印章识别单元1052,用于通过HSV颜色通道提取所述印章图像信息中的红色部分;利用霍夫变换,基于所述红色部分查找所述印章图像信息的圆形轮廓;检测所述圆形轮廓的圆心和半径,得到所述圆形轮廓的极坐标;转换所述极坐标,得到所述印章图像信息对应的文本信息。
在具体实现中,控制中心1002将二次剔除后的文档发送至图像解析模块 105,然后图像解析模块105将二次剔除后的文档发送至图像识别单元1051,用于对所述二次剔除后的文档进行文档图像识别,确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置和文本信息,然后将通过印章识别单元1052获取印章图像,并得到印章图像信息对应的文本信息。
在本发明的业务文档的审查系统的可选实施例中,所述印章识别单元还用于:
当所述利用霍夫变换查找所述印章图像信息的圆形轮廓的步骤失败时,通过图像的形态学变换方法确定所述圆形轮廓;重新检测所述圆形轮廓的圆心和半径。
在具体实现中,对于未能准确检测出圆的图像,先通过图像的形态学变换定位圆的大致位置,再重新检测,根据检测出的圆心位置和半径长度,对图像坐标进行极坐标转换,将圆展开,得到包含印章文字信息的文本行图片。
在本发明的业务文档的审查系统的可选实施例中,所述查重模块106具体用于:
对所述解析后的文档进行分句处理,通过TF-IDF机制过滤常用语句,得到多个待评分语句;从预置的语句数据库中获取与所述带评分语句相关联的相似语句,采用相似度评分模型对所述所有所述待评分语句进行相似度评分;判断所否相似度评分是否小于预设阈值,若是,则定义所述待审查文档具备原创性;若否,则定义所述待审查文档不具备原创性;
所述相似度评分模型具体为:
sim(sent1,sent2)=dist(sent1,sent2)/max(len(sent1),len(sent2))
其中,sent1为待评分语句,sent2为相似语句,sim(sent1,sent2)为待评分语句的相似度,len(sent1)为待评分语句的语句长度,len(sent2)为相似语句的语句长度,dist(sent1,sent2)为待评分语句和相似语句的字词差别长度。
在具体实现中,若从预置得出语句数据库中获取到与所有需查重的句子相似度评分超过用户或系统设定的评分阈值时,则定义待审查文档具备原创性,具体地,对所有需查重的句子相似度按照相似度评分模型进行评分,得到所有需查重句子的相似度,然后根据所有需查重句子的相似度,确定需查重句子是否为问题句,并根据问题句在待审查文档中的比例,确定待审查文档是否具备原创性。
在本发明的一种务文档的审查系统实施例中,通过在业务文档的审查系统中配置新词发现模块101,与控制中心102双向连接,用于从待审查文档中确定并剔除专业新词,得到剔除后的文档,所述待审查文档为所示控制中心 102获取;错别字纠正模块103,与所述控制中心102连接,用于接收所述控制中心102发送的所述剔除后的文档;纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档;第三方单位实体识别模块104,与所述控制中心 102连接,用于接收所述控制中心102发送的纠正后的文档;从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档;图像解析模块105,与所述控制中心102连接,用于接收所述控制中心102发送的所述二次剔除后的文档;识别所述二次剔除后的文档中的图像信息,得到解析后的文档;查重模块106,与所述控制中心102连接,用于接收所述控制中心102发送的所述解析后的文档;利用相似度评分规则,对所述解析后的文档进行相似度评分;根据所述相似度评分确定所述待审查文档的查重结果。
本发明通过新词发现模块,与控制中心双向连接,用于从待审查文档中确定并剔除专业新词,得到剔除后的文档,所述待审查文档为所示控制中心获取,从而避免由于大量的专业新词影响后续的模块对于文档的处理。
错别字纠正模块,与所述控制中心连接,用于接收所述控制中心发送的所述剔除后的文档;纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档,通过找出剔除专业新词后的文档中出现的如混淆字音、字词顺序颠倒等情况,从而大大减少文档错别字、。
第三方单位实体识别模块,与所述控制中心连接,用于接收所述控制中心发送的纠正后的文档;从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档,通过检测出外协单位名称并对其进行剔除,从而减少工作人员检测外协单位名称的麻烦、。
图像解析模块,与所述控制中心连接,用于接收所述控制中心发送的所述二次剔除后的文档;识别所述二次剔除后的文档中的图像信息,得到解析后的文档,实现通过对待处理文档中的图像信息进行识别,从而获取所有图像信息中的文字信息。
查重模块,与所述控制中心连接,用于接收所述控制中心发送的所述解析后的文档;利用相似度评分规则,对所述解析后的文档进行相似度评分;根据所述相似度评分确定所述待审查文档的查重结果,从而实现高效准确的查重效果。
通过新词发现模块、错别字纠正模块、第三方单位实体识别模块、图像解析模块和查重模块间的协同作用,提高审查业务文档的效率。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种业务文档的审查系统,其特征在于,包括:
新词发现模块,与控制中心双向连接,用于从待审查文档中确定并剔除专业新词,得到剔除后的文档,所述待审查文档为所示控制中心获取;
错别字纠正模块,与所述控制中心连接,用于接收所述控制中心发送的所述剔除后的文档;纠正所述剔除后的文档中的错误文本部分,得到纠正后的文档;
第三方单位实体识别模块,与所述控制中心连接,用于接收所述控制中心发送的纠正后的文档;从所述纠正后的文档中识别并剔除外协单位,得到二次剔除后的文档;
图像解析模块,与所述控制中心连接,用于接收所述控制中心发送的所述二次剔除后的文档;识别所述二次剔除后的文档中的图像信息,得到解析后的文档;
查重模块,与所述控制中心连接,用于接收所述控制中心发送的所述解析后的文档;利用相似度评分规则,对所述解析后的文档进行相似度评分;根据所述相似度评分确定所述待审查文档的查重结果。
2.根据权利要求1所述的业务文档的审查系统,其特征在于,所述新词发现模块具体用于:
从所述待审查文档中确定多个所述目标潜在词及对应的自由运用程度和凝固度;根据每个所述目标潜在词的自由运用程度和凝固度,确定并剔除所述待评价文档中的所有所述专业新词,得到所述剔除后的文档。
3.根据权利要求2所述的业务文档的审查系统,其特征在于,所述新词发现模块包括:
词频统计单元,用于对所述待审查文档进行词频统计,得到统计结果;基于所述统计结果确定目标潜在词;
左右熵计算单元,用于采用熵计算模型,分别计算所有所述目标潜在词的左熵和右熵;以同一个目标潜在词对应的左熵和右熵中的较小值,作为所述目标潜在词的自由运用程度;
凝固度计算单元,用于采用凝固度计算模型,计算所有所述目标潜在词的凝固度。
4.根据权利要求1-3中任一所述的业务文档的审查系统,其特征在于,所述错别字纠正模块包括:
错误检测单元,用于将所述剔除后的文档中的每个字的自向量输入RNN序列模型和条件随机场CRF模型,得到多个错误文本部分;将所述错误文本部分组成错误候选集;
错误纠正单元,用于根据所述错误候选集,从数据库中匹配得到替换候选集;利用所述替换候选集中的候选文本部分替换对应的错误文本部分,并输入预先训练好的语言模型中,得到候选分数值;将最大候选分数值对应的候选文本对所述错误文本部分进行纠正,得到纠正后的文档。
5.根据权利要求1-4中任一所述的业务文档的审查系统,其特征在于,所述第三方单位实体识别模块具体用于:
采用序列标注模型对所述纠正后的文档的上下文关系进行识别,确定并剔除所述带协单位。
6.根据权利要求1-5中任一所述的业务文档的审查系统,其特征在于,所述图像信息包括文档图像信息和印章图像信息;所述图像解析模块包括:
图像识别单元,用于对所述二次剔除后的文档进行文档图像识别,确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置;对所述文档图像信息进行识别,得到文档图像信息对应的文本信息;
印章识别单元,用于通过HSV颜色通道提取所述印章图像信息中的红色部分;利用霍夫变换,基于所述红色部分查找所述印章图像信息的圆形轮廓;检测所述圆形轮廓的圆心和半径,得到所述圆形轮廓的极坐标;转换所述极坐标,得到所述印章图像信息对应的文本信息。
7.根据权利要求6所述的业务文档的审查系统,其特征在于,所述印章识别单元还用于:
当所述利用霍夫变换查找所述印章图像信息的圆形轮廓的步骤失败时,通过图像的形态学变换方法确定所述圆形轮廓;重新检测所述圆形轮廓的圆心和半径。
8.根据权利要求1-7中任一所述的业务文档的审查系统,其特征在于,所述查重模块具体用于:
对所述解析后的文档进行分句处理,通过TF-IDF机制过滤常用语句,得到多个待评分语句;从预置的语句数据库中获取与所述带评分语句相关联的相似语句,采用相似度评分模型对所述所有所述待评分语句进行相似度评分;判断所否相似度评分是否小于预设阈值,若是,则定义所述待审查文档具备原创性;若否,则定义所述待审查文档不具备原创性。
9.根据权利要求3-8中任一所述的业务文档的审查系统,其特征在于,所述熵计算模型具体为:
Figure FDA0002874470250000031
其中,entropy为熵值,N为目标潜在词邻字出现的次数,m为邻字中不同字的种类数,ni为第i种字作为邻字出现的次数,i为1到m中的任意自然数。
10.根据权利要求8-9中任一所述的业务文档的审查系统,其特征在于,所述相似度评分模型具体为:
sim(sent1,sent2)=dist(sent1,sent2)/max(len(sent1),len(sent2))
其中,sent1为待评分语句,sent2为相似语句,sim(sent1,sent2)为待评分语句的相似度,len(sent1)为待评分语句的语句长度,len(sent2)为相似语句的语句长度,dist(sent1,sent2)为待评分语句和相似语句的字词差别长度。
CN202011624108.XA 2020-12-30 2020-12-30 一种业务文档的审查系统 Active CN112633852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011624108.XA CN112633852B (zh) 2020-12-30 2020-12-30 一种业务文档的审查系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011624108.XA CN112633852B (zh) 2020-12-30 2020-12-30 一种业务文档的审查系统

Publications (2)

Publication Number Publication Date
CN112633852A true CN112633852A (zh) 2021-04-09
CN112633852B CN112633852B (zh) 2023-06-16

Family

ID=75289708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011624108.XA Active CN112633852B (zh) 2020-12-30 2020-12-30 一种业务文档的审查系统

Country Status (1)

Country Link
CN (1) CN112633852B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
KR20180036121A (ko) * 2016-09-30 2018-04-09 한국전기연구원 네트워크 환경에서 데이터 프레임 중복 제거 방법, 그 방법을 수행하는 장치 및 컴퓨터 프로그램
CN109635296A (zh) * 2018-12-08 2019-04-16 广州荔支网络技术有限公司 新词挖掘方法、装置计算机设备和存储介质
CN110852087A (zh) * 2019-09-23 2020-02-28 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN111291757A (zh) * 2020-02-17 2020-06-16 江苏诚印科技有限公司 一种印章唯一性识别的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036121A (ko) * 2016-09-30 2018-04-09 한국전기연구원 네트워크 환경에서 데이터 프레임 중복 제거 방법, 그 방법을 수행하는 장치 및 컴퓨터 프로그램
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
CN109635296A (zh) * 2018-12-08 2019-04-16 广州荔支网络技术有限公司 新词挖掘方法、装置计算机设备和存储介质
CN110852087A (zh) * 2019-09-23 2020-02-28 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN111291757A (zh) * 2020-02-17 2020-06-16 江苏诚印科技有限公司 一种印章唯一性识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李善青等: "科技项目查重方法研究综述", 《科技管理研究》 *

Also Published As

Publication number Publication date
CN112633852B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
US10853638B2 (en) System and method for extracting structured information from image documents
RU2251737C2 (ru) Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US8781172B2 (en) Methods and systems for enhancing the performance of automated license plate recognition applications utilizing multiple results
US8489388B2 (en) Data detection
AU2019278845A1 (en) Post-filtering of named entities with machine learning
US9575937B2 (en) Document analysis system, document analysis method, document analysis program and recording medium
CN113435186B (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN111460827A (zh) 文本信息处理方法、系统、设备及计算机可读存储介质
CN112307741B (zh) 保险行业文档智能化解析方法和装置
US7769235B2 (en) Text recognition method using a trainable classifier
CN112633852A (zh) 一种业务文档的审查系统
JP2000089786A (ja) 音声認識結果の修正方法および装置
CN114595661B (zh) 用于评审投标文件的方法、设备和介质
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
JP3469375B2 (ja) 認識結果の確信度決定方法及び文字認識装置
CN113268977B (zh) 基于语言模型的文本纠错方法、装置、终端设备及介质
JP2020166770A (ja) 文字認識装置、文字認識方法およびプログラム
CN117743556B (zh) 一种基于知识库的多轮问答意图识别方法及装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN115587599B (zh) 一种机器翻译语料的质量检测方法及装置
CA3103322C (en) Data extraction from short business documents
AU2024203337A1 (en) Post-filtering of named entities with machine learning
JP2974145B2 (ja) 文字認識結果の修正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant