CN109190092A - 不同来源文件的一致性审核方法 - Google Patents

不同来源文件的一致性审核方法 Download PDF

Info

Publication number
CN109190092A
CN109190092A CN201810929088.3A CN201810929088A CN109190092A CN 109190092 A CN109190092 A CN 109190092A CN 201810929088 A CN201810929088 A CN 201810929088A CN 109190092 A CN109190092 A CN 109190092A
Authority
CN
China
Prior art keywords
text
file
character
content
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810929088.3A
Other languages
English (en)
Inventor
余伟
赵静芝
费冬妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch
Original Assignee
Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch filed Critical Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch
Priority to CN201810929088.3A priority Critical patent/CN109190092A/zh
Publication of CN109190092A publication Critical patent/CN109190092A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Character Discrimination (AREA)

Abstract

本发明揭示了一种不同来源文件的一致性审核方法,包括:标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,其中一个文件作为基准件,另一个文件作为待审核件;文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件;文本比对,在两个文本文件的基础上进行文本比对,在待审核件的文本中标记被增加、删除或修改的内容,产生第一次比对结果,对第一次比对结果进行误差过滤,产生第二次比对结果,根据第二次比对结果产生相似度数值;比对结果处理,如果相似度数值大于设定的阈值,对两个文本文件各自进行文本抽取;如果相似度数值不大于设定的阈值,则在待审核件的文本的基础上展示两个文本文件的差别。

Description

不同来源文件的一致性审核方法
技术领域
本发明涉及信息比对和验证技术领域,更具体地说,涉及对于不同来源的文件的一致性审核和验证的方法。
背景技术
在企业运营的过程中,合同签署和费用报销是必不可少的日常业务。
合同是企业进行经营活动以及财务支付的法律依据。合同签署前,一般会将原始的合同上报审批,审批通过后,合同会复制一式多份,分别送到各个相关方进行用印。在各方都用印完毕后,合同正式生效。但在此过程中,实际上是存在漏洞的,大多数的会计审核人员只审核对于合同的审批意见,以及用印后的合同的扫描件。通常不会去核对用印前所上报的原始合同的内容。于是,就存在一种可能性,如果在审批完成后,用印之前对合同内容进行了修改,那么在目前的审核模式中是无法被发现的。如果出现合同被篡改的情况,对于企业而言是巨大的财务风险。为了消除合同被篡改的可能性,就必须对用印前后的合同进行比对,合同比对是一项机械性的、重复性的劳动,尤其在金融相关领域,合同十分冗长。进行合同比对费时费力,并且在合同内容过多的时候,依旧存在疏漏的可能性。
同样的,在企业财务费用报销场景中,报销涉及的相关资料和文件数量巨大。一般情况下,会计审核人员仅对报销流程相关的文件进行审核,比如发票、采购清单等等。对于作为报销基础的相关业务合同,未进行有效审核,因此存在错报误报的风险,也会提升企业的财务风险。如果要对相关业务合同进行审核,则会计审核人员需要摘录合同中与报销有关的信息,如采购内容、金额等,再与其它报销材料,例如发票、采购清单等,进行交叉比对,验证其逻辑关系。这同样也是十分耗费时间的工作,会计审核人员需要从复杂的合同中找到相关内容并进行摘录,再与报销流程相关的文件进行核对,工作效率十分低下。
发明内容
本发明提出一种对合同文本的一致性和报销信息进行验证和审核的方法。
根据本发明的一实施例,提出一种不同来源文件的一致性审核方法,包括:
标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,两个文件分别使用其来源进行标记,其中一个文件作为基准件,另一个文件作为待审核件;
文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息;
文本比对,在两个文本文件的基础上进行文本比对,以基准件为基准,在待审核件的文本中标记被增加、删除或修改的内容,产生第一次比对结果,对第一次比对结果进行误差过滤,产生第二次比对结果,根据第二次比对结果产生相似度数值;
比对结果处理,如果相似度数值大于设定的阈值,对两个文本文件各自进行文本抽取,文本抽取基于业务关键字进行;如果相似度数值不大于设定的阈值,则在待审核件的文本的基础上展示两个文本文件的差别,所述差别包括被增加、删除或修改的内容。
在一个实施例中,文件是图像格式,文件内容的代码化包括对图像格式的文件进行文本识别,包括:
图像处理步骤,对图像格式的文件进行扫描并对扫描后获得的图像文件进行图像校正;
版面拆分步骤,在经校正的图像文件中检测包含字符的区域,将包含字符的区域进行拆分,拆分至以字符为单位;
字符识别步骤,以字符为单位,进行文本识别,输出字符的位置信息和字符的内容信息形成代码化的文本;
校验步骤,对经代码化的文本进行校验。
在一个实施例中,待审核件是图像格式,图像格式是无序排列,该方法还包括筛选匹配;
筛选匹配在文件内容的代码化之后,文本比对之前执行,进行筛选匹配时,以基准件为依据,对待审核件的经代码化的文本进行排序,使得待审核件的经代码化的文本的顺序与基准件的顺序相一致。
在一个实施例中,基准件和待审核件的第一次比对结果经由下述过程产生:
文本相似度计算,计算基准件和待审核件的文本相似度,以定位需要进行进一步比对的文本片段;
语句段落划分,将经定位的文本片段进行语句段落划分,以生成文本单元;
基于文本单元对基准件和待审核件的文本进行比对,确定存在差异的文本区域。
在一个实施例中,基准件和待审核件的第二次比对结果经由下述过程产生:
对第一次比对所确定的存在差异的文本区域进行误差过滤,消除文件内容的代码化过程中产生的误差,
基于经误差过滤的存在差异的文本区域并计算相似度数值。
在一个实施例中,文本抽取是基于业务关键字进行,文本抽取包括:
将业务关键字设定为关键词;
对文本进行句法语义分析,获取句法依存和语义依存模型,根据句法依存和语义依存分析文本的句式关联性;
词向量识别,以词为单位生成词向量,计算各个词向量之间的词关联性;
根据关键词的词关联性和句式关联性确定文本中的关联段落,对关联段落进行文本抽取。
在一个实施例中,文件是财务文件,财务文件的来源包括申请用印文件和用印后文件,其中申请用印文件作为基准件,用印后文件作为待审核件。
根据本发明的一实施例,提出一种不同来源文件的一致性审核方法,包括:
标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,两个文件分别使用其来源进行标记,其中一个文件作为校验对照件,另一个文件作为待校验件;
文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息;
内容校验,基于业务关键字两个文本文件各自进行文本抽取,对经抽取的文本进行语义比对校验和逻辑规则校验,产生校验结果值;
校验结果处理,如果校验结果值大于设定的阈值,校验通过;如果校验结果值不大于设定的阈值,则展示语义比对校验的差异内容和/或不符合逻辑规则的内容。
在一个实施例中,文本抽取是基于业务关键字进行,文本抽取包括:
将业务关键字设定为关键词;
对文本进行句法语义分析,获取句法依存和语义依存模型,根据句法依存和语义依存分析文本的句式关联性;
词向量识别,以词为单位生成词向量,计算各个词向量之间的词关联性;
根据关键词的词关联性和句式关联性确定文本中的关联段落,对关联段落进行文本抽取。
在一个实施例中,语义比对校验包括:
将从校验对照件抽取的文本和从待校验件抽取的文本进行文本比对;
计算从校验对照件抽取的文本和从待校验件抽取的文本的相似度,以定位需要进行进一步比对的文本片段;
语句段落划分,将经定位的文本片段进行语句段落划分,以生成文本单元;
基于文本单元进行语义比对,确定存在语义差异的文本区域;
基于存在差异的文本区域并计算语义差异度数值。
在一个实施例中,逻辑规则校验包括:
将逻辑校验关键字设定为关键词;
基于逻辑校验关键字,根据关键词关联性在从校验对照件抽取的文本和从待校验件抽取的文本中提取与逻辑校验关键字相关联的数据;
调用逻辑规则对所述提取的数据进行逻辑规则校验。
在一个实施例中,文件是报销相关文件,报销相关文件的来源包括相关联的合同文件和财务流程文件;对相关联的合同文件进行基于业务关键字的文本抽取,抽取获得的文本作为校验对照件;财务流程文件作为待校验件。
在一个实施例中,文件是图像格式,文件内容的代码化包括对图像格式的文件进行文本识别,包括:
图像处理步骤,对图像格式的文件进行扫描并对扫描后获得的图像文件进行图像校正;
版面拆分步骤,在经校正的图像文件中检测包含字符的区域,将包含字符的区域进行拆分,拆分至以字符为单位;
字符识别步骤,以字符为单位,进行文本识别,输出字符的位置信息和字符的内容信息形成代码化的文本;
校验步骤,对经代码化的文本进行校验。
本发明的不同来源文件的一致性审核方法可以大幅度降低会计审核人员的工作强度,同时可以对不同来源的文件进行全面的一致性审核,并能保留相关的数字化资料,能有效降低企业的财务风险。
附图说明
本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显,在附图中相同的附图标记始终表示相同的特征,其中:
图1揭示了根据本发明的一实施例的不同来源文件的一致性审核方法的流程图。
图2揭示了本发明的第一使用场景的流程示意图。
图3揭示了本发明的第二使用场景的流程示意图。
图4揭示了本发明的第三使用场景的流程示意图。
图5揭示了根据本发明的另一实施例的不同来源文件的一致性审核方法的流程图。
图6揭示了本发明的第四使用场景的流程示意图。
具体实施方式
首先参考图1所示,图1揭示了根据本发明的一实施例的不同来源文件的一致性审核方法的流程图。该不同来源文件的一致性审核方法包括如下的几个主要的步骤:
101、标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,两个文件分别使用其来源进行标记,其中一个文件作为基准件,另一个文件作为待审核件。在一个实施例中,上述的文件是财务文件,财务文件的来源包括申请用印文件和用印后文件,其中申请用印文件作为基准件,用印后文件作为待审核件。
102、文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息。在财务审核中,多数文件是以扫描件的方式提供,因此文件以图像格式居多。对于图像格式的文件,会对文件进行代码化。在一个实施例中,文件内容的代码化包括对图像格式的文件进行文本识别,即OCR光学字符识别,包括:
图像处理步骤,对图像格式的文件进行扫描并对扫描后获得的图像文件进行图像校正。图像处理步骤主要进行文稿扫描、图像缩放、图像旋转等功能。如果图像放置不正,可以自动旋转图像,目的是为文字识别创造更好的条件,使识别率更高。
版面拆分步骤,在经校正的图像文件中检测包含字符的区域,将包含字符的区域进行拆分,拆分至以字符为单位。版面拆分步骤中对图像进行检测并切分文字区域,再把每一行拆分到独立的字。
字符识别步骤,以字符为单位,进行文本识别,输出字符的位置信息和字符的内容信息形成代码化的文本。字符识别步骤中,通过对不同样本汉字的特征进行提取,一个字一个字地辨认,完成识别,自动查找可疑字,且具有前后联想的功能。
校验步骤,对经代码化的文本进行校验。对OCR识别后的文字进行矫正、编辑,如系统识别认为有误,对文字进行修改,最后输出纯文本格式。在一个实施例中,文件内容代码化后输出纯文本的XML格式。
在一些实施例中,有些文件可能是直接能够获得文本格式的,比如是Word格式或者TXT格式。有些是可以通过软件直接转换的格式,比如PDF格式。对于这些格式的文本,其代码化就比较容易,直接转换成纯文本的XML格式即可,不需要通过OCR进行识别。
在一些实施例中,财务文件会有多份文件组成,比如经过多方用印的多份扫描件。多份扫描件中的图像文件的排列顺序可能会被打乱,即图像格式的文件是无序的,并不是按照原始文件的文本顺序排列。在这种情况下,本发明在文件内容的代码化步骤102之后,下一个步骤文本比对103执行之前,会增加一个筛选匹配的步骤。无序排列的图像格式多见于待审核件。待审核件是图像格式,图像格式是无序排列,则该方法还包括筛选匹配。筛选匹配在文件内容的代码化之后,文本比对之前执行,进行筛选匹配时,以基准件为依据,对待审核件的经代码化的文本进行排序,使得待审核件的经代码化的文本的顺序与基准件的顺序相一致。由于筛选匹配的目的仅仅是为了排序,因此可以利用模糊比对算法,以基准件为依据,将待审核件进行排序。排序是以原始的图像文件为单元进行,即将从同一个图像文件识别转换获得的文本视为一个单元,以单元为单位进行排序。除了排序之外,筛选匹配步骤中还包括对无效图像文件的删除。在扫描件中可能会出现大片空白等无效图像,在筛选匹配步骤中进行删除。
103、文本比对,在两个文本文件的基础上进行文本比对,以基准件为基准,在待审核件的文本中标记被增加、删除或修改的内容,产生第一次比对结果,对第一次比对结果进行误差过滤,产生第二次比对结果,根据第二次比对结果产生相似度数值。
在一个实施例中,基准件和待审核件的第一次比对结果经由下述过程产生:
文本相似度计算,计算基准件和待审核件的文本相似度,以定位需要进行进一步比对的文本片段。文本相似度计算中计算两段文本的相似程度,用于快速找到需要对比的大段文本片段,用于粗粒度的文本相似匹配。
语句段落划分,将经定位的文本片段进行语句段落划分,以生成文本单元。语句段落划分用于将文本划分成较小的部分再进行比较,优化计算复杂度。
基于文本单元对基准件和待审核件的文本进行比对,确定存在差异的文本区域。
在基准件和待审核件的第一次比对中,会利用到下述的自然语言处理算法:
最长匹配文本算法:也称作LCS算法,对于大部分合同数据,相同内容较多,因此将文本分块,排除两个文本中最长相似的内容,只比较差异部分,优化算法速度。
KMP算法:经典字符串查找算法,用于在一个主文本中查找一个子文本,常用于局部文本查找及差异比较。
BM算法:高效字符串查找算法,用于文本查找搜索。
编辑距离:又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,可用于文本差异大小度量。
在经过第一次比对后,基准件和待审核件还需要进行第二次比对,基准件和待审核件的进行第二次比对结果经由下述过程产生:
对第一次比对所确定的存在差异的文本区域进行误差过滤,消除文件内容的代码化过程中产生的误差。在OCR识别过程中,可能存在转换误差,为了消除由于转换误差而带来的误判。在第一次比对之后,对第一次比对的结果进行误差过滤,消除掉由于转换误差带来的差异。
基于经误差过滤的存在差异的文本区域并计算相似度数值。
104、比对结果处理,如果相似度数值大于设定的阈值,对两个文本文件各自进行文本抽取,文本抽取基于业务关键字进行;如果相似度数值不大于设定的阈值,则在待审核件的文本的基础上展示两个文本文件的差别,所述差别包括被增加、删除或修改的内容。阈值可以根据业务场景来设定。比如某一业务场景的相似度阈值被设定为90%,则在步骤103中计算得到的相似度数值如果大于90%,则认为比对通过,两个文本内容一致,之后对两个文本文件各自进行文本抽取以留存相关的数字文档。如果在步骤103中计算得到的相似度数值不大于90%,则认为比对不通过,两个文本内容不一致。然后在待审核件的文本的基础上展示两个文本文件的差别,差别包括被增加、删除或修改的内容。上述的差别即是步骤103中存在差异的文本区域。
如果相似度数值大于设定的阈值,则比对通过,之后对两个文本文件各自进行文本抽取,文本抽取基于业务关键字进行。在一个实施例中,文本抽取包括:
将业务关键字设定为关键词。业务关键词与业务场景相关,可以是诸如“合同金额”、“发票金额”、“发票日期”、“税率”等等的术语。
对文本进行句法语义分析,获取句法依存和语义依存模型,根据句法依存和语义依存分析文本的句式关联性。句法语义分析获取文本的句法依存和语义依存,分析局部句式与句子整体的重要性关联关系。
词向量识别,以词为单位生成词向量,计算各个词向量之间的词关联性。词向量识别生成单词的词向量,计算词汇之间的关系,识别核心关键词。
根据关键词的词关联性和句式关联性确定文本中的关联段落,对关联段落进行文本抽取。在文本抽取的过程中,会使用到下述的技术:
执行特征抽取和特征权重计算。特征抽取就是在不损伤核心信息的情况下降低向量空间维数,简化计算,提高文本处理的速度和效率。特征抽取使用基于信息增益和PCA的方法,找出最具分类信息的特征。特征权重用于衡量某个特征项在文档表示中的重要程度或区分能力的强弱。特征权重计算功能使用了TF-IDF,词性,位置,句法结构和专业词库等多个维度对文本中的词语特征进行权重的计算,以提升文本分类的分类效果。
分类器,包括一系列基础的分类器:Rocchio分类器、支持向量机(SVM)、神经网络、随机森林、xgboost方法。
基础分类器接受特征处理模块生成的特征向量,训练分类模型。
序列标注:序列标注模包括一系列基础的序列标注技术,包括:HMM隐马尔可夫模型、CRF条件随机场、RNN循环神经网络。
序列标注模块从带标注的文本数据中抽取特性训练序列标注模型,用于从连续文本数据中抽取指定意义的文本片段。
深度学习:深度模型模块基于最新深度学习技术,提取海量文本数据潜在特征,结合传统n-gram特征,使用表示学习优化特征提取。使用增强学习方式,结合少量标注训练数据提升模型效果。
知识规则库:包括了领域词典和专家知识库。系统根据挖掘目标建立专业词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。
文本抽取的过程为:1)将非结构化的长文本整个归一成一串长字符;2)通过如上技术模块训练出的文本抽取模型,计算长字符串中符合抽取特征(上下文词向量特征+字符词向量特征)的所有字段的相似度;3)将相似度降序排列,抽取相似度最高的一段文本。
下面介绍三个具体的使用场景。
第一使用场景:两个来源的文件均为单一文件。图2揭示了本发明的第一使用场景的流程示意图。如图2所示,第一使用场景的流程如下:
标记文件的来源。两个文件均为单一文件。我方申请用印的文件作为基准件,双方用印的图片文件作为待审核件。我方申请用印的文件可以具有多种格式:图像格式诸如JPG、图片PDF等。我方申请用印的文件也有可能具有文本格式的文档,比如文字PDF、Word格式的DOC文件或DOCX文件等。双方用印的文件基本是图片文件,图像格式可以是JPG、图片PDF、PNG或者TIF。
文件内容的代码化:对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息。在该使用场景中,对于图像文件进行OCR识别,对于文本文件进行解析,之后获得具有统一格式的纯文本XML格式的文件。XML中会包含两类信息,每个字符的位置信息和字符内容信息,之后的自然语言处理算法都是使用此种格式进行比较。
文本比对:将两种标记源的纯文本XML使用自然语言处理算法进行全文文本比对。自动标记文本中被增加、删除和修改的文字,产生第一次比对结果。第一次比对结果将再进行一层文本分析,使用预先设置好的误差过滤规则将文件转换过程中产生的错误过滤掉,产生第二次比对结果。误差过滤规则主要能够消除下述的转换错误:标点符号全角/半角误差、下划线等特殊符号、非连续性的或偶发的OCR识别错误、表格顺序或表格位置错误。第二次的比对结果会产生全文相似度的百分比及被标记出的增删改的文字的内容及位置信息,通过业务场景对比对一致性的要求和标准,如90%以上相似度为通过,自动给出通过或不通过的结论。
文本抽取:比对通过的文件,由经训练抽取模型进行关键字段的抽取,供后续验证审核使用,需抽取的字段根据业务场景的要求定制。文本抽取的过程可以参考前述对于文本抽取的描述。比对不通过的文件,展示差别的内容,供会计及提交人审核使用。
第二使用场景:其中一个来源的文件为单一文件,另一个来源的文件为多个文件。图3揭示了本发明的第二使用场景的流程示意图。如图3所示,第二使用场景的流程如下:
标记文件的来源。我方申请用印的文件为单一文件,我方申请用印的文件作为基准件。双方用印的图片文件为多个文件,且多个图片文件的顺序可能被打乱,形成无序的图像文件。双方用印的文件作为待审核件。我方申请用印的文件可以具有多种格式:图像格式诸如JPG、图片PDF等。我方申请用印的文件也有可能具有文本格式的文档,比如文字PDF、Word格式的DOC文件或DOCX文件等。双方用印的文件基本是图片文件,图像格式可以是JPG、图片PDF、PNG或者TIF,且双方用印的文件可能是多个无序的图像文件,在图3中用“*n”表示多个文件的意思。
文件内容的代码化:对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息。在该使用场景中,对于图像文件进行OCR识别,对于文本文件进行解析,之后获得具有统一格式的纯文本XML格式的文件。XML中会包含两类信息,每个字符的位置信息和字符内容信息,之后的自然语言处理算法都是使用此种格式进行比较。
筛选匹配:以来源为“我方申请用印”的单一文件为标准,使用模糊比对算法,将来源为“双方用印”的、多张无序的图片文件,按文字内容的顺序排列。排序是以原始的图像文件为单元进行,即将从同一个图像文件识别转换获得的文本视为一个单元,以单元为单位进行排序。除了排序之外,筛选匹配步骤中还包括对无效图像文件的删除,比如剔除无效图片文件,即与合同内容无关的图片文件。
文本比对:将两种标记源的纯文本XML使用自然语言处理算法进行全文文本比对。自动标记文本中被增加、删除和修改的文字,产生第一次比对结果。第一次比对结果将再进行一层文本分析,使用预先设置好的误差过滤规则将文件转换过程中产生的错误过滤掉,产生第二次比对结果。误差过滤规则主要能够消除下述的转换错误:标点符号全角/半角误差、下划线等特殊符号、非连续性的或偶发的OCR识别错误、表格顺序或表格位置错误。第二次的比对结果会产生全文相似度的百分比及被标记出的增删改的文字的内容及位置信息,通过业务场景对比对一致性的要求和标准,如90%以上相似度为通过,自动给出通过或不通过的结论。
文本抽取:比对通过的文件,由经训练抽取模型进行关键字段的抽取,供后续验证审核使用,需抽取的字段根据业务场景的要求定制。文本抽取的过程可以参考前述对于文本抽取的描述。比对不通过的文件,展示差别的内容,供会计及提交人审核使用。
第三使用场景:两个来源的文件均为多个文件。图4揭示了本发明的第三使用场景的流程示意图。如图4所示,第三使用场景的流程如下:
标记文件的来源。我方申请用印的文件也为多个文件。我方申请用印的文件由于获得的途径不同,通常可以获得有序排列的文件。如果是文本格式,则文本肯定是有序排列的。如果是图片格式,我方申请用印的文件也可以获得按照文本内容有序排列的图片文件。我方申请用印的文件作为基准件。双方用印的图片文件为多个文件,且多个图片文件的顺序可能被打乱,形成无序的图像文件。双方用印的文件作为待审核件。我方申请用印的文件可以具有多种格式:图像格式诸如JPG、图片PDF等。我方申请用印的文件也有可能具有文本格式的文档,比如文字PDF、Word格式的DOC文件或DOCX文件等。双方用印的文件基本是图片文件,图像格式可以是JPG、图片PDF、PNG或者TIF,且双方用印的文件可能是无序的图像文件。在图4中,两个来源的文件都可能是多个文件,因此在图4中用“*n”表示多个文件的意思。
文件内容的代码化:对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息。在该使用场景中,对于图像文件进行OCR识别,对于文本文件进行解析,之后获得具有统一格式的纯文本XML格式的文件。XML中会包含两类信息,每个字符的位置信息和字符内容信息,之后的自然语言处理算法都是使用此种格式进行比较。
筛选匹配:在两个来源的文件均为多个文件时,筛选匹配的步骤会被执行多次。每一均以“我方申请用印”的多个文件的其中一个为基准进行比对。具体而言,首先以来源为“我方申请用印”的一个单一文件为标准,使用模糊比对算法,将来源为“双方用印”的、多张无序的图片文件,按文字内容的顺序排列。排序是以原始的图像文件为单元进行,即将从同一个图像文件识别转换获得的文本视为一个单元,以单元为单位进行排序。除了排序之外,筛选匹配步骤中还包括对无效图像文件的删除,比如剔除无效图片文件,即与合同内容无关的图片文件。完成“我方申请用印”的一个单一文件的匹配后,在选取“我方申请用印”中的另一个单一文件,继续进行下一轮的筛选匹配。直至“我方申请用印”的所有文件都匹配完成。在图4中用“*n”表示进行多轮的文本筛选匹配。
文本比对:将两种标记源的纯文本XML使用自然语言处理算法进行全文文本比对。自动标记文本中被增加、删除和修改的文字,产生第一次比对结果。第一次比对结果将再进行一层文本分析,使用预先设置好的误差过滤规则将文件转换过程中产生的错误过滤掉,产生第二次比对结果。误差过滤规则主要能够消除下述的转换错误:标点符号全角/半角误差、下划线等特殊符号、非连续性的或偶发的OCR识别错误、表格顺序或表格位置错误。第二次的比对结果会产生全文相似度的百分比及被标记出的增删改的文字的内容及位置信息,通过业务场景对比对一致性的要求和标准,如90%以上相似度为通过,自动给出通过或不通过的结论。
文本抽取:比对通过的文件,由经训练抽取模型进行关键字段的抽取,供后续验证审核使用,需抽取的字段根据业务场景的要求定制。文本抽取的过程可以参考前述对于文本抽取的描述。比对不通过的文件,展示差别的内容,供会计及提交人审核使用。
图1~图4所示的实施例主要针对用印前后的合同内容一致性的审核。如上面所描述的,除了合同内容的一致性审核的应用场景之外,企业财务费用报销场景也是广泛存在的应用场景。图5揭示了根据本发明的另一实施例的不同来源文件的一致性审核方法的流程图。该实施例主要针对企业财务费用报销场景。
参考图5所示,该不同来源文件的一致性审核方法包括如下的步骤:
201、标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,两个文件分别使用其来源进行标记,其中一个文件作为校验对照件,另一个文件作为待校验件。在一个实施例中,文件是报销相关文件,报销相关文件的来源包括相关联的合同文件和财务流程文件。对相关联的合同文件进行基于业务关键字的文本抽取,抽取获得的文本作为校验对照件。有关文本抽取的方式可以参照前文所描述的文本抽取的方式。财务流程文件作为待校验件。
202、文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息。在一个实施例中,文件内容的代码化包括对图像格式的文件进行文本识别,即OCR光学字符识别,包括:
图像处理步骤,对图像格式的文件进行扫描并对扫描后获得的图像文件进行图像校正。图像处理步骤主要进行文稿扫描、图像缩放、图像旋转等功能。如果图像放置不正,可以自动旋转图像,目的是为文字识别创造更好的条件,使识别率更高。
版面拆分步骤,在经校正的图像文件中检测包含字符的区域,将包含字符的区域进行拆分,拆分至以字符为单位。版面拆分步骤中对图像进行检测并切分文字区域,再把每一行拆分到独立的字。
字符识别步骤,以字符为单位,进行文本识别,输出字符的位置信息和字符的内容信息形成代码化的文本。字符识别步骤中,通过对不同样本汉字的特征进行提取,一个字一个字地辨认,完成识别,自动查找可疑字,且具有前后联想的功能。
校验步骤,对经代码化的文本进行校验。对OCR识别后的文字进行矫正、编辑,如系统识别认为有误,对文字进行修改,最后输出纯文本格式。在一个实施例中,文件内容代码化后输出纯文本的XML格式。
在一些实施例中,有些文件可能是直接能够获得文本格式的,比如是Word格式或者TXT格式。有些是可以通过软件直接转换的格式,比如PDF格式。对于这些格式的文本,其代码化就比较容易,直接转换成纯文本的XML格式即可,不需要通过OCR进行识别。
203、内容校验,基于业务关键字两个文本文件各自进行文本抽取,对经抽取的文本进行语义比对校验和逻辑规则校验,产生校验结果值。
在一个实施例中,文本抽取的过程包括:
将业务关键字设定为关键词。业务关键词与业务场景相关,可以是诸如“合同金额”、“发票金额”、“发票日期”、“税率”等等的术语。
对文本进行句法语义分析,获取句法依存和语义依存模型,根据句法依存和语义依存分析文本的句式关联性。句法语义分析获取文本的句法依存和语义依存,分析局部句式与句子整体的重要性关联关系。
词向量识别,以词为单位生成词向量,计算各个词向量之间的词关联性。词向量识别生成单词的词向量,计算词汇之间的关系,识别核心关键词。
根据关键词的词关联性和句式关联性确定文本中的关联段落,对关联段落进行文本抽取。在文本抽取的过程中,会使用到下述的技术:
执行特征抽取和特征权重计算。特征抽取就是在不损伤核心信息的情况下降低向量空间维数,简化计算,提高文本处理的速度和效率。特征抽取使用基于信息增益和PCA的方法,找出最具分类信息的特征。特征权重用于衡量某个特征项在文档表示中的重要程度或区分能力的强弱。特征权重计算功能使用了TF-IDF,词性,位置,句法结构和专业词库等多个维度对文本中的词语特征进行权重的计算,以提升文本分类的分类效果。
分类器,包括一系列基础的分类器:Rocchio分类器、支持向量机(SVM)、神经网络、随机森林、xgboost方法。
基础分类器接受特征处理模块生成的特征向量,训练分类模型。
序列标注:序列标注模包括一系列基础的序列标注技术,包括:HMM隐马尔可夫模型、CRF条件随机场、RNN循环神经网络。
序列标注模块从带标注的文本数据中抽取特性训练序列标注模型,用于从连续文本数据中抽取指定意义的文本片段。
深度学习:深度模型模块基于最新深度学习技术,提取海量文本数据潜在特征,结合传统n-gram特征,使用表示学习优化特征提取。使用增强学习方式,结合少量标注训练数据提升模型效果。
知识规则库:包括了领域词典和专家知识库。系统根据挖掘目标建立专业词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。
文本抽取的过程为:1)将非结构化的长文本整个归一成一串长字符;2)通过如上技术模块训练出的文本抽取模型,计算长字符串中符合抽取特征(上下文词向量特征+字符词向量特征)的所有字段的相似度;3)将相似度降序排列,抽取相似度最高的一段文本。
对经抽取的文本进行语义比对校验和逻辑规则校验。其中,语义比对校验包括:
将从校验对照件抽取的文本和从待校验件抽取的文本进行文本比对。
计算从校验对照件抽取的文本和从待校验件抽取的文本的相似度,以定位需要进行进一步比对的文本片段。
语句段落划分,将经定位的文本片段进行语句段落划分,以生成文本单元。
基于文本单元进行语义比对,确定存在语义差异的文本区域。
基于存在差异的文本区域并计算语义差异度数值。
对经抽取的文本进行逻辑规则校验包括:
将逻辑校验关键字设定为关键词。
基于逻辑校验关键字,根据关键词关联性在从校验对照件抽取的文本和从待校验件抽取的文本中提取与逻辑校验关键字相关联的数据。
调用逻辑规则对所述提取的数据进行逻辑规则校验。
204、校验结果处理,如果校验结果值大于设定的阈值,校验通过。如果校验结果值不大于设定的阈值,则展示语义比对校验的差异内容和/或不符合逻辑规则的内容。校验结果值与语义比对校验以及逻辑规则校验两个校验结果均相关。根据不同的业务场景,可以设置不同的阈值,阈值可以分别针对语义比对校验和逻辑规则校验。在语义比对校验和逻辑规则校验两者都通过的情况下,校验结果值大于阈值。语义比对校验或逻辑规则校验的其中之一不通过,则校验结果值不大于阈值。
下面介绍企业财务费用报销的使用场景。
第四使用场景:企业财务费用报销场景。图6揭示了本发明的第四使用场景的流程示意图。
标记文件来源。对相关联的合同文件进行基于业务关键字的文本抽取,抽取获得的文本作为校验对照件。其他财务相关文件,比如发票、采购清单、提货单、服务清单等的图像文件以及报销的流程文件(可以是文本文档)和报销签报等作为待校验件。
文件内容的代码化。对两个文件分别进行代码化以获取具有统一格式的文本文件。在一个实施例中,是统一成纯本文的XML格式的文件。对于图片格式的文件,调取OCR引擎进行文字识别,XML中会包含两类信息,每个字符的位置信息和字符内容信息,之后的自然语言处理算法都是使用此种格式进行比较。
内容校验。内容校验包括两种:逻辑规则校验和语义比对校验。逻辑规则校验使用的是普通的“是”、“否”和数字计算逻辑,语义比对校验使用的自然语言处理算法,对文字内容进行分析和比对。逻辑规则校验和语义比对校验都是在经过业务关键字抽取的文本上进行。所以首先是基于业务关键字两个文本文件各自进行文本抽取。在图示的实施例中,选用的业务关键字包括:合同总金额、合同起止日期、发票类型、发票税率、合同事项、合同单价等。逻辑规则校验的示例包括:发票金额<合同总金额、发票开票日期>合同起始日期、发票类型=合同中约定的开票类型、发票税率=合同中约定的开票税率等。语义比对校验的示例包括:报销事项是否与合同事项一致、发票内容是否与合同事项一致、采购清单/提货单/服务清单中的单价是否与合同单价一致等。进行校验后,如果校验通过,则显示校验通过,可进行审核报销。如果校验不通过,则显示差别内容,供会计和申请人进行人工审核。
本发明的不同来源文件的一致性审核方法可以大幅度降低会计审核人员的工作强度,同时可以对不同来源的文件进行全面的一致性审核,并能保留相关的数字化资料,能有效降低企业的财务风险。
上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟悉本领域的人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

Claims (13)

1.一种不同来源文件的一致性审核方法,其特征在于,包括:
标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,两个文件分别使用其来源进行标记,其中一个文件作为基准件,另一个文件作为待审核件;
文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息;
文本比对,在两个文本文件的基础上进行文本比对,以基准件为基准,在待审核件的文本中标记被增加、删除或修改的内容,产生第一次比对结果,对第一次比对结果进行误差过滤,产生第二次比对结果,根据第二次比对结果产生相似度数值;
比对结果处理,如果相似度数值大于设定的阈值,对两个文本文件各自进行文本抽取,文本抽取基于业务关键字进行;如果相似度数值不大于设定的阈值,则在待审核件的文本的基础上展示两个文本文件的差别,所述差别包括被增加、删除或修改的内容。
2.如权利要求1所述的不同来源文件的一致性审核方法,其特征在于,所述文件是图像格式,所述文件内容的代码化包括对图像格式的文件进行文本识别,包括:
图像处理步骤,对图像格式的文件进行扫描并对扫描后获得的图像文件进行图像校正;
版面拆分步骤,在经校正的图像文件中检测包含字符的区域,将包含字符的区域进行拆分,拆分至以字符为单位;
字符识别步骤,以字符为单位,进行文本识别,输出字符的位置信息和字符的内容信息形成代码化的文本;
校验步骤,对经代码化的文本进行校验。
3.如权利要求2所述的不同来源文件的一致性审核方法,其特征在于
所述待审核件是图像格式,图像格式是无序排列,所述方法还包括筛选匹配;
筛选匹配在文件内容的代码化之后,文本比对之前执行,进行筛选匹配时,以基准件为依据,对待审核件的经代码化的文本进行排序,使得待审核件的经代码化的文本的顺序与基准件的顺序相一致。
4.如权利要求1所述的不同来源文件的一致性审核方法,其特征在于,基准件和待审核件的第一次比对结果经由下述过程产生:
文本相似度计算,计算基准件和待审核件的文本相似度,以定位需要进行进一步比对的文本片段;
语句段落划分,将经定位的文本片段进行语句段落划分,以生成文本单元;
基于文本单元对基准件和待审核件的文本进行比对,确定存在差异的文本区域。
5.如权利要求4所述的不同来源文件的一致性审核方法,其特征在于,基准件和待审核件的第二次比对结果经由下述过程产生:
对第一次比对所确定的存在差异的文本区域进行误差过滤,消除文件内容的代码化过程中产生的误差,
基于经误差过滤的存在差异的文本区域并计算相似度数值。
6.如权利要求1所述的不同来源文件的一致性审核方法,其特征在于,所述文本抽取是基于业务关键字进行,文本抽取包括:
将业务关键字设定为关键词;
对文本进行句法语义分析,获取句法依存和语义依存模型,根据句法依存和语义依存分析文本的句式关联性;
词向量识别,以词为单位生成词向量,计算各个词向量之间的词关联性;
根据关键词的词关联性和句式关联性确定文本中的关联段落,对关联段落进行文本抽取。
7.如权利要求1所述的不同来源文件的一致性审核方法,其特征在于,所述文件是财务文件,财务文件的来源包括申请用印文件和用印后文件,其中申请用印文件作为基准件,用印后文件作为待审核件。
8.一种不同来源文件的一致性审核方法,其特征在于,包括:
标记文件的来源,待进行一致性审核的两个文件分别来自不同的来源,两个文件分别使用其来源进行标记,其中一个文件作为校验对照件,另一个文件作为待校验件;
文件内容的代码化,对两个文件分别进行代码化以获取具有统一格式的文本文件,文本文件中包括字符的位置信息和字符的内容信息;
内容校验,基于业务关键字两个文本文件各自进行文本抽取,对经抽取的文本进行语义比对校验和逻辑规则校验,产生校验结果值;
校验结果处理,如果校验结果值大于设定的阈值,校验通过;如果校验结果值不大于设定的阈值,则展示语义比对校验的差异内容和/或不符合逻辑规则的内容。
9.如权利要求8所述的不同来源文件的一致性审核方法,其特征在于,所述文本抽取是基于业务关键字进行,文本抽取包括:
将业务关键字设定为关键词;
对文本进行句法语义分析,获取句法依存和语义依存模型,根据句法依存和语义依存分析文本的句式关联性;
词向量识别,以词为单位生成词向量,计算各个词向量之间的词关联性;
根据关键词的词关联性和句式关联性确定文本中的关联段落,对关联段落进行文本抽取。
10.如权利要求8所述的不同来源文件的一致性审核方法,其特征在于,所述语义比对校验包括:
将从校验对照件抽取的文本和从待校验件抽取的文本进行文本比对;
计算从校验对照件抽取的文本和从待校验件抽取的文本的相似度,以定位需要进行进一步比对的文本片段;
语句段落划分,将经定位的文本片段进行语句段落划分,以生成文本单元;
基于文本单元进行语义比对,确定存在语义差异的文本区域;
基于存在差异的文本区域并计算语义差异度数值。
11.如权利要求8所述的不同来源文件的一致性审核方法,其特征在于,所述逻辑规则校验包括:
将逻辑校验关键字设定为关键词;
基于逻辑校验关键字,根据关键词关联性在从校验对照件抽取的文本和从待校验件抽取的文本中提取与逻辑校验关键字相关联的数据;
调用逻辑规则对所述提取的数据进行逻辑规则校验。
12.如权利要求8所述的不同来源文件的一致性审核方法,其特征在于,
所述文件是报销相关文件,报销相关文件的来源包括相关联的合同文件和财务流程文件;
对相关联的合同文件进行基于业务关键字的文本抽取,抽取获得的文本作为校验对照件;
财务流程文件作为待校验件。
13.如权利要求8所述的不同来源文件的一致性审核方法,其特征在于,所述文件是图像格式,所述文件内容的代码化包括对图像格式的文件进行文本识别,包括:
图像处理步骤,对图像格式的文件进行扫描并对扫描后获得的图像文件进行图像校正;
版面拆分步骤,在经校正的图像文件中检测包含字符的区域,将包含字符的区域进行拆分,拆分至以字符为单位;
字符识别步骤,以字符为单位,进行文本识别,输出字符的位置信息和字符的内容信息形成代码化的文本;
校验步骤,对经代码化的文本进行校验。
CN201810929088.3A 2018-08-15 2018-08-15 不同来源文件的一致性审核方法 Withdrawn CN109190092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810929088.3A CN109190092A (zh) 2018-08-15 2018-08-15 不同来源文件的一致性审核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810929088.3A CN109190092A (zh) 2018-08-15 2018-08-15 不同来源文件的一致性审核方法

Publications (1)

Publication Number Publication Date
CN109190092A true CN109190092A (zh) 2019-01-11

Family

ID=64917987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810929088.3A Withdrawn CN109190092A (zh) 2018-08-15 2018-08-15 不同来源文件的一致性审核方法

Country Status (1)

Country Link
CN (1) CN109190092A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162510A (zh) * 2019-04-26 2019-08-23 平安普惠企业管理有限公司 文本对比方法、装置、计算机设备及存储介质
CN110262976A (zh) * 2019-06-21 2019-09-20 深圳市腾讯网域计算机网络有限公司 游戏资源文件的解析方法、装置、设备和存储介质
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法
CN111079384A (zh) * 2019-11-18 2020-04-28 佰聆数据股份有限公司 一种用于智能质检服务禁语的识别方法及系统
CN111143434A (zh) * 2019-12-19 2020-05-12 深圳壹账通智能科技有限公司 数据智能核对方法、装置、设备及存储介质
CN111221969A (zh) * 2019-12-31 2020-06-02 国网北京市电力公司 文本差异识别方法和装置
CN111382561A (zh) * 2020-03-13 2020-07-07 北大方正集团有限公司 文件校验方法、装置、设备及存储介质
CN112100373A (zh) * 2020-08-25 2020-12-18 南方电网深圳数字电网研究院有限公司 一种基于深度神经网络的合同文本分析方法及系统
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN112183574A (zh) * 2020-08-21 2021-01-05 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质
CN112307101A (zh) * 2020-10-24 2021-02-02 上海东方投资监理有限公司 工程计价审核方法、装置、计算机设备以及系统
CN112417835A (zh) * 2020-11-18 2021-02-26 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112468753A (zh) * 2020-11-20 2021-03-09 武汉烽火信息集成技术有限公司 一种基于音视频识别技术的笔录数据采集核查方法及装置
CN112699658A (zh) * 2020-12-31 2021-04-23 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN113255369A (zh) * 2021-06-10 2021-08-13 平安国际智慧城市科技股份有限公司 文本相似度分析的方法、装置及存储介质
CN113407665A (zh) * 2021-05-25 2021-09-17 北京有竹居网络技术有限公司 文本比对方法、装置、介质及电子设备
CN113496115A (zh) * 2020-04-08 2021-10-12 中国移动通信集团广东有限公司 文件内容比对方法和装置
CN113627320A (zh) * 2021-08-09 2021-11-09 东云睿连(武汉)计算技术有限公司 一种基于计算机视觉的工程图纸比对装置和方法
CN113689176A (zh) * 2021-07-15 2021-11-23 东风汽车集团股份有限公司 一种车辆功能安全管理流程的建立方法及系统
CN114691865A (zh) * 2022-03-03 2022-07-01 支付宝(杭州)信息技术有限公司 一种基金产品的审核方法、装置以及设备
CN115130989A (zh) * 2022-06-24 2022-09-30 北京百度网讯科技有限公司 一种业务文档的审核方法、装置、设备及存储介质
CN116681053A (zh) * 2023-07-31 2023-09-01 中国电子技术标准化研究院 文本标准比对方法、装置、设备及介质
CN117611363A (zh) * 2023-10-25 2024-02-27 浙江爱信诺航天信息技术有限公司 凭证在线校验方法及介质
CN117852521A (zh) * 2024-03-07 2024-04-09 成都中科合迅科技有限公司 一种数据计算结果文件对比方法、系统及对比配置系统
CN117852521B (zh) * 2024-03-07 2024-06-07 成都中科合迅科技有限公司 一种数据计算结果文件对比方法、系统及对比配置系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及系统
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及系统
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162510A (zh) * 2019-04-26 2019-08-23 平安普惠企业管理有限公司 文本对比方法、装置、计算机设备及存储介质
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN110262976A (zh) * 2019-06-21 2019-09-20 深圳市腾讯网域计算机网络有限公司 游戏资源文件的解析方法、装置、设备和存储介质
CN110262976B (zh) * 2019-06-21 2024-05-28 深圳市腾讯网域计算机网络有限公司 游戏资源文件的解析方法、装置、设备和存储介质
CN111079384A (zh) * 2019-11-18 2020-04-28 佰聆数据股份有限公司 一种用于智能质检服务禁语的识别方法及系统
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法
CN111143434A (zh) * 2019-12-19 2020-05-12 深圳壹账通智能科技有限公司 数据智能核对方法、装置、设备及存储介质
CN111221969A (zh) * 2019-12-31 2020-06-02 国网北京市电力公司 文本差异识别方法和装置
CN111382561B (zh) * 2020-03-13 2022-11-01 北大方正集团有限公司 文件校验方法、装置、设备及存储介质
CN111382561A (zh) * 2020-03-13 2020-07-07 北大方正集团有限公司 文件校验方法、装置、设备及存储介质
CN113496115B (zh) * 2020-04-08 2023-07-28 中国移动通信集团广东有限公司 文件内容比对方法和装置
CN113496115A (zh) * 2020-04-08 2021-10-12 中国移动通信集团广东有限公司 文件内容比对方法和装置
CN112183574B (zh) * 2020-08-21 2024-05-28 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质
CN112183574A (zh) * 2020-08-21 2021-01-05 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质
CN112100373A (zh) * 2020-08-25 2020-12-18 南方电网深圳数字电网研究院有限公司 一种基于深度神经网络的合同文本分析方法及系统
CN112307101A (zh) * 2020-10-24 2021-02-02 上海东方投资监理有限公司 工程计价审核方法、装置、计算机设备以及系统
CN112417835A (zh) * 2020-11-18 2021-02-26 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112417835B (zh) * 2020-11-18 2023-11-14 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112468753A (zh) * 2020-11-20 2021-03-09 武汉烽火信息集成技术有限公司 一种基于音视频识别技术的笔录数据采集核查方法及装置
CN112468753B (zh) * 2020-11-20 2022-05-20 武汉烽火信息集成技术有限公司 一种基于音视频识别技术的笔录数据采集核查方法及装置
CN112699658A (zh) * 2020-12-31 2021-04-23 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
CN112699658B (zh) * 2020-12-31 2024-05-28 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN113407665A (zh) * 2021-05-25 2021-09-17 北京有竹居网络技术有限公司 文本比对方法、装置、介质及电子设备
CN113255369A (zh) * 2021-06-10 2021-08-13 平安国际智慧城市科技股份有限公司 文本相似度分析的方法、装置及存储介质
CN113689176A (zh) * 2021-07-15 2021-11-23 东风汽车集团股份有限公司 一种车辆功能安全管理流程的建立方法及系统
CN113627320A (zh) * 2021-08-09 2021-11-09 东云睿连(武汉)计算技术有限公司 一种基于计算机视觉的工程图纸比对装置和方法
CN114691865A (zh) * 2022-03-03 2022-07-01 支付宝(杭州)信息技术有限公司 一种基金产品的审核方法、装置以及设备
CN115130989A (zh) * 2022-06-24 2022-09-30 北京百度网讯科技有限公司 一种业务文档的审核方法、装置、设备及存储介质
CN116681053A (zh) * 2023-07-31 2023-09-01 中国电子技术标准化研究院 文本标准比对方法、装置、设备及介质
CN117611363A (zh) * 2023-10-25 2024-02-27 浙江爱信诺航天信息技术有限公司 凭证在线校验方法及介质
CN117852521A (zh) * 2024-03-07 2024-04-09 成都中科合迅科技有限公司 一种数据计算结果文件对比方法、系统及对比配置系统
CN117852521B (zh) * 2024-03-07 2024-06-07 成都中科合迅科技有限公司 一种数据计算结果文件对比方法、系统及对比配置系统

Similar Documents

Publication Publication Date Title
CN109190092A (zh) 不同来源文件的一致性审核方法
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
US20230129874A1 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
Evershed et al. Correcting noisy OCR: Context beats confusion
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
US20050182736A1 (en) Method and apparatus for determining contract attributes based on language patterns
CN111090986A (zh) 一种公文文档纠错的方法
US20230028664A1 (en) System and method for automatically tagging documents
EP4141818A1 (en) Document digitization, transformation and validation
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
Flisar et al. Enhanced feature selection using word embeddings for self-admitted technical debt identification
Hong Relation extraction using support vector machine
US11915157B2 (en) Computerized method of training a computer executed model for recognizing numerical quantities
CN115544213B (zh) 获取文本中的信息的方法、设备和存储介质
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
US20230134218A1 (en) Continuous learning for document processing and analysis
Batomalaque et al. Image to text conversion technique for anti-plagiarism system
Emon et al. A review of optical character recognition (ocr) techniques on bengali scripts
US20240143632A1 (en) Extracting information from documents using automatic markup based on historical data
O’Brien et al. Optical character recognition
Flynn Document classification in support of automated metadata extraction form heterogeneous collections
Round et al. Automated parsing of interlinear glossed text from page images of grammatical descriptions
US20230236802A1 (en) Intelligent industry compliance reviewer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190111