CN108959349B - 一种财务审计询证系统 - Google Patents

一种财务审计询证系统 Download PDF

Info

Publication number
CN108959349B
CN108959349B CN201810369139.1A CN201810369139A CN108959349B CN 108959349 B CN108959349 B CN 108959349B CN 201810369139 A CN201810369139 A CN 201810369139A CN 108959349 B CN108959349 B CN 108959349B
Authority
CN
China
Prior art keywords
information
data
layer
module
waybill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810369139.1A
Other languages
English (en)
Other versions
CN108959349A (zh
Inventor
蔡振华
肖龙源
谭玉坤
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Information Technology Co ltd
Original Assignee
Xiamen Kuaishangtong Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Information Technology Co ltd filed Critical Xiamen Kuaishangtong Information Technology Co ltd
Priority to CN201810369139.1A priority Critical patent/CN108959349B/zh
Publication of CN108959349A publication Critical patent/CN108959349A/zh
Application granted granted Critical
Publication of CN108959349B publication Critical patent/CN108959349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种财务审计询证系统,包括数据层、基础层、应用层;所述数据层负责包括对所述财务审计询证系统的相关数据进行数据仓储、数据清洗、信息检索、支持基础层模型训练的数据脱敏服务中的至少一种处理;所述基础层包括定向爬虫模块、信息抽取模块、模板系统模块、印刷文本OCR模块、印章识别比对模块、推理引擎模块中的至少一者;所述应用层在基础层和数据层之上构筑的以实现具体业务;所述具体业务包括背调子系统、询证函自动生成、运单自动填写与追踪、回函自动确认与分类中的至少一者。本发明的财务审计询证系统可以提高工作效率,节约人力成本,同时具备灵活性、可拓展性等特点。

Description

一种财务审计询证系统
技术领域
本发明涉及财务审计领域,具体涉及一种财务审计询证系统。
背景技术
按照审计法,企业在经营时需要按照要求进行各种年度审计、专项审计等,审计机构为具有相应资质的第三方专业机构。其中在针对上市公司的财务审计中,为了做到公平、公正,及对股东负责,需要对企业的收入、支出等进行逐笔确认。具体操作过程包括如下4个步骤:
(1)审计机构对需要询征的内容向客户(被审计单位)索取被询征方(被审计单位的客户或供应商)的企业信息;
(2)审计机构审核、确认被询征方信息;
(3)生成询征函并寄给被询征方;
(4)收到被询征方寄回的询征函并进行处理(查看结果,情况属实或不属实,并把文件做电子化处理存档,一般为扫描);
以上流程各环节目前全部为人工方式进行处理,工作量较大,所以这也是上市公司审计所需时间较久的原因之一。
其中以上流程需要人工处理的原因如下:在第1步中被审计单位所提供的信息不可能是不正确信息,即被审计单位有可能提供虚假的信息给审计机构(有可能存在多家企业联合欺骗审计机构的情况),所以审计机构需要先核对信息的真实性。在最后收到被询征方寄回的询征函时,除了查看结果外(结果只有两种,情况属实及不属实,一般为两列,直接在相应列内盖章,不属实的还另外说明原因),也要对询征函的内容进行再次校对,是否为当初寄出的文件内容(以防止出现被询征方虽然盖章在情况属实列,却篡改了询征函的内容的情况)。
发明内容
本发明的目的在于克服现有技术不足,提出一种财务审计询证系统。
本发明采用如下技术方案:
一种财务审计询证系统,包括数据层、基础层、应用层;
所述数据层用于存储和管理系统所需的数据;所述基础层用于提供系统所需的通用基础功能和模块;所述应用层用于向用户提供面对面的服务;所述数据层与所述基础层连接;所述应用层与所述数据层和所述基础层连接;
所述数据层负责包括对所述财务审计询证系统的相关数据进行数据仓储、数据清洗、信息检索、支持基础层模型训练的数据脱敏服务中的至少一种处理;
所述基础层包括定向爬虫模块、信息抽取模块、模板系统模块、印刷文本OCR模块、印章识别比对模块、推理引擎模块中的至少一者;
所述应用层在所述基础层和所述数据层之上构筑的以实现具体业务;所述具体业务包括背调子系统、询证函自动生成、运单自动填写与追踪、回函自动确认与分类中的至少一者;
所述数据脱敏服务用于实现对函证的敏感隐私数据进行可靠保护;
所述定向爬虫模块用于精准地获取目标网站的信息;
所述信息抽取模块用于提取被征询方信息,所述被征询方信息包含以下一种或几种:被询证方的单位名称、地址、联系人、联系方式;
所述模板系统模块为询证函自动生成提供模板文件;
所述印刷文本OCR模块用于对回函的印刷文本进行汉字识别;
所述印章识别比对模块用于对被征询方回函的印章检测与印章内容识别;
所述推理引擎模块用于负责整个所述财务审计询证系统工作流的控制和各模块的智能调度;
所述背调子系统用于辅助调查被询证方的信息是否属实;
所述询证函自动生成用于自动生成询证函;
所述运单自动填写与追踪用于自动填写运单相关信息以及追踪运单;
所述回函自动确认与分类用于对被征询方回函的自动确认及其分类。
进一步的,为了方便系统扩展或与其他系统(平台或应用),本发明所述财务审计询证系统还包括接口层,所述接口层用于与其他平台或应用进行对接,而预留的。例如可以通过接口层实现在微信上使用函证辅助系统的部分功能,或者实现函证辅助系统与现有的Excel插件配合使用。
进一步的,以上所述财务审计询证系统的所述数据层的数据脱敏服务是对函证涉及的商业敏感信息通过脱敏规则进行数据的变形;所述脱敏规则进行数据的变形包含以下一种或几种操作:信息切割、信息打散、抽样选取。本发明的所述数据脱敏指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。函证主要涉及商业相关信息,本发明主要通过将信息切割、打散的形式,使得系统开发人员无法根据脱敏后的数据,完整复原出原始的商业相关信息。例如,对于询证函的扫描图像,脱敏过程将每张原始扫描图像切割成若干份,然后再随机抽样选取部分切割后的图像,用于模型训练及系统开发。
进一步的,以上所述财务审计询证系统的所述基础层的所述定向爬虫模块用于精准地获取目标网站的信息;所述定向爬虫模块包括引擎、下载器、下载中间件、爬虫中间件、调度器以及至少一爬虫;所述爬虫为负责对某个数据源的页面进行解析,并从中分离出目标信息的程序。定向爬虫是网络爬虫中的一种,用于精准地获取目标网站的信息。
进一步的,所述定向爬虫模块包括:引擎、下载器、下载中间件、爬虫中间件、调度器和具体的定向爬虫。“爬虫”应理解为负责对某个数据源的页面进行解析,并从中分离出目标信息的程序。它属于“定向爬虫模块”的一部分。所述定向爬虫模块包含有许多的“爬虫”,每个“爬虫”只负责一个数据源,而整个“定向爬虫模块”则负责对这些“爬虫”的管理和调度。
需要说明的是,本发明的财务审计询证系统的所述背调子系统和所述运单自动填写与追踪都需要借助所述基础层的定向爬虫模块实现与目标站点的全自动交互。
进一步的,以上所述财务审计询证系统的所述基础层的所述信息抽取模块用于提取被征询方信息,所述信息抽取包含命名实体识别和实体关系抽取两项任务;所述信息抽取模块从网络中采用实体命名识别技术提取被询证方信息,所述网络包含以下一种或几种:被询证方公司官网、工商网站、招聘网站。
其中,所述实体命名识别技术为深度神经网络模型,所述深度神经网络模型为双向长短时记忆神经网络和条件随机场混合模型。
进一步的,所述深度神经网络模型构造包含依次关联的嵌入层、双向LSTM层、CRF层;
所述嵌入层根据预训练好的字向量,将输入文本中的每个字由独热编码,映射为低维稠密的字向量;
所述双向LSTM层结合上下文信息,自动提取句子特征;
所述CRF层,使用Viterbi动态规划算法来求解最优路径,进行句子级的序列标注;
所述深度神经网络模型还根据所述序列标注的结果从原始文本中截取相应字符串得到所需的结构化信息。
进一步的,以上所述财务审计询证系统的所述基础层的所述模板系统模块包含至少一种模板文件,不同类别的询证业务对应不同的模板文件;所述模板文件包含固定的文本和待替换的变量;所述待替换的变量以点位符的形式保存在模板文件中。
进一步的,以上所述财务审计询证系统的应用层的背调子系统通过定向爬虫的技术,分别以待查实的公司名称、地址、联系方式作为检索词,在通用搜索引擎和/或垂直网站上进行搜索,然后将检索结果与被审计单位提供的被询证方的信息进行比对,将比对的结果以可视化的形式直观地展示给审计人员。
进一步的,以上所述财务审计询证系统的应用层的所述运单自动填写与追踪包括运单自动填写功能和运单追踪功能;所述运单自动填写功能为通过模拟浏览器的技术,所述财务审计询证系统在计算机内存中自动启动一个无头浏览器,然后通过Javascript脚本读入运单相关信息,再通过Javascript脚本自动填写到运单中;所述运单追踪功能为所述财务审计询证系统采用定向爬虫的技术从快递公司网站定时抓取相关运单的信息,以实时追踪运单信息;所述运单信息包含以下一种或几种:运单历史投递的轨迹、当前投递的情况、运单所处的位置、负责的快递人员及联系方式。
进一步的,以上所述财务审计询证系统的应用层的所述回函自动确认与分类通过调用所述基础层中的印刷文本OCR、印章识别与比对、以及推理引擎模块,进行被征询方回函的自动确认及其分类。
需要进一步说明的是,本发明的所述财务审计询证系统的所述数据包括函证过程中产生的文件的扫描件、所述文件的相关元数据;所述扫描件包括发函信件扫描件、发函信封扫描件、回函信件扫描件、回函信封扫描件中的至少一者;所述相关元数据包括函证编号、函证内容、被询证者信息、被审计单位信息、请求函证的审计项目组信息中的至少一者。
所述数据除了上述所涉及的,所述数据还包括所述财务审计询证系统运行时产生的中间数据,所述中间数据包括定向爬虫抓取的原始文档、信息抽取的结果中的至少一者。
需要进一步说明的是,本发明的所述财务审计询证系统的所述应用层的服务可复用所述基础层的模块。例如,所述应用层的定向爬虫模块可以同时为所述应用层中的所述背调子系统和所述运单自动填写与追踪服务提供支持。
与现有技术相比,本发明的财务审计询证系统,保证了被审计单位所提供的信息准确性,同时使得财务审计询证工作操作更便捷,提高工作效率,节约人力成本,同时避免了因人工操作导致遗漏或不同工作人员导致差异。另外,本发明的财务审计询证系统还包括接口层,所述接口层用于与其他平台或应用进行对接,具备灵活性、可拓展性。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例1的所述财务审计询证系统的示意图;
图2为本发明实施例1的所述定向爬虫模块的工作原理示意图;
图3为本发明实施例2的所述财务审计询证系统的示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本发明提供了一种财务审计询证系统,如附图1所示,包括数据层1、基础层2、应用层3;所述数据层1用于存储和管理系统所需的数据;所述基础层2用于提供系统所需的通用基础功能和模块;所述应用层3用于向用户提供面对面的服务;所述数据层1与基础层2连接;所述应用层3与数据层1和基础层2连接。
所述数据层1负责包括对所述财务审计询证系统的相关数据进行数据仓储、数据清洗、信息检索、支持基础层模型训练的数据脱敏服务中的至少一种处理。
本发明所指所述财务审计询证系统的相关数据包括但不限于如下:过往询证工作中积累的相关数据,发函(发包括电子文档及扫描文件);回函(扫描文件);发函物流信息(寄件人及收件人单位、姓名、地址、联系方式、运单号、信封扫描文件、寄件日期、收件日期);回函物流信息(寄件人及收件人单位、姓名、地址、联系方式、运单号、信封扫描文件、寄件日期、收件日期)、被审计单位基本信息(公司名称、地址)、被询证单件基础信息(公司名称、地址)。
所述基础层2包括定向爬虫模块、信息抽取模块、模板系统模块、印刷文本OCR模块、印章识别比对模块、推理引擎模块中的至少一者;
所述应用层3在所述基础层2和所述数据层1之上构筑的以实现具体业务;所述具体业务包括背调子系统、询证函自动生成、运单自动填写与追踪、回函自动确认与分类中的至少一者;
所述数据脱敏服务用于实现对函证的敏感隐私数据进行可靠保护;
所述定向爬虫模块用于精准地获取目标网站的信息;
所述信息抽取模块用于提取被征询方信息,所述被征询方信息包含以下一种或几种:被询证方的单位名称、地址、联系人、联系方式;
所述模板系统模块为询证函自动生成提供模板文件;
所述印刷文本OCR模块用于对回函的印刷文本进行汉字识别;
所述印章识别比对模块用于对被征询方回函的印章检测与印章内容识别;
所述推理引擎模块用于负责整个所述财务审计询证系统工作流的控制和各模块的智能调度,其中各个模块为所述数据层1、所述基础层2、所述应用层3所有的模块。
所述背调子系统用于辅助调查被询证方的信息是否属实;
所述询证函自动生成用于自动生成询证函;
所述运单自动填写与追踪用于自动填写运单相关信息以及追踪运单;
所述回函自动确认与分类用于对被征询方回函的自动确认及其分类。
所述数据脱敏服务是对函证涉及的商业敏感信息通过脱敏规则进行数据的变形;所述脱敏规则进行数据的变形包含以下一种或几种操作:信息切割、信息打散、抽样选取。需要说明的是,本发明系统运行需要人工智能模型的支持,而训练人工智能模型又需要有训练数据。由于财务审计工作涉及到被审计单位和被询证单位的商业信息,往往不宜公开。因此,不能将过往询证工作中积累的数据直接作为训练数据,而是应当将这些数据经过脱敏处理之后,才能形成训练数据,进而用这些训练数据训练人工智能模型。
所述基础层2的定向爬虫模块用于精准地获取目标网站的信息;所述定向爬虫模块包括引擎、下载器、下载中间件、爬虫中间件、调度器以及至少一爬虫;所述爬虫为负责对某个数据源的页面进行解析,并从中分离出目标信息的程序。所述定向爬虫模块的工作原理如附图2所示,爬虫引擎基于事件驱动架构,负责控制系统中的全部数据流动;调度器从引擎接受请求并入队,负责在引擎需要请求的时候提供给引擎;下载器负责抓取目标站点页面数据,并提供给引擎(从而间接提供给爬虫);爬虫包含具体的数据抓取逻辑,包括从网络响应中提取数据,并提供下一步跟进动作所需要的链接地址;数据清洗负责处理爬虫提取出来的数据,主要包括清理、验证、持久化等工作;下载中间件是介于引擎和下载器之间的特定钩子,处理下载器传递给引擎的响应。爬虫中间件是介于引擎和爬虫之间的特定钩子,处理爬虫的输入(响应)和输出(数据及下一步跟进动作的请求)。由于每个目标站点的链接地址、排版等都不尽相同,因此需要针对每个目标站点编写专用的定向爬虫。信息抽取技术应用在定向爬虫的数据清洗过程中,用于从非结构化文本中(句子),抽取结构化信息(如被询证单位相关信息)。而与目标站点的复杂交互则被封装成爬虫中间件的形式,整合进定向爬虫系统,例如运单的自动填写与追踪需要引入无头浏览器,通过模拟浏览器的技术来实现。
所述信息抽取模块用于提取被征询方信息,所述信息抽取包含命名实体识别和实体关系抽取两项任务;所述信息抽取模块从网络中采用实体命名识别技术提取被询证方信息,所述网络包含以下一种或几种:被询证方公司官网、工商网站、招聘网站。
本发明中的信息抽取技术主要应用于从公开网站中(如公司官网、工商网站、招聘网站)提取被询证方的单位名称、地址、联系人、联系方式等信息,这主要涉及信息抽取中的命名实体识别技术。
所述模板系统模块包含至少一种模板文件,不同类别的询证业务对应不同的模板文件;所述模板文件包含固定的文本和待替换的变量;所述待替换的变量以点位符的形式保存在模板文件中。例如,点位符${first_party}表示甲方,自动生成询证函的时候,系统会将模板文件中,所有出现${first_party}的地方,都替换为具体的甲方的名称。
进一步的,优选地,本发明实施例的所述实体命名识别技术为深度神经网络模型,所述深度神经网络模型为双向长短时记忆神经网络(BiLSTM)和条件随机场(CRF)混合模型。
具体而言,上述的所述深度神经网络模型构造包含依次关联的嵌入层、双向LSTM层、CRF层;
所述嵌入层(embedding)根据预训练好的字向量,将输入文本中的每个字由独热编码(one-hot),映射为低维稠密的字向量;
所述双向LSTM层结合上下文信息,自动提取句子特征;
所述CRF层,使用Viterbi动态规划算法来求解最优路径,进行句子级的序列标注;
所述深度神经网络模型还根据所述序列标注的结果从原始文本中截取相应字符串得到所需的结构化信息。
在本发明实施中,所述背调子系统通过定向爬虫的技术,分别以待查实的公司名称、地址、联系方式作为检索词,在通用搜索引擎(如百度)和/或垂直网站(如各大招聘网站)上进行搜索,然后将检索结果与被审计单位提供的被询证方的信息进行比对,将比对的结果以可视化的形式直观地展示给审计人员。背调子系统其功能是辅助调查被询证方的信息(如公司名称、地址、联系人、联系方式)是否属实。
目前现有技术中,运单填写,需要工作人员用浏览器打开快递公司网站,然后填写运单相关信息,(如收件人、收件地址、发件人),最后提交,完成向快递公司发送寄送快递的请求。而在本发明实施中,所述运单自动填写与追踪包括运单自动填写功能和运单追踪功能;所述运单自动填写功能为通过模拟浏览器的技术,所述财务审计询证系统在计算机内存中自动启动一个无头浏览器,然后通过Javascript脚本读入运单相关信息,再通过Javascript脚本自动填写到运单中。本发明系统是通过模拟人手动提交快递单的方式,实现快递单的自动填写。
上述的所述运单追踪功能为所述财务审计询证系统采用定向爬虫的技术从快递公司网站定时抓取相关运单的信息,以实时追踪运单信息;所述运单信息包含以下一种或几种:运单历史投递的轨迹、当前投递的情况、运单所处的位置、负责的快递人员及联系方式。
在本发明实施中,所述回函自动确认与分类通过调用所述基础层2中的印刷文本OCR、印章识别与比对、以及推理引擎模块,进行被征询方回函的自动确认及其分类。
所述回函自动确认与分类是通过调用础层中的印刷文本OCR、印章识别与比对、以及推理引擎模块,人工智能模型的训练需要所述数据层1中的数据脱敏模块提供数据以进行离线模型训练,所述应用层3中的服务往往需要同时调用所述基础层2和所述数据层1中的多个模块,本发明系统工作需要训练2个人工智能模型,分别应用于印刷文本OCR和印章识别与比对模块。2个模型都是卷积神经网络(CNN),2个模型主要的不同在于训练数据的不同,具体如下:
用于印刷文本OCR的卷积神经网络模型,其训练数据是发函信件扫描文件和电子文档。
用于印章识别与比对的卷积神经网络模型,其训练数据是回函信件扫描文件、被审计位基本信息(如公司名称)、被询证单位基本信息(如公司名称)。
本发明的所述数据层1用于存储和管理系统所需的数据,其中,所述数据包括函证过程中产生的文件的扫描件、所述文件的相关元数据;所述扫描件包括发函信件扫描件、发函信封扫描件、回函信件扫描件、回函信封扫描件中的至少一者;所述相关元数据包括函证编号、函证内容、被询证者信息、被审计单位信息、请求函证的审计项目组信息中的至少一者。
进一步的,所述数据还包括所述财务审计询证系统运行时产生的中间数据,所述中间数据包括定向爬虫抓取的原始文档、信息抽取的结果中的至少一者。
需要说明的是,在本发明中,所述应用层3的服务可复用所述基础层2的模块。
汉字识别是一个极富挑战的模式识别及机器学习问题。仅1980年制定的国标GB2312-80编码就包含多达6763个常用汉字,远超英语、拉丁语等西方语言。而且,中文中还存在许多相似的汉字,如“已-己”、“睛-晴”、“海-诲”、“绞-纹”、“莱-菜”等,更是给计算机自动识别汉字带来极大的挑战。
汉字识别经历40多年的发展,在单字和文本行识别方面有了很大的提高,尤其是以卷积神经网络(CNN)为代表的深度学习模型已经能较好地解决单字符中文识别问题。但若考察整行文本的识别,即以整行为单位来评价识别率,行级别的识别正确率仍然很低。
本发明对回函真实性进行核验的过程中,对OCR识别正确率的要求很高,现有通用的OCR技术难以满足要求。但由于回函真实性核验通常不需要核对全部的文本,只需要比对发函和回函中的关键要素是否一致即可,再加上信件内容是由会计师事务所主动发出的,系统能够有效控制信件内容的排版、字体等因素,从而在业界现有技术仍未完全成熟的条件下,提升识别正确率,满足用户需求。
整个函证信件的所述印刷文本OCR模块的OCR识别过程,如附图3所示,具体如下:
针对函证业务的特点,本发明在通用OCR系统的基础上,提出如下的改进方案,从多个方面提升汉字识别的正确率。
在设计询证函模板时,采用简洁的排版,提高OCR系统版面分析的正确率;使用统一的字体、字号,并训练专门的汉字识别模型,以进一步提升OCR识别的正确率。
询证函模板中引入统一的页眉、页脚,帮助OCR系统根据页眉线、页脚线进行倾斜图像的检测与校正。
自动生成的询证函中,在需要进行回函真实性核验的关键要素信息附近引入不影响阅读、不改变原文语义的定位图案,帮助OCR系统精确定位到需要核对的关键信息;
针对函证用语特点,训练专门的语言模型,自动修正错误的OCR识别结果。
所述印章识别比对模块对包括印章检测与内容识别两个关键步骤。
印章检测的任务是从扫描图片中,定位出印章的具体位置。它不考虑印章的具体内容(如文字),而是将印章做为一个整体加以识别。鉴于深度卷积神经网络(CNN)已经在图像分类问题中取得巨大成功,在ImageNet数据集上更是达到(甚至)超越人类的识别水平,我们将基于深度卷积神经网络来实现印章的检测与定位。
深度卷积神经网络包含有许多个串联的卷积模块。每个卷积模块通常由若干个卷积层(Conv)和1个池化层(Polling)构成。这些卷积模块逐级抽象图像中物体的特征,供神经网络最后的全连接层(Dense)进行分析和判断。
为便于后续印章内容的识别,本发明不仅要定位出印章的具体位置,还需要根据印章的外观,进一步确定印章的种类,例如,通常财务章、公章、合同章是圆形的,发票章是椭圆形的,法人章是方形的,政府机构的公章是圆形的而且中间还有个五角星。
印章内容识别可以采用与印刷文本OCR类似的技术加以实现。但两项任务的特点存在诸多不同:
在函证信件印刷文本OCR任务中,由于函证信件是由会计师事务所主动发出的,因此其排版、字体是可控的,而印章是由被审计单位或被询证方人工加盖上去的,无法事先预知其排版、字体等信息,这给汉字识别带来困难,需要更多的数据来训练模型。
函证信件可以通过引入统一风格的页眉线、页脚线,定位图案等工程方法,帮助OCR系统进行倾斜角检测与校正等预处理工作,而印章图像的预处理则只能借助印章图案本身的特点来进行。例如,印章通常都是圆形、椭圆形、方形等对称性的图案。而且,不同形状的印章,其文字的排版也有一定的规律,例如圆形印章其文字有可能沿圆周方向呈环形分布,而方形印章,其文字一般沿直线分布。充分利用印章图案的这些特点,能有效提升印章文字识别的正确率。
所述推理引擎模块;负责整个系统工作流的控制和各模块的智能调度,例如推理引擎会在必要时候启动定向爬虫模块,抓取相关信息,或者在必要的时候向审计人员提示风险相关信息,或请求审计人员提供更多信息以完成相关函证工作。
推理引擎模块是一个基于一阶谓词逻辑实现的规则推理引擎。它包含规划器和规则库2部分。规则库由许多规则构成。每一条规则由前件和后件构成。当前件满足时,系统将执行后件,执行后可能会得到新的事实,也可能会触发相应的动作。每一步推理的时候,规划器都会根据规则库中的规则计算出新的事实(如风险信息)或触发相应的动作(如启动定向爬虫模块)。
实施例2
本发明提供了一种财务审计询证系统,如附图1所示,包括数据层1、基础层2、应用层3、接口层4;所述数据层1用于存储和管理系统所需的数据;所述基础层2用于提供系统所需的通用基础功能和模块;所述应用层3用于向用户提供面对面的服务;所述接口层4用于与其他平台或应用进行对接;所述数据层1与基础层2连接;所述应用层3与数据层1和基础层2连接。
所述接口层层是为方便系统扩展或与其他系统对接而预留的。例如,将来可以通过接口层,实现在微信上使用函证辅助系统的部分功能,或者实现函证辅助系统与现有的Excel插件配合使用。
所述数据层1负责包括对所述财务审计询证系统的相关数据进行数据仓储、数据清洗、信息检索、支持基础层2模型训练的数据脱敏服务中的至少一种处理。
本发明所指的相关数据包括但不限于如下:过往询证工作中积累的相关数据,发函(发包括电子文档及扫描文件);回函(扫描文件);发函物流信息(寄件人及收件人单位、姓名、地址、联系方式、运单号、信封扫描文件、寄件日期、收件日期);回函物流信息(寄件人及收件人单位、姓名、地址、联系方式、运单号、信封扫描文件、寄件日期、收件日期)、被审计单位基本信息(公司名称、地址)、被询证单件基础信息(公司名称、地址)。
所述基础层2包括定向爬虫模块、信息抽取模块、模板系统模块、印刷文本OCR模块、印章识别比对模块、推理引擎模块中的至少一者;
所述应用层3在所述基础层2和所述数据层1之上构筑的以实现具体业务;所述具体业务包括背调子系统、询证函自动生成、运单自动填写与追踪、回函自动确认与分类中的至少一者;
所述数据脱敏服务用于实现对函证的敏感隐私数据进行可靠保护;
所述定向爬虫模块用于精准地获取目标网站的信息;
所述信息抽取模块用于提取被征询方信息,所述被征询方信息包含以下一种或几种:被询证方的单位名称、地址、联系人、联系方式;
所述模板系统模块为询证函自动生成提供模板文件;
所述印刷文本OCR模块用于对回函的印刷文本进行汉字识别;
所述印章识别比对模块用于对被征询方回函的印章检测与印章内容识别;
所述推理引擎模块用于负责整个所述财务审计询证系统工作流的控制和各模块的智能调度,其中各个模块为所述数据层1、所述基础层2、所述应用层3所有的模块。
所述背调子系统用于辅助调查被询证方的信息是否属实;
所述询证函自动生成用于自动生成询证函;
所述运单自动填写与追踪用于自动填写运单相关信息以及追踪运单;
所述回函自动确认与分类用于对被征询方回函的自动确认及其分类。
需要说明的是,本发明系统运行需要人工智能模型的支持,而训练人工智能模型又需要有训练数据。由于财务审计工作涉及到被审计单位和被询证单位的商业信息,往往不宜公开。因此,不能将过往询证工作中积累的数据直接作为训练数据,而是应当将这些数据经过脱敏处理之后,才能形成训练数据,进而用这些训练数据训练人工智能模型。
上述一种财务审计询证系统的所述数据层1、所述基础层2、所述应用层3的各个功能模块,以及系统的功能如何实现,与本发明实施例1相同,在此不再赘述。
上述说明描述了本发明的优选实施例,但应当理解本发明并非局限于上述实施例,且不应看作对其他实施例的排除。通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的改动也应视为在本发明的保护范围内。

Claims (9)

1.一种财务审计询证系统,其特征在于,
所述系统包括数据层、基础层、应用层;
所述数据层用于存储和管理系统所需的数据;所述基础层用于提供系统所需的通用基础功能和模块;所述应用层用于向用户提供面对面的服务;
所述数据层与所述基础层连接;所述应用层与所述数据层和所述基础层连接;
所述数据层负责包括对所述财务审计询证系统的相关数据进行数据仓储、数据清洗、信息检索、支持基础层模型训练的数据脱敏服务中的至少一种处理;
所述基础层包括定向爬虫模块、信息抽取模块、模板系统模块、印刷文本OCR模块、印章识别比对模块、推理引擎模块中的至少一者;
所述应用层在所述基础层和所述数据层之上构筑的以实现具体业务;所述具体业务包括背调子系统、询证函自动生成、运单自动填写与追踪、回函自动确认与分类中的至少一者;
所述数据脱敏服务用于实现对函证的敏感隐私数据进行可靠保护;
所述定向爬虫模块用于精准地获取目标网站的信息;
所述信息抽取模块用于提取被征询方信息,所述被征询方信息包含以下一种或几种:被询证方的单位名称、地址、联系人、联系方式;
所述模板系统模块为询证函自动生成提供模板文件;
所述印刷文本OCR模块用于对回函的印刷文本进行汉字识别;
所述印刷文本OCR模块的分析识别包括对所述模板文件具有统一的页眉、页脚,以及自动生成的模板文件中,在需要进行回函真实性核验的关键要素信息附近引入不影响阅读、不改变原文语义的定位图案,协助所述印刷文本OCR模块定位到需要核对的关键信息,针对函证用语特点,训练专门的语言模型,自动修正错误的印刷文本OCR模块识别结果;
所述印章识别比对模块用于对被征询方回函的印章检测与印章内容识别;
所述推理引擎模块用于负责整个所述财务审计询证系统工作流的控制和各模块的智能调度;
所述背调子系统用于辅助调查被询证方的信息是否属实;
所述询证函自动生成用于自动生成询证函;
所述运单自动填写与追踪用于自动填写运单相关信息以及追踪运单;
所述回函自动确认与分类用于对被征询方回函的自动确认及其分类;
所述数据脱敏服务是对函证涉及的商业敏感信息通过脱敏规则进行数据的变形;所述脱敏规则进行数据的变形包含以下一种或几种操作:信息切割、信息打散、抽样选取。
2.根据权利要求1所述的财务审计询证系统,其特征在于,所述财务审计询证系统还包括接口层,所述接口层用于与其他平台或应用进行对接。
3.根据权利要求1所述的财务审计询证系统,其特征在于,所述定向爬虫模块用于精准地获取目标网站的信息;所述定向爬虫模块包括引擎、下载器、下载中间件、爬虫中间件、调度器以及至少一爬虫;所述爬虫为负责对某个数据源的页面进行解析,并从中分离出目标信息的程序;
所述信息抽取模块用于提取被征询方信息,所述信息抽取包含命名实体识别和实体关系抽取两项任务;所述信息抽取模块从网络中采用实体命名识别技术提取被询证方信息,所述网络包含以下一种或几种:被询证方公司官网、工商网站、招聘网站;
所述模板系统模块包含至少一种模板文件,不同类别的询证业务对应不同的模板文件;所述模板文件包含固定的文本和待替换的变量;所述待替换的变量以点位符的形式保存在模板文件中。
4.根据权利要求3所述的财务审计询证系统,其特征在于,所述实体命名识别技术为深度神经网络模型,所述深度神经网络模型为双向长短时记忆神经网络和条件随机场混合模型。
5.根据权利要求4所述的财务审计询证系统,其特征在于,所述深度神经网络模型构造包含依次关联的嵌入层、双向LSTM层、CRF层;
所述嵌入层根据预训练好的字向量,将输入文本中的每个字由独热编码,映射为低维稠密的字向量;
所述双向LSTM层结合上下文信息,自动提取句子特征;
所述CRF层,使用Viterbi动态规划算法来求解最优路径,进行句子级的序列标注;
所述深度神经网络模型还根据所述序列标注的结果从原始文本中截取相应字符串得到所需的结构化信息。
6.根据权利要求1所述的财务审计询证系统,其特征在于,所述背调子系统通过定向爬虫的技术,分别以待查实的公司名称、地址、联系方式作为检索词,在通用搜索引擎和/或垂直网站上进行搜索,然后将检索结果与被审计单位提供的被询证方的信息进行比对,将比对的结果以可视化的形式直观地展示给审计人员;
所述运单自动填写与追踪包括运单自动填写功能和运单追踪功能;所述运单自动填写功能为通过模拟浏览器的技术,所述财务审计询证系统在计算机内存中自动启动一个无头浏览器,然后通过Javascript脚本读入运单相关信息,再通过Javascript脚本自动填写到运单中;
所述运单追踪功能为所述财务审计询证系统采用定向爬虫的技术从快递公司网站定时抓取相关运单的信息,以实时追踪运单信息;所述运单信息包含以下一种或几种:运单历史投递的轨迹、当前投递的情况、运单所处的位置、负责的快递人员及联系方式;
所述回函自动确认与分类通过调用所述基础层中的印刷文本OCR、印章识别与比对、以及推理引擎模块,进行被征询方回函的自动确认及其分类。
7.根据权利要求1所述的财务审计询证系统,其特征在于,所述数据包括函证过程中产生的文件的扫描件、所述文件的相关元数据;所述扫描件包括发函信件扫描件、发函信封扫描件、回函信件扫描件、回函信封扫描件中的至少一者;所述相关元数据包括函证编号、函证内容、被询证者信息、被审计单位信息、请求函证的审计项目组信息中的至少一者。
8.根据权利要求7所述的财务审计询证系统,其特征在于,所述数据还包括所述财务审计询证系统运行时产生的中间数据,所述中间数据包括定向爬虫抓取的原始文档、信息抽取的结果中的至少一者。
9.根据权利要求1所述的财务审计询证系统,其特征在于,所述应用层的服务可复用所述基础层的模块。
CN201810369139.1A 2018-04-23 2018-04-23 一种财务审计询证系统 Active CN108959349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810369139.1A CN108959349B (zh) 2018-04-23 2018-04-23 一种财务审计询证系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810369139.1A CN108959349B (zh) 2018-04-23 2018-04-23 一种财务审计询证系统

Publications (2)

Publication Number Publication Date
CN108959349A CN108959349A (zh) 2018-12-07
CN108959349B true CN108959349B (zh) 2021-10-08

Family

ID=64499640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810369139.1A Active CN108959349B (zh) 2018-04-23 2018-04-23 一种财务审计询证系统

Country Status (1)

Country Link
CN (1) CN108959349B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055527B2 (en) * 2019-02-01 2021-07-06 Intuit Inc. System and method for information extraction with character level features
CN110148048A (zh) * 2019-03-28 2019-08-20 翼帆数字科技(南京)有限公司 一种基于区块链技术的银行询证函管理方法
CN110532301B (zh) * 2019-08-30 2023-08-22 广西电网有限责任公司南宁供电局 审计方法、系统和可读存储介质
CN110543565A (zh) * 2019-08-30 2019-12-06 广西电网有限责任公司南宁供电局 基于卷积神经网络模型的审计方法、系统和可读存储介质
CN111191657B (zh) * 2019-11-19 2023-08-18 泰康保险集团股份有限公司 一种文字识别方法、装置及计算机可读存储介质
CN112541337B (zh) * 2020-12-16 2022-05-24 格美安(北京)信息技术有限公司 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113743891A (zh) * 2021-08-26 2021-12-03 安徽银杰信息科技有限公司 一种智能化的函证安全管理方法与管理平台
CN114238241B (zh) * 2022-02-26 2022-05-27 杭州字节方舟科技有限公司 财务数据的元数据处理方法和计算机系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9305315B2 (en) * 2009-06-27 2016-04-05 Christopher R. Petruzzi Auditing custodial accounts
CN104754058B (zh) * 2015-04-16 2018-08-10 贝才禾兑网络科技南京有限公司 基于SaaS平台的智慧财税服务平台
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN106599713B (zh) * 2016-11-11 2019-04-12 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN107317678B (zh) * 2017-06-05 2019-12-03 北京网证科技有限公司 一种基于互联网的电子询证函处理方法及系统
CN107492030A (zh) * 2017-07-03 2017-12-19 三峡大学 一种基于大数据的综合财务审计系统
CN107492032A (zh) * 2017-09-18 2017-12-19 发贵科技(贵州)有限公司 一种企业财务审计报告管理系统及其数据库平台
CN107797993A (zh) * 2017-11-13 2018-03-13 成都蓝景信息技术有限公司 一种基于序列标注的事件抽取方法

Also Published As

Publication number Publication date
CN108959349A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959349B (zh) 一种财务审计询证系统
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
US20180373711A1 (en) Extracting searchable information from a digitized document
CN108829681A (zh) 一种命名实体提取方法及装置
CN110334640A (zh) 一种票据审核方法及系统
US20210192129A1 (en) Method, system and cloud server for auto filing an electronic form
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN103678109A (zh) 一种转储文件分析方法、装置和系统
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN115984047A (zh) 结合rpa和ai实现ia的文书处理方法、装置、设备及介质
CN113837113A (zh) 基于人工智能的文档校验方法、装置、设备及介质
CN112069893A (zh) 一种票据处理方法、装置、电子设备及存储介质
CN112785404A (zh) 发票开具管理系统
US11620842B2 (en) Automated data extraction and document generation
CN116823422A (zh) 一种表单数据处理方法及装置
Tornés et al. Receipt Dataset for Document Forgery Detection
EP3662393A1 (en) Automated reporting system
CN117859122A (zh) 包括用于自动化文档处理的技术的ai增强的审计平台
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN113157949A (zh) 事件信息的抽取方法、装置、计算机设备及存储介质
KR102562186B1 (ko) 건물임대관리 기반 공문발송 서비스 제공 시스템
CN113963368A (zh) 业务数据的录入方法、装置、电子设备及存储介质
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity
CA3156204A1 (en) Domain based text extraction
Wattar Analysis and Comparison of invoice data extraction methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant