CN114912417A - 业务数据处理方法、装置、设备及存储介质 - Google Patents
业务数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114912417A CN114912417A CN202210585346.7A CN202210585346A CN114912417A CN 114912417 A CN114912417 A CN 114912417A CN 202210585346 A CN202210585346 A CN 202210585346A CN 114912417 A CN114912417 A CN 114912417A
- Authority
- CN
- China
- Prior art keywords
- contract
- keywords
- service
- keyword
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种业务数据处理方法、装置、设备及存储介质,用于提高业务数据处理的准确率。所述业务数据处理方法包括:查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;调用预置的文字识别模型对业务合同进行文字识别,得到初始文字数据;对初始文字数据进行预处理,得到标准文字数据;通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。此外,本发明还涉及区块链技术,合同关键词可存储于区块链节点中。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种业务数据处理方法、装置、设备及存储介质。
背景技术
当前,私募上架的合同因为各个管理人的不同,有非常多的种类,没有一个的统一的合同模版。要在如此众多且繁杂的合同上面标注关键要素的位置,国内还并不存在非常成熟的电子合同关键要素识别算法。
普遍的做法是人工在电子合同上面手工进行标注签名位置、日期位置等的做法,这需要大量的人工支持,如果合同过多,人工标注的时间也会过长。并且合同页数过多,人工标注往往容易造成遗漏,给合同带来法律合规上的风险。
发明内容
本发明提供了一种业务数据处理方法、装置、设备及存储介质,用于提高业务数据处理的准确率。
本发明第一方面提供了一种业务数据处理方法,所述业务数据处理方法包括:从预置的合同数据库中查询待处理的业务合同,并在所述预置的合同数据库中生成关键词集合,其中,所述关键词集合包括多个预设关键词;调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据;对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据;通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词。
可选的,在本发明第一方面的第一种实现方式中,所述调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据,包括:对所述业务合同进行格式转换,得到图片格式的业务合同,并对所述图片格式的业务合同进行灰度化和二值化处理,得到二值化的业务合同;对所述二值化的业务合同进行噪声去除和角度矫正,得到标准化的业务合同;对所述标准化的业务合同进行行切分和字符切分,得到切分后的业务合同,并对所述切分后的业务合同进行文字识别,得到初始文字数据。
可选的,在本发明第一方面的第二种实现方式中,所述对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据,包括:对所述初始文字数据进行空格去除和特殊符号去除,并对去除后的文字数据进行段落拼接,得到拼接文本数据;对拼接文本数据进行分词处理,得到所述初始文字数据对应的标准文字数据,其中,所述标准文本数据包括所述初始文本数据对应的多个关键词。
可选的,在本发明第一方面的第三种实现方式中,所述通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词,包括:基于预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行关键词相似度计算,得到所述标准文字数据中每个关键词对应的目标相似度;对所述每个关键词对应的目标相似度和预置的相似度阈值进行比较,并将目标相似度大于所述相似度阈值时所述目标相似度对应的关键词作为合同关键词。
可选的,在本发明第一方面的第四种实现方式中,在所述通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词之后,所述业务数据处理方法还包括:对所述合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词;对所述处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词;基于所述坐标位置对所述填充后的合同关键词进行位置校对,得到合同要素坐标位置。
可选的,在本发明第一方面的第五种实现方式中,所述对所述合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词,包括:提取所述合同关键词中大于预设长度的关键词,得到长关键词,并对所述长关键词进行换行处理,得到换行处理后的合同关键词;对所述换行处理后的合同关键词进行整体日期处理,得到处理后的合同关键词。
可选的,在本发明第一方面的第六种实现方式中,所述对所述处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词,包括:基于预置的辅助关键词判断策略对所述处理后的合同关键词进行筛选,得到待填充的签名关键词;基于预置的填充策略对所述待填充的签名关键词进行填充处理,得到填充后的合同关键词。
本发明第二方面提供了一种业务数据处理装置,所述业务数据处理装置包括:查询模块,用于从预置的合同数据库中查询待处理的业务合同,并在所述预置的合同数据库中生成关键词集合,其中,所述关键词集合包括多个预设关键词;计算模块,用于调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据;处理模块,用于对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据;匹配模块,用于通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词。
可选的,在本发明第二方面的第一种实现方式中,所述计算模块具体用于:对所述业务合同进行格式转换,得到图片格式的业务合同,并对所述图片格式的业务合同进行灰度化和二值化处理,得到二值化的业务合同;对所述二值化的业务合同进行噪声去除和角度矫正,得到标准化的业务合同;对所述标准化的业务合同进行行切分和字符切分,得到切分后的业务合同,并对所述切分后的业务合同进行文字识别,得到初始文字数据。
可选的,在本发明第二方面的第二种实现方式中,所述处理模块具体用于:对所述初始文字数据进行空格去除和特殊符号去除,并对去除后的文字数据进行段落拼接,得到拼接文本数据;对拼接文本数据进行分词处理,得到所述初始文字数据对应的标准文字数据,其中,所述标准文本数据包括所述初始文本数据对应的多个关键词。
可选的,在本发明第二方面的第三种实现方式中,所述匹配模块具体用于:基于预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行关键词相似度计算,得到所述标准文字数据中每个关键词对应的目标相似度;对所述每个关键词对应的目标相似度和预置的相似度阈值进行比较,并将目标相似度大于所述相似度阈值时所述目标相似度对应的关键词作为合同关键词。
可选的,在本发明第二方面的第四种实现方式中,所述业务数据处理装置还包括:分析模块,用于对所述合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词;填充模块,用于对所述处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词;校对模块,用于基于所述坐标位置对所述填充后的合同关键词进行位置校对,得到合同要素坐标位置。
可选的,在本发明第二方面的第五种实现方式中,所述分析模块具体用于:提取所述合同关键词中大于预设长度的关键词,得到长关键词,并对所述长关键词进行换行处理,得到换行处理后的合同关键词;对所述换行处理后的合同关键词进行整体日期处理,得到处理后的合同关键词。
可选的,在本发明第二方面的第六种实现方式中,所述校对模块具体用于:基于预置的辅助关键词判断策略对所述处理后的合同关键词进行筛选,得到待填充的签名关键词;基于预置的填充策略对所述待填充的签名关键词进行填充处理,得到填充后的合同关键词。
本发明第三方面提供了一种业务数据处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务数据处理设备执行上述的业务数据处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的业务数据处理方法。
本发明提供的技术方案中,从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。本发明通过对识别结果并与系统已预设的关键字进行匹配,根据识别和匹配结果进行对应的策略处理,最后输出相应的位置坐标,可以减少电子合同的人工标注工作量,提高标注的准确度。
附图说明
图1为本发明实施例中业务数据处理方法的一个实施例示意图;
图2为本发明实施例中业务数据处理方法的另一个实施例示意图;
图3为本发明实施例中业务数据处理装置的一个实施例示意图;
图4为本发明实施例中业务数据处理装置的另一个实施例示意图;
图5为本发明实施例中业务数据处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种业务数据处理方法、装置、设备及存储介质,用于提高业务数据处理的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中业务数据处理方法的第一个实施例包括:
101、从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;
具体的,服务器在后台管理系统上面上传电子合同并且预设关键词。预设关键词是在后台管理系统上操作,后管上面有对应的输入框,可以输入关键词,例如输入:自然人(签字);点击保存之后就成为预设关键词。
可以理解的是,本发明的执行主体可以为业务数据处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
102、调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;
具体的,服务器进行文字识别包括PDF转图片,灰度化,二值化,去除噪声,角度矫正等,图片分割,其中又包含行切分以及字符切分。文字识别,服务器将分割后的图片提取特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符,对字符进行定位,以文档左上角为原点,计算字符在文档中的坐标位置(X,Y)。
103、对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;
具体的,服务器对OCR识别出的文字进行预处理,包括去除空格、去除特殊符号、拼接段落、分词处理等。服务器对初始文字数据进行空格去除和特殊符号去除,服务器对去除后的文字数据进行段落拼接,得到拼接文本数据;服务器对拼接文本数据进行分词处理,得到初始文字数据对应的标准文字数据,其中,标准文本数据包括初始文本数据对应的多个关键词。
104、通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。
具体的,服务器将预处理后的文字与预设的关键词进行匹配,服务器基于预置的模糊匹配算法对标准文字数据和关键词集合进行关键词相似度计算,得到标准文字数据中每个关键词对应的目标相似度;服务器对每个关键词对应的目标相似度和预置的相似度阈值进行比较,并将目标相似度大于相似度阈值时目标相似度对应的关键词作为合同关键词,关键词匹配用到了模糊匹配算法,如果关键词和预设的关键词相似度达到80%则认为匹配成功。
进一步地,服务器将合同关键词存储于区块链数据库中,具体此处不做限定。
本发明实施例中,从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。本发明通过对识别结果并与系统已预设的关键字进行匹配,根据识别和匹配结果进行对应的策略处理,最后输出相应的位置坐标,可以减少电子合同的人工标注工作量,提高标注的准确度。
请参阅图2,本发明实施例中业务数据处理方法的第二个实施例包括:
201、从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;
具体的,服务器在后台管理系统上面上传电子合同并且预设关键词。预设关键词是在后台管理系统上操作,后管上面有对应的输入框,可以输入关键词,例如输入:自然人(签字);点击保存之后就成为预设关键词。
202、调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;
具体的,服务器对业务合同进行格式转换,得到图片格式的业务合同,并对图片格式的业务合同进行灰度化和二值化处理,得到二值化的业务合同;服务器对二值化的业务合同进行噪声去除和角度矫正,得到标准化的业务合同;服务器对标准化的业务合同进行行切分和字符切分,得到切分后的业务合同,并对切分后的业务合同进行文字识别,得到初始文字数据;服务器将业务合同的左上角作为原点,计算初始文字数据在业务合同中的坐标,得到初始文字数据对应的坐标位置。具体的,服务器预处理,主要对业务合同进行格式转换,得到图片格式的业务合同,并对图片格式的业务合同进行灰度化和二值化处理,得到二值化的业务合同;服务器对二值化的业务合同进行噪声去除和角度矫正,得到标准化的业务合同;服务器对标准化的业务合同进行行切分和字符切分,得到切分后的业务合同,服务器对切分后的业务合同进行文字识别,得到初始文字数据,每一汉字用32×32点阵表示,分别从上下左右四个方向扫描汉字点阵,得到四个数值P1、P2、P3、P4,把这四个数值存入数据库。通过大量的学习、记忆,得到一个所有汉字的四边特征数据库。用该方法识别汉字时,服务器从数据库中检索出一个最相似的汉字,得到识别结果;服务器将业务合同的左上角作为原点,计算初始文字数据在业务合同中的坐标,得到坐标位置。
203、对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;
具体的,服务器对初始文字数据进行空格去除和特殊符号去除,并对去除后的文字数据进行段落拼接,得到拼接文本数据;服务器对拼接文本数据进行分词处理,得到初始文字数据对应的标准文字数据,其中,标准文本数据包括初始文本数据对应的多个关键词。具体的,服务器进行空格去除和特殊符号去除,服务器进行标准化处理主要是对初始文本数据中的重复内容进行去除。服务器首先计算重复数据,通过计算初始文本数据对应的文本框出现的页数,服务器对于在85%的初始文本数据中出现的文本信息,则默认是页眉页脚,服务器对页面页脚直接进行删除。然后服务器还对连续重复数据进行去重:对于每个内容,寻找其最大连续上升序列,获取每个内容连续出现的片段,服务器计算连续片段的最大覆盖,服务器求一个时间点,覆盖了尽可能多的连续片段,在覆盖的端点出计算连续出现的内容,服务器删除除了该覆盖点,在当前连续片段中其他地方出现的内容。
204、通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词;
具体的,服务器基于预置的模糊匹配算法对标准文字数据和关键词集合进行关键词相似度计算,得到标准文字数据中每个关键词对应的目标相似度;服务器对每个关键词对应的目标相似度和预置的相似度阈值进行比较,并将目标相似度大于相似度阈值时目标相似度对应的关键词作为合同关键词。具体的,服务器基于OCR的私募业务合同关键要素识别算法能够自动提取电子合同上面的关键要素,例如:签名位置、日期位置、用印位置等的坐标(x,y)。根据识别结果并与系统已预设的关键字进行匹配,根据识别和匹配结果进行对应的策略处理,最后输出相应的位置坐标。该算法填补了国内电子合同自动标注位置坐标的相对空白,利用该算法,可以减少电子合同的人工标注工作量,提高标注的准确度,减少合同标注所耗费的时间。有利于合同更快、更准确的上架并投入使用,同时减少了过往人工标注大页数合同可能带来的遗漏、错标等的情况,更好的保护合同的法律效应。在记录中标记关键词的首字符存在于待匹配文本中;如果不是,且匹配信息集合中存在字符所属关键词的记录时,获取字符所属关键词的记录。
205、对合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词;
具体的,服务器提取合同关键词中大于预设长度的关键词,得到长关键词,并对长关键词进行换行处理,得到换行处理后的合同关键词;服务器对换行处理后的合同关键词进行整体日期处理,得到处理后的合同关键词。
206、对处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词;
具体的,服务器基于预置的辅助关键词判断策略对处理后的合同关键词进行筛选,得到待填充的签名关键词;服务器基于预置的填充策略对待填充的签名关键词进行填充处理,得到填充后的合同关键词。具体的,服务器提取合同关键词中大于预设长度的关键词,得到长关键词,并对长关键词进行换行处理,得到换行处理后的合同关键词;服务器对换行处理后的合同关键词进行整体日期处理,得到处理后的合同关键词。具体的,服务器关键字换行处理策略:关键词过长会换行(在PDF文档上占用两行及以上视为过长),需要把上下两行拼接再进行处理;整体日期处理策略:日期如果有前缀,例如2021年_月_日,则无需标注“年”,只需标注“月”,“日”。服务器基于预置的辅助关键词判断策略对处理后的合同关键词进行筛选,得到待填充的签名关键词;服务器基于预置的填充策略对待填充的签名关键词进行填充处理,得到填充后的合同关键词。
207、基于坐标位置对填充后的合同关键词进行位置校对,得到合同要素坐标位置。
需要说明的是,关键字电子围栏碰撞处理策略:判断当前关键词周围有无其他关键词,首先定义一个虚拟的围栏,虚拟围栏使用了碰撞算法,给定宽和高,宽高为具体像素长度,可以在后管系统预先设定。以当前关键词为原点,绕着关键词移动,如果有其他关键词落入围栏,则判断有其他关键词在当前关键词周围,签名位置(例:合同上有客户签名:____,那签名位置就应该是下划线上面,如客户签名:张三)往右边移动。以此类推,如果右边还有其他关键词发生了碰撞,则签名位置往下移动。辅助关键词判断策略:合同上面往往会存在自然人签名的位置,以及机构或者公司签名盖章的位置,需要做出区分。所以可以在后台管理系统预设一些辅助关键词(如机构、公章),如果识别出的签名位关键词周围存在辅助关键词,则认为是机构或者公司签名盖章的位置。无匹配关键词处理策略:如果合同上面没有预留特定签名的位置。这种合同统一在最后一页寻找出空白处标注。日期、签名位顺序处理策略:在每一页合同上面,日期的位置都应该在签名位置的后面,所以需要筛选、调整。对于当前页面没有签名位置,但有日期位置的,需过滤此页;若当前页面日期的位置在签名位置的前面,则忽略此日期位置。多关键词筛选策略:对于是连续相连行的关键词,只对最后一行标注签名位。例:第一行是:委托人/受益人:第二行是:自然人投资者(签字),则只匹配第二行的自然人投资者(签字)关键词。年、月、日替换整体日期策略:如果文档上面匹配出年、月、日关键词,则单独标注年、月、日的坐标位置,否则标注一个整体的日期位置。例:如果文档上面是签署日期:__年__月__日,则只需填充对应的年、月、日到对应的横线上面,填充后变为:2021年9月8日。如果文档上面是签署日期:________,则直接填充整体的2021年9月8日到横线上面,签名位置包含特殊符号的处理策略:文档上面如果存在括号、中括号等,需要把关键词标注在中括号内,需要对此进行坐标校对。例:如果文档上面有经办人签名:【】,则需要将签名位置填充到中括号里面,变为经办人签名:【张三】。具体的,服务器获取坐标位置的横纵坐标,得到坐标位置对应的横坐标和纵坐标,以及获取预置的PDF文档对应的宽和高;服务器对横坐标和宽进行比对,若横坐标大于PDF文档的宽,则对横坐标进行修正处理,得到修正后的横坐标,并对纵坐标和高进行比对,若纵坐标大于PDF文档的高,则对纵坐标进行修正处理,得到修正后的纵坐标;服务器基于修正后的横坐标和修正后的纵坐标生成合同要素坐标位置。具体的,服务器对所有的关键词坐标位置进行过滤判断,拿所有关键词的坐标与PDF文档的宽高进行比对,如果关键词X轴坐标大于PDF的宽,则去除。如果关键词X轴坐标小于等于0,去除。如果关键词Y坐标大于PDF文档的高,则去除。如果关键词Y坐标小于等于0,则去除。最后输出处理后的合同要素坐标位置。
进一步地,服务器将合同关键词存储于区块链数据库中,具体此处不做限定。
本发明实施例中,从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。本发明通过对识别结果并与系统已预设的关键字进行匹配,根据识别和匹配结果进行对应的策略处理,最后输出相应的位置坐标,可以减少电子合同的人工标注工作量,提高标注的准确度。
上面对本发明实施例中业务数据处理方法进行了描述,下面对本发明实施例中业务数据处理装置进行描述,请参阅图3,本发明实施例中业务数据处理装置第一个实施例包括:
查询模块301,用于从预置的合同数据库中查询待处理的业务合同,并在所述预置的合同数据库中生成关键词集合,其中,所述关键词集合包括多个预设关键词;
计算模块302,用于调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据;
处理模块303,用于对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据;
匹配模块304,用于通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词。
进一步地,服务器将合同关键词存储于区块链数据库中,具体此处不做限定。
本发明实施例中,从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。本发明通过对识别结果并与系统已预设的关键字进行匹配,根据识别和匹配结果进行对应的策略处理,最后输出相应的位置坐标,可以减少电子合同的人工标注工作量,提高标注的准确度。
请参阅图4,本发明实施例中业务数据处理装置第二个实施例包括:
查询模块301,用于从预置的合同数据库中查询待处理的业务合同,并在所述预置的合同数据库中生成关键词集合,其中,所述关键词集合包括多个预设关键词;
计算模块302,用于调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据;
处理模块303,用于对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据;
匹配模块304,用于通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词。
可选的,计算模块302具体用于:
对所述业务合同进行格式转换,得到图片格式的业务合同,并对所述图片格式的业务合同进行灰度化和二值化处理,得到二值化的业务合同;对所述二值化的业务合同进行噪声去除和角度矫正,得到标准化的业务合同;对所述标准化的业务合同进行行切分和字符切分,得到切分后的业务合同,并对所述切分后的业务合同进行文字识别,得到初始文字数据。
可选的,所述处理模块303具体用于:
对所述初始文字数据进行空格去除和特殊符号去除,并对去除后的文字数据进行段落拼接,得到拼接文本数据;对拼接文本数据进行分词处理,得到所述初始文字数据对应的标准文字数据,其中,所述标准文本数据包括所述初始文本数据对应的多个关键词。
可选的,所述匹配模块304具体用于:
基于预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行关键词相似度计算,得到所述标准文字数据中每个关键词对应的目标相似度;对所述每个关键词对应的目标相似度和预置的相似度阈值进行比较,并将目标相似度大于所述相似度阈值时所述目标相似度对应的关键词作为合同关键词。
可选的,所述业务数据处理装置还包括:
分析模块505,用于对所述合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词;
填充模块506,用于对所述处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词;
校对模块507,用于基于所述坐标位置对所述填充后的合同关键词进行位置校对,得到合同要素坐标位置。
可选的,所述分析模块505具体用于:
提取所述合同关键词中大于预设长度的关键词,得到长关键词,并对所述长关键词进行换行处理,得到换行处理后的合同关键词;对所述换行处理后的合同关键词进行整体日期处理,得到处理后的合同关键词。
可选的,所述校对模块507具体用于:
基于预置的辅助关键词判断策略对所述处理后的合同关键词进行筛选,得到待填充的签名关键词;基于预置的填充策略对所述待填充的签名关键词进行填充处理,得到填充后的合同关键词。
进一步地,服务器将合同关键词存储于区块链数据库中,具体此处不做限定。
本发明实施例中,从预置的合同数据库中查询待处理的业务合同,并在预置的合同数据库中生成关键词集合,其中,关键词集合包括多个预设关键词;调用预置的文字识别模型对业务合同进行文字识别,得到业务合同对应的初始文字数据;对初始文字数据进行预处理,得到初始文字数据对应的标准文字数据;通过预置的模糊匹配算法对标准文字数据和关键词集合进行匹配,得到业务合同对应的合同关键词。本发明通过对识别结果并与系统已预设的关键字进行匹配,根据识别和匹配结果进行对应的策略处理,最后输出相应的位置坐标,可以减少电子合同的人工标注工作量,提高标注的准确度。
上面图3和图4从模块化功能实体的角度对本发明实施例中的业务数据处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中业务数据处理设备进行详细描述。
图5是本发明实施例提供的一种业务数据处理设备的结构示意图,该业务数据处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对业务数据处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在业务数据处理设备500上执行存储介质530中的一系列指令操作。
业务数据处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的业务数据处理设备结构并不构成对业务数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种业务数据处理设备,所述业务数据处理设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述业务数据处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述业务数据处理方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种业务数据处理方法,其特征在于,所述业务数据处理方法包括:
从预置的合同数据库中查询待处理的业务合同,并在所述预置的合同数据库中生成关键词集合,其中,所述关键词集合包括多个预设关键词;
调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据;
对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据;
通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词。
2.根据权利要求1所述的业务数据处理方法,其特征在于,所述调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据,包括:
对所述业务合同进行格式转换,得到图片格式的业务合同,并对所述图片格式的业务合同进行灰度化和二值化处理,得到二值化的业务合同;
对所述二值化的业务合同进行噪声去除和角度矫正,得到标准化的业务合同;
对所述标准化的业务合同进行行切分和字符切分,得到切分后的业务合同,并对所述切分后的业务合同进行文字识别,得到初始文字数据。
3.根据权利要求1所述的业务数据处理方法,其特征在于,所述对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据,包括:
对所述初始文字数据进行空格去除和特殊符号去除,并对去除后的文字数据进行段落拼接,得到拼接文本数据;
对拼接文本数据进行分词处理,得到所述初始文字数据对应的标准文字数据,其中,所述标准文本数据包括所述初始文本数据对应的多个关键词。
4.根据权利要求1所述的业务数据处理方法,其特征在于,所述通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词,包括:
基于预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行关键词相似度计算,得到所述标准文字数据中每个关键词对应的目标相似度;
对所述每个关键词对应的目标相似度和预置的相似度阈值进行比较,并将目标相似度大于所述相似度阈值时所述目标相似度对应的关键词作为合同关键词。
5.根据权利要求1-4中任一项所述的业务数据处理方法,其特征在于,在所述通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词之后,所述业务数据处理方法还包括:
对所述合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词;
对所述处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词;
基于所述坐标位置对所述填充后的合同关键词进行位置校对,得到合同要素坐标位置。
6.根据权利要求5所述的业务数据处理方法,其特征在于,所述对所述合同关键词进行关键词换行处理和整体日期处理,得到处理后的合同关键词,包括:
提取所述合同关键词中大于预设长度的关键词,得到长关键词,并对所述长关键词进行换行处理,得到换行处理后的合同关键词;
对所述换行处理后的合同关键词进行整体日期处理,得到处理后的合同关键词。
7.根据权利要求5所述的业务数据处理方法,其特征在于,所述对所述处理后的合同关键词进行签名关键词校对并确定对签名关键词进行填充处理,得到填充后的合同关键词,包括:
基于预置的辅助关键词判断策略对所述处理后的合同关键词进行筛选,得到待填充的签名关键词;
基于预置的填充策略对所述待填充的签名关键词进行填充处理,得到填充后的合同关键词。
8.一种业务数据处理装置,其特征在于,所述业务数据处理装置包括:
查询模块,用于从预置的合同数据库中查询待处理的业务合同,并在所述预置的合同数据库中生成关键词集合,其中,所述关键词集合包括多个预设关键词;
计算模块,用于调用预置的文字识别模型对所述业务合同进行文字识别,得到所述业务合同对应的初始文字数据;
处理模块,用于对所述初始文字数据进行预处理,得到所述初始文字数据对应的标准文字数据;
匹配模块,用于通过预置的模糊匹配算法对所述标准文字数据和所述关键词集合进行匹配,得到所述业务合同对应的合同关键词。
9.一种业务数据处理设备,其特征在于,所述业务数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务数据处理设备执行如权利要求1-7中任一项所述的业务数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的业务数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210585346.7A CN114912417A (zh) | 2022-05-27 | 2022-05-27 | 业务数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210585346.7A CN114912417A (zh) | 2022-05-27 | 2022-05-27 | 业务数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912417A true CN114912417A (zh) | 2022-08-16 |
Family
ID=82767787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210585346.7A Pending CN114912417A (zh) | 2022-05-27 | 2022-05-27 | 业务数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912417A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152778A (zh) * | 2023-10-31 | 2023-12-01 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于ocr的医疗器械注册证识别方法、装置及介质 |
CN117807291A (zh) * | 2024-02-29 | 2024-04-02 | 南京三百云信息科技有限公司 | 用于业务材料的智能识别交互处理方法及平台 |
-
2022
- 2022-05-27 CN CN202210585346.7A patent/CN114912417A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152778A (zh) * | 2023-10-31 | 2023-12-01 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于ocr的医疗器械注册证识别方法、装置及介质 |
CN117152778B (zh) * | 2023-10-31 | 2024-01-16 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于ocr的医疗器械注册证识别方法、装置及介质 |
CN117807291A (zh) * | 2024-02-29 | 2024-04-02 | 南京三百云信息科技有限公司 | 用于业务材料的智能识别交互处理方法及平台 |
CN117807291B (zh) * | 2024-02-29 | 2024-04-26 | 南京三百云信息科技有限公司 | 用于业务材料的智能识别交互处理方法及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7421126B2 (en) | Method and system for searching form features for form identification | |
CN114912417A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
WO2008058871A1 (en) | Automated generation of form definitions from hard-copy forms | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
US20100198827A1 (en) | Method for finding text reading order in a document | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
CN106599001A (zh) | 网页内容获取方法和系统 | |
CN112580108B (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN113901933A (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
CN110738238A (zh) | 一种证件信息的分类定位方法及装置 | |
US5923782A (en) | System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings | |
CN112149401A (zh) | 一种基于ocr的文档对比识别方法和系统 | |
CN111858977A (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN116958996A (zh) | Ocr信息提取方法、系统及设备 | |
CN109919153A (zh) | 基于手写识别人工智能技术的自动单据录入系统及方法 | |
CN110147516A (zh) | 页面设计中前端代码的智能识别方法及相关设备 | |
US11335108B2 (en) | System and method to recognise characters from an image | |
CN112348022B (zh) | 一种基于深度学习的自由格式文档识别方法 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN111241955B (zh) | 一种票据信息提取方法及系统 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
JPS58169265A (ja) | デ−タ変換処理方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |