CN113947510A - 一种基于文件格式自适应的不动产电子证照管理系统 - Google Patents
一种基于文件格式自适应的不动产电子证照管理系统 Download PDFInfo
- Publication number
- CN113947510A CN113947510A CN202111178116.0A CN202111178116A CN113947510A CN 113947510 A CN113947510 A CN 113947510A CN 202111178116 A CN202111178116 A CN 202111178116A CN 113947510 A CN113947510 A CN 113947510A
- Authority
- CN
- China
- Prior art keywords
- file
- module
- real estate
- file format
- management system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于文件格式自适应的不动产电子证照管理系统,包括:文件接收模块,所述文件接收模块用于接收文件;文件格式自适应模块,所述文件接收模块将接收到的文件传递给所述文件格式自适应模块;签章模块,所述文件格式自适应模块将生成的新的电子证照文件传递给所述签章模块;存储模块,所述存储模块用于接收签章模块的电子证照文件和电子签章文件。本发明的一种基于文件格式自适应的不动产电子证照管理系统通过深度神经网络进行内容关键信息提取,将其统一融合后,能够提高准确率和效率,从不同格式的文件内容中提取出不动产单元、证书序号内容等不动产电子证照关键信息,不需人工阅读和录入数据,提高了工作效率。
Description
技术领域
本发明涉及管理系统技术领域,尤其是指一种基于文件格式自适应的不动产电子证照管理系统。
背景技术
不动产登记作为日常业务量巨大的政府服务窗口,在服务百姓和优化营商环境起着重要的作用,同时也是评价城市营商环境的重要指标。
目前政务部门在工作中需要对办理业务的证明材料如身份证、户口本等进行采集并数字化存储,而在采集过程中,由于采集设备、采集软件、采集方法的不同,容易导致采集得到的文件格式不一致的问题,导致电子证照后续处理过程较为复杂,影响了政务办事效率。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中由于采集设备、采集软件、采集方法的不同,导致采集得到的文件格式不一致,使得政务办事效率降低的问题,并提供一种处理效率高的基于文件格式自适应的不动产电子证照管理系统。
为解决上述技术问题,本发明提供了一种基于文件格式自适应的不动产电子证照管理系统,包括:
文件接收模块,所述文件接收模块用于接收文件;
文件格式自适应模块,所述文件接收模块将接收到的文件传递给所述文件格式自适应模块,所述文件格式自适应模块生成新的电子证照文件;
签章模块,所述文件格式自适应模块将生成的新的电子证照文件传递给所述签章模块,所述签章模块用于生成对应的电子签章文件;
存储模块,所述存储模块用于接收签章模块的电子证照文件和电子签章文件,并存储相关信息。
作为本发明的进一步改进,所述文件接收模块通过REST接口形式接收文件。
作为本发明的进一步改进,所述文件格式自适应模块对于Microsoft OfficeWord格式文件,采用ApachePOI读取文件中内容,通过使用端对端神经网络模型对文件中内容进行提取,其中,ApachePOI是一个解析Microsoft Documents的Java程序库。
作为本发明的进一步改进,所述文件格式自适应模块对于PDF格式文件,采用itextpdf方法读取文件中内容,通过使用端对端神经网络模型对文件中内容进行提取,其中,itextpdf是一个解析PDF文件的Java程序库。
作为本发明的进一步改进,所述端对端神经网络模型利用ResNet+FPN作为骨干网络进行文字检测,利用检测网络和ROIAlign算法的结果进行attention+encoder-decoder的文字识别,将文本位置信息、视觉信息、语义信息进行融合,并通过BiLSTM进行IOB标签分类以得到文档关键信息,其中attention为注意力机制,encoder为编码器,decoder为解码器。
作为本发明的进一步改进,端对端神经网络模型对文本检测、文本识别、信息提取三个任务进行共同优化学习,其损失函数为:
作为本发明的进一步改进,文本识别损失函数和信息提取损失函数分别定义如下:
作为本发明的进一步改进,文本检测和文本识别组合成文本阅读任务,通过统一的端对端文本阅读和信息提取网络将文本阅读的多模态视觉和文本特征融合到信息提取中。
作为本发明的进一步改进,所述签章模块利用SHA-256算法计算电子证照文件的HASH值,并通过RSA算法使用私钥对计算得到的HASH值进行签名,最终生成对应的电子签章文件。
作为本发明的进一步改进,所述相关信息为所述存储模块接收到所述签章模块的电子证照文件和电子签章文件后,根据不动产所有权、不动产单元、证书序号数据规范对证照提取特征,并进行排序和编码形成的一组信息,将该组信息存储在数据库中。
本发明的上述技术方案相比现有技术具有以下优点:
本发明的一种基于文件格式自适应的不动产电子证照管理系统通过深度神经网络进行内容关键信息提取,将其统一融合后,能够提高准确率和效率,从不同格式的文件内容中提取出不动产单元、证书序号内容等不动产电子证照关键信息,不需人工阅读和录入数据,提高了工作效率的同时,减少了因人工录入错误导致的后续问题。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明优选实施例中基于文件格式自适应的不动产电子证照管理系统的架构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
在一些实施例中,参照图1所示,本发明的一种基于文件格式自适应的不动产电子证照管理系统,包括:
文件接收模块,文件接收模块用于接收文件;
文件格式自适应模块,文件接收模块将接收到的文件传递给文件格式自适应模块,文件格式自适应模块生成新的电子证照文件;
签章模块,文件格式自适应模块将生成的新的电子证照文件传递给签章模块,签章模块用于生成对应的电子签章文件;
存储模块,存储模块用于接收签章模块的电子证照文件和电子签章文件,并存储相关信息。
文件接收模块接收到文件后,将其传递给文件格式自适应模块,文件格式自适应模块生成新的电子证照文件,并将该电子证照文件传递给签章模块,签章模块生成对应的电子签章文件,存储模块接收签章模块的电子证照文件和电子签章文件,并存储相关信息。
在一些实施例中,参照图1所示,文件接收模块通过REST接口形式接收文件。REST用来规范应用如何在HTTP层与API提供方进行数据交互;REST描述了HTTP层里客户端和服务器端的数据交互规则;客户端通过向服务器端发送HTTP请求,接收服务器的响应,完成一次HTTP交互,这个交互过程中,REST架构约定两个重要方面就是HTTP请求所采用的方法,以及请求的链接。
在一些实施例中,参照图1所示,文件格式自适应模块对于Microsoft OfficeWord格式文件,采用ApachePOI读取文件中内容,通过使用端对端神经网络模型对文件中内容进行提取,其中,ApachePOI是一个解析Microsoft Documents的Java程序库。提取不动产单元、证书序号内容,再按照电子证明模板重新组织内容,以生成新的电子证明文件。
在一些实施例中,参照图1所示,文件格式自适应模块对于PDF格式文件,采用itextpdf方法读取文件中内容,通过使用端对端神经网络模型对文件中内容进行提取,其中,itextpdf是一个解析PDF文件的Java程序库。提取不动产单元、证书序号内容,再按照电子证照模板重新组织排版内容,以生成新的电子证照文件。
在一些实施例中,参照图1所示,端对端神经网络模型利用ResNet+FPN作为骨干网络进行文字检测,利用检测网络和ROIAlign算法的结果进行attention+encoder-decoder的文字识别,将文本位置信息、视觉信息、语义信息进行融合,并通过BiLSTM进行IOB标签分类以得到文档关键信息,其中attention为注意力机制,encoder为编码器,decoder为解码器。
在一些实施例中,参照图1所示,端对端神经网络模型对文本检测、文本识别、信息提取三个任务进行共同优化学习,其损失函数为:
在一些实施例中,参照图1所示,文本识别损失函数和信息提取损失函数分别定义如下:
需要说明的是,该算法在Taxi Invoices和Resumes数据集上准确率能达到91%和88%,与同类算法相比提高了准确率,数据集试验具体数据如表1和表2所示:
表1.TaxiInvoices数据集信息提取准确率(%)
提取项目\算法 | Chargrid | NER | GCN | 本申请 |
姓名 | 43.4 | 42.7 | 42.9 | 45.7 |
手机号 | 87.0 | 86.6 | 83.3 | 88.0 |
70.9 | 69.6 | 68.0 | 74.9 | |
年龄 | 77.1 | 68.7 | 62.2 | 81.4 |
学校 | 74.7 | 86.0 | 82.3 | 87.4 |
表2.Resumes数据集信息提取准确率(%)
在一些实施例中,参照图1所示,文本检测和文本识别组合成文本阅读任务,通过统一的端对端文本阅读和信息提取网络将文本阅读的多模态视觉和文本特征融合到信息提取中。文本阅读的多模态视觉和文本特征被融合到信息提取中,另一方面,信息提取中的语义也有助于文本阅读的优化,从而提高了文件信息提取的准确率。
在一些实施例中,参照图1所示,签章模块利用SHA-256算法计算电子证照文件的HASH值,并通过RSA算法使用私钥对计算得到的HASH值进行签名,最终生成对应的电子签章文件。
在一些实施例中,参照图1所示,相关信息为存储模块接收到签章模块的电子证照文件和电子签章文件后,根据不动产所有权、不动产单元、证书序号数据规范对证照提取特征,并进行排序和编码形成的一组信息,将该组信息存储在数据库中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,包括:
文件接收模块,所述文件接收模块用于接收文件;
文件格式自适应模块,所述文件接收模块将接收到的文件传递给所述文件格式自适应模块,所述文件格式自适应模块生成新的电子证照文件;
签章模块,所述文件格式自适应模块将生成的新的电子证照文件传递给所述签章模块,所述签章模块用于生成对应的电子签章文件;
存储模块,所述存储模块用于接收签章模块的电子证照文件和电子签章文件,并存储相关信息。
2.根据权利要求1所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,所述文件接收模块通过REST接口形式接收文件。
3.根据权利要求1所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,所述文件格式自适应模块对于Microsoft Office Word格式文件,采用ApachePOI读取文件中内容,通过使用端对端神经网络模型对文件中内容进行提取,其中,ApachePOI是一个解析Microsoft Documents的Java程序库。
4.根据权利要求1所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,所述文件格式自适应模块对于PDF格式文件,采用itextpdf方法读取文件中内容,通过使用端对端神经网络模型对文件中内容进行提取,其中,itextpdf是一个解析PDF文件的Java程序库。
5.根据权利要求3或4所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,所述端对端神经网络模型利用ResNet+FPN作为骨干网络进行文字检测,利用检测网络和ROIAlign算法的结果进行attention+encoder-decoder的文字识别,将文本位置信息、视觉信息、语义信息进行融合,并通过BiLSTM进行IOB标签分类以得到文档关键信息,其中attention为注意力机制,encoder为编码器,decoder为解码器。
8.根据权利要求6所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,文本检测和文本识别组合成文本阅读任务,通过统一的端对端文本阅读和信息提取网络将文本阅读的多模态视觉和文本特征融合到信息提取中。
9.根据权利要求1所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,所述签章模块利用SHA-256算法计算电子证照文件的HASH值,并通过RSA算法使用私钥对计算得到的HASH值进行签名,最终生成对应的电子签章文件。
10.根据权利要求1所述的一种基于文件格式自适应的不动产电子证照管理系统,其特征在于,所述相关信息为所述存储模块接收到所述签章模块的电子证照文件和电子签章文件后,根据不动产所有权、不动产单元、证书序号数据规范对证照提取特征,并进行排序和编码形成的一组信息,将该组信息存储在数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111178116.0A CN113947510A (zh) | 2021-10-09 | 2021-10-09 | 一种基于文件格式自适应的不动产电子证照管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111178116.0A CN113947510A (zh) | 2021-10-09 | 2021-10-09 | 一种基于文件格式自适应的不动产电子证照管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113947510A true CN113947510A (zh) | 2022-01-18 |
Family
ID=79329512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111178116.0A Pending CN113947510A (zh) | 2021-10-09 | 2021-10-09 | 一种基于文件格式自适应的不动产电子证照管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947510A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035456A (zh) * | 2024-04-11 | 2024-05-14 | 江西微博科技有限公司 | 基于大数据的电子材料数据共享管理系统 |
-
2021
- 2021-10-09 CN CN202111178116.0A patent/CN113947510A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035456A (zh) * | 2024-04-11 | 2024-05-14 | 江西微博科技有限公司 | 基于大数据的电子材料数据共享管理系统 |
CN118035456B (zh) * | 2024-04-11 | 2024-06-28 | 江西微博科技有限公司 | 基于大数据的电子材料数据共享管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753909B (zh) | 一种基于内容分块和BiLSTM模型的简历解析方法 | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
US8468167B2 (en) | Automatic data validation and correction | |
US10592738B2 (en) | Cognitive document image digitalization | |
CN109948120B (zh) | 一种基于二元化的简历解析方法 | |
CN111814472B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN114218391B (zh) | 一种基于深度学习技术的敏感信息识别方法 | |
CN110866116A (zh) | 政策文档的处理方法、装置、存储介质及电子设备 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN113064973A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
US9471676B1 (en) | System and method for suggesting keywords based on image contents | |
CN113837113B (zh) | 基于人工智能的文档校验方法、装置、设备及介质 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 | |
CN115210705A (zh) | 具有无效值或等效值的关系表的向量嵌入模型 | |
CN117195319A (zh) | 保函文件电子件的验真方法、装置、电子设备和介质 | |
CN116757183A (zh) | 项目信息处理方法及装置 | |
CN112989820B (zh) | 法律文书定位方法、装置、设备及存储介质 | |
CN114743012A (zh) | 一种文本识别方法及装置 | |
CN113888760A (zh) | 基于软件应用的违规信息监控方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Jiangsu Province Applicant after: Yuance Information Technology Co.,Ltd. Address before: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Jiangsu Province Applicant before: SUZHOU INDUSTRIAL PARK SURVEYING MAPPING AND GEOINFORMATION Co.,Ltd. |