CN112561484A - 中登登记审单方法、装置、计算机设备及存储介质 - Google Patents
中登登记审单方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112561484A CN112561484A CN202011517934.4A CN202011517934A CN112561484A CN 112561484 A CN112561484 A CN 112561484A CN 202011517934 A CN202011517934 A CN 202011517934A CN 112561484 A CN112561484 A CN 112561484A
- Authority
- CN
- China
- Prior art keywords
- text
- registration
- mid
- key information
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及中登登记审单方法、装置、计算机设备及存储介质,该方法包括获取查询维度;根据查询维度获取中登网登记所上传的附件文件;对附件文件进行图像识别,以得到识别文本;对资产转让描述进行解析,以得到解析文本;对识别文本以及解析文本进行文本处理,以得到文本关键信息;根据文本关键信息进行中登登记记录的排序,以得到排序结果。本发明通过获取查询维度,获取对应的附件文件,并对附件文件以及中登登记时的资产转让描述内容进行解析,对解析后的内容进行自然语言处理,以得到文本关键信息,便可根据文本关键信息进行中登登记记录的排序,实现智能审单,节约人工成本和时间成本。
Description
技术领域
本发明涉及智能审单方法,更具体地说是指中登登记审单方法、装置、计算机设备及存储介质。
背景技术
中国人民银行征信中心动产融资统一登记平台(简称:中登网),平台主要用于以融资为目的的动产登记公示。
对于以应收账款为标的的保理业务来说,主要涉及的是应收账款质押登记和应收账款转让登记,需要办理应收账款质押或者转让业务的企业在中登网查询对应应收账款信息,通过在中登网登记,可避免同一笔应收账款被重复质押或转让。对于同一笔应收账款来讲,先在中登网做了登记的企业比不做应收账款登记的企业在法律上占有优势。对于都在中登网做了登记的企业来讲,先登记的企业在法律上具有优势。
在进行中登登记后会形成一张登记单,需要进行审单操作,但是登记单内涉及到财产转让描述部分,由于中登网没有对此内容所需要的填写的要素进行约束,各填表人的表述习惯或者业务场景下描述的侧重点不同,导致财产描述所写内容形式多样,对于通过接口获取中登网数据的平台或者通过中登网查询的用户来讲,同一笔应收账款的可能存在于多个登记记录中,理清楚一笔应收账款的转让历史,就需要耗费大量的人工审核的时间。
因此,有必要设计一种新的方法,实现智能审单,节约人工成本和时间成本。
发明内容
本发明的目的在于克服现有技术的缺陷,提供中登登记审单方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:中登登记审单方法,包括:
获取查询维度;
根据所述查询维度获取中登网登记所上传的附件文件;
对所述附件文件进行图像识别,以得到识别文本;
对资产转让描述进行解析,以得到解析文本;
对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;
根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
其进一步技术方案为:所述对所述附件文件进行图像识别,以得到识别文本,包括
将所述附件文件采用OCR图像识别技术进行图像识别,以得到识别文本;
对所述识别文本进行存档。
其进一步技术方案为:所述对资产转让描述进行解析,以得到解析文本,包括:
提取中登网登记时的资产转让描述内容;
对所述资产转让描述内容转换为文本内容,以得到解析文本。
其进一步技术方案为:所述文本关键信息包括发票号码、发票转让金额、出让人、受让人、登记类型、登记时间、登记证明编号以及填表人姓名。
其进一步技术方案为:所述对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息,包括:
对所述识别文本以及所述解析文本采用NLP技术进行字段拆分,以得到拆分结果;
对所述拆分结果进行归类,以得到文本关键信息。
其进一步技术方案为:所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果,包括:
按照登记证明编号、登记类型和登记时间对中登登记记录进行排序,以得到排序结果。
其进一步技术方案为:所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果之后,还包括:
反馈所述排序结果至终端,以在终端显示所述排序结果。
本发明还提供了中登登记审单装置,包括:
维度获取单元,用于获取查询维度;
文件获取单元,用于根据所述查询维度获取中登网登记所上传的附件文件;
图像识别单元,用于对所述附件文件进行图像识别,以得到识别文本;
解析单元,用于对资产转让描述进行解析,以得到解析文本;
信息生成单元,用于对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;
排序单元,用于根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过获取查询维度,获取对应的附件文件,并对附件文件以及中登登记时的资产转让描述内容进行解析,对解析后的内容进行自然语言处理,以得到文本关键信息,便可根据文本关键信息进行中登登记记录的排序,实现智能审单,节约人工成本和时间成本。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的中登登记审单方法的应用场景示意图;
图2为本发明实施例提供的中登登记审单方法的流程示意图;
图3为本发明实施例提供的中登登记审单方法的子流程示意图;
图4为本发明实施例提供的中登登记审单方法的子流程示意图;
图5为本发明实施例提供的中登登记审单方法的子流程示意图;
图6为本发明另一实施例提供的中登登记审单方法的流程示意图;
图7为本发明实施例提供的中登登记审单装置的示意性框图;
图8为本发明实施例提供的中登登记审单装置的图像识别单元的示意性框图;
图9为本发明实施例提供的中登登记审单装置的解析单元的示意性框图;
图10为本发明实施例提供的中登登记审单装置的信息生成单元的示意性框图;
图11为本发明另一实施例提供的中登登记审单装置的示意性框图;
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的中登登记审单方法的应用场景示意图。图2为本发明实施例提供的中登登记审单方法的示意性流程图。该中登登记审单方法应用于服务器中,该服务器与第一终端和第二终端进行数据交互,其中,第一终端是用于中登网登记所用的,第二终端也就是本实施例提及的终端,第二终端输入相关的查询维度,比如发票号码、合同编号、出让人、合同名称,服务器根据这些查询维度获取来自第一终端的中登网登记时所上传的附件信息,对这些信息进行处理,以得到排序结果,并将排序结果呈现在第一终端。
财产转让描述主要分为以下几类:
一是按合同名称为维度填写的;例如,xxxx合同下的应收账款由A出让人转让给B受让人。
二是按发票为维度填写的;例如,发票号码xxxx对应的应收账款由A出让人转让给B受让人了,其中有整张发票转让的,也有一张发票部分转让的。
三是按照出让人为维度填写的;例如,出让人A未来三个月公司的应收账款转让给B受让人。
四是按合同编号为维度填写的;例如,合同编号为xxxx下的应收账款由A出让人转让给B受让人。
五是按附件为维度填写的;例如,中登网登记时可添加附件,上传附件内容中登网不做限制,其中有可能是发票有可能是合同。
图2是本发明实施例提供的中登登记审单方法的流程示意图。如图2所示,该方法包括以下步骤S110至S160。
S110、获取查询维度。
在本实施例中,查询维度是指查询的关键词,对于通过接口获取中登网数据的平台或者通过中登网查询的用户而言,在查询应收账款的情况时,需要输入查询维度,服务器才可以根据该查询维度调取相关的附件文件,附件文件都会带有这些查询维度的标签进行存储的,因此可以快速调取到对应的附件文件。
S120、根据所述查询维度获取中登网登记所上传的附件文件。
在本实施例中,附件文件是指在进行中登网登记时所需要上传的文件,比如单据等图片内容。
每个附件文件在上传时都会有一个标签,比如发票号码、合同编号、出让人、合同名称等等文件关键内容构成的标签,以便于上传时可快速定位到所需的附件文件,也便于后续的调取和识别。
S130、对所述附件文件进行图像识别,以得到识别文本。
在本实施例中,识别文本是指对附件文件进行图像识别后形成的文本内容。
在一实施例中,请参阅图3,上述的步骤S130可包括步骤S131~S132。
S131、将所述附件文件采用OCR图像识别技术进行图像识别,以得到识别文本。
在本实施例中,识别文本是指附件文件转换所得的文本内容。
具体地,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。通过使用OCR(光学字符识别,Optical CharacterRecognition)技术,对单据图像内容等附件文件进行识别、矫正,提取关键字段元素,与相关系统连接,能够减少人工手动录入,提高工作效率,降低人工录入失误。OCR是指对图像文件进行分析识别处理,获取文字及版面信息的过程。通常,图像信息通过扫描仪、照相机、电子传真软件等设备获取并存储在图像文件中,然后OCR软件读取、分析图像文件并通过字符识别提取出其中的字符串。
具体地,采用OCR图像识别技术进行图像识别的流程包括对图像预处理、文字检测以及文字识别,其中,预处理一般包括灰度化、二值化,几何变换(透视、扭曲、旋转等),畸变校正,去除模糊、图像增强和光线校正,行、字切分,平滑,规范化等等。文字检测是检测文本的所在位置和范围及其布局,包括版面分析和文字行检测等;文本识别是在文本检测的基础上,对文本内容进行识别,主要识别每个文字是什么。对一个文字图像,提取出特征,丢给分类器,分类器就对其进行分类,明确这个特征该识别成哪个文字。分类器的设计方法一般有:模板匹配法、判别函数法、神经网络分类法、基于规则推理法等。在进行实际识别前,往往还要对分类器进行训练,这是一个监督学习的过程。成熟的分类器也有很多,有SVM,CNN等。将图像中的文本信息转化为文本信息。识别出的文本可以通过匹配词库中的词典加以矫正,比如形近字的处理:“分”和“兮”形近,但是如果遇到“分数”这个词语,就不应该识别为“兮数”,因为“分数”才是一个正常词语。这就需要通过语言模型来进行纠正,通常需要再次核对以保证其正确性。
S132、对所述识别文本进行存档。
S140、对资产转让描述进行解析,以得到解析文本;
在本实施例中,解析文本是指对资产转让描述的内容转换为文本内容并进行存档。
在一实施例中,请参阅图4,上述的步骤S140可包括步骤S141~S142。
S141、提取中登网登记时的资产转让描述内容。
在本实施例中,资产转让描述内容是指进行中登网登记时要求写的一项内容。
S142、对所述资产转让描述内容转换为文本内容,以得到解析文本。
在本实施例中,中登网登记后形成的资产转让描述内容也可形成一张图像,同样也可以采用OCR图像识别技术识别,将资产转让描述内容转换为诶文本内容,以便于后续的分析。
S150、对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息。
在本实施例中,文本关键信息是指中登网登记形成的登记单内涉及的关键内容,所述文本关键信息包括发票号码、发票转让金额、出让人、受让人、登记类型、登记时间、登记证明编号以及填表人姓名。
在一实施例中,请参阅图5,上述的步骤S150可包括步骤S151~S152。
S151、对所述识别文本以及所述解析文本采用NLP(自然语言处理,NaturalLanguage Processing)技术进行字段拆分,以得到拆分结果。
在本实施例中,拆分结果是指将识别文本以及解析文本按照各个完整的字段意思进行字段拆分。
S152、对所述拆分结果进行归类,以得到文本关键信息。
在本实施例中,NLP技术进行文本数据的文本处理,主要是利用历史数据训练基于NLP技术构建而成的机器学习模型,再由机器学习模型快速拆分和归类,由此得到文本关键信息。
在训练机器学习模型时,首先收集历史数据,这些历史数据是指与识别文本和解析文本具有相同模板的数据,可以由最初人工筛选和处理所得的识别文本和解析文本作为训练数据;先对所述识别文本以及所述解析文本进行数据清洗,数据清洗一般包括去除一切不相关的字符,比如任何非字母数字的字符;标记训练数据;将训练数据拆分为独立的单词;去除不相关的词语,比如@这类提醒或是url链接;将所有字母转换成小写,这样“hello”,“Hello”,“HELLO”就会被当做同样的单词处理;将拼错的单词或是多种拼法的单词与某个特定的表达绑定,比如“cool”/“kewl”/“cooool”;考虑词形还原,比如将“am”,“are”,“is”都看做“be”。
在本实施例中,采用独热编码-词袋模型作为机器学习模型;将清洗后的训练数据分为两个集合:训练集和测试集,训练集用于匹配模型,测试集用于观察应用在未知数据上的效果;使用混淆矩阵可视化训练所得的结果与实际的标签,并将模型预测的结果与数据的真实标签进行比较,并不断调整机器学习模型的参数,以使得机器学习模型输出的内容更加贴近于实际的标签。
通过NLP自然语言处理技术,将文本附件以及转让财产描述中的关键信息,包括发票号码、发票转让金额、出让人、受让人、登记类型(初始登记、变更登记、注销登记)、登记时间、登记证明编号、填表人姓名等进行拆分,归类。
S160、根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
具体地,按照登记证明编号、登记类型和登记时间对中登登记记录进行排序,以得到排序结果。
使用文本内容处理后的数据,按照中登登记的登记类型和登记时间,将乱序的中登登记记录关于应收账款记录进行排序,同一笔应收账款第一个登记记录为初始登记、最后一个登记记录为注销登记(不一定有),变更登记则处于初始登记和注销登记(如有)或者登记时间最晚的变更登记之间。
在本实施例中,将本实施例的方法形成可视化的查询工具,开发成具有模块化功能的标准产品,查询维度定为发票号码、合同编号、出让人、合同名称4个维度。当需要查询某一笔应收账款在中登网登记情况时,输入4个查询维度中的一个或者多个,服务器通过检索经过处理后的数据,按照特定的排序方式进行查询结果展示。
上述的中登登记审单方法,通过获取查询维度,获取对应的附件文件,并对附件文件以及中登登记时的资产转让描述内容进行解析,对解析后的内容进行自然语言处理,以得到文本关键信息,便可根据文本关键信息进行中登登记记录的排序,实现智能审单,节约人工成本和时间成本。
图6是本发明另一实施例提供的一种中登登记审单方法的流程示意图。如图6所示,本实施例的中登登记审单方法包括步骤S210-S270。其中步骤S210-S260与上述实施例中的步骤S110-S160类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S270。
S270、反馈所述排序结果至终端,以在终端显示所述排序结果。
查询者可以根据终端显示的内容快速且明了得知自己所要查询的应收账款的转让历史。
图7是本发明实施例提供的一种中登登记审单装置300的示意性框图。如图7所示,对应于以上中登登记审单方法,本发明还提供一种中登登记审单装置300。该中登登记审单装置300包括用于执行上述中登登记审单方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该中登登记审单装置300包括维度获取单元301、文件获取单元302、图像识别单元303、解析单元304、信息生成单元305以及排序单元306。
维度获取单元301,用于获取查询维度;文件获取单元302,用于根据所述查询维度获取中登网登记所上传的附件文件;图像识别单元303,用于对所述附件文件进行图像识别,以得到识别文本;解析单元304,用于对资产转让描述进行解析,以得到解析文本;信息生成单元305,用于对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;排序单元306,用于根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
在一实施例中,如图8所示,所述图像识别单元303包括OCR识别子单元3031以及存档子单元3032。
OCR识别子单元3031,用于将所述附件文件采用OCR图像识别技术进行图像识别,以得到识别文本;存档子单元3032,用于对所述识别文本进行存档。
在一实施例中,如图9所示,所述解析单元304包括提取子单元3041以及转换子单元3042。
提取子单元3041,用于提取中登网登记时的资产转让描述内容;转换子单元3042,用于对所述资产转让描述内容转换为文本内容,以得到解析文本。
在一实施例中,如图10所示,所述信息生成单元305包括拆分子单元3051以及归类子单元3052。
拆分子单元3051,用于对所述识别文本以及所述解析文本采用NLP技术进行字段拆分,以得到拆分结果;归类子单元3052,用于对所述拆分结果进行归类,以得到文本关键信息。
在一实施例中,所述排序单元306,按照登记证明编号、登记类型和登记时间对中登登记记录进行排序,以得到排序结果。
图11是本发明另一实施例提供的一种中登登记审单装置300的示意性框图。如图11所示,本实施例的中登登记审单装置300是上述实施例的基础上增加了反馈单元307。
反馈单元307,用于反馈所述排序结果至终端,以在终端显示所述排序结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述中登登记审单装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述中登登记审单装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种中登登记审单方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种中登登记审单方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取查询维度;根据所述查询维度获取中登网登记所上传的附件文件;对所述附件文件进行图像识别,以得到识别文本;对资产转让描述进行解析,以得到解析文本;对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
其中,所述文本关键信息包括发票号码、发票转让金额、出让人、受让人、登记类型、登记时间、登记证明编号以及填表人姓名。
在一实施例中,处理器502在实现所述对所述附件文件进行图像识别,以得到识别文本步骤时,具体实现如下步骤:
将所述附件文件采用OCR图像识别技术进行图像识别,以得到识别文本;对所述识别文本进行存档。
在一实施例中,处理器502在实现所述对资产转让描述进行解析,以得到解析文本步骤时,具体实现如下步骤:
提取中登网登记时的资产转让描述内容;对所述资产转让描述内容转换为文本内容,以得到解析文本。
在一实施例中,处理器502在实现所述对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息步骤时,具体实现如下步骤:
对所述识别文本以及所述解析文本采用NLP技术进行字段拆分,以得到拆分结果;对所述拆分结果进行归类,以得到文本关键信息。
在一实施例中,处理器502在实现所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果步骤时,具体实现如下步骤:
按照登记证明编号、登记类型和登记时间对中登登记记录进行排序,以得到排序结果。
在一实施例中,处理器502在实现所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果步骤之后,还实现如下步骤:
反馈所述排序结果至终端,以在终端显示所述排序结果。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取查询维度;根据所述查询维度获取中登网登记所上传的附件文件;对所述附件文件进行图像识别,以得到识别文本;对资产转让描述进行解析,以得到解析文本;对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
其中,所述文本关键信息包括发票号码、发票转让金额、出让人、受让人、登记类型、登记时间、登记证明编号以及填表人姓名。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述附件文件进行图像识别,以得到识别文本步骤时,具体实现如下步骤:
将所述附件文件采用OCR图像识别技术进行图像识别,以得到识别文本;对所述识别文本进行存档。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对资产转让描述进行解析,以得到解析文本步骤时,具体实现如下步骤:
提取中登网登记时的资产转让描述内容;对所述资产转让描述内容转换为文本内容,以得到解析文本。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息步骤时,具体实现如下步骤:
对所述识别文本以及所述解析文本采用NLP技术进行字段拆分,以得到拆分结果;对所述拆分结果进行归类,以得到文本关键信息。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果步骤时,具体实现如下步骤:
按照登记证明编号、登记类型和登记时间对中登登记记录进行排序,以得到排序结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果步骤之后,还实现如下步骤:
反馈所述排序结果至终端,以在终端显示所述排序结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.中登登记审单方法,其特征在于,包括:
获取查询维度;
根据所述查询维度获取中登网登记所上传的附件文件;
对所述附件文件进行图像识别,以得到识别文本;
对资产转让描述进行解析,以得到解析文本;
对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;
根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
2.根据权利要求1所述的中登登记审单方法,其特征在于,所述对所述附件文件进行图像识别,以得到识别文本,包括
将所述附件文件采用OCR图像识别技术进行图像识别,以得到识别文本;
对所述识别文本进行存档。
3.根据权利要求1所述的中登登记审单方法,其特征在于,所述对资产转让描述进行解析,以得到解析文本,包括:
提取中登网登记时的资产转让描述内容;
对所述资产转让描述内容转换为文本内容,以得到解析文本。
4.根据权利要求3所述的中登登记审单方法,其特征在于,所述文本关键信息包括发票号码、发票转让金额、出让人、受让人、登记类型、登记时间、登记证明编号以及填表人姓名。
5.根据权利要求1所述的中登登记审单方法,其特征在于,所述对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息,包括:
对所述识别文本以及所述解析文本采用NLP技术进行字段拆分,以得到拆分结果;
对所述拆分结果进行归类,以得到文本关键信息。
6.根据权利要求4所述的中登登记审单方法,其特征在于,所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果,包括:
按照登记证明编号、登记类型和登记时间对中登登记记录进行排序,以得到排序结果。
7.根据权利要求1至6任一项所述的中登登记审单方法,其特征在于,所述根据所述文本关键信息进行中登登记记录的排序,以得到排序结果之后,还包括:
反馈所述排序结果至终端,以在终端显示所述排序结果。
8.中登登记审单装置,其特征在于,包括:
维度获取单元,用于获取查询维度;
文件获取单元,用于根据所述查询维度获取中登网登记所上传的附件文件;
图像识别单元,用于对所述附件文件进行图像识别,以得到识别文本;
解析单元,用于对资产转让描述进行解析,以得到解析文本;
信息生成单元,用于对所述识别文本以及所述解析文本进行文本处理,以得到文本关键信息;
排序单元,用于根据所述文本关键信息进行中登登记记录的排序,以得到排序结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011517934.4A CN112561484A (zh) | 2020-12-21 | 2020-12-21 | 中登登记审单方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011517934.4A CN112561484A (zh) | 2020-12-21 | 2020-12-21 | 中登登记审单方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112561484A true CN112561484A (zh) | 2021-03-26 |
Family
ID=75030628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011517934.4A Pending CN112561484A (zh) | 2020-12-21 | 2020-12-21 | 中登登记审单方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112561484A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536091A (zh) * | 2021-07-14 | 2021-10-22 | 深圳市链融科技股份有限公司 | 发票爬虫查验方法、装置、计算机设备及存储介质 |
CN115017272A (zh) * | 2022-08-09 | 2022-09-06 | 盛业信息科技服务(深圳)有限公司 | 基于登记数据的智能核验方法及装置 |
CN116029279A (zh) * | 2023-03-28 | 2023-04-28 | 深圳前海环融联易信息科技服务有限公司 | 基于多模态模型的中登附件解析方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894299A (zh) * | 2009-05-19 | 2010-11-24 | 上海莫言信息科技有限公司 | 支持rfid、hs编码和图像处理的快件出入境智能申报系统 |
CN111709718A (zh) * | 2020-06-22 | 2020-09-25 | 平安不动产有限公司 | 基于人工智能的智能保理资产服务平台、方法和存储介质 |
-
2020
- 2020-12-21 CN CN202011517934.4A patent/CN112561484A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894299A (zh) * | 2009-05-19 | 2010-11-24 | 上海莫言信息科技有限公司 | 支持rfid、hs编码和图像处理的快件出入境智能申报系统 |
CN111709718A (zh) * | 2020-06-22 | 2020-09-25 | 平安不动产有限公司 | 基于人工智能的智能保理资产服务平台、方法和存储介质 |
Non-Patent Citations (1)
Title |
---|
杜建强 等: "《医药数据库系统原理与应用》", 31 December 2017, 中国中医药出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536091A (zh) * | 2021-07-14 | 2021-10-22 | 深圳市链融科技股份有限公司 | 发票爬虫查验方法、装置、计算机设备及存储介质 |
CN115017272A (zh) * | 2022-08-09 | 2022-09-06 | 盛业信息科技服务(深圳)有限公司 | 基于登记数据的智能核验方法及装置 |
CN115017272B (zh) * | 2022-08-09 | 2022-11-04 | 盛业信息科技服务(深圳)有限公司 | 基于登记数据的智能核验方法及装置 |
CN116029279A (zh) * | 2023-03-28 | 2023-04-28 | 深圳前海环融联易信息科技服务有限公司 | 基于多模态模型的中登附件解析方法、装置、设备及介质 |
CN116029279B (zh) * | 2023-03-28 | 2023-07-07 | 深圳前海环融联易信息科技服务有限公司 | 基于多模态模型的中登附件解析方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112561484A (zh) | 中登登记审单方法、装置、计算机设备及存储介质 | |
WO2021012570A1 (zh) | 数据录入方法、装置、设备及存储介质 | |
US8538184B2 (en) | Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category | |
US20200019767A1 (en) | Document classification system | |
US11113557B2 (en) | System and method for generating an electronic template corresponding to an image of an evidence | |
JP2015146075A (ja) | 会計データ入力支援システム、方法およびプログラム | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
AU2020100413A4 (en) | Docket analysis methods and systems | |
US11880435B2 (en) | Determination of intermediate representations of discovered document structures | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN115408727A (zh) | 资料智能审核方法、装置、设备及介质 | |
KR102392644B1 (ko) | 유사도 기반의 문서 분류 장치 및 방법 | |
CN113033170B (zh) | 表格标准化处理方法、装置、设备及存储介质 | |
Halder et al. | Individuality of Bangla numerals | |
JP7126808B2 (ja) | 情報処理装置および情報処理装置用プログラム | |
Bhagat et al. | Complex document classification and integration with indexing | |
Hepzi et al. | English cursive hand written character recognition | |
CN111507236B (zh) | 文件处理方法、系统、装置及介质 | |
CN117493645B (zh) | 一种基于大数据的电子档案推荐系统 | |
US20200118122A1 (en) | Techniques for completing missing and obscured transaction data items | |
CA3103322C (en) | Data extraction from short business documents | |
BE1025360B1 (nl) | Beheren en aanwenden van juridisch-fiscale documenten uit de rechtspraak | |
Madake et al. | Sanskrit OCR System | |
JP2021125040A (ja) | 帳票仕分システム、帳票仕分方法、及びプログラム | |
CN117333478A (zh) | 一种图像模糊检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210326 |
|
RJ01 | Rejection of invention patent application after publication |