CN114416980A - 基于智能分类的资产查重方法、系统、设备及计算机可读存储介质 - Google Patents

基于智能分类的资产查重方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114416980A
CN114416980A CN202111671968.3A CN202111671968A CN114416980A CN 114416980 A CN114416980 A CN 114416980A CN 202111671968 A CN202111671968 A CN 202111671968A CN 114416980 A CN114416980 A CN 114416980A
Authority
CN
China
Prior art keywords
asset
matching
classification information
query
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111671968.3A
Other languages
English (en)
Inventor
吕永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jujun Technology Co ltd
Original Assignee
Shanghai Jujun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jujun Technology Co ltd filed Critical Shanghai Jujun Technology Co ltd
Priority to CN202111671968.3A priority Critical patent/CN114416980A/zh
Publication of CN114416980A publication Critical patent/CN114416980A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于智能分类的资产查重方法、系统、设备和计算机可读存储介质。通过本申请提出的技术方案,在基于对资产登记文件进行字符识别的基础上,按照预设的资产描述项对识别获得的内容进行预先的资产内容分类,以便在后续的关键词检索过程中可以根据检索条件更为快速便捷地寻找到符合检索描述的资产内容信息。同时,在返回用户检索结果的过程中,除了将上述符合检索描述的资产内容信息进行反馈外,为了防止出现遗漏情况,还会将不是该资产描述类型的原始资产登记文件同步进行反馈展示,以供用户对原始资产登记文件进行二次查验,防止在核查资产是否有被重复登记的过程中出现遗漏的情况,具有可推广价值。

Description

基于智能分类的资产查重方法、系统、设备及计算机可读存储 介质
技术领域
本发明涉及索引检索技术领域,具体地,公开了一种基于智能分类的资产查重方法、系统、设备及计算机可读存储介质。
背景技术
近几年来,应收账款等动产抵押相关业务在银行兴起。此类资产的特点是一个资产包会有成千上万笔小资产,单纯靠人工去核查资产是否有被重复登记,成本过高,几乎不具可行性。因此必须借助计算机进行资产查重。大部分的资产登记文件都是图片,所以计算机首先会对资产登记文件进行光学字符识别,把图片转化成文本。业务员会去使用一些关键词去搜索文本,一个资产登记文件文本中如果包含这些关键词,就表示该资产已经被登记了,是重复资产。由于光学字符识别技术的局限性,往往会造成部分图片文字没有被识别出来,如果这些文字没有识别出来,业务员使用关键词搜索就有可能会遗漏一些资产。同时,由于在进行资产登记的过程中,登记人对于资产的文字描述可以在一定范围内进行自由发挥,没有固定格式限制,容易导致即使文本部分内容被完全识别,但是仍无法通过常见的或是通用的关键词对其进行成功的检索,可能出现多个不同的文字表述虽然代表同一个类型的资产,但却在关键词搜索的过程中被遗漏,从而导致资产查重出现误差的情况。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于智能分类的资产查重方法、系统、设备及计算机可读存储介质。
在本申请的第一方面提供了一种基于智能分类的资产查重方法,用于根据资产登记文件进行重复资产查询;
于资产查重方法执行前,预先设定多项资产描述项,每个资产描述项对应一类需要查询的资产类型;
资产查重方法包括如下步骤:
根据资产登记文件,进行文字识别以获取对应的文字识别结果;
根据资产描述项,逐一对文字识别结果进行匹配检索,以获取资产登记文件对应的识别分类信息,识别分类信息关联于资产描述项;
在接收到来自外部的查询指令的情况下,根据查询指令逐一对资产描述项进行匹配搜索,以获取关联于符合匹配搜索的资产描述项的识别分类信息,并记为匹配查询结果;
获取不包含符合匹配搜索的资产描述项的资产登记文件,并记为待校验查询结果;
重复资产查询的结果包括匹配查询结果和待校验查询结果。
在上述第一方面的一种可能的实现中,在根据资产登记文件,进行文字识别以获取对应的文字识别结果,还包括:
获取资产登记文件对应的原始图像
使用光学字符识别引擎对原始图像进行字符识别,获取对应的可识别字符;
文字识别结果包括全部可识别字符。
在上述第一方面的一种可能的实现中,资产描述项包括但不限于发票号资产类型、应收账款资产类型、企业名称资产主体中的至少一种或多种。
在上述第一方面的一种可能的实现中,根据资产描述项逐一对文字识别结果进行匹配检索以获取资产登记文件对应的识别分类信息的过程中,还包括:
根据预设次序从资产描述项中选取一项作为匹配检索项;
根据匹配检索项对文字识别结果进行遍历检索以获取关联于匹配检索项的文字识别结果;
重复上述步骤直至全部资产描述项获取关联的文字识别结果,并记为资产登记文件对应的识别分类信息。
在上述第一方面的一种可能的实现中,每个资产描述项对应一组识别分类信息;
识别分类信息包括识别分类信息对应的资产描述项,识别分类信息的具体匹配内容,具体匹配内容对应的资产登记文件以及具体匹配内容对应的资产主体;
识别分类信息的具体匹配内容源于根据资产登记文件进行文字识别以获取的文字识别结果。
在上述第一方面的一种可能的实现中,在接收到来自外部的查询指令的情况下,还包括:
对查询指令进行索引关键词解析;
根据索引关键词遍历资产描述项并获取关联的资产描述项,索引关键词对应零项或一项或多项关联的资产描述项;
根据索引关键词对关联的每个资产描述项进行搜索,获取关联的识别分类信息,并将关联的识别分类信息作为匹配查询结果。
在上述第一方面的一种可能的实现中,在获取待校验查询结果的过程中,还包括:
将关联于查询指令的资产描述项作为筛选项,获取不包含筛选项的全部资产登记文件;
将资产登记文件对应的原始数据作为待校验查询结果。
本申请的第二方面提供了一种基于智能分类的资产查重系统,应用于前述第一方面提供的基于智能分类的资产查重方法中,具体包括:
设置单元,用于于资产查重方法执行前,预先设定多项资产描述项,每个资产描述项对应一类需要查询的资产类型;
识别单元,用于根据资产登记文件,进行文字识别以获取对应的文字识别结果;
第一匹配单元,用于根据资产描述项,逐一对文字识别结果进行匹配检索,以获取资产登记文件对应的识别分类信息,识别分类信息关联于资产描述项;
第二匹配单元,用于在接收到来自外部的查询指令的情况下,根据查询指令逐一对资产描述项进行匹配搜索,以获取关联于符合匹配搜索的资产描述项的识别分类信息,并记为匹配查询结果;
防漏单元,用于获取不包含符合匹配搜索的资产描述项的资产登记文件,并记为待校验查询结果;
其中,重复资产查询的结果包括匹配查询结果和待校验查询结果。
本申请的第三方面提供了一种基于智能分类的资产查重设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现前述第一方面所提供的基于智能分类的资产查重方法。
本申请的第四方面提供了一种计算机可读存储介质,该种计算机可读存储介质上存储有计算机程序,在计算机程序被处理器执行时实现前述第一方面所提供的基于智能分类的资产查重方法。
与现有技术相比,本申请具有如下的有益效果:
通过本申请提出的技术方案,在基于对资产登记文件进行字符识别的基础上,按照预设的资产描述项对识别获得的内容进行预先的资产内容分类,以便在后续的关键词检索过程中可以根据检索条件更为快速便捷地寻找到符合检索描述的资产内容信息。同时,在返回用户检索结果的过程中,除了将上述符合检索描述的资产内容信息进行反馈外,为了防止出现因字符未识别或是关键词与资产描述不相匹配的情况产生,还会将不是该资产描述类型的原始资产登记文件同步进行反馈展示,以供用户使用更为合适的搜索条件进行重新检索或是人工对原始资产登记文件进行查验,防止在核查资产是否有被重复登记的过程中出现遗漏的情况,具有可推广价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1根据本申请实施例,示出了一种基于智能分类的资产查重方法的流程示意图;
图2根据本申请实施例,示出了一种在根据资产描述项逐一对文字识别结果进行匹配检索以获取资产登记文件对应的识别分类信息的流程示意图;
图3根据本申请实施例,示出了一种在接收到来自外部的查询指令的情况下的流程示意图;
图4根据本申请实施例,示出了一种基于智能分类的资产查重系统的结构示意图;
图5根据本申请实施例,示出了一种基于智能分类的资产查重设备的结构示意图;
图6根据本申请实施例,示出了一种计算机可读存储介质的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少区域地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
针对现有技术中存在的在资产登记查询中容易出现遗漏情况,完全依靠文字识别无法做到精准查重的痛点,本申请提供了一种基于智能分类的资产查重方法、系统、设备及计算机可读存储介质。通过本申请提供的技术方案,能够实现对于资产登记文件的快速电子化扫描以及关键词检索查询,同时能够克服字符遗漏识别以及关键词检索不精确导致的资产查重遗漏。以下将结合实施例对本申请提供的技术方案进行阐释和说明。
在本申请的一些实施例中,上述基于智能分类的资产查重方法用于根据资产登记文件进行重复资产查询。可以理解的是,于资产查重方法执行前,预先设定多项资产描述项,每个资产描述项对应一类需要查询的资产类型。其中,有关资产描述项的具体设定将于后文中进行说明和阐释。
如图1所示,该种资产查重方法可以包括如下步骤:
步骤101:根据资产登记文件,进行文字识别以获取对应的文字识别结果。可以理解的是,本领域技术人员可以采用现有技术中任意一项可行方案实现对资产登记文件的字符识别,在此不做限定。
步骤102:根据资产描述项,逐一对文字识别结果进行匹配检索,以获取资产登记文件对应的识别分类信息。可以理解的是,于上述步骤102中,识别分类信息与资产描述项相关联。通过上述步骤101至步骤102,即可实现对于资产登记文件的智能分类操作。
步骤103:在接收到来自外部的查询指令的情况下,根据查询指令逐一对资产描述项进行匹配搜索,以获取关联于符合匹配搜索的资产描述项的识别分类信息,并记为匹配查询结果。
步骤104:获取不包含符合匹配搜索的资产描述项的资产登记文件,并记为待校验查询结果。可以理解的是,重复资产查询的结果可以包括匹配查询结果和待校验查询结果。
可以理解的是,通过上述步骤102至步骤104,能够基于对资产登记文件的智能分类实现查重过程的防漏:通过查询指令中包含的关键字对智能分类结果进行首轮筛选以取得确定的匹配查询结果。在此基础上为了避免字符漏识别,或是资产登记时的表述与查询表述不一致等常见的遗漏查询情况,将不包含符合匹配搜索的资产描述项对应的资产登记文件的原始信息一并反馈给用户,用户可以根据实际需要进行后续的精细化查询操作。例如,在不包含符合匹配搜索的资产描述项对应的资产登记文件较多的情况下,用户可以选择更换更为合适的查询指令或是查询关键字;又例如,在不包含符合匹配搜索的资产描述项对应的资产登记文件较少的情况下,用户可以自行对这些资产登记文件进行人工查验以排除遗漏查验的可能性,在此不做限定。
在本申请的一些实施例中,进一步地,在根据资产登记文件,进行文字识别以获取对应的文字识别结果,还可以包括:先行获取资产登记文件对应的原始图像,再使用光学字符识别引擎对原始图像进行字符识别,获取对应的可识别字符。于上述实施例中,文字识别结果可以包括全部可识别字符。
在本申请的一些实施例中,进一步地,资产描述项可以包括发票资产类型、应收账款资产类型、企业名称资产主体中的至少一种或多种。其中,当资产描述项对应发票资产类型时,其对应的数据存储形式可以为字符串组合或是几个数字的组合;当资产描述项对应应收账款资产类型时,其对应的数据存储形式为多位数字字符和货币符号字符的组合,用来代表资产登记文件中某企业某段时间内的应收账款数额;当资产描述项对应企业名称资产主体时,其对应的数据存储形式为中文字符和/或英文字符的组合,用来代表某企业的名称。上述举例为资产登记文件中经常出现并需要进行审计核对的常见项,本技术方案在此并不对资产描述项的具体组成进行限定。
在本申请的一些实施例中,如图2所示,在根据资产描述项逐一对文字识别结果进行匹配检索以获取资产登记文件对应的识别分类信息的过程中,还可以包括以下步骤:
步骤201:根据预设次序从资产描述项中选取一项作为匹配检索项。即从多项资产描述项中选取一项逐一执行如图2所示的方法步骤流程。
步骤202:根据匹配检索项对文字识别结果进行遍历检索以获取关联于匹配检索项的文字识别结果。可以理解的是,对于单项成文且具有具体含义的文字识别结果而言,其往往对应有一项资产描述项,上述遍历检索的过程可以通过预先训练的神经网络模型获得,在此不做限定。
步骤203:重复上述步骤直至全部资产描述项获取关联的文字识别结果,并记为资产登记文件对应的识别分类信息。
于上述实施例中,可以理解的是,通过上述步骤201至步骤203的实施,即使用每个资产描述项去检索资产登记文件中的全体文字描述资料。例如在发票资产类型中通过检索匹配到若干个结果,则此处的每个匹配结果是资产登记文件原文中出现的发票号。
在本申请的一些实施例中,进一步地,每个资产描述项对应一组识别分类信息。具体地,识别分类信息可以包括识别分类信息对应的资产描述项,识别分类信息的具体匹配内容,具体匹配内容对应的资产登记文件以及具体匹配内容对应的资产主体。同时,识别分类信息的具体匹配内容源于根据资产登记文件进行文字识别以获取的文字识别结果。
可以理解的是,于上述实施例的一种可能实现中,可以将每个资产描述项对应的识别分类信息存储在一张数据表中,该数据表中的具体参数信息可以包括:
PatternID,用于表示当前资产描述项对应的具体类型;
MatchedResult,用于表示通过检索匹配到的识别分类信息的具体内容;
AssetID,用于表示资产登记文件的身份标识信息,用户可以通过资产登记文件的身份标识信息直接获取资产登记文件的原始信息;
CompanyID,用于表示当前资产描述项对应公司身份标识信息,即说明当前资产登记内容对应的资产所属当前公司。
在上述实施例的另一种可能实现中,针对每一种不同的资产描述项,可以根据资产描述项能够的实际描述内容,设计对应的批量搜索的模板。这样就允许用户在后续的特定资产搜索过程中,只需要填写对应的模板文档即可实现对于对应的资产描述项的资产搜索。
在本申请的一些实施例中,进一步地,如图3所示,在接收到来自外部的查询指令的情况下,该种资产查重方法还包括:
步骤301:对查询指令进行索引关键词解析。
步骤302:根据索引关键词遍历资产描述项并获取关联的资产描述项,索引关键词对应零项或一项或多项关联的资产描述项;
步骤303:根据索引关键词对关联的每个资产描述项进行搜索,获取关联的识别分类信息,并将关联的识别分类信息作为匹配查询结果。
于上述实施例的一种可能的实现中,当用户输入相关查询指令时,可以从中预先进行索引关键词的解析,索引关键词也可以由用户直接提出;紧接着用索引关键词依照资产描述项进行分类,一个索引关键词可能属于一类或是多类资产描述项,也可能不属于任何一类资产描述项;在划分完成所属的资产描述项后,进一步使用关键词去对识别分类信息的具体内容字段进行检索,以返回相应的匹配查询结果。
在本申请的一些实施例中,进一步地,在获取待校验查询结果的过程中,该种资产查重方法还包括:首先将关联于查询指令的资产描述项作为筛选项,获取不包含筛选项的全部资产登记文件;进而将资产登记文件对应的原始数据作为待校验查询结果。
可以理解的是,对于不包含筛选项的全部资产登记文件而言,这些资产登记文件是用户无法通过查询指令直接搜索得到的内容,因此需要将这些资产登记文件也作为最终查重结果的一部分反馈给用户,由用户自行决定是否需要对这部分资产登记文件尝试人工校验等其他处理方式,最大限度地避免了在资产查重过程中出现各类遗漏的情况。
在本申请的一些实施例中,图4示出了一种基于智能分类的资产查重系统,应用于前述实施例提供的基于智能分类的资产查重方法中,具体包括:
设置单元001,用于于资产查重方法执行前,预先设定多项资产描述项,每个资产描述项对应一类需要查询的资产类型。
识别单元002,用于根据资产登记文件,进行文字识别以获取对应的文字识别结果。
第一匹配单元003,用于根据资产描述项,逐一对文字识别结果进行匹配检索,以获取资产登记文件对应的识别分类信息,识别分类信息关联于资产描述项。
第二匹配单元004,用于在接收到来自外部的查询指令的情况下,根据查询指令逐一对资产描述项进行匹配搜索,以获取关联于符合匹配搜索的资产描述项的识别分类信息,并记为匹配查询结果。
防漏单元005,用于获取不包含符合匹配搜索的资产描述项的资产登记文件,并记为待校验查询结果。
其中,重复资产查询的结果包括匹配查询结果和待校验查询结果。
可以理解的是,上述基于智能分类的资产查重系统中各个功能模块的实现方式与前述实施例所提供的基于智能分类的资产查重方法中提供的各个流程步骤一一对应且相同,在此不做赘述。
在本申请的一些实施例中,还提供了一种基于智能分类的资产查重设备,该种设备可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现本申请技术方案中说明的图像拉正方法的步骤。
可以理解的是,本申请技术方案的各个方面可以实现为系统、方法或程序产品。因此,本申请技术方案的各个方面可以具体实现为以下形式,即完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图5根据本申请的一些实施例,示出了一种基于智能分类的资产查重设备的结构示意图。下面参照图5来详细描述根据本实施例中的实施方式实施的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本申请技术方案任何实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组建可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本实施例中上述图像拼接方法区域中描述的根据本实施例中的实施步骤。例如,处理单元610可以执行如图1至图4中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取单元(RAM)6201和/或高速缓存存储单元6202,可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图像加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可以与一个或者多个使得用户与该电子设备600交互的设备通信,和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其他模块通信。应当明白,尽管图5中未示出,可以结合电子设备600使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
在本申请的一些实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时能够实现上述实施例中提供的基于智能分类的资产查重方法的相关步骤。
尽管本实施例未详尽地列举其他具体的实施方式,但在一些可能的实施方式中,本申请技术方案说明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本申请技术方案中图像拼接方法区域中描述的根据本申请技术方案各种实施例中实施方式的步骤。
图6根据本申请的一些实施例示出了一种计算机可读存储介质的结构示意图。如图6所示,其中描述了根据本申请技术方案的实施方式中用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。当然,依据本实施例产生的程序产品不限于此,在本申请技术方案中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一区域传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请技术方案操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、区域地在用户设备上执行、作为一个独立的软件包执行、区域在用户计算设备上区域在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上,通过本申请提出的技术方案,在基于对资产登记文件进行字符识别的基础上,按照预设的资产描述项对识别获得的内容进行预先的资产内容分类,以便在后续的关键词检索过程中可以根据检索条件更为快速便捷地寻找到符合检索描述的资产内容信息。同时,在返回用户检索结果的过程中,除了将上述符合检索描述的资产内容信息进行反馈外,为了防止出现因字符未识别或是关键词与资产描述不相匹配的情况产生,还会将不是该资产描述类型的原始资产登记文件同步进行反馈展示,以供用户使用更为合适的搜索条件进行重新检索或是人工对原始资产登记文件进行查验,防止在核查资产是否有被重复登记的过程中出现遗漏的情况,具有可推广价值
上述描述仅是对本申请技术方案较佳实施例的描述,并非对本申请技术方案范围的任何限定,本申请技术方案领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

1.一种基于智能分类的资产查重方法,其特征在于,用于根据资产登记文件进行重复资产查询;
于所述资产查重方法执行前,预先设定多项资产描述项,每个所述资产描述项对应一类需要查询的所述资产类型;
所述资产查重方法包括如下步骤:
根据所述资产登记文件,进行文字识别以获取对应的文字识别结果;
根据所述资产描述项,逐一对所述文字识别结果进行匹配检索,以获取所述资产登记文件对应的识别分类信息,所述识别分类信息关联于所述资产描述项;
在接收到来自外部的查询指令的情况下,根据所述查询指令逐一对所述资产描述项进行匹配搜索,以获取关联于符合所述匹配搜索的所述资产描述项的所述识别分类信息,并记为匹配查询结果;
获取不包含符合所述匹配搜索的所述资产描述项的所述资产登记文件,并记为待校验查询结果;
所述重复资产查询的结果包括所述匹配查询结果和所述待校验查询结果。
2.如权利要求1所述的资产查重方法,其特征在于,在根据所述资产登记文件,进行文字识别以获取对应的文字识别结果,还包括:
获取所述资产登记文件对应的原始图像
使用光学字符识别引擎对所述原始图像进行字符识别,获取对应的可识别字符;
所述文字识别结果包括全部所述可识别字符。
3.如权利要求1所述的资产查重方法,其特征在于,所述资产描述项包括但不限于发票号资产类型、应收账款资产类型、企业名称资产主体中的至少一种或多种。
4.如权利要求1所述的资产查重方法,其特征在于,根据所述资产描述项逐一对所述文字识别结果进行匹配检索以获取所述资产登记文件对应的识别分类信息的过程中,还包括:
根据预设次序从所述资产描述项中选取一项作为匹配检索项;
根据所述匹配检索项对所述文字识别结果进行遍历检索以获取关联于所述匹配检索项的所述文字识别结果;
重复上述步骤直至全部所述资产描述项获取关联的所述文字识别结果,并记为所述资产登记文件对应的所述识别分类信息。
5.如权利要求1所述的资产查重方法,其特征在于,每个所述资产描述项对应一组所述识别分类信息;
所述识别分类信息包括所述识别分类信息对应的所述资产描述项,所述识别分类信息的具体匹配内容,所述具体匹配内容对应的所述资产登记文件以及所述具体匹配内容对应的资产主体;
所述识别分类信息的具体匹配内容源于根据所述资产登记文件进行文字识别以获取的所述文字识别结果。
6.如权利要求1所述的资产查重方法,其特征在于,在接收到来自外部的查询指令的情况下,还包括:
对所述查询指令进行索引关键词解析;
根据所述索引关键词遍历所述资产描述项并获取关联的资产描述项,所述索引关键词对应零项或一项或多项关联的所述资产描述项;
根据所述索引关键词对关联的每个资产描述项进行搜索,获取关联的所述识别分类信息,并将关联的所述识别分类信息作为所述匹配查询结果。
7.如权利要求1所述的资产查重方法,其特征在于,在获取所述待校验查询结果的过程中,还包括:
将关联于所述查询指令的所述资产描述项作为筛选项,获取不包含所述筛选项的全部所述资产登记文件;
将所述资产登记文件对应的原始数据作为所述待校验查询结果。
8.一种基于智能分类的资产查重系统,其特征在于,应用于如权利要求1至7中任意一项所述的基于智能分类的资产查重方法中,包括:
设置单元,用于于所述资产查重方法执行前,预先设定多项资产描述项,每个所述资产描述项对应一类需要查询的所述资产类型;
识别单元,用于根据所述资产登记文件,进行文字识别以获取对应的文字识别结果;
第一匹配单元,用于根据所述资产描述项,逐一对所述文字识别结果进行匹配检索,以获取所述资产登记文件对应的识别分类信息,所述识别分类信息关联于所述资产描述项;
第二匹配单元,用于在接收到来自外部的查询指令的情况下,根据所述查询指令逐一对所述资产描述项进行匹配搜索,以获取关联于符合所述匹配搜索的所述资产描述项的所述识别分类信息,并记为匹配查询结果;
防漏单元,用于获取不包含符合所述匹配搜索的所述资产描述项的所述资产登记文件,并记为待校验查询结果;
其中,所述重复资产查询的结果包括所述匹配查询结果和所述待校验查询结果。
9.一种基于智能分类的资产查重设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7中任一项所述的基于智能分类的资产查重方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于智能分类的资产查重方法。
CN202111671968.3A 2021-12-31 2021-12-31 基于智能分类的资产查重方法、系统、设备及计算机可读存储介质 Pending CN114416980A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111671968.3A CN114416980A (zh) 2021-12-31 2021-12-31 基于智能分类的资产查重方法、系统、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111671968.3A CN114416980A (zh) 2021-12-31 2021-12-31 基于智能分类的资产查重方法、系统、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114416980A true CN114416980A (zh) 2022-04-29

Family

ID=81270615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111671968.3A Pending CN114416980A (zh) 2021-12-31 2021-12-31 基于智能分类的资产查重方法、系统、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114416980A (zh)

Similar Documents

Publication Publication Date Title
US8468167B2 (en) Automatic data validation and correction
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US9104700B1 (en) Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
CN111581976A (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN112417126B (zh) 一种问答方法、计算设备以及存储介质
CN107451153A (zh) 输出结构化查询语句的方法和装置
CN110765889B (zh) 法律文书的特征提取方法、相关装置及存储介质
CN110705235B (zh) 业务办理的信息录入方法、装置、存储介质及电子设备
KR102442350B1 (ko) 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치
US20220058214A1 (en) Document information extraction method, storage medium and terminal
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN113032834A (zh) 一种数据库表格处理方法、装置、设备及存储介质
CN112783825A (zh) 数据归档方法、装置、计算机装置及存储介质
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN117932009A (zh) 基于ChatGLM模型的保险客服对话生成方法、装置、设备及介质
EP4300445A1 (en) Generalizable key-value set extraction from documents using machine learning models
CN117435189A (zh) 金融系统接口的测试用例分析方法、装置、设备及介质
CN115935042B (zh) 一种基于融合模型的质押资产智能查重方法及系统
US20080033931A1 (en) Cap-sensitive text search for documents
CN111177387A (zh) 用户名单信息处理方法、电子装置及计算机可读存储介质
CN111881695A (zh) 一种审计知识的检索方法及装置
CN114254109B (zh) 用于确定行业类别的方法及装置
CN114416980A (zh) 基于智能分类的资产查重方法、系统、设备及计算机可读存储介质
US11687574B2 (en) Record matching in a database system
CN111460258A (zh) 司法鉴定信息提取方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination