CN115982205A - 一种海量多元数据智能归集系统及归集方法 - Google Patents
一种海量多元数据智能归集系统及归集方法 Download PDFInfo
- Publication number
- CN115982205A CN115982205A CN202310085271.0A CN202310085271A CN115982205A CN 115982205 A CN115982205 A CN 115982205A CN 202310085271 A CN202310085271 A CN 202310085271A CN 115982205 A CN115982205 A CN 115982205A
- Authority
- CN
- China
- Prior art keywords
- collection
- invoice
- query
- information
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种海量多元数据智能归集系统及归集方法,其中,海量多元数据智能归集系统包括归集提取模块、归集存储模块、归集选择模块和归集查询模块。针对大规模用户环境下多元数据查询请求要素多样、查询请求并发性高、用户多元数据存储数据量大等特点,需要满足大规模用户在线并发请求的快速响应及海量多元数据多要素快速检索查询等关键问题。本发明的海量多元数据智能归集系统,在存储阶段根据发票的不同要素特点进行提取,归集分类后存储入归集信息表中,在查询阶段将原本需要进行地多要素联合查询简化为一次要素标识值计算和两次单要素查询,可以快速获得所有符合查询条件的电子发票信息,极大地优化查询时间。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种海量多元数据智能归集系统及归集方法。
背景技术
随着信息时代的发展,海量多元数据使用规模也越来越大。如用户在注册新系统后,买家在订单下单后,商家在开具电子发票后,会将生成的数据将存入数据库中进行存储与等待后续的查询。
目前,业界通常使用关系型数据库对多元数据信息进行存储。关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。
在关系型数据库中,虽然可以满足一般的存储、查询发票的需求,但是随着业务量的增加,在大规模用户下海量多源异构数据的存储与查询时,传统关系型数据库查询响应速度慢、高并发条件下易造成服务宕机等问题便日益严重。
以电子发票信息为例,目前大规模用户环境下数据服务平台查询存在以下问题:由于要为多字段建立索引,现有方法对海量多元数据进行联合查询时资源消耗极大,时间开销大,查询效率低。现有的提高多元数据查询效率的方法依赖于特定的字段及数据类型,虽然可以提升特定场景下的多元数据查询效率,但是在查询要素多样的场景下,无法提升任意组合的按要素查询速率。现有的提高多元数据查询效率的方法依赖于特定的设计结构或框架,可移植性差,使用门槛较高。在已有系统中引入现有的优化技术时,即使已有系统结构与引入的优化技术兼容,也有可能要对已有数据进行大量修改,在旧系统中引入新方法的配置较为繁琐。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种海量多元数据智能归集系统及归集方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种海量多元数据智能归集系统,包括:
归集提取模块,用于根据接收的发票归集请求,提取得到对应发票的关键要素,根据所述关键要素得到多个归集类型,获取每个归集类型对应的标识信息,根据所述多个标识信息生成对应发票的归集信息;
归集存储模块,用于将所述归集信息存储在归集信息表中,并将所述归集信息表中的标识信息设置为索引项;
归集选择模块,用于根据接收的发票查询请求,确定所述发票查询请求对应的归集类型,并计算得到该发票查询请求对应的要素标识值;
归集查询模块,用于根据所述发票查询请求对应的归集类型和要素标识值,对所述归集信息表进行查询,得到符合条件的发票ID。
在本发明的一个实施例中,所述发票归集请求包括发票信息,所述发票信息包括发票的关键要素。
在本发明的一个实施例中,所述发票的关键要素,包括:发票ID、购买方姓名、购买方纳税人识别号、购买方地址,购买方电话,购买方开户银行,购买方开户账号、商品名称、商品单价、商品数量、商品总金额、商品税率、商品税额、销售方名称、销售方纳税人识别号、销售方地址、销售方电话、销售方开户银行、销售方开户账号、收款人姓名、开票人姓名、发票代码、开票日期、校验码和机器编码。
在本发明的一个实施例中,所述归集提取模块包括:
关键要素提取单元,用于根据所述发票信息,提取得到对应发票的关键要素;
归集类型划分单元,用于根据所述关键要素生成多个归集类型,所述归集类型为包括一个或多个关键要素的组合;
归集信息生成单元,用于将每个所述归集类型中的关键要素进行级联操作得到合并关键要素,利用哈希算法对所述合并关键要素进行哈希值计算,得到每个归集类型对应的标识信息,根据发票ID和多个归集类型对应标识信息构成发票的归集信息。
在本发明的一个实施例中,所述发票查询请求包括发票的查询要素,所述查询要素包括发票的一个或多个关键要素。
在本发明的一个实施例中,所述归集选择模块,包括:
归集类型确定单元,用于根据所述查询要素,确定所述发票查询请求对应的归集类型;
标识值计算单元,用于将查询要素进行级联操作,得到合并查询要素,利用哈希算法对所述合并查询要素进行哈希值计算,得到所述发票查询请求对应的要素标识值。
在本发明的一个实施例中,所述归集存储模块,还用于将所述发票信息发送至电子发票存储系统进行存储,其中,在所述电子发票存储系统中,将发票ID设置为索引项;
相应地,所述归集查询模块,还用于将所述符合条件的发票ID发送至所述电子发票存储系统进行发票ID查询,得到查询结果,所述查询结果为发票ID对应的发票信息。
本发明还提供了一种海量多元数据智能归集方法,包括:归集存储方法和归集查询方法,其中,
所述归集存储方法,包括:
根据接收的发票归集请求,提取得到对应发票的关键要素,根据所述关键要素,得到多个归集类型,获取每个归集类型对应的标识信息,根据所述多个标识信息生成对应发票的归集信息;
将所述归集信息存储在归集信息表中,并将所述归集信息表中的标识信息设置为索引项;
所述归集查询方法,包括:
根据接收的发票查询请求,确定所述发票查询请求对应的归集类型,并计算得到该发票查询请求对应的要素标识值;
根据所述发票查询请求对应的归集类型和要素标识值,对所述归集信息表进行查询,得到符合条件的发票ID。
在本发明的一个实施例中,所述归集存储方法,还包括:
将所述发票信息发送至电子发票存储系统进行存储,其中,在所述电子发票存储系统中,将发票ID设置为索引项;
相应地,所述归集查询方法,还包括:
将所述符合条件的发票ID发送至所述电子发票存储系统进行发票ID查询,得到查询结果,所述查询结果为发票ID对应的发票信息。
本发明又提供了一种电子发票管理系统,包括:电子发票开票系统、电子发票查询系统、电子发票存储系统和如权利要求1-7任一所述的海量多元数据智能归集系统,其中,
所述电子发票开票系统,用于生成发票信息,根据所述发票信息生成发票归集请求,并将所述发票归集请求发送至所述海量多元数据智能归集系统;
所述电子发票查询系统,用于生成发票查询请求,并将所述发票查询请求发送至所述海量多元数据智能归集系统,还用于对所述查询结果进行解析恢复;
所述电子发票存储系统,用于存储所述发票信息。
与现有技术相比,本发明的有益效果在于:
1.本发明的海量多元数据智能归集系统,在存储阶段,根据发票的关键要素划分得到多个归集类型,获取发票对应归集类型的标识信息,并创建归集信息表来实现对特定组合要素的标识信息的存储,同时将归集信息表中的标识信息设置为索引项,进一步为后续实现基于要素的精确检索提供支撑。
2.本发明的海量多元数据智能归集系统,在查询阶段,将原本的联合查询转换为按关键要素构造归集信息查询,在海量多元数据智能归集系统中,将查询要素合并后计算得到对应的要素标识值,并根据此要素标识值从归集信息表中查询得到符合条件的发票ID。此后,海量多元数据智能归集系统将所有符合条件的发票ID发送至电子发票存储系统进行基于发票ID的查询,可以快速获得所有符合查询条件的电子发票信息。
3.本发明的海量多元数据智能归集系统,能存储海量多元数据并进行检索,对海量多元数据进行检索时不会造成大量资源开销,耗时较少,查询效率高。
4.本发明的海量多元数据智能归集系统及归集方法,在数据存储时根据数据的不同要素特点进行提取,归集分类后存储至归集信息表中,将原本需要进行地多要素联合查询简化为一次要素标识值计算和两次单要素查询,极大地优化查询时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明实施例提供的一种海量多元数据智能归集系统的结构框图;
图2是本发明实施例提供的一种归集存储方法的流程示意图;
图3是本发明实施例提供的一种归集查询方法的流程示意图;
图4是本发明实施例提供的一种电子发票管理系统的结构框图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种海量多元数据智能归集系统及归集方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
实施例一
请参见图1,图1是本发明实施例提供的一种海量多元数据智能归集系统的结构框图,如图所示,本实施例的海量多元数据智能归集系统,包括归集提取模块、归集存储模块、归集选择模块和归集查询模块。
其中,归集提取模块用于根据接收的发票归集请求,提取得到对应发票的关键要素,根据关键要素得到多个归集类型,获取每个归集类型对应的标识信息,根据多个标识信息生成对应发票的归集信息。
在一个可选地实施方式中,发票归集请求包括发票信息,发票信息包括发票的关键要素。
可选地,电子发票信息表中的任意一个字段均可作为发票的关键要素,包括:发票ID、购买方姓名、购买方纳税人识别号、购买方地址,
购买方电话,购买方开户银行,购买方开户账号、商品名称、商品单价、商品数量、商品总金额、商品税率、商品税额、销售方名称、销售方纳税人识别号、销售方地址、销售方电话、销售方开户银行、销售方开户账号、收款人姓名、开票人姓名、发票代码、开票日期、校验码和机器编码。
示例性地,购买方姓名是一个关键要素,商品名称也是一个关键要素。
在一个可选地实施方式中,归集提取模块包括:关键要素提取单元、归集类型划分单元和归集信息生成单元。其中,关键要素提取单元用于根据发票信息,提取得到对应发票的关键要素。
其中,归集类型划分单元用于根据关键要素生成多个归集类型。可选地,归集类型为包括一个或多个关键要素的组合。
需要说明的是,每个关键要素可独立作为一个归集类型,也可作为其他多个归集类型中的一个关键要素,在本实施例中,包括多个关键要素的归集类型可以根据常用的联合查询方式进行划分。
示例性地,在利用购买方姓名和销售方名称的联合查询方式中,购买方姓名是一个关键要素,销售方名称是一个关键要素。使用[购买方姓名,销售方名称]两个关键要素作为此联合查询的条件,则此条件[购买方姓名,销售方名称]可以记为一个归集类型。
示例性地,在利用商品名称、商品数量和开票人姓名的联合查询方式中,分别使用商品名称、商品数量和开票人姓名3个关键要素作为联合查询的条件,则此条件[商品名称,商品数量,开票人姓名]可以记为一个归集类型。
其中,归集信息生成单元用于将每个归集类型中的关键要素进行级联操作得到合并关键要素,利用哈希算法对合并关键要素进行哈希值计算,得到每个归集类型对应的标识信息,根据发票ID和多个归集类型对应标识信息构成发票的归集信息。
在本实施例中,将利用哈希算法计算得到的合并关键要素的哈希值作为归集类型对应的标识信息。
可选地,根据定义的归集类型,从发票信息中将对应字段的内容提取到相应的归集类型中,将关键要素合并为一串文本ElementCombine,每一个归集类型都对应一个合并后的ElementCombine,其中,ElementCombine由各关键要素按顺序进行级联操作构成。对于每个ElementCombine,使用一种哈希算法计算得到其ElementHash,也就是归集类型对应的标识信息。然后,将该发票信息的发票ID与计算得到的所有归集类型的哈希值组成该发票的归集信息。
哈希(Hash)算法,又名散列算法,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。在一个可选地实施方式中,可采用常见的哈希算法,如MD5、SHA(SHA又可细分为SHA-1、SHA-224、SHA-256、SHA-384,和SHA-512等)、SM3等进行哈希值计算。
需要说明的是,在本实施例中,在标识信息的获取过程中,主要是通过哈希算法生成并拼接而成的,在其他实施例中,也可采用特定的编码算法、加密算法、签名算法等替代哈希算法。可选地,在获取标识信息时,可以将各关键要素进行级联操作后,计算其base64编码或者转换为16进制字符串,并截取指定长度作为标识信息;也可以使用特定的密钥及签名算法,计算各要素级联后的签名值,作为标识信息;也可以使用特定的加密算法及加密密钥,计算各要素级联后的密文,并截取指定长度,作为标识信息。
其中,归集存储模块用于将归集信息存储在归集信息表中,并将归集信息表中的标识信息设置为索引项。
在一个可选地实施方式中,归集存储模块维护一个(或根据发票数量分成多个)归集信息表,归集信息表中存在发票ID字段以及各归集类型字段,将归集信息中的发票ID和多个归集类型对应的哈希值,存储在归集信息表中的对应位置处,同时将归集信息表中的哈希值设置为索引项,为后续实现基于要素的精确检索提供支撑。归集存储模块在收到新的归集信息后,将其插入到归集信息表中。
其中,归集选择模块用于根据接收的发票查询请求,确定发票查询请求对应的归集类型,并计算得到该发票查询请求对应的要素标识值。
在一个可选地实施方式中,发票查询请求包括发票的查询要素,查询要素包括发票的一个或多个关键要素。
在一个可选地实施方式中,归集选择模块包括:归集类型确定单元和标识值计算单元。其中,归集类型确定单元用于根据查询要素,确定发票查询请求对应的归集类型。
示例性地,若查询所有购买方姓名为张三且销售方名称为李四超市的所有发票信息,那么该发票的查询要素包括购买方姓名和销售方名称2个关键要素,则确定该发票查询请求的归集类型为[购买方姓名,销售方名称]。
示例性地,若查询商品名称为A手机,商品数量为1,开票人姓名为王五的所有发票信息,那么该发票的查询要素包括商品名称、商品数量和开票人姓名3个关键要素,则确定该发票查询请求的归集类型为[商品名称,商品数量,开票人姓名]。
其中,标识值计算单元用于将查询要素进行级联操作,得到合并查询要素,利用哈希算法对合并查询要素进行哈希值计算,得到发票查询请求对应的要素标识值。
在本实施例中,将利用哈希算法计算得到的合并查询要素的哈希值作为发票查询请求对应的要素标识值。
可选地,获取要素标识值的具体步骤与归集信息生成单元中获取归集类型的哈希值的步骤类似,在此不再赘述。
需要说明的是,在其他采用特定的编码算法、加密算法、签名算法等替代哈希算法获取标识信息的实施例中,相应地采用对应方法获取发票查询请求对应的要素标识值。
其中,归集查询模块用于根据发票查询请求对应的归集类型和要素标识值,对归集信息表进行查询,得到符合条件的发票ID。
进一步地,在其他实施例中,归集存储模块还用于将发票信息发送至电子发票存储系统进行存储,其中,在电子发票存储系统中,将发票ID设置为索引项。相应地,归集查询模块还用于将符合条件的发票ID发送至电子发票存储系统进行发票ID查询,得到查询结果,查询结果为发票ID对应的发票信息。
可选地,电子发票存储系统可以为独立于海量多元数据智能归集系统的外部存储系统,也可以为位于海量多元数据智能归集系统内部的存储单元。
本实施例的海量多元数据智能归集系统,在存储阶段,根据发票的关键要素划分得到多个归集类型,获取发票对应归集类型的标识信息,并创建归集信息表来实现对特定组合要素的标识信息的存储,同时将归集信息表中的标识信息设置为索引项,进一步为后续实现基于要素的精确检索提供支撑。在查询阶段,将原本的联合查询转换为按关键要素构造归集信息查询,在海量多元数据智能归集系统中,将查询要素合并后计算得到对应的要素标识值,并根据此要素标识值从归集信息表中查询得到符合条件的发票ID。此后,海量多元数据智能归集系统将所有符合条件的发票ID发送至电子发票存储系统进行基于发票ID的查询,可以快速获得所有符合查询条件的电子发票信息。
实施例二
本实施例提供了一种海量多元数据智能归集方法,包括:归集存储方法和归集查询方法。请结合参见图2所示的归集存储方法的流程示意图,如图所示本实施例的归集存储方法,包括:
步骤201:根据接收的发票归集请求,提取得到对应发票的关键要素,根据关键要素,得到多个归集类型,获取每个归集类型对应的标识信息,根据多个标识信息生成对应发票的归集信息;
步骤202:将归集信息存储在归集信息表中,并将归集信息表中的标识信息设置为索引项。
在一个可选地实施例中,归集存储方法,还包括:
步骤203:将发票信息发送至电子发票存储系统进行存储,其中,在电子发票存储系统中,将发票ID设置为索引项。
请结合参见图3所示的归集查询方法的流程示意图,如图所示本实施例的归集查询方法,包括:
步骤301:根据接收的发票查询请求,确定发票查询请求对应的归集类型,并计算得到该发票查询请求对应的要素标识值;
步骤302:根据发票查询请求对应的归集类型和要素标识值,对归集信息表进行查询,得到符合条件的发票ID。
在一个可选地实施例中,归集查询方法,还包括:
步骤303:将符合条件的发票ID发送至电子发票存储系统进行发票ID查询,得到查询结果,查询结果为发票ID对应的发票信息。
本实施例提供的海量多元数据智能归集方法,适用于实施例一所述的海量多元数据智能归集系统,其实现原理和技术效果类似,在此不再赘述。
本实施例的海量多元数据智能归集方法,在电子发票存储时根据发票的不同要素特点进行提取,归集分类后存储至归集信息表中,将原本需要进行地多要素联合查询简化为一次要素标识值计算和两次单要素查询,极大地优化查询时间。
需要说明的是,以上描述仅是本发明的海量多元数据智能归集系统及归集方法的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
本发明的海量多元数据智能归集系统及归集方法不局限于电子发票场景,其在海量数据且存在联合查询的类似需求的场景中依旧适用。其中,数据表中的主键或具有唯一性的字段可作为需要检索的对象,数据表中的任意字段可作为本发明所述的关键要素,任意需要进行联合查询的字段组合可以作为归集类型,从而构造归集信息表,实现归集存储与归集查询。
例如,将本发明的海量多元数据智能归集系统及归集方法应用在图书管理系统中,可以实现一个图书信息智能归集系统及图书信息智能归集。可以存在一个图书信息表,该表中可以有如下字段:图书编号、图书ISBN、书名、作者、出版社、出版日期、简介、索书号、馆藏位置、馆藏码等。其中,图书编号为该表的主键,可作为归集查询的对象,并在数据库中设置为索引项。各字段均可作为图书信息智能归集系统中的关键要素。任意关键要素可构造归集类型,比如在联合查询中,查找所有作者为张三且出版日期为2023年的图书编号,则[作者,出版日期]可以记为一个归集类型。在归集信息表中,图书编号作为归集信息表的主键,各归集类型作为该表的其它字段,并标识为索引项。在归集查询时,根据联合查询使用的关键要素,确定归集类型,并计算此归集类型对应的要素标识值,之后在归集信息表中检索包含此要素标识值的记录,得到对应的图书编号,完成归集查询操作。
这种基于应用场景的不同而进行的形式和细节上的各种修改和改变不背离本发明的思想,仍在本发明的权利要求保护范围之内。
本发明的海量多元数据智能归集系统及归集方法,在数据存储时根据数据的不同要素特点进行提取,归集分类后存储至归集信息表中,将原本需要进行地多要素联合查询简化为一次要素标识值计算和两次单要素查询,极大地优化查询时间。
实施例三
本实施例提供了一种电子发票管理系统,请结合参见图4所示的电子发票管理系统的结构框图,如图所示,本实施例的电子发票管理系统包括:电子发票开票系统、电子发票查询系统、电子发票存储系统和海量多元数据智能归集系统。
其中,海量多元数据智能归集系统提供调用接口给电子发票开票系统和电子发票查询系统。
在本实施例中,电子发票开票系统用于生成发票信息,根据发票信息生成发票归集请求,并将发票归集请求发送至海量多元数据智能归集系统。
在本实施例中,海量多元数据智能归集系统如实施例一所述包括归集提取模块、归集存储模块、归集查询模块和归集选择模块,海量多元数据智能归集系统可以执行上述海量多元数据智能归集方法,并对归集信息进行持久化存储。
在本实施例中,电子发票查询系统负责对发票信息进行按要素查询,用于生成发票查询请求,并将发票查询请求发送至海量多元数据智能归集系统,还用于对查询结果进行解析恢复。
在本实施例中,电子发票存储系统,用于存储发票信息。电子发票存储系统为典型的数据库系统,维护一组数据库服务器群,对系统中的发票信息进行分库、分表、读写分离式存储。
在归集存储阶段,电子发票开票系统通过接口调用的形式将发票归集请求传给海量多元数据智能归集系统,海量多元数据智能归集系统通过归集提取模块提取关键要素,并生成归集信息,经过归集存储模块处理后,在海量多元数据智能归集系统中进行持久化存储,发票信息则通过接口调用的方式连接电子发票存储系统进行持久化存储。
在归集查询阶段,在电子发票查询系统中,用户根据界面提示选择自己想要执行的查询类型,并输入电子发票的查询要素,如姓名、单位名称等。电子发票查询系统收到用户的请求后,将包含查询要素的查询请求发送给海量多元数据智能归集系统。电子发票智能系统通过归集选择模块将查询要素合并后计算得到对应的要素标识值,之后通过归集查询模块,根据此要素标识值查询归集信息表得到符合此条件的发票ID。之后,海量多元数据智能归集系统根据发票ID,通过接口调用的形式,将所有符合条件的发票ID发送至电子发票存储系统进行基于发票ID的查询,可以快速获得所有符合查询条件的电子发票信息。之后,海量多元数据智能归集系统在获取到所有符合查询条件的电子发票信息后,将查询结果发给电子发票查询系统,电子发票查询系统对发票信息记录进行解析,恢复完整的发票信息。
本发明的电子发票管理系统,能存储海量多元数据并进行检索,对海量多元数据进行检索时不会造成大量资源开销,耗时较少,查询效率高。
应当说明的是,在本文中,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种海量多元数据智能归集系统,其特征在于,包括:
归集提取模块,用于根据接收的发票归集请求,提取得到对应发票的关键要素,根据所述关键要素得到多个归集类型,获取每个归集类型对应的标识信息,根据所述多个标识信息生成对应发票的归集信息;
归集存储模块,用于将所述归集信息存储在归集信息表中,并将所述归集信息表中的标识信息设置为索引项;
归集选择模块,用于根据接收的发票查询请求,确定所述发票查询请求对应的归集类型,并计算得到该发票查询请求对应的要素标识值;
归集查询模块,用于根据所述发票查询请求对应的归集类型和要素标识值,对所述归集信息表进行查询,得到符合条件的发票ID。
2.根据权利要求1所述的海量多元数据智能归集系统,其特征在于,所述发票归集请求包括发票信息,所述发票信息包括发票的关键要素。
3.根据权利要求2所述的海量多元数据智能归集系统,其特征在于,所述发票的关键要素,包括:发票ID、购买方姓名、购买方纳税人识别号、购买方地址,购买方电话,购买方开户银行,购买方开户账号、商品名称、商品单价、商品数量、商品总金额、商品税率、商品税额、销售方名称、销售方纳税人识别号、销售方地址、销售方电话、销售方开户银行、销售方开户账号、收款人姓名、开票人姓名、发票代码、开票日期、校验码和机器编码。
4.根据权利要求2所述的海量多元数据智能归集系统,其特征在于,所述归集提取模块包括:
关键要素提取单元,用于根据所述发票信息,提取得到对应发票的关键要素;
归集类型划分单元,用于根据所述关键要素生成多个归集类型,所述归集类型为包括一个或多个关键要素的组合;
归集信息生成单元,用于将每个所述归集类型中的关键要素进行级联操作得到合并关键要素,利用哈希算法对所述合并关键要素进行哈希值计算,得到每个归集类型对应的标识信息,根据发票ID和多个归集类型对应标识信息构成发票的归集信息。
5.根据权利要求1所述的海量多元数据智能归集系统,其特征在于,所述发票查询请求包括发票的查询要素,所述查询要素包括发票的一个或多个关键要素。
6.根据权利要求5所述的海量多元数据智能归集系统,其特征在于,所述归集选择模块,包括:
归集类型确定单元,用于根据所述查询要素,确定所述发票查询请求对应的归集类型;
标识值计算单元,用于将查询要素进行级联操作,得到合并查询要素,利用哈希算法对所述合并查询要素进行哈希值计算,得到所述发票查询请求对应的要素标识值。
7.根据权利要求2所述的海量多元数据智能归集系统,其特征在于,
所述归集存储模块,还用于将所述发票信息发送至电子发票存储系统进行存储,其中,在所述电子发票存储系统中,将发票ID设置为索引项;
相应地,所述归集查询模块,还用于将所述符合条件的发票ID发送至所述电子发票存储系统进行发票ID查询,得到查询结果,所述查询结果为发票ID对应的发票信息。
8.一种海量多元数据智能归集方法,其特征在于,包括:归集存储方法和归集查询方法,其中,
所述归集存储方法,包括:
根据接收的发票归集请求,提取得到对应发票的关键要素,根据所述关键要素,得到多个归集类型,获取每个归集类型对应的标识信息,根据所述多个标识信息生成对应发票的归集信息;
将所述归集信息存储在归集信息表中,并将所述归集信息表中的标识信息设置为索引项;
所述归集查询方法,包括:
根据接收的发票查询请求,确定所述发票查询请求对应的归集类型,并计算得到该发票查询请求对应的要素标识值;
根据所述发票查询请求对应的归集类型和要素标识值,对所述归集信息表进行查询,得到符合条件的发票ID。
9.根据权利要求8所述的海量多元数据智能归集方法,其特征在于,所述归集存储方法,还包括:
将所述发票信息发送至电子发票存储系统进行存储,其中,在所述电子发票存储系统中,将发票ID设置为索引项;
相应地,所述归集查询方法,还包括:
将所述符合条件的发票ID发送至所述电子发票存储系统进行发票ID查询,得到查询结果,所述查询结果为发票ID对应的发票信息。
10.一种电子发票管理系统,其特征在于,包括:电子发票开票系统、电子发票查询系统、电子发票存储系统和如权利要求1-7任一所述的海量多元数据智能归集系统,其中,
所述电子发票开票系统,用于生成发票信息,根据所述发票信息生成发票归集请求,并将所述发票归集请求发送至所述海量多元数据智能归集系统;
所述电子发票查询系统,用于生成发票查询请求,并将所述发票查询请求发送至所述海量多元数据智能归集系统,还用于对所述查询结果进行解析恢复;
所述电子发票存储系统,用于存储所述发票信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310085271.0A CN115982205A (zh) | 2023-02-01 | 2023-02-01 | 一种海量多元数据智能归集系统及归集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310085271.0A CN115982205A (zh) | 2023-02-01 | 2023-02-01 | 一种海量多元数据智能归集系统及归集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982205A true CN115982205A (zh) | 2023-04-18 |
Family
ID=85976103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310085271.0A Pending CN115982205A (zh) | 2023-02-01 | 2023-02-01 | 一种海量多元数据智能归集系统及归集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982205A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725102A (zh) * | 2024-02-07 | 2024-03-19 | 深圳标普云科技有限公司 | 一种基于人工智能的数电票管理方法及系统 |
-
2023
- 2023-02-01 CN CN202310085271.0A patent/CN115982205A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725102A (zh) * | 2024-02-07 | 2024-03-19 | 深圳标普云科技有限公司 | 一种基于人工智能的数电票管理方法及系统 |
CN117725102B (zh) * | 2024-02-07 | 2024-04-26 | 深圳标普云科技有限公司 | 一种基于人工智能的数电票管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102722481B (zh) | 一种用户收藏夹数据的处理方法及搜索方法 | |
WO2017074174A1 (en) | A system and method for processing big data using electronic document and electronic file-based system that operates on rdbms | |
CN103473230A (zh) | 服务范围确定方法、物流服务提供方推荐方法及相应装置 | |
CN108319661A (zh) | 一种备件信息的结构化存储方法及装置 | |
JP2008515061A (ja) | 概念的メタデータおよび文脈的メタデータの検索エンジンを用いたウェブ上におけるデータ要素の検索方法 | |
CN101196900A (zh) | 一种基于元数据的信息检索方法 | |
CN102999524B (zh) | 一种文档关联检索方法及系统 | |
WO2008137086A2 (en) | Method and system for disambiguating informational objects | |
CN102169491B (zh) | 一种多数据集中重复记录动态检测方法 | |
CN113407785B (zh) | 一种基于分布式储存系统的数据处理方法和系统 | |
JP2019204535A (ja) | 会計支援システム | |
CN110659282A (zh) | 数据路由的构建方法、装置、计算机设备和存储介质 | |
US10990573B2 (en) | Fast index creation system for cloud big data database | |
CN108319608A (zh) | 访问日志存储查询的方法、装置及系统 | |
CN107609151A (zh) | 基于Redis实现XBRL实例文档缓存的方法 | |
CN101963993B (zh) | 一种数据库单表记录快速查找的方法 | |
CN115982205A (zh) | 一种海量多元数据智能归集系统及归集方法 | |
CN111177306B (zh) | 一种数据处理方法及装置 | |
CN101957860A (zh) | 一种发布、搜索信息的方法及装置 | |
CN111191153A (zh) | 一种信息技术咨询服务展示装置 | |
CN101178738B (zh) | 一种音乐信息搜索方法、系统、服务端及客户端 | |
WO2007068279A1 (en) | Method and computer system for updating a database from a server to at least one client | |
CN105718457B (zh) | 基于电子票据的信息推送方法及系统 | |
CN111680072B (zh) | 基于社交信息数据的划分系统及方法 | |
CN102622354B (zh) | 一种基于特征向量的聚合数据快速查找方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |