CN111339217B - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN111339217B CN111339217B CN202010119532.2A CN202010119532A CN111339217B CN 111339217 B CN111339217 B CN 111339217B CN 202010119532 A CN202010119532 A CN 202010119532A CN 111339217 B CN111339217 B CN 111339217B
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- attribute
- preset
- latitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 21
- 238000012216 screening Methods 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 16
- 238000001914 filtration Methods 0.000 description 15
- 230000004069 differentiation Effects 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 4
- 238000012806 monitoring device Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据处理方法及装置,在获取到待处理数据集之后,根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记待处理数据,因为预设分类属性包括的数据属性是待处理数据包括的数据属性,所以每条待处理数据可由其数据属性值作为其纬度进行标记,若预设分类属性发生变更,可根据变更后的预设分类属性进行纬度替换,节省物理空间,并且一条待处理数据的纬度的数目明显小于待处理数据的数据索引,提高检索效率,从而提高数据的吞吐量。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种数据处理方法及装置。
背景技术
在大数据时代数据量逐渐增加,且大数据时代下可通过数据库的方式存储数据,以能够从数据库中检索到所需数据。但是随着数据量的增大,数据库中存储的每条数据的数据属性增多,且数据库中不同来源的数据的数据属性值不同,导致现有在数据库中建立数据索引以进行数据检索的方式难以满足数据检索的要求。
例如,用于存储订单数据的数据库,不同订单数据对应不同类型的产品,且不同类型的产品来源不同,导致数据库中不同订单数据的数据属性值不同,那么针对不同订单数据则需要构建不同的数据索引,如针对数据库中A产品的订单数据根据a1和a2两个数据属性值建立数据索引以进行检索,B产品的订单数据根据b1和b2两个数据属性值建立数据索引以进行检索。
因数据库中的数据量不断增加以及数据检索的要求也会不断变更,导致数据库中数据索引会无序增长,从而用于存储数据索引的索引文件会占用物理空间,且过多的数据索引会使得数据的吞吐量降低。
发明内容
有鉴于此,本发明实施例提供一种数据处理方及装置,技术方案如下:
一方面,本发明提供一种数据处理方法,包括:
获取待处理数据集,所述待处理数据集包括至少两条待处理数据,所述至少两条待处理数据包括至少一个数据属性;
根据预设分类属性,从所述待处理数据集中采集具有所述预设分类属性的待处理数据,所述预设分类属性包括至少一个数据属性,且所述预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性;
从具有所述预设分类属性的待处理数据中,获取所述预设分类属性对应的数据属性值;
以所述预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记所述预设分类属性对应的数据属性值所属的待处理数据。
可选的,所述方法还包括:根据预设筛选属性对应的数据属性值,对所述待处理数据进行筛选,得到具有所述预设筛选属性对应的数据属性值的待处理数据。
可选的,所述方法还包括:
确定具有所述预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则;
若具有所述预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据所述预设计算规则对应的计算算法进行计算。
可选的,所述方法还包括:
获取检索数据;
将所述检索数据与所述待处理数据的纬度进行比对,确定纬度与所述检索数据匹配的所述待处理数据;
输出纬度与所述检索数据匹配的所述待处理数据。
可选的,所述方法还包括:
根据所述待处理数据的数据属性以及数据属性值,对所述待处理数据的纬度进行校验;
若所述待处理数据的纬度与所述待处理数据的数据属性以及数据属性值不匹配,重新对所述待处理数据进行标记。
可选的,所述方法还包括:
获取所述待处理数据集中每条待处理数据的数据来源;
统计同一数据来源的待处理数据;
若同一数据来源的待处理数据异常,输出提示信息,所述提示信息用于指示有异常的待处理数据。
另一方面,本发明还提供一种数据处理装置,包括:
第一获取单元,用于获取待处理数据集,所述待处理数据集包括至少两条待处理数据,所述至少两条待处理数据包括至少一个数据属性;
采集单元,用于根据预设分类属性,从所述待处理数据集中采集具有所述预设分类属性的待处理数据,所述预设分类属性包括至少一个数据属性,且所述预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性;
第二获取单元,用于从具有所述预设分类属性的待处理数据中,获取所述预设分类属性对应的数据属性值;
标记单元,用于以所述预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记所述预设分类属性对应的数据属性值所属的待处理数据。
可选的,所述装置还包括:筛选单元,用于根据预设筛选属性对应的数据属性值,对所述待处理数据进行筛选,得到具有所述预设筛选属性对应的数据属性值的待处理数据。
可选的,所述装置还包括:
确定单元,用于确定具有所述预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则;
计算单元,用于若具有所述预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据所述预设计算规则对应的计算算法进行计算。
可选的,所述装置还包括:
第三获取单元,用于获取检索数据;
比对单元,用于将所述检索数据与所述待处理数据的纬度进行比对,确定纬度与所述检索数据匹配的所述待处理数据;
输出单元,用于输出纬度与所述检索数据匹配的所述待处理数据;
或者
所述装置还包括:
校验单元,用于根据所述待处理数据的数据属性以及数据属性值,对所述待处理数据的纬度进行校验,并且若所述待处理数据的纬度与所述待处理数据的数据属性以及数据属性值不匹配,触发所述标记单元重新对所述待处理数据进行标记。
可选的,所述装置还包括:
第四获取单元,用于获取所述待处理数据集中每条待处理数据的数据来源;
统计单元,用于统计同一数据来源的待处理数据;
提示输出单元,用于若同一数据来源的待处理数据异常,输出提示信息,所述提示信息用于指示有异常的待处理数据。
从上述技术方案可知,在获取到待处理数据集之后,根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记预设分类属性对应的数据属性值所属的待处理数据,因为预设分类属性包括的数据属性是待处理数据包括的数据属性,所以每条待处理数据可由每条待处理数据的数据属性值作为其纬度进行标记,若预设分类属性发生变更,可以根据变更后的预设分类属性对待处理数据进行纬度替换即可,这样在通过预设分类属性中至少一个数据属性进行检索都可以检索到包含该数据属性的待处理数据,从而在不需要构建数据索引的情况下实现对待处理数据的检索,节省物理空间,并且一条待处理数据的纬度的数目明显小于待处理数据的数据索引,提高检索效率,从而提高数据的吞吐量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的流程图;
图2为本发明实施例提供的另一种数据处理方法的流程图;
图3为本发明实施例提供的再一种数据处理方法的流程图;
图4为本发明实施例提供的再一种数据处理方法的流程图;
图5为本发明实施例提供的一种数据处理装置的结构示意图;
图6为本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参见图1,其示出了本发明实施例提供的一种数据处理方法的流程图,可以包括以下步骤:
101:获取待处理数据集,待处理数据集包括至少两条待处理数据,至少两条待处理数据包括至少一个数据属性。
可以理解的是:待处理数据集中的待处理数据为原始数据,这些待处理数据包括的数据属性相同但是不同待处理数据的数据属性值可能会不同,并且针对不同对象的待处理数据的数据属性可能也不同。例如待处理数据集中的待处理数据为保单数据,则保单数据的数据属性包括但不限于表1所示:
表1保单数据的数据属性
记录号 | 保障期限 | 缴费类型 | 缴费年限 | 产品 | 时间 | 账号 | 费用 |
如果待处理数据集中的待处理数据为电影播放数据,则电影播放数据的数据属性包括但不限于表2所示:
表2电影播放数据的数据属性
记录号 | 电影类型 | 制片公司 | 播放地点 | 产品 | 时间 | 账号 | 费用 |
其中记录号表征任意一条待处理数据在待处理数据集中的编号,对于保单数据,记录号可以是投保单号,对于电影播放数据,记录号可以是播放记录号,账号作为业务人员的身份标识,用于表征所属业务人员,费用表征向账号所属业务人员支付的费用。
从上述两种类型的待处理数据可知,不同类型的待处理数据中包括相同的数据属性,如上述产品、时间、账号和费用,这些数据属性用于体现业务人员销售产品过程,因此针对不同对象的待处理数据中相同的数据属性不能体现出不同对象的区别,而其他数据属性(如保障期限和电影类型)为待处理数据针对对象的基础属性,不同对象的基础属性有所不同,因此待处理数据的数据属性中针对对象的基础属性能够体现出不同对象之间的区别,以通过针对对象的基础属性实现待处理数据的差异化。
在本实施例中,待处理数据中数据属性的表示方式如表3所示:
表3数据属性的表示方式
数据属性 | 数据类型 | 备注 |
start_time | datetime | 开始时间 |
end_time | datetime | 结束时间 |
product_id | int | 产品 |
account_id | int | 账号 |
economy_name | string | 基础属性名称 |
102:根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,预设分类属性包括至少一个数据属性,且预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性。
在本实施例中,待处理数据包括多个数据属性,这多个数据属性中作为预设分类属性的数据属性为上述能够体现待处理数据所针对对象的基础属性,以体现当前对哪种对象的待处理数据进行采集分类,体现采集分类的差异化。例如对于上述保单数据来说,预设分类属性可以包括但不限于:保障期限和缴费年限,对于上述电影播放数据来说,预设分类属性可以包括但不限于:电影类型、制片公司和播放地点。
因为预设分类属性是通过待处理数据集中至少一条待处理数据包括的数据属性得到,所以在通过预设分类属性从待处理数据集中采集待处理数据过程中,可以从待处理数据集中获取到包括预设分类属性的各条待处理数据。
为了进一步体现采集分类的差异化,本实施例根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据包括:根据预设分类属性的属性值,从待处理数据集中采集具有预设分类属性的属性值的待处理数据,即获取到既包括预设分类属性且数据属性值与预设分类属性的属性值相同的待处理数据,从而能够根据预设分类属性的属性值进行差异化的采集分类。
以上述保单数据为例进行说明,在从待处理数据集中采集待处理数据过程中,可通过缴费类型这一基础属性进行采集,采集到具有缴费类型这一基础属性的待处理数据,又或者在根据缴费类型进行采集过程中,设置缴费类型的属性值,以采集到具有缴费类型且待处理数据中缴费类型的数据属性值与预设分类属性中缴费类型的属性值相同,例如缴费类型设置为A,则从待处理数据集中采集到缴费类型为A的待处理数据。
在这里需要说明的一点是:在根据预设分类属性进行采集过程中,还可以设置预设分类属性中各数据属性的优先级,如设置预设分类属性中各数据属性的排序,排序越靠前优先级越高,使得排序与优先级为正比关系。如表4阐述了预设分类属性包括的数据属性的形式:
表4预设分类属性包括的数据属性的形式
数据字段 | 数据类型 | 备注 |
economy_key | string | 基础属性key |
economy_name | string | 基础属性名称 |
value_role | string | 值规则 |
sort | int | 排序 |
其中,数据字段value_role表示数据属性的属性值,以采集具有该数据属性的属性值的待处理数据,仍以上述保单数据为例,其对应的预设分类属性的一种示例如表5所示:
表5针对保单数据的预设分类属性的一种示例
基础属性KEY | 基础属性名称 | 值规则 | 排序 |
insurantDateLimit | 缴费年限 | insurantDateLimit:{{0}} | 1 |
insureAgeLimit | 保障年限 | insureAgeLimit:{{0}} | 2 |
如果insurantDateLimit:30年|insureAgeLimit:至70岁,则可以从待处理数据集中采集到缴费年限30年保障至70岁的保单数据。
针对上述电影播放数据,其对应的预设分类属性的一种示例如表6所示:
表6针对电影播放数据的预设分类属性的一种示例
基础属性KEY | 基础属性名称 | 值规则 | 排序 |
type | 电影类型 | type:{{0}} | 1 |
company | 制片公司 | company:{{0}} | 2 |
address | 播放地点 | addredss:{{0}} | 3 |
如果type:A|company:B|播放地点:北京,则可以从待处理数据集中采集到由制片公司B录制的A类型电影且A类型电影在北京播放的电影播放数据。
因待处理数据集中待处理数据包括至少一个数据属性,且不同待处理数据的同一数据属性的数据属性值可能不同,所以可动态调整预设分类属性,如调整预设分类属性包括的数据属性和/或预设分类属性包括的数据属性的属性值,以通过动态调整预设分类属性的方式实现对采集的动态调整。
103:从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,即从具有预设分类属性的待处理数据中查找出预设分类属性的数据属性值,以上述缴费年限为例,在缴费年限作为预设分类属性过程中,可从具有缴费年限的保单数据中获取每条保单数据的缴费年限的取值(即数据属性值)。
104:以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记预设分类属性对应的数据属性值所属的待处理数据,实现以待处理数据中预设分类属性对应的数据属性值对待处理数据的标记,也就是说将待处理数据中预设分类属性对应的数据属性值作为待处理数据的数据索引。
若预设分类属性被调整,待处理数据的纬度也会发生变化,以使得待处理数据的纬度与预设分类属性相匹配,其中待处理数据的纬度与预设分类属性相匹配的一种方式是:待处理数据的纬度中的数据属性与预设分类属性中的数据属性相同,此种情况下在预设分类属性的数据属性发生变化时,待处理数据的纬度中的数据属性随预设分类属性的数据属性的变化而变化;待处理数据的纬度与预设分类属性相匹配的另一种方式是:待处理数据的纬度中的数据属性包括预设分类属性中的数据属性,这样在预设分类属性中删除某一数据属性时可以不对待处理数据的纬度进行修改,若在预设分类属性中增加某一数据属性则可以在待处理数据的纬度中增加该数据属性的数据属性值即可,便于待处理数据的纬度的调整。
针对上述保单数据和电影播放数据来说,标记纬度之后的形式分别如表7和表8所示:
表7标记纬度后的保单数据
表8标记纬度后的电影播放数据
从上述技术方案可知,在获取到待处理数据集之后,根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记预设分类属性对应的数据属性值所属的待处理数据,因为预设分类属性包括的数据属性是待处理数据包括的数据属性,所以每条待处理数据可由每条待处理数据的数据属性值作为其纬度进行标记,若预设分类属性发生变更,可以根据变更后的预设分类属性对待处理数据进行纬度替换即可,这样在通过预设分类属性中至少一个数据属性进行检索都可以检索到包含该数据属性的待处理数据,从而在不需要构建数据索引的情况下实现对待处理数据的检索,节省物理空间,并且一条待处理数据的纬度的数目明显小于待处理数据的数据索引,提高检索效率,从而提高数据的吞吐量。
在标记待处理数据的纬度之后,本实施例提供的数据处理方法还可以利用待处理数据的纬度进行检索,其对应的过程如下:
获取检索数据,其中检索数据的形式可以使但不限于是对待处理数据进行检索的关键词,如与待处理数据的数据属性相匹配的关键词,在本实施例中与待处理数据的数据属性相匹配的关键词可以使但不限于是:与待处理数据的数据属性相同或含义相似的关键词,在以待处理数据的数据属性相匹配的关键词作为检索数据过程中,检索数据还可以包括属性值,以对具有某种数据属性的属性值(也称为数据属性值)的待处理数据的检索。
将检索数据与待处理数据的纬度进行比对,确定纬度与检索数据匹配的待处理数据,如纬度与检索数据相同的待处理数据。
输出纬度与检索数据匹配的待处理数据,以突出纬度与检索数据匹配的待处理数据的显示,如输出方式包括但不限于:将纬度与检索数据匹配的待处理数据从原始存储空间(如数据库)中搬移到目标存储空间(如另一数据库)中、从待处理数据集中提取出纬度与检索数据匹配的待处理数据并显示、仍在待处理数据集中显示纬度与检索数据匹配的待处理数据但是其显示方式不同于其他待处理数据,如以不同于其他待处理数据的颜色显示纬度与检索数据匹配的待处理数据。
请参见图2,其示出了本发明实施例提供的另一种数据处理方法的流程图,可以包括以下步骤:
201:获取待处理数据集,待处理数据集包括至少两条待处理数据,至少两条待处理数据包括至少一个数据属性。
202:根据预设筛选属性对应的数据属性值,对待处理数据进行筛选,得到具有预设筛选属性对应的数据属性值的待处理数据。
可以理解的是:预设筛选属性不同于上述预设分类属性,预设筛选属性可以是针对不同对象的待处理数据中相同的数据属性,如预设筛选属性可以包括但不限于上述产品、时间和账号中的至少一种,以通过相同预设筛选属性对针对不同对象的待处理数据的筛选。
例如待处理数据集中的待处理数据是运维对象过程中产生的数据,如销售保险过程中产生的保单数据,而在保险促销过程中保单数据的产生量会增大,通过产品、时间和账号等等可以记录保险促销过程,因此本实施例中的预设筛选属性可以是针对对象的运维活动的数据属性,如针对对象的促销活动、针对对象的维修等等。
203:根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,预设分类属性包括至少一个数据属性,且预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性。
在得到具有预设筛选属性对应的数据属性值的待处理数据后,可以针对这些待处理数据,根据预设分类属性进行采集分类,其过程请参见上述方法实施例,此处不再详述。当然本实施例也可以以预设分类属性对应的数据属性值作为所属待处理数据的纬度之后,再根据预设筛选属性进行筛选,本实施例不限定步骤202和步骤203的顺序。
204:从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值。
205:以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记预设分类属性对应的数据属性值所属的待处理数据。
从上述技术方案可知,根据预设筛选属性可以对待处理数据集中的待处理数据进行筛选,根据预设分类属性可以对待处理数据集中的待处理数据进行纬度标记,从而根据预设筛选属性和预设分类属性实现对待处理数据的筛选和分类。
请参见图3,其示出了本发明实施例提供的再一种数据处理方法的流程图,在上述图2基础上,还可以包括以下步骤:
206:确定具有预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则。
207:若具有预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据预设计算规则对应的计算算法进行计算。
其中预设计算规则用于指示在预设筛选属性对应的数据属性值的待处理数据触发计算算法的条件,例如预设计算规则可以是但不限于是:针对具有预设筛选属性对应的数据属性值的待处理数据的整体情况、针对具有预设筛选属性对应的数据属性值的待处理数据的单条数据情况、无条件地根据预设计算规则对具有预设筛选属性对应的数据属性值的待处理数据进行计算中的至少一种。
在本实施例中,针对具有预设筛选属性对应的数据属性值的待处理数据的整体情况包括但不限于:具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值的待处理数据的总费用是否大于预设总费用和/或总数据条目是否大于预设总数目;针对具有预设筛选属性对应的数据属性值的待处理数据的单条数据情况包括但不限于:具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值的待处理数据的费用是否大于预设费用。
如果总费用大于预设总费用和/或总数据条目大于预设总数目,触发计算算法,以根据计算算法进行计算;如果具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值的待处理数据的费用大于预设费用,同样可以触发计算算法,以根据计算算法进行计算。
在本实施例中,可以预先设置计算算法针对的数据属性,如计算算法是对待处理数据中的费用进行计算,通过计算算法计算出满足预设计算规则的每条待处理数据的活动服务费。以上述保单数据为例,预设计算规则可以是但不限于是以下至少一种:
判断指定范围总保费是否达标;
判断指定范围内总订单数是否达标;
判断指定范围内的保单的单笔保费是否达标;
对指定时间范围内的保单,无条件额外增加活动服务费。
其中指定范围用于指示具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值,或者用于指示具有预设筛选属性对应的数据属性值以及待处理数据的纬度与检索数据对应,而总保费是否达标指示总保费是否大于预设总费用、总订单数是否达标指示总数据条目是否大于预设总数目、单笔费用是否达标指示待处理数据的费用是否大于预设费用。预设总费用、预设总数目和预设费用可以根据实际应用进行设置,本实施例不限定其取值。
在指定范围总保费达标的情况下,可以根据计算算法对该指定范围内的每条待处理数据的费用进行计算,以得到指定范围内每条待处理数据的活动服务费。
例如通过指定范围筛选出如下所示的一条保单数据
投保单号 | 纬度 | 产品 | 时间 | 账号 | 保费 |
20190101000001 | 纬度A | 产品A | 2019/1/1 | 账号1 | 100元 |
假如:计算算法中针对纬度A预先配置的活动奖励为10%,则该笔保单数据的活动服务费为100*10%=10元。
上述仅是以活动服务费为例进行说明,本实施例提供的数据处理方法中计算算法可以针对除费用之外的数据属性,本实施例不再对计算算法进行一一列举说明。
在这里需要说明的一点是:本实施例提供的待处理数据的数据属性还可以如表9所示,相对于上述表1至表3所示,数据属性中增加计算引擎类型这一数据属性,以通过计算引擎类型对应预设计算规则,从而可通过调整计算引擎规则类型的方式动态调整预设计算规则。
表9数据属性的表示方式
数据属性 | 数据类型 | 备注 |
activity_type | int | 计算引擎类型 |
start_time | datetime | 开始时间 |
end_time | datetime | 结束时间 |
product_id | int | 产品 |
account_id | int | 账号 |
economy_name | String | 基础属性名称 |
其中计算引擎类型与预设计算规则的对应关系如下:
累计保费型:判断指定范围总保费是否达标;
累计保单数型:判断指定范围内总订单数是否达标;
单笔保费型:判断指定范围内的保单的单笔保费是否达标;
无条件型:对指定时间范围内的保单,无条件额外增加活动服务费。
上述计算引擎类型与预设计算规则的对应关系仅是示例,可根据实际应用调整对应关系和/或调整预设计算规则等。
此外本实施例提供的数据处理方法还可以对计算结果进行校验,以确定通过预设计算规则选取出的待处理数据是否有误,例如将通过预设计算规则选取出的待处理数据和计算结果输出,校验输出的待处理数据是否满足预设计算规则以及其计算结果是否正确。以上述电影播放数据为例,上述电影播放数据对应的计算算法如下:
但是因预设计算规则为单条待处理数据的费用大于100元,若对上述三条电影播放数据都采用各自的计算算法进行活动服务费计算,则会得到如下的校验结果,指示出对播放记录号为2019010100001的电影播放数据的计算有误。
针对上述图1至图3所示的数据处理方法,本发明实施例提供的数据处理方法还可以进行纬度校验,如图4所示,其示出了本发明实施例提供的再一种数据处理方法,在上述图1基础上还可以包括以下步骤:
105:根据待处理数据的数据属性以及数据属性值,对待处理数据的纬度进行校验,以校验待处理数据的纬度中的数据属性以及数据属性值是否与待处理数据中的记录相一致。例如一条电影播放数据中的播放地点为上海,但是其纬度中的播放地址为北京,则说明两者不一致或者不匹配。
106:若待处理数据的纬度与待处理数据的数据属性以及数据属性值不匹配,重新对待处理数据进行标记。一种方式是:若数据属性一致但数据属性值不一致,则以待处理数据记录的数据属性值修正该待处理数据的纬度中的数据属性值;另一种方式是:若数据属性不一致,可以通过待处理数据的数据属性对纬度中的数据属性进行修正,或者通过待处理数据的数据属性对预设分类属性进行修正,并返回步骤102以根据修正后的预设分类属性重新进行采集分类,这样就可以对存在相同错误的待处理数据都重新进行标记。
除能够对待处理数据的纬度进行校验之外,本实施例提供的数据处理方法还可以对数据来源进行校验,过程如下:
获取待处理数据集中每条待处理数据的数据来源,例如数据来源可以指示但不限于待处理数据所属账户。
统计同一数据来源的待处理数据。
若同一数据来源的待处理数据异常,输出提示信息,提示信息用于指示有异常的待处理数据,以禁止根据计算算法对异常的待处理数据进行计算,例如禁止计算活动服务费从而能够立即停止发放活动服务费。其中提示信息可发送至监控设备端,以由监控设备端的工作人员进行监控,例如提示信息可通过但不限于通过短信和邮件等中的至少一种方式发送。
与上述方法实施例相对应,本发明实施例还提供一种数据处理装置,其结构如图5所示,可以包括:第一获取单元10、采集单元20、第二获取单元30和标记单元40。
第一获取单元10,用于获取待处理数据集,待处理数据集包括至少两条待处理数据,至少两条待处理数据包括至少一个数据属性。可以理解的是:待处理数据集中的待处理数据为原始数据,这些待处理数据包括的数据属性相同但是不同待处理数据的数据属性值可能会不同,并且针对不同对象的待处理数据的数据属性可能也不同。
采集单元20,用于根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,预设分类属性包括至少一个数据属性,且预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性。
在本实施例中,待处理数据包括多个数据属性,这多个数据属性中作为预设分类属性的数据属性为上述能够体现待处理数据所针对对象的基础属性,以体现当前对哪种对象的待处理数据进行采集分类,体现采集分类的差异化。因为预设分类属性是通过待处理数据集中至少一条待处理数据包括的数据属性得到,所以在通过预设分类属性从待处理数据集中采集待处理数据过程中,可以从待处理数据集中获取到包括预设分类属性的各条待处理数据。
为了进一步体现采集分类的差异化,本实施例中采集单元20根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据包括:根据预设分类属性的属性值,从待处理数据集中采集具有预设分类属性的属性值的待处理数据,即获取到既包括预设分类属性且数据属性值与预设分类属性的属性值相同的待处理数据,从而能够根据预设分类属性的属性值进行差异化的采集分类。
第二获取单元30,用于从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,即从具有预设分类属性的待处理数据中查找出预设分类属性的数据属性值,以上述缴费年限为例,在缴费年限作为预设分类属性过程中,可从具有缴费年限的保单数据中获取每条保单数据的缴费年限的取值(即数据属性值)。
标记单元40,用于以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记预设分类属性对应的数据属性值所属的待处理数据,实现以待处理数据中预设分类属性对应的数据属性值对待处理数据的标记,也就是说将待处理数据中预设分类属性对应的数据属性值作为待处理数据的数据索引。
若预设分类属性被调整,待处理数据的纬度也会发生变化,以使得待处理数据的纬度与预设分类属性相匹配,其中待处理数据的纬度与预设分类属性相匹配的一种方式是:待处理数据的纬度中的数据属性与预设分类属性中的数据属性相同,此种情况下在预设分类属性的数据属性发生变化时,待处理数据的纬度中的数据属性随预设分类属性的数据属性的变化而变化;待处理数据的纬度与预设分类属性相匹配的另一种方式是:待处理数据的纬度中的数据属性包括预设分类属性中的数据属性,这样在预设分类属性中删除某一数据属性时可以不对待处理数据的纬度进行修改,若在预设分类属性中增加某一数据属性则可以在待处理数据的纬度中增加该数据属性的数据属性值即可,便于待处理数据的纬度的调整。
从上述技术方案可知,在获取到待处理数据集之后,根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记预设分类属性对应的数据属性值所属的待处理数据,因为预设分类属性包括的数据属性是待处理数据包括的数据属性,所以每条待处理数据可由每条待处理数据的数据属性值作为其纬度进行标记,若预设分类属性发生变更,可以根据变更后的预设分类属性对待处理数据进行纬度替换即可,这样在通过预设分类属性中至少一个数据属性进行检索都可以检索到包含该数据属性的待处理数据,从而在不需要构建数据索引的情况下实现对待处理数据的检索,节省物理空间,并且一条待处理数据的纬度的数目明显小于待处理数据的数据索引,提高检索效率,从而提高数据的吞吐量。
在标记待处理数据的纬度之后,本实施例提供的数据处理装置还可以利用待处理数据的纬度进行检索,其对应的结构如图6所示,在图5基础上海可以包括:第三获取单元50、比对单元60和输出单元70。
第三获取单元50,用于获取检索数据,其中检索数据的形式可以使但不限于是对待处理数据进行检索的关键词,如与待处理数据的数据属性相匹配的关键词,在本实施例中与待处理数据的数据属性相匹配的关键词可以使但不限于是:与待处理数据的数据属性相同或含义相似的关键词,在以待处理数据的数据属性相匹配的关键词作为检索数据过程中,检索数据还可以包括属性值,以对具有某种数据属性的属性值(也称为数据属性值)的待处理数据的检索。
比对单元60,用于将检索数据与待处理数据的纬度进行比对,确定纬度与检索数据匹配的待处理数据,如纬度与检索数据相同的待处理数据。
输出单元70,用于输出纬度与检索数据匹配的待处理数据,以突出纬度与检索数据匹配的待处理数据的显示,如输出方式包括但不限于:将纬度与检索数据匹配的待处理数据从原始存储空间(如数据库)中搬移到目标存储空间(如另一数据库)中、从待处理数据集中提取出纬度与检索数据匹配的待处理数据并显示、仍在待处理数据集中显示纬度与检索数据匹配的待处理数据但是其显示方式不同于其他待处理数据,如以不同于其他待处理数据的颜色显示纬度与检索数据匹配的待处理数据。
针对待处理数据的纬度,本实施例提供的数据处理装置还可以对待处理数据的纬度进行校验,其中数据处理装置还可以包括校验单元,用于根据待处理数据的数据属性以及数据属性值,对待处理数据的纬度进行校验,以校验待处理数据的纬度中的数据属性以及数据属性值是否与待处理数据中的记录相一致,并且若待处理数据的纬度与待处理数据的数据属性以及数据属性值不匹配,触发标记单元重新对待处理数据进行标记。
一种方式是:若数据属性一致但数据属性值不一致,则以待处理数据记录的数据属性值修正该待处理数据的纬度中的数据属性值;另一种方式是:若数据属性不一致,可以通过待处理数据的数据属性对纬度中的数据属性进行修正,或者通过待处理数据的数据属性对预设分类属性进行修正,并触发采集单元20以根据修正后的预设分类属性重新进行采集分类,进而使得第二获取单元30和标记单元40根据采集单元20的再次采集分类进行对存在相同错误的待处理数据都重新进行标记。
除能够对待处理数据的纬度进行校验之外,本实施例提供的数据处理装置还可以对数据来源进行校验,其中数据处理装置还可以包括:第四获取单元、统计单元和提示输出单元。
第四获取单元,用于获取待处理数据集中每条待处理数据的数据来源。
统计单元,用于统计同一数据来源的待处理数据。
提示输出单元,用于若同一数据来源的待处理数据异常,输出提示信息,提示信息用于指示有异常的待处理数据,以禁止根据计算算法对异常的待处理数据进行计算,例如禁止计算活动服务费从而能够立即停止发放活动服务费。其中提示信息可发送至监控设备端,以由监控设备端的工作人员进行监控,例如提示信息可通过但不限于通过短信和邮件等中的至少一种方式发送。
在本实施例中,上述数据处理装置还可以包括:筛选单元,用于根据预设筛选属性对应的数据属性值,对待处理数据进行筛选,得到具有预设筛选属性对应的数据属性值的待处理数据;再由采集单元20根据预设分类属性,从具有预设筛选属性对应的数据属性值的待处理数据中采集具有预设分类属性的待处理数据。
可以理解的是:预设筛选属性不同于上述预设分类属性,预设筛选属性可以是针对不同对象的待处理数据中相同的数据属性,如预设筛选属性可以包括但不限于上述产品、时间和账号中的至少一种,以通过相同预设筛选属性对针对不同对象的待处理数据的筛选。
例如待处理数据集中的待处理数据是运维对象过程中产生的数据,如销售保险过程中产生的保单数据,而在保险促销过程中保单数据的产生量会增大,通过产品、时间和账号等等可以记录保险促销过程,因此本实施例中的预设筛选属性可以是针对对象的运维活动的数据属性,如针对对象的促销活动、针对对象的维修等等。
上述数据处理装置还可以包括:确定单元和计算单元。
确定单元,用于确定具有预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则。
计算单元,用于若具有预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据预设计算规则对应的计算算法进行计算。
其中预设计算规则用于指示在预设筛选属性对应的数据属性值的待处理数据触发计算算法的条件,例如预设计算规则可以是但不限于是:针对具有预设筛选属性对应的数据属性值的待处理数据的整体情况、针对具有预设筛选属性对应的数据属性值的待处理数据的单条数据情况、无条件地根据预设计算规则对具有预设筛选属性对应的数据属性值的待处理数据进行计算中的至少一种。
在本实施例中,针对具有预设筛选属性对应的数据属性值的待处理数据的整体情况包括但不限于:具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值的待处理数据的总费用是否大于预设总费用和/或总数据条目是否大于预设总数目;针对具有预设筛选属性对应的数据属性值的待处理数据的单条数据情况包括但不限于:具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值的待处理数据的费用是否大于预设费用。
如果总费用大于预设总费用和/或总数据条目大于预设总数目,触发计算算法,以根据计算算法进行计算;如果具有预设筛选属性对应的数据属性值以及预设分类属性的数据属性值的待处理数据的费用大于预设费用,同样可以触发计算算法,以根据计算算法进行计算。
本实施例还提供一种存储介质,存储介质中存储有计算机程序代码,其中计算机程序代码被运行时实现上述数据处理方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种数据处理方法,其特征在于,包括:
获取待处理数据集,所述待处理数据集包括至少两条待处理数据,所述至少两条待处理数据包括至少一个数据属性;
根据预设分类属性,从所述待处理数据集中采集具有所述预设分类属性的待处理数据,所述预设分类属性包括至少一个数据属性,且所述预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性;
从具有所述预设分类属性的待处理数据中,获取所述预设分类属性对应的数据属性值;
以所述预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记所述预设分类属性对应的数据属性值所属的待处理数据;
所述方法还包括:
确定具有预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则,其中,所述预设计算规则用于指示在预设筛选属性对应的数据属性值的待处理数据触发计算算法的条件;
若具有所述预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据所述预设计算规则对应的计算算法进行计算。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预设筛选属性对应的数据属性值,对所述待处理数据进行筛选,得到具有所述预设筛选属性对应的数据属性值的待处理数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取检索数据;
将所述检索数据与所述待处理数据的纬度进行比对,确定纬度与所述检索数据匹配的所述待处理数据;
输出纬度与所述检索数据匹配的所述待处理数据。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:
根据所述待处理数据的数据属性以及数据属性值,对所述待处理数据的纬度进行校验;
若所述待处理数据的纬度与所述待处理数据的数据属性以及数据属性值不匹配,重新对所述待处理数据进行标记。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述待处理数据集中每条待处理数据的数据来源;
统计同一数据来源的待处理数据;
若同一数据来源的待处理数据异常,输出提示信息,所述提示信息用于指示有异常的待处理数据。
6.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取待处理数据集,所述待处理数据集包括至少两条待处理数据,所述至少两条待处理数据包括至少一个数据属性;
采集单元,用于根据预设分类属性,从所述待处理数据集中采集具有所述预设分类属性的待处理数据,所述预设分类属性包括至少一个数据属性,且所述预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性;
第二获取单元,用于从具有所述预设分类属性的待处理数据中,获取所述预设分类属性对应的数据属性值;
标记单元,用于以所述预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记所述预设分类属性对应的数据属性值所属的待处理数据;
所述装置还包括:
确定单元,用于确定具有预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则,其中,所述预设计算规则用于指示在预设筛选属性对应的数据属性值的待处理数据触发计算算法的条件;
计算单元,用于若具有所述预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据所述预设计算规则对应的计算算法进行计算。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:筛选单元,用于根据预设筛选属性对应的数据属性值,对所述待处理数据进行筛选,得到具有所述预设筛选属性对应的数据属性值的待处理数据。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于获取检索数据;
比对单元,用于将所述检索数据与所述待处理数据的纬度进行比对,确定纬度与所述检索数据匹配的所述待处理数据;
输出单元,用于输出纬度与所述检索数据匹配的所述待处理数据;
或者
所述装置还包括:
校验单元,用于根据所述待处理数据的数据属性以及数据属性值,对所述待处理数据的纬度进行校验,并且若所述待处理数据的纬度与所述待处理数据的数据属性以及数据属性值不匹配,触发所述标记单元重新对所述待处理数据进行标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010119532.2A CN111339217B (zh) | 2020-02-26 | 2020-02-26 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010119532.2A CN111339217B (zh) | 2020-02-26 | 2020-02-26 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339217A CN111339217A (zh) | 2020-06-26 |
CN111339217B true CN111339217B (zh) | 2023-10-27 |
Family
ID=71185527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010119532.2A Active CN111339217B (zh) | 2020-02-26 | 2020-02-26 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339217B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934024A (zh) * | 2017-03-13 | 2017-07-07 | 山东浪潮云服务信息科技有限公司 | 一种数据处理方法和装置 |
CN107203637A (zh) * | 2017-06-08 | 2017-09-26 | 恒生电子股份有限公司 | 一种数据分析方法及系统 |
CN107728931A (zh) * | 2016-08-12 | 2018-02-23 | 西门子公司 | 用于存储数据的方法和装置 |
CN108875827A (zh) * | 2018-06-15 | 2018-11-23 | 广州深域信息科技有限公司 | 一种细粒度图像分类的方法及系统 |
CN110825737A (zh) * | 2019-10-18 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 索引创建和数据查询方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2536179A1 (en) * | 2003-08-27 | 2005-03-10 | Sox Limited | Method of building persistent polyhierarchical classifications based on polyhierarchies of classification criteria |
-
2020
- 2020-02-26 CN CN202010119532.2A patent/CN111339217B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107728931A (zh) * | 2016-08-12 | 2018-02-23 | 西门子公司 | 用于存储数据的方法和装置 |
CN106934024A (zh) * | 2017-03-13 | 2017-07-07 | 山东浪潮云服务信息科技有限公司 | 一种数据处理方法和装置 |
CN107203637A (zh) * | 2017-06-08 | 2017-09-26 | 恒生电子股份有限公司 | 一种数据分析方法及系统 |
CN108875827A (zh) * | 2018-06-15 | 2018-11-23 | 广州深域信息科技有限公司 | 一种细粒度图像分类的方法及系统 |
CN110825737A (zh) * | 2019-10-18 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 索引创建和数据查询方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
大数据环境下基于信息论的入侵检测数据归一化方法;宋勇;蔡志平;;武汉大学学报(理学版)(第02期);第121-126页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339217A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9535911B2 (en) | Processing a content item with regard to an event | |
US20080065633A1 (en) | Job Search Engine and Methods of Use | |
Gu et al. | Record linkage: Current practice and future directions | |
US8429220B2 (en) | Data exchange among data sources | |
US7870151B2 (en) | Fast accurate fuzzy matching | |
US7370057B2 (en) | Framework for evaluating data cleansing applications | |
US20050021551A1 (en) | Current mailing address identification and verification | |
US20140101201A1 (en) | Distributed data warehouse | |
US20100257092A1 (en) | System and method for predicting a measure of anomalousness and similarity of records in relation to a set of reference records | |
CN110119877B (zh) | 一种目标员工的选取方法及设备 | |
US20110307359A1 (en) | Systems and methods for managing address and tax inventory data | |
US11900283B1 (en) | Business listings | |
CN111078512A (zh) | 告警记录生成方法、装置、告警设备及存储介质 | |
CN109902129B (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
CN111367956B (zh) | 数据统计方法及装置 | |
CN111339217B (zh) | 一种数据处理方法及装置 | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
CN110337648B (zh) | 用于高效地分发提醒消息的系统和方法 | |
CN116595262A (zh) | 商旅方案推荐方法、装置、电子设备及计算机存储介质 | |
CN111754131A (zh) | 企业情报动态监控方法、设备及介质 | |
CN111428041B (zh) | 案件摘要生成方法、装置、系统和存储介质 | |
US20200013075A1 (en) | System and method for correlating and enhancing data obtained from distributed sources in a network of distributed computer systems | |
CN114265887A (zh) | 一种维度数据处理方法、装置、存储介质及电子设备 | |
CN108429632B (zh) | 一种业务监控方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |