CN110458626B - 一种信息数据处理方法和装置 - Google Patents

一种信息数据处理方法和装置 Download PDF

Info

Publication number
CN110458626B
CN110458626B CN201910758047.7A CN201910758047A CN110458626B CN 110458626 B CN110458626 B CN 110458626B CN 201910758047 A CN201910758047 A CN 201910758047A CN 110458626 B CN110458626 B CN 110458626B
Authority
CN
China
Prior art keywords
data
processing
trained
client
information data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910758047.7A
Other languages
English (en)
Other versions
CN110458626A (zh
Inventor
刘文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910758047.7A priority Critical patent/CN110458626B/zh
Publication of CN110458626A publication Critical patent/CN110458626A/zh
Application granted granted Critical
Publication of CN110458626B publication Critical patent/CN110458626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提供了一种信息数据处理方法和装置,所述方法包括:获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;对所述待训练数据进行处理,生成该客户的处理规则文件;利用处理后的待训练数据生成该客户的处理模型文件;获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理。该方法能够在低成本的前提下,为客户准确地、高效地处理信息数据。

Description

一种信息数据处理方法和装置
技术领域
本发明涉及信息处理技术领域,特别涉及一种信息数据处理方法和装置。
背景技术
营销者通过CRM系统跟进信息数据获取潜在客户,在跟进过程中企业能采集到的信息特征维度非常单一,只有信息名称,录入时间,联系方式等几个字段,使营销者对客户的认知非常少,不能提高获客效率。
现有实现中,若新信息沟通主要靠个人经验和话术时,无描述信息的有效特征数据;若运营人员按照业务规则手动进行信息处理,所有信息数据得到人工标签描述集合,这主要依赖人的经验,成本高,且准确率低。
发明内容
有鉴于此,本申请提供一种信息数据处理方法和装置,能够在低成本的前提下,为客户准确地、高效地处理信息数据。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种信息数据处理方法,所述方法包括:
获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;
对所述待训练数据进行处理,生成该客户的处理规则文件;
利用处理后的待训练数据生成该客户的处理模型文件;
获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;
利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理。
其中,所述根据所述第一信息数据和第三方数据库的数据生成待训练数据,包括:
根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据;
所述根据所述第二信息数据和第三方数据库的数据生成待处理数据,包括:
根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据。
其中,所述对所述待训练数据进行处理,包括:
异常值和规范化处理。
其中,
为该客户生成的处理模型文件对应的类别特征数根据客户指定设置。
其中,所述根据所述第一信息数据和第三方数据库的数据生成待训练数据之后,所述对所述待训练数据进行处理之前,所述方法进一步包括:
确定针对该客户是否已存在处理规则文件,如果是,利用所述待训练数据更新所述处理规则文件,并使用更新后的处理规则文件处理所述待训练数据,并更新所述处理规则文件;否则,对所述待训练数据进行处理,生成该客户的处理规则文件。
其中,所述对所述待训练数据进行处理之后,所述利用处理后的待训练数据生成该客户的处理模型文件之前,所述方法进一步包括:
确定针对该客户是否已存在处理模型文件,如果是,基于所述处理后的待训练数据更新所述处理模型文件;否则,利用处理后的待训练数据生成该客户的处理模型文件。
其中,所述利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理,包括:
利用所述处理规则文件处理所述待处理数据;
利用所述处理模型文件对经过所述处理规则文件处理后的待处理数据进行处理。
在另一个实施例中,提供了一种信息数据处理装置,所述装置包括:获取单元、第一处理单元、生成单元和第二处理单元;
所述获取单元,用于获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;
所述第一处理单元,用于对所述获取单元生成的所述待训练数据进行处理;成该客户的处理规则文件;
所述生成单元,用于利用所述第一处理单元处理后的待训练数据生成该客户的处理模型文件;
所述第二处理单元,利用所述第一处理单元生成的处理规则文件和所述生成单元生成的处理模型文件对所述获取单元获取的待处理数据进行处理。
其中,
所述获取单元,具体用于根据所述第一信息数据和第三方数据库的数据生成待训练数据时,包括:根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据;根据所述第二信息数据和第三方数据库的数据生成待处理数据时,包括:根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据。
其中,
所述第一处理单元,具体用于对所述待训练数据进行处理,包括:异常值和规范化处理。
其中,
为该客户生成的处理模型文件对应的类别特征数根据客户指定设置。
其中,该装置进一步包括:确定单元;
所述确定单元,用于在所述获取单元生成待训练数据之后,确定针对该客户是否已存在处理规则文件,如果是,触发所述第一处理单元利用所述待训练数据更新所述处理规则文件,并使用更新后的处理规则文件处理所述待训练数据;否则,触发所述第一处理单元对所述待训练数据进行处理,生成该客户的处理规则文件。
其中,该装置进一步包括:确定单元;
所述确定单元,用于在所述第一处理单元对所述待训练数据进行处理之后,确定针对该客户是否已存在处理模型文件,如果是,触发所述生成单元基于所述处理后的待训练数据更新所述处理模型文件;否则,触发所述生成单元利用处理后的待训练数据生成该客户的处理模型文件。
其中,
所述第二处理单元,具体用于利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理,包括:利用所述处理规则文件处理所述待处理数据;利用所述处理模型文件对经过所述处理规则文件处理后的待处理数据进行处理。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述信息数据处理方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述信息数据处理方法的步骤。
由上面的技术方案可见,上述实施例中通过融合后的数据为每个客户生成对应的处理规则文件和处理模型文件,进而为对应客户进行信息数据处理。该方案能够在低成本的前提下,为客户准确地、高效地处理信息数据。
附图说明
以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围:
图1为本申请实施一中信息数据处理流程示意图;
图2为本申请实施二中第一信息数据处理流程示意图;
图3为本申请实施例中应用于上述技术的装置结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
本申请实施例中提供一种信息数据处理方法,提供一个平台,通过融合后的数据为每个客户生成对应的处理规则文件和处理模型文件,进而为对应客户进行信息数据处理。该方案能够在低成本的前提下,为客户准确地、高效地处理信息数据。
下面结合附图,详细说明本申请实施例中实现信息数据处理的过程。
本申请实施例的执行主体为一个独立于运营商、电商、营销上的服务平台,该服务平台可以是一PC、服务器等,也可以由多台PC、服务器等组成。
实施例一
参见图1,图1为本申请实施一中信息数据处理流程示意图。具体步骤为:
步骤101,获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据。
本申请实施例中的客户可以为营销公司、CRM等,是一些具有信息数据,且需要对所述信息数据进行处理来获得一个处理结果的客体。
获取到的客户的第一信息数据的方式可以:客户手动上传的,也可以通过API调用,且不限于上述两种获取第一信息数据的方式。
第一信息数据中至少包括加密主键,这里的加密主键可以为:手机号码、IMEI、IDFA、MAC地址等;还可以包括其他客户所能够提供的数据信息。
本步骤中根据所述第一信息数据和第三方数据库的数据生成待训练数据,包括:
根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据。
第三方数据库中存放的信息包括,电商、运营商的数据库,还可以包括通过网络爬虫等方式获取的相关数据。
本申请实施例中将客户提供的数据与第三方数据库中的数据融合,能够全方位提供更完善的数据信息,以便对数据信息的处理更加准确、可信。
步骤102,对所述待训练数据进行处理,生成该客户的处理规则文件。
本步骤中对所述待训练数据进行处理,包括:
异常值和规范化处理。
所述处理规则文件对数据的处理包括异常值和规范化处理。
步骤103,利用处理后的待训练数据生成该客户的处理模型文件。
步骤104,获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据。
本步骤中根据所述第二信息数据和第三方数据库的数据生成待处理数据,包括:
根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据。
步骤105,利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理。
本步骤中利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理,包括:
利用所述处理规则文件处理所述待处理数据;
利用所述处理模型文件对经过所述处理规则文件处理后的待处理数据进行处理。
如果在已建立了处理模型文件的前提下,步骤101与步骤104之间在具体实现时不存在先后关系,获取哪种信息数据进行对应的数据处理即可。
针对处理结果可以发送给客户,也可以在本地记录,由客户自行查看,本申请实施例中对此不进行限制。
该实施例通过融合后的数据为每个客户生成对应的处理规则文件和处理模型文件,进而为对应客户进行信息数据处理。该方案能够在低成本的前提下,为客户准确地、高效地处理信息数据。
实施例二
参见图2,图2为本申请实施二中第一信息数据处理流程示意图。具体步骤为:
步骤201,获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据。
本申请实施例中的客户可以为营销公司、CRM等,是一些具有信息数据,且需要对所述信息数据进行处理来获得一个处理结果的客体。
获取到的客户的第一信息数据的方式可以:客户手动上传的,也可以通过API调用,且不限于上述两种获取第一信息数据的方式。
本步骤中根据所述第一信息数据和第三方数据库的数据生成待训练数据,包括:
根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据。
步骤202,确定针对该客户是否已存在处理规则文件,如果是,执行步骤203;否则,执行步骤204。
步骤203,利用所述待训练数据更新所述处理规则文件,并使用更新后的处理规则文件处理所述待训练数据,执行步骤205。
如果之前已针对该客户生成过处理规则文件,则使用该处理规则文件处理待训练数据时,并使用所述待训练数据更新所述处理规则文件。
所述处理规则文件对数据的处理包括异常值和规范化处理。
步骤204,对所述待训练数据进行处理,并生成该客户的处理规则文件。
本步骤中对所述待训练数据进行处理,包括:
异常值和规范化处理。
步骤205,确定针对该客户是否已存在处理模型文件,如果是,执行步骤206,否则,执行步骤207。
步骤206,基于所述处理后的待训练数据更新所述处理模型文件,结束本流程。
步骤207,利用处理后的待训练数据生成该客户的处理模型文件。
该实施例通过融合后的数据为每个客户生成、和/或更新对应的处理规则文件和处理模型文件,进而可以为对应客户进行信息数据处理。该方案能够在低成本的前提下,为客户准确地、高效地处理信息数据。
实施例三
通过具体举例来详细说明本申请实施例中的信息数据处理过程。
信息数据有很多中,如线索数据、客户身份信息数据、客户购买能力相关数据等等,本申请实施例中以一种线索信息数据为例来详细说明处理过程:
第一步、获取到客户的第一线索信息数据时,根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据。
第一信息数据中至少包括加密主键,这里的加密主键可以为:手机号码、IMEI、IDFA、MAC地址等;还可以包括其他客户所能够提供的数据信息。
通过读取包含数据的文件(三个参数:文件名、字段名、字段量),将待训练数据以dataframe形式保存在内存中。
第二步、确定针对该客户是否已存在处理规则文件,如果是,执行第三步;否则,执行第四步。
第三步、利用所述待训练数据更新所述处理规则文件,并使用更新后的处理规则文件处理所述待训练数据。执行第五步。
所述处理规则文件对数据的处理包括异常值和规范化处理。
第四步、对所述待训练数据进行处理,并生成该客户的处理规则文件。
对待训练数据的处理包括异常值和规范化处理。
通过第三步或第四步的处理生成的处理规则文件可使用pkl文件实现,该文件可通过如下函数表示为:data_abnormal(data,col_type1,col_type2,col_type3,threshold)。
该函数共5个参数,data为第一步返回的数据,两值型字段列表col_type1,多类别型字段列表col_type2,数值型字段列表col_tpye3,异常值分位数threshold等,这是本申请实施例中给出的一种实现方式,具体实现时,可以根据异常值处理方式和规范化处理方式给出具体设定。
第五步、确定针对该客户是否已存在处理模型文件,如果是,执行第六步,否则,执行第七步。
第六步,基于所述处理后的待训练数据更新所述处理模型文件,结束本流程。
第七步,利用处理后的待训练数据生成该客户的处理模型文件。
处理模型文件的对应的类别特征数根据客户指定设置。
处理模型文件可以使用pkl文件实现,该文件可通过如下函数表示为:
构建处理模型函数cluster_model(data,K)。该函数含2个参数,data为步第三步和第四步返回的数据,K为客户指定的类别数。该函数将scikit-learn中K-means函数集成,返回处理模型文件pkl文件。
还可以将上述整个处理过程形成一个类中心结果函数model_result(clust_model,data)。该函数含两个参数,cluster_model为处理规则文件,data为第一步返回的数据,返回类中心对应结果文件。
第八步、基于上述第一步到第七步的处理过程形成一个文件读取函数整体函数main(path)。该函数含一个参数path为文件路径,用来调用第一步到第七步的所有函数。
至此,完成第一信息数据的处理,并构建了相关文件和函数,可以方便准确第处理第二信息数据。
接下来给出处理第二信息数据的过程:
第一步、获取到该客户的第二信息数据时,根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据。
第二信息数据中至少包括加密主键,这里的加密主键可以为:手机号码、IMEI、IDFA、MAC地址等;还可以包括其他客户所能够提供的数据信息。
第二步,利用所述处理规则文件对所述待处理数据进行处理。
利用已生成的处理规则文件对待处理数据进行异常值和规范化处理,这样保证对数据的处理同数据生成处理模型文件时对数据的处理方式一致。
第三步、利用所述处理模型文件对已经过所述处理规则文件处理后的待处理数据进行处理。
处理结果为针对待处理数据返回的处理结果,如针对聚类、分类等实例,则返回对应类的类中心平均值文件,也就是对应类的属性信息。如客户年龄段、网龄段、网购能力、上网时间等等。
第四步、基于上述第一步到第三步的处理过程形成一个文件读取函数整体函数main_segement(path)。该函数含一个参数path为文件路径,用来调用第一步到第三步的所有函数。
本申请实施例中针对客户所对应的营销对象为电商时,本地大数据库中存放的是对应电商的大数据,如京东、苏宁等电商的数据库;针对客户所对应的营销对象为运营商数据时,本地大数据库中存放的是对应的运营商数据。也就是说服务平台上存放的包含有主键信息对应的大量数据特征。
如加密主键为加密手机号码,且需要针对京东这个电商获取聚类信息时,则本地大数据库中存放的信息包括加密主键,以及加密主键对应的特征数据,这里的特征数据可以为客户在京东的所有日志信息。
大数据库中存放的信息包括,电商、运营商的数据库,还可以包括第三方提供的相关数据信息。
通过上述实现可见,本申请实施例中在使用客户提供的线索数据获取对应的特征数据后,使用预先存储的各函数,能够自动调用实现针对一个客户端的聚类模型的建立;上述各函数在实际应用中也可以封装为一个功能模块,需要实现对应功能时,直接调用对应的功能模块实现即可。
本申请实施例中在针对一个客户建立好一个聚类模型时,可以将该聚类模型以客户为标识存储,以便客户需要聚类时使用。
在具体实现时,可以将大数据库中的所有数据预先进行预处理,如异常值提取处理,特征规范化处理等,也可以在使用加密主键匹配到对应的特征数据后再进行异常值提取处理、特征规范化处理等。
下面以在数据库中匹配到加密主键对应的特征数据后再进行聚类信息为例,给出针对一个客户提供聚类信息的过程:
第一步、文件读取函数read_file(file_name,col_name,col_num)。该函数共3个参数,文件名称file_name,字段名称col_name,字段数量col_num。用来读取待聚类的线索数据对应的特征数据,返回保存到内存中的Dataframe形式数据结果。
第二步、设置异常值和特征规范化函数如下:
异常值函数data_abnormal(data,col_type1,col_type2,col_type3,threshold)。该函数共5个参数,data为第一步返回的数据,两值型字段列表col_type1,多类别型字段列表col_type2,数值型字段列表col_tpye3,异常值分位数threshold,对上述三种类型特征数据处理,导出异常值处理办法pkl文件和最终特征字段列表文件,返回数据处理结果。
特征规范化函数data_standard(data,col_type1,col_type2,col_type3)。data为设置异常值后返回的数据,两值型字段列表col_type1,多类别型字段列表col_type2,数值型字段列表col_tpye3,返回数据处理结果。
第三步、模型调用和类中心结果函数model_result(clust_model,data)。该函数共有2个参数,clust_model为训练生成的模型文件,data为第二步返回的数据,函数返回待聚类的线索数据中的加密主键归属类别及对应类中心平均值文件。类中心平均值文件即聚类属性。
第四步、文件读取函数整体函数main_segement(path)。该函数有1个参数path为文件路径,用来调用步骤第一步到第三步的所有函数。
基于同样的发明构思,本申请实施例中还提供一种信息数据处理装置。参见图3,图3为本申请实施例中应用于上述技术的装置结构示意图。所述装置包括:获取单元301、第一处理单元302、生成单元303和第二处理单元304;
获取单元301,用于获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;
第一处理单元302,用于对获取单元301生成的所述待训练数据进行处理;成该客户的处理规则文件;
生成单元303,用于利用第一处理单元302处理后的待训练数据生成该客户的处理模型文件;
第二处理单元304,利用第一处理单元302生成的处理规则文件和生成单元303生成的处理模型文件对获取单元301获取的待处理数据进行处理。
优选地,
获取单元301,具体用于根据所述第一信息数据和第三方数据库的数据生成待训练数据时,包括:根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据;根据所述第二信息数据和第三方数据库的数据生成待处理数据时,包括:根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据。
优选地,
第一处理单元302,具体用于对所述待训练数据进行处理,包括:异常值和规范化处理。
优选地,
为该客户生成的处理模型文件对应的类别特征数根据客户指定设置。
优选地,该装置进一步包括:确定单元305;
确定单元305,用于在获取单元301生成待训练数据之后,确定针对该客户是否已存在处理规则文件,如果是,触发第一处理单元302利用所述待训练数据更新所述处理规则文件,并使用更新后的处理规则文件处理所述待训练数据;否则,触发第一处理单元302对所述待训练数据进行处理,生成该客户的处理规则文件。
优选地,该装置进一步包括:确定单元305;
确定单元305,用于在第一处理单元302对所述待训练数据进行处理之后,确定针对该客户是否已存在处理模型文件,如果是,触发生成单元303基于所述处理后的待训练数据更新所述处理模型文件;否则,触发生成单元303利用处理后的待训练数据生成该客户的处理模型文件。
优选地,
第二处理单元304,具体用于利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理,包括:利用所述处理规则文件处理所述待处理数据;利用所述处理模型文件对经过所述处理规则文件处理后的待处理数据进行处理。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述信息数据处理方法的步骤。
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述信息数据处理方法中的步骤。
图4为本发明实施例提供的电子设备的实体结构示意图。如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:
获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;
对所述待训练数据进行处理,生成该客户的处理规则文件;
利用处理后的待训练数据生成该客户的处理模型文件;
获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;
利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种信息数据处理方法,其特征在于,所述方法包括:
获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;
对所述待训练数据进行处理,生成该客户的处理规则文件;
利用处理后的待训练数据生成该客户的处理模型文件;
获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;
利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理;
其中,所述根据所述第一信息数据和第三方数据库的数据生成待训练数据,包括:
根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据;
所述根据所述第二信息数据和第三方数据库的数据生成待处理数据,包括:
根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据;
其中,
为该客户生成的处理模型文件对应的类别特征数根据客户指定设置。
2.根据权利要求1所述的方法,其特征在于,所述对所述待训练数据进行处理,包括:
异常值和规范化处理。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一信息数据和第三方数据库的数据生成待训练数据之后,所述对所述待训练数据进行处理之前,所述方法进一步包括:
确定针对该客户是否已存在处理规则文件,如果是,利用所述待训练数据更新所述处理规则文件,并使用更新后的处理规则文件处理所述待训练数据,并更新所述处理规则文件;否则,对所述待训练数据进行处理,生成该客户的处理规则文件。
4.根据权利要求1所述的方法,其特征在于,所述对所述待训练数据进行处理之后,所述利用处理后的待训练数据生成该客户的处理模型文件之前,所述方法进一步包括:
确定针对该客户是否已存在处理模型文件,如果是,基于所述处理后的待训练数据更新所述处理模型文件;否则,利用处理后的待训练数据生成该客户的处理模型文件。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述利用所述处理规则文件和所述处理模型文件对所述待处理数据进行处理,包括:
利用所述处理规则文件处理所述待处理数据;
利用所述处理模型文件对经过所述处理规则文件处理后的待处理数据进行处理。
6.一种信息数据处理装置,其特征在于,所述装置包括:获取单元、第一处理单元、生成单元和第二处理单元;
所述获取单元,用于获取到客户的第一信息数据时,根据所述第一信息数据和第三方数据库的数据生成待训练数据;获取到该客户的第二信息数据时,根据所述第二信息数据和第三方数据库的数据生成待处理数据;
所述第一处理单元,用于对所述获取单元生成的所述待训练数据进行处理;成该客户的处理规则文件;
所述生成单元,用于利用所述第一处理单元处理后的待训练数据生成该客户的处理模型文件;其中,为该客户生成的处理模型文件对应的类别特征数根据客户指定设置;
所述第二处理单元,利用所述第一处理单元生成的处理规则文件和所述生成单元生成的处理模型文件对所述获取单元获取的待处理数据进行处理;
其中,获取单元301,具体用于根据所述第一信息数据和第三方数据库的数据生成待训练数据时,包括:根据所述第一信息数据的加密主键在第三方数据库中匹配到对应数据,与所述第一信息数据通过加密主键一一映射,作为待训练数据;根据所述第二信息数据和第三方数据库的数据生成待处理数据时,包括:根据所述第二信息数据的加密主键在第三方数据库中匹配到对应的数据,与所述第二信息数据通过加密主键一一映射,作为待处理数据。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述的方法。
CN201910758047.7A 2019-08-16 2019-08-16 一种信息数据处理方法和装置 Active CN110458626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910758047.7A CN110458626B (zh) 2019-08-16 2019-08-16 一种信息数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910758047.7A CN110458626B (zh) 2019-08-16 2019-08-16 一种信息数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN110458626A CN110458626A (zh) 2019-11-15
CN110458626B true CN110458626B (zh) 2020-11-03

Family

ID=68487139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910758047.7A Active CN110458626B (zh) 2019-08-16 2019-08-16 一种信息数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN110458626B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523446A (zh) * 2018-10-19 2019-03-26 北京北大软件工程股份有限公司 一种面向价格领域的大数据处理分析系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9594816B2 (en) * 2012-11-01 2017-03-14 Tata Consultancy Services Limited System and method to provide analytical processing of data in a distributed data storage systems
CN105228140B (zh) * 2015-08-31 2018-10-30 华为技术有限公司 一种数据访问方法及装置
CN106446255A (zh) * 2016-10-18 2017-02-22 安徽天达网络科技有限公司 一种基于云服务器的数据处理方法
CN108198116A (zh) * 2016-12-08 2018-06-22 同方威视技术股份有限公司 用于安检中被检人员分级的方法及装置
CN107562924A (zh) * 2017-09-14 2018-01-09 晶赞广告(上海)有限公司 基于列存储和键值存储的人群画像方法及系统
CN107944465A (zh) * 2017-10-13 2018-04-20 华南理工大学 一种适用于大数据的无监督快速聚类方法及系统
CN108197505B (zh) * 2017-12-29 2020-07-17 泰康保险集团股份有限公司 区块链业务数据处理方法、装置及电子设备
CN109544163B (zh) * 2018-11-30 2021-01-29 华青融天(北京)软件股份有限公司 一种用户支付行为的风险控制方法、装置、设备及介质
CN109684330A (zh) * 2018-12-17 2019-04-26 深圳市华云中盛科技有限公司 用户画像库构建方法、装置、计算机设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523446A (zh) * 2018-10-19 2019-03-26 北京北大软件工程股份有限公司 一种面向价格领域的大数据处理分析系统

Also Published As

Publication number Publication date
CN110458626A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110019754B (zh) 一种知识库的建立方法、装置及设备
TW201917601A (zh) 使用者意圖識別方法及裝置
CN107634947A (zh) 限制恶意登录或注册的方法和装置
US20190362016A1 (en) Frequent pattern analysis for distributed systems
US20190012362A1 (en) Method and apparatus for processing information
CN111694926A (zh) 基于场景动态配置的交互处理方法、装置、计算机设备
CN110795315A (zh) 监控业务的方法和装置
CN111314063A (zh) 一种基于物联网大数据信息管理方法、系统及装置
CN106598931A (zh) 信息模板的生成方法
CN104408118A (zh) 数据库的创建方法和装置
US11556595B2 (en) Attribute diversity for frequent pattern analysis
CN110458626B (zh) 一种信息数据处理方法和装置
US9843635B2 (en) Data replication among portable electronic devices
US11294917B2 (en) Data attribution using frequent pattern analysis
CN112100168A (zh) 一种确定数据关联关系的方法和装置
US9384270B1 (en) Associating user accounts with source identifiers
US11573808B2 (en) Methods of providing an integrated interface that includes a virtual mobile device
CN115423030A (zh) 一种设备识别的方法和装置
CN113674083A (zh) 互联网金融平台信用风险监测方法、装置及计算机系统
CN113779346A (zh) 用于识别一人多账号的方法及装置
CN107368597B (zh) 信息输出方法和装置
CN113535186B (zh) 业务应用部署方法和装置
CN113515493B (zh) 日志关联方法和装置
CN109933573B (zh) 数据库业务更新方法、装置及系统
CN117289840A (zh) 基于画像标签的菜单确定方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CP03 Change of name, title or address