CN114969038A - 数据处理方法、装置、计算机设备及存储介质 - Google Patents
数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114969038A CN114969038A CN202210582540.XA CN202210582540A CN114969038A CN 114969038 A CN114969038 A CN 114969038A CN 202210582540 A CN202210582540 A CN 202210582540A CN 114969038 A CN114969038 A CN 114969038A
- Authority
- CN
- China
- Prior art keywords
- hash values
- data
- full
- fully
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 90
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 16
- 210000002569 neuron Anatomy 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 abstract description 4
- 201000010099 disease Diseases 0.000 description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 28
- 238000010586 diagram Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及深度学习技术领域,提出了一种数据处理方法、装置、计算机设备及存储介质,用于释放了存储空间,降低了对存储空间的需求。方法部分包括:获取离散型特征数据;对所述离散型特征数据进行哈希处理,以映射出多个哈希值;生成所述多个不同哈希值对应维度的映射向量;利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
在深度学习的许多应用领域,往往会将结构化数据中离散型的特征进行Embedding编码,例如自动理赔业务应用中,在处理结构化数据时,往往会将离散型特征进行Embedding编码,需要对每种离散型特征建立一个Embedding tabel矩阵,可见,矩阵大小由离散型特征的取值个数及Embedding后的向量长度确定,但是理赔业务中离散型特征的取值个数是非常庞大的。以其中的疾病名词特征为例,疾病名称数量达到数百万个。这就使得Embedding table 矩阵的存储空间是巨大的,极大的增加了存储空间需求,这对线上服务内存容量是巨大的考验。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,以解决传统的Embedding处理过程中,存储空间是巨大的,极大的增加了存储空间需求的技术问题。
本申请第一方面提供了一种数据处理方法,所述数据处理方法包括:
获取离散型特征数据;
对所述离散型特征数据进行哈希处理,以映射出多个哈希值;
利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
在一实施方式中,所述对所述离散型特征数据进行哈希处理,以映射出多个哈希值,包括:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出所述多个初始哈希值;
分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
在一实施方式中,所述使用预设数量的哈希函数对所述离散型特征数据进行映射,以映射出多个初始哈希值,包括:
使用1024*预设个数的哈希函数对所述离散型特征数据进行映射,以映射出所述多个初始哈希值。
在一实施方式中,所述至少一层的全连接层包括多层依次连接的全连接层,所述多层依次连接的全连接层中,上一层全连接层的所有神经元节点均连接至下一层全连接层的每个神经元节点,所述利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,包括:
将所述多个哈希值,输入所述全连接层网络中首层全连接层的每个神经元节点,以所述全连接层网络中的尾层全连接层输出包含目标维度的目标向量。
在一实施方式中,所述多层依次连接的全连接层包含三层依次连接的第一全连接层、第二全连接层和第三全连接层,所述多个哈希值用于输入至所述第一全连接层的每个神经元节点,所述第二全连接层的每个神经元节点都与所述第一全连接层的所有神经元节点相连,所述第三全连接层的每个神经元节点都与所述第二全连接层的所有神经元节点相连。
在一实施方式中所述利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量之后,所述方法还包括:
将所述目标向量输入神经网络中进行训练,以得到神经网络模型。
本申请第二方面提供了一种数据处理装置,包括:
获取模块,用于获取离散型特征数据;
映射模块,用于对所述离散型特征数据进行哈希处理,以映射出多个哈希值;
向量转化模块,用于利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
在一实施方式中,所述映射模块具体用于:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出所述多个初始哈希值;
分别对所述多个初始哈希值的范围进行标准化处理,得到多个哈希值。
本申请第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如前述任一项所述数据处理方法的步骤。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前述任一项所述数据处理方法的步骤。
上述数据处理方法、装置、计算机设备及存储介质所实现的方案中,将大量的特征数量映射都某个维度的空间,极大的减少了处理参数量,由于哈希处理特性,还能极大保证特征映射后向量的唯一性,发生哈希冲突的概率也比较低,增加了方案的可行性,最后使用一个全连接网络结构进行学习,最终输出所需维度长度的目标向量,无需通过EmbeddingTable查表生成所需维度的目标向量,极大的释放了存储空间,降低了对存储空间的需求,对于线上服务等应用场景内存容量要求不高,具有极大的应用价值。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中数据处理方法的一应用环境示意图;
图2是本申请一实施例中数据处理方法的一流程示意图;
图3是图1步骤S20的一具体实施方式流程图;
图4是本申请一实施例中数据处理方法与传统方式的对比示意图;
图5是本申请一实施例中数据处理方法的另一流程示意图;
图6是本申请一实施例中数据处理装置的一结构示意图;
图7是本申请一实施例中数据处理装置的另一结构示意图;
图8是本申请一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据处理方法,可应用在如图1的应用环境中,客户端通过与服务端进行通信。服务端用于实现本申请中的数据处理方法,获取离散型特征数据;对所述离散型特征数据进行哈希处理,以映射出多个哈希值;生成所述多个不同哈希值对应维度的映射向量;利用至少一层的全连接层对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。最后,该服务端基于所获取的目标向量可以有多种应用,包括利用此生成目标向量的方式处理训练数据,用于训练出所需的模型,例如自动理赔模型。服务端可利用自动理赔模型实现自动理赔决策,而在实现自动理赔处理方法时,可以将理赔结果反馈回客户端,其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种数据处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取离散型特征数据。
离散型特征数据,是指用于反映某些特征的离散型数据。取决于数据类型的不同,该离散型特征数据可以包括许多种类型。以其中的自动理赔应用场景中为例,该原始离散型特征特征数据可以是指理赔业务中的某一种离散型特征数据,例如疾病名词特征、疾病编码特征(疾病ID特征),保险类型特征等等。以保险的推荐应用场景为例,也可以是上述离散特征数据类型,以及保险产品名词特征等等,当然还可以是其他离散型特征数据,这里不做限定,也不一一举例,本申请实施例关注的是对数据本身的编码过程,具体的类型不做限制。
需要说明的是,由于本申请实施例是用于编码得到对应的向量,因此可以直接获取转化后的离散型特征数据。在一些实施例中,也可以获取原始特征数据进行转化得到,具体而言,步骤S10中,也即获取离散型特征数据,具体可以包括如下步骤:获取原始数据,提取出所需的特征数据并将这些特征组织成结构化数据,以得到上述离散型特征数据。例如,自动理赔业务往往会根据历史理赔数据的理赔情况,人为提取具有理赔区分度的特征并将这些特征组织成结构化数据,当前较为成熟的深度学习方法在处理结构化数据时,往往需要将离散型特征数据进行Embedding编码。
S20:对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值。
S30:利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
在得到所述离散型特征数据之后,传统的方案一般是对离散型特征数据进行离散化one-hot编码,再将编码后的one-hot从该特征对应的Embedding table中查询,以得到该特征数据对应的Embedding向量。然而,如背景技术中分析,对于一些离散型特征数据,例如,疾病编码ID以及险种代码等特征,往往数据量巨大,通常有上百万个取值,也就是需要进行编码处理的离散型特征数据是非常巨大的,这就使得需要查表的Embedding table也是巨大的,以疾病编码ID为例,仅疾病编码ID的Embedding Table就可能会有200万*32 (这里假设Embedding size=32),可见占据的存储空间是非常巨大。
与上述传统处理方式不同的是,本申请实施例中在获取到需要编码的离散型特征数据之后,并不会采用上述传统的处理方式,而是对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值。例如,假设离散特征数据是一种疾病编码ID特征,那么该步骤会将分别对这些疾病编码ID,进行哈希处理,从而得到每次处理对应的哈希值,然后依据全连接层网络得到的多个哈希值相应的目标向量。
可以看出,通过上述步骤,无需对每个疾病编码ID进行one-hot编码处理,而是通过哈希方式映射到某个维度的空间中,极大的减少了处理参数量。而且,利用哈希处理方式将大量的特征数量映射到某个维度的空间,由于哈希处理特性,还能极大保证特征映射后的唯一性,发生哈希冲突的概率也比较低,增加了方案的可行性。
在对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值后,直接利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。其中,目标维度是所需的输出维度,取决于编码所需的输出维度,该目标维度可以通过选择的全连接层网络来设置。通过该步骤,将对应的哈希值进行全连接层网络的学习,通过限制全连接层的层数或者神经元节点数来定,可以输出所需目标维度的目标向量,也即输出最终所需的目标维度的Embedding向量。
通过上述实施例可以看出,本申请实施例提供了数据处理方法,对所述离散型特征数据进行哈希处理,以映射出多个哈希值;利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,也即将大量的特征数量映射都某个维度的空间,极大的减少了处理参数量,由于哈希处理特性,还能极大保证特征映射后向量的唯一性,发生哈希冲突的概率也比较低,增加了方案的可行性,最后使用一个全连接网络进行学习,最终输出所需维度长度的目标向量,无需通过Embedding Table查表生成所需维度的目标向量,极大的释放了存储空间,降低了对存储空间的需求,对于线上服务等应用场景内存容量要求不高,具有极大的应用价值。
另外需要说明的是,通过全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,还可以使得特征数据之间能够互相影响,有效地避免由于数据中疾病名称常常存在长尾现象,导致学习效果差的技术问题,还可以使得特征数据之间能够互相影响,具有更好的泛化性,这样,利用本申请实施例提供所生成的向量用于模型训练时,也具有比较好的学习效果,提高模型准确度。
在一个实施例中,如图3所示,步骤S20中,也即所述对所述离散型特征数据进行哈希处理,以映射出多个哈希值,具体包括如下步骤:
S21:使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出多个初始哈希值;
步骤S21中,会采用类似布隆过滤器的类似处理方式,使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出预设数量的哈希函数对应的多个初始哈希值。
在一些实施例中,具体而言,可以使用1024*预设个数的哈希函数分别对所述离散型特征数据进行映射,以映射出所述多个初始哈希值,假设预设数量为N,其中,N为正整数,且1≤N≤预设数值。作为一个示例,N值为1,也即可以使用1024个哈希函数分别对所述离散型特征数据进行映射,以映射出1024个初始哈希值。又或者,作为一个示例,N值可以为2,也即可以使用2048个哈希函数对所述离散型特征数据进行映射,以映射出2048个初始哈希值。需要说明的是,上述示例在此仅是示例性说明,N值还可以是其他数据只要小于预设数值便可,该预设数值是一种经验值,该预设数值与所述离散型特征数据的数据情况有关,另外,1024*N中的1024参考值实际也可以是其他的数值,可依据实际效果择优,具体本申请实施例均不做限定。
S22:分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
在得到多个初始哈希值之后,分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。其中,标准化的范围可以选择,作为一个示例,为便于计算,标准化的范围可以是每个维度的值的范围归一化到到[-1,1] 之间,因此该步骤中,可分别对所述多个初始哈希值的范围进行标准化处理,得到范围值在[-1,1]的所述多个哈希值。作为一个示例,当映射出1024个初始哈希值,则可分别对这1024个初始哈希值的范围进行标准化处理,得到1024 个范围值在[-1,1]的哈希值。又或者,作为一个示例,当映射出2048个初始哈希值,则可分别对这2048个初始哈希值的范围进行标准化处理,得到2048 个范围值在[-1,1]的哈希值。
可见,在该实施例中,提出了一种具体的映射方式,利用预设数量的哈希函数分别进行处理,能保证特征映射后向量的唯一性,发生哈希冲突的概率也比较低,增加方案的可行性。在其他的实施例中,也可以采用相同的哈希函数进行处理,得到多个哈希值,具体不做限定。
在一实施例中,步骤S30中,即利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,取决于所需的目标维度的需求,全连接层网络的层数和相应的神经元节点数可以有不同的情况,在一些实施例中,所述全连接层网络包括多层依次连接的全连接层,所述多层依次连接的全连接层中,上一层全连接层的所有神经元节点均连接至下一层全连接层的每个神经元节点,所述上一层全连接层与所述下一层全连接层为相邻的全连接层,所述全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,包括:将所述多个哈希值,输入全连接层网络中首层全连接层的每个神经元节点,以所述全连接层网络中的尾层全连接层输出的包含目标维度的目标向量。
需要说明的是,通过多层依次连接的全连接层,这样可以使得特征数据被充分学习,使得最后的输出的目标向量包含更多有用的特征信息。
作为一个示例,参阅图4所示,本申请实施例中设置有三层全连接层,且每层全连接层的输出维度不同,也即全连接层的神经元节点数不同,这三层全连接层依次连接,所述多层依次连接的全连接层包含三层依次连接的第一全连接层、第二全连接层和第三全连接层,所述多个哈希值均输入至所述第一全连接层的所有神经元节点,所述第二全连接层的每个神经元节点都与所述第一全连接层的所有神经元节点相连,所述第三全连接层的每个神经元节点都与所述第二全连接层的所有神经元节点相连,上述全连接层中的神经元节点也即为神经元。
需要说明的是,经多个卷积层和池化层后,连接着1个或1个以上的全连接层.全连接层中的每个神经元与其前一层的所有神经元进行全连接.通过全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息,全连接层每个神经元的激励函数一般采用ReLU函数。最后一层全连接层的输出值被传递给一个输出,可以采用softmax逻辑回归(softmaxregression)进行分类,该层也可称为softmax层(softmax layer).对于一个具体的分类任务。而在本申请实施例中,巧妙了利用了全连接层的特点,对利用哈希函数得到的哈希值进行学习,且通过多层全连接层,可以学习特征数据到更多的局部信息,使得最终得到的目标向量更具学习价值,有利于后续训练。
作为一个示例,示例性的,第一全连接层的神经元节点数为512,第二全连接层的神经元节点数为256,第二全连接层的神经元节点数为32,以1024 维度的哈希值为例,对于第一全连接层,该第一全连接层的每个神经元节点,都会与哈希得到的1024个哈希值全部连接,或者这1024个哈希值映射为1024 维度的映射向量,将该映射向量输入至第一全连接层。具体的,形式可如: a1=w1*x1+w2*x2+..+w1024*x1024。W1-w1024均为神经网络参数,其中, x1-x1024为前面1024个哈希函数的输出,也即是映射出的哈希值的映射向量的维度空间中的每个维度的值,即每个哈希值。而a1为512个神经元节点的中的一个神经元节点,第一全连接层中这样的神经元节点会有512个。对于第二全连接层,该第二全连接的每个神经元节点都会与前面第一全连接层的 512个神经元节点全部连接,第二全连接层中这样的神经元节点会有256个,对于第三全连接层,该第三全连接层的每个神经元节点都会与前面第二全连接层的256个神经元节点全部连接,第三全连接层中这样的神经元节点会有 32个。因此最终该第三全连接层输出的向量为32维的向量,也即最终的 Embedding向量。
如图4所示,图4左边是传统的处理方式,传统方式中,疾病代码ID经过one-hot处理后的数据是0,0,0,1,0,…,0,由于疾病代码ID的数据量大,处理后的one-hot向量可能得到200万,这就使得需要查表的Embedding table 也是巨大的,以疾病编码ID为例,仅疾病编码ID的Embedding Table就可能会有仅有200万*32(这里假设Embedding size=32),可见占据的存储空间是非常巨大,图4右边流程是本申请实施例中的其中一种处理方式,对比可以看出,最终都是输出32维的向量,但是本申请实施例提供的方式并不会占据太大的存储空间。
在一实施例中,如图5所示,步骤S30之后中,即所述利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量之后,该数据处理方法还具体包括如下步骤:
S40:将所述目标向量输入神经网络中进行训练,以得到神经网络模型。
需要说明的是,通过本申请实施例提供的数据处理方法得到目标向量,可以有许多应用场景,包括用于模型训练中,包括用于自动理赔的模型训练中,具体不做限定,只需要获取大量的离散型特征数据作为训练数据,利用本申请实施例中提供的数据处理方法进行编码,输入至预设的神经网络中进行训练,直至神经网络收敛或者达到训练截止条件便可,从而得到最终的神经网络模型。
另外需要说明的是,而且强调的是,利用至少一层的全连接层对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,还可以使得特征数据之间能够互相影响,有效地避免由于数据中疾病名称常常存在长尾现象,导致学校效果差的技术问题,通过本方案,利用至少一层的全连接层对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,还可以使得特征数据之间能够互相影响,具有更好的泛化性,这样,利用本申请实施例提供所生成的向量用于理赔模型训练时,也具有比较好的学习效果,提高模型准确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种数据处理装置,该数据处理装置与上述实施例中数据处理方法一一对应。如图6所示,该数据处理装置10包括获取模块101、映射模块102和向量转化模块103。各功能模块详细说明如下:
获取模块101,用于获取离散型特征数据;
离散型特征数据,是指用于反映某些特征的离散型数据。取决于数据类型的不同,该离散型特征数据可以包括许多种类型。以其中的自动理赔应用场景中为例,该原始离散型特征特征数据可以是指理赔业务中的某一种离散型特征数据,例如疾病名词特征、疾病编码特征(疾病ID特征),保险类型特征等等。以保险的推荐应用场景为例,也可以是上述离散特征数据类型,以及保险产品名词特征等等,当然还可以是其他离散型特征数据,这里不做限定,也不一一举例,本申请实施例关注的是对数据本身的编码过程,具体的类型不做限制。
映射模块102,用于对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值;
向量转化模块103,用于利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
在得到所述离散型特征数据之后,传统的方案一般是离散型特征数据进行离散化one-hot编码,再将编码后的one-hot从该特征对应的Embedding table 中查询,以得到该特征数据对应的Embedding向量。然而,如背景技术中分析,对于一些离散型特征数据,例如,疾病编码ID以及险种代码等特征,往往数据量巨大,通常有上百万个取值,也就是需要进行编码处理的离散型特征数据是非常巨大的,这就使得需要查表的Embedding table也是巨大的,以疾病编码ID为例,仅疾病编码ID的Embedding Table就可能会有仅有200万 *32(这里假设Embedding size=32),可见占据的存储空间是非常巨大。
与上述传统处理方式不同的是,本申请实施例中在获取到需要编码的离散型特征数据之后,并不会采用上述传统的处理方式,而是对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值。然后基于这多个哈希值生成对应维度的映射向量。例如,假设离散特征数据是一种疾病编码ID特征,那么该步骤会将分别对这些疾病编码ID,进行哈希处理,从而得到每次处理对应的哈希值,然后依据得到的多个哈希值的维度生成相应的映射向量。可以看出,通过上述处理,无需对每个疾病编码ID进行one-hot编码处理,而是映射到某个映射到某个维度的空间中,极大的减少了处理参数量。而且,利用哈希处理方式将大量的特征数量映射到某个维度的空间,由于哈希处理特性,还能极大保证特征映射后的唯一性,发生哈希冲突的概率也比较低,增加了方案的可行性。
在一实施例中,所述映射模块102具体用于:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出所述多个初始哈希值;
分别对多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
在一实施例中,所述映射模块102还具体用于:
使用1024*预设个数个哈希函数对所述离散型特征数据进行映射,以映射出所述多个初始哈希值。
在一实施例中,所述全连接层网络包括多层依次连接的全连接层,所述多层依次连接的全连接层中,上一层全连接层的所有神经元节点均连接至下一层全连接层的每个神经元节点,所述向量转化模块103还具体用于:
将所述多个哈希值,输入所述全连接层网络中首层全连接层的每个神经元节点,以所述全连接层网络中的尾层全连接层输出包含目标维度的目标向量。
在一实施例中,所述多层依次连接的全连接层包含依次连接的第一全连接层、第二全连接层和第三全连接层,所述多个哈希值用于分别输入至所述第一全连接层的所有神经元节点,所述第二全连接层的每个神经元节点都与所述第一全连接层的所有神经元节点相连,所述第三全连接层的每个神经元节点都与所述第二全连接层的所有神经元节点相连。
在一实施例中,如图7所示,数据处理装置还包括输入模块104,该输入模块104用于:
将所述目标向量输入神经网络中进行训练,以得到神经网络模型。
通过上述实施例可以看出,本申请实施例提供了数据处理装置,对所述离散型特征数据进行哈希处理,以映射出多个哈希值;利用至少一层的全连接层对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,也即将大量的特征数量映射都某个维度的空间,极大的减少了处理参数量,由于哈希处理特性,还能极大保证特征映射后的唯一性,发生哈希冲突的概率也比较低,增加了方案的可行性,最后使用一个全连接网络进行学习,最终输出所需维度长度的目标向量,无需通过Embedding Table查表生成所需维度的目标向量,极大的释放了存储空间,降低了对存储空间的需求,对于线上服务等应用场景内存容量要求不高,具有极大的应用价值。
另外需要说明的是,利用至少一层的全连接层对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,还可以使得特征数据之间能够互相影响,有效地避免由于数据中疾病名称常常存在长尾现象,导致学习效果差的技术问题,利用至少一层的全连接层对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,还可以使得特征数据之间能够互相影响,具有更好的泛化性,这样,利用本申请实施例提供所生成的向量用于模型训练时,也具有比较好的学习效果,提高模型准确度。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取离散型特征数据;
对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值;
利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
在一实施例中,处理器执行计算机程序时具体实现以下步骤:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出多个初始哈希值;
分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
在一实施例中,处理器执行计算机程序时具体实现以下步骤:
使用1024*预设个数的所述哈希函数对所述离散型特征数据进行映射,以映射出所述多个初始哈希值。
在一实施例中,所述全连接层网络包括多层依次连接的全连接层,所述多层依次连接的全连接层中,上一层全连接层的所有神经元节点均连接至下一层全连接层的每个神经元节点,处理器执行计算机程序时具体实现以下步骤:
将所述多个哈希值,输入所述全连接层网络中首层全连接层的每个神经元节点,以所述全连接层网络中的尾层全连接层输出包含目标维度的目标向量。
在一实施例中,所述全连接层网络包含依次连接的第一全连接层、第二全连接层和第三全连接层,所述多个哈希值用于分别输入至所述第一全连接层的所有神经元节点,所述第二全连接层的每个神经元节点都与所述第一全连接层的所有神经元节点相连,所述第三全连接层的每个神经元节点都与所述第二全连接层的所有神经元节点相连。
在一实施例中,处理器执行计算机程序时具体实现以下步骤:
将所述目标向量输入神经网络中进行训练,以得到神经网络模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取离散型特征数据;
对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值;
利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
在一实施例中,计算机程序被处理器执行时具体实现以下步骤:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出多个初始哈希值;
分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
在一实施例中,计算机程序被处理器执行时具体实现以下步骤:
使用1024*预设个数个所述哈希函数对所述离散型特征数据进行映射,以映射出所述多个初始哈希值,其中,N为正整数,且1≤N≤预设数值。
在一实施例中,所述全连接层网络包括多层依次连接的全连接层,所述多层依次连接的全连接层中,上一层全连接层的所有神经元节点均连接至下一层全连接层的每个神经元节点,计算机程序被处理器执行时具体实现以下步骤:
将所述多个哈希值,输入所述全连接层网络中首层全连接层的每个神经元节点,以所述全连接层网络中的尾层全连接层输出包含目标维度的目标向量。
在一实施例中,所述全连接层网络包含依次连接的第一全连接层、第二全连接层和第三全连接层,所述多个哈希值用于分别输入至所述第一全连接层的所有神经元节点,所述第二全连接层的每个神经元节点都与所述第一全连接层的所有神经元节点相连,所述第三全连接层的每个神经元节点都与所述第二全连接层的所有神经元节点相连。
在一实施例中,计算机程序被处理器执行时具体实现以下步骤:
将所述目标向量输入神经网络中进行训练,以得到神经网络模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括:
获取离散型特征数据;
对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值;
利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
2.如权利要求1所述的数据处理方法,其特征在于,所述对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值,包括:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出多个初始哈希值;
分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
3.如权利要求2所述的数据处理方法,其特征在于,所述使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出多个初始哈希值,包括:
使用1024*预设个数的所述哈希函数对所述离散型特征数据进行映射,以映射出所述多个初始哈希值。
4.如权利要求1-3任一项所述的数据处理方法,其特征在于,所述全连接层网络包括多层依次连接的全连接层,所述多层依次连接的全连接层中,上一层全连接层的所有神经元节点均连接至下一层全连接层的每个神经元节点,所述利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量,包括:
将所述多个哈希值,输入所述全连接层网络中的首层全连接层的每个神经元节点,以使所述全连接层网络中的尾层全连接层输出包含所述目标维度的目标向量。
5.如权利要求4所述的数据处理方法,其特征在于,所述多层依次连接的全连接层包含三层依次连接的第一全连接层、第二全连接层和第三全连接层。
6.如权利要求1-3任一项所述的数据处理方法,其特征在于,所述利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量之后,所述方法还包括:
将所述目标向量输入神经网络中进行训练,以得到神经网络模型。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于获取离散型特征数据;
映射模块,用于对所述离散型特征数据分别进行哈希处理,以映射出多个哈希值;
向量转化模块,用于利用全连接层网络对所述多个哈希值进行向量转化处理,得到包含目标维度的目标向量。
8.如权利要求7所述的数据处理装置,其特征在于,所述映射模块具体用于:
使用预设数量的哈希函数分别对所述离散型特征数据进行映射,以映射出多个初始哈希值;
分别对所述多个初始哈希值的范围进行标准化处理,得到所述多个哈希值。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述数据处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582540.XA CN114969038A (zh) | 2022-05-26 | 2022-05-26 | 数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582540.XA CN114969038A (zh) | 2022-05-26 | 2022-05-26 | 数据处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969038A true CN114969038A (zh) | 2022-08-30 |
Family
ID=82955437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210582540.XA Pending CN114969038A (zh) | 2022-05-26 | 2022-05-26 | 数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969038A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108631787A (zh) * | 2018-05-09 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 数据编码方法、装置、计算机设备及存储介质 |
CN111597298A (zh) * | 2020-03-26 | 2020-08-28 | 浙江工业大学 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
-
2022
- 2022-05-26 CN CN202210582540.XA patent/CN114969038A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108631787A (zh) * | 2018-05-09 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 数据编码方法、装置、计算机设备及存储介质 |
CN111597298A (zh) * | 2020-03-26 | 2020-08-28 | 浙江工业大学 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
WANG-CHENG KANG等: "Learning to Embed Categorical Features without Embedding Tables for Recommendation", pages 1 - 11, Retrieved from the Internet <URL:https://arxiv.org/abs/2010.10784> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022042123A1 (zh) | 图像识别模型生成方法、装置、计算机设备和存储介质 | |
US11468316B2 (en) | Cluster compression for compressing weights in neural networks | |
CN109325118B (zh) | 不平衡样本数据预处理方法、装置和计算机设备 | |
CN113379301A (zh) | 通过决策树模型对用户进行分类的方法、装置和设备 | |
CN110888911A (zh) | 样本数据处理方法、装置、计算机设备及存储介质 | |
CN111881737B (zh) | 年龄预测模型的训练方法及装置、年龄预测方法及装置 | |
CN112259247A (zh) | 对抗网络训练、医疗数据补充方法、装置、设备及介质 | |
CN110555700A (zh) | 区块链智能合约执行方法、装置、计算机可读存储介质 | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN114138231B (zh) | 执行矩阵乘法运算的方法、电路及soc | |
CN113807353A (zh) | 图像转换模型训练方法、装置、设备及存储介质 | |
CN110956195A (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN113255747B (zh) | 量子多通道卷积神经分类方法、系统、终端及存储介质 | |
CN116737800A (zh) | 应用于供应链平台服务的大数据挖掘方法及系统 | |
CN117056721A (zh) | 模型参数的调整方法、装置、模型预测方法、设备及介质 | |
CN114969038A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
CN116596617A (zh) | 保险产品交叉推荐方法、装置、计算机设备及存储介质 | |
WO2023115814A1 (zh) | Fpga硬件架构及其数据处理方法、存储介质 | |
US20210224632A1 (en) | Methods, devices, chips, electronic apparatuses, and storage media for processing data | |
CN113705784A (zh) | 一种基于矩阵共享的神经网络权重编码方法及硬件系统 | |
CN112668656A (zh) | 一种图像分类方法、装置、计算机设备和存储介质 | |
CN113360744A (zh) | 媒体内容的推荐方法、装置、计算机设备和存储介质 | |
CN112308197A (zh) | 一种卷积神经网络的压缩方法、装置及电子设备 | |
CN117932245B (zh) | 一种金融数据缺失值补全方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |