CN113706318A - 一种数据处理方法、装置、智能设备以及存储介质 - Google Patents

一种数据处理方法、装置、智能设备以及存储介质 Download PDF

Info

Publication number
CN113706318A
CN113706318A CN202110995285.7A CN202110995285A CN113706318A CN 113706318 A CN113706318 A CN 113706318A CN 202110995285 A CN202110995285 A CN 202110995285A CN 113706318 A CN113706318 A CN 113706318A
Authority
CN
China
Prior art keywords
information
result
vector
detected
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110995285.7A
Other languages
English (en)
Inventor
周朋飞
张捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202110995285.7A priority Critical patent/CN113706318A/zh
Publication of CN113706318A publication Critical patent/CN113706318A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种数据处理方法、装置、智能设备及存储介质,方法包括:获取待检测信息,待检测信息包括第一待检测信息以及第二待检测信息;基于第一待检测信息确定每一第一待检测信息对应的第一向量及第二向量;基于第二待检测信息确定每一第二待检测信息对应的第三向量;对第二向量进行非线性训练得到训练结果;将训练结果与第三向量进行拼接得到拼接结果,对拼接结果进行第一线性训练得到第一输出信息;对第一向量及第三向量进行第二线性训练得到第二输出信息;基于第一输出信息及第二输出信息确定数据处理结果。其通过在非线性训练中,提取部分特征进行训练,并进行组合,使得特征能够得到进一步组合,提高数据处理过程的效率及数据处理结果的准确性。

Description

一种数据处理方法、装置、智能设备以及存储介质
技术领域
本申请涉及计算机领域,特别是涉及一种数据处理方法、装置、智能设备以及存储介质。
背景技术
随着智能化的发展,生活中很多场景都需要对数据进行处理,以获得对应的结果,例如核保、目标追踪等。以核保为例,核保是整个保险环节中至关重要的一个环节,是风险控制前移的一种具体表现。核保过程稍有差错,就会使投保人、被保人及保险公司陷入两难境地。
若在核保过程中,风险把控太松,那么当保险公司面对恶意消费者时,将蒙受损失;如果风险把控太严,那么将有一部分的正常消费者因为被错误判断而得不到应有的服务。
目前市场上采取的核保技术包括人工核保及策略引擎核保。人工核保由核保员人工完成,核保员接收投保人、被保人信息后,由核保员根据业务知识和少许的个人主观因素来完成核保判断。该方法人力成本高,培养时间长,行业总体工作效率偏低,判断含有主观性,核保员之间的判断标准不统一。策略引擎在核保的时候,更加理性,并且规则统一。由于实际核保使用过程中,对核保的准确度要求较高,因此给策略引擎的研发带来了巨大的挑战。
发明内容
本申请提供一种数据处理方法及相关装置,提高数据处理过程的效率及数据处理结果的准确性。
为解决上述技术问题,本申请提供的第一个技术方案为:提供一种数据处理方法,包括:获取待检测信息,其中,所述待检测信息包括第一待检测信息以及第二待检测信息;基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量;基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量;对所述第二向量进行非线性训练,得到训练结果;将所述训练结果与所述第三向量进行拼接,得到拼接结果,并对所述拼接结果进行第一线性训练,得到第一输出信息;对所述第一向量及所述第三向量进行第二线性训练,得到第二输出信息;基于所述第一输出信息及所述第二输出信息,确定数据处理结果。以此结合线性训练及非线性训练的互补特点,使其相互制约,相互提升,并且在非线性训练中,提取部分特征进行训练,并进行组合,使得特征能够得到进一步组合,提高数据处理过程的效率及数据处理结果的准确性。
其中,第一待检测信息及第二待检测信息至少为两个;对第二向量进行非线性训练,得到训练结果包括:将多个第二向量进行拼接,得到第一向量组合;对第一向量组合进行非线性训练,得到训练结果;将训练结果与第三向量进行拼接,得到拼接结果,并对拼接结果进行第一线性训练,得到第一输出信息包括:将训练结果、第一向量组合以及第三向量进行拼接,得到拼接结果;对拼接结果进行第一线性训练,得到第一输出信息。通过对同类型的多个向量以及不同类型的向量进行拼接,丰富数据类型。
其中,对拼接结果进行第一线性训练,得到第一输出信息之前还包括:对拼接结果进行信息交互处理,得到交互后的拼接结果。通过对多种类型拼接后的向量进行信息交互,以使得各个类型的向量之间互相关联。
其中,对拼接结果进行信息交互处理,以得到交互后的拼接结果包括:采用内积型神经网络对拼接结果进行信息交互处理,得到交互后的拼接结果。
其中,对第一向量组合进行非线性训练,得到训练结果包括:利用卷积层及池化层对第一向量组合进行非线性训练,得到训练结果;对拼接结果进行第一线性训练,得到第一输出信息包括:利用第一多层感知机层对拼接结果进行第一线性训练,得到第一输出信息。利用用于图像领域的卷积层及池化层进行非线性处理,提取部分特征进行训练,提高数据处理过程的效率及数据处理结果的准确性。
其中,对第一向量及第三向量进行第二线性训练,得到第二输出信息包括:将多个第一向量及多个第三向量进行拼接,得到第二向量组合;对第二向量组合进行第二线性训练,得到第二输出信息。通过对同类型的多个向量以及不同类型的向量进行拼接,丰富数据类型。
其中,对第二向量组合进行第二线性训练,得到第二输出信息包括:利用第二多层感知机层对第二向量组合进行第二线性训练训练,得到第二输出信息。
其中,第一待检测信息为非数值型信息,第二待检测信息为数值型信息。
其中,基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量包括:采用第一映射系数,利用嵌入层对第一待检测信息进行映射处理,得到第一向量;采用第二映射系数,利用嵌入层对第一待检测信息进行映射处理,得到第二向量;基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量包括:对第二待检测信息进行归一化处理,以得到第三向量。通过映射处理将非数值型数据转化为向量,并通过归一化的方式将数值型数据将值域进行缩放,以便于被模型识别。
其中,基于第一输出信息及第二输出信息,确定数据处理结果包括:将第一输出信息及第二输出信息耦合,以得到第三输出信息;根据第三输出信息得到数据处理结果。通过该方式将传统的离散化的数据处理结果转变为连续性的数据处理结果,更具有灵活性。
其中,所述数据处理方法为核保方法;根据第三输出信息得到数据处理结果包括:采用逻辑斯蒂函数将第三输出信息进行映射,并输出映射结果;判断映射结果,若映射结果大于预设阈值,则核保通过;若映射结果小于预设阈值,则核保不通过。通过该方式将传统的离散化的数据处理结果转变为连续性的数据处理结果,并利用函数进行转换,以概率的方式进行体现,更具有灵活性。
其中,逻辑斯蒂函数为sigmoid函数。
其中,待检测信息包括:投保人及被保人的实时属性、投保人及被保人的历史属性、投保人及被保人历史投保行为数据、投保人及被保人的过往病史中一种或任意组合。
为解决上述技术问题,本申请提供的第二个技术方案为:提供一种数据处理装置,装置包括:获取模块,用于获取待检测信息,其中,所述待检测信息包括第一待检测信息以及第二待检测信息;处理模块,用于基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量;基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量;训练模块,用于对所述第二向量进行非线性训练,得到训练结果;将所述训练结果与所述第三向量进行拼接,得到拼接结果,并对所述拼接结果进行第一线性训练,得到第一输出信息;对所述第一向量及所述第三向量进行第二线性训练,得到第二输出信息;输出模块,用于基于所述第一输出信息及所述第二输出信息,确定数据处理结果。
为解决上述技术问题,本申请提供的第三个技术方案为:提供一种智能设备,包括存储器及处理器;其中,存储器存储有程序文件,处理器从存储器调取程序文件以执行上述任一项的方法。
为解决上述技术问题,本申请提供的第一个技术方案为:提供一种计算机可读存储介质,存储有程序文件,程序文件能够被执行以实现上述任一项的方法。
本申请的有益效果:区别于现有技术,本申请通过对第一待检测信息得到第二向量进行非线性训练以得到训练结果,将训练结果与第二待检测信息得到的三向量进行拼接以得到拼接结果,对拼接结果进行第一线性训练以得到第一输出信息,并对第一待检测信息得到的第一向量以及第二待检测信息得到的三向量进行第二线性训练以得到第二输出信息,耦合两种训练的结果,能够结合线性训练及非线性训练的互补性特点,并使其相互制约,相互提升,并且其在非线性训练中,提取部分特征进行训练,并进行组合,使得特征能够得到进一步组合,能够提高数据处理过程的效率及数据处理结果的准确性。
附图说明
图1为本申请数据处理方法的一实施例的流程示意图;
图2为图1中步骤S13的一具体实施例的流程示意图;
图3为图1中步骤S13的第一实施例的流程示意图;
图4为图1中步骤S14的第二实施例的流程示意图;
图5为图4中步骤S42的一具体实施例的流程示意图;
图6为本申请数据处理装置的一实施例的结果示意图;
图7为本申请数据处理方法的信号流向的流程示意图;
图8为本申请智能设备的一实施例的结构示意图;
图9为本申请计算机可读存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
一方面,现有的数据处理由人工或策略引擎来实现,以核保过程为例,人工核保由核保员接收投保人、被保人的信息后,由核保员根据业务知识及少许的主观因素完成核保判断,此方法含有主观性,核保员之间的判断标准不统一。策略引擎的判断相较于人工判断更加理性,并且规则统一,但是研发策略引擎的过程中,需要考虑到方方面面的情况,若如不能枚举出所有的情况,则超出引擎的判断范围,再由人工进行判断,以此还是需要花费大量的人力来进行实现。
另一方面,现有的利用模型做核保判断的方法具有Wide&Deep模型、Deepfm模型。其中,Wide&Deep在接收到数据之后,可以快速、全面得考虑数据,得到核保结果;因为模型有很好的泛化效果,所以也不需担心有意外情况导致无法判断的情况发生。但是Wide&Deep模型在研发的时候,需要业务专家做大量的特征工程去丰富模型的记忆力,这通常导致在初期构建模型的时候,存在大量的试错成本。Deepfm模型由于经过数学上的优化,因此在接受到数据之后,可以自发得学习数据的二阶交互特征,且保证了计算消耗的变化和数据的维度呈线性相关。相比较于Wide&Deep模型,Deepfm模型及其变种的思路都是对线性部分进行优化,即对二阶特征进行优化,而并没有对非线性部分进行优化,因此导致对高阶特征的提取不足。
因此,本申请提供一种数据处理方法,采用算法模型代替人工审核和策略引擎,一方面可以解决人工审核所带来的缺点,相对于人工审核,算法模型训练时间短,其不需要人力介入,人力成本低,效率高,考虑全面,判断客观,结果稳定。另一方面可以解决策略引擎需要枚举所有可能的缺点,无需担心业务变更所带来的困扰,因为算法模型只需要很短的再训练时间。再一方面,传统的人工或策略引擎得出的结果只是标保、拒保、加费等等,是一个离散化的结果,无法体现各个结果的程度。使用算法模型可以把传统的离散化的数据处理结果转变为连续性的数据处理结果,即得出标保、拒保、加费等等的概率值,可以人为设定各结果的阈值,灵活性更高。并且本申请提供的模型,其对非线性部分进行优化,使其能够提取高阶特征,提高了非线性模块的效率以及性能
具体过程结合本申请的附图及实施例进行说明。
请参见图1,为本申请数据处理方法第一实施例的流程示意图。包括:
步骤S11:获取待检测信息,其中,待检测信息包括第一待检测信息以及第二待检测信息。
具体的,以核保为例,获取到投保人对应的特征,例如,根据投保人的身份信息,例如投保人的姓名、身份证号码等获取到投保人对应的特征,如获取到投保人及被保人的实时属性、投保人及被保人的历史属性、投保人及被保人历史投保行为数据、投保人及被保人的过往病史。以此作为判断核保结果的待检测信息,通过多种信息,使得核保检测结果更加全面。
待检测信息包括第一待检测信息以及第二待检测信息,具体的,在一实施例中,第一待检测信息为非数值型数据,第二待检测信息为数值型数据。例如,待检测信息包括投保人的姓名,年龄,籍贯,出生年月日等等,其中,姓名、籍贯对应的为非数值型数据,也即姓名、籍贯对应为第一待检测信息;年龄、出生年月对应的为数值型数据,也即年龄、出生年月对应为第二待检测信息。
步骤S12:基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量。
步骤S13:基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量。
在获取判断核保结果的待检测信息时,会获取到关于投保人或被保人的各种特征信息,包括数值型待检测信息,即第二待检测信息,例如投保人或被保人的身高、体重等,还会包括到非数值型待检测信息,即第一待检测信息,例如投保人或被保人的籍贯、职业等等。对此在进行算法模型训练时,为了使其能够被识别,需要将数值型待检测信息及非数值型待检测信息进行处理,使其为向量形式。具体的,本申请的具体实施过程中,需要对第一待检测信息即非数值型数据进行映射处理处理,以得到第一向量及第二向量;及对第二待检测信息即数值型数据进行归一化处理,以得到第三向量。
具体的,可以采用第一映射系数对第一待检测信息进行映射处理进而得到第一向量,采用第二映射系数对第一待检测信息进行映射处理进而得到第二向量。在一具体实施例中,第一映射系数与第二映射系数不同,以使得得到的第一向量与第二向量维度不同。
可选的,在一实施例中,在对第一待检测信息进行映射处理时,可以进一步采用不同的映射系数(即第一映射系数及第二映射系数)利用嵌入层对第一待检测信息进行映射处理,进而得到第一向量以及第二向量,第一向量与第二向量为不同维度的特征向量。
在本实施例中,用于判断核保结果的待检测信息转换为向量模式,可便于算法模型进行识别计算,降低了模型识别难度。并且采用映射的方式能够将高维、稀疏、互相正交的向量映射为低维、稠密、非正交的向量,其得到的第一向量在便于计算的同时,更符合逻辑上的意义。
在另一实施例中,采用归一化处理的方式对第二待检测信息(数值型数据)进行处理,以得到第三向量。例如,若待检测信息为例如投保人或被保人的身高、体重等等,则对每一数值型待检测信息进行归一化处理。
归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系。简化计算,缩小量值的有效办法。归一化值域范围在[0,1]之间,在经过归一化处理后,将值域缩放到[0,1]之间以形成第一向量。
对每一数值型待检测信息进行归一化处理,将值域缩放到[0,1]之间,便于模型计算。
步骤S14:对第二向量进行非线性训练,得到训练结果。
请结合图2,对第二向量进行非线性训练以得到训练结果还包括:
步骤S21:将多个第二向量进行拼接,得到第一向量组合。
将多个第二向量进行拼接,得到第一向量组合。具体的,若第二向量包括:A、B、C、D,则将多个第二向量进行拼接得到的第一向量组合为ABCD。
步骤S22:对第一向量组合进行非线性训练,得到训练结果。
具体的,待检测信息的数量不限,可以理解的,为了使得所得的数据处理结果更为准确,待检测信息数量若干,以此待检测信息所得的第二向量也为若干。
对第一向量组合进行非线性训练以得到训练结果。非数值型数据经过嵌入层映射后得到第一向量以及第二向量,其中,多个第二向量进行拼接,并进入非线性模型中,进行非线性训练。
具体的,利用非线性模块中的卷积层及池化层对第一向量组合进行非线性训练得到训练结果;通过卷积层及池化层对第一向量组合进行非线性训练,降低了参数量,并且有助于提高最后一层线性层(即第一多层感知机)的性能,同时,使用卷积层及池化层进行非先行训练能够应用于非图像领域的问题,并且提高了非线性特征提取模块的效率以及性能。
步骤S15:将所述训练结果与所述第三向量进行拼接,得到拼接结果,并对所述拼接结果进行第一线性训练,得到第一输出信息。
将训练结果与第三向量进行拼接以得到拼接结果,对拼接结果进行第一线性训练以得到第一输出信息还包括:
步骤S23:将训练结果、第一向量组合以及第三向量进行拼接,得到拼接结果。
具体的,在本申请的一实施例中,在对第一向量组合进行非线性训练之后,训练结果、第一向量组合以及第三向量进行拼接,得到拼接结果。具体的,在第一向量组合经过卷积层及池化层进行非线性训练后,得到多个高维的邻阶交互信息,通过将训练结果、第一向量组合以及第三向量进行拼接,以得到更多类型的高维特征组合。
步骤S24:对拼接结果进行信息交互处理,以得到交互后的拼接结果。
具体的,利用内积型神经网络(Inner Product-based Neural Network,IPNN)对拼接结果进行信息交互处理,进而得到交互后的拼接结果。以此能够将拼接结果的各个特征进行交互处理,使其成为更加相关的特征组合。
步骤S25:对拼接结果进行第一线性训练,得到第一输出信息。
具体的,利用第一多层感知机层MLP对拼接结果进行第一线性训练,以得到第一输出信息。具体的,利用第一多层感知机层对拼接结果进行第一线性训练,以将高维特征组合转化为一阶特征,以便于后续处理。
步骤S16:对所述第一向量及所述第三向量进行第二线性训练,得到第二输出信息。
对第一向量及第三向量进行第二线性训练以得到第二输出信息还包括:
步骤S31:将多个第一向量及多个第三向量进行拼接,得到第二向量组合。
具体的,非数值型数据以及数值型数据为多个,在线性模块中,将非数值型数据以及数值型数据所得的第一向量以及第三向量进行拼接,得到第二向量组合,以将所有特征进行组合。
步骤S32:对第二向量组合进行第二线性训练,得到第二输出信息。
具体的,利用第二多层感知机层MIP对第二向量组合进行第二线性训练训练以得到第二输出信息。
相较于现有的Wide&Deep模型、Deepfm模型,本申请中在非线性模块中利用卷积层及池化层进行部分特征的非线性训练,降低了参数数量,并且有助于提高第一多层感知机层的性能,提高了非线性模块的效率以及性能。且由于卷积层以及池化层多用于图像领域,因此,本申请利用卷积层以池化层进行非线性训练,能够扩展其在非图像领域的应用。
步骤S17:基于第一输出信息及第二输出信息,确定数据处理结果。
具体的,根据线性模块输出的第二输出信息以及非线性模块输出的第一输出信息得到数据处理结果。具体请参照图4,包括:
步骤S41:将第一输出信息及第二输出信息耦合,以得到第三输出信息。
具体的,在一实施例中,将第一输出信息及第二输出信息相加,进而得到第三输出信息。
步骤S42:根据第三输出信息得到数据处理结果。
具体的,请参见图5及图6,为步骤S42的一具体实施方式的流程示意图,包括:
步骤S51:采用逻辑斯蒂函数将第三输出信息进行映射,并输出映射结果。
在一具体实施例中,逻辑斯蒂函数为sigmoid函数,采用sigmoid函数将第三输出信息进行映射。Sigmoid函数是一个有着优美S形曲线的数学函数,在逻辑回归、人工神经网络中有着广泛的应用。sigmoid函数连续、光滑、严格单调,以(0,0.5)中心对称,是一个非常良好的阈值函数。当x趋近负无穷时,y趋近于0;当x趋近于正无穷时,y趋近于1,x=0时,y=0.5。当然,在x超出[-6,6]的范围后,函数值基本上没有变化,值非常接近。
在本实施例中,采用sigmoid函数将第三输出信息进行映射后,输出映射结果,根据映射结果判断核保结果。
步骤S52:判断映射结果,若映射结果大于预设阈值,则核保通过;若映射结果小于预设阈值,则核保不通过。
将所有的待检测信息的概率作为映射结果输出,在映射结果大于预设阈值时,则表示该待检测信息核保通过,在映射结果小于预设阈值时,则表示该待检测信息核保不通过。
在一具体实施方式中,通过sigmoid函数将第三输出信息进行映射后,映射结果大于预设值的待检测信息核保通过,映射结果小于预设值的待检测信息核保通过。
上述实施例中,可将预设值设置为0.5,在一具体实施方式中,通过sigmoid函数将第三输出信息进行映射后,映射结果大于0.5的待检测信息核保通过,映射结果小于0.5的待检测信息核保通过。
本实施例使用算法模型,通过函数进行映射,将传统的离散化的核保结果转变为连续性的概率值的核保结果。可人为设定各结果的阈值,灵活性更高。
本申请提供的数据处理方法,将线性训练与非线性训练结合,一方面能够代替人工审核,解决人工审核中的缺点,相较于人工审核,本申请提供的方法不需要人工介入,人力成本低,效率高,考虑全面,判断客观,结果稳定。另一方面能够代替策略引擎,不需要枚举出所有可能出现的情况,也无需担心业务更新所带来的困扰,且本申请提供的方法在模型训练时只需要很短的时间。再一方面,传统的人工或策略引擎得出的结果就只是标保、拒保、加费,等等,是一个离散化的结果,无法体现各个结果的程度。使用本申请提供的方法可以把传统的离散化的数据处理结果转变为连续性的数据处理结果,即得出标保、拒保、加费,等等的概率值。可人为设定各结果的阈值,具有灵活性。
本申请提供的数据处理方法,采用卷积层进行非线性训练,以提取特征之间的交互信息,能够解决Wide&Deep网络中,非线性部分DNN网络容易导致过拟合,网络结构不能很深,影响对高阶特征的信息提取的问题。能够解决Deepfm模型中非线性部分的特征表达能力不足的问题。
本申请提供的数据处理方法,其通过卷积层进行非线性训练,提高了非线性提取模块的效率以及性能,并且其在非线性模块中,将多种高阶信息进行组合并交互,提高了高阶特征的提取能力,提高数据处理过程的效率及数据处理结果的准确性。具体的,其通过对拼接结果进行非线性训练,并将训练结果以及第三向量进行拼接并进行线性训练,提高高阶特征的提取能力,进而提高数据处理过程的效率及数据处理结果的准确性。
请参见图6及图7,图6为本申请数据处理装置的一实施例的结构示意图,图7为本申请数据处理装置的数据传输流程示意图。
具体的,如图6所示,数据处理装置包括获取模块61、处理模块62、训练模块63以及输出模块64。
其中,获取模块61用于获取待检测信息,以核保过程为例,例如,根据投保人的身份信息,例如投保人的姓名、身份证号码等获取到投保人对应的特征,如获取到投保人及被保人的实时属性、投保人及被保人的历史属性、投保人及被保人历史投保行为数据、投保人及被保人的过往病史。
具体的,待检测信息包括第一待检测信息以及第二待检测信息,在一具体实施例中,第一待检测信息为非数值型数据,例如,投保人或被保人的身高、体重等。第二待检测信息为数值型数据,例如,投保人或被保人的籍贯、职业等等。
获取投保人的多种类型数据作为判断数据处理结果的待检测信息,通过多种信息,使得数据处理检测结果更加全面。
其中,处理模块62用于基于第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量;基于二待检测信息,确定每一第二待检测信息对应的第三向量;具体的,处理模块62用于对非数值型数据进行映射处理,进而得到第一向量及第二向量。具体的,可以利用嵌入层采用第一映射系数对第一待检测信息(即非数值型数据)进行映射处理进而得到第一向量,采用第二映射系数对第一待检测信息(即非数值型数据)进行映射处理进而得到第二向量。在一具体实施例中,第一映射系数与第二映射系数不同,以使得得到的第一向量与第二向量维度不同。处理模块62用于对数值型数据进行归一化处理,进而得到第三向量。具体的,归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系。简化计算,缩小量值的有效办法。归一化值域范围在[0,1]之间,在经过归一化处理后,将值域缩放到[0,1]之间以形成第一向量。对每一数值型待检测信息进行归一化处理,将值域缩放到[0,1]之间,便于模型计算。
进一步地,处理模块62还可以将得到的多个第一向量与多个第三向量进行拼接,以得到第二向量组合,将得到的多个第二向量进行拼接,以得到第一向量组合。
训练模块63用于对第二向量进行非线性训练,得到训练结果,将训练结果与所述第三向量进行拼接以得到拼接结果,对拼接结果进行第一线性训练以得到第一输出信息;对第一向量及所述第三向量进行第二线性训练以得到第二输出信息。具体的,训练模块63用于对第一向量组合进行非线性训练以得到训练结果。非数值型数据经过嵌入层映射后得到第一向量以及第二向量,其中,多个第二向量进行拼接,并进入非线性模型中,进行非线性训练。
具体的,利用非线性模块中的卷积层及池化层对第一向量组合进行非线性训练得到训练结果;通过卷积层及池化层对第一向量组合进行非线性训练,降低了参数量,并且有助于提高最后一层线性层(即第一多层感知机)的性能,同时,使用卷积层及池化层进行非先行训练能够应用于非图像领域的问题,并且提高了非线性特征提取模块的效率以及性能。
在一实施例中,训练模块63还用于利用内积型神经网络(Inner Product-basedNeural Network,IPNN)对拼接结果进行信息交互处理,进而得到交互后的拼接结果。以此能够将拼接结果的各个特征进行交互处理,使其成为更加相关的特征组合。
具体的,利用第一多层感知机层MLP对拼接结果进行第一线性训练,以得到第一输出信息。具体的,利用第一多层感知机层对拼接结果进行第一线性训练,以将高维特征组合转化为一阶特征,以便于后续处理。
具体的,训练模块63还用于利用第二多层感知机层MIP对第二向量组合进行第二线性训练训练以得到第二输出信息。
相较于现有的Wide&Deep模型、Deepfm模型,本申请中在非线性模块中利用卷积层及池化层进行部分特征的非线性训练,降低了参数数量,并且有助于提高第一多层感知机层的性能,提高了非线性模块的效率以及性能。且由于卷积层以及池化层多用于图像领域,因此,本申请利用卷积层以池化层进行非线性训练,能够扩展其在非图像领域的应用。
其中,输出模块64用于基于第一输出信息及第二输出信息,确定数据处理结果。具体的,输出模块64用于将第一输出信息及第二输出信息耦合,以得到第三输出信息,根据第三输出信息得到数据处理结果。
在一实施例中,输出模块64用于将第一输出信息及第二输出信息相加,进而得到第三输出信息,采用逻辑斯蒂函数将第三输出信息进行映射,并输出映射结果。
在一具体实施例中,逻辑斯蒂函数为sigmoid函数,采用sigmoid函数将第三输出信息进行映射。Sigmoid函数是一个有着优美S形曲线的数学函数,在逻辑回归、人工神经网络中有着广泛的应用。sigmoid函数连续、光滑、严格单调,以(0,0.5)中心对称,是一个非常良好的阈值函数。当x趋近负无穷时,y趋近于0;当x趋近于正无穷时,y趋近于1,x=0时,y=0.5。当然,在x超出[-6,6]的范围后,函数值基本上没有变化,值非常接近。
在本实施例中,采用sigmoid函数将第三输出信息进行映射后,输出映射结果,根据映射结果判断核保结果。
判断映射结果,若映射结果大于预设阈值,则核保通过;若映射结果小于预设阈值,则核保不通过。
将所有的待检测信息的概率作为映射结果输出,在映射结果大于预设阈值时,则表示该待检测信息核保通过,在映射结果小于预设阈值时,则表示该待检测信息核保不通过。
在一具体实施方式中,通过sigmoid函数将第三输出信息进行映射后,映射结果大于预设值的待检测信息核保通过,映射结果小于预设值的待检测信息核保通过。
上述实施例中,可将预设值设置为0.5,在一具体实施方式中,通过sigmoid函数将第三输出信息进行映射后,映射结果大于0.5的待检测信息核保通过,映射结果小于0.5的待检测信息核保通过。
本实施例使用算法模型,通过函数进行映射,将传统的离散化的数据处理结果转变为连续性的概率值的数据处理结果。可人为设定各结果的阈值,灵活性更高。
本申请提供的数据处理装置,将线性训练与非线性训练结合,一方面能够代替人工审核,解决人工审核中的缺点,相较于人工审核,本申请提供的方法不需要人工介入,人力成本低,效率高,考虑全面,判断客观,结果稳定。另一方面能够代替策略引擎,不需要枚举出所有可能出现的情况,也无需担心业务更新所带来的困扰,且本申请提供的方法在模型训练时只需要很短的时间。再一方面,传统的人工或策略引擎得出的结果就只是标保、拒保、加费,等等,是一个离散化的结果,无法体现各个结果的程度。使用本申请提供的方法可以把传统的离散化的数据处理结果转变为连续性的数据处理结果,即得出标保、拒保、加费,等等的概率值。可人为设定各结果的阈值,具有灵活性。
本申请提供的数据处理装置,采用卷积层进行非线性训练,以提取特征之间的交互信息,能够解决Wide&Deep网络中,非线性部分DNN网络容易导致过拟合,网络结构不能很深,影响对高阶特征的信息提取的问题。能够解决Deepfm模型中非线性部分的特征表达能力不足的问题。
本申请提供的数据处理装置,其通过卷积层进行非线性训练,提高了非线性提取模块的效率以及性能,并且其在非线性模块中,将多种高阶信息进行组合并交互,提高了高阶特征的提取能力,提高数据处理过程的效率及数据处理结果的准确性。具体的,其通过对拼接结果进行非线性训练,并将训练结果以及第三向量进行拼接并进行线性训练,提高高阶特征的提取能力,进而提高数据处理过程的效率及数据处理结果的准确性。
请参见图8,为本申请智能设备的一实施例的结构示意图。智能设备包括相互连接的存储器71和处理器72。
存储器71用于存储实现上述任意一项的数据处理方法的程序指令。
处理器72用于执行存储器71存储的程序指令。
其中,处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。处理器72还可以是GPU(GraphicsProcessing Unit,图形处理器),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。GPU的用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器71可以为内存条、TF卡等,可以存储智能设备中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器71中。它根据控制器指定的位置存入和取出信息。有了存储器71,智能设备才有记忆功能,才能保证正常工作。数据处理装置中的存储器71按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图9,为本申请计算机可读存储介质的结构示意图。本申请的计算机可读存储介质存储有能够实现上述所有数据处理方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储设备包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等智能终端设备。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (16)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待检测信息,其中,所述待检测信息包括第一待检测信息以及第二待检测信息;
基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量;
基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量;
对所述第二向量进行非线性训练,得到训练结果;
将所述训练结果与所述第三向量进行拼接,得到拼接结果,并对所述拼接结果进行第一线性训练,得到第一输出信息;
对所述第一向量及所述第三向量进行第二线性训练,得到第二输出信息;
基于所述第一输出信息及所述第二输出信息,确定数据处理结果。
2.根据权利要求1所述的方法,其特征在于,所述第一待检测信息及所述第二待检测信息至少为两个;
所述对所述第二向量进行非线性训练,得到训练结果包括:
将多个所述第二向量进行拼接,得到第一向量组合;
对所述第一向量组合进行非线性训练,得到所述训练结果;
所述将所述训练结果与所述第三向量进行拼接,得到拼接结果,并对所述拼接结果进行第一线性训练,得到第一输出信息包括:
将所述训练结果、所述第一向量组合以及所述第三向量进行拼接,得到所述拼接结果;
对所述拼接结果进行第一线性训练,得到所述第一输出信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述拼接结果进行第一线性训练,得到所述第一输出信息之前还包括:
对所述拼接结果进行信息交互处理,得到交互后的所述拼接结果。
4.根据权利要求3所述的方法,其特征在于,所述对所述拼接结果进行信息交互处理,得到交互后的所述拼接结果包括:
采用内积型神经网络对所述拼接结果进行信息交互处理,得到交互后的所述拼接结果。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一向量组合进行非线性训练,得到所述训练结果包括:
利用卷积层及池化层对所述第一向量组合进行非线性训练,得到所述训练结果;
对所述拼接结果进行第一线性训练,得到所述第一输出信息包括:
利用第一多层感知机层对所述拼接结果进行第一线性训练,得到所述第一输出信息。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一向量及所述第三向量进行第二线性训练,得到第二输出信息包括:
将多个所述第一向量及多个所述第三向量进行拼接,得到第二向量组合;
对所述第二向量组合进行第二线性训练,得到所述第二输出信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述第二向量组合进行第二线性训练,得到所述第二输出信息包括:
利用第二多层感知机层对所述第二向量组合进行第二线性训练训练,得到所述第二输出信息。
8.根据权利要求1所述的方法,其特征在于,所述第一待检测信息为非数值型信息,所述第二待检测信息为数值型信息。
9.根据权利要求1所述的方法,其特征在于,所述基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量包括:
采用第一映射系数,利用嵌入层对所述第一待检测信息进行映射处理,得到所述第一向量;
采用第二映射系数,利用嵌入层对所述第一待检测信息进行映射处理,得到所述第二向量;
所述基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量包括:
对所述第二待检测信息进行归一化处理,以得到所述第三向量。
10.根据权利要求1所述的方法,其特征在于,所述基于所述第一输出信息及所述第二输出信息,确定数据处理结果包括:
将所述第一输出信息及所述第二输出信息耦合,得到第三输出信息;
根据所述第三输出信息得到所述数据处理结果。
11.根据权利要求10所述的方法,其特征在于,所述数据处理方法为核保方法;
所述根据所述第三输出信息得到所述数据处理结果包括:
采用逻辑斯蒂函数将所述第三输出信息进行映射,并输出映射结果;
判断所述映射结果,若所述映射结果大于预设阈值,则核保通过;若所述映射结果小于所述预设阈值,则核保不通过。
12.根据权利要求11所述的方法,其特征在于,所述逻辑斯蒂函数为sigmoid函数。
13.根据权利要求11所述的方法,其特征在于,所述待检测信息包括:投保人及被保人的实时属性、投保人及被保人的历史属性、投保人及被保人历史投保行为数据、投保人及被保人的过往病史中一种或任意组合。
14.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待检测信息,其中,所述待检测信息包括第一待检测信息以及第二待检测信息;
处理模块,用于基于所述第一待检测信息,确定每一所述第一待检测信息对应的第一向量及第二向量;基于所述第二待检测信息,确定每一所述第二待检测信息对应的第三向量;
训练模块,用于对所述第二向量进行非线性训练,得到训练结果;将所述训练结果与所述第三向量进行拼接,得到拼接结果,并对所述拼接结果进行第一线性训练,得到第一输出信息;对所述第一向量及所述第三向量进行第二线性训练,得到第二输出信息;
输出模块,用于基于所述第一输出信息及所述第二输出信息,确定数据处理结果。
15.一种智能设备,其特征在于,包括存储器及处理器;其中,所述存储器存储有程序文件,所述处理器从所述存储器调取所述程序文件以执行如权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,存储有程序文件,所述程序文件能够被执行以实现如权利要求1-13任一项所述的方法。
CN202110995285.7A 2021-08-27 2021-08-27 一种数据处理方法、装置、智能设备以及存储介质 Withdrawn CN113706318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110995285.7A CN113706318A (zh) 2021-08-27 2021-08-27 一种数据处理方法、装置、智能设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110995285.7A CN113706318A (zh) 2021-08-27 2021-08-27 一种数据处理方法、装置、智能设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113706318A true CN113706318A (zh) 2021-11-26

Family

ID=78655965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110995285.7A Withdrawn CN113706318A (zh) 2021-08-27 2021-08-27 一种数据处理方法、装置、智能设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113706318A (zh)

Similar Documents

Publication Publication Date Title
WO2020119051A1 (zh) 云平台资源使用预测方法及终端设备
CN108509484B (zh) 分类器构建及智能问答方法、装置、终端及可读存储介质
CN113159147A (zh) 基于神经网络的图像识别方法、装置、电子设备
CN109101946B (zh) 一种图像特征的提取方法、终端设备及存储介质
WO2023272852A1 (zh) 通过决策树模型对用户进行分类的方法、装置、设备和存储介质
CN113705462B (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
WO2024022354A1 (zh) 结合rpa及ai实现ia的对象推荐方法、装置及存储介质
WO2020192307A1 (zh) 基于深度学习的答案抽取方法、装置、计算机设备和存储介质
CN110610431A (zh) 基于大数据的智能理赔方法及智能理赔系统
WO2021218023A1 (zh) 多轮问答的情绪确定方法、装置、计算机设备及存储介质
CN113449046A (zh) 基于企业知识图谱的模型训练方法、系统及相关装置
CN111461896A (zh) 一种获取核保结果的方法及相关装置
CN111461897A (zh) 一种获取核保结果的方法及相关装置
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN113850077A (zh) 基于人工智能的话题识别方法、装置、服务器及介质
CN113221762A (zh) 代价平衡决策方法、保险理赔决策方法、装置和设备
CN113052236A (zh) 一种基于NASNet的肺炎图像分类方法
CN117036947A (zh) 基于图像识别的农险出险预警方法、装置、设备及介质
CN113706318A (zh) 一种数据处理方法、装置、智能设备以及存储介质
US20230021551A1 (en) Using training images and scaled training images to train an image segmentation model
CN116863116A (zh) 基于人工智能的图像识别方法、装置、设备及介质
CN111461898A (zh) 一种获取核保结果的方法及相关装置
WO2020172767A1 (zh) 电子签购单识别方法、装置及终端设备
CN116258579B (zh) 用户信用评分模型的训练方法及用户信用评分方法
CN116911268B (zh) 一种表格信息处理方法、装置、处理设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211126