CN111444159A - 精算数据处理方法、装置、电子设备及存储介质 - Google Patents

精算数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111444159A
CN111444159A CN202010139357.3A CN202010139357A CN111444159A CN 111444159 A CN111444159 A CN 111444159A CN 202010139357 A CN202010139357 A CN 202010139357A CN 111444159 A CN111444159 A CN 111444159A
Authority
CN
China
Prior art keywords
data
algorithm
configuration set
configuration
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010139357.3A
Other languages
English (en)
Other versions
CN111444159B (zh
Inventor
王海平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010139357.3A priority Critical patent/CN111444159B/zh
Publication of CN111444159A publication Critical patent/CN111444159A/zh
Application granted granted Critical
Publication of CN111444159B publication Critical patent/CN111444159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种精算数据处理方法、装置、电子设备及存储介质。该方法获取原始配置集,并对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集,达到通过分类识别处理对数据进行有针对性的计算的目的,进一步将所述算法配置集和所述非算法配置集转化为字符串数据集,并解析所述字符串数据集,得到算法规则集和配置信息集,以支持多种编程语言,将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集,并利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。本发明结合算法引擎实现了对数据的高效处理。

Description

精算数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种精算数据处理方法、装置、电子设备及存储介质。
背景技术
目前,各企业大多采用FIS Prophet精算软件执行精算。但是,所述FIS Prophet精算软件没有事先对需要处理的数据进行识别预处理,因此不能有效地区分出算法配置集,则无法进行针对性处理,另外,所述FIS Prophet精算软件也没有选择合适的算法引擎进行计算,导致计算成本较高,所述FIS Prophet精算软件的处理性能也存在一定瓶颈,遇到海量的数据就需要分批处理,耗费时间较长。
发明内容
鉴于以上内容,有必要提供一种精算数据处理方法、装置、电子设备及存储介质,能够通过分类识别处理对数据进行有针对性的计算,且处理速度更快。
一种精算数据处理方法,所述方法包括:
获取原始配置集;
对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集;
将所述算法配置集和所述非算法配置集转化为字符串数据集;
解析所述字符串数据集,得到算法规则集和配置信息集;
将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集;
利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
根据本发明优选实施例,所述对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集包括:
构建数据分析函数;
基于特征选择算法对所述原始配置集进行特征提取;
利用提取的特征对所述原始配置集中的数据进行分类,得到候选类别;
利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到所述算法配置集和所述非算法配置集。
根据本发明优选实施例,所述构建数据分析函数包括:
采用下述公式构建所述数据分析函数:
Figure BDA0002398505710000021
其中,R表示所述数据分析函数,D表示文件内容,L表示类别,
Figure BDA0002398505710000022
表示在所述原始配置集中含有配置类别属性Lj的所有特征组成的集合,WT表示在所述原始配置集中文件名中的特征词的集合,RT(*)表示应用数据分析方法,RB(*)表示传统BOW文件内容表示方法。
根据本发明优选实施例,所述将所述算法配置集和所述非算法配置集转化为字符串数据集包括:
采用无组件多文件上传算法将所述算法配置集和所述非算法配置集转化为字符串数据集。
根据本发明优选实施例,所述解析所述字符串数据集,得到算法规则集和配置信息集包括:
计算所述字符串数据集中的数据与指定数据集中数据的相似度;
根据计算的相似度将所述字符串数据集转换为所述算法规则集和所述配置信息集。
根据本发明优选实施例,所述计算所述字符串数据集中的数据与指定数据集中数据的相似度包括:
计算所述字符串数据集中的数据与所述指定数据集中数据的编辑距离;
对计算的编辑距离进行归一化处理,得到所述字符串数据集中的数据与指定数据集中数据的相似度。
根据本发明优选实施例,所述利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果包括:
当执行高速模型计算时,采用jexl算法引擎计算所述映射算法配置集中的数据,得到数据处理结果;及/或
当执行大数据模型计算时,采用spark算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
一种精算数据处理装置,所述装置包括:
获取单元,用于获取原始配置集;
处理单元,用于对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集;
转化单元,用于将所述算法配置集和所述非算法配置集转化为字符串数据集;
解析单元,用于解析所述字符串数据集,得到算法规则集和配置信息集;
映射单元,用于将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集;
所述处理单元,还用于利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
根据本发明优选实施例,所述处理单元对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集包括:
构建数据分析函数;
基于特征选择算法对所述原始配置集进行特征提取;
利用提取的特征对所述原始配置集中的数据进行分类,得到候选类别;
利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到所述算法配置集和所述非算法配置集。
根据本发明优选实施例,所述处理单元构建数据分析函数包括:
采用下述公式构建所述数据分析函数:
Figure BDA0002398505710000041
其中,R表示所述数据分析函数,T表示分类器函数,D表示文件内容,L表示类别,
Figure BDA0002398505710000042
表示在所述原始配置集中含有配置类别属性Lj的所有特征组成的集合,WT表示在所述原始配置集中文件名中的特征词的集合,RT(D)表示应用数据分析方法,RB(D)表示传统BOW文件内容表示方法。
根据本发明优选实施例,所述转化单元具体用于:
采用无组件多文件上传算法将所述算法配置集和所述非算法配置集转化为字符串数据集。
根据本发明优选实施例,所述解析单元解析所述字符串数据集,得到算法规则集和配置信息集包括:
计算所述字符串数据集中的数据与指定数据集中数据的相似度;
根据计算的相似度将所述字符串数据集转换为所述算法规则集和所述配置信息集。
根据本发明优选实施例,所述解析单元计算所述字符串数据集中的数据与指定数据集中数据的相似度包括:
计算所述字符串数据集中的数据与所述指定数据集中数据的编辑距离;
对计算的编辑距离进行归一化处理,得到所述字符串数据集中的数据与指定数据集中数据的相似度。
根据本发明优选实施例,所述处理单元利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果包括:
当执行高速模型计算时,采用jexl算法引擎计算所述映射算法配置集中的数据,得到数据处理结果;及/或
当执行大数据模型计算时,采用spark算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现所述精算数据处理方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述精算数据处理方法。
由以上技术方案可以看出,本发明能够获取原始配置集,并对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集,进而通过分类识别处理对数据进行有针对性的计算,进一步将所述算法配置集和所述非算法配置集转化为字符串数据集,并解析所述字符串数据集,得到算法规则集和配置信息集,以支持多种编程语言,将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集,并利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果,结合算法引擎实现对数据的高效处理。
附图说明
图1是本发明精算数据处理方法的较佳实施例的流程图。
图2是本发明精算数据处理装置的较佳实施例的功能模块图。
图3是本发明实现精算数据处理方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明精算数据处理方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述精算数据处理方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,获取原始配置集。
所述配置集是指进行某些操作所必须的某些参数的集合。在本发明的至少一个实施例中,所述原始配置集中的数据主要包括,但不限于:用户通过web页面的按钮或表单上传等方式进行算法配置以及产品配置、假设配置、模型配置等非算法配置操作时产生的数据。
S11,对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集。
在本发明的至少一个实施例中,所述对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集包括:
构建数据分析函数,并基于特征选择算法对所述原始配置集进行特征提取,利用提取的特征对所述原始配置集中的数据进行分类,得到候选类别,进一步利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到其中的算法配置集和非算法配置集。
在本发明的至少一个实施例中,当根据某种配置文件的文件名无法判定类别时,用BOW(Back Orifice 2K Workspace)分类模型通过内容对该某种配置文件进行分类。所述BOW分类模型可以用一个四元组M=<D,C,R,T>来表示,其中D表示文件内容,C表示类别,R表示数据分析函数,T表示分类器函数。用函数映射关系可以表示为(T·R):D→C。
具体地,所述构建的数据分析函数为:
Figure BDA0002398505710000071
其中,R表示所述数据分析函数,D表示文件内容,
Figure BDA0002398505710000072
表示在所述原始配置集中含有配置类别属性Lj的所有特征组成的集合,WT表示在所述原始配置集中文件名中的特征词的集合,RT(*)表示应用数据分析方法,RB(*)表示BOW文件内容表示方法。
本发明实施例利用所述分类器函数T在所有配置类别范围内执行分类操作,并存储到对应的数据表中,得到所述算法配置集和所述非算法配置集。
具体地,所述分类器函数采用TCSR分类算法,通过识别所述原始配置集中的数据特征,并利用所述数据特征所属的语义类信息预测所述原始配置集的主题类别,进一步地,根据所述对预测的主题类别进行类别确认。
详细地,所述TCSR分类算法包括:
首先,对所述原始配置集进行特征提取;
具体地,本发明实施例采用基于类别信息的特征选择算法(ConstructiveApproachFeatureSelection,CAFS)的特征评分函数执行所述特征提取。所述特征评分函数可形式化表示为一个映射:Fs:t→SH,其中t为特征空间,SH为特征值集合,Fs为所述特征评分函数。Fs函数一般从分散度和集中度两个方面对特征进行评估,所述分散度描述了数据特征在某类内部的分布情况,所述集中度则描述特征在不同类别之间的差异性。
本发明实施例引入特征类别贡献函数
Figure BDA0002398505710000081
及方差机制来衡量特征的重要程度,并根据重要程度选择特征。其中,特征类别贡献函数
Figure BDA0002398505710000082
(设特征为Wi∈T,i=1,…,n,类别为j,j=1,…,m)的定义如下:
Figure BDA0002398505710000083
其中,
Figure BDA0002398505710000084
用于衡量特征对类别的重要性;
进一步地,fWij=Tij/Pj
其中,Tij是Wi在所述原始配置集Cj中出现的频数,Pj是所述原始配置集Cj中某个数据出现的总次数;
进一步地,dWij=dij/Dj
dij是所述原始配置集Cj中出现Wi的文件数,Dj是所述原始配置集Cj中的文件个数。
进一步地,在上述公式的基础上,所述特征评分函数Imp(wi)定义如下:
Figure BDA0002398505710000085
Imp(wi)通过计算
Figure BDA0002398505710000086
的方差来评价Wi的重要性,Imp(wi)越大,表明Wi在不同类之间的贡献差异性越大,就更容易获取所述原始配置集的数据特征。式中:
Figure BDA0002398505710000087
进一步地,本发明实施例利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到所述算法配置集和所述非算法配置集。由于所述分类器函数T只在所述候选类别的范围内执行分类即可,因此效率较高。
通过上述分类处理,有利于对数据进行有针对性的运算。
S12,将所述算法配置集和所述非算法配置集转化为字符串数据集。
可以理解的是,所述算法配置集和非算法配置集来源于所述用户提交的原始配置集,在经过前面的处理后并没有对数据做出改变,只是单单的分出类别。所述用户提交的原始配置集一般是用户提交的文件信息,在进行计算之前需要将所述文件转化为字符串形式,以便于让其他系统获取其中的数据。
在本发明的至少一个实施例采用无组件多文件上传算法将所述算法配置集和所述非算法配置集转化为字符串数据集。
具体地,所述无组件多文件上传算法采用对象模型分析,包括构成系统的类、对象以及相互关系,主要由以下几个核心类组成:UploadApplet,ReciveServlet,FolderInfoEJB,FileInfoEJB。
其中,所述UploadApplet负责多文件的选取、压缩和传送,通过在UploadApplet里面调用JFileChooser类,能够实现客户端基于web的多文件选择,通过调用ZipOutputStream类,将所述算法配置集和非算法配置集的多文件在本地形成压缩流,同时通过服务器端的ReciveServlet建立Socket连接,并利用所述Socket传送上述压缩文件流。
所述ReciveServlet是服务器端接收所述UploadApplet通过所述Socket传送来的压缩文件流,并进行解压和记录数据库的Sevlet程序,所述ReciveServlet将所述UploadApplet发送的所述压缩文件流保存在一个临时的压缩文件中,待所述压缩文件流全部传送完毕后,利用ZipInputStream类将压缩文件解压到相应的目录,并调用所述FolderInfoEJB和所述FileInfoEJB将文件结构信息记录到数据库。
所述FolderInfoEJB和所述FileInfoEJB分别是对数据库进行逻辑操作的EJB(Enterprise JavaBean,企业级JavaBean),把存放在数据类FolderPath和FilePath中的数据写入数据库。ReciveServlet调用这两个EJB,完成记录路径及将所述文件信息存储到数据库的操作,从而实现数据上传,并同时得到所述字符串数据集。
通过上述实施方式,能够将所述算法配置集和所述非算法配置集转化为机器可读取的数据格式。
S13,解析所述字符串数据集,得到算法规则集和配置信息集。
在本发明的至少一个实施例中,所述解析所述字符串数据集,得到算法规则集和配置信息集包括:
计算所述字符串数据集中的数据与指定数据集中数据的相似度,并根据计算的相似度将所述字符串数据集转换为所述算法规则集和所述配置信息集。
具体地,所述计算所述字符串数据集中的数据与指定数据集中数据的相似度包括:
计算所述字符串数据集中的数据与所述指定数据集中数据的编辑距离,并对计算的编辑距离进行归一化处理,得到所述字符串数据集中的数据与指定数据集中数据的相似度。
具体地,本发明实施例根据所述字符串数据集与指定数据集中数据的相似度,判断所述字符串数据集与指定数据集是否属于同一个实体,即进行文法和语法的分析,判断为何种语言。
所述编辑距离是计算两条给定的字符串数据集之间距离的度量,根据所述编辑距离,采用删除、插入和替换三种基本操作来把一条字符串转换为另一条字符串,用最少的操作次数来判断两条字符串数据集之间的距离。距离越小表示两个字符串数据集越相似。
具体地,以d(s1,s2)来表示字符串数据集s1和s2之间的编辑距离,显然d(s1,s2)≤max(|s1|,|s2|)。所述编辑距离采用动态规划来计算,其递推公式如下:
Figure BDA0002398505710000101
其中
Figure BDA0002398505710000111
s1[i]表示字符串数据集s的第i个字符,而且d[i,j]=i+j,i×j=0。再对计算的编辑距离进行归一化处理,得到字符串间的编辑距离相似度dsim(s1,s2),具体计算方式可以如下:
Figure BDA0002398505710000112
显然,dsim(s1,s2)∈[0,1]。
通过上述实施方式,能够实现对多种语言的匹配,进而使本发明能够支持多种语言。
S14,将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集。
在本发明的至少一个实施例中,所述映射算法配置集能够利用关系数据库的字段来保存对象属性,一张数据库表可以保存同类的多个对象的属性的多个属性值。
例如:在一个医疗管理信息系统中,要对病人病史数据进行分类输入,这种数据具有明显的层次化特征,如肝炎,可选择“有”或“无”,若选择“无”,就不需要进一步输入信息,如选择“有”,则需要进一步选择是否有肿块;若无肿块,则不需要进一步输入信息,若有肿块,则需要继续输入肿块数量、大小、位置等信息。
S15,利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
本发明的至少一个实施例利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果包括,但不限于以下一种或者多种方式的组合:
(1)当执行高速模型计算时,所述电子设备采用jexl算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
其中,所述jexl算法引擎是一个Expression Language的算法引擎。计算所述映射算法配置集中的数据数据时,jexl合并JexlExpression与JexlContext,再使用JexlEngin#createExpression()创建表达式,传递包含有效jexl语法的所述映射算法配置集的String字符串,通过构造函数选择内部包提供的变量映射,并在属性innerXX上调用bar()函数处理所述映射算法配置集的String字符,将数据处理结果封装,构成模型结构,并保存到数据库中。
(2)当执行大数据模型计算时,本发明实施例采用spark算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
其中,所述spark算法引擎是一种基于内存计算的分布式集群计算框架,所述spark算法引擎首先将所述映射算法配置集的数据存储在HDFS系统(Hadoop DistributedFile System,Hadoop分布式文件系统)中,由SparkContext对象通过TextFile方法将所述映射算法配置集数据转化为以Partition形式存储,并加载到内存中,然后调用filter并利用传入规则,将无效数据滤除,再获取U模板,通过一系列转换操作进行处理,根据自定义的类型将所述映射算法配置集转化为文件封装类,每个Partition中包含若干个封装类单元,进而构成模型结果,并保存到数据库中。
可以理解的是,在执行高速模型计算时采用jexl算法引擎,在执行大数据模型计算时采用spark算法引擎。jexl在使用过程中速度快、成本低,但不适用于大数据的计算;spark的运行成本较高,但是它能够快速地计算大数据。所以,根据传过来的数据量分配适当的算法引擎,在较低的成本下,能够更快的计算数据。
由以上技术方案可以看出,本发明能够获取原始配置集,并对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集,进而通过分类识别处理对数据进行有针对性的计算,进一步将所述算法配置集和所述非算法配置集转化为字符串数据集,并解析所述字符串数据集,得到算法规则集和配置信息集,以支持多种编程语言,将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集,并利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果,结合算法引擎实现对数据的高效处理。
如图2所示,是本发明精算数据处理装置的较佳实施例的功能模块图。所述精算数据处理装置11包括获取单元110、处理单元111、转化单元112、解析单元113、映射单元114。本发明所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
获取单元110获取原始配置集。
所述配置集是指进行某些操作所必须的某些参数的集合。在本发明的至少一个实施例中,所述原始配置集中的数据主要包括,但不限于:用户通过web页面的按钮或表单上传等方式进行算法配置以及产品配置、假设配置、模型配置等非算法配置操作时产生的数据。
处理单元111对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集。
在本发明的至少一个实施例中,所述处理单元111对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集包括:
所述处理单元111构建数据分析函数,并基于特征选择算法对所述原始配置集进行特征提取,所述处理单元111利用提取的特征对所述原始配置集中的数据进行分类,得到候选类别,进一步利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到其中的算法配置集和非算法配置集。
在本发明的至少一个实施例中,当根据某种配置文件的文件名无法判定类别时,用BOW(Back Orifice 2K Workspace)分类模型通过内容对该某种配置文件进行分类。所述BOW分类模型可以用一个四元组M=<D,C,R,T>来表示,其中D表示文件内容,C表示类别,R表示数据分析函数,T表示分类器函数。用函数映射关系可以表示为(T·R):D→C。
具体地,所述处理单元111构建的数据分析函数为:
Figure BDA0002398505710000141
其中,R表示所述数据分析函数,D表示文件内容,
Figure BDA0002398505710000142
表示在所述原始配置集中含有配置类别属性Lj的所有特征组成的集合,WT表示在所述原始配置集中文件名中的特征词的集合,RT(*)表示应用数据分析方法,RB(*)表示BOW文件内容表示方法。
本发明实施例利用所述分类器函数T在所有配置类别范围内执行分类操作,并存储到对应的数据表中,得到所述算法配置集和所述非算法配置集。
具体地,所述分类器函数采用TCSR分类算法,通过识别所述原始配置集中的数据特征,并利用所述数据特征所属的语义类信息预测所述原始配置集的主题类别,进一步地,根据所述对预测的主题类别进行类别确认。
详细地,所述TCSR分类算法包括:
首先,所述处理单元111对所述原始配置集进行特征提取;
具体地,本发明实施例采用基于类别信息的特征选择算法(ConstructiveApproachFeatureSelection,CAFS)的特征评分函数执行所述特征提取。所述特征评分函数可形式化表示为一个映射:Fs:t→SH,其中t为特征空间,SH为特征值集合,Fs为所述特征评分函数。Fs函数一般从分散度和集中度两个方面对特征进行评估,所述分散度描述了数据特征在某类内部的分布情况,所述集中度则描述特征在不同类别之间的差异性。
本发明实施例引入特征类别贡献函数
Figure BDA0002398505710000143
及方差机制来衡量特征的重要程度,并根据重要程度选择特征。其中,特征类别贡献函数
Figure BDA0002398505710000144
(设特征为Wi∈T,i=1,…,n,类别为j,j=1,…,m)的定义如下:
Figure BDA0002398505710000145
其中,
Figure BDA0002398505710000146
用于衡量特征对类别的重要性;
进一步地,fWij=Tij/Pj,其中,Tij是Wi在所述原始配置集Cj中出现的频数,Pj是所述原始配置集Cj中某个数据出现的总次数;
进一步地,dWij=dij/Dj
dij是所述原始配置集Cj中出现Wi的文件数,Dj是所述原始配置集Cj中的文件个数。
进一步地,在上述公式的基础上,所述特征评分函数Imp(wi)定义如下:
Figure BDA0002398505710000151
Imp(wi)通过计算
Figure BDA0002398505710000152
的方差来评价Wi的重要性,Imp(wi)越大,表明Wi在不同类之间的贡献差异性越大,就更容易获取所述原始配置集的数据特征。式中:
Figure BDA0002398505710000153
进一步地,本发明实施例利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到所述算法配置集和所述非算法配置集。由于所述分类器函数T只在所述候选类别的范围内执行分类即可,因此效率较高。
通过上述分类处理,有利于对数据进行有针对性的运算。
转化单元112将所述算法配置集和所述非算法配置集转化为字符串数据集。
可以理解的是,所述算法配置集和非算法配置集来源于所述用户提交的原始配置集,在经过前面的处理后并没有对数据做出改变,只是单单的分出类别。所述用户提交的原始配置集一般是用户提交的文件信息,在进行方式计算之前需要将所述文件转化为字符串形式,以便于让其他系统获取其中的数据。
在本发明的至少一个实施例中,所述转化单元112采用无组件多文件上传算法将所述算法配置集和所述非算法配置集转化为字符串数据集。
具体地,所述无组件多文件上传算法采用对象模型分析,包括构成系统的类、对象以及相互关系,主要由以下几个核心类组成:UploadApplet,ReciveServlet,FolderInfoEJB,FileInfoEJB。
其中,所述UploadApplet负责多文件的选取、压缩和传送,通过在UploadApplet里面调用JFileChooser类,能够实现客户端基于web的多文件选择,通过调用ZipOutputStream类,将所述算法配置集和非算法配置集的多文件在本地形成压缩流,同时通过服务器端的ReciveServlet建立Socket连接,并利用所述Socket传送上述压缩文件流。
所述ReciveServlet是服务器端接收所述UploadApplet通过所述Socket传送来的压缩文件流,并进行解压和记录数据库的Sevlet程序,所述ReciveServlet将所述UploadApplet发送的所述压缩文件流保存在一个临时的压缩文件中,待所述压缩文件流全部传送完毕后,利用ZipInputStream类将压缩文件解压到相应的目录,并调用所述FolderInfoEJB和所述FileInfoEJB将文件结构信息记录到数据库。
所述FolderInfoEJB和所述FileInfoEJB分别是对数据库进行逻辑操作的EJB(Enterprise JavaBean,企业级JavaBean),把存放在数据类FolderPath和FilePath中的数据写入数据库。ReciveServlet调用这两个EJB,完成记录路径及将所述文件信息存储到数据库的操作,从而实现数据上传,并同时得到所述字符串数据集。
通过上述实施方式,能够将所述算法配置集和所述非算法配置集转化为机器可读取的数据格式。
解析单元113解析所述字符串数据集,得到算法规则集和配置信息集。
在本发明的至少一个实施例中,所述解析单元113解析所述字符串数据集,得到算法规则集和配置信息集包括:
所述解析单元113计算所述字符串数据集中的数据与指定数据集中数据的相似度,并根据计算的相似度将所述字符串数据集转换为所述算法规则集和所述配置信息集。
具体地,所述解析单元113计算所述字符串数据集中的数据与指定数据集中数据的相似度包括:
所述解析单元113计算所述字符串数据集中的数据与所述指定数据集中数据的编辑距离,并对计算的编辑距离进行归一化处理,得到所述字符串数据集中的数据与指定数据集中数据的相似度。
具体地,本发明实施例根据所述字符串数据集与指定数据集中数据的相似度,判断所述字符串数据集与指定数据集是否属于同一个实体,即进行文法和语法的分析,判断为何种编程语言。
所述编辑距离是计算两条给定的字符串数据集之间距离的度量,根据所述编辑距离,采用删除、插入和替换三种基本操作来把一条字符串转换为另一条字符串,用最少的操作次数来判断两条字符串数据集之间的距离。距离越小表示两个字符串数据集越相似。
具体地,以d(s1,s2)来表示字符串数据集s1和s2之间的编辑距离,显然d(s1,s2)≤max(|s1|,|s2|)。所述编辑距离采用动态规划来计算,其递推公式如下:
Figure BDA0002398505710000171
其中:
Figure BDA0002398505710000172
s1[i]表示字符串数据集s的第i个字符,而且d[i,j]=i+j,i×j=0。再对计算的编辑距离进行归一化处理,得到字符串间的编辑距离相似度dsim(s1,s2),具体计算方式可以如下:
Figure BDA0002398505710000173
显然,dsim(s1,s2)∈[0,1]。
通过上述实施方式,能够实现对多种语言的匹配,进而使本发明能够支持多种语言。
映射单元114将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集。
在本发明的至少一个实施例中,所述映射算法配置集能够利用关系数据库的字段来保存对象属性,一张数据库表可以保存同类的多个对象的属性的多个属性值。
例如:在一个医疗管理信息系统中,要对病人病史数据进行分类输入,这种数据具有明显的层次化特征,如肝炎,可选择“有”或“无”,若选择“无”,就不需要进一步输入信息,如选择“有”,则需要进一步选择是否有肿块;若无肿块,则不需要进一步输入信息,若有肿块,则需要继续输入肿块数量、大小、位置等信息。
所述处理单元111利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
本发明的至少一个实施例利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果包括,但不限于以下一种或者多种方式的组合:
(1)当执行高速模型计算时,所述处理单元111采用jexl算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
其中,所述jexl算法引擎是一个Expression Language的算法引擎。计算所述映射算法配置集中的数据数据时,jexl合并JexlExpression与JexlContext,再使用JexlEngin#createExpression()创建表达式,传递包含有效jexl语法的所述映射算法配置集的String字符串,通过构造函数选择内部包提供的变量映射,并在属性innerXX上调用bar()函数处理所述映射算法配置集的String字符,将数据处理结果封装,构成模型结构,并保存到数据库中。
(2)当执行大数据模型计算时,本发明实施采用spark算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
其中,所述spark算法引擎是一种基于内存计算的分布式集群计算框架,所述spark算法引擎首先将所述映射算法配置集的数据存储在HDFS系统(Hadoop DistributedFile System,Hadoop分布式文件系统)中,由SparkContext对象通过TextFile方法将所述映射算法配置集数据转化为以Partition形式存储,并加载到内存中,然后调用filter并利用传入规则,将无效数据滤除,再获取U模板,通过一系列转换操作进行处理,根据自定义的类型将所述映射算法配置集转化为文件封装类,每个Partition中包含若干个封装类单元,进而构成模型结果,并保存到数据库中。
可以理解的是,在执行高速模型计算时采用jexl算法引擎,在执行大数据模型计算时采用spark算法引擎。jexl在使用过程中速度快、成本低,但不适用于大数据的计算;spark的运行成本较高,但是它能够快速地计算大数据。所以,根据传过来的数据量分配适当的算法引擎,在较低的成本下,能够更快的计算数据。
由以上技术方案可以看出,本发明能够获取原始配置集,并对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集,进而通过分类识别处理对数据进行有针对性的计算,进一步将所述算法配置集和所述非算法配置集转化为字符串数据集,并解析所述字符串数据集,得到算法规则集和配置信息集,以支持多种语言,将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集,并利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果,结合算法引擎实现对数据的高效处理。
如图3所示,是本发明实现精算数据处理方法的较佳实施例的电子设备的结构示意图。
所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如精算数据处理程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,所述电子设备1既可以是总线型结构,也可以是星形结构,所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如所述电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,所述电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如精算数据处理程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整合电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行精算数据处理程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个精算数据处理方法实施例中的步骤,例如图1所示的步骤S10、S11、S12、S13、S14、S15。
或者,所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如:
获取原始配置集;
对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集;
将所述算法配置集和所述非算法配置集转化为字符串数据集;
解析所述字符串数据集,得到算法规则集和配置信息集;
将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集;
利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成获取单元110、处理单元111、转化单元112、解析单元113、映射单元114。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
图3仅示出了具有组件12-13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种精算数据处理方法,所述处理器13可执行所述多个指令从而实现:
获取原始配置集;
对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集;
将所述算法配置集和所述非算法配置集转化为字符串数据集;
解析所述字符串数据集,得到算法规则集和配置信息集;
将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集;
利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种精算数据处理方法,其特征在于,所述方法包括:
获取原始配置集;
对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集;
将所述算法配置集和所述非算法配置集转化为字符串数据集;
解析所述字符串数据集,得到算法规则集和配置信息集;
将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集;
利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
2.如权利要求1所述的精算数据处理方法,其特征在于,所述对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集包括:
构建数据分析函数;
基于特征选择算法对所述原始配置集进行特征提取;
利用提取的特征对所述原始配置集中的数据进行分类,得到候选类别;
利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到所述算法配置集和所述非算法配置集。
3.如权利要求2所述的精算数据处理方法,其特征在于,所述构建数据分析函数包括:
采用下述公式构建所述数据分析函数:
Figure FDA0002398505700000011
其中,R表示所述数据分析函数,D表示文件内容,L表示类别,
Figure FDA0002398505700000012
表示在所述原始配置集中含有配置类别属性Lj的所有特征组成的集合,WT表示在所述原始配置集中文件名中的特征词的集合,RT(*)表示应用数据分析方法,RB(*)表示传统BOW文件内容表示方法。
4.如权利要求1所述的精算数据处理方法,其特征在于,所述解析所述字符串数据集,得到算法规则集和配置信息集包括:
计算所述字符串数据集中的数据与指定数据集中数据的相似度;
根据计算的相似度将所述字符串数据集转换为所述算法规则集和所述配置信息集。
5.如权利要求4所述的精算数据处理方法,其特征在于,所述计算所述字符串数据集中的数据与指定数据集中数据的相似度包括:
计算所述字符串数据集中的数据与所述指定数据集中数据的编辑距离;
对计算的编辑距离进行归一化处理,得到所述字符串数据集中的数据与指定数据集中数据的相似度。
6.如权利要求1所述的精算数据处理方法,其特征在于,所述利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果包括:
当执行高速模型计算时,采用jexl算法引擎计算所述映射算法配置集中的数据,得到数据处理结果;及/或
当执行大数据模型计算时,采用spark算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
7.一种精算数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取原始配置集;
处理单元,用于对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集;
转化单元,用于将所述算法配置集和所述非算法配置集转化为字符串数据集;
解析单元,用于解析所述字符串数据集,得到算法规则集和配置信息集;
映射单元,用于将所述算法规则集和所述配置信息集进行映射,得到映射算法配置集;
所述处理单元,还用于利用算法引擎计算所述映射算法配置集中的数据,得到数据处理结果。
8.如权利要求7所述的精算数据处理装置,其特征在于,所述处理单元对所述原始配置集进行分类识别处理,得到所述原始配置集中的算法配置集和非算法配置集包括:
构建数据分析函数;
基于特征选择算法对所述原始配置集进行特征提取;
利用提取的特征对所述原始配置集中的数据进行分类,得到候选类别;
利用与所述数据分析函数对应的分类器从所述候选类别中确定所述原始配置集中数据的类别,得到所述算法配置集和所述非算法配置集。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至6中任意一项所述的精算数据处理方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至6中任意一项所述的精算数据处理方法。
CN202010139357.3A 2020-03-03 2020-03-03 精算数据处理方法、装置、电子设备及存储介质 Active CN111444159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010139357.3A CN111444159B (zh) 2020-03-03 2020-03-03 精算数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010139357.3A CN111444159B (zh) 2020-03-03 2020-03-03 精算数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111444159A true CN111444159A (zh) 2020-07-24
CN111444159B CN111444159B (zh) 2024-05-03

Family

ID=71627242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010139357.3A Active CN111444159B (zh) 2020-03-03 2020-03-03 精算数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111444159B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288585A (zh) * 2020-11-20 2021-01-29 中国人寿保险股份有限公司 保险业务精算数据处理方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1964324A (zh) * 2006-11-24 2007-05-16 中兴通讯股份有限公司 对流分类算法进行自动选择的方法
US20090182902A1 (en) * 2008-01-14 2009-07-16 International Business Machines Corporation Automated classification of computer configuration using rule set
CN101777994A (zh) * 2009-12-25 2010-07-14 华为技术有限公司 电信设备的配置方法和配置系统
CN104798043A (zh) * 2014-06-27 2015-07-22 华为技术有限公司 一种数据处理方法和计算机系统
US20160026915A1 (en) * 2001-01-05 2016-01-28 In-Depth Test Llc Methods and Apparatus for Data Analysis
CN106980623A (zh) * 2016-01-18 2017-07-25 华为技术有限公司 一种数据模型的确定方法及装置
CN108885543A (zh) * 2016-01-26 2018-11-23 Icat有限责任公司 具有可重新配置的算法流水线核和算法匹配流水线编译器的处理器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160026915A1 (en) * 2001-01-05 2016-01-28 In-Depth Test Llc Methods and Apparatus for Data Analysis
CN1964324A (zh) * 2006-11-24 2007-05-16 中兴通讯股份有限公司 对流分类算法进行自动选择的方法
US20090182902A1 (en) * 2008-01-14 2009-07-16 International Business Machines Corporation Automated classification of computer configuration using rule set
CN101777994A (zh) * 2009-12-25 2010-07-14 华为技术有限公司 电信设备的配置方法和配置系统
CN104798043A (zh) * 2014-06-27 2015-07-22 华为技术有限公司 一种数据处理方法和计算机系统
CN106980623A (zh) * 2016-01-18 2017-07-25 华为技术有限公司 一种数据模型的确定方法及装置
CN108885543A (zh) * 2016-01-26 2018-11-23 Icat有限责任公司 具有可重新配置的算法流水线核和算法匹配流水线编译器的处理器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FRANK HUTTER ET AL: "ParamILS: An Automatic Algorithm Configuration Framework", 《JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 36 (2009)》, 9 October 2009 (2009-10-09), pages 267 - 306 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288585A (zh) * 2020-11-20 2021-01-29 中国人寿保险股份有限公司 保险业务精算数据处理方法、装置及电子设备
CN112288585B (zh) * 2020-11-20 2024-05-28 中国人寿保险股份有限公司 保险业务精算数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN111444159B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
WO2022134759A1 (zh) 关键词生成方法、装置、电子设备及计算机存储介质
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN111460797B (zh) 关键字抽取方法、装置、电子设备及可读存储介质
CN114138784B (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
WO2022178933A1 (zh) 基于上下文的语音情感检测方法、装置、设备及存储介质
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN111753089A (zh) 话题聚类方法、装置、电子设备及存储介质
CN112231417A (zh) 数据分类方法、装置、电子设备及存储介质
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN111444159B (zh) 精算数据处理方法、装置、电子设备及存储介质
CN114969385B (zh) 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN111429085A (zh) 合同数据生成方法、装置、电子设备及存储介质
CN116468025A (zh) 电子病历结构化方法、装置、电子设备及存储介质
CN115525761A (zh) 一种文章关键词筛选类别的方法、装置、设备及存储介质
CN112233194B (zh) 医学图片优化方法、装置、设备及计算机可读存储介质
WO2022141838A1 (zh) 模型置信度分析方法、装置、电子设备及计算机存储介质
WO2021151303A1 (zh) 命名实体对齐方法、装置、电子设备及可读存储介质
US11270155B2 (en) Duplicate image detection based on image content
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN113343102A (zh) 基于特征筛选的数据推荐方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant