CN113962568A - 基于支持向量机的模型标签标注方法、设备及介质 - Google Patents
基于支持向量机的模型标签标注方法、设备及介质 Download PDFInfo
- Publication number
- CN113962568A CN113962568A CN202111248672.0A CN202111248672A CN113962568A CN 113962568 A CN113962568 A CN 113962568A CN 202111248672 A CN202111248672 A CN 202111248672A CN 113962568 A CN113962568 A CN 113962568A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- index
- credit
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 109
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000005457 optimization Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种基于支持向量机的模型标签标注方法、设备及介质,方法包括:根据企业的信用数据建立信用模型的指标体系,确定出指标数据;对指标数据中的预设指标数据进行分类,并标注标签;根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定预设指标数据的指标特征与标注标签的对应关系,其中,样本标签标注模型为支持向量机模型;通过符合要求的样本标签标注模型,分析指标数据中未标注指标数据的指标特征,根据预设指标数据的指标特征与标注标签的对应关系,对未标注指标数据进行分类,标注标签,以便于根据标注标签的指标数据,对信用模型进行训练,得到符合要求的信用模型。
Description
技术领域
本说明书计算机技术领域,尤其涉及一种基于支持向量机的模型标签标注方法、设备及介质。
背景技术
互联网技术的发展和应用渗透到了各个行业,尤其是金融行业。传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验,采用大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。
当前互联网金融信用体系中通常使用信用评分模型对企业进行信用评估,信用评分模型常用的方法是逻辑回归,使用逻辑回归建立信用评分模型时,在特征工程和模型训练过程中都需要用大量含有标签的数据,然而,在实际的应用环境中,很多情况下并不能获得大量有标签的数据,只能通过部分关键的指标(最近是否在失信库,纳税评级等)确定一部分样本的标签;这会使得逻辑回归建立信用评分模型的训练样本不足,无法训练出符合要求的信用评分模型。
发明内容
本说明书一个或多个实施例提供了一种基于支持向量机的模型标签标注方法、设备及介质,用于解决如下技术问题:在实际的应用环境中,无法获取大部分带标签的数据,导致信用模型的训练样本不足,无法训练出符合要求的信用评分模型。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种基于支持向量机的模型标签标注方法,所述方法包括:根据企业的信用数据建立信用模型的指标体系,确定出指标数据,其中,所述指标体系用于表示所述企业的信用情况;对所述指标数据中的预设指标数据进行分类,并标注标签;根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定所述预设指标数据的指标特征与标注标签的对应关系,其中,所述样本标签标注模型为支持向量机模型;通过所述符合要求的样本标签标注模型,分析所述指标数据中未标注指标数据的指标特征,并根据所述预设指标数据的指标特征与标注标签的对应关系,对所述未标注指标数据进行分类,并标注标签,以便于根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型。
进一步地,所述根据企业的信用数据建立所述信用模型的指标体系之前,所述方法包括:通过多方渠道采集企业的信用数据;对所述信用数据进行分析融合处理,形成数据集,并存储至数据库中;其中,所述信用数据的结构类型包括半结构化数据和结构化数据。
进一步地,所述对所述信用数据进行分析融合处理,具体包括:将结构类型为半结构化数据的信用数据转换为结构化数据,以便将所述信用数据中的具有互补关系的数据进行数据融合,将所述信用数据中的具有冗余关系的数据进行去重处理。
进一步地,所述确定出指标数据之后,所述方法包括:确定出所述指标数据中的无效数据,以便在所述指标数据中去除所述无效数据,其中,所述无效数据是指与所述企业信用情况不相关的数据;对所述指标数据进行同值统计和缺失值统计,以便去除同值率超过预设范围的字段以及包含相同数值的字段,去除字段缺失率超过预设范围的字段。
进一步地,所述确定所述预设指标数据的指标特征与标注标签的对应关系,具体包括:确定所述预设指标数据对应的至少一个指标特征;根据标注标签对应的分类信息,确定所述至少一个指标特征的权重;根据所述至少一个指标特征的权重,确定所述至少一个指标特征与所述标注标签的对应关系。
进一步地,所述得到符合要求的样本标签标注模型之前,所述方法还包括:将所述预设指标数据分为训练集和测试集;将所述训练集中的预设指标数据输入至预先构建的样本标签标注模型,确定所述样本标签标注模型的优化目标函数和约束条件,通过SMO高效优化算法进行求解,对所述样本标签标注模型进行训练;其中,所述样本标签标注模型的优化目标函数为:
标签标注模型的约束条件为:
进一步地,所述得到符合要求的样本标签标注模型之前,所述方法还包括:将所述测试集中的预设指标数据作为测试样本数据,输入至训练后的所述样本标签标注模型;根据所述样本标签标注模型输出的标签类别与预先标注的标签类别进行对比;若所述对比结果在预设的误差范围内,则训练后的样本标签标注模型为符合要求的样本标签标注模型;若所述对比结果超过预设的误差范围,则调整模型训练参数,优化迭代模型,对所述样本标签标注模型进行再次训练,以用于确定出符合要求的样本标签标注模型。
进一步地,所述根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型,具体包括:对进行标签标注后的信用数据进行指标相关性分析、指标重要性分析以及指标分布校验处理;将处理后的指标数据输入至预先构建的信用模型中,对所述信用模型进行训练,确定出符合要求的信用模型,以用于得到对应的信用评分结果。
本说明书一个或多个实施例提供一种基于支持向量机的模型标签标注设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:根据企业的信用数据建立信用模型的指标体系,确定出指标数据,其中,所述指标体系用于表示所述企业的信用情况;对所述指标数据中的预设指标数据进行分类,并标注标签;根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定所述预设指标数据的指标特征与标注标签的对应关系,其中,所述样本标签标注模型为支持向量机模型;通过所述符合要求的样本标签标注模型,分析所述指标数据中未标注指标数据的指标特征,并根据所述预设指标数据的指标特征与标注标签的对应关系,对所述未标注指标数据进行分类,并标注标签,以便于根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
基于具有明确好坏含义的预设指标为部分样本标注标签,然后基于SVM训练一个二分类的分类器,为其他未标注样本打标签,很大程度的节约了人力成本以及人工标注的时间。并且,利用了支持向量机可以通过小样本训练的特点,以少部分的真实标签样本作为训练样本来训练模型,以此模型来为其他未标注的样本打标签,相较于人工标注,标注结果更加准确、客观,避免了人工标注产生的主观性影响。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书实施例提供的一种基于支持向量机的模型标签标注方法流程示意图;
图2为本说明书实施例提供的另一种基于支持向量机的模型标签标注方法流程示意图;
图3为本说明书实施例提供的一种基于支持向量机的模型标签标注设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
随着互联网技术的迅速发展,人们的日常工作与生活习惯发生了质的改变。互联网技术的发展和应用以迅雷不及掩耳之式渗透到各行各业,尤其是金融行业。传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验。大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。金融风控模型是互联网金融健康成长的必然趋势。
信用评分模型常用的方法是逻辑回归,逻辑回归是机器学习领域最为常见的模型方法之一,常常用于作为处理各种任务的基准模型。在实际应用中,各类任务往往最后所采用模型的性能远超过逻辑回归方法,但是其模型结构的复杂度和训练时间也超过逻辑回归方法;因其可解释性高的优点,在风控建模方面有广泛的应用。
另外需要说明的是,使用逻辑回归建立信用评分模型时,在特征工程和模型训练过程中都需要用大量含有标签的数据。然而,在实际的应用环境中,很多情况下并不能获得大部分有标签的数据,只能通过部分关键的指标(最近是否在失信库,纳税评级等)确定一部分样本的标签;这会使得逻辑回归建立信用评分模型的训练样本不足,或者无法训练。
本说明书实施例提供一种基于支持向量机的模型标签标注方法,图1为一种基于支持向量机的模型标签标注方法流程示意图,如图1所示,主要包括如下步骤:
步骤S101,根据企业的信用数据建立信用模型的指标体系,确定出指标数据。
通过信用模型对用户、企业进行信用评分,需要与用户或企业有关的各类信用数据,因此,在步骤S101之前通过多方渠道采集企业的信用数据。
在本说明书的一个实施例中,通过多方渠道采集多源信用数据,用户的多源数据包括政府数据、互联网数据以及第三方数据。其中用户的政府数据包括工商、社保、公积金、行政处罚、企业认定等信息,用户的互联网数据包括司法、经营、投资、知识产权等数据,用户的第三方数据包括用户对外担保、用水用电、股权质押、土地抵押及转让、重要股东质押等信息。
需要说明的是,多源数据中既包括入库的存量数据,也包括API接口数据,既包括结构化的基本信息、变更、黑名单、认定信息等数据,也包括司法、裁判文书、法院公告等半结构化的数据。因此需要将不同结构的数据进行处理。
在本说明书的一个实施例中,半结构化数据需要通过文本数据处理、数据提取、数据结构化方法等形成结构化的数据入库保存,入库的结构化数据需要经过数据对齐、融合比对等方法建立统一的标准数据表格,针对某一维度的信息建立覆盖多范围的标准数据表格。
将半结构化数据转换为结构化数据之后,对不同数据源之间的数据进行融合比对处理,建立统一的标准数据集。其中数据融合比对处理主要包括数据源之间的融合,将具有互补关系的数据对齐融合,并将具有冗余关系的数据进行去重处理,选取数据质量较好的数据。多维度数据经过融合比对后形成标准数据集,存储于标准数据库中。
根据企业的信用数据建立信用模型的指标体系,确定出指标数据,其中,指标体系用于表示企业的信用情况。对信用数据进行处理存储后,根据建立的多源数据标准库,建设用于信用评分的指标体系,构建指标的数据主要来源于工商、变更、行政处罚、失信、司法、负债、税务等数据中;另外,投资、担保、分支、法人等关系数据也用于构建部分指标。需要说明的是,指标体系指衡量企业业务状态的指标集合,在实际的解决复杂的业务问题时,需要使用多个指标从不同维度来评估业务,也就是使用指标体系。也就是说,指标体系是从不同维度梳理业务,把指标有系统地组织起来。
在得到的指标数据中,由于数据来源不同,可能存在不同来源的数据之间存在同值字段以及无效值的情况。为了将原始数据转换为模型的训练数据,需要对指标数据进行处理,保证指标数据的准确性。
在本说明书的一个实施例中,确定出指标数据中的无效数据,以便在指标数据中去除无效数据,其中,无效数据是指与所述企业信用情况不相关的数据,例如电话编码、地址编码等信息。对入模指标中的无效值进行处理时,可以对部分可量化指标进行数值量化;对指标数据进行同值统计和缺失值统计,以便去除同值率超过预设范围的字段以及包含相同数值的字段,去除字段缺失率超过预设范围的字段。例如,对入模指标进行缺失值统计,去除含同值的字段以及同值率高于80%的字段的训练指标;针对剩余指标进行同值率的统计,去除属性只有一个值的特征,去除属性同值率大于80%的指标。
步骤S102,对指标数据中的预设指标数据进行分类,并标注标签。
在本说明书的一个实施例中,对预设指标数据进行分类,其中预设指标数据为具有明确含义的指标。例如,根据预设时间段内是否进行失信库、纳税人等级以及是否欠税等具有明确好坏含义的指标,标注对应的样本数据。需要说明的是,此类指标的覆盖率较低,仅通过此类指标标注的样本无法用于信用模型的训练。
步骤S103,根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定预设指标数据的指标特征与标注标签的对应关系。
由于具备明确好坏含义的指标覆盖率较低,无法只通过此类样本进行信用模型的训练,因此本说明书实施例根据有限的样本信息,利用支持向量机(Support VectorMachine,SVM)在最小化样本点误差的同时,提高模型的泛化能力,从而得到可靠的小样本数据的分析结果。
需要说明的是,支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法进行非线性分类,是常见的核学习方法之一;其特点是根据有限的样本信息,在最小化样本点误差的同时,提高模型的泛化能力,从而得到可靠的小样本数据的分析结果。
在本说明书的一个实施例中,预先构建样本标签标注模型,并对模型进行训练,以便于得到符合要求的样本标签标注模型,需要说明的是,样本标签标注模型为SVM模型。
首先,构建训练样本。将处理后的指标数据中具备明确含义的指标数据分为训练集和测试集,将训练集中含有标签的样本作为训练样本,训练样本标签标注模型。
其次,寻找最大间隔。分隔超平面的形式可以写成wTx+b。要计算点A到分隔超平面的距离,就必须给出点到分隔面的法线或垂线的长度,该值为|wTx+b|/||w||。这里的常数b类似于逻辑回归中的结局w0。这里的向量w和常数b一起描述了所给数据的分隔线或超平面。
然后是分类器的求解优化。将数据输入至SVM分类器中,分类器会输出一个类别标签,使用单位阶跃函数对wTx+b作用得到f(wTx+b),其中,当u<0时f(u)输出-1,反之则输出+1。这里的标签采用-1和+1,仅仅相差一个符号,方便数学上处理。在本说明书的一个实施例中可以通过统一的公式来表示间隔或者数据点到分隔超平面的距离。
当计算得到数据点到分隔面的距离,并确定出分隔面的放置位置时,间隔通过label*(wTx+b)来计算。如果数据点处于正方向(即+1类)并且离分隔超平面很远的位置时,wTx+b是一个较大的正数,同时label*(wTx+b)也会是一个较大的正数。如果数据点处于负方向(即-1类)并且离分隔超平面很远的位置时,此时由于类别标签为-1,label*(wTx+b)仍然是一个很大的正数。
在实际的训练过程中需要找出分类器定义中的w和b。因此需要找到具有最小间隔的数据点。当找到具有最小间隔的数据点时,需要对该间隔最大化。可以写作:
为了方便求解,可以将如上公式转换为另一种更容易求解的形式。固定其中一个因子而最大化其他因子。若令所有支持向量的label*(wTx+b)都等于1,则可以通过求||w||的最大化来得到最终解。但是,并非所有数据点的label*(wTx+b)都等于1,只有那些离分隔超平面最近的点得到值才为1.而离超平面越远的数据点,其label*(wTx+b)值也就越大。
在上述优化问题中,给定约束条件然后求最优值,因此该问题是一个带约束条件的优化问题。这里的约束条件就是label*(wTx+b)>=1.0。通过引入拉个朗日乘子,就可以基于约束条件来表述。由于这里的约束条件都是基于数据点的,因此可以将超平面携程数据点的形式。于是优化目标函数最后可以写成:
其约束条件为:
在此情况下,数据必须是线性可分的。但是在实际情况中,几乎不存在此类数据。这时就可以通过引入松弛变量来允许有些数据点可以处于分隔面错误一侧。这里的优化目标就能保持仍然不变,但是此时新的约束条件则变为:
常数C用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0”这两个目标的权重。在优化算的实现代码中,常数C是一个参数,因此就可以通过调节该参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表达。
之后,通过SMO高效优化算法进行求解,SMO算法的目标是求出一系列alpha和b,求出多个alpha之后,可以计算出权重向量,并得到分隔超平面。SMO算法的工作原理是:每次循环中选择两个alpha进行优化处理。一旦找到一堆符合要求的alpha,那么就增大其中一个同时减小另一个。符合要求是指两个alpha必须要符合一定的条件,条件之一就是这两个alpha必须要在间隔边界之外,而其中第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。
在模型训练完成后,将测试集中的预设指标数据作为测试样本数据,输入至训练后的样本标签标注模型,根据样本标签标注模型输出的标签类别与预先标注的标签类别进行对比。若对比结果在预设的误差范围内,则训练后的样本标签标注模型为符合要求的样本标签标注模型;若对比结果超过预设的误差范围,则调整模型训练参数,优化迭代模型,对样本标签标注模型进行再次训练,直到确定出符合要求的样本标签标注模型。
在本说明书的一个实施例中,得到符合要求的样本标签标注模型之后,确定预设指标数据的指标特征与标注标签的对应关系。确定具备明确含义的指标数据对应的至少一个指标特征;例如,是否失信为具备明确好坏意义的指标数据,若用户失信,则为用户标注不利于其信用的标签,将其分为信用不好的一类,此类指标数据中可能存在多个指标特征。根据标注标签对应的分类信息,确定至少一个指标特征的权重,在指标数据中,可以将指标数据分为多个特征,并且每个特征对分类结果的重要性不同,可以根据最终标签的分类信息确定指标特征对应的权重,例如A特征占80%,B特征占0.1%;根据至少一个指标特征的权重,确定至少一个指标特征与标注标签的对应关系。
步骤S104,通过符合要求的样本标签标注模型,分析指标数据中未标注指标数据的指标特征,并根据预设指标数据的指标特征与标注标签的对应关系,对未标注指标数据进行分类,并标注标签,以便于根据标注标签的指标数据,对信用模型进行训练,得到符合要求的信用模型。
在本说明书的一个实施例中,将指标数据中未进行标注的指标数据输入至符合要求的样本标签标注模型中,通过样本标签标注模型对未标注的指标数据进行分类,并标注相应的标签。
在本说明书的一个实施例中,通过符合要求的样本标签标注模型,分析指标数据中未标注指标数据的指标特征,根据步骤S103中得到的具备明确含义的指标数据中的指标特征与标注标签的对应关系,对未标注的指标数据进行分类,并标注相应的标签。
在对所有的指标数据进行分类并标注标签之后,对信用评分模型进行训练。通过相关性分析、共线性分析,去除指标之间相关性、共线性过高的指标;其次是xgboost指标重要性分析,筛选出对模型起关键作用的指标;之后,对指标进行分布检验并做转换,并基于逻辑回归训练模型;通过评分卡转换生成对应的信用评分。
本说明书提供的实施例具有如下的有益结果:相较于传统的标签标注方法,构建信用评分模型的好坏标签时,首先基于具有明确好坏含义的指标为部分样本标注标签,然后基于SVM训练一个二分类的分类器,为其他未标注样本打标签,很大程度的节约了人力成本以及人工标注的时间。并且,利用了支持向量机可以通过小样本训练的特点,以少部分的真实标签样本作为训练样本来训练模型,以此模型来为其他未标注的样本打标签,相较于人工标注,标注结果更加准确、客观,避免了人工标注产生的主观性影响;另外,伴随海量数据的汇聚、科技的不断进步,监督学习已应用到许多领域,而且很多方面都会存在等,本方法对各个场景均适用,从数据的角度,对特征重要性进行量化分析,应用前景极为广阔。
本说明书实施例还提供另一种基于支持向量机的模型标签标注方法,图2为另一种基于支持向量机的模型标签标注方法流程示意图,如图2所示,主要包括:
首先,确定企业信用评分指标和训练样本,对数据进行数据清洗。对数据进行清洗时,对数据中的无效值进行处理、异常值检测、缺失值处理、同值处理以及缺失值填充。
对数据进行数据清洗之后通过SVM标签标注模型对样本数据进行标签标注。具体地,为具备明确含义的指标进行标签标注,并在具备明确含义的指标中筛选出训练样本,对SVM标签标注模型进行训练。训练之后,需要对模型进行验证,通过对模型的分类性能评估确定训练后的SVM标签标注模型是否是符合要求的SVM标签标注模型,若分类性能评估通过则将未标注标签的数据输入至SVM标签标注模型中,进行所有数据的标签标注。
对所有的样本标注相应的标签,进行信用评分模型的训练。通过相关性分析、共线性分析,去除指标之间相关性、共线性过高的指标;其次是xgboost指标重要性分析,筛选出对模型起关键作用的指标;之后,对指标进行分布检验并做转换,并基于逻辑回归训练模型;通过评分卡转换生成对应的信用评分。
本说明书一个或多个实施例提供一种基于支持向量机的模型标签标注设备,如图3所示,设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:根据企业的信用数据建立信用模型的指标体系,确定出指标数据,其中,所述指标体系用于表示所述企业的信用情况;对所述指标数据中的预设指标数据进行分类,并标注标签;根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定所述预设指标数据的指标特征与标注标签的对应关系,其中,所述样本标签标注模型为支持向量机模型;通过所述符合要求的样本标签标注模型,分析所述指标数据中未标注指标数据的指标特征,并根据所述预设指标数据的指标特征与标注标签的对应关系,对所述未标注指标数据进行分类,并标注标签,以便于根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种基于支持向量机的模型标签标注方法,其特征在于,所述方法包括:
根据企业的信用数据建立信用模型的指标体系,确定出指标数据,其中,所述指标体系用于表示所述企业的信用情况;
对所述指标数据中的预设指标数据进行分类,并标注标签;
根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定所述预设指标数据的指标特征与标注标签的对应关系,其中,所述样本标签标注模型为支持向量机模型;
通过所述符合要求的样本标签标注模型,分析所述指标数据中未标注指标数据的指标特征,并根据所述预设指标数据的指标特征与标注标签的对应关系,对所述未标注指标数据进行分类,并标注标签,以便于根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型。
2.根据权利要求1所述的一种基于支持向量机的模型标签标注方法,其特征在于,所述根据企业的信用数据建立所述信用模型的指标体系之前,所述方法包括:
通过多方渠道采集企业的信用数据;
对所述信用数据进行分析融合处理,形成数据集,并存储至数据库中;其中,所述信用数据的结构类型包括半结构化数据和结构化数据。
3.根据权利要求2所述的一种基于支持向量机的模型标签标注方法,其特征在于,所述对所述信用数据进行分析融合处理,具体包括:
将结构类型为半结构化数据的信用数据转换为结构化数据,以便将所述信用数据中的具有互补关系的数据进行数据融合,将所述信用数据中的具有冗余关系的数据进行去重处理。
4.根据权利要求1所述的一种基于支持向量机的模型标签标注方法,其特征在于,所述确定出指标数据之后,所述方法包括:
确定出所述指标数据中的无效数据,以便在所述指标数据中去除所述无效数据,其中,所述无效数据是指与所述企业信用情况不相关的数据;
对所述指标数据进行同值统计和缺失值统计,以便去除同值率超过预设范围的字段以及包含相同数值的字段,去除字段缺失率超过预设范围的字段。
5.根据权利要求1所述的一种基于支持向量机的模型标签标注方法,其特征在于,所述确定所述预设指标数据的指标特征与标注标签的对应关系,具体包括:
确定所述预设指标数据对应的至少一个指标特征;
根据标注标签对应的分类信息,确定所述至少一个指标特征的权重;
根据所述至少一个指标特征的权重,确定所述至少一个指标特征与所述标注标签的对应关系。
7.根据权利要求6所述的一种基于支持向量机的模型标签标注方法,其特征在于,所述得到符合要求的样本标签标注模型之前,所述方法还包括:
将所述测试集中的预设指标数据作为测试样本数据,输入至训练后的所述样本标签标注模型;
根据所述样本标签标注模型输出的标签类别与预先标注的标签类别进行对比;
若所述对比结果在预设的误差范围内,则训练后的样本标签标注模型为符合要求的样本标签标注模型;
若所述对比结果超过预设的误差范围,则调整模型训练参数,优化迭代模型,对所述样本标签标注模型进行再次训练,以用于确定出符合要求的样本标签标注模型。
8.根据权利要求1所述的一种基于支持向量机的模型标签标注方法,其特征在于,所述根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型,具体包括:
对进行标签标注后的信用数据进行指标相关性分析、指标重要性分析以及指标分布校验处理;
将处理后的指标数据输入至预先构建的信用模型中,对所述信用模型进行训练,确定出符合要求的信用模型,以用于得到对应的信用评分结果。
9.一种基于支持向量机的模型标签标注设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-8中任一项所述的方法。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:根据企业的信用数据建立信用模型的指标体系,确定出指标数据,其中,所述指标体系用于表示所述企业的信用情况;
对所述指标数据中的预设指标数据进行分类,并标注标签;
根据标注后的预设指标数据,对预先构建的样本标签标注模型进行训练,得到符合要求的样本标签标注模型,确定所述预设指标数据的指标特征与标注标签的对应关系,其中,所述样本标签标注模型为支持向量机模型;
通过所述符合要求的样本标签标注模型,分析所述指标数据中未标注指标数据的指标特征,并根据所述预设指标数据的指标特征与标注标签的对应关系,对所述未标注指标数据进行分类,并标注标签,以便于根据标注标签的指标数据,对所述信用模型进行训练,得到符合要求的信用模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111248672.0A CN113962568B (zh) | 2021-10-26 | 2021-10-26 | 基于支持向量机的模型标签标注方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111248672.0A CN113962568B (zh) | 2021-10-26 | 2021-10-26 | 基于支持向量机的模型标签标注方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113962568A true CN113962568A (zh) | 2022-01-21 |
CN113962568B CN113962568B (zh) | 2024-09-20 |
Family
ID=79467366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111248672.0A Active CN113962568B (zh) | 2021-10-26 | 2021-10-26 | 基于支持向量机的模型标签标注方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113962568B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839183A (zh) * | 2014-03-19 | 2014-06-04 | 江苏苏大大数据科技有限公司 | 智能授信方法及智能授信装置 |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
US20150254573A1 (en) * | 2014-03-10 | 2015-09-10 | California Institute Of Technology | Alternative training distribution data in machine learning |
US20170124483A1 (en) * | 2014-06-02 | 2017-05-04 | Yottamine Analytics, Llc | Digital Event Profile Filters Based on Cost Sensitive Support Vector Machine for Fraud Detection, Risk Rating or Electronic Transaction Classification |
CN106651574A (zh) * | 2016-12-30 | 2017-05-10 | 苏州大学 | 一种个人信用评估方法及装置 |
WO2019095572A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业投资风险评估方法、装置及存储介质 |
CN110347669A (zh) * | 2019-07-16 | 2019-10-18 | 成都威嘉软件有限公司 | 基于流式大数据分析的风险防范方法 |
CN110543910A (zh) * | 2019-08-30 | 2019-12-06 | 北京智云信国际信用评价有限公司 | 信用状态监测系统和监测方法 |
CN112581265A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于AdaBoost的互联网金融客户申请欺诈检测方法 |
CN112651823A (zh) * | 2020-12-23 | 2021-04-13 | 天津大学 | 信用评估模型建立方法和装置及信用评估方法和设备 |
-
2021
- 2021-10-26 CN CN202111248672.0A patent/CN113962568B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254573A1 (en) * | 2014-03-10 | 2015-09-10 | California Institute Of Technology | Alternative training distribution data in machine learning |
CN103839183A (zh) * | 2014-03-19 | 2014-06-04 | 江苏苏大大数据科技有限公司 | 智能授信方法及智能授信装置 |
US20170124483A1 (en) * | 2014-06-02 | 2017-05-04 | Yottamine Analytics, Llc | Digital Event Profile Filters Based on Cost Sensitive Support Vector Machine for Fraud Detection, Risk Rating or Electronic Transaction Classification |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN106651574A (zh) * | 2016-12-30 | 2017-05-10 | 苏州大学 | 一种个人信用评估方法及装置 |
WO2019095572A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业投资风险评估方法、装置及存储介质 |
CN110347669A (zh) * | 2019-07-16 | 2019-10-18 | 成都威嘉软件有限公司 | 基于流式大数据分析的风险防范方法 |
CN110543910A (zh) * | 2019-08-30 | 2019-12-06 | 北京智云信国际信用评价有限公司 | 信用状态监测系统和监测方法 |
CN112581265A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于AdaBoost的互联网金融客户申请欺诈检测方法 |
CN112651823A (zh) * | 2020-12-23 | 2021-04-13 | 天津大学 | 信用评估模型建立方法和装置及信用评估方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113962568B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019108603A1 (en) | Machine learning techniques for evaluating entities | |
CN110852856A (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN113837859B (zh) | 一种小微企业画像构建方法 | |
Koshiyama et al. | Algorithms in future capital markets | |
CN105022825A (zh) | 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法 | |
Kumari et al. | Blockchain Based E-Analysis of Social Media Forums for Crypto Currency Phase Shifts | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN111737477A (zh) | 一种基于知识产权大数据的情报调查方法、系统和存储介质 | |
Sarhan | Fintech: an overview | |
Drabiková et al. | Decision trees-a powerful tool in mathematical and economic modeling | |
Ogunleye | The Concept of Data Mining | |
Aly et al. | Machine Learning Algorithms and Auditor’s Assessments of the Risks Material Misstatement: Evidence from the Restatement of Listed London Companies | |
Bhardwaj et al. | Analysis and prediction of stock market movements using machine learning | |
Visalli et al. | ESG Data Collection with Adaptive AI. | |
CN113962568B (zh) | 基于支持向量机的模型标签标注方法、设备及介质 | |
Kanthimathi et al. | Stock Market Prediction Using AI | |
Tang et al. | A Distributed Knowledge Distillation Framework for Financial Fraud Detection based on Transformer | |
Ruhal et al. | A Comparative Study Of Statistical Methods And Machine Learning Approaches For Stock Price Prediction | |
Zhang | Housing price prediction using machine learning algorithm | |
Bouabdallah | Multimodal Approach for Cryptocurrency Price Prediction | |
Dzelihodzic et al. | Data Mining Techniques for Credit Risk Assessment Task | |
Pavithra et al. | Correlational and Sentimental Analysis Using LSTM to Forecast Stock Price | |
Maniatopoulos et al. | Technical analysis forecasting and evaluation of stock markets: the probabilistic recovery neural network approach | |
CN114462516B (zh) | 一种企业信用评分样本标注方法及装置 | |
Joel et al. | Optimizing profit by retaining customers using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |