CN108062392A - 一种基于大数据分类算法的消费维权指数计算方法 - Google Patents

一种基于大数据分类算法的消费维权指数计算方法 Download PDF

Info

Publication number
CN108062392A
CN108062392A CN201711361269.2A CN201711361269A CN108062392A CN 108062392 A CN108062392 A CN 108062392A CN 201711361269 A CN201711361269 A CN 201711361269A CN 108062392 A CN108062392 A CN 108062392A
Authority
CN
China
Prior art keywords
mrow
msub
mtd
mtr
consumers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711361269.2A
Other languages
English (en)
Inventor
孔祥明
陈洁
蔡文鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Original Assignee
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Industry Kaiyuan Science And Technology Co Ltd filed Critical Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority to CN201711361269.2A priority Critical patent/CN108062392A/zh
Publication of CN108062392A publication Critical patent/CN108062392A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于大数据分类算法的消费维权指数计算方法,包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:S1:专家评分模型建立;S2:指标得分率计算;步骤4)构建SVM分类器;步骤5)训练分类模型;步骤6)应用模型预测结果。本发明提供的方法基于统计学理论,结合最新的数据挖掘理论实施方法,采用SVM支持向量机构建标准化的消费维权计算模型,并提前以历史数据作为模型构建的基础,在现今计算机运算速度的支持下,能达到快速、科学、标准、客观的计算结果。

Description

一种基于大数据分类算法的消费维权指数计算方法
技术领域
本发明涉及消费维权指数计算技术,具体涉及一种基于大数据分类算法的消费维权指数计算方法。
背景技术
随着近年社会经济的快速发展,12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议,是广大人民群众送上门来的“调查研究”,是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。消费维权指数,是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。
工商行政管理机关12345政务服务热线中心直接面对广大消费者,贴近人民群众,贴近市场,每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈,能够及时、准确地反映消费热点的变化特点和规律,反映市场主体诚信经营状况、商品和服务质量状况,以及市场公平交易秩序状况,是市场监管质量的“温度计”、“晴雨表”,更是评价工商行政管理机关市场监管成效的“主考官”。
因此,加强对12345数据的分析利用,特别是充分发掘“消费维权指数”的理论与现实价值,坚持用数据说话,对于服务政府决策,服务工商机关市场监管,服务消费教育引导,营造安全放心的消费环境,充分激发消费拉动内需的作用等具有重要意义。
传统“消费维权指数”的计算方法:
消费维权指数可以某一时期确立为“基期”,选择服装鞋帽、美容美发、家居用品、家用电器及计算机产品、通讯器材类、交通工具、农业生产资料、网络交易这八大重点商品和服务作为监测领域,计算得出消费者投诉举报的商品和服务涉案总金额,然后建立数学模型:
消费维权指数=当月八大类别商品或服务各涉案金额除以基期(某一时期)同类商品或服务涉案总金额乘以100。
该算法的缺点:缺点1,仅仅考虑了涉案金额为唯一指标,计算结果往往会被某涉案金额高的数据影响,缺少了其他方面的考虑:立案比例、涉及人员人数、投诉人比例、异常企业投诉比例等等;缺点2,由于涉及的数据量巨大,新增了多个数据维度,给人工计算带来了若干困难。
发明内容
有鉴于此,本发明的主要目的是提供一种基于大数据专家分层评分算法的建筑消防安全健康度的评估方法,一种基于大数据分类算法的消费维权指数计算方法,将消费维权指数体系涉及的其他维度纳入计算范围,运用大数据分类算法、专家评分模型保证结果的准确和科学。
具体的方案如下:
一种基于大数据分类算法的消费维权指数计算方法,
包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;
步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;
步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:
S1:专家评分模型建立;
S2:指标得分率计算;
步骤4)构建SVM分类器;
步骤5)训练分类模型;
步骤6)应用模型预测结果。
进一步地,步骤3)中S1步骤的具体评分方法及对评分的处理如下:
对数量和时间答案的处理如下表述:
式中为评价结果,p为正整数,n为专家数,专家评分值从大到小排列,则Xp+1公式表示奇数个专家评分的中位数,(Xp+Xp+1)/2表示偶数个专家评分的中位数。
进一步地,步骤3)具体步骤如下:
S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为{Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,···,n个专家对第i(i=1,2,···,n)领域的评分序分值,其值为j(j=1,2,···,m);
S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中
根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:
在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人
S3:将step2中计算得到的所有14个项目得分率Si组合成一个14维的向量x=[a1,a2,…,a14],该向量即表示一个投诉工单的评分情况。计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};
S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。
进一步地,步骤4)具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),...,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为
S3:解出式(2)最优化函数为:
从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-Υ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。
进一步地,步骤5)具体步骤如下:
S1:以1≤C≤1000和0≤Υ≤100为范围,构建取值范围内所有C和Υ组成的参数对;
S2:依次取参数对(C,Υ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3:针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和Υ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,Υ0)。
进一步地,步骤6)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C0,Y_0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1};
S3:y’即为所求的消费维权指数计算结果。
本发明提供的方法基于统计学理论,结合最新的数据挖掘理论实施方法,采用SVM支持向量机构建标准化的消费维权计算模型,并提前以历史数据作为模型构建的基础,在现今计算机运算速度的支持下,能达到快速、科学、标准、客观的计算结果。
附图说明
图1为本发明的方法流程图。
具体实施方式
以下结合实例对本发明做进一步详细说明。
术语解释:
大数据分类算法:
大数据分类算法指的是以支持向量机、神经网络等为主的,以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。
支持向量机:
在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。
专家评分模型:
所谓评分就是对事物的某些属性或影响做出衡量。其实质是主体(评价者或评分专家)对客体(评价对象)本质属性及发展规律的认识。评价的过程是评价者根据对客体的认识程度及评价者本身的认识水平、价值观和心理因素对评价对象的属性加以描述的过程。联系主体与客体的桥梁和纽带是比较,即用某种确定的标准与评价对象相比较,专家评分的根本原则和手段也是比较。
本发明的具体操作步骤如下:
一种基于大数据分类算法的消费维权指数计算方法,
包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;
步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;参照表1,表1提供了一种分类的方法。
表1为按照14个评价领域提供的实施例示意表。
步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:
S1:专家评分模型建立;
所谓评分就是对事物的某些属性或影响做出衡量。其实质是主体(评价者或评分专家)对客体(评价对象)本质属性及发展规律的认识。评价的过程是评价者根据对客体的认识程度及评价者本身的认识水平、价值观和心理因素对评价对象的属性加以描述的过程。联系主体与客体的桥梁和纽带是比较,即用某种确定的标准与评价对象相比较,专家评分的根本原则和手段也是比较。消费维权指标体系中不同的二级指标对消费维权指数的的的重要性不同。要对消费维权指数进行定量的综合评价,就必须对各个指标重要性程度的大小用具体的数字来度量,通常用指标的权重来表示各指标在整个消费维权指标体系中的相对重要性程度。这就需要专家评分法来评定。
我们所用的专家评分法是专家调查法的一种应用。实际上就是一个由工作小组所组织的集体交流思想的过程,是在专家个人思考、判断的基础上对消费维权指数权重所开展的一种讨论,也就是充分发挥每个专家对消费维权指数的具体判断和分析,具体评分方法及对评分的处理如下:对数量和时间答案的处理如下表述:
式中为评价结果,p为正整数,n为专家数,专家评分值从大到小排列,则Xp+1公式表示奇数个专家评分的中位数,(Xp+Xp+1)/2表示偶数个专家评分的中位数。
S2:指标得分率计算;
具体步骤如下:
S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为{Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,···,n个专家对第i(i=1,2,···,n)领域的评分序分值,其值为j(j=1,2,···,m);
S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中
根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:
在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人
S3:将step2中计算得到的所有14个项目得分率Si组合成一个14维的向量x=[a1,a2,…,a14],该向量即表示一个投诉工单的评分情况。计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};
S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。
步骤4)构建SVM分类器;具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),...,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为
S3:解出式(2)最优化函数为:
从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-Υ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。
步骤5)训练分类模型;具体步骤如下:
S1:以1≤C≤1000和0≤Υ≤100为范围,构建取值范围内所有C和Υ组成的参数对;
S2:依次取参数对(C,Υ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3:针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和Υ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,Υ0)。
步骤6)应用模型预测结果。具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C0,Y_0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1};
S3:y’即为所求的消费维权指数计算结果。
传统方式中对消费维权指数的计算极大地依赖于消费维权涉及的金额数据,数据维度单一,不具备现实普遍性。本发明提供的方法基于统计学理论,结合最新的数据挖掘理论实施方法,采用SVM支持向量机构建标准化的消费维权计算模型,并提前以历史数据作为模型构建的基础,在现今计算机运算速度的支持下,能达到快速、科学、标准、客观的计算结果。

Claims (6)

1.一种基于大数据分类算法的消费维权指数计算方法,其特征在于,
包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;
步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;
步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:
S1:专家评分模型建立;
S2:指标得分率计算;
步骤4)构建SVM分类器;
步骤5)训练分类模型;
步骤6)应用模型预测结果。
2.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,
步骤3)中S1步骤的具体评分方法及对评分的处理如下:
对数量和时间答案的处理如下表述:
<mrow> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msub> <mi>X</mi> <mrow> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <mrow> <mi>n</mi> <mo>=</mo> <mn>2</mn> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>X</mi> <mrow> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>/</mo> <mn>2</mn> </mrow> </mtd> <mtd> <mrow> <mi>n</mi> <mo>=</mo> <mn>2</mn> <mi>p</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
式中为评价结果,p为正整数,n为专家数,专家评分值从大到小排列,则Xp+1公式表示奇数个专家评分的中位数,(Xp+Xp+1)/2表示偶数个专家评分的中位数。
3.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,
步骤3)具体步骤如下:
S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为{Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,…,n个专家对第i(i=1,2,…,n)领域的评分序分值,其值为j(j=1,2,…,m);
S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中
根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:
<mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>N</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>s</mi> <mi>i</mi> </msub> <mi>n</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>J</mi> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人
S3:将step2中计算得到的所有14个项目得分率Si组合成一个14维的向量x=[a1,a2,…,a14],该向量即表示一个投诉工单的评分情况,计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};
S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。
4.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,
步骤4)具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;Phi;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>c</mi> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;lsqb;</mo> <mrow> <mo>(</mo> <mi>W</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>Z</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>&amp;rsqb;</mo> <mo>&amp;GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mi>a</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>j</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>&amp;le;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&amp;le;</mo> <mi>C</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
S3:解出式(2)最优化函数为:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>&amp;lsqb;</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>b</mi> <mo>*</mo> </msup> <mo>&amp;rsqb;</mo> </mrow>
从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-γ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。
5.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,
步骤5)具体步骤如下:
S1:以1≤C≤1000和0≤Υ≤100为范围,构建取值范围内所有C和Υ组成的参数对;
S2:依次取参数对(C,Υ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3:针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和Υ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,Υ0)。
6.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,
步骤6)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C0,Υ_0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1};
S3:y’即为所求的消费维权指数计算结果。
CN201711361269.2A 2017-12-18 2017-12-18 一种基于大数据分类算法的消费维权指数计算方法 Pending CN108062392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711361269.2A CN108062392A (zh) 2017-12-18 2017-12-18 一种基于大数据分类算法的消费维权指数计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711361269.2A CN108062392A (zh) 2017-12-18 2017-12-18 一种基于大数据分类算法的消费维权指数计算方法

Publications (1)

Publication Number Publication Date
CN108062392A true CN108062392A (zh) 2018-05-22

Family

ID=62138801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711361269.2A Pending CN108062392A (zh) 2017-12-18 2017-12-18 一种基于大数据分类算法的消费维权指数计算方法

Country Status (1)

Country Link
CN (1) CN108062392A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389795A (zh) * 2018-09-05 2019-02-26 深圳市中电数通智慧安全科技股份有限公司 动态火灾风险评估方法、装置、服务器及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370374B1 (en) * 2007-07-27 2013-02-05 Sonicwall, Inc. On-the-fly pattern recognition with configurable bounds
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106897792A (zh) * 2017-01-10 2017-06-27 广东广业开元科技有限公司 一种建筑消防风险等级预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370374B1 (en) * 2007-07-27 2013-02-05 Sonicwall, Inc. On-the-fly pattern recognition with configurable bounds
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106897792A (zh) * 2017-01-10 2017-06-27 广东广业开元科技有限公司 一种建筑消防风险等级预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鞠姗: "贸易保护主义压力下的我国贸易摩擦预警模型", 《山东财政学院学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389795A (zh) * 2018-09-05 2019-02-26 深圳市中电数通智慧安全科技股份有限公司 动态火灾风险评估方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
Li et al. Application of interpretable machine learning models for the intelligent decision
Alvand et al. Identification and assessment of risk in construction projects using the integrated FMEA-SWARA-WASPAS model under fuzzy environment: a case study of a construction project in Iran
Haas et al. Compensating for non-homogeneity in decision-making units in data envelopment analysis
CN104321794B (zh) 一种使用多维评级来确定一实体的未来商业可行性的系统和方法
CN107944761A (zh) 基于人工智能消费维权指数企业投诉预警监测分析方法
Cheong Methods for Ex ante economic evaluation of Free Trade Agreements
Emrouznejad et al. A novel ranking procedure for forecasting approaches using Data Envelopment Analysis
Ghasemi et al. Assessing the performance of organizations with the hierarchical structure using data envelopment analysis: An efficiency analysis of Farhangian University
Ray et al. Short-term load forecasting using genetic algorithm
CN109146611A (zh) 一种电商产品质量信用指数分析方法及系统
Hartwich Weighting of agricultural research results: strength and limitations of the analytic hierarchy process (AHP)
Wanke et al. Revisiting camels rating system and the performance of Asean banks: a comprehensive mcdm/z-numbers approach
CN107992613A (zh) 一种基于机器学习的文本挖掘技术消费维权指标分析方法
CN103942604A (zh) 基于森林区分度模型的预测方法及系统
Shi et al. Data science and productivity: A bibliometric review of data science applications and approaches in productivity evaluations
Kaewchada et al. Random forest model for forecasting vegetable prices: a case study in Nakhon Si Thammarat Province, Thailand
Jiang et al. Uncertain random data envelopment analysis for technical efficiency
CN107909278A (zh) 一种编程能力综合评估的方法及系统
CN108062392A (zh) 一种基于大数据分类算法的消费维权指数计算方法
Ebrahimnejad et al. New model for improving discrimination power in DEA based on dispersion of weights
Grudzewski Application of dimensional analysis in economics
Cervelló-Royo et al. Probabilistic european country risk score forecasting using a diffusion model
Tsehayae et al. Data-driven approaches to discovering knowledge gaps related to factors affecting construction labor productivity
Schneider et al. Predicting energy consumption using machine learning
El Mouna et al. A Comparative Study of Urban House Price Prediction using Machine Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180522

WD01 Invention patent application deemed withdrawn after publication