CN113157763B - 具有指定行为信息的用户的精准识别系统及方法 - Google Patents
具有指定行为信息的用户的精准识别系统及方法 Download PDFInfo
- Publication number
- CN113157763B CN113157763B CN202110002706.1A CN202110002706A CN113157763B CN 113157763 B CN113157763 B CN 113157763B CN 202110002706 A CN202110002706 A CN 202110002706A CN 113157763 B CN113157763 B CN 113157763B
- Authority
- CN
- China
- Prior art keywords
- user
- model
- specified behavior
- training
- behavior information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 17
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims 2
- 230000006399 behavior Effects 0.000 abstract description 77
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computational Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Fuzzy Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种具有指定行为信息的用户的精准识别系统及方法,该方法包括:根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型;按照所述关键特征将采集的特定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出具有指定行为信息的用户。通过对成为具有指定行为信息的用户的潜在特征、关键特征进行逐步筛选,再结合最佳预测模型识别具有指定行为信息的用户,对特定行为的用户是否为第一用户进行准确的判断,提高预测准确率和效率。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种具有指定行为信息的用户的精准识别系统及方法。
背景技术
近年来,随着城镇化的进一步扩大,征地拆迁的现象越来越多,在房屋拆迁过程中,对于特定行为的用户配合意愿的准确有效把握是顺利推进拆迁工作的重要前提。
目前大部分地区在拆迁项目落地的过程中,仍然使用纯手工或者半手工方式进行管理,自动化的程度较低。对特定行为的用户配合程度的判断,也都是通过有经验的工作人员根据历史经验进行人为的主观判断而做出的。其具有主观性强、工作效率低、判断的精准程度不高等问题,容易导致后续相关部门拆迁工作难以顺利进行等诸多问题。
基于上述,现有技术中对于特定行为的用户的评估和识别存在主观性强、精准程度不高的问题。
上述缺陷是本领域技术人员期望克服的。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种具有指定行为信息的用户的精准识别系统及方法,进而至少在一定程度上克服现有技术中对特定行为的用户的评估和识别存在主观性强、精准程度不高的问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
本发明的一实施例提供一种具有指定行为信息的用户的精准识别方法,包括:
根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;
按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;
将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型;
按照所述关键特征将采集的拆迁户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出具有指定行为信息的用户。
在本发明一实施例中,所述历史数据中的指标类型包括特定行为的用户信息、房地信息、补偿信息、家庭收入支出信息、动态行为信息和直系亲属信息。
在本发明一实施例中,所述根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征包括:
将第一用户和第二用户的历史数据进行T检验分析;
根据分析结果删除与成为具有指定行为信息的用户相关性弱的特征,留下相关性强的特征作为模型训练特征。
在本发明一实施例中,所述特定行为的用户信息中包括特定行为的用户的年龄、性别、教育情况、婚姻状况、预设第一标准、职业、健康状况、医保、性格和预设第二标准10项有效指标;
所述房地信息包括房屋建造年份、本址户口数、本址人口数、房屋地址、宅基地面积、建筑面积、房屋来源、是否出租、是否承租、是否抵押、是否经营、是否宅基地换段、是否宅基地买卖、是否存在判决14项指标;
所述补偿信息包括补偿系数、补偿款、安置房面积、奖励补助、补助分配情况5项指标;
所述家庭收入支出信息包括家庭年总收入、总支出2项指标;
所述动态行为信息包括访问相关网页的情况1项指标;
所述直系亲属信息包括年龄、性别、与户主关系、职业、教育情况5项指标。
在本发明一实施例中,所述潜在特征包括以下至少一项:
所述特定行为的用户的信息包括教育状况为小学、初中或高中;
所述房地信息包括房屋来源为祖遗;
所述补偿信息包括补偿系数为补偿款与房屋面积比值;
所述家庭收入支出信息包括家庭年总支出值;
所述动态行为信息包括访问相关网页的频次超过10次或停留时间超过20分钟中的至少一项或两项;
所述直系亲属信息包括直系亲属中父辈以上老人与抚养子女。
在本发明一实施例中,所述回归模型为:
其中P为特定行为的用户成为第一用户的概率,表示对结果Y的n个潜在特征,/>为常数项;/>为Logistic回归的偏回归系数;
P的计算公式为:
。
在本发明一实施例中,所述回归模型为对样本数据中的训练集进行回归拟合得到的模型。
在本发明一实施例中,将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型包括:
将所述样本数据中的测试集输入到所述原始训练模型进行训练;
通过调整模型参数进行多次反复训练;
针对多次训练得到预测准确率最高的模型作为最佳预测模型。
在本发明一实施例中,所述样本数据中的70%历史数据作为训练集,30%历史数据作为测试集。
本发明的另一实施例还提供一种具有指定行为信息的用户的精准识别系统,包括:
数据预处理模块,用于根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;
特征选择模块,用于按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;
模型确定模块,用于将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型;
预测识别模块,用于按照所述关键特征将采集的特定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出第一用户。
(三)有益效果
本发明的有益效果是:本发明实施例提供的具有指定行为信息的用户的精准识别系统及方法,通过对成为具有指定行为信息的用户的潜在特征、关键特征进行逐步筛选,再结合最佳预测模型识别具有指定行为信息的用户,主要是根据数据进行客观判断,避免人为主观判断的准确率低和效率低的问题,对拆迁户是否为具有指定行为信息的用户进行准确的判断,提高预测准确率和效率。
附图说明
图1为本发明一个实施例提供的一种具有指定行为信息的用户的精准识别方法的流程图;
图2为本实施例中实现上述预测过程的原理图;
图3为本发明另一实施例中还提供一种具有指定行为信息的用户的精准识别系统的示意图;
图4是根据本发明一实施例示出的一种电子设备的计算机系统的结构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明实施例中具有指定行为信息的用户可理解为具有拆迁行为信息的拆迁用户。第一用户可以理解为具有拆迁行为信息的重点户,第二用户可以理解为不具有拆迁行为信息的非重点户。
预设第一标准、预设第二标准为根据参加的活动组织的划分类型进行划分的。
拆迁人、拆迁户可以理解为特定行为的用户。
本发明在广泛分析研究各行业领域预测模型的基础上,结合房地产行业的特点,结合一手的调查户统计数据资料和业务需求进行创新。本发明在利用统计方法识别具有指定行为信息的用户潜在特征的基础上,将这些重要的特征变量纳入到logit回归模型进行具有指定行为信息的用户的精准识别,通过算法模型得出某一特定行为的用户是否成为第一用户的预测结果。
图1为本发明一个实施例提供的一种具有特定行为信息的用户精准识别方法的流程图,如图1所示,具体包括以下步骤:
如图1所示,在步骤S110中,根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;
如图1所示,在步骤S120中,按照潜在特征将样本数据中相应的数据项输入到回归模型,确定关键特征;
如图1所示,在步骤S130中,将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型;
如图1所示,在步骤S140中,按照所述关键特征将采集的特定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出具有指定行为信息的用户。
基于上述方法,通过对成为具有指定行为信息的用户的潜在特征、关键特征进行逐步筛选,再结合最佳预测模型识别具有指定行为信息的用户,主要是根据数据进行客观判断,避免人为主观判断的准确率低和效率低的问题,对特定行为的用户是否为具有指定行为信息的用户进行准确的判断,提高预测准确率和效率。
以下对图1所示方法进行详细介绍:
在步骤S110中,根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征。
在本发明一实施例中,所述历史数据中的指标类型包括特定行为的用户信息、房地信息、补偿信息、家庭收入支出信息、动态行为信息和直系亲属信息。
在本发明一实施例中,所述根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征包括:
将第一用户和第二用户的历史数据进行T检验分析;
根据分析结果删除与成为具有指定行为信息的用户相关性弱的特征,留下相关性强的特征作为模型训练特征。
通过该步骤在所有基础特征中筛选出对于第一用户和第二用户之间存在显著差异的指标类型作为潜在特征。
T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如),总体标准差/>未知的正态分布。 T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
例如,本实施例中选取205户拆迁户作为分析样本。其中,第一用户为73户,占35.6%。第二用户为132,占64.4%。第一用户和第二用户在样本数量上相对平衡,为本模型算法的科学开发提供了良好的样本支撑保障。
拆迁样本的变量十分丰富,包含六大类指标,每一类都包含有若干有效指标,可为全面精准的识别具有指定行为信息的用户提供了全面的指标支持,具体为:
(1)特定行为的用户的信息中包括特定行为的用户的年龄、性别、教育情况、婚姻状况、预设第一标准、职业、健康状况、医保、性格和预设第二标准10项有效指标;
(2)所述房地信息包括房屋建造年份、本址户口数、本址人口数、房屋地址、宅基地面积、建筑面积、房屋来源、是否出租、是否承租、是否抵押、是否经营、是否宅基地换段、是否宅基地买卖、是否存在判决14项指标;
(3)所述补偿信息包括补偿系数(补偿款与建筑面积之比)、补偿款、安置房面积、奖励补助、补助分配情况5项指标;
(4)所述家庭收入支出信息包括家庭年总收入、总支出2项指标;
(5)所述动态行为信息包括访问相关网页的情况1项指标;
(6)所述直系亲属信息包括年龄、性别、与户主关系、职业、教育情况5项指标。
基于上述6种类型的数据,根据步骤S110得到所述潜在特征包括以下至少一项:
所述特定行为的用户的信息包括教育状况为小学、初中或高中;
所述房地信息包括房屋来源为祖遗;
所述补偿信息包括补偿系数为补偿款与房屋面积比值;
所述家庭收入支出信息包括家庭年总支出值;
所述动态行为信息包括访问相关网页的频次超过10次或停留时间超过20分钟中的至少一项或两项;
所述直系亲属信息包括直系亲属中父辈以上老人与抚养子女。
例如,如果潜在因素中可以为:房屋来源与具有指定行为信息的用户,特定行为的用户的基础特征主要为:性别、年龄、年龄超过80岁、教育状况(文盲、小学、初中、高中、本科、研究生及以上)、婚姻状况(有配偶、离异、未婚、丧偶)、预设第一标准、性格(开朗、内向、介于两者之间)、愿意听取他人意见(愿意、一般、不愿意)、职业(务农、打工、个体、企事业单位、医生、教师、军人、公检法、出租、电工、学生、其他)、健康状况、大病、工伤、残退军人、精神障碍、低保、违法服刑、退休干部、军烈属、特定职业、房屋建造年份、本址户口数、本址人口数、地址、宅基地面积、建筑面积、房屋来源、是否出租、是否承租、是否抵押、是否经营、是否宅基地换段、是否宅基地买卖、是否存在判决、补偿款、安置房面积、其他奖励补助、家庭补偿分配情况、家庭总收入。
基于步骤S110对历史数据中的所有特征进行数据预处理,目的是处理数据中的缺失值、异常值、重复数据等进行处理,缺失值、异常值等进行预先设定的标准进行补齐,对重复数据进行删除等。
在步骤S120中,按照潜在特征将样本数据中相应的特征输入到回归模型,确定关键特征。
在本发明一实施例中,所述回归模型为对样本数据中的训练集进行回归拟合得到的模型。例如,所述回归模型为:
其中P为特定行为的用户成为第一用户的概率,表示对结果Y的n个潜在因素,/>为常数项;/>为Logistic回归的偏回归系数;
P的计算公式为:
Logistic回归模型是一种对二分类或多分类因变量进行回归分析时经常采用的统计方法,与线性回归不同,Logistic回归是一种非线性模型,普遍采用的参数估计方法是最大似然估计法。Logistic逐步回归方法基于数据的抽样,可以筛选出对事件发生与否影响较为显著的因素(如在本实施例中确定关键因素),同时剔除不显著的因素,并能为每个显著的因素产生回归系数,这些系数通过一定的权重运算法则被解释为生成特定土地利用类别的变化概率。
而根据Logistic回归建模的要求,某事件在一组自变量作用下所发生的结果用指示变量/>表示,本实施例中/>表示特定行为的用户是否会成为第一用户,其赋值规则为:
是第一用户;
是第二用户。
基于上述训练模型可以确定关键因素的特征为:房屋来源为祖遗,教育状况为小学、初中或高中,补偿系数。
需要说明的是,本实施例中步骤S110确定潜在特征和步骤S120确定关键特征可以合并在一个步骤完成。
在步骤S130中,将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型。
在本发明一实施例中,该步骤具体为:
将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型包括:
将所述样本数据中的测试集输入到所述原始训练模型进行训练;
通过调整模型参数进行多次反复训练;
针对多次训练得到预测准确率最高的模型作为最佳预测模型。
由于本发明的目的在于识别和预测特定行为的用户是否为第一用户,上述步骤中,进行训练的算法模型所对应的是因变量为0(非重点户户)或1(重点户)的情景。在这种因变量为离散变量的情况下,一般的回归模型并不奏效,而逻辑回归 (logisticregression)模型能取得良好的分析和预测效果。
其中所述原始预测模型为回归模型时,发生比率(oddsratio)是用来解释各自变量的 Logistic回归系数的,发生比率用参数估计值的指数来计算,公式如下:
Logistic回归模型的预测能力通过得到最大似然估计的表格来评价,它包括回归系数、回归系数估计的标准差、回归系数估计的Wald统计量和回归系数估计的显著性水平。回归系数为正值表示解释变量每增加一个单位值时发生比会相应增加,相反,当回归系数为负值时说明增加一个单位值时发生比会相应减少。Wald统计量表示在模型中每个解释变量的相对权重,用来评价每个解释变量对事件预测的贡献力。
在本发明一实施例中,关于回归效果的检验,使用PontiusR.C.提出的 ROC(RelativeOperatingCharacteristics)进行检验。该步骤利用测试集对原始预测模型进行预测,得到预测准确率(预测正确数量与测试集总数之比,得出预测准确率最高的模型为最佳预测模型。
在本发明一实施例中,训练集与测试集的分配比例可以为:所述样本数据中的70%历史数据作为训练集,30%历史数据作为测试集。
在步骤S140中,按照所述关键特征将采集的特定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出第一用户。
图2为本实施例中实现上述预测过程的原理图,如图2所示,分为在线预测和离线预测模型两部分,在离线模型部分,首先根据数据库中的训练集进行特征选择,即确定出关键因素;再根据关键特征生成新的训练集来构建预测模型,输入测试集数据进行预测,根据预测模型准确率,筛选出最佳预测模型,最终利用关键特征和最佳预测模型对实时采集的拆迁户数据进行预测,确定该特定行为的用户是否为第一用户。
综上所述,采用本发明实施例提供的技术方案,通过对成为具有指定行为信息的用户的潜在特征、关键特征进行逐步筛选,再结合最佳预测模型识别具有指定行为信息的用户,主要是根据数据进行客观判断,避免人为主观判断的准确率低和效率低的问题,对特定行为的用户是否为第一用户进行准确的判断,提高预测准确率和效率。
与上述方法相对应的,图3为本发明另一实施例中还提供一种具有特定行为信息的用户的精准识别系统的示意图,如图3所示,该系统300包括:数据预处理模块310、特征选择模块320、模型确定模块330和预测识别模块340。
其中数据预处理模块310用于根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;特征选择模块320用于按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;模型确定模块330用于将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型;预测识别模块340用于按照所述关键特征将采集的特定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出第一用户。
采用本发明实施例提供的具有特定行为信息的用户的精准识别系统的技术效果参见上述方法的技术效果,此处不再赘述。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。图4示出的电子设备的计算机系统400仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统操作所需的各种程序和数据。CPU401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的在线平台数据传输方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S110,根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;步骤S120,按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;步骤S130,将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型;步骤S140,按照所述关键特征将采集的特定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出第一用户。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (8)
1.一种具有指定行为信息的用户的精准识别方法,其特征在于,包括:
离线训练模型阶段,根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;
其中,所述根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征包括:
对历史数据中的所有特征进行数据预处理,将预处理后的第一用户和第二用户的历史数据进行T检验分析;根据分析结果删除与成为具有指定行为信息的用户相关性弱的特征,留下相关性强的特征作为模型训练特征;
按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;
将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型,包括:
将所述样本数据中的训练集输入到原始预测模型进行训练;
通过调整模型参数进行多次反复训练;
针对多次训练得到的预测模型,输入测试集数据进行预测,预测准确率最高的模型作为最佳预测模型;
在线预测阶段,按照所述关键特征将采集的指定行为的用户实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出具有指定行为信息的用户;
第一用户为具有指定行为信息的用户,第二用户包括非第一用户的用户。
2.如权利要求1所述的具有指定行为信息的用户的精准识别方法,其特征在于,所述历史数据中的指标类型包括指定行为的用户的信息、房地信息、补偿信息、家庭收入支出信息、动态行为信息和直系亲属信息。
3.如权利要求2所述的具有指定行为信息的用户的精准识别方法,其特征在于,所述指定行为的用户的信息中包括指定行为的用户的年龄、性别、教育情况、婚姻状况、预设第一标准、职业、健康状况、医保、性格和预设第二标准10项有效指标;
所述房地信息包括房屋建造年份、本址户口数、本址人口数、房屋地址、宅基地面积、建筑面积、房屋来源、是否出租、是否承租、是否抵押、是否经营、是否宅基地换段、是否宅基地买卖、是否存在判决14项指标;
所述补偿信息包括补偿系数、补偿款、安置房面积、奖励补助、补助分配情况5项指标;
所述家庭收入支出信息包括家庭年总收入、总支出2项指标;
所述动态行为信息包括访问相关网页的情况1项指标;
所述直系亲属信息包括年龄、性别、与户主关系、职业、教育情况5项指标。
4.如权利要求3所述的具有指定行为信息的用户的精准识别方法,其特征在于,所述潜在特征包括以下至少一项:
所述指定行为的用户的信息包括教育状况为小学、初中或高中;
所述房地信息包括房屋来源为祖遗;
所述补偿信息包括补偿系数为补偿款与房屋面积比值;
所述家庭收入支出信息包括家庭年总支出值;
所述动态行为信息包括访问相关网页的频次超过10次或停留时间超过20分钟中的至少一项或两项;
所述直系亲属信息包括直系亲属中父辈以上老人与抚养子女。
5.如权利要求1所述的具有指定行为信息的用户的精准识别方法,其特征在于,所述回归模型为:
;
其中P为指定行为的用户成为第一用户的概率,表示对结果Y的n个潜在特征,/>为常数项;/>为Logistic回归的偏回归系数;
P的计算公式为:
。
6.如权利要求1所述的具有指定行为信息的用户的精准识别方法,其特征在于,所述回归模型为对样本数据中的训练集进行回归拟合得到的模型。
7.如权利要求1所述的具有指定行为信息的用户的精准识别方法,其特征在于,所述样本数据中的70%历史数据作为训练集,30%历史数据作为测试集。
8.一种具有指定行为信息的用户的精准识别系统,其特征在于,包括:
数据预处理模块,用于根据第一用户和第二用户的历史数据筛选出成为具有指定行为信息的用户的潜在特征;其中,对历史数据中的所有特征进行数据预处理,将预处理后的第一用户和第二用户的历史数据进行T检验分析;根据分析结果删除与成为具有指定行为信息的用户相关性弱的特征,留下相关性强的特征作为模型训练特征;
特征选择模块,用于按照潜在特征将样本数据中相应的特征值输入到回归模型,确定关键特征;
模型确定模块,用于将所述样本数据输入到原始训练模型进行反复拟合训练,得到最佳预测模型,包括:
将所述样本数据中的训练集输入到原始预测模型进行训练;
通过调整模型参数进行多次反复训练;
针对多次训练得到的预测模型,输入测试集数据进行预测,预测准确率最高的模型作为最佳预测模型;
预测识别模块,用于按照所述关键特征将采集的指定行为的用户的实际数据中对应的特征值输入到所述最佳预测模型,根据预测结果识别出第一用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110002706.1A CN113157763B (zh) | 2021-01-04 | 2021-01-04 | 具有指定行为信息的用户的精准识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110002706.1A CN113157763B (zh) | 2021-01-04 | 2021-01-04 | 具有指定行为信息的用户的精准识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113157763A CN113157763A (zh) | 2021-07-23 |
CN113157763B true CN113157763B (zh) | 2023-10-13 |
Family
ID=76878334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110002706.1A Active CN113157763B (zh) | 2021-01-04 | 2021-01-04 | 具有指定行为信息的用户的精准识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157763B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997493A (zh) * | 2017-02-14 | 2017-08-01 | 云数信息科技(深圳)有限公司 | 基于多维度数据的彩票用户流失预测方法及其系统 |
CN109242257A (zh) * | 2018-08-09 | 2019-01-18 | 广州瀚信通信科技股份有限公司 | 一种基于关键指标关联分析的4g上网用户投诉模型 |
CN110428270A (zh) * | 2019-08-07 | 2019-11-08 | 佰聆数据股份有限公司 | 基于逻辑回归算法的渠道潜在偏好客户识别方法 |
CN110874758A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 潜在客户预测方法、装置、系统、电子设备、存储介质 |
-
2021
- 2021-01-04 CN CN202110002706.1A patent/CN113157763B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997493A (zh) * | 2017-02-14 | 2017-08-01 | 云数信息科技(深圳)有限公司 | 基于多维度数据的彩票用户流失预测方法及其系统 |
CN109242257A (zh) * | 2018-08-09 | 2019-01-18 | 广州瀚信通信科技股份有限公司 | 一种基于关键指标关联分析的4g上网用户投诉模型 |
CN110874758A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 潜在客户预测方法、装置、系统、电子设备、存储介质 |
CN110428270A (zh) * | 2019-08-07 | 2019-11-08 | 佰聆数据股份有限公司 | 基于逻辑回归算法的渠道潜在偏好客户识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113157763A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180260891A1 (en) | Systems and methods for generating and using optimized ensemble models | |
Nazari et al. | Measuring credit risk of bank customers using artificial neural network | |
Ic et al. | Development of a quick credibility scoring decision support system using fuzzy TOPSIS | |
CN112734559B (zh) | 企业信用风险评价方法、装置及电子设备 | |
Gül et al. | A multiple criteria credit rating approach utilizing social media data | |
Ramezanian et al. | Forecasting health expenditures in Iran using the ARIMA model (2016-2020) | |
Shokouhyar et al. | Implementing a fuzzy expert system for ensuring information technology supply chain | |
Vivek et al. | Identification and analysing of risk factors affecting cost of construction projects | |
CN111738819A (zh) | 表征数据筛选方法、装置和设备 | |
US11995667B2 (en) | Systems and methods for business analytics model scoring and selection | |
Ritchi et al. | Research Program On Key Success Factors of e-government and their impact on accounting information quality | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
Ugur et al. | Information asymmetry, risk aversion and R&D subsidies: effect-size heterogeneity and policy conundrums | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
OKOTH | Effects of tax incentives and subsidies on economic growth in developing economies | |
CN113157763B (zh) | 具有指定行为信息的用户的精准识别系统及方法 | |
Saad et al. | A Comprehensive Rating Tool for Sustainability Assessment of Manufacturing Organizations: A Step Towards Sustainable Manufacturing | |
Trancik | Testing and improving technology forecasts for better climate policy | |
US20220164374A1 (en) | Method of scoring and valuing data for exchange | |
US20220058658A1 (en) | Method of scoring and valuing data for exchange | |
TWI792101B (zh) | 基於確定值及預測值的數據定量化方法 | |
Randelovic et al. | An Approach to Determining the Importance of Model Criteria in Certifying a City as Business-Friendly. | |
Hajducek et al. | Duration analysis in longitudinal studies with intermittent observation times and losses to followup | |
Lu et al. | How to gauge credit risk: an investigation based on data envelopment analysis and the Markov chain model | |
Allaymoun et al. | Leveraging Human Resource Information Systems and Artificial Intelligence in Predicting Employee Satisfaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |