CN107729940A - 一种用户话单大数据基站连接信息用户关系推定方法 - Google Patents

一种用户话单大数据基站连接信息用户关系推定方法 Download PDF

Info

Publication number
CN107729940A
CN107729940A CN201710982406.8A CN201710982406A CN107729940A CN 107729940 A CN107729940 A CN 107729940A CN 201710982406 A CN201710982406 A CN 201710982406A CN 107729940 A CN107729940 A CN 107729940A
Authority
CN
China
Prior art keywords
user
information
base station
certain time
bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710982406.8A
Other languages
English (en)
Inventor
曹万鹏
史辉
罗云彬
李鹏
李�浩
徐青
林绍福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710982406.8A priority Critical patent/CN107729940A/zh
Publication of CN107729940A publication Critical patent/CN107729940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于的用户话单大数据基站连接信息用户关系推定方法,包括如下步骤:(1)基于话单大数据信息,发掘能从根本上反映不同用户之间关系亲疏程度的相关特征数据;(2)对所要分析用户间上述话单数据中基站数据进行分析,对上述相关特征信息进行提取、分析和处理;(3)根据上述特征信息,采用分类算法,对分类模型进行训练并基于训练所得分类模型在上述地点中对用户关系的紧密程度进行计算,进而基于该计算结果推断用户之间可能的亲密程度。

Description

一种用户话单大数据基站连接信息用户关系推定方法
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于 Bayes的用户话单大数据基站连接信息用户关系推定方法。
背景技术
分类算法就是基于分类器模型为待检测样本从可选的分类中选取最佳的类别假设,它属于人工智能中机器学习范畴,已经吸引了该领域相关研究者的极大关注。人们投入了大量的时间和精力研究诸如C4.5、支持向量机、贝叶斯算法、AdaBoost算法和K-最近邻分类算法等分类算法,并将它们应用于面部识别、笔迹验证、数据分析和医学应用等不同领域。
而贝叶斯算法中,朴素贝叶斯分类器(Naive Bayes Classifiers)由于其高精度、高效率、理论基础坚实等优点而得到了广泛应用。朴素贝叶斯分类器是基于给定分类特征条件下属性值之间相互条件独立的假设而工作的。尽管现实中这种独立性假设常常难以满足,但近期对监督性学习的研究表明在很多领域,基于这一假设的朴素贝叶斯分类器在分类性能上可以与决策树算法、最近邻算法等一批优秀分类算法相媲美。
朴素贝叶斯分类器有以下特征,它并不确定的指定样本属于哪一类,而是通过概率的计算给出样本属于某一类别的可能。当样本属于某一类的概率最高时,判断这一分类假设为该样本的类别。假设A1,A2,…,An是一个n个特征的数据集,且有m个分类类别,C={C1,C2,C3,…,Cm}。给定一个具体的样本x,其对应特征属性为a1,a2,...,an,这里ai是特征属性Ai的具体取值,该样本属于某一类别Ci的后验概率是P(x|Ci),c(x)表示分类所得的样本分类标签。贝叶斯分类器模型可表示为:
c(x)=arg max P(Ci)P(X|Ci) (I)
但是上述公式的后验概率常难以计算,因此朴素贝叶斯分类器引入了以下假设:在给定类别C的条件下,所有的属性Ai相互独立。即:
在朴素贝叶斯分类算法中,既可以独立的学习每个特征属性Ai在类别C下的条件概率P(Ai|C),也可以独立学习每个属性Ai的概率。因为P(C)值为常数,可用归一化因子a来代替。然后,分类器应用贝叶斯公式计算特定样本数据在给定属性值下类别的后验概率为:
决定朴素贝叶斯分类算法性能的一个重要因素是样本特征的选择,好的样本特征选择可以提高分类器的分类性能,而一个不恰当的特征选取必然导致误判率的增高。本发明基于用户之间通信相关特征、基站连接相关特征与用户亲疏度之间的关系,提出基于用户话单大数据中基站连接信息的用户关系推定方法与系统。
发明内容
基于用户之间通话相关特征、基站连接相关特征与用户亲疏度之间的关系,提供一种基于 Bayes的用户话单大数据基站连接信息用户关系推定方法,通过对一般用户生活特征的分析,基于统计方法进行这几个特征的计算:1、计算用户间互通话信息(频次、时长、粘度等);2、计算用户间相同基站连接信息(频次、粘度、时间点等)。根据上述信息,基于 Bayes分类算法,采用用户话单大数据相关统计量,对用户的可能亲疏程度进行准确判断,使得最终基于 Bayes算法的分类器分类效果更佳、分类精度更高。
一种用户话单大数据基站连接信息用户关系推定方法,包括如下步骤:
(1)基于话单大数据信息,发掘能从根本上反映不同用户之间关系亲疏程度的相关特征数据;
在话单大数据中定位某用户及其连接的全部基站信息,寻找这些基站下与该用户同时出现的其他用户,包括用户间通话的相关信息(全部),共同出现在相同基站下的频次信息,出现在相同基站下的频次信息,一定时间内共同出现在相同基站下的粘度信息,出现在相同基站下的时间点信息(早、中、晚;工作日、休息日;节假日等),上述信息的离散度信息等相关数据;
(2)对所要分析用户间上述话单数据中基站数据进行分析,对上述相关特征信息进行提取、分析和处
本发明涉及到对话单中可以推断用户之间亲疏程度信息的挖掘、计算、分析,它们决定了是否可以准确、高效的对用户的亲疏度进行推断。
(3)根据上述特征信息,采用 Bayes分类算法,对分类模型进行训练并基于训练所得分类模型在上述地点中对用户关系的紧密程度进行计算,进而基于该计算结果推断用户之间可能的亲密程度。
与现有技术相比,本发明具有以下明显的优势和有益效果:
(1)本发明提出一种基于 Bayes的用户话单大数据基站连接信息用户关系推定方法,算法根据用户话单中通信相关特征、基站连接相关特征与用户亲疏度之间所呈现出的关系,从话单大数据中发掘出最可靠的,能从根本上反馈用户亲疏程度关系的相关分类特征,基于 Bayes相关计算公式,实现了用户关系亲疏度的推定。
(2)本发明采用 Bayes分类算法到用户的话单大数据分析、挖掘中,并基于统计方法构建一系列根本性、独立性的特征属性,消除特性间的干扰项,降低 Bayes算法自身假设所导致误差,对用户的亲疏程度进行准确推断,使得最终基于 Bayes算法的分类器分类效果更佳、分类精度更高。
附图说明
图1为一种基于 Bayes的用户话单大数据基站连接信息用户关系推定方法的流程图;
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所示,本发明提供一种基于 Bayes的用户话单大数据基站连接信息用户关系推定方法包括以下步骤:
(1)话单大数据中兴趣用户相关信息分析、查找
在话单大数据中定位相关的兴趣用户(目标用户)全部通话信息和基站连接信息。同时,基于用户之间通话相关特征、基站连接相关特征,查找能反应用户之间亲疏程度的相关特征,主要包括一定时间内,用户间通话的相关信息(全部),共同出现在相同基站下的频次信息,出现在相同基站下的频次信息,一定时间内共同出现在相同基站下的粘度信息,出现在相同基站下的时间点信息(早、中、晚;工作日、休息日;节假日),上述信息的离散度信息等相关数据;
(2)用户特征信息提取
在话单大数据库中对相关用户的上述特征进行提取,具体为在oracle数据库中,为不同目标用户分别建立通话对象表,连接基站及对应时间表,通过排序、比对等程序计算相关参数,获取用户特征信息;
(3)用户特征信息统计、计算
在话单大数据库中对目标用户的上述特征进行统计、计算,
一定时间内,用户间通话的相关信息计算:计算一定时间内该用户与不同用户间的通话次数,并通过与一定时间内全部统计用户间通话最大次数相除进行归一化,得到参数c;
共同出现在相同基站下的频次信息计算:计算一定时间内话单中不同两用户同时出现在相同基站下的频次,并通过与全部统计用户间一定时间内同时出现在相同基站下的最大频次相除进行归一化,得到参数o;
一定时间内共同出现在相同基站下的粘度信息:计算一定时间内两用户出现在相同基站下的频次(可以同时,也可以非同时),并通过与全部统计用户间一定时间内同时出现在相同基站下的最大频次相除进行归一化,得到参数p;
一定时间点出现在相同基站下的时间点信息(早、中、晚;工作日、休息日;节假日):
对用户出现的时间点进行统计,并依据上述信息对用户进行预分类,例如同事(非早晚,工作日,定义为时间s)、家人(早、晚、休息日、节假日定义为时间n)等。
(4)首先利用部分已知用户的上述信息,基于 Bayes算法对分类模型进行训练
本发明中,基于 Bayes算法和上述步骤3中相关特征(至少包括上述特征,但不限于上述特征)对分类模型 Bayes进行训练,给出基于本发明方案和 Bayes算法训练所得的用户关系分类器模型,即用户之间属于不同关系的概率,概率越大说明关系越亲近,以下公式(4)和(5)分别对应家人关系亲疏程度判定和同事关系亲疏程度判定:
P(R=r|A1=c,A2=o,A3=p,A4=n)=(c+o+p)/3 (4)
P(R=r|A1=c,A2=o,A3=p,A5=s)=(c+o+p)/3 (5)
(5)基于 Bayes分类模型的用户亲疏度推定
本发明中对于话单中未知目标用户,采用公式4或5,基于上述特征训练所得Bayes分类器和经验所得关系阈值对不同用户之间的关系亲疏程度进行推定。
本发明的基于 Bayes的用户话单大数据基站连接信息用户关系推定方法,涉及到以下几个步骤:1、在话单大数据中定位某用户及其连接的全部基站信息,统计这些基站下与该用户同时出现的用户,包括这些用户相互间通话、短信的信息(全部),共同出现在相同基站下的频次信息,出现在相同基站下的时长信息,一定时间内共同出现在相同基站下的粘度信息(共同出现在基站的持续时间,例如,一个月、一个季度、一年),出现在相同基站下的时间点信息(早、中、晚;工作日、休息日;节假日);2、在话单数据中对所要分析用户的上述基站特征数据进行提取、分析、计算,给出话单数据中的特征信息;3、根据上述特征信息,采用 Bayes分类算法,对用户关系的紧密度进行推断(例如:亲密、紧密、熟悉、一般、不认识等)。其中,第2个步骤中,涉及到对话单中可以推断用户间亲疏度关系的特征信息的挖掘、计算、分析,它们决定了是否可以准确、高效的对用户关系进行推断。本发明基于用户之间通信相关特征、基站连接相关特征与用户亲疏度之间的关系,提出基于用户话单大数据中基站连接信息的用户关系推定方法与系统。通过对用户之间亲疏程度在话单大数据中体现特征的分析,基于统计方法进行以下几个特征的计算:1、计算用户间互通话(短信)信息(频次、时长、粘度等);2、计算用户间相同基站连接信息(频次、粘度、时间点)。根据上述信息,基于 Bayes分类算法,对用户间的亲疏程度进行准确推断,使得最终基于 Bayes算法的分类器分类效果更佳、分类精度更高,进而实现对电信运营商话单数据的充分利用和二次运营。

Claims (1)

1.一种用户话单大数据基站连接信息用户关系推定方法,其特征在于,包括以下步骤:
步骤(1)话单大数据中兴趣用户相关信息分析、查找
在话单大数据中定位相关的兴趣用户(目标用户)全部通话信息和基站连接信息,同时,基于用户之间通话相关特征、基站连接相关特征,查找能反应用户之间亲疏程度的相关特征;
步骤(2)用户特征信息提取
在话单大数据库中对相关用户的上述特征进行提取;
步骤(3)在话单大数据库中对目标用户的上述特征进行统计、计算,
一定时间内,用户间通话的相关信息计算:计算一定时间内该用户与不同用户间的通话次数,并通过与一定时间内全部统计用户间通话最大次数相除进行归一化,得到参数c;
共同出现在相同基站下的频次信息计算:计算一定时间内话单中不同两用户同时出现在相同基站下的频次,并通过与全部统计用户间一定时间内同时出现在相同基站下的最大频次相除进行归一化,得到参数o;
一定时间内共同出现在相同基站下的粘度信息:计算一定时间内两用户出现在相同基站下的频次,并通过与全部统计用户间一定时间内同时出现在相同基站下的最大频次相除进行归一化,得到参数p;
一定时间点出现在相同基站下的时间点信息(早、中、晚;工作日、休息日;节假日):对用户出现的时间点进行统计,并依据上述信息对用户进行预分类,同事(非早晚,工作日,定义为时间s)、家人(早、晚、休息日、节假日定义为时间n);
步骤(4)首先利用部分已知用户的上述信息,基于 Bayes算法对分类模型进行训练
基于 Bayes算法和上述步骤3中相关特征对分类模型 Bayes进行训练,给出基于本发明方案和 Bayes算法训练所得的用户关系分类器模型,即用户之间属于不同关系的概率,概率越大说明关系越亲近,以下公式(4)和(5)分别对应家人关系亲疏程度判定和同事关系亲疏程度判定:
P(R=r|A1=c,A2=o,A3=p,A4=n)=(c+o+p)/3 (4)
P(R=r|A1=c,A2=o,A3=p,A5=s)=(c+o+p)/3 (5)
(5)基于 Bayes分类模型的用户亲疏度推定
对于话单中未知目标用户,采用公式4或5,基于上述特征训练所得 Bayes分类器和经验所得关系阈值对不同用户之间的关系亲疏程度进行推定。
CN201710982406.8A 2017-10-20 2017-10-20 一种用户话单大数据基站连接信息用户关系推定方法 Pending CN107729940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710982406.8A CN107729940A (zh) 2017-10-20 2017-10-20 一种用户话单大数据基站连接信息用户关系推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710982406.8A CN107729940A (zh) 2017-10-20 2017-10-20 一种用户话单大数据基站连接信息用户关系推定方法

Publications (1)

Publication Number Publication Date
CN107729940A true CN107729940A (zh) 2018-02-23

Family

ID=61212919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710982406.8A Pending CN107729940A (zh) 2017-10-20 2017-10-20 一种用户话单大数据基站连接信息用户关系推定方法

Country Status (1)

Country Link
CN (1) CN107729940A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933705A (zh) * 2019-03-22 2019-06-25 国家电网有限公司 一种大数据平台运维管理系统
CN110337059A (zh) * 2018-03-30 2019-10-15 中国联合网络通信集团有限公司 一种用户家庭关系的分析算法、服务器及网络系统
CN110677269A (zh) * 2018-07-03 2020-01-10 中国电信股份有限公司 通信用户关系的确定方法、装置和计算机可读存储介质
CN110971770A (zh) * 2019-11-27 2020-04-07 武汉虹旭信息技术有限责任公司 基于话单数据分析的社会关系疏密度推定方法及系统
CN111092764A (zh) * 2019-12-18 2020-05-01 电信科学技术第五研究所有限公司 一种实时动态亲密度关系分析方法及系统
CN113115200A (zh) * 2019-12-24 2021-07-13 中国移动通信集团浙江有限公司 用户关系识别方法、装置及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1606754A2 (en) * 2003-03-25 2005-12-21 Sedna Patent Services, LLC Generating audience analytics
CN105636102A (zh) * 2016-02-04 2016-06-01 林华珍 一种基于贝叶斯后验概率的定位方法及装置
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1606754A2 (en) * 2003-03-25 2005-12-21 Sedna Patent Services, LLC Generating audience analytics
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN105636102A (zh) * 2016-02-04 2016-06-01 林华珍 一种基于贝叶斯后验概率的定位方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110337059A (zh) * 2018-03-30 2019-10-15 中国联合网络通信集团有限公司 一种用户家庭关系的分析算法、服务器及网络系统
CN110337059B (zh) * 2018-03-30 2021-03-12 中国联合网络通信集团有限公司 一种用户家庭关系的分析算法、服务器及网络系统
CN110677269A (zh) * 2018-07-03 2020-01-10 中国电信股份有限公司 通信用户关系的确定方法、装置和计算机可读存储介质
CN109933705A (zh) * 2019-03-22 2019-06-25 国家电网有限公司 一种大数据平台运维管理系统
CN109933705B (zh) * 2019-03-22 2021-10-19 国家电网有限公司 一种大数据平台运维管理系统
CN110971770A (zh) * 2019-11-27 2020-04-07 武汉虹旭信息技术有限责任公司 基于话单数据分析的社会关系疏密度推定方法及系统
CN111092764A (zh) * 2019-12-18 2020-05-01 电信科学技术第五研究所有限公司 一种实时动态亲密度关系分析方法及系统
CN111092764B (zh) * 2019-12-18 2023-10-17 电信科学技术第五研究所有限公司 一种实时动态亲密度关系分析方法及系统
CN113115200A (zh) * 2019-12-24 2021-07-13 中国移动通信集团浙江有限公司 用户关系识别方法、装置及计算设备
CN113115200B (zh) * 2019-12-24 2023-04-18 中国移动通信集团浙江有限公司 用户关系识别方法、装置及计算设备

Similar Documents

Publication Publication Date Title
CN107729940A (zh) 一种用户话单大数据基站连接信息用户关系推定方法
Bella et al. Quantification via probability estimators
Kumar et al. Crime prediction using K-nearest neighboring algorithm
CN108924333A (zh) 诈骗电话识别方法、装置和系统
CN103166830B (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN109615116A (zh) 一种电信诈骗事件检测方法和检测系统
CN112989035B (zh) 基于文本分类识别用户意图的方法、装置及存储介质
CN106022317A (zh) 人脸识别方法及装置
CN108470170B (zh) 美瞳检测方法
CN109889436B (zh) 一种社交网络中垃圾邮件发送者的发现方法
CN106326913A (zh) 一种洗钱账户的确定方法及装置
CN110516704A (zh) 一种基于关联规则的mlknn多标签分类方法
CN113240394B (zh) 一种基于人工智能的电力营业厅服务方法
CN112866486A (zh) 一种基于多源特征的诈骗电话识别方法、系统及设备
CN115622806B (zh) 一种基于bert-cgan的网络入侵检测方法
CN109918645A (zh) 深度分析文本的方法、装置、计算机设备和存储介质
CN109858974A (zh) 已购车用户识别模型构建方法及识别方法
CN106791221A (zh) 一种基于通话的亲友圈关系识别方法
CN110309737A (zh) 一种应用于香烟柜台的信息处理方法、装置及系统
CN1612135B (zh) 一种基于训练分类的协议识别方法
CN105930430B (zh) 一种基于非累积属性的实时欺诈检测方法及装置
KR102368834B1 (ko) 속성 기반의 복지 대상 예측 시스템 및 방법
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备
CN106530199B (zh) 基于窗口式假设检验的多媒体综合隐写分析方法
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223

RJ01 Rejection of invention patent application after publication