CN111178714A - 亲密度确定方法、装置、计算机设备和存储介质 - Google Patents
亲密度确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111178714A CN111178714A CN201911315498.XA CN201911315498A CN111178714A CN 111178714 A CN111178714 A CN 111178714A CN 201911315498 A CN201911315498 A CN 201911315498A CN 111178714 A CN111178714 A CN 111178714A
- Authority
- CN
- China
- Prior art keywords
- data
- intimacy
- marking
- characteristic data
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012417 linear regression Methods 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000011002 quantification Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Pure & Applied Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Computational Mathematics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种亲密度确定方法、装置、计算机设备和存储介质。其中,所述方法包括:获取个体的社交数据,对该社交数据进行分析,分析出个体之间的社交数据中的特征数据,根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据,对该呈正负相关性的相关性特征数据按照预设的准则进行亲密度打标,从打标后的相关性特征数据中选择出重要特征数据,构建关联该重要特征数据的亲密度评分模型,以及根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分,能够实现将人与人之间的亲密度进行数值量化。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种亲密度确定方法、装置、计算机设备和存储介质。
背景技术
亲密度是通过一个具体的分值体现用户和好友互动的热度。
现有的亲密度确定方案,一般是根据以往的经验以及常用变量的权重来确定的,无法实现将人与人之间的亲密度进行数值量化。
发明内容
有鉴于此,本发明的目的在于提出一种亲密度确定方法、装置、计算机设备和存储介质,能够实现将人与人之间的亲密度进行数值量化。
根据本发明的一个方面,提供一种亲密度确定方法,包括:获取个体的社交数据;其中,所述社交数据类别包括通讯录数据、通话记录数据和无线上网数据;根据所述获取的社交数据,对个体之间的社交数据进行分析,分析出所述个体之间的社交数据中具有交集的特征数据;根据显著变量的正负相关性,从所述特征数据中选取出与亲密度呈正负相关性的相关性特征数据;对所述相关性特征数据按照预设的准则进行亲密度打标;从打标后的相关性特征数据中选择出重要特征数据;构建关联所述重要特征数据的亲密度评分模型;根据所述亲密度评分模型,对所述个体之间的社交数据进行亲密度评分。
其中,所述对所述相关性特征数据按照预设的准则进行亲密度打标,包括:选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
其中,所述构建关联所述重要特征数据的亲密度评分模型,包括:用分箱方式,将所述重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将所述经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把所述经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
其中,所述构建关联所述重要特征数据的亲密度评分模型,还包括:将所述进行亲密度打标的打标结果与所述进行的亲密度评分的评分结果进行比较得到比较结果,根据所述得到的比较结果对所述进行的亲密度评分的评分结果进行准确率计算。
其中,在所述将所述进行亲密度打标的打标结果与所述进行的亲密度评分的评分结果进行比较得到比较结果,根据所述得到的比较结果对所述进行的亲密度评分的评分结果进行准确率计算之后,还包括:根据所述进行的准确率计算得到的准确率结果,训练所述构建的亲密度评分模型使所述计算得到的准确率结果达到预设的阈值。
根据本发明的另一个方面,提供一种亲密度确定装置,包括:获取模块、分析模块、选取模块、打标模块、选择模块、构建模块和评分模块;所述获取模块,用于获取个体的社交数据;其中,所述社交数据类别包括通讯录数据、通话记录数据和无线上网数据;所述分析模块,用于根据所述获取的社交数据,对个体之间的社交数据进行分析,分析出所述个体之间的社交数据中具有交集的特征数据;所述选取模块,用于根据显著变量的正负相关性,从所述特征数据中选取出与亲密度呈正负相关性的相关性特征数据;所述打标模块,用于对所述相关性特征数据按照预设的准则进行亲密度打标;所述选择模块,用于从打标后的相关性特征数据中选择出重要特征数据;所述构建模块,用于构建关联所述重要特征数据的亲密度评分模型;所述评分模块,用于根据所述亲密度评分模型,对所述个体之间的社交数据进行亲密度评分。
其中,所述打标模块,具体用于:选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
其中,所述构建模块,具体用于:采用分箱方式,将所述重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将所述经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把所述经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
其中,所述亲密度确定装置,还包括:计算模块;所述计算模块,用于将所述进行亲密度打标的打标结果与所述进行的亲密度评分的评分结果进行比较得到比较结果,根据所述得到的比较结果对所述进行的亲密度评分的评分结果进行准确率计算。
其中,所述亲密度确定装置,还包括:训练模块;所述训练模块,用于根据所述进行的准确率计算得到的准确率结果,训练所述构建的亲密度评分模型使所述计算得到的准确率结果达到预设的阈值。
根据本发明的又一个方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述亲密度确定方法的步骤。
根据本发明的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的亲密度确定方法的步骤。
可以发现,以上方案,可以获取个体的社交数据,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等,和可以对该社交数据进行分析,分析出个体之间的社交数据中的特征数据,和可以根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据,和可以对该相关性特征数据按照预设的准则进行亲密度打标,得到模型训练集,和可以从打标后的相关性特征数据中选择出重要特征数据,和可以构建关联该重要特征数据的亲密度评分模型,以及可以根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分,能够实现将人与人之间的亲密度进行数值量化。
进一步的,以上方案,选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标,这样的好处是能够防止后续计算证据权重编码出现无穷大的情况,使得亲密度评分模型更加光滑。
进一步的,以上方案,可以采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重WOE编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数,这样的好处是能够便于通过该构建的亲密度评分模型,将人与人之间的亲密度进行数值量化。
进一步的,以上方案,可以将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算,这样的好处是能够实现对人与人之间的亲密度进行亲密度评分的评分结果的准确率进行计算。
进一步的,以上方案,可以根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值,这样的好处是能够实现提高将人与人之间的亲密度进行数值量化的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明亲密度确定方法一实施例的流程示意图;
图2是本发明亲密度确定方法另一实施例的流程示意图;
图3是本发明亲密度确定方法又一实施例的流程示意图;
图4是本发明亲密度确定装置一实施例的结构示意图;
图5是本发明亲密度确定装置另一实施例的结构示意图;
图6是本发明亲密度确定装置又一实施例的结构示意图;
图7是本发明计算机设备一实施例的内部结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种亲密度确定方法,能够实现将人与人之间的亲密度进行数值量化。
请参见图1,图1是本发明亲密度确定方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取个体的社交数据;其中,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等,该个体可以是个人。
在本实施例中,该社交数据可以是离散的社交数据,也可以是连接的社交数据等,本发明不加以限定。
在本实施例中,该无线上网数据可以是Wi-Fi无线上网数据,也可以是ZigBee(紫蜂协议)无线上网数据,也可以是蓝牙无线上网数据等,本发明不加以限定。
S102:对该社交数据进行分析,分析出个体之间的社交数据中的特征数据。
在本实施例中,该特征数据可以为个体之间的相关特征,该特征数据可以是该通话记录数据中的通话总时长数据、通话总次数数据、最早联系时距最近联系的时间间隔数据等,也可以是该通讯录数据中的紧急联系人数据、常用联系人数据等,还可以是该无线上网数据中的相同无线网络的种数数据、无线网络的权重数据、使用相同无线网络的最短时间间隔数据等,本发明不加以限定。
在本实施例中,该无线网络的权重数据可以是针对同一无线网络的用户人数取对数倒数的方式来取得等。
在本实施例中,该无线网络的权重数据可以是与同一无线网络的用户人数呈负相关的关系,这样的好处是能够排除公共无线网络对亲密度评分模型的影响。
S103:根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据。
在本实施例中,该选取出的呈正负相关性的相关性特征数据可以是该通话记录数据中的通话总时长数据、通话总次数数据等,也可以是该无线上网数据中的相同无线网络的种数数据、使用相同无线网络的最短时间间隔数据等,本发明不加以限定。
在本实施例中,例如,通话时长、通话次数与亲密度是正相关,无线上网数据、无线上网次数与亲密度是负相关。
S104:对该相关性特征数据按照预设的准则进行亲密度打标。
其中,该对该相关性特征数据按照预设的准则进行亲密度打标,得到模型训练集,可以包括:选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标,这样的好处是能够防止后续计算WOE(Weight ofEvidence,证据权重)编码出现无穷大的情况,使得亲密度评分模型更加光滑。
在本实施例中,选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标,可以是根据与亲密度的正负相关性对相关特征数据进行排序,选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标等。
在本实施例中,可以采用二八法则方式,对该相关性特征数据按照预设的取前20%的准则进行选取,对选取后的前20%的相关性特征数据按照预设的概率数准则进行亲密度打标,这样的好处是能够防止后续计算证据权重编码出现无穷大的情况,使得亲密度评分模型更加光滑。
在本实施例中,该取前20%的准则可以是对通话时长进行排序,取前20,也可以是对通话次数进行排序,取前20%等,本发明不加以限定。
在本实施例中,该采用的二八法则方式,可以对该相关性特征数据按照预设的取前20%的准则进行亲密度打标,该亲密度打标的打标结果可以以数字1代表亲密,可以以数字0代表不亲密,本发明不加以限定。
在本实施例中,可以对选取的前20%的相关性特征数据按照预设的概率数准则进行打标,例如对选取的前20%的相关性特征数据按照预设的概率90%再进行亲密度打标为数字1表示亲密,按照预设的概率10%再进行亲密度打标为数字0表示不亲密,这样的好处是能够防止后续计算证据权重WOE编码出现无穷大的情况,使得亲密度评分模型更加光滑。对选取的前20%的相关性特征数据按照预设的概率90%进行打标,这90%可以在20%的数据中随机选取。
S105:从打标后的相关性特征数据中选择出重要特征数据。
在本实施例中,可以采用随机森林特征变量方式,从打标后的相关性特征数据中选择出重要特征数据,本发明不加以限定。
S106:构建关联该重要特征数据的亲密度评分模型。
其中,该构建关联该重要特征数据的亲密度评分模型,可以包括:
采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重WOE编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用IV(Information value,信息价值)的方式,选取区分度高的变量,和采用线性回归模型(logistic regressive),计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数,这样的好处是能够便于通过该构建的亲密度评分模型,将人与人之间的亲密度进行数值量化。
在本实施例中,第i组证据权重WOE的计算公式,可以如下:
其中,#yi表示第i组响应数,响应数可以为亲密度打标为1的个数,该响应数可以用于表征与重要特征数据的关系;#yT可以表示所有样本响应数;#ni可以表示第i组未响应数,未响应数可以为亲密度打标为0的个数;#nT可以表示所有样本未响应数;pyi=#yi#yT可以表示第i组响应数占总样本响应数的比例;pni=#ni#nT可以表示第i组未响应数占总样本未响应数的比例;这里的i取值为1,2……m。根据步骤S104打标后的训练集可以计算出每组重要特征数据对应的WOE值。
在本实施例中,该信息价值IV值越大,可以表示该定义的该亲密度的分值刻度在该变量上的分布差异越大,即该变量的区分能力越好。可以选取区分度高的变量,即可以选取信息价值越大的区间对应的重要特征数据,进一步提高模型预测的准确性及模型训练时的收敛速度。
在本实施例中,采用线性回归模型计算该定义的亲密度的分值刻度的比率的计算公式,可以如下:
log(odds)=β0+β1x1+……βmxm
其中,β0,β1……βm为模型参数,初始值可设为1或0,根据训练集训练得到模型参数;x为证据权重WOE,根据该公式可以计算出个体间亲密度差的概率为p,个体间亲密度好的概率为1-p。
在本实施例中,可以根据模型结果计算准确率并根据现有的结果反哺到样本训练集,重新训练模型直到模型准确率达到阈值,以提高模型的预测准确率。具体地,根据上述公式计算出个体间亲密度差的概率为p和个体间亲密度好的概率为1-p,p为0到1间的数值,对p和1-p进行量化处理,得到该亲密度评分模型的亲密度得分,如100(1-p),采用预设的规则对该亲密度得分进行亲密度打标,将训练集的亲密度打标的打标结果与该模型的亲密度打标结果进行比较得到比较结果,根据该得到的比较结果对该模型进行准确率计算,对模型进行训练,直至该准确率达到预设值。
S107:根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
在本实施例中,该进行的亲密度评分的评分标准与该进行的亲密度打标的打标标准相一致。
其中,该构建关联该重要特征数据的亲密度评分模型,还可以包括:将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算,这样的好处是能够实现对人与人之间的亲密度进行亲密度评分的评分结果的准确率进行计算。
在其中一个实施例中,根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分,可包括:获取需要进行亲密度评分的个体的社交数据,该社交数据包括通讯录数据、通话记录数据和无线上网数据等;对该社交数据进行分析,分析出个体之间的社交数据中的特征数据;根据显著变量的正负相关性,从该特征数据中选取出呈正负相关性的相关性特征数据;从该相关性特征数据中选择出重要特征数据,将该重要特征数据输入至亲密度评分模型得到个体之间的亲密度评分,实现了将人与人之间的亲密度进行数值量化。
在另一实施例中,根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分,可包括:根据需要进行亲密度评分的个体的个体标识,查找数据库中与该个体对应的重要特征数据,将该重要特征数据输入至亲密度评分模型得到个体之间的亲密度评分,实现了将人与人之间的亲密度进行数值量化。
可以发现,在本实施例中,可以获取个体的社交数据,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等,和可以对该社交数据进行分析,分析出个体之间的社交数据中的特征数据,和可以根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据,和可以对该相关性特征数据按照预设的准则进行亲密度打标,得到模型训练集,和可以从打标后的相关性特征数据中选择出重要特征数据,和可以构建关联该重要特征数据的亲密度评分模型,以及可以根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分,能够实现将人与人之间的亲密度进行数值量化。
进一步的,在本实施例中,选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标,这样的好处是能够防止后续计算证据权重编码出现无穷大的情况,使得亲密度评分模型更加光滑。
进一步的,在本实施例中,可以采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重WOE编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数,这样的好处是能够便于通过该构建的亲密度评分模型,将人与人之间的亲密度进行数值量化。
请参见图2,图2是本发明亲密度确定方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取个体的社交数据;其中,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等。
可如上S101所述,在此不作赘述。
S202:对该社交数据进行分析,分析出个体之间的社交数据中的特征数据。
可如上S102所述,在此不作赘述。
S203:根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据。
可如上S103所述,在此不作赘述。
S204:对该相关性特征数据按照预设的准则进行亲密度打标。
可如上S104所述,在此不作赘述。
S205:从打标后的相关性特征数据中选择出重要特征数据。
可如上S105所述,在此不作赘述。
S206:构建关联该重要特征数据的亲密度评分模型。
可如上S106所述,在此不作赘述。
S207:根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
可如上S107所述,在此不作赘述。
S208:将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算。
其中,在该将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算之后,还可以包括:
根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值,这样的好处是能够实现提高将人与人之间的亲密度进行数值量化的准确率。
可以发现,在本实施例中,可以将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算,这样的好处是能够实现对人与人之间的亲密度进行亲密度评分的评分结果的准确率进行计算。
请参见图3,图3是本发明亲密度确定方法又一实施例的流程示意图。本实施例中,该方法包括下述步骤:
S301:获取个体的社交数据;其中,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等。
可如上S201所述,在此不作赘述。
S302:对该社交数据进行分析,分析出个体之间的社交数据中的特征数据。
可如上S202所述,在此不作赘述。
S303:根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据。
可如上S203所述,在此不作赘述。
S304:对该相关性特征数据按照预设的准则进行亲密度打标。
可如上S204所述,在此不作赘述。
S305:从打标后的相关性特征数据中选择出重要特征数据。
可如上S205所述,在此不作赘述。
S306:构建关联该重要特征数据的亲密度评分模型。
可如上S206所述,在此不作赘述。
S307:根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
可如上S207所述,在此不作赘述。
S308:将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算。
可如上S208所述,在此不作赘述。
S309:根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值。
可以发现,在本实施例中,可以根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值,这样的好处是能够实现提高将人与人之间的亲密度进行数值量化的准确率。
本发明还提供一种亲密度确定装置,能够实现将人与人之间的亲密度进行数值量化。
请参见图4,图4是本发明亲密度确定装置一实施例的结构示意图。本实施例中,该亲密度确定装置40包括获取模块41、分析模块42、选取模块43、打标模块44、选择模块45、构建模块46和评分模块47。
该获取模块41,用于获取个体的社交数据;其中,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等。
该分析模块42,用于对该社交数据进行分析,分析出个体之间的社交数据中的特征数据。
该选取模块43,用于根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据。
该打标模块44,用于对该相关性特征数据按照预设的准则进行亲密度打标。
该选择模块45,用于从打标后的相关性特征数据中选择出重要特征数据。
该构建模块46,用于构建关联该重要特征数据的亲密度评分模型。
该评分模块47,用于根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
可选地,该打标模块44,可以具体用于:
选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
可选地,该构建模块46,可以具体用于:
采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
请参见图5,图5是本发明亲密度确定装置另一实施例的结构示意图。区别于上一实施例,本实施例所述亲密度确定装置50还包括计算模块51。
该计算模块51,用于将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算。
请参见图6,图6是本发明亲密度确定装置又一实施例的结构示意图。有别于上一实施例,本实施例所述亲密度确定装置60还包括训练模块61。
该训练模块61,用于根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值。
该亲密度确定装置40/50/60的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储以个人为单位的社交数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种亲密度确定方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取个体的社交数据;其中,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据;
对该社交数据进行分析,分析出个体之间的社交数据中的特征数据;
根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据;
对该相关性特征数据按照预设的准则进行亲密度打标;
从打标后的相关性特征数据中选择出重要特征数据;
构建关联该重要特征数据的亲密度评分模型;
根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
该构建关联该重要特征数据的亲密度评分模型,还将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在该将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算之后,还根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取个体的社交数据;其中,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据;
对该社交数据进行分析,分析出个体之间的社交数据中的特征数据;
根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据;
对该相关性特征数据按照预设的准则进行亲密度打标;
从打标后的相关性特征数据中选择出重要特征数据;
构建关联该重要特征数据的亲密度评分模型;
根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
该构建关联该重要特征数据的亲密度评分模型,还将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在该将该进行亲密度打标的打标结果与该进行的亲密度评分的评分结果进行比较得到比较结果,根据该得到的比较结果对该进行的亲密度评分的评分结果进行准确率计算之后,还根据该进行的准确率计算得到的准确率结果,训练该构建的亲密度评分模型使该计算得到的准确率结果达到预设的阈值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种亲密度确定方法,其特征在于,包括:
获取个体的社交数据;其中,所述社交数据类别包括通讯录数据、通话记录数据和无线上网数据;
对所述社交数据进行分析,分析出个体之间的社交数据中的特征数据;
根据显著变量的正负相关性,从所述特征数据中选取出与亲密度呈正负相关性的相关性特征数据;
对所述相关性特征数据按照预设的准则进行亲密度打标;
从打标后的相关性特征数据中选择出重要特征数据;
构建关联所述重要特征数据的亲密度评分模型;
根据所述亲密度评分模型,对所述个体之间的社交数据进行亲密度评分。
2.根据权利要求1所述的亲密度确定方法,其特征在于,所述对所述相关性特征数据按照预设的准则进行亲密度打标,包括:
选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
3.根据权利要求1所述的亲密度确定方法,其特征在于,所述构建关联所述重要特征数据的亲密度评分模型,包括:
采用分箱方式,将所述重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将所述经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把所述经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
4.根据权利要求1至3任意一项所述的亲密度确定方法,其特征在于,所述构建关联所述重要特征数据的亲密度评分模型,还包括:
将所述进行亲密度打标的打标结果与所述进行的亲密度评分的评分结果进行比较得到比较结果,根据所述得到的比较结果对所述进行的亲密度评分的评分结果进行准确率计算。
5.根据权利要求4所述的亲密度确定方法,其特征在于,在所述将所述进行亲密度打标的打标结果与所述进行的亲密度评分的评分结果进行比较得到比较结果,根据所述得到的比较结果对所述进行的亲密度评分的评分结果进行准确率计算之后,还包括:
根据所述进行的准确率计算得到的准确率结果,训练所述构建的亲密度评分模型使所述计算得到的准确率结果达到预设的阈值。
6.一种亲密度确定装置,其特征在于,包括:
获取模块、分析模块、选取模块、打标模块、选择模块、构建模块和评分模块;
所述获取模块,用于获取个体的社交数据;其中,所述社交数据类别包括通讯录数据、通话记录数据和无线上网数据;
所述分析模块,用于根据所述获取的社交数据,对个体之间的社交数据进行分析,分析出所述个体之间的社交数据中具有交集的特征数据;
所述选取模块,用于根据显著变量的正负相关性,从所述特征数据中选取出与亲密度呈正负相关性的相关性特征数据;
所述打标模块,用于对所述相关性特征数据按照预设的准则进行亲密度打标;
所述选择模块,用于从打标后的相关性特征数据中选择出重要特征数据;
所述构建模块,用于构建关联所述重要特征数据的亲密度评分模型;
所述评分模块,用于根据所述亲密度评分模型,对所述个体之间的社交数据进行亲密度评分。
7.根据权利要求6所述的亲密度确定装置,其特征在于,所述打标模块,具体用于:
选取所述相关性特征数据前预设比例数据,再对选取后的相关性特征数据按照预设的概率数准则进行亲密度打标。
8.根据权利要求6所述的亲密度确定装置,其特征在于,所述构建模块,具体用于:
采用分箱方式,将所述重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将所述经合并成少状态的离散变量后的重要特征数据采用证据权重编码的方式,将预测类别的集中度的属性作为编码的数值,把所述经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用信息价值的方式,选取区分度高的变量,和采用线性回归模型,计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315498.XA CN111178714A (zh) | 2019-12-19 | 2019-12-19 | 亲密度确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315498.XA CN111178714A (zh) | 2019-12-19 | 2019-12-19 | 亲密度确定方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178714A true CN111178714A (zh) | 2020-05-19 |
Family
ID=70653944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911315498.XA Pending CN111178714A (zh) | 2019-12-19 | 2019-12-19 | 亲密度确定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178714A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256719A (zh) * | 2020-10-20 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 实体查询方法、装置、可读介质与电子设备 |
CN113065361A (zh) * | 2021-03-16 | 2021-07-02 | 上海商汤临港智能科技有限公司 | 用户亲密度的确定方法及装置、电子设备和存储介质 |
CN113407702A (zh) * | 2021-07-09 | 2021-09-17 | 上海明略人工智能(集团)有限公司 | 员工合作关系强度量化方法、系统、计算机和存储介质 |
-
2019
- 2019-12-19 CN CN201911315498.XA patent/CN111178714A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256719A (zh) * | 2020-10-20 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 实体查询方法、装置、可读介质与电子设备 |
CN113065361A (zh) * | 2021-03-16 | 2021-07-02 | 上海商汤临港智能科技有限公司 | 用户亲密度的确定方法及装置、电子设备和存储介质 |
CN113407702A (zh) * | 2021-07-09 | 2021-09-17 | 上海明略人工智能(集团)有限公司 | 员工合作关系强度量化方法、系统、计算机和存储介质 |
CN113407702B (zh) * | 2021-07-09 | 2024-02-27 | 上海明略人工智能(集团)有限公司 | 员工合作关系强度量化方法、系统、计算机和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108711110B (zh) | 保险产品推荐方法、装置、计算机设备和存储介质 | |
CN111506498B (zh) | 测试用例的自动生成方法、装置、计算机设备及存储介质 | |
CN111178714A (zh) | 亲密度确定方法、装置、计算机设备和存储介质 | |
CN107071193B (zh) | 互动应答系统接入用户的方法和装置 | |
CN106557747B (zh) | 识别保险单号码的方法及装置 | |
CN110046706B (zh) | 模型生成方法、装置及服务器 | |
CN109102797B (zh) | 语音识别测试方法、装置、计算机设备及存储介质 | |
CN112037799B (zh) | 语音中断处理方法、装置、计算机设备和存储介质 | |
CN112329843B (zh) | 基于决策树的呼叫数据处理方法、装置、设备及存储介质 | |
CN111460290B (zh) | 信息的推荐方法、装置、设备和存储介质 | |
CN110472136B (zh) | 查询结果的推送方法、装置、存储介质和计算机设备 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN109831677B (zh) | 视频脱敏方法、装置、计算机设备和存储介质 | |
CN110390424B (zh) | 测试对象的寿命预估方法、装置、设备及介质 | |
CN111835561A (zh) | 基于用户行为数据的异常用户群体检测方法、装置、设备 | |
CN113313464A (zh) | 结合人工智能的云办公大数据处理方法及云办公服务器 | |
CN113946363A (zh) | 业务数据的执行配置方法、装置、计算机设备及存储介质 | |
CN116909534B (zh) | 算子流的生成方法、算子流的生成装置及存储介质 | |
CN113873274A (zh) | 直播热度预测方法、装置、设备及存储介质 | |
CN110532773A (zh) | 恶意访问行为识别方法、数据处理方法、装置和设备 | |
CN110889583B (zh) | Ai面试方法、装置、计算机设备及计算机可读存储介质 | |
CN111552785A (zh) | 人机交互系统数据库更新方法、装置、计算机设备和介质 | |
CN113435857B (zh) | 应聘者数据分析方法及装置 | |
CN110059502B (zh) | 隐私数据感知方法及装置 | |
CN111178070B (zh) | 基于分词的单词序列获取方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |