CN105426534A - 信息确定方法及装置 - Google Patents
信息确定方法及装置 Download PDFInfo
- Publication number
- CN105426534A CN105426534A CN201510959360.9A CN201510959360A CN105426534A CN 105426534 A CN105426534 A CN 105426534A CN 201510959360 A CN201510959360 A CN 201510959360A CN 105426534 A CN105426534 A CN 105426534A
- Authority
- CN
- China
- Prior art keywords
- attribute information
- sample
- field
- information
- marker samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 98
- 239000003550 marker Substances 0.000 claims description 169
- 238000005315 distribution function Methods 0.000 claims description 92
- 238000012937 correction Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000005303 weighing Methods 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 9
- 241001269238 Data Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005520 cutting process Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/17—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
- G06F17/175—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method of multidimensional data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明实施例提供一种信息确定方法及装置,该方法包括:估计待标记样本的特征向量与待预测属性信息之间的关联关系;将关联关系分解为与N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值;基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息;根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系;根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。从而保证不同领域数据之间的保密性。
Description
技术领域
本发明实施例涉及大数据分析技术,尤其涉及一种信息确定方法及装置。
背景技术
大数据分析是指对规模巨大的数据进行分析,大数据可以概括为4个V,数据量大(Volume)、速度快(Velocity)、类型多(Variety)、真实性(Veracity),大数据分析较小规模的数据分析,它的数据分析结果更加准确,大数据分析的应用为社会、经济和生产带来了巨大的变革和价值。
数据融合技术是指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术,因此,跨领域的数据融合将使大数据分析发挥更大的价值,两个领域的数据融合将产生1+1>2的效果。
假设要对同一用户在不同领域中的实例数据进行分析来估计该用户的待预测属性信息,其中这里的实例数据包括多个属性信息,比如:用户A在移动运营商的实例数据包括的属性信息为:姓名、手机号、消费信息等,而用户A在银行的实例数据包括的属性信息为:姓名、手机号、业务类型、该业务类型涉及金额等,通过这些已知属性信息来估计用户A的待预测属性信息,比如:性别、或者年龄等。现有技术进行大数据分析的过程是:首先根据用户A在移动运营商的标识和在银行的标识实现两个领域的数据融合,这里的标识可以是用户A在移动运营商和银行公共属性信息,比如:姓名,实现数据融合只是按照明文的方式进行数据连接或者组合,然后再对融合后的数据进行分析来估计该用户的待预测属性信息。
上述基于数据融合的数据分析过程可以称为信息确定过程,由于现有技术中的信息确定过程中实现数据融合只是按照明文的方式进行数据连接或者组合,从而无法保证不同领域数据之间的保密性。
发明内容
本发明实施例提供一种信息确定方法及装置,从而在保证不同领域数据之间的保密性的情况下,融合多个领域数据来更加精确的确定待预测信息。
第一方面,本发明实施例提供一种信息确定方法,该方法基于N个领域,N为大于或者等于2的整数,每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,包括:
估计待标记样本的特征向量与待预测属性信息之间的关联关系,其中待标记样本为包括至少一个待预测属性信息的样本;
将关联关系分解为与N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值;
基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息;估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息,已标记样本为包括的所有属性信息为已知属性信息的样本;
根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系;
根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。
由于该方法中基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息,即无需知道每个领域的属性信息,而是从各个领域获取计算结果,通过公共属性信息实现对同一用户的计算结果进行进一步计算,最后确定待预测属性信息,从而保证不同领域数据之间的保密性。
进一步地,基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息,包括:基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息,其中,N个领域中采用相同加密算法对公共属性信息加密。
由于各个领域采用的加密算法相同,因此,各个领域加密后的公共属性信息一定相同,该方法无需融合各个N个领域的数据,只要基于加密后的公共属性信息实现N个领域数据的对接即可,从而可以提高数据之间的保密性。
一种可选方式,根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定关联关系,包括:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;令所有已标记样本对应的第一差值之和达到最小以确定关联关系。
另一种可选方式,该方法还包括:获取每个领域中各个待标记样本之间的相似度权重;其中,相似度权重用于衡量实例数据之间的相似度;获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值;计算每个领域中各个待标记样本的第二数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;则根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系,包括:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定关联关系。
通过上述两种可选方式可以较为准确地确定待标记样本的特征向量与待预测属性信息之间的关联关系。
进一步地,根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定关联关系之后,还包括:校正关联关系,并将校正后的关联关系作为估计的新的关联关系;直到校正次数超过预设值,则停止;或者,直到所有的关联关系收敛,则停止。该校正过程即为学习过程,通过不断的学习,从而使得关联关系更加精确。
第二方面,本方面实施例提供一种信息确定方法,该方法基于N个领域,N为大于或者等于2的整数,每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将样本所包括的部分或者全部的已知属性信息生成样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,包括:
根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中待标记样本为包括至少一个待预测属性信息的样本;
将概率分布函数分解为与N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取每个领域中每个已标记样本的特征子向量代入对应的子函数得到的第一数值;
基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率,已标记样本为包括的所有属性信息为已知属性信息的样本;
根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数;
根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。
由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率,即无需知道每个领域的属性信息,而是从各个领域获取计算结果,通过公共属性信息实现对同一用户的计算结果进行进一步计算,最后确定待预测属性信息,从而保证不同领域数据之间的保密性。
进一步地,基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,包括:基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率;其中,N个领域中采用相同加密算法对公共属性信息加密。
由于各个领域采用的加密算法相同,因此,各个领域加密后的公共属性信息一定相同,该方法无需融合各个N个领域的数据,只要基于加密后的公共属性信息实现N个领域数据的对接即可,从而可以提高数据之间的保密性。
一种可选方式,根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数,包括:若已标记样本的待预测属性信息相对应的属性信息对应有m个特定属性信息,m为大于或者等于2的正整数;针对每个已标记样本的每个特定属性信息,若待预测属性信息相对应的属性信息实际为特定属性信息,则计算概率与1的第一差值,否则,则计算概率与0的第一差值;令所有第一差值之和达到最小以确定概率分布函数。
另一种可选方式,该方法还包括:获取每个领域中各个待标记样本之间的相似度权重;其中,相似度权重用于衡量实例数据之间的相似度;获取每个领域中每个待标记样本的特征子向量代入对应的子函数得到的第二数值;计算每个领域中各个待标记样本的数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;则根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数,包括:针对每个已标记样本的每个特定属性信息,若待预测属性信息相对应的属性信息实际为特定属性信息,则计算概率与1的第一差值,否则,则计算概率与0的第一差值;根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定概率分布函数。
通过上述两种可选方式可以较为准确的确定待预测属性信息的概率分布函数。
进一步地,根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数之后,还包括:校正概率分布函数,并将校正后的概率分布函数作为估计的新的概率分布函数;直到校正次数超过预设值,则停止;或者,直到所有的概率分布函数收敛,则停止。该校正过程即为学习过程,通过不断的学习,从而使得概率分布函数更加精确。
下面将介绍发明实施例提供一种信息确定装置,其中装置部分与上述方法对应,对应内容技术效果相同,在此不再赘述。
第三方面,本发明实施例提供一种信息确定装置,该装置基于N个领域,N为大于或者等于2的整数,每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,包括:
估计模块,用于估计待标记样本的特征向量与待预测属性信息之间的关联关系,其中待标记样本为包括至少一个待预测属性信息的样本;
分解模块,用于将关联关系分解为与N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取模块,用于获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值;
计算模块,用于基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息;估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息,已标记样本为包括的所有属性信息为已知属性信息的样本;
确定模块,用于根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系;
确定模块,还用于根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。
进一步地,计算模块具体用于:基于加密后的所述公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息,其中,N个领域中采用相同加密算法对公共属性信息加密。
可选地,确定模块具体用于:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;
令所有已标记样本对应的第一差值之和达到最小以确定关联关系。
可选地,获取模块还用于:获取每个领域中各个待标记样本之间的相似度权重;其中,相似度权重用于衡量实例数据之间的相似度;获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值;
计算模块,还用于计算每个领域中各个待标记样本的第二数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
则确定模块具体用于:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定关联关系。
更进一步地,该装置还包括:校正模块,用于校正关联关系,并将校正后的关联关系作为估计的新的关联关系;直到校正次数超过预设值,则停止;或者,直到所有的关联关系收敛,则停止。
第四方面,本发明实施例提供一种信息确定装置,该装置基于N个领域,N为大于或者等于2的整数,每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,包括:
估计模块,用于根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中待标记样本为包括至少一个待预测属性信息的样本;
分解模块,用于将概率分布函数分解为与N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取模块,用于获取每个领域中每个已标记样本的特征子向量代入对应的子函数得到的第一数值;
计算模块,用于基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率,已标记样本为包括的所有属性信息为已知属性信息的样本;
确定模块,用于根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数;
确定模块,还用于根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。
进一步地,该计算模块具体用于:基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率;其中,N个领域中采用相同加密算法对公共属性信息加密。
可选地,确定模块具体用于:若已标记样本的待预测属性信息相对应的属性信息对应有m个特定属性信息,m为大于或者等于2的正整数;针对每个已标记样本的每个特定属性信息,若待预测属性信息相对应的属性信息实际为特定属性信息,则计算概率与1的第一差值,否则,则计算概率与0的第一差值;令所有第一差值之和达到最小以确定概率分布函数。
可选地,获取模块,还用于:获取每个领域中各个待标记样本之间的相似度权重;其中,相似度权重用于衡量实例数据之间的相似度;获取每个领域中每个待标记样本的特征子向量代入对应的子函数得到的第二数值;计算模块,还用于计算每个领域中各个待标记样本的数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;则确定模块具体用于:针对每个已标记样本的每个特定属性信息,若待预测属性信息相对应的属性信息实际为特定属性信息,则计算概率与1的第一差值,否则,则计算概率与0的第一差值;根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定概率分布函数。
更进一步的,该装置还包括:校正模块,用于校正概率分布函数,并将校正后的概率分布函数作为估计的新的概率分布函数;直到校正次数超过预设值,则停止;或者,直到所有的概率分布函数收敛,则停止。
第五方面,本发明实施例提供一种信息确定装置,装置基于N个领域,N为大于或者等于2的整数,每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将样本所包括的部分或者全部的已知属性信息生成样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同。所述信息确定装置包括:处理器,用于存储所述处理器的可执行指令的存储器;
其中,所述处理器执行存储器存储的可执行指令,使得所述信息确定装置执行上述第一方面及其细化的方法,例如执行以下方法步骤:
根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中待标记样本为包括至少一个待预测属性信息的样本;
将概率分布函数分解为与N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取每个领域中每个已标记样本的特征子向量代入对应的子函数得到的第一数值;
基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率,已标记样本为包括的所有属性信息为已知属性信息的样本;
根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定概率分布函数;
根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。
第六方面,本发明实施例提供一种信息确定装置,装置基于N个领域,N为大于或者等于2的整数,每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将样本所包括的部分或者全部的已知属性信息生成样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同。所述信息确定装置包括:处理器,用于存储所述处理器的可执行指令的存储器;
其中,所述处理器执行存储器存储的可执行指令,使得所述信息确定装置执行上述第二方面及其细化的方法,例如执行以下方法步骤:
根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中待标记样本为包括至少一个待预测属性信息的样本;
将概率分布函数分解为与N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取每个领域中每个已标记样本的特征子向量代入对应的子函数得到的第一数值;
基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率,已标记样本为包括的所有属性信息为已知属性信息的样本;
根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数;
根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。
本发明实施例提供一种信息确定方法及装置,该方法包括:估计待标记样本的特征向量与待预测属性信息之间的关联关系;将关联关系分解为与所述N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值;基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息;所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息;根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系。由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息,即无需知道每个领域的属性信息,而是从各个领域获取计算结果,通过公共属性信息实现对同一用户的计算结果进行进一步计算,最后确定待预测属性信息,从而保证不同领域数据之间的保密性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种信息确定方法的流程图;
图2为本发明一实施例提供的确定关联关系的方法流程图;
图3为本发明另一实施例提供的一种信息确定方法的流程图;
图4为本发明一实施例提供的一种信息确定装置的结构示意图;
图5为本发明另一实施例提供的一种信息确定装置的结构示意图;
图6为本发明再一实施例提供的一种信息确定装置的结构示意图;
图7为本发明又一实施例提供的一种信息确定装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中基于数据融合的数据分析过程,无法保证不同领域数据之间的保密性的问题,本发明提供一种信息确定方法及装置。
图1为本发明一实施例提供的一种信息确定方法的流程图,该方法适用于跨领域的数据分析场景,该方法基于N个领域,N为大于或者等于2的整数,N个领域之间具有独立性,N个领域即为N个数据中心,比如可以是银行数据中心或者是移动运营商数据中心,每个数据中心包括至少一台智能终端(例如服务器),该智能终端用于进行相应的数据处理;该方法的执行主体为计算机、平板电脑、手机、服务器等智能终端,该方法的执行主体可以是N个领域中的任一个领域内的智能终端(例如服务器),也可以是不属于任何一个领域的智能终端(例如服务器)。每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,其中N个领域之间只能进行公共属性信息的交互,其中,N个领域之间相同的属性信息都可以作为公共属性信息,比如:用户的姓名、身份证号等。同一用户在N个领域中的实例数据组成一个样本,若样本的所有属性信息为已知属性信息,则该样本被称为已标记样本,否则,被称为待标记样本,将该样本所包括的部分或者全部的已知属性信息生成样本的特征向量,即样本的特征向量是由样本所包括的部分或者全部的已知属性信息所组成,每个样本的特征向量所包括的已知属性信息个数相同。本发明基于跨领域的数据分析,即为本发明旨在通过已标记样本内部的数据关系和待标记样本的已知属性信息来确定待标记样本的待预测属性信息。
具体地,假设该方法涉及两个领域,分别为移动运营商和银行。
用户A在移动运营商的实例数据:{张三、139***0000、11月的手机费为100元,其中话费50元,流量费50元},而用户A在银行的实例数据:{张三、133***0000、业务类型:理财产品1、该理财产品1涉及金额8万、男、年龄},其中用户A的所有实例数据组成一个待标记样本,所涉及的年龄为待预测属性信息。
用户B在移动运营商的实例数据:{李四、139***0001、11月的手机费为78元,其中话费30元,流量费48元},而用户B在银行的实例数据:{李四、139***0000、业务类型:理财产品2、该理财产品2涉及金额5万、女、40},其中用户B的所有实例数据组成一个已标记样本。
……
用户m在移动运营商的实例数据:{王五、139***0010、11月的手机费为50元,其中话费30元,流量费10元},而用户m在银行的实例数据:{王五、139***0010、业务类型:存款、涉及金额2000元、女、50},其中用户M的所有实例数据组成一个已标记样本。
假设特征向量为{姓名、手机号、消费信息,业务类型、该业务类型涉及金额},通过已标记样本内部的数据关系和待标记样本的已知属性信息来确定待标记样本的待预测属性信息。
该方法具体包括如下流程:
S101:估计待标记样本的特征向量与待预测属性信息之间的关联关系;
具体地,首先,确定消费信息数值越大,那么年龄则越小,即消费信息与年龄呈反比,其次,业务类型趋向于理财产品,则年龄多集中在30-45岁左右,当年龄大于40岁,业务类型涉及金额越大则年龄越小,当年龄小于40岁,业务类型涉及金额越大则年龄也越大,即业务类型涉及金额与年龄之间符合二次函数的关系。
因此,估计关联关系为: 其中,F表示关联关系,特征向量为 表示用户i在移动运营商的消费信息,表示用户i在银行的业务类型为理财产品1,表示用户i在银行的业务类型为理财产品2,表示业务类型为存款,表示业务类型涉及金额,其中a、b、c、d、e、f都为正整数,实际上业务类型还可以更多,上述公式只是以三个业务类型为例,假设根据已标记样本估计购买理财产品1的用户i年龄小于购买理财产品2的用户年龄,并且购买理财产品2的用户i年龄小于选择存款的用户年龄,那么可以设置b>c>d。
S102:将关联关系分解为与N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
S103:获取每个领域中每个所已标记样本的特征子向量代入对应的子关联关系得到的第一数值;
结合步骤S102和步骤S103,其中,由于样本的特征向量是由样本所包括的部分或者全部的已知属性信息所组成,则可以确定样本的特征向量在每个领域中所包括的已知属性信息,将每个领域所包括的这些已知属性信息称为该样本的子特征向量。相应地,根据样本的特征向量在每个领域中所包括的已知属性信息,可以将每个领域中所包括的已知属性信息需要代入关联关系中的部分称为子关联关系。接着上述例子,将F分解为两个子关联关系,分别为: 对应的特征向量也被分解为两个特征子向量,分别为:和假设已标记样本的特征向量为Xj,特征子向量分别为其中得到两个第一数值为:和
S104:基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息;该估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息;
进一步地,还可以基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息,其中,N个领域中采用相同加密算法对公共属性信息加密。由于N个领域中采用相同加密算法对公共属性信息加密,因此,同一个公共属性信息加密后的结果一定相同,本发明实施例可以基于加密后的公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息F(X'),比如:该估计的属性信息为用户B的年龄,或者用户M的年龄。
S105:根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定所述关联关系;
S106:根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。
一种可选方式,步骤S105包括:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;令所有所述已标记样本对应的第一差值之和达到最小以确定所述关联关系。
具体地,其中yj表示估计的属性信息对应的已知属性信息,F(Xj)-yj为第一差值,L表示所有已标记样本的集合。最后令达到最小,确定关联关系F。
另一种可选方式:图2为本发明一实施例提供的确定关联关系的方法流程图,如图2所示,该方法包括:
S201:获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;
各个待标记样本之间的相似度权重通过余弦相似度算法来确定。具体地,比如:针对某个领域,确定两个待标记样本对应的子特征向量,然后计算这两个子特征向量的夹角的余弦值来估计它们之间的相似度权重。
S202:获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值;
假设待标记样本的特征向量为Xq,特征子向量分别为 其中得到两个第二数值为:和
S203:计算每个领域中各个待标记样本的第二数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
S204:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;
S205:根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述关联关系。
具体地,结合S203-S205进行说明:
其中,R表示所有待标记样本的集合,M尽可能大。wq1,q2表示在F1对应领域中,已标记样本q1与q2之间的相似度权重,ωq1,q2表示在F2对应领域中,已标记样本q1与q2之间的相似度权重。都是第二差值。最后确定关联关系F。
进一步地,所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系之后,还包括:
校正所述关联关系,并将校正后的关联关系作为估计的新的关联关系;
直到校正次数超过预设值,则停止;或者,
直到所有的关联关系收敛,则停止。
本发明实施例提供一种信息确定方法,包括:估计待标记样本的特征向量与待预测属性信息之间的关联关系;将关联关系分解为与所述N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值;基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息;所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息;根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系。由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息,即无需知道每个领域的属性信息,而是从各个领域获取计算结果,通过公共属性信息实现对同一用户的计算结果进行进一步计算,最后确定待预测属性信息,从而保证不同领域数据之间的保密性。
图3为本发明另一实施例提供的一种信息确定方法的流程图,该方法适用于跨领域的数据分析场景,该方法的执行主体为计算机、平板电脑、手机等智能终端,所述方法基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,若所述样本的所有属性信息为已知属性信息,则所述样本被称为已标记样本,否则,被称为待标记样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,其中该方法包括:
S301:根据待标记样本的特征向量估计待预测属性信息的概率分布函数;
具体地,假设该方法涉及两个领域,分别为移动运营商和银行。
用户A在移动运营商的实例数据:{张三、139***0000、11月的手机费为100元,其中话费50元,流量费50元},而用户A在银行的实例数据:{张三、133***0000、业务类型:理财产品1、该理财产品1涉及金额8万、男},其中用户A的所有实例数据组成一个待标记样本,所涉及的性别为待预测属性信息。
用户B在移动运营商的实例数据:{李四、139***0001、11月的手机费为78元,其中话费30元,流量费48元},而用户B在银行的实例数据:{李四、139***0000、业务类型:理财产品2、该理财产品2涉及金额5万、女},其中用户B的所有实例数据组成一个已标记样本。
……
用户m在移动运营商的实例数据:{王五、139***0010、11月的手机费为50元,其中话费30元,流量费10元},而用户m在银行的实例数据:{王五、139***0010、业务类型:存款、涉及金额2000元、女},其中用户M的所有实例数据组成一个已标记样本。
假设特征向量为{姓名、手机号、消费信息,业务类型、该业务类型涉及金额},通过已标记样本内部的数据关系和待标记样本的已知属性信息来确定待标记样本的待预测属性信息。
假设根据特征向量确定性别的概率分布函数为一个离散函数,函数值为0或者1,0代表性别为男,1代表性别为女。
S302:将概率分布函数分解为与N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;
S303:获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;
S304:基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率;
进一步地,可以基于加密后的公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率;其中,N个领域中采用相同加密算法对公共属性信息加密。通过这种加密方式可以提高数据之间的保密性。
S305:根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数;
S306:根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。
结合本发明实施例,该特定属性信息包括:男性和女性。
一种可选方式,所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数,包括:
若所述已标记样本的所述待预测属性信息相对应的属性信息对应有m个特定属性信息,所述m为大于或者等于2的正整数;
针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;
令所有第一差值之和达到最小以确定所述概率分布函数。
另一种可选方式,还包括:
获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;
获取每个领域中每个所述待标记样本的特征子向量代入对应的子函数得到的第二数值;
计算每个领域中各个待标记样本的数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
则所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数,包括:
针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;
可选地,根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。
可选地,根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和以及所述概率与预设值之差确定所述概率分布函数。所有的用户的预设值构成一个先验矩阵。
进一步地,所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数之后,还包括:
校正所述概率分布函数,并将校正后的概率分布函数作为估计的新的概率分布函数;
直到校正次数超过预设值,则停止;或者,
直到所有的概率分布函数收敛,则停止。
本发明实施例提供一种信息确定方法,包括:根据待标记样本的特征向量估计待预测属性信息的概率分布函数;将所述概率分布函数分解为与所述N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率;根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数。由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率,即无需知道每个领域的属性信息,而是从各个领域获取计算结果,通过公共属性信息实现对同一用户的计算结果进行进一步计算,最后确定待预测属性信息,从而保证不同领域数据之间的保密性。
图4为本发明一实施例提供的一种信息确定装置的结构示意图,该装置基于N个领域,N为大于或者等于2的整数,N个领域之间具有独立性,N个领域即为N个数据中心,比如可以是银行数据中心或者是移动运营商数据中心,每个数据中心包括至少一台智能终端,该智能终端用于进行相应的数据处理,该装置为计算机、平板电脑、手机等智能终端,它可以是N个领域中的任一个领域内的智能终端,也可以是不属于任何一个领域的智能终端。每个领域包括多个用户的实例数据,每个实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,其中N个领域之间只能进行公共属性信息的交互,其中,N个领域之间相同的属性信息都可以作为公共属性信息,比如:用户的姓名、身份证号等。同一用户在N个领域中的实例数据组成一个样本,若样本的所有属性信息为已知属性信息,则该样本被称为已标记样本,否则,被称为待标记样本,将该样本所包括的部分或者全部的已知属性信息生成样本的特征向量,即样本的特征向量是由样本所包括的部分或者全部的已知属性信息所组成,每个样本的特征向量所包括的已知属性信息个数相同。该装置包括如下模块;
估计模块41,用于估计待标记样本的特征向量与待预测属性信息之间的关联关系,其中待标记样本为包括至少一个待预测属性信息的样本;
分解模块42,用于将关联关系分解为与N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与N个领域一一对应的特征子向量;
获取模块43,用于获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值;
计算模块44,用于基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息;估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息,已标记样本为包括的所有属性信息为已知属性信息的样本;
确定模块45,用于根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定所述关联关系;
确定模块45,还用于根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。
进一步地,计算模块44具体用于:基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息,其中,N个领域中采用相同加密算法对公共属性信息加密。
更进一步地,确定模块45具体用于:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;令所有已标记样本对应的第一差值之和达到最小以确定关联关系。
可选地,获取模块43还用于:获取每个领域中各个待标记样本之间的相似度权重;其中,相似度权重用于衡量实例数据之间的相似度;获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值;计算模块44还用于计算每个领域中各个待标记样本的第二数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;则确定模块45具体用于:针对每个已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定关联关系。
进一步地,该装置还包括:校正模块46,用于校正关联关系,并将校正后的关联关系作为估计的新的关联关系;直到校正次数超过预设值,则停止;或者,直到所有的关联关系收敛,则停止。
本实施例提供的信息确定装置,可以用于执行图1、图2所示实施例中的方法步骤,其实现原理和技术效果类似,此处不再赘述。
图5为本发明另一实施例提供的一种信息确定装置的结构示意图,该装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,该装置包括:
估计模块51,用于根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中所述待标记样本为包括至少一个待预测属性信息的样本;
分解模块52,用于将所述概率分布函数分解为与所述N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;
获取模块53,用于获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;
计算模块54,用于基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,所述已标记样本为包括的所有属性信息为已知属性信息的样本;
确定模块55,用于根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数;
确定模块55,还用于根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
进一步地,计算模块54具体用于:基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率;其中,N个领域中采用相同加密算法对公共属性信息加密。
可选地,确定模块55具体用于:若已标记样本的待预测属性信息相对应的属性信息对应有m个特定属性信息,所述m为大于或者等于2的正整数;针对每个已标记样本的每个特定属性信息,若待预测属性信息相对应的属性信息实际为特定属性信息,则计算概率与1的第一差值,否则,则计算概率与0的第一差值;令所有第一差值之和达到最小以确定所述概率分布函数。
可选地,获取模块53,还用于:获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;获取每个领域中每个所述待标记样本的特征子向量代入对应的子函数得到的第二数值;所述计算模块54,还用于计算每个领域中各个待标记样本的数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;则所述确定模块55具体用于:针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。
更进一步地,该装置还包括:校正模块56,用于校正所述概率分布函数,并将校正后的概率分布函数作为估计的新的概率分布函数;直到校正次数超过预设值,则停止;或者,直到所有的概率分布函数收敛,则停止。
本实施例提供的信息确定装置,可以用于执行图3所示实施例中的方法步骤,其实现原理和技术效果类似,此处不再赘述。
图6为本发明再一实施例提供的一种信息确定装置的结构示意图,所述装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,图6所示的信息确定装置包括:处理器61;用于存储所述处理器的可执行指令的存储器62。所述处理器61执行存储器62存储的可执行指令,使得信息确定装置执行图1或图2所示的方法步骤,例如执行以下方法步骤,包括:根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中所述待标记样本为包括至少一个待预测属性信息的样本;将所述概率分布函数分解为与所述N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,所述已标记样本为包括的所有属性信息为已知属性信息的样本;根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数;根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
本实施例提供的信息确定装置,可以用于执行图1、图2所示实施例中的方法步骤,其实现原理和技术效果类似,此处不再赘述。
图7为本发明又一实施例提供的一种信息确定装置的结构示意图,所述装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同。图7所示的信息确定装置包括:处理器71,用于存储所述处理器的可执行指令的存储器72。其中,所述处理器71执行存储器72存储的可执行指令,使得信息确定装置执行图3所示的方法步骤,例如执行以下方法步骤,包括:根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中所述待标记样本为包括至少一个待预测属性信息的样本;将所述概率分布函数分解为与所述N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,所述已标记样本为包括的所有属性信息为已知属性信息的样本;根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数;根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
本实施例提供的信息确定装置,可以用于执行图3所示实施例中的方法步骤,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供一种计算机程序产品,包括计算机可读的存储介质,该存储介质用于存储计算机可执行指令,该计算机可执行指令包括执行上述方法步骤的指令。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (22)
1.一种信息确定方法,所述方法基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,其特征在于,包括:
估计待标记样本的特征向量与待预测属性信息之间的关联关系,其中所述待标记样本为包括至少一个待预测属性信息的样本;
将所述关联关系分解为与所述N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;
获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值;
基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息;所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息,所述已标记样本为包括的所有属性信息为已知属性信息的样本;
根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系;
根据确定的关联关系和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息,包括:
基于加密后的所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息,其中,所述N个领域中采用相同加密算法对所述公共属性信息加密。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系,包括:
针对每个所述已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;
令所有所述已标记样本对应的第一差值之和达到最小以确定所述关联关系。
4.根据权利要求1或2所述的方法,其特征在于,还包括:
获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;
获取每个领域中每个所述待标记样本的特征子向量代入对应的子关联关系得到的第二数值;
计算每个领域中各个待标记样本的第二数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
则所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系,包括:
针对每个所述已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;
根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述关联关系。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系之后,还包括:
校正所述关联关系,并将校正后的关联关系作为估计的新的关联关系;
直到校正次数超过预设值,则停止;或者,
直到所有的关联关系收敛,则停止。
6.一种信息确定方法,所述方法基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,其特征在于,包括:
根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中所述待标记样本为包括至少一个待预测属性信息的样本;
将所述概率分布函数分解为与所述N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;
获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;
基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,所述已标记样本为包括的所有属性信息为已知属性信息的样本;
根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数;
根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
7.根据权利要求6所述的方法,其特征在于,基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,包括:
基于加密后的所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率;其中,所述N个领域中采用相同加密算法对所述公共属性信息加密。
8.根据权利要求6或7所述的方法,其特征在于,所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数,包括:
若所述已标记样本的所述待预测属性信息相对应的属性信息对应有m个特定属性信息,所述m为大于或者等于2的正整数;
针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;
令所有第一差值之和达到最小以确定所述概率分布函数。
9.根据权利要求6或7所述的方法,其特征在于,还包括:
获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;
获取每个领域中每个所述待标记样本的特征子向量代入对应的子函数得到的第二数值;
计算每个领域中各个待标记样本的数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
则所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数,包括:
针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;
根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。
10.根据权利要求6-9任一项所述的方法,其特征在于,所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数之后,还包括:
校正所述概率分布函数,并将校正后的概率分布函数作为估计的新的概率分布函数;
直到校正次数超过预设值,则停止;或者,
直到所有的概率分布函数收敛,则停止。
11.一种信息确定装置,所述装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,其特征在于,包括:
估计模块,用于估计待标记样本的特征向量与待预测属性信息之间的关联关系,其中所述待标记样本为包括至少一个待预测属性信息的样本;
分解模块,用于将所述关联关系分解为与所述N个领域一一对应的N个子关联关系,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;
获取模块,用于获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值;
计算模块,用于基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息;所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息,所述已标记样本为包括的所有属性信息为已知属性信息的样本;
确定模块,用于根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系;
所述确定模块,还用于根据确定的关联关系和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
12.根据权利要求11所述的装置,其特征在于,所述计算模块具体用于:
基于加密后的所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息,其中,所述N个领域中采用相同加密算法对所述公共属性信息加密。
13.根据权利要求11或12所述的装置,其特征在于,所述确定模块具体用于:
针对每个所述已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;
令所有所述已标记样本对应的第一差值之和达到最小以确定所述关联关系。
14.根据权利要求11或12所述的装置,其特征在于,
所述获取模块,还用于:
获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;
获取每个领域中每个所述待标记样本的特征子向量代入对应的子关联关系得到的第二数值;
所述计算模块,还用于计算每个领域中各个待标记样本的第二数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
则所述确定模块具体用于:
针对每个所述已标记样本,计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值;
根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述关联关系。
15.根据权利要求11-14任一项所述的装置,其特征在于,还包括:
校正模块,用于校正所述关联关系,并将校正后的关联关系作为估计的新的关联关系;
直到校正次数超过预设值,则停止;或者,
直到所有的关联关系收敛,则停止。
16.一种信息确定装置,所述装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同,其特征在于,包括:
估计模块,用于根据待标记样本的特征向量估计待预测属性信息的概率分布函数,其中所述待标记样本为包括至少一个待预测属性信息的样本;
分解模块,用于将所述概率分布函数分解为与所述N个领域一一对应的N个子函数,并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量;
获取模块,用于获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值;
计算模块,用于基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率,所述已标记样本为包括的所有属性信息为已知属性信息的样本;
确定模块,用于根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数;
所述确定模块,还用于根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。
17.根据权利要求16所述的装置,其特征在于,所述计算模块具体用于:
基于加密后的所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率;其中,所述N个领域中采用相同加密算法对所述公共属性信息加密。
18.根据权利要求16或17所述的装置,其特征在于,所述确定模块具体用于:
若所述已标记样本的所述待预测属性信息相对应的属性信息对应有m个特定属性信息,所述m为大于或者等于2的正整数;
针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;
令所有第一差值之和达到最小以确定所述概率分布函数。
19.根据权利要求16或17所述的装置,其特征在于,
所述获取模块,还用于:
获取每个领域中各个待标记样本之间的相似度权重;其中,所述相似度权重用于衡量所述实例数据之间的相似度;
获取每个领域中每个所述待标记样本的特征子向量代入对应的子函数得到的第二数值;
所述计算模块,还用于计算每个领域中各个待标记样本的数值的第二差值,并对每个领域中的所有第二差值与对应的相似度权重的乘积求和;
则所述确定模块具体用于:
针对每个所述已标记样本的每个所述特定属性信息,若所述待预测属性信息相对应的属性信息实际为所述特定属性信息,则计算所述概率与1的第一差值,否则,则计算所述概率与0的第一差值;
根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。
20.根据权利要求16-19任一项所述的装置,其特征在于,还包括:
校正模块,用于校正所述概率分布函数,并将校正后的概率分布函数作为估计的新的概率分布函数;
直到校正次数超过预设值,则停止;或者,
直到所有的概率分布函数收敛,则停止。
21.一种信息确定装置,所述装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同;其特征在于,所述信息确定装置包括:处理器,用于存储所述处理器的可执行指令的存储器;
其中,所述处理器执行存储器存储的可执行指令,使得所述信息确定装置执行权利要求1至5任一项所述的方法。
22.一种信息确定装置,所述装置基于N个领域,N为大于或者等于2的整数,每个所述领域包括多个用户的实例数据,每个所述实例数据包括多个属性信息,同一用户在N个领域中的实例数据存在至少一个公共属性信息,同一用户在N个领域中的实例数据组成一个样本,将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量,每个样本的特征向量所包括的已知属性信息个数相同;其特征在于,所述信息确定装置包括:处理器,用于存储所述处理器的可执行指令的存储器;
其中,所述处理器执行存储器存储的可执行指令,使得所述信息确定装置执行权利要求6至10任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510959360.9A CN105426534A (zh) | 2015-12-21 | 2015-12-21 | 信息确定方法及装置 |
PCT/CN2016/097816 WO2017107551A1 (zh) | 2015-12-21 | 2016-09-01 | 信息确定方法及装置 |
US16/013,433 US20180300289A1 (en) | 2015-12-21 | 2018-06-20 | Information Determining Method and Apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510959360.9A CN105426534A (zh) | 2015-12-21 | 2015-12-21 | 信息确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105426534A true CN105426534A (zh) | 2016-03-23 |
Family
ID=55504746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510959360.9A Pending CN105426534A (zh) | 2015-12-21 | 2015-12-21 | 信息确定方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180300289A1 (zh) |
CN (1) | CN105426534A (zh) |
WO (1) | WO2017107551A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107551A1 (zh) * | 2015-12-21 | 2017-06-29 | 华为技术有限公司 | 信息确定方法及装置 |
CN107886009A (zh) * | 2017-11-20 | 2018-04-06 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
WO2018184463A1 (en) * | 2017-04-05 | 2018-10-11 | Huawei Technologies Co., Ltd. | Statistics-based multidimensional data cloning |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115511014B (zh) * | 2022-11-23 | 2023-04-07 | 联仁健康医疗大数据科技股份有限公司 | 信息匹配方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021482A1 (en) * | 2003-06-30 | 2005-01-27 | Pyungchul Kim | Drill-through queries from data mining model content |
CN102404249A (zh) * | 2011-11-18 | 2012-04-04 | 北京语言大学 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
CN104376064A (zh) * | 2014-11-05 | 2015-02-25 | 北京奇虎科技有限公司 | 一种挖掘用户年龄样本的方法和装置 |
CN104778173A (zh) * | 2014-01-10 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 目标用户确定方法、装置及设备 |
CN104915608A (zh) * | 2015-05-08 | 2015-09-16 | 南京邮电大学 | 一种信息物理融合系统隐私保护型数据分类方法 |
US20150356152A1 (en) * | 2013-01-11 | 2015-12-10 | Nec Corporation | Text mining device, text mining method, and recording medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8095261B2 (en) * | 2009-03-05 | 2012-01-10 | GM Global Technology Operations LLC | Aggregated information fusion for enhanced diagnostics, prognostics and maintenance practices of vehicles |
CN103473459A (zh) * | 2013-09-17 | 2013-12-25 | 恒东信息科技无锡有限公司 | 一种多系统大数据的处理及融合方法 |
CN104751234B (zh) * | 2013-12-31 | 2018-10-19 | 华为技术有限公司 | 一种用户资产的预测方法及装置 |
CN105426534A (zh) * | 2015-12-21 | 2016-03-23 | 华为技术有限公司 | 信息确定方法及装置 |
-
2015
- 2015-12-21 CN CN201510959360.9A patent/CN105426534A/zh active Pending
-
2016
- 2016-09-01 WO PCT/CN2016/097816 patent/WO2017107551A1/zh active Application Filing
-
2018
- 2018-06-20 US US16/013,433 patent/US20180300289A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021482A1 (en) * | 2003-06-30 | 2005-01-27 | Pyungchul Kim | Drill-through queries from data mining model content |
CN102404249A (zh) * | 2011-11-18 | 2012-04-04 | 北京语言大学 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
US20150356152A1 (en) * | 2013-01-11 | 2015-12-10 | Nec Corporation | Text mining device, text mining method, and recording medium |
CN104778173A (zh) * | 2014-01-10 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 目标用户确定方法、装置及设备 |
CN104376064A (zh) * | 2014-11-05 | 2015-02-25 | 北京奇虎科技有限公司 | 一种挖掘用户年龄样本的方法和装置 |
CN104915608A (zh) * | 2015-05-08 | 2015-09-16 | 南京邮电大学 | 一种信息物理融合系统隐私保护型数据分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107551A1 (zh) * | 2015-12-21 | 2017-06-29 | 华为技术有限公司 | 信息确定方法及装置 |
WO2018184463A1 (en) * | 2017-04-05 | 2018-10-11 | Huawei Technologies Co., Ltd. | Statistics-based multidimensional data cloning |
CN107886009A (zh) * | 2017-11-20 | 2018-04-06 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
CN107886009B (zh) * | 2017-11-20 | 2020-09-08 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2017107551A1 (zh) | 2017-06-29 |
US20180300289A1 (en) | 2018-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109272031B (zh) | 一种训练样本生成方法及装置、设备、介质 | |
CN110942154A (zh) | 基于联邦学习的数据处理方法、装置、设备及存储介质 | |
CN105426534A (zh) | 信息确定方法及装置 | |
CN106126741B (zh) | 一种基于大数据的电网信息安全可信工作系统 | |
CN111914908B (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
US20200065664A1 (en) | System and method of measuring the robustness of a deep neural network | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Zheng et al. | Incorporating Context Correlation into Context-aware Matrix Factorization. | |
CN110458598A (zh) | 场景适配方法、装置及电子设备 | |
CN109154938A (zh) | 使用离散非踪迹定位数据将数字图中的实体分类 | |
CN113704799A (zh) | 分箱数据的处理方法、装置、设备、存储介质及程序产品 | |
CN109583731A (zh) | 一种风险识别方法、装置及设备 | |
CN113704805B (zh) | 一种风控规则匹配方法、装置及电子设备 | |
US10345398B1 (en) | Systems and methods for vector hysteresis analysis | |
CN113808015B (zh) | 输电线路区域气象参数的空间插值方法、装置及设备 | |
CN113469111A (zh) | 图像关键点检测方法及系统、电子设备、存储介质 | |
CN117520645A (zh) | 基于金融产品的用户确定方法、装置以及电子设备 | |
CN114861984A (zh) | 用于预测高含co2凝析气藏油环体积的方法及处理器 | |
CN112148808A (zh) | 关系构建方法、装置和电子设备 | |
Smith et al. | Genetic algorithm sequential Monte Carlo methods for stochastic volatility and parameter estimation | |
CN110414845B (zh) | 针对目标交易的风险评估方法及装置 | |
CN114422105A (zh) | 联合建模方法、装置、电子设备及存储介质 | |
Uilhoorn | A multiobjective optimization approach to filter tuning applied to coupled hyperbolic PDEs describing gas flow dynamics | |
CN107038605A (zh) | 一种汽车配件定价方法及系统及方法 | |
CN113051406A (zh) | 一种人物属性预测方法、装置、服务器及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160323 |
|
RJ01 | Rejection of invention patent application after publication |