CN107291840A - 一种用户属性预测模型构建方法和装置 - Google Patents
一种用户属性预测模型构建方法和装置 Download PDFInfo
- Publication number
- CN107291840A CN107291840A CN201710400378.4A CN201710400378A CN107291840A CN 107291840 A CN107291840 A CN 107291840A CN 201710400378 A CN201710400378 A CN 201710400378A CN 107291840 A CN107291840 A CN 107291840A
- Authority
- CN
- China
- Prior art keywords
- sample set
- forecast model
- user property
- user
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 36
- 238000012937 correction Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims 2
- 239000000463 material Substances 0.000 abstract description 7
- 238000005520 cutting process Methods 0.000 abstract description 5
- 230000005012 migration Effects 0.000 abstract description 4
- 238000013508 migration Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 206010016322 Feeling abnormal Diseases 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004064 recycling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002304 perfume Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种用户属性预测模型构建方法和装置,所述方法包括:获取源样本集合原始特征和目标样本集合原始特征;生成源样本集合扩展特征;采用源样本集合原始特征及源样本集合扩展特征及所归属的用户属性构建第一用户属性预测模型和第二用户属性预测模型;统计第一用户属性预测模型和第二用户属性预测模型对目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度和第二匹配度;分别配置第一用户属性预测模型和第二用户属性预测模型的校正权重;根据第一用户属性预测模型及配置的校正权重及第二用户属性预测模型及配置的校正权重构建目标用户属性预测模型。根据本发明实现了跨领域的标注数据迁移,节省了人力物力。
Description
技术领域
本发明涉及模型构建领域,特别是涉及一种用户属性预测模型构建方法,以及,一种用户属性预测模型构建装置。
背景技术
目前,预测模型在各个领域得到广泛的应用。针对于社交网络网站、论坛网站、新闻网站等包含文本内容的文本平台的用户属性预测,可以将用户在文本平台发表的评论和文章,提取其特征向量并输入至用户属性预测模型,即可预测该用户的用户年龄、性别等用户属性。
在构建上述的用户属性预测模型的过程中,通常是将用户发表的评论和文章收集作为文本数据样本,并将评论和文章分成多个文字、词汇、短语等的文本单元,并根据文本单元所表达的意义对文本单元进行用户属性的标注。然后将文本单元的特征向量和所标注的用户属性作为训练样本对某个基础分类模型进行机器训练,从而得到针对某个文本平台的用户属性预测模型。
发明人在实现本发明的过程中发现,现有技术至少存在以下问题:不同的文本平台中,用户通常采用不同形式的文字、词汇、短语表示相同或相似的意义,从而造成了针对一个文本平台标注的数据无法应用于另外一个文本平台,而需要重新对另外一个文本平台的文本单元进行标注,耗费大量的人力物力。即,采用用户属性预测模型进行跨平台的文本标注时,目前的用户属性预测模型构建方法存在着耗费大量人力物力的问题。
发明内容
本发明实施例针对所要解决的技术问题提供了一种用户属性预测模型构建方法,以及,一种用户属性预测模型构建装置。
为了解决上述问题,本发明提供了一种用户属性预测模型构建方法,所述方法包括:
分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
可选地,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本。
可选地,所述方法还包括:
在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性;
采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型;
根据所述第三用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的匹配度,对所述第三用户属性预测模型配置校正权重;
采用所述第三用户属性预测模型以及分配的校正权重更新所述目标用户属性预测模型。
可选地,所述方法还包括:
将所述源样本集合原始特征和所述源样本集合扩展特征合并成源样本集合合并特征;
采用所述源样本集合合并特征和所归属的用户属性,构建第四用户属性预测模型;
采用所述第四用户属性预测模型更新所述目标用户属性预测模型。
可选地,所述根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征包括:
将在所述源样本集合原始特征和所述目标样本集合原始特征中共现的频率大于第一预设阈值的特征作为支点特征;
确定所述支点特征在所述源样本集合和所述目标样本集合中的关联特征;
将与所述支点特征共现的频率大于第二预设阈值的关联特征作为目标关联特征;
采用所述目标关联特征生成所述源样本集合扩展特征。
可选地,所述从源样本集合和目标样本集合中,分别获取源样本集合原始特征和目标样本集合原始特征包括:
从所述第一文本平台和所述第二文本平台上的多个文本样本中提取多个文本单元,并确定文本单元的文本词性;
将文本词性符合预设词性要求的文本单元提取作为目标文本单元;
计算各目标文本单元的文本特征向量,作为所述源样本集合原始特征和所述目标样本集合原始特征。
可选地,所述方法还包括:
从所述目标样本集合中提取归属于同一目标用户的多个待预测特征;
将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
为了解决上述问题,本发明提供了一种用户属性预测模型构建装置,所述装置包括:
原始特征获取模块,用于分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
扩展特征生成模块,用于根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
第一模型构建模块,用于采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
匹配度统计模块,用于统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
第一校正权重配置模块,用于采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
目标模型构建模块,用于根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
可选地,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本。
可选地,所述装置还包括:
共同特征查找模块,用于在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性;
第二模型构建模块,用于采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型;
第二校正权重配置模块,用于根据所述第三用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的匹配度,对所述第三用户属性预测模型配置校正权重;
第一目标模型更新模块,用于采用所述第三用户属性预测模型以及分配的校正权重更新所述目标用户属性预测模型。
可选地,所述装置还包括:
特征合并模块,用于将所述源样本集合原始特征和所述源样本集合扩展特征合并成源样本集合合并特征;
第三模型构建模块,用于采用所述源样本集合合并特征和所归属的用户属性,构建第四用户属性预测模型;
第二目标模型更新模块,用于采用所述第四用户属性预测模型更新所述目标用户属性预测模型。
可选地,所述扩展特征生成模块包括:
支点特征确定子模块,用于将在所述源样本集合原始特征和所述目标样本集合原始特征中共现的频率大于第一预设阈值的特征作为支点特征;
关联特征确定子模块,用于确定所述支点特征在所述源样本集合和所述目标样本集合中的关联特征;
目标关联特征确定子模块,用于将与所述支点特征共现的频率大于第二预设阈值的关联特征作为目标关联特征;
源样本集合扩展特征生成子模块,用于采用所述目标关联特征生成所述源样本集合扩展特征。
可选地,所述原始特征获取模块包括:
文本单元提取子模块,用于从所述第一文本平台和所述第二文本平台上的多个文本样本中提取多个文本单元,并确定文本单元的文本词性;
目标文本单元提取子模块,用于将文本词性符合预设词性要求的文本单元提取作为目标文本单元;
特征向量计算子模块,用于计算各目标文本单元的文本特征向量,作为所述源样本集合原始特征和所述目标样本集合原始特征。
可选地,所述装置还包括:
待预测特征提取模块,用于从所述目标样本集合中提取归属于同一目标用户的多个待预测特征;
预测结果获取模块,用于将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
根据本发明实施例,通过源样本集合原始特征和目标样本集合原始特征的对应关系,生成与源样本集合原始特征对应的源样本集合扩展特征,并采用源样本集合原始特征、源样本集合扩展特征和所归属的用户属性,构建第一用户属性预测模型和第二用户属性预测模型,通过将第一用户属性预测模型和第二用户属性预测模型的预测结果的用户属性,与实际标注的用户属性进行比较,以确定各自的校正权重,根据第一用户属性预测模型和第二用户属性预测模型和分别配置的校正权重构建目标用户属性预测模型,由此,可以通过该目标用户属性预测模型实现对目标样本集合中多个目标样本集合原始特征的自动识别和用户属性的标注,实现了跨领域的标注数据迁移,节省了人力物力。
而且,根据本发明实施例,通过采用少量的标注数据对第一用户属性预测模型和第二用户属性预测模型分别配置校正权重,通过校正权重调整各预测模型在目标用户属性预测模型的比例,提高了对用户属性预测的准确性。
根据本发明实施例,通过采用共同特征构建目标用户属性预测模型,从而将在源样本集合和目标样本集合通用的特征重复利用,降低了对数据标注的成本。
附图说明
图1是本发明实施例一的一种用户属性预测模型构建方法的步骤流程图;
图2是本发明实施例二的一种用户属性预测模型构建方法的步骤流程图;
图3是本发明实施例三的一种用户属性预测模型构建装置的结构框图;
图4是本发明实施例四的一种用户属性预测模型构建装置的结构框图;
图5是本发明一种文本预处理的步骤流程图;
图6是本发明一种扩展特征生成方法的示意图;
图7是本发明一种属性预测模型构建示意图;
图8是本发明一种用户属性预测模型构建装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
图1示出了本发明实施例一的一种用户属性预测模型构建方法的步骤流程图,所述方法可以包括如下步骤:
步骤101,分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征。
需要说明的是,上述的源样本集合可以包括某个文本平台上的多个文本数据样本的集合。用户通常可以在社交网络网站、论坛网站、新闻网站等文本平台上提交文本格式的评论和留言,因此该类网站可以包含有大量的文本数据样本。可以将其中的文本数据样本收集作为样本集合。
可以将已经针对其中的文本数据样本进行用户属性标注的样本集合作为源样本集合,而将待标注的样本集合作为目标样本集合。相应地,将从源样本集合获取的原始特征作为源样本集合原始特征,将从目标样本集合获取的原始特征作为目标样本集合原始特征。由此,可以从源样本集合和目标样本集合分别获取到多个的源样本集合原始特征和目标样本集合原始特征。
其中,样本集合的原始特征可以包括文本等数据样本的特征向量。即,通过数学表达方式表示某个数据样本的特征。
需要说明的是,从文本中提取文本的特征,是把从文本中抽取出的特征词进行量化来表示文本信息。将一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本的特征向量。
实际应用中,可以根据平台的特性获取不同的样本集合。例如,针对图片平台获取的样本集合为图片样本的集合,其原始特征则为图片的特征向量。本领域技术人员可以采用本发明的技术思路将本发明的技术方案应用于多种领域的平台的数据样本。
步骤102,根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性。
具体实现中,可以首先确定源样本集合原始特征和目标样本集合原始特征之间的对应关系。确定对应关系的方式可以有多种,例如,可以将某个在源样本集合和目标样本集合两个集合中共现频率较高的样本数据的特征选取为支点特征,并进一步确定各个支点特征在源样本集合和目标样本集合中的关联特征,然后将与支点特征共现频率较大的关联特征作为目标关联特征,由此可以将关联特征生成与源样本集合原始特征对应的源样本集合扩展特征。其中,源样本集合原始特征和源样本集合扩展特征,可以归属于相同的用户属性。即,在数学意义上,将源样本集合和目标样本集合中不同的特征,共同映射至一个新的共同特征空间中,从而建立起源样本集合原始特征和目标样本集合原始特征之间的对应关系。
步骤103,采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型。
具体实现中,可以基于源样本集合原始特征和源样本集合扩展特征与对应的用户属性,分别构建第一用户属性预测模型和第二用户属性预测模型。构建的具体方式可以是采用源样本集合原始特征和源样本集合扩展特征作为训练样本,对某个基础分类模型进行机器训练,得到第一用户属性预测模型和第二用户属性预测模型。
实际应用中,源样本集合原始特征已经标注有用户属性,源样本集合扩展特征与源样本集合原始特征归属与相同的用户属性,因此可以直接采用源样本集合原始特征标注的用户属性作为源样本集合扩展特征标注的用户属性。
步骤104,统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度。
步骤105,采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重。
具体实现中,可以采用少量的已经标注用户属性的目标样本集合原始特征对预测模型的准确性进行测试,根据预测模型的用户属性预测结果与实际标注的用户属性进行比较,根据两者是否匹配确定第一用户属性预测模型和第二用户属性预测模型的预测误差,并根据预测误差相应地分别配置校正权重。例如,误差较大的则配置较低的校正权重。
步骤106,根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
具体实现中,可以采用分配的校正权重校正第一用户属性预测模型和第二用户属性预测模型,并将校正后的第一用户属性预测模型和第二用户属性预测模型结合为目标用户属性预测模型。该目标用户属性预测模型可以针对目标样本集合中归属于同一用户的多个目标样本集合原始特征进行识别,并预测出该用户的用户属性。
根据本发明实施例,通过源样本集合原始特征和目标样本集合原始特征的对应关系,生成与源样本集合原始特征对应的源样本集合扩展特征,并采用源样本集合原始特征、源样本集合扩展特征和所归属的用户属性,构建第一用户属性预测模型和第二用户属性预测模型,通过将第一用户属性预测模型和第二用户属性预测模型的预测结果的用户属性,与实际标注的用户属性进行比较,以确定各自的校正权重,根据第一用户属性预测模型和第二用户属性预测模型和分别配置的校正权重构建目标用户属性预测模型,由此,可以通过该目标用户属性预测模型实现对目标样本集合中多个目标样本集合原始特征的自动识别和用户属性的标注,实现了跨领域的标注数据迁移,节省了人力物力。
而且,根据本发明实施例,通过采用少量的标注数据对第一用户属性预测模型和第二用户属性预测模型分别配置校正权重,通过校正权重调整各预测模型在目标用户属性预测模型的比例,提高了对用户属性预测的准确性。
实施例二
图2示出了本发明实施例二的一种用户属性预测模型构建方法的步骤流程图,所述方法可以包括如下步骤:
步骤201,分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征。
可选地,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本;所述步骤201包括:
子步骤S11,从所述第一文本平台和所述第二文本平台上的多个文本样本中提取多个文本单元,并确定文本单元的文本词性;
子步骤S12,将文本词性符合预设词性要求的文本单元提取作为目标文本单元;
子步骤S13,计算各目标文本单元的文本特征向量,作为所述源样本集合原始特征和所述目标样本集合原始特征。
具体实现中,可以将第一文本平台的文本数据样本收集形成源样本集合,将将第二文本平台的文本数据样本收集形成目标样本集合。
可以从第一文本平台和第二文本平台上的多个文本样本中提取多个文本单元。其中,文本样本中可以包含有多个文本单元,文本单元可以包括某个文字、某个词汇或者某个短语。
实际应用中,对于文本平台上的文本而言,文本通常以一个完整的句子的形式出现,因此,可以通过分词处理,将一个句子分成多个文字、词汇或短语作为文本单元。
可以针对多个文本单元确定其文本词性,并相应地标注文本单元的词性,并根据文本单元的词性筛选出目标文本单元,以便后续针对目标文本单元进行特征的提取。因为在实际应用中,并非所有的文本单元都能反映出用户属性,例如,一些副词“地”、“的”,或语气助词“啊”等无法体现出用户的属性。因此,可以将符合预设词性的文本单元筛选出来,而将不符合预设词性的文本单元标注为垃圾数据并滤除,从而保证样本数据的质量。
更具体的例子中,在第一文本平台和第二文本平台获取到源样本集合和目标样本集合,其中分别包含有某个句子文本“为啥看到甄嬛第二集寰寰刚进宫入选回家这一幕我心里这么蓝瘦香菇”和“为啥看到这个这么感兴趣的问题我答得不好,我心里这么难受”,可以分别对上述两个句子进行分词,由“为啥看到甄嬛第二集寰寰刚进宫回家这一幕我心里这么蓝瘦香菇”分词得到“A1-为啥”、“B1-看到”、“C1-甄嬛第二集”、“D1-寰寰”、“E1-刚”、“F1-进宫回家”、“G1-这一幕”、“H1-我”、“I1-心里”、“J1-这么”和“K1-蓝瘦香菇”等多个文本单元;由“为啥看到这个这么感兴趣的问题我答得不好,我心里这么难受”分词得到“A2-为啥”、“B2-看到”、“C2-这个”、“D2-这么”、“E2-感兴趣”、“F2-的”、“G2-问题”、“H2-我”、“I2-答得”、“J2-不好”、“K2-我”、“L2-心里”“M2-这么”和“N2-难受”等多个文本单元。可以针对上述多个文本单元标注词性,并根据词性筛选出目标文本单元。在上述的例子中,可以将词性为副词、语气助词等的文本单元删除,筛选出“A1-为啥”、“B1-看到”、“C1-甄嬛第二集”、“D1-寰寰”、“F1-进宫回家”、“G1-这一幕”、“H1-我”、“I1-心里”、“J1-这么”和“K1-蓝瘦香菇”,以及“A2-为啥”、“B2-看到”、“E2-感兴趣”、“G2-问题”、“H2-我”、“I2-答得”、“J2-不好”、“K2-我”、“L2-这么”和“M2-难受”等多个目标文本单元。
实际应用中,可以通过采用分类器的方法实现上述的文本单元筛选,分类器可以是基础分类器,也可以是回归等其他分类算法的分类器。本领域技术人员可以采用多种分类器筛选出可以用于反映用户属性的文本单元。
在获取到多个目标文本单元后,可以计算各目标文本单元的文本特征向量。
步骤202,根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性。
实际应用中,所述用户属性包括用户的用户年龄、用户性别和/或用户偏好文本类型。
可选地,所述步骤202包括:
子步骤S21,将在所述源样本集合原始特征和所述目标样本集合原始特征中共现的频率大于第一预设阈值的特征作为支点特征;
子步骤S22,确定所述支点特征在所述源样本集合和所述目标样本集合中的关联特征;
子步骤S23,将与所述支点特征共现的频率大于第二预设阈值的关联特征作为目标关联特征;
子步骤S24,采用所述目标关联特征生成所述源样本集合扩展特征。
需要说明的是,由于用户在在表达同一个意义或指代同一个对象时,在不同的文本平台上可能采用的文字、词汇或句子不同,因此,源样本集合原始特征和目标样本集合原始特征之间可能并不相同。例如,同样是表达悲伤的情绪,在第一文本平台上可能采用“蓝瘦香菇”进行描述,而在第二文本平台上则可能采用“难受”进行描述。虽然用户在不同文本平台上针对同一个意义采用了不同的文字进行描述,但与该文本关联的其他文本则可能相同,因此可以通过文本的关联文本确定文本的对应关系。
具体实现中,可以首先从多个原始特征中选取一个或多个支点特征。通常可以将在源样本集合和目标样本集合中同时出现的频率较大的文本单元的特征作为支点特征。然后,查找与支点特征在关联且共现的其他原始特征作为关联特征,根据关联特征与支点特征共现频率确定目标关联特征。最后根据目标关联特征生成源样本集合扩展特征。对于文本而言,关联特征通常是指词性关联的文本单元的特征,例如,形容词“难受”之前通常具有一个副词“这么”,“难受”和“这么”之间则为关联。
例如,针对多个目标文本单元“A1-为啥”、“B1-看到”、“C1-甄嬛第二集”、“D1-寰寰”、“F1-进宫回家”、“G1-这一幕”、“H1-我”、“I1-心里”、“J1-这么”和“K1-蓝瘦香菇”,以及“A2-为啥”、“B2-看到”、“E2-感兴趣”、“G2-问题”、“H2-我”、“I2-答得”、“J2-不好”、“K2-我”、“L2-这么”和“M2-难受”的源样本集合原始特征和目标样本集合原始特征,选取共现频率较高的“这么”和“心里”的特征作为支点特征,并将与支点特征共现频率较高的“蓝瘦香菇”和“难受”的特征作为目标关联特征。
实际应用中,可以通过为支点特征建立二分类器的方式生成扩展特征。例如,为每一个支点特征建立一个二分类器,该二分类器可以采用与支点特征关联的部分源样本集合原始特征和目标样本集合原始特征进行机器训练,是的该二分类器可以判断支点特征是否出现。通过二分类器对各支点特征的判断,得到二分类器的权重向量W。权重向量W中的数值即为某个原始特征与支点特征共现概率的体现。将所有二分类器的权重向量组成矩阵W`,对W`进行SVD分解(Sigular Value Decomposition,奇异值分解)得到矩阵U,选取U的前h行作为映射θ,映射θ将原始特征映射到h维的新空间中,这h个新特征可以作为扩展特征。
步骤203,采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型。
步骤204,统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度。
步骤205,采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重。
步骤206,根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
步骤207,在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性。
实际应用中,所述共同特征包括在文本平台发布文本所使用的文本发布客户端的类型标识。
具体实现中,可以查找在源样本集合和目标样本集合相同的特征作为两个集合的共同特征。共同特征是指在不同文本平台中均表达相同意义并通用的特征。其中,共同特征可以包括用户在文本平台发布文本时所使用的文本发布客户端的客户端类型标识。例如,某个手机型号、某款平板电脑等。在实际应用中,用户通过手机、平板电脑、台式电脑等文本发布客户端在网站发表评论时,文本发布客户端通常会将自身的类型标识添加在评论中。例如,“上述评论发表自尊享版IPHONE 7.0”。
当然,本领域技术人员可以采用多种特征作为共同特征,例如,可以将文本集合中各文本单元的词性序列作为共同特征。
步骤208,采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型。
步骤209,根据所述第三用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的匹配度,对所述第三用户属性预测模型配置校正权重。
步骤210,采用所述第三用户属性预测模型以及分配的校正权重更新所述目标用户属性预测模型。
具体实现中,可以采用共同特征和标注的用户属性构建第三用户属性预测模型。可以采用少量的已经标注用户属性的目标样本集合原始特征对第三用户属性预测模型的准确性进行测试,根据预测模型的用户属性预测结果与实际标注的用户属性进行比较,并根据误差配置第三用户属性预测模型的校正权重。在得到第三用户属性预测模型后,可以采用第三用户属性预测模型更新目标用户属性预测模型。
步骤211,将所述所述源样本集合原始特征和所述源样本集合扩展特征合并成源样本集合合并特征。
步骤212,采用所述源样本集合合并特征和所归属的用户属性,构建第四用户属性预测模型。
步骤213,采用所述第四用户属性预测模型更新所述目标用户属性预测模型。
具体实现中,可以将源样本集合原始特征和源样本集合扩展特征集合而成源样本集合合并特征,并采用源样本集合合并特征和标注的用户属性,构建第四用户属性预测模型。在得到第四用户属性预测模型后,可以采用第四用户属性预测模型更新目标用户属性预测模型。
步骤214,从所述目标样本集合中提取归属于同一目标用户的多个待预测特征。
步骤215,将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
具体实现中,可以从目标样本集合中获取多个文本单元的特征作为待预测特征,并按照用户进行分类,得到归属于同一目标用户的若干个待预测特征,将多个待预测特征输入至目标用户属性预测模型,既可以得到对于目标用户的用户属性预测结果。
实际应用中,可以无须区分不同用户,而将整个目标样本集合作为预测对象,预测该目标样本集合的整体用户属性,例如,可以预测出某个文本平台的目标样本集合归属于某个年龄段的用户。
根据本发明实施例,通过采用共同特征构建目标用户属性预测模型,从而将在源样本集合和目标样本集合通用的特征重复利用,降低了对数据标注的成本。
本发明还提供了一种用户属性预测方法,所述方法可以包括如下步骤:
分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
从所述目标样本集合中提取归属于同一目标用户的多个待预测特征。
将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
根据本发明实施例,可以通过该目标用户属性预测模型实现对目标样本集合中多个目标样本集合原始特征的自动识别和用户属性的标注,节省了人力物力。
为了便于本领域技术人员理解本发明实施例,以下将结合图5、图6、图7和图8的具体示例予以说明。
图5示出了本发明一种文本预处理的步骤流程图。从图中可见,针对源样本集合和目标样本集合中的文本样本,可以进行切词和词性标注等的预处理,对部分垃圾文本进行标注作为训练样本,采用训练样本针对垃圾文本分类模型进行机器训练,从而采用垃圾文本分类模型将垃圾文本滤除。
图6示出了本发明一种扩展特征生成方法的示意图。从图中可见,源域的源域原始特征已经标注有用户属性,和目标域的目标域原始特征没有标注用户属性,从两个域的原始特征中选取共现频率较高的特征作为支点特征,针对每个支点特征建立一个二分类器,进行SVD分解得到映射θ,源域原始特征和目标域原始特征通过θ映射分别得到源域扩展特征和目标域扩展特征。此外,可以通过源域和目标域加工提取出共同特征。
图7示出了本发明一种属性预测模型构建示意图。从图中可见,可以分别采用加工提取的共同特征、源域扩展特征和源域原始特征分别针对选取的基础分类器进行机器训练,分别得到模型G1、模型G2和模型G3。然后将目标域中少量经标注的目标域原始特征分别输入至模型G1、模型G2和模型G3,将输出的预测结果与实际标注进行比较,分别计算得到误差ε1、ε2和ε3,根据误差ε1、ε2和ε3确定配置各个模型的校正权重α1、α2和α3。采用上述参数得到模型G4=α1*G1+α2*G2+α3*G3。同时,采用源域扩展特征和源域原始特征针对选取的基础分类器进行机器训练,并通过SCL算法得到模型G5。最后将模型G4和模型G5通过Bagging(集成算法)的方式得到最终的目标用户属性预测模型G。将目标域的加工提取的共同特征、目标域的扩展特征和原始特征输入至模型G,模型G可以输出用户属性的预测结果。
图8示出了本发明一种用户属性预测模型构建装置的结构示意图。从图中可见,用户属性预测模型构建装置可以包括数据预处理模块、特征选取及产生模块和预测模型生成模块。将共同特征、源域扩展特征、源域原始特征、目标域原始特征等数据经过上述三个模块的处理后,可以得到目标域特征的预测模型。当用于对用户年龄进行预测的领域,可以得到目标域年龄预测模型。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
图3示出了本发明实施例三的一种用户属性预测模型构建装置的结构框图,所述装置具体可以包括如下模块:
原始特征获取模块301,用于分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
扩展特征生成模块302,用于根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
第一模型构建模块303,用于采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
匹配度统计模块304,用于统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
第一校正权重配置模块305,用于采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
目标模型构建模块306,用于根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
根据本发明实施例,通过源样本集合原始特征和目标样本集合原始特征的对应关系,生成与源样本集合原始特征对应的源样本集合扩展特征,并采用源样本集合原始特征、源样本集合扩展特征和所归属的用户属性,构建第一用户属性预测模型和第二用户属性预测模型,通过将第一用户属性预测模型和第二用户属性预测模型的预测结果的用户属性,与实际标注的用户属性进行比较,以确定各自的校正权重,根据第一用户属性预测模型和第二用户属性预测模型和分别配置的校正权重构建目标用户属性预测模型,由此,可以通过该目标用户属性预测模型实现对目标样本集合中多个目标样本集合原始特征的自动识别和用户属性的标注,实现了跨领域的标注数据迁移,节省了人力物力。
而且,根据本发明实施例,通过采用少量的标注数据对第一用户属性预测模型和第二用户属性预测模型分别配置校正权重,通过校正权重调整各预测模型在目标用户属性预测模型的比例,提高了对用户属性预测的准确性。
实施例四
图4示出了本发明实施例四的一种用户属性预测模型构建装置的结构框图,所述装置具体可以包括如下模块:
原始特征获取模块401,用于分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
扩展特征生成模块402,用于根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
第一模型构建模块403,用于采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
匹配度统计模块404,用于统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
第一校正权重配置模块405,用于采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
目标模型构建模块406,用于根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型;
共同特征查找模块407,用于在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性;
第二模型构建模块408,用于采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型;
第二校正权重配置模块409,用于根据所述第三用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的匹配度,对所述第三用户属性预测模型配置校正权重;
第一目标模型更新模块410,用于采用所述第三用户属性预测模型以及分配的校正权重更新所述目标用户属性预测模型;
特征合并模块411,用于将所述源样本集合原始特征和所述源样本集合扩展特征合并成源样本集合合并特征;
第三模型构建模块412,用于采用所述源样本集合合并特征和所归属的用户属性,构建第四用户属性预测模型;
第二目标模型更新模块413,用于采用所述第四用户属性预测模型更新所述目标用户属性预测模型;
待预测特征提取模块414,用于从所述目标样本集合中提取归属于同一目标用户的多个待预测特征;
预测结果获取模块415,用于将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
可选地,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本。
可选地,所述扩展特征生成模块402包括:
支点特征确定子模块,用于将在所述源样本集合原始特征和所述目标样本集合原始特征中共现的频率大于第一预设阈值的特征作为支点特征;
关联特征确定子模块,用于确定所述支点特征在所述源样本集合和所述目标样本集合中的关联特征;
目标关联特征确定子模块,用于将与所述支点特征共现的频率大于第二预设阈值的关联特征作为目标关联特征;
源样本集合扩展特征生成子模块,用于采用所述目标关联特征生成所述源样本集合扩展特征。
可选地,所述原始特征获取模块401包括:
文本单元提取子模块,用于从所述第一文本平台和所述第二文本平台上的多个文本样本中提取多个文本单元,并确定文本单元的文本词性;
目标文本单元提取子模块,用于将文本词性符合预设词性要求的文本单元提取作为目标文本单元;
特征向量计算子模块,用于计算各目标文本单元的文本特征向量,作为所述源样本集合原始特征和所述目标样本集合原始特征。
根据本发明实施例,通过采用共同特征构建目标用户属性预测模型,从而将在源样本集合和目标样本集合通用的特征重复利用,降低了对数据标注的成本。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机系统包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储系统或任何其他非传输介质,可用于存储可以被计算系统访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明实施例是参照根据本发明实施例的方法、终端系统(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端系统的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端系统的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端系统以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端系统上,使得在计算机或其他可编程终端系统上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端系统上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端系统中还存在另外的相同要素。
以上对本发明所提供的一种技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种用户属性预测模型构建方法,其特征在于,所述方法包括:
分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
2.根据权利要求1所述的方法,其特征在于,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性;
采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型;
根据所述第三用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的匹配度,对所述第三用户属性预测模型配置校正权重;
采用所述第三用户属性预测模型以及分配的校正权重更新所述目标用户属性预测模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述源样本集合原始特征和所述源样本集合扩展特征合并成源样本集合合并特征;
采用所述源样本集合合并特征和所归属的用户属性,构建第四用户属性预测模型;
采用所述第四用户属性预测模型更新所述目标用户属性预测模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征包括:
将在所述源样本集合原始特征和所述目标样本集合原始特征中共现的频率大于第一预设阈值的特征作为支点特征;
确定所述支点特征在所述源样本集合和所述目标样本集合中的关联特征;
将与所述支点特征共现的频率大于第二预设阈值的关联特征作为目标关联特征;
采用所述目标关联特征生成所述源样本集合扩展特征。
6.根据权利要求2所述的方法,其特征在于,所述从源样本集合和目标样本集合中,分别获取源样本集合原始特征和目标样本集合原始特征包括:
从所述第一文本平台和所述第二文本平台上的多个文本样本中提取多个文本单元,并确定文本单元的文本词性;
将文本词性符合预设词性要求的文本单元提取作为目标文本单元;
计算各目标文本单元的文本特征向量,作为所述源样本集合原始特征和所述目标样本集合原始特征。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述目标样本集合中提取归属于同一目标用户的多个待预测特征;
将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
8.一种用户属性预测模型构建装置,其特征在于,所述装置包括:
原始特征获取模块,用于分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
扩展特征生成模块,用于根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
第一模型构建模块,用于采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
匹配度统计模块,用于统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
第一校正权重配置模块,用于采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
目标模型构建模块,用于根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
9.根据权利要求8所述的装置,其特征在于,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
共同特征查找模块,用于在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性;
第二模型构建模块,用于采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型;
第二校正权重配置模块,用于根据所述第三用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的匹配度,对所述第三用户属性预测模型配置校正权重;
第一目标模型更新模块,用于采用所述第三用户属性预测模型以及分配的校正权重更新所述目标用户属性预测模型。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
特征合并模块,用于将所述源样本集合原始特征和所述源样本集合扩展特征合并成源样本集合合并特征;
第三模型构建模块,用于采用所述源样本集合合并特征和所归属的用户属性,构建第四用户属性预测模型;
第二目标模型更新模块,用于采用所述第四用户属性预测模型更新所述目标用户属性预测模型。
12.根据权利要求8所述的装置,其特征在于,所述扩展特征生成模块包括:
支点特征确定子模块,用于将在所述源样本集合原始特征和所述目标样本集合原始特征中共现的频率大于第一预设阈值的特征作为支点特征;
关联特征确定子模块,用于确定所述支点特征在所述源样本集合和所述目标样本集合中的关联特征;
目标关联特征确定子模块,用于将与所述支点特征共现的频率大于第二预设阈值的关联特征作为目标关联特征;
源样本集合扩展特征生成子模块,用于采用所述目标关联特征生成所述源样本集合扩展特征。
13.根据权利要求9所述的装置,其特征在于,所述原始特征获取模块包括:
文本单元提取子模块,用于从所述第一文本平台和所述第二文本平台上的多个文本样本中提取多个文本单元,并确定文本单元的文本词性;
目标文本单元提取子模块,用于将文本词性符合预设词性要求的文本单元提取作为目标文本单元;
特征向量计算子模块,用于计算各目标文本单元的文本特征向量,作为所述源样本集合原始特征和所述目标样本集合原始特征。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
待预测特征提取模块,用于从所述目标样本集合中提取归属于同一目标用户的多个待预测特征;
预测结果获取模块,用于将多个待预测特征输入至所述目标用户属性预测模型,得到针对目标用户的用户属性预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710400378.4A CN107291840B (zh) | 2017-05-31 | 2017-05-31 | 一种用户属性预测模型构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710400378.4A CN107291840B (zh) | 2017-05-31 | 2017-05-31 | 一种用户属性预测模型构建方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291840A true CN107291840A (zh) | 2017-10-24 |
CN107291840B CN107291840B (zh) | 2020-01-21 |
Family
ID=60095291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710400378.4A Active CN107291840B (zh) | 2017-05-31 | 2017-05-31 | 一种用户属性预测模型构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291840B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491444A (zh) * | 2018-02-12 | 2018-09-04 | 龙马智芯(珠海横琴)科技有限公司 | 解决方案的生成方法和装置 |
CN108921189A (zh) * | 2018-05-23 | 2018-11-30 | 北京航空航天大学 | 针对社交网络用户属性的推演方法及装置 |
CN108989889A (zh) * | 2018-08-09 | 2018-12-11 | 北京奇艺世纪科技有限公司 | 一种视频播放量预测方法、装置及电子设备 |
CN110619406A (zh) * | 2018-06-19 | 2019-12-27 | 中移信息技术有限公司 | 一种确定业务异常的方法及装置 |
CN111295681A (zh) * | 2017-10-31 | 2020-06-16 | 甲骨文国际公司 | 使用加权混合机器学习模型进行需求预测 |
CN111598599A (zh) * | 2019-02-21 | 2020-08-28 | 阿里巴巴集团控股有限公司 | 用户表征方法、装置、电子设备及计算机可读介质 |
CN113259141A (zh) * | 2021-06-11 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 群组预测模型的测试方法、装置和存储介质及电子设备 |
CN114022317A (zh) * | 2021-11-02 | 2022-02-08 | 深圳市大数据研究院 | 一种法律舆情预测方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1414453A (zh) * | 2002-04-06 | 2003-04-30 | 龚学胜 | 华语拼音、单拼输入统一方案及智能转换翻译 |
CN104778176A (zh) * | 2014-01-13 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 一种数据搜索处理方法及装置 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN106126597A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN106155342A (zh) * | 2015-04-03 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 预测用户待输入字的方法及装置 |
CN106202570A (zh) * | 2016-08-11 | 2016-12-07 | 乐视控股(北京)有限公司 | 一种用户信息获取方法及装置 |
-
2017
- 2017-05-31 CN CN201710400378.4A patent/CN107291840B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1414453A (zh) * | 2002-04-06 | 2003-04-30 | 龚学胜 | 华语拼音、单拼输入统一方案及智能转换翻译 |
CN104778176A (zh) * | 2014-01-13 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 一种数据搜索处理方法及装置 |
CN106155342A (zh) * | 2015-04-03 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 预测用户待输入字的方法及装置 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN106126597A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN106202570A (zh) * | 2016-08-11 | 2016-12-07 | 乐视控股(北京)有限公司 | 一种用户信息获取方法及装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922440B2 (en) | 2017-10-31 | 2024-03-05 | Oracle International Corporation | Demand forecasting using weighted mixed machine learning models |
CN111295681A (zh) * | 2017-10-31 | 2020-06-16 | 甲骨文国际公司 | 使用加权混合机器学习模型进行需求预测 |
CN108491444B (zh) * | 2018-02-12 | 2019-03-12 | 龙马智芯(珠海横琴)科技有限公司 | 解决方案的生成方法和装置 |
CN108491444A (zh) * | 2018-02-12 | 2018-09-04 | 龙马智芯(珠海横琴)科技有限公司 | 解决方案的生成方法和装置 |
CN108921189A (zh) * | 2018-05-23 | 2018-11-30 | 北京航空航天大学 | 针对社交网络用户属性的推演方法及装置 |
CN108921189B (zh) * | 2018-05-23 | 2021-05-18 | 北京航空航天大学 | 针对社交网络用户属性的推演方法及装置 |
CN110619406A (zh) * | 2018-06-19 | 2019-12-27 | 中移信息技术有限公司 | 一种确定业务异常的方法及装置 |
CN108989889A (zh) * | 2018-08-09 | 2018-12-11 | 北京奇艺世纪科技有限公司 | 一种视频播放量预测方法、装置及电子设备 |
CN111598599A (zh) * | 2019-02-21 | 2020-08-28 | 阿里巴巴集团控股有限公司 | 用户表征方法、装置、电子设备及计算机可读介质 |
CN111598599B (zh) * | 2019-02-21 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 用户表征方法、装置、电子设备及计算机可读介质 |
CN113259141B (zh) * | 2021-06-11 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 群组预测模型的测试方法、装置和存储介质及电子设备 |
CN113259141A (zh) * | 2021-06-11 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 群组预测模型的测试方法、装置和存储介质及电子设备 |
CN114022317A (zh) * | 2021-11-02 | 2022-02-08 | 深圳市大数据研究院 | 一种法律舆情预测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107291840B (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291840A (zh) | 一种用户属性预测模型构建方法和装置 | |
WO2021208685A1 (zh) | 执行自动机器学习过程的方法、装置及设备 | |
CN106372132A (zh) | 基于人工智能的查询意图预测方法和装置 | |
CN109522556A (zh) | 一种意图识别方法及装置 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
CN106897262A (zh) | 一种文本分类方法和装置以及处理方法和装置 | |
CN108230007A (zh) | 一种用户意图的识别方法、装置、电子设备及存储介质 | |
CN106598950A (zh) | 一种基于混合层叠模型的命名实体识别方法 | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN113722493B (zh) | 文本分类的数据处理方法、设备、存储介质 | |
CN109871809A (zh) | 一种基于语义网的机器学习流程智能组装方法 | |
WO2020228536A1 (zh) | 图标生成方法及装置、获取图标的方法、电子设备以及存储介质 | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
Fasel et al. | A data warehouse model for integrating fuzzy concepts in meta table structures | |
CN112085087A (zh) | 业务规则生成的方法、装置、计算机设备及存储介质 | |
CN107679141A (zh) | 数据入库方法、装置、设备及计算机可读存储介质 | |
CN111061876B (zh) | 事件舆情数据分析方法及装置 | |
CN105573971B (zh) | 表格重构装置和方法 | |
CN105279699A (zh) | 一种基于协同过滤并结合多类别非信任关系的推荐方法 | |
CN111445139A (zh) | 业务流程模拟方法及装置、存储介质、电子设备 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 | |
Hu et al. | Application of Decision Tree C4. 5 Algorithm in Air Quality Evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |