CN110019563B - 一种基于多维数据的肖像建模方法和装置 - Google Patents

一种基于多维数据的肖像建模方法和装置 Download PDF

Info

Publication number
CN110019563B
CN110019563B CN201810904493.XA CN201810904493A CN110019563B CN 110019563 B CN110019563 B CN 110019563B CN 201810904493 A CN201810904493 A CN 201810904493A CN 110019563 B CN110019563 B CN 110019563B
Authority
CN
China
Prior art keywords
data
result
points
text data
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810904493.XA
Other languages
English (en)
Other versions
CN110019563A (zh
Inventor
宋扬
刘尚
赵隽
纪雨杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shougang Automation Information Technology Co Ltd
Original Assignee
Beijing Shougang Automation Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shougang Automation Information Technology Co Ltd filed Critical Beijing Shougang Automation Information Technology Co Ltd
Priority to CN201810904493.XA priority Critical patent/CN110019563B/zh
Publication of CN110019563A publication Critical patent/CN110019563A/zh
Application granted granted Critical
Publication of CN110019563B publication Critical patent/CN110019563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于多维数据的肖像建模方法和装置,通过所述方法包括:获得用户历史数据;清洗所述历史数据,将所述历史数据分为行为数据和文本数据;对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;对所述文本数据进行分词处理和特征加权处理;训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;根据所述第一结果和所述第二结果,生成标签值;根据所述标签值,更新或输出肖像数据。解决现有技术中历史数据维度较多时会影响肖像建模的技术问题,达到了通过对用户的多维历史消费数据进行预处理和数据挖掘,形成相应量化标签,多维度的标签数据通过进一步数学分析得到用户的肖像的技术效果。

Description

一种基于多维数据的肖像建模方法和装置
技术领域
本发明涉及肖像建模技术领域,尤其涉及一种基于多维数据的肖像建模方法和装置。
背景技术
用户肖像,肖像建模通常包含Profile和Persona两种建模类型,本申请中专指Profile类型的肖像建模。Profile类型的肖像建模更多被运营和数据分析师使用,它是各类描述用户数据的变量集合。国内外对用户肖像建模的技术研究主要集中在对统计分析、机器学习的技术在某一业务领域的结合实现,本申请基于用户历史消费数据和其评价数据等多维数据提出了一种建模方法。
发明内容
本发明实施例提供了一种基于多维数据的肖像建模方法和装置,解决了现有技术中历史数据维度较多时会影响标签内容,从而影响肖像建模的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种基于多维数据的肖像建模方法和装置。
第一方面,本发明提供了一种基于多维数据的肖像建模方法,所述方法包括:获得用户历史数据;清洗所述历史数据,将所述历史数据分为行为数据和文本数据;对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;对所述文本数据进行分词处理和特征加权处理;训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;根据所述第一结果和所述第二结果,生成标签值;根据所述标签值,更新或输出肖像数据。
优选的,所述对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果,包括:输入所述行为数据;获得带宽值;获得数据点权值函数;判断所述行为数据是否存在未遍历点;如果所述行为数据不存在未遍历点,则聚类完成。
优选的,所述方法还包括:如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;计算所述未遍历的行为数据飘移向量Mh;根据所述飘移向量移动重心点;判断所述重心点是否满足收敛条件;如果所述重心点满足所述收敛条件,则聚类完成。
优选的,所述方法还包括:给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000021
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Sh(x)={y:||y-x||<rn}
每次漂移过程后的新重心为x=x+Mh;通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。
优选的,所述对所述文本数据进行分词处理和特征加权处理,包括:
Figure BDA0001760278370000022
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
优选的,所述训练分类器还包括:对所述分词处理和特征加权处理后的文本数据进行标注;将标注后的文本数据作为输入数据,输入到所述分类器中;将分类信息作为所述分类器的目标结果;根据所述输入数据和所述目标结果,调整所述分类器内部参数;训练所述分类器收敛至与所述目标结果相符的形式。
优选的,所述对所述分词处理和特征加权处理后的文本数据进行标注,还包括:对所述文本数据进行标注分类,获得所述分类信息;将所述文本数据和所述标注信息进行存储备用。
第二方面,本发明提供了一种基于多维数据的肖像建模装置,所述装置包括:
第一获得单元,所述第一获得单元用于获得用户历史数据;
第一清洗单元,所述第一清洗单元用于清洗所述历史数据,将所述历史数据分为行为数据和文本数据;
第二获得单元,所述第二获得单元用于对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;
第一处理单元,所述第一处理单元用于对所述文本数据进行分词处理和特征加权处理;
第三获得单元,所述第三获得单元用于训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;
第一生成单元,所述第一生成单元用于根据所述第一结果和所述第二结果,生成标签值;
第一输出单元,所述第一输出单元用于根据所述标签值,更新或输出肖像数据。
优选的,所述装置还包括:
第一输入单元,所述第一输入单元用于输入所述行为数据;
第四获得单元,所述第四获得单元用于获得带宽值;
第五获得单元,所述第五获得单元用于获得数据点权值函数;
第一判断单元,所述第一判断单元用于判断所述行为数据是否存在未遍历点;
第一聚类单元,所述第一聚类单元用于如果所述行为数据不存在未遍历点,则聚类完成。
优选的,所述装置还包括:
第一选择单元,所述第一选择单元用于如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;
第一计算单元,所述第一计算单元用于计算所述未遍历的行为数据飘移向量Mh
第一移动单元,所述第一移动单元用于根据所述飘移向量移动重心点;
第二判断单元,所述第二判断单元用于判断所述重心点是否满足收敛条件;
第二聚类单元,所述第二聚类单元用于如果所述重心点满足所述收敛条件,则聚类完成。
优选的,所述装置还包括:
第一表示单元,所述第一表示单元用于为给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000051
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;
Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Sh(x)={y:||y-x||<rn}
每次漂移过程后的新重心为x=x+Mh
通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。
优选的,所述第一处理单元包括:
Figure BDA0001760278370000052
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
优选的,所述训练分类器还包括:
第一标注单元,所述第一标注单元用于对所述分词处理和特征加权处理后的文本数据进行标注;
第二输入单元,所述第二输入单元用于将标注后的文本数据作为输入数据,输入到所述分类器中;
第一结果单元,所述第一结果单元用于将分类信息作为所述分类器的目标结果;
第一调整单元,所述第一调整单元用于根据所述输入数据和所述目标结果,调整所述分类器内部参数;
第一训练单元,所述第一训练单元用于训练所述分类器收敛至与所述目标结果相符的形式。
优选的,所述装置还包括:
第六获得单元,所述第六获得单元用于对所述文本数据进行标注分类,获得所述分类信息;
第一存储单元,所述第一存储单元用于将所述文本数据和所述标注信息进行存储备用。
第三方面,本发明提供了一种基于多维数据的肖像建模装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获得用户历史数据;清洗所述历史数据,将所述历史数据分为行为数据和文本数据;对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;对所述文本数据进行分词处理和特征加权处理;训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;根据所述第一结果和所述第二结果,生成标签值;根据所述标签值,更新或输出肖像数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1.本申请实施例提供的一种基于多维数据的肖像建模方法和装置,通过获得用户历史数据;清洗所述历史数据,将所述历史数据分为行为数据和文本数据;对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;对所述文本数据进行分词处理和特征加权处理;训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;根据所述第一结果和所述第二结果,生成标签值;根据所述标签值,更新或输出肖像数据。解决了现有技术中历史数据维度较多时会影响标签内容,从而影响肖像建模的技术问题。达到了通过对用户的多维历史消费数据进行预处理和数据挖掘,可形成用户画像中相应的量化标签,多维度的标签数据通过进一步的数学分析得到用户的肖像,用于商业活动中有效地对用户偏好的预测和精准推荐的技术效果。
2.本申请实施例通过所述方法还包括:给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000071
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Sh(x)={y:||y-x||<rn}
每次漂移过程后的新重心为x=x+Mh;通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。解决了当历史数据维度较多时,同一标签内容将可能受到多个数据维度影响的技术问题。达到了通过对待分析数据中已经明确可量化的数据项进行统计分析,必要的数据项结合聚类算法,对同一用户的,某项量化值的多个样本值在整个数据集中按某种规则排序的占比排名值进行聚类,实现有效进行标签的技术效果。
3.本申请实施例通过所述训练分类器还包括:对所述分词处理和特征加权处理后的文本数据进行标注;将标注后的文本数据作为输入数据,输入到所述分类器中;将分类信息作为所述分类器的目标结果;根据所述输入数据和所述目标结果,调整所述分类器内部参数;训练所述分类器收敛至与所述目标结果相符的形式。达到了采用自行设计的级联分类器进行分类训练,分类器模型将用于对文本分词的内容进行分类,词句情感程度通过自然语言处理进行计算,得到结果作为进行词所在分类的标签的计算依据的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种基于多维数据的肖像建模方法的流程示意图;
图2为本发明实施例中一种基于多维数据的肖像建模装置的结构示意图;
图3为本发明实施例中另一种基于多维数据的肖像建模装置的结构示意图。
附图标记说明:第一获得单元11,第一清洗单元12,第二获得单元13,第一处理单元14,第三获得单元15,第一生成单元16,第一输出单元17,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种基于多维数据的肖像建模方法和装置,用于解决现有技术中历史数据维度较多时会影响标签内容,从而影响肖像建模的技术问题。
本发明提供的技术方案总体思路如下:通过获得用户历史数据;清洗所述历史数据,将所述历史数据分为行为数据和文本数据;对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;对所述文本数据进行分词处理和特征加权处理;训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;根据所述第一结果和所述第二结果,生成标签值;根据所述标签值,更新或输出肖像数据。达到了通过对用户的多维历史消费数据进行预处理和数据挖掘,可形成用户画像中相应的量化标签,多维度的标签数据通过进一步的数学分析得到用户的肖像,用于商业活动中有效地对用户偏好的预测和精准推荐的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种基于多维数据的肖像建模方法的流程示意图。如图1所示,一种基于多维数据的肖像建模方法,所述方法包括:
步骤110:获得用户历史数据;
具体而言,获得用户的历史消费数据,举例而言,通过爬虫程序,爬取关于餐饮店铺数据,包括名称,人均消费,评论总数,菜系,所在地点;用户的点评记录,包括用户id,点评店铺名,打分,评论文本内容。
步骤120:清洗所述历史数据,将所述历史数据分为行为数据和文本数据;
具体而言,对所获得的历史数据进行清洗,具体包括:表数据关联、相关数据量化、去除重复和无效的数据。将所述历史数据分为行为数据和文本数据。
步骤130:对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;
进一步的,所述对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果,包括:输入所述行为数据;获得带宽值;获得数据点权值函数;判断所述行为数据是否存在未遍历点;如果所述行为数据不存在未遍历点,则聚类完成。
具体而言,对步骤120得到的所述行为数据进行统计,具体包括:单一用户去过的菜系数量和占比、单一用户对每个菜系的消费均值、单一用户出现的地点的次数和占比、单一用户去过的店铺的点评数量与其在全部店铺集合中的点评数排名占比。然后对所述行为数据使用带权均值漂移算法进行聚类,具体为对所述单一用户去过的店铺的点评数量与其在全部店铺集合中的点评数排名占比为输入,对其进行均值漂移聚类,得到的聚类中心点值为用户倾向于去的店铺的火爆程度(点评量的排名一定程度上正相关)。所述带权均值漂移聚类的流程步骤为:第一,输入所述行为数据;第二,获得带宽值,所述带宽值是指均值漂移过程中每次考虑的数据点的范围,包括:人为指定值或通过算法根据数据规模和范围生成值;第三,获得数据点权值函数,举例而言,根据数据点所属的菜系不同,与评论数目的量有一定相关性,其点评数目排名可以根据菜系不同被指定不同的权值,从而更好地得到结果;第四,判断所述行为数据是否存在未遍历点,如果所述行为数据存在未参与过计算的地点则继续选择;第五,如果所述行为数据不存在未遍历点,则聚类完成。
步骤140:对所述文本数据进行分词处理和特征加权处理;
进一步的,所述对所述文本数据进行分词处理和特征加权处理,包括:
Figure BDA0001760278370000101
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
具体而言,对所述文本数据进行处理,所述文本数据为评论文本内容等,将评论文本用分词工具进行分词,得到结果为组成文本的单个词汇的集合,该处理为对所述文本数据进行分词处理。对所述文本数据进行特征加权处理为词汇通过提出的公式对每个词进行特征加权,所述特征加权的公式为:
Figure BDA0001760278370000111
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。此公式一定程度上抑制了单个词在评论中的出现次数TF对于整体权重影响过大的问题。将部分分词结果用于作训练集作为下述分类器的输入,进行人工标注,训练出了对用户肖像中部分相关标签的分类模型。
步骤150:训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;
进一步的,所述训练分类器还包括:对所述分词处理和特征加权处理后的文本数据进行标注;将标注后的文本数据作为输入数据,输入到所述分类器中;将分类信息作为所述分类器的目标结果;根据所述输入数据和所述目标结果,调整所述分类器内部参数;训练所述分类器收敛至与所述目标结果相符的形式。
进一步的,所述对所述分词处理和特征加权处理后的文本数据进行标注,还包括:对所述文本数据进行标注分类,获得所述分类信息;将所述文本数据和所述标注信息进行存储备用。
具体而言,使用已经训练好的分类器对经过所述分词处理和特征加权处理后的文本数据进行分类器分类,即对所述词汇进行分类,得到词汇属于对特定方面的描述分类结果,如口味方面,服务方面,环境方面等,称之为第二结果。所述训练分类器的流程包括:首先重复上述步骤获取历史数据、数据清洗、文本数据分词;然后进行标注,对所述文本数据进行标注分类,获得所述分类信息,即人工标记词汇所属业务分类,将所述文本数据和所述标注信息进行存储备用,即将数据和标注内容进行存储;接着将标注后的文本数据(词汇和其所属的业务分类)作为输入数据,输入到所述分类器中,所述分类器的工作方式为词汇作为所述分类器的输入,输出对应的业务分类,训练是通过使用已经标注了业务分类的词汇对分类器进行引导,所述分类器通过学习调整其内部参数,最后所述分类器收敛至与标注相符的形式,即使分类器的输出业务分类与期望结果相近或相同。所述分类器模型更新,从而完成所述分类器训练。
步骤160:根据所述第一结果和所述第二结果,生成标签值;
具体而言,根据对所述行为数据进行带权均值漂移算法进行聚类获得的第一结果和训练分类器对所述分词处理和特征加权处理后的文本数据进行分类器分类得到的第二结果,综合以上分析出的数据,进行最后的统计计算,将得到的结果作为进行词所在分类标签的计算依据,生成标签值。本实施例进行特征工程的处理,对评价文本进行分词、特征数值化、特征加权与选择等处理,将所有文本的分词内容进行人工标注,采用自行设计的级联分类器进行分类训练,分类器模型将用于对文本分词的内容进行分类,词句情感程度通过自然语言处理进行计算,得到结果作为进行词所在分类的标签的计算依据。
步骤170:根据所述标签值,更新或输出肖像数据。
具体而言,根据所述标签值,得到肖像数据,根据所述肖像数据进行更新或者输出,构建出用户肖像,本发明实施例通过对用户的多维历史消费数据进行预处理和数据挖掘,可以形成用户画像中相应的量化标签。达到了通过用户历史消费数据和其评价数据等多维数据完成用户肖像建模方法,对用户历史行为数据的分析与基于此的标签向量生成,多维度的标签数据通过进一步的数学分析得到用户的肖像,用于商业活动中有效地对用户偏好的预测和精准推荐的技术效果。
进一步的,所述方法还包括:如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;计算所述未遍历的行为数据飘移向量Mh;根据所述飘移向量移动重心点;判断所述重心点是否满足收敛条件;如果所述重心点满足所述收敛条件,则聚类完成。
具体而言,所述带权均值漂移聚类的流程步骤还包括:如果所述行为数据存在未遍历点,即存在未参与过计算的地点,随机选择未遍历地数据点作为重心点,随机选择未遍历的行为数据;然后计算所述未遍历的行为数据飘移向量Mh,每次计算中在距离起始点带宽范围内的点都参与了计算,属于已经被遍历的点;根据所述飘移向量移动重心点,根据移向量Mh移动窗口;判断所述重心点是否满足收敛条件,如果所述重心点满足所述收敛条件,举例而言,下一次漂移向量小于某个值则满足条件,输出收敛的所有点,则聚类完成。
进一步的,所述方法还包括:给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000131
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Sh(x)={y:||y-x||<rn}
每次漂移过程后的新重心为x=x+Mh;通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。
具体而言,本实施例采取带权均值漂移算法进行聚类,对需要涉及统计聚类的数据采用自行设计的带权均值漂移,所述带权均值漂移聚类算法的描述如下:给定d维空间的n个数据点集X,那么对于空间中的任意点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000141
其中Mh表示漂移向量;w(xi)为每个数据点xi的带权项,根据数据类型和业务类型的具体需求可对w(xi)进行设计,例如特征点xi的类别不同,代表与针对需要计算的目标标签的相关程度不同,w(xi)置为不同的常数值,同时可以解决对来自不同类别(维度)的数据点x对结果数据(标签数据)的不同相关程度问题,同时通过w(xi)的设计从一定程度上解决采用欧氏距离时特征分量的相关性没有被充分利用的问题;Sk表示表示的是数据集的点p到x的欧氏距离小于n维空间中带宽(二维中为半径)r的数据点,即:Sh(x)={y:||y-x||<rn}每次漂移过程后的新重心为x=x+Mh,通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。
实施例二
基于与前述实施例中一种基于多维数据的肖像建模方法同样的发明构思,本发明还提供一种基于多维数据的肖像建模装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获得用户历史数据;
第一清洗单元12,所述第一清洗单元12用于清洗所述历史数据,将所述历史数据分为行为数据和文本数据;
第二获得单元13,所述第二获得单元13用于对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;
第一处理单元14,所述第一处理单元14用于对所述文本数据进行分词处理和特征加权处理;
第三获得单元15,所述第三获得单元15用于训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;
第一生成单元16,所述第一生成单元16用于根据所述第一结果和所述第二结果,生成标签值;
第一输出单元17,所述第一输出单元17用于根据所述标签值,更新或输出肖像数据。
进一步的,所述装置还包括:
第一输入单元,所述第一输入单元用于输入所述行为数据;
第四获得单元,所述第四获得单元用于获得带宽值;
第五获得单元,所述第五获得单元用于获得数据点权值函数;
第一判断单元,所述第一判断单元用于判断所述行为数据是否存在未遍历点;
第一聚类单元,所述第一聚类单元用于如果所述行为数据不存在未遍历点,则聚类完成。
进一步的,所述装置还包括:
第一选择单元,所述第一选择单元用于如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;
第一计算单元,所述第一计算单元用于计算所述未遍历的行为数据飘移向量Mh
第一移动单元,所述第一移动单元用于根据所述飘移向量移动重心点;
第二判断单元,所述第二判断单元用于判断所述重心点是否满足收敛条件;
第二聚类单元,所述第二聚类单元用于如果所述重心点满足所述收敛条件,则聚类完成。
进一步的,所述装置还包括:
第一表示单元,所述第一表示单元用于为给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000162
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;
Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Sh(x)={y:||y-x||<rn}
每次漂移过程后的新重心为x=x+Mh
通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。
进一步的,所述第一处理单元包括:
Figure BDA0001760278370000161
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
进一步的,所述训练分类器还包括:
第一标注单元,所述第一标注单元用于对所述分词处理和特征加权处理后的文本数据进行标注;
第二输入单元,所述第二输入单元用于将标注后的文本数据作为输入数据,输入到所述分类器中;
第一结果单元,所述第一结果单元用于将分类信息作为所述分类器的目标结果;
第一调整单元,所述第一调整单元用于根据所述输入数据和所述目标结果,调整所述分类器内部参数;
第一训练单元,所述第一训练单元用于训练所述分类器收敛至与所述目标结果相符的形式。
进一步的,所述装置还包括:
第六获得单元,所述第六获得单元用于对所述文本数据进行标注分类,获得所述分类信息;
第一存储单元,所述第一存储单元用于将所述文本数据和所述标注信息进行存储备用。
前述图1实施例一中的一种基于多维数据的肖像建模方法的各种变化方式和具体实例同样适用于本实施例的一种基于多维数据的肖像建模装置,通过前述对一种基于多维数据的肖像建模方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于多维数据的肖像建模装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种基于多维数据的肖像建模方法同样的发明构思,本发明还提供一种基于多维数据的肖像建模装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种网络权限的认证方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1.本申请实施例提供的一种基于多维数据的肖像建模方法和装置,通过获得用户历史数据;清洗所述历史数据,将所述历史数据分为行为数据和文本数据;对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;对所述文本数据进行分词处理和特征加权处理;训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;根据所述第一结果和所述第二结果,生成标签值;根据所述标签值,更新或输出肖像数据。解决了现有技术中历史数据维度较多时会影响标签内容,从而影响肖像建模的技术问题。达到了通过对用户的多维历史消费数据进行预处理和数据挖掘,可形成用户画像中相应的量化标签,多维度的标签数据通过进一步的数学分析得到用户的肖像,用于商业活动中有效地对用户偏好的预测和精准推荐的技术效果。
2.本申请实施例通过所述方法还包括:给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式可以表示为:
Figure BDA0001760278370000181
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Sh(x)={y:||y-x||<rn}
每次漂移过程后的新重心为x=x+Mh;通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点。解决了当历史数据维度较多时,同一标签内容将可能受到多个数据维度影响的技术问题。达到了通过对待分析数据中已经明确可量化的数据项进行统计分析,必要的数据项结合聚类算法,对同一用户的,某项量化值的多个样本值在整个数据集中按某种规则排序的占比排名值进行聚类,实现有效进行标签的技术效果。
3.本申请实施例通过所述训练分类器还包括:对所述分词处理和特征加权处理后的文本数据进行标注;将标注后的文本数据作为输入数据,输入到所述分类器中;将分类信息作为所述分类器的目标结果;根据所述输入数据和所述目标结果,调整所述分类器内部参数;训练所述分类器收敛至与所述目标结果相符的形式。达到了采用自行设计的级联分类器进行分类训练,分类器模型将用于对文本分词的内容进行分类,词句情感程度通过自然语言处理进行计算,得到结果作为进行词所在分类的标签的计算依据的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于多维数据的肖像建模方法,其特征在于,所述方法包括:
获得用户历史数据;
清洗所述历史数据,将所述历史数据分为行为数据和文本数据;
对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;
对所述文本数据进行分词处理和特征加权处理;
训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;
根据所述第一结果和所述第二结果,生成标签值;
根据所述标签值,更新或输出肖像数据;
其中,所述对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果,包括:
输入所述行为数据;
获得带宽值;
获得数据点权值函数;
判断所述行为数据是否存在未遍历点;
如果所述行为数据不存在未遍历点,则聚类完成;
如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;
计算所述未遍历的行为数据飘移向量Mh
根据所述飘移向量移动重心点;
判断所述重心点是否满足收敛条件;
如果所述重心点满足所述收敛条件,则聚类完成;
给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式表示为:
Figure DEST_PATH_IMAGE001
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;
Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Figure 236981DEST_PATH_IMAGE002
每次漂移过程后的新重心为x=x+Mh
通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点;
所述对所述文本数据进行分词处理和特征加权处理,包括:
Figure DEST_PATH_IMAGE003
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
2.如权利要求1所述的方法,其特征在于,所述训练分类器还包括:
对所述分词处理和特征加权处理后的文本数据进行标注;
将标注后的文本数据作为输入数据,输入到所述分类器中;
将分类信息作为所述分类器的目标结果;
根据所述输入数据和所述目标结果,调整所述分类器内部参数;
训练所述分类器收敛至与所述目标结果相符的形式。
3.如权利要求2所述的方法,其特征在于,所述对所述分词处理和特征加权处理后的文本数据进行标注,还包括:
对所述文本数据进行标注分类,获得所述分类信息;
将所述文本数据和所述分类信息进行存储备用。
4.一种基于多维数据的肖像建模装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得用户历史数据;
第一清洗单元,所述第一清洗单元用于清洗所述历史数据,将所述历史数据分为行为数据和文本数据;
第二获得单元,所述第二获得单元用于对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;
第一处理单元,所述第一处理单元用于对所述文本数据进行分词处理和特征加权处理;
第三获得单元,所述第三获得单元用于训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;
第一生成单元,所述第一生成单元用于根据所述第一结果和所述第二结果,生成标签值;
第一输出单元,所述第一输出单元用于根据所述标签值,更新或输出肖像数据;
第一输入单元,所述第一输入单元用于输入所述行为数据;
第四获得单元,所述第四获得单元用于获得带宽值;
第五获得单元,所述第五获得单元用于获得数据点权值函数;
第一判断单元,所述第一判断单元用于判断所述行为数据是否存在未遍历点;
第一聚类单元,所述第一聚类单元用于如果所述行为数据不存在未遍历点,则聚类完成;
第一选择单元,所述第一选择单元用于如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;
第一计算单元,所述第一计算单元用于计算所述未遍历的行为数据飘移向量Mh
第一移动单元,所述第一移动单元用于根据所述飘移向量移动重心点;
第二判断单元,所述第二判断单元用于判断所述重心点是否满足收敛条件;
第二聚类单元,所述第二聚类单元用于如果所述重心点满足所述收敛条件,则聚类完成;
第一表示单元,所述第一表示单元用于为给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式表示为:
Figure 780220DEST_PATH_IMAGE004
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;
Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Figure DEST_PATH_IMAGE005
每次漂移过程后的新重心为x=x+Mh
通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点;
所述第一处理单元包括:
Figure 684591DEST_PATH_IMAGE006
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
5.一种基于多维数据的肖像建模装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得用户历史数据;
清洗所述历史数据,将所述历史数据分为行为数据和文本数据;
对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果;
对所述文本数据进行分词处理和特征加权处理;
训练分类器,对所述分词处理和特征加权处理后的文本数据进行分类器分类,获得第二结果;
根据所述第一结果和所述第二结果,生成标签值;
根据所述标签值,更新或输出肖像数据;
其中,所述对所述行为数据进行带权均值漂移算法进行聚类,获得第一结果,包括:
输入所述行为数据;
获得带宽值;
获得数据点权值函数;
判断所述行为数据是否存在未遍历点;
如果所述行为数据不存在未遍历点,则聚类完成;
如果所述行为数据存在未遍历点,随机选择未遍历的行为数据;
计算所述未遍历的行为数据飘移向量Mh
根据所述飘移向量移动重心点;
判断所述重心点是否满足收敛条件;
如果所述重心点满足所述收敛条件,则聚类完成;
给定d维空间的n个所述行为数据的数据点集X,那么对于空间中的任意数据点x的漂移向量基本形式表示为:
Figure DEST_PATH_IMAGE007
其中,Mh表示漂移向量;w(xi)为每个数据点xi的带权项;
Sk表示的是数据点集X的点p到x的欧氏距离小于n维空间中带宽r的数据点,即:
Figure 971478DEST_PATH_IMAGE008
每次漂移过程后的新重心为x=x+Mh
通过重复求解漂移向量及进行漂移使得重心最后收敛于空间中的k个点;
所述对所述文本数据进行分词处理和特征加权处理,包括:
Figure DEST_PATH_IMAGE009
其中,TF(w,d)为所述文本数据中的词语w在所述文本数据d中的词语频率,Nc为所述文本数据中的评论条目总数,DFc为包含所述词语w的评论条目的总数,N为所述文本数据分词结果中所有词的数目,Nw为词w总数目。
CN201810904493.XA 2018-08-09 2018-08-09 一种基于多维数据的肖像建模方法和装置 Active CN110019563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810904493.XA CN110019563B (zh) 2018-08-09 2018-08-09 一种基于多维数据的肖像建模方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810904493.XA CN110019563B (zh) 2018-08-09 2018-08-09 一种基于多维数据的肖像建模方法和装置

Publications (2)

Publication Number Publication Date
CN110019563A CN110019563A (zh) 2019-07-16
CN110019563B true CN110019563B (zh) 2022-12-09

Family

ID=67188369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810904493.XA Active CN110019563B (zh) 2018-08-09 2018-08-09 一种基于多维数据的肖像建模方法和装置

Country Status (1)

Country Link
CN (1) CN110019563B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472680B (zh) * 2019-08-08 2021-05-25 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质
CN111651440A (zh) * 2020-04-30 2020-09-11 深圳壹账通智能科技有限公司 用户信息判别方法、装置及计算机可读存储介质
CN113850281B (zh) * 2021-02-05 2024-03-12 天翼数字生活科技有限公司 一种基于meanshift优化的数据处理方法和装置
CN115114498B (zh) * 2021-03-17 2024-09-10 中国科学院软件研究所 一种基于多维度的网络空间人物画像方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203485A (zh) * 2016-07-01 2016-12-07 北京邮电大学 一种支持向量机的并行训练方法及装置
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN107578270A (zh) * 2017-08-03 2018-01-12 中国银联股份有限公司 一种金融标签的构建方法、装置及计算设备
CN107633007B (zh) * 2017-08-09 2021-09-28 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN108009228B (zh) * 2017-11-27 2020-10-09 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质

Also Published As

Publication number Publication date
CN110019563A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US11995702B2 (en) Item recommendations using convolutions on weighted graphs
CN109213863B (zh) 一种基于学习风格的自适应推荐方法及系统
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN110019563B (zh) 一种基于多维数据的肖像建模方法和装置
CN105701191B (zh) 一种推送信息点击率估计方法和装置
CN109543109B (zh) 一种融合时间窗技术和评分预测模型的推荐算法
CN105760400B (zh) 一种基于搜索行为的推送消息排序方法及装置
CN107357793B (zh) 信息推荐方法和装置
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
WO2020187168A1 (zh) 求职简历推送方法与装置以及任务推送方法与装置
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111340121A (zh) 目标特征的确定方法及装置
CN108596637B (zh) 一种电商服务问题自动发现系统
CN107665221A (zh) 关键词的分类方法和装置
CN112396492A (zh) 基于图注意力网络和双向长短期记忆网络的会话推荐方法
CN108733652B (zh) 基于机器学习的影评情感倾向性分析的测试方法
Antonio et al. Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant