CN109447126A - 一种实体和实体属性动态聚合构造人物画像的方法及设备 - Google Patents
一种实体和实体属性动态聚合构造人物画像的方法及设备 Download PDFInfo
- Publication number
- CN109447126A CN109447126A CN201811146360.7A CN201811146360A CN109447126A CN 109447126 A CN109447126 A CN 109447126A CN 201811146360 A CN201811146360 A CN 201811146360A CN 109447126 A CN109447126 A CN 109447126A
- Authority
- CN
- China
- Prior art keywords
- entity
- label
- weight
- attribute
- personage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种实体和属性动态聚合构造人物画像的方法;在标签冷启动情况下,逐步动态丰富成标签体系;从人物相关的动态行为数据中抽取时间和实体和/或实体属性;依据现有的标签体系内的标签,将抽取的实体和实体属性进行聚合归类;计算每个实体和属性的特征值权重以及所对应标签权重;增加时间维度下对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;减少人工聚合实体和属性工作,自动化标签构建,提高工作效率。
Description
技术领域
本发明涉及一种实体和实体属性动态聚合构造人物画像的方法及设备。
背景技术
在大数据中人物画像又称用户画像(User Profile),作为一种勾画目标人物、联系人物诉求与设计方向的有效工具,人物画像在各个领域得到了广泛应用。通过人物画像可以抽象出一个人物的信息全貌,通过一系列的特征属性来对人物进行标签化,以此来对人物的行为偏好进行直观的认识。
构建人物画像需对人物的特征属性数据进行收集、汇聚、融合;数据来源除了包括人口属性等的静态信息数据外,需要从人物平时的行为数据中获得即动态行为数据,这部分可以是结构化数据或半结构化数据,从中获取人物相关的实体及实体属性;人物的特征属性可以是直接获取到的实体属性标签化后的属性、也可以是通过对行为数据进行统计分析获取到的结果标签化后的属性。面对繁多杂乱的人物特征属性数据需要先将和人物有关的实体归类聚合到该人物的标签体系上的某一标签。在实体和实体属性归类上,传统的做法是通过人工进行业务顺理,归类聚合同一实体及相应的实体属性,这是一项工作量巨大的任务,而且工作效率低下。
发明内容
本发明要解决的技术问题,在于提供一种实体和实体属性动态聚合构造人物画像的方法,解决工作量巨大,工作效率低下的问题。
本发明之一是这样实现的:一种实体和属性动态聚合构造人物画像的方法,包括:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
进一步地,所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0;
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
进一步地,所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将Si代入xij中,按照标签权重计算方法计算得到特征属性权重。
进一步地,所述实体抽取为基于biLSTM+crf的方法进行抽取。
本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
进一步地,所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0;
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
进一步地,所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将Si代入xij中,按照标签权重计算方法计算得到特征属性权重。
进一步地,所述实体抽取为基于biLSTM+crf的方法进行抽取。
本发明具有如下优点:在从人物动态行为数据中抽取出的实体并进行归类统计的过程中,通过句子相似度进行实体类型分类,可以有效的加快实体分类的效率。特征属性和标签的动态增加也可以更好的描述人物画像,挖掘出人物更多特征。另外,通过标签以及特征属性的权重的计算可以更好从定量的角度的展示出人物特征以及偏好。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
本发明实体和属性动态聚合构造人物画像的方法,包括:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性,所述实体抽取为基于biLSTM+crf的方法进行抽取;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重,
所述标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0;
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
所述特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将Si代入xij中,按照标签权重计算方法计算得到特征属性权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性,所述实体抽取为基于biLSTM+crf的方法进行抽取;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重,
所述标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0;
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
所述特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将Si代入xij中,按照标签权重计算方法计算得到特征属性权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
1.对人物相关的动态行为数据进行实体抽取,抽取出在某一时间点产生关系的实体(单一时间的实体是为了统计时间段内的实体数量)。
1.1.记录数据可以是结构化的数据和半结构化的数据,这些数据中记录了人物在某一时刻的某一行为,如XX在XX时间,在XX地方消费了XX商品,价格XX元。例子里的实体指代的就是所关注的某种商品。
2.构建初始的标签体系。
3.实体抽取。目前实体抽取的方法中深度学习的方法有着较好的精确度,而且相对于传统的序列标注的方法,如隐马尔可夫模型和条件随机场模型,深度学习不需要构建特征模板。因而,实体抽取基于biLSTM+crf的方法进行抽取。
4.实体归类(将实体归纳到某个指标中。需要统计某一指标内实体的数量,因而需要进行归类)。按照各个维度的特征属性中的细分标签通过相似度计算匹配出相关实体,将实体按照标签进行归类(如特征属性为消费偏好内有奢侈品这一指标,像LV、名贵珠宝这些品牌实体都是属于奢侈品范畴的,就是通过计算品牌实体和奢侈品进行相似度分析其是否奢侈品)。这个步骤可以通过word2vec词嵌入向量实现。而这一步的准确率很大程度上要求在训练word2vec词嵌入模型的时候需要覆盖范围较广的语料库进行训练。
4.1.训练word2vec词嵌入模型需要进行分词与去停用词,将文本的分词结果存储在一个列表中,一行就代表一个文本。可以自定义训练的词特征维度数量。
4.2.词的相似度可以直接通过训练好的word2vec模型进行相似度比较,以python3为例,model.similarity(‘足球’,’运动’)则可以直接比较两个词的相似程度。可以设置阈值,如果相似程度超过该阈值并且相似度的值最大则认为是这个类别,这个阈值可设为0.5。
5.按时间段对标签(标签是指特征属性内的细分维度。比如某一特征属性为爱好,那么爱好内的运动、电影、绘画等都是指标)内的实体进行统计,统计标签所属实体出现的数量(即为xij)并进行存储。时间段可选取一年。
6.动态增加特征属性以及标签。
6.1标签的动态增加。设置相似度阈值,实体和标签的相似度高于该阈值则可归到特征属性的某个标签中,而具体归于哪个标签由相似度最高的标签决定。如果和特征属性的所有标签的相似度均低于相似度阈值,则可重新划分一个标签。可将不相似的实体进行重新聚类,根据聚类的结果对标签进行重新命名,并通过相似度计算所属特征属性。
6.2特征属性的增加可以采取6.1同样的做法。
6.3特征属性和标签的数量不能无限扩充,可根据实际业务需要进行限制。
7.计算特征属性和标签权重。
7.1.熵值法计算步骤:假设某一个人一年12个月,在某一个特征属性下有m个标签数据,则xij为第i个月第j个标签的数值。
7.2.标签的归一化处理:异质标签同质化,由于各项标签的计量单位并不统一,因此在用它们计算综合标签前,先要对它们进行标准化处理,即把标签的绝对值转化为相对值,并令xij=|xij|,从而解决各项不同质标签值的同质化问题。而且,由于正向标签和负向标签数值代表的含义不同(正向标签数值越高越好,负向标签数值越低越好),因此,对于高低标签我们用不同的算法进行数据标准化处理。
7.3.计算第j项标签下第i个月占该标签的比重:
7.4.计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0
7.5.计算信息熵冗余度:
dj=1-ej
7.6.计算各项标签的权值:
7.7.计算得到该特征属性下的各个月份的综合得分:
7.8.将Si代入xij中,按照步骤7.2至7.6进行计算每个特征属性的权重。
8.构成人物标签的就是各个特征属性,通过各个特征属性以及标签的权重绘制人物画像。可通过图谱对人物画像进行可视化,权重大的特征属性或者标签则图形大些,这样可以很直观的观察人物倾向偏好。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (8)
1.一种实体和属性动态聚合构造人物画像的方法,其特征在于:包括:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
2.根据权利要求1所述的一种实体和实体属性动态聚合构造人物画像的方法,其特征在于:所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0;
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
3.根据权利要求2所述的一种实体和实体属性动态聚合构造人物画像的方法,其特征在于:所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将Si代入xij中,按照标签权重计算方法计算得到特征属性权重。
4.根据权利要求1所述的一种实体和实体属性动态聚合构造人物画像的方法,其特征在于:所述实体抽取为基于biLSTM+crf的方法进行抽取。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
6.根据权利要求5所述的一种计算机设备,其特征在于:所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
其中k=1/ln(n),满足ej≥0;
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
7.根据权利要求6所述的一种计算机设备,其特征在于:所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:之后将Si代入xij中,按照标签权重计算方法计算得到特征属性权重。
8.根据权利要求5所述的一种计算机设备,其特征在于:所述实体抽取为基于biLSTM+crf的方法进行抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146360.7A CN109447126A (zh) | 2018-09-27 | 2018-09-27 | 一种实体和实体属性动态聚合构造人物画像的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146360.7A CN109447126A (zh) | 2018-09-27 | 2018-09-27 | 一种实体和实体属性动态聚合构造人物画像的方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109447126A true CN109447126A (zh) | 2019-03-08 |
Family
ID=65544402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811146360.7A Pending CN109447126A (zh) | 2018-09-27 | 2018-09-27 | 一种实体和实体属性动态聚合构造人物画像的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447126A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027854A (zh) * | 2019-12-10 | 2020-04-17 | 重庆撼地大数据有限公司 | 一种基于企业大数据的综合画像指数生成方法及相关设备 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105075255A (zh) * | 2013-03-11 | 2015-11-18 | 联发科技股份有限公司 | 利用至少评估视觉品质的影像编码方法以及相关影像编码装置 |
CN107895277A (zh) * | 2017-09-30 | 2018-04-10 | 平安科技(深圳)有限公司 | 在应用程序中推送贷款广告的方法、电子装置及介质 |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
-
2018
- 2018-09-27 CN CN201811146360.7A patent/CN109447126A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105075255A (zh) * | 2013-03-11 | 2015-11-18 | 联发科技股份有限公司 | 利用至少评估视觉品质的影像编码方法以及相关影像编码装置 |
CN107895277A (zh) * | 2017-09-30 | 2018-04-10 | 平安科技(深圳)有限公司 | 在应用程序中推送贷款广告的方法、电子装置及介质 |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
Non-Patent Citations (1)
Title |
---|
郑巧然: "铁路95306网站数据整合技术方案及应用案例研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027854A (zh) * | 2019-12-10 | 2020-04-17 | 重庆撼地大数据有限公司 | 一种基于企业大数据的综合画像指数生成方法及相关设备 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Mobile app classification with enriched contextual information | |
US20220405607A1 (en) | Method for obtaining user portrait and related apparatus | |
CN112597312A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN110472665A (zh) | 模型训练方法、文本分类方法及相关装置 | |
CN109558530A (zh) | 基于数据处理的用户画像自动生成方法和系统 | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
Hossny et al. | Event detection in Twitter: A keyword volume approach | |
CN115002200A (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN110807086A (zh) | 文本数据标注方法及装置、存储介质、电子设备 | |
CN113626607A (zh) | 异常工单识别方法、装置、电子设备及可读存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN115309864A (zh) | 评论文本的情感智能分类方法、装置、电子设备及介质 | |
CN109447126A (zh) | 一种实体和实体属性动态聚合构造人物画像的方法及设备 | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
CN110705281B (zh) | 一种基于机器学习的简历信息抽取方法 | |
CN114722810A (zh) | 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 | |
Krieger et al. | Automated invoice processing: Machine learning-based information extraction for long tail suppliers | |
Zhang et al. | Bayesian classification | |
CN113935880A (zh) | 政策推荐方法、装置、设备及存储介质 | |
CN113902404A (zh) | 基于人工智能的员工晋升分析方法、装置、设备及介质 | |
Shah et al. | Legal clause extraction from contract using machine learning with heuristics improvement | |
CN107368610A (zh) | 基于全文的大文本 crf 和规则分类方法和系统 | |
CN116611889A (zh) | 基于用户画像标签的产品个性化推荐方法及系统 | |
Wu et al. | An unsupervised framework for extracting multilane roads from OpenStreetMap | |
CN114385815A (zh) | 基于业务需求的新闻筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |