CN111429184A

CN111429184A - 一种基于文本信息的用户画像抽取方法

Info

Publication number: CN111429184A
Application number: CN202010230794.6A
Authority: CN
Inventors: 杨植麟; 陈虞君; 杜羽伦; 张宇韬; 陈欣梅; 徐超
Original assignee: Beijing Ruikelun Intelligent Technology Co ltd
Current assignee: Beijing Ruikelun Intelligent Technology Co ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-17

Abstract

本发明涉及计算机信息处理技术领域，具体涉及一种基于文本信息的用户画像抽取方法，其主要包括如下步骤：步骤1、收集文本信息；步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛，得出文本句子；步骤3、对步骤2中所得的文本句子进行标注；步骤4、对步骤3中所得的文本句子预处理，提取相关数据，去除无关词语；步骤5、构建文本特征向量，通过卡方检验和tfidf手段对文本信息特征进行描述。本发明相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率，对文本信息的抽取在保证准确率的前提下极大的降低了人力成本，能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。

Description

一种基于文本信息的用户画像抽取方法

技术领域

本发明涉及计算机信息处理技术领域，具体涉及一种基于文本信息的用户画像抽取方法。

背景技术

在信息技术快速发展的今天，越来越多的领域开始使用机器学习技术取代传统行业中繁杂重复且耗费人力物力的工作。例如，在线购物网站中，使用采用语音助手或者对话机器人解决客户可能遇到的常见问题，或者交通部门使用计算机视觉技术对汽车牌照进行识别工作。采用机器学习技术不仅能够有效降低生产成本，还能够保证较高的准确率。

在实际工业生产过程中，对文本的信息进行抽取，标注给定文本可能存在的语义信息类别，是各类应用的基础。工业生产过程中的用户分析，数字化营销，潜在客户挖掘，话题分析等问题都需要基于可靠的结构化信息来进行，而结构化信息的数据源很多情况下就源自于对普通文本信息进行的抽取。

传统的文本信息抽取一般都基于规则和人力。例如，在电子商务网站可以根据用户与商家的需要获得用户的偏好信息，或者即时通讯工具希望知道用户的喜好，都可以基于用户的留言文本或者用户都对话信息进行分析，分析的方法一般是通过标注人员进行的。标注人员根据给定偏好类别选择特定关键词，再根据关键词对原文本进行搜索，得到原文本信息中符合关键字的一部分文本或段落，再将这类段落进行提取，从而达到获取用户需求的目的。然而直接通过标注人员进行选择关键词对文本进行过滤往往效率比较低下，而且直接使用关键词列表作为筛选条件可能会导致准确率高而召回率过低，或者召回率高准确率不够等问题，因此仅仅使用关键词对文本进行分析是远远不够的。

发明内容

本发明提供一种基于文本信息的用户画像抽取方法，相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率，对文本信息的抽取在保证准确率的前提下极大的降低了人力成本，能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。

为了达到上述目的，本发明提供如下技术方案：一种基于文本信息的用户画像抽取方法，其特征在于，包括如下步骤：

步骤1、收集文本信息；

步骤2、对所述文本信息是否可用于计算机进行训练和分析进行初筛，得出文本句子；

步骤3、对步骤2中所得的文本句子进行标注；

步骤4、对步骤3中所得的文本句子预处理，提取相关数据，去除无关词语；

步骤5、构建文本特征向量，通过卡方检验和tf i df手段对文本信息特征进行描述；

步骤6、为使用分类器对文本信息的特征向量进行分类；

步骤7、根据模型在测试数据上的准确率与召回率来判断模型训练结果；

步骤8、通过顺序重复步骤1、步骤2、步骤3、步骤4对在线新收入的文本信息进行画像的预测工作。

优选的，步骤1中所述的文本信息为通过使用语音转写或者在线抽取的方式获得的，且需要进行用户画像描绘的基础交互信息。

优选的，步骤2中，以人工通过规则的方式将文本信息中用于描绘用户画像相关的句子筛选出来。

优选的，步骤3中，通过人工理解的方式来判断筛选出句子与画像是否相符合。

优选的，步骤4中，包含但不限于使用N-gram变换对文本信息进行提取，并对在句子中的无效词进行去处，所述的无效词与常用于自然语言处理中的停用词区别处理。

优选的，所述步骤5中，对于任意一个本文信息中词语t和标签l的关系，一般有四种：A,出现词语t的里面，标签l为相关的词条；B,出现词语t的里面，标签l为不相关的词条；C,未出现词语t的里面，标签l为相关的词条；D,未出现词语t的里面，标签l为不相关的词条；因此所述卡方检验的公式为：

构建文本特征时会先选择卡方分布值较大的n-gram作为备选特征短语，再使用tfidf提取文本的特征，tifdf是一种文本特征函数，tifdf能够综合考虑n-gram词组在单个文本中的出现频率和在全部文本中的出现情况，tifdf的公式为：

tfidf(t,d,D)＝tf(t，d)×idf(t,D)

其中tf(t,d)＝log(1+freq(t,d))代表的是n-gram短语t在文档d中的出现次数的函数，而

则代表n-gram t在全部文档D中的逆向出现频率。

本发明有益效果为：本发明提出的用户画像抽取方法，首先将通过收集的文本进行文本的抽取工作，将电话或者对话文本抽取为可以进行标注的数据对象，然后在可标注文本之后对文本进行标注操作，接着进行数据预处理的各项工作，随后进行卡方检验和文本特征抽取工作，最后进行文本预测模型的训练工作，在模型训练完毕之后，对一个新的对话文本，使用同样进行文本选择、和数据预处理工作，然后使用相同的文本特征抽取方法得到与训练使用的文本特征相对应的文本特征向量，再使用训练好的Xgboost模型进行文本画像的预测工作。该发明相比传统的仅基于规则的用户画像发现系统能够有效提升人力使用效率，对文本信息的抽取在保证准确率的前提下极大的降低了人力成本，能够保证高效率地在线获取用户画像。达到高效且准确抽取文本中用户画像的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中基于文本信息构建用户画像模型的流程图；

图2为本发明中基于文本信息对用户画像进行预测的流程图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图1、图2中的流程步骤所示，一种基于文本信息的用户画像抽取方法，其特征在于，包括如下步骤：

步骤1、收集文本信息，在这里文本信息可以来自各类形式的文本信息，如对语音通话进行语音识别转写即可得到语音通话对应的文本信息，或者在线平台网站上，如微博，包含大量的文本信息。收集文本信息之后，将文本信息通过文件形式进行保存。

步骤2、人工进行文本信息的初筛，基于收集到的文本信息，让标注人员根据给定画像主题，人工设计筛选规则，该筛选规则应保证筛选出来的文本结果能够进行下一步的训练。由于一般文本信息均比较长，因此在人工设计筛选规则时，筛选输出结果以短句为主，如果文本较长将会影响到标注效率和模型训练结果。

步骤3，人工对文本进行标注工作，在人工设计筛选规则之后，随后标注人员应该对文本进行正负例的标注工作。这部分工作的关键点在于标注人员需要根据指定的画像主题进行判断是否与画像相关，标注人员只需要标注相关或者不相关即可。

标注人员对文本进行标注的结果可以通过文本形式进行获取，这里我们使用主题为“天气好”作为主题来进行最小具体表现形式的举例。首先，为了便于表示，会将标注文本于标注结果综合总结为一个表格，表格主要内容包括标注文本与标注结果，具体形式如表1所示。

表1标注文本信息

标注文本	标注结果
		今天的天气真好	相关
今天白天天气真好	相关
		今天雾霾很严重	不相关
今天的天气特别差	不相关
		可能明天的天气很差	不相关

根据表1得到的文本信息，为了能够便于进行分类，首先使用特称处理的手段对训练文本进行数据预处理，例如包括去除无效词，分词，和统计特征词频等等。

步骤4、对标注文本信息进行数据预处理，在这一步中，首先会将训练文本进行分词，这里分词是将一整句话分割成若干个字或者词，使得训练文本从连续的字符串被重新组合成由词组成的词序列。其次，会对训练的文本进行无效词的去除处理。这里无效词与常见的停用词不同，由于电话文本信息中含有很多语气助词，例如“吗，呀，呢”等等。而这些词一般会被归纳为停用词之列，但是这些词在构建用户画像时可能与画像主题是非常相关的，因此这里的无效词一般是指根据经验提炼的与画像无关的一些词语，如“再见”，“你好”等。

特征处理方法得到短句在机器学习中可以通过数学手段将文本表示成计算机可识别的数字向量特征，在将文本处理成计算机可识别的数字向量特征之前，特征单元的选取非常关键，这里我们采用了n-gram(n元语法)模型进行特征的建模工作。N-gram的主要做法是将文本中的内容按照单词w为单位进行大小为N的滑动窗口操作，形成的是长度为N的字节片段序列。在实践中，一般N取值范围为小于5的数。

我们首先将分词后的词语进行n-gram变换，这样处理的时候我们关注的对象变为连续n个词的出现情况。其次，我们将统计所有n-gram词语的出现频度，并且按照实现设定好的阈值进行过滤，例如n-gram的出现频度需要超过1次。只有满足阈值条件的n-gram才会被保留进入下一步的语义特征处理阶段。

步骤5、得到文本特征向量，在得到文本特征向量之前，会先进行卡方检验的工作以筛选最有效的特征短语N-gram。

卡方检验是借助卡方分布作为基础的一种非常常见的假设检验方法，作为假设检验方法，卡方检验的无效假设H₀为，观察到的实际值和理论值的是没有差别的。卡方检验的基本思想是首先假设无效假设H₀成立，基于这个前提，计算卡方分布值，表示实际值与理论值的偏离程度。

在文本分类的问题中，使用“短语t”与“标签l”不相关作为原假设。这样，如果计算出来的卡方值越大，那么说明与原假设的偏离越大，越认为原假设是错误的，而“短语t”与“标签l”相关这个情况越可能是正确的。

对一个文档中词语t和标签l的关系，一般有四种：

A-出现短语t的里面，标签l为相关的词条；

B-出现短语t的里面，标签l为不相关的词条；

C-未出现短语t的里面，标签l为相关的词条；

D-未出现短语t的里面，标签l为不相关的词条。

卡方检验在计算时会将这四种情况分别进行计数统计，具体卡方检验的公式为：

例如根据表1，我们可以得到词语“天气真好”在5条语句中的出现情况。我们可以构建一个表格如表2所示:

表2

	相关	不相关
			t(天气真好)	2	0
无t	0	3

根据表2：我们可得对短语“天气真好”中，存在天气真好这个短语，而且标签为相关的句子数量A＝2，存在天气真好这个短语，而且标签为不相关的句子数量B＝0，不存在天气真好这个短语，而且标签为相关的句子数量C＝0，不存在天气真好这个短语，而且标签为不相关的句子数量D＝3，根据前面公式提到的卡方分布计算公式可得，“天气真好”这个短语的卡方检验值为：χ²(t,l)＝5

在实际操作中，我们会对此表中超过既定词频数阈值的全部n-gram进行卡方检验的工作，然后将卡方检验值按照从大到小的方式进行排列，选取卡方检验值最大的N个短语作为输入文本需要提取的特征向量，使用tfidf进行文本特征的提取工作。

tfidf是一种文本特征函数，tfidf能够综合考虑n-gram词组在单个文本中的出现频率和在全部文本中的出现情况，tfidf的公式为：

tfidf(t,d,D)＝tf(t，d)×idf(t,D)

其中tf(t，d)＝log(1+freq(t，d))代表的是n-gram短语t在文档d中的出现次数的函数，而

则代表n-gram t在全部文档D中的逆向出现频率。

tifdf的作用为度量了一个n-gram在已经标注完毕文本中的普遍重要性。通过将两个式子相乘，可以得到通过考虑全部文档D之后，一个n-gram短语t在文档d中的重要性为多少。

这里我们可以继续使用表1作为例子，例如对一个2元组词语“天气真好”是由“天气”，“真”和“好”三个词语组合得到，对于第一句而言，其出现频率为1次，因此tf(t,d)＝log(1+1),其中t即为“天气真好”这个短语，而

代表在总共五个标注文本中，出现了2次天气真好这个短语，因此idf值为0.4，将两个式子相乘即可得到tfidf值：0.4*log2。

一般而言，使用tfidf就足以处理文本标注任务。但是在本发明中，在tfidf之前，会先对已有的n-gram进行卡方检验的工作，以选择最高频的n-gram短语提取tfidf特征。

在完成文本特征的提取工作之后，任意一个标注文本均可以表示为向量的形式进行存储。例如对标注文本d,d＝(w₁，w₂，…，w_m)表示标注文本d总共有m个词语组成，在经过上述步骤的处理之后，文档d可以表示为d＝(T_d1，T_d2,…，T_dK)，其中T_dk表示的是短语T_dk在文本d中使用tfidf表示可以得到的特征值，而K表示的是总共有K个短语通过卡方检验可以用于计算文本的特征信息。这样，对任意标注文本均可表示为向量形式进行下一步的信息提取工作。

步骤6.使用分类器对抽取的文本信息进行分类工作

为了能够对文本数据进行分类，本专利将文本特征提取结果输入到给定的决策树分类器中，而将标注标签作为分类模型的输出结果进行学习。这里的决策树模型使用的是基于极端提督提升树(Extreme Gradient Boosting Tree)模型的xgboost模型作为训练模型。

Xgboost是一个提升树模型，其基本思想是通过使用多棵回归树模型进行集成再进行共同决策。在Xgboost中，每一棵树模型学习的是之前全部树模型得到的结果和残差，残差即为真实值与预测值的偏差。一个树模型学习的目标即为能够最小化当前的残差。整个Xgboost学习过程为通过迭代式的增加回归树对目标进行学习，达到尽可能好的区分目标中结果的目的。一般Xgboost是使用CART(分类回归树)作为每棵树的基本分类器，但是Xgboost也支持使用线性分类器。此外，在使用Xgboost进行学习的时，目标函数的构成不仅仅有真实值与预测值的差值，一般还会加入正则化项，由于控制模型的复杂度。

对于文本数据，在完成了文本信息抽取工作之后，形成一个数据表格，表示的是每个标注文本的文本特征信息。在进行训练时，会将全部标注文本划分为0.8:0.2的两部分数据集，分别作为训练集与测试集，我们希望训练出的模型能够在真实数据上表现良好，不存在过拟合或者欠拟合的现象，因此我们会仅使用训练集进行数据的训练工作，而在测试集上观察训练完毕模型的效果是否达到要求。

Xgboost分类器一般根据给定的输入x对可能的标签y进行预测，在本专利中，x即为文本特征向量，对应的y即为标注结果。由于本实施例中的训练目标为分类问题，即判定给定文本是否属于某个特定标签，一般使用交叉商作为损失函数，由于标注文本一般仅包含两类，即相关与不相关，因此本专利采用的是二值交叉商损失函数，即对于一个文本d的预测值

其损失应该是

而Xgboost训练的时候需要将全部训练集样本的损失函数加和求平均，因此总的损失函数

此外，Xgboost的损失函数还包括正则化项，因此总的损失函数为

其中Ω(θ)为参数θ的L2正则化项，代表约束参数θ不能够过大。

Xgboost的常用数据格式为矩阵型输入向量，因此可以将上一个步骤得到的tfidf文本特征矩阵直接输入到Xgboost中进行训练，具体输入形式如表3：

表格3Xgboost输入矩阵

特征1	特征2	……	特征M
				0.3	0.8	……	0.2
……	……	……	……
				0	0.5	……	0

Xgboost的输入每行代表一个训练样本，每一列代表的一个短语t，因此每个方格里得到的即为一个短语，在某个文本中对应的tfidf特征值，例如左上角的0.3就是特征短语1在第一个文本中的tfidf值tfidf(t₁，d₁，D)＝0.3。而训练样本的标注信息会在另一列以向量形式输入到Xgboost训练器中进行优化。

优化完毕之后，需要统计在分离出来的剩下20％的测试集中模型预测结果的准确率和召回率如何。其中准确率与召回率的计算公式为：

其中TP代表代表True Positive，即标注时为正样本，被预测为了正样本，TN代表代表True Negative，即标注时为负样本，被预测为了负样本，FP代表代表False Positive，即标注时为负样本，被预测为了正样本，FN代表代表False Negative，即标注时为负样本，被预测为了正样本。当准确率与召回率到达目标值之后，即认为学习完成，可以直接部署预测剩下的未标注的样本，当准确率与召回率未达到目标值时，认为学习未完成，需要重新从步骤2开始进行标注和分类器的学习工作。

在获取分类器的预测结果之后，可以输入一个对话文本至系统中，系统先完成数据的抽取工作，其次与训练模型的3，4，5一样，进行数据的预处理与文本特征的提取工作，这里需要保证tfidf的特征提取方式与训练模型时是完全一样的。然后使用训练好的Xgboost模型对文本特征进行预测，得到是否与画像标签相关的结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于文本信息的用户画像抽取方法，其特征在于，包括如下步骤：

步骤1、收集文本信息；

步骤3、对步骤2中所得的文本句子进行标注；

步骤5、构建文本特征向量，通过卡方检验和tfidf手段对文本信息特征进行描述；

步骤6、为使用分类器对文本信息的特征向量进行分类；

2.根据权利要求1所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤1中所述的文本信息为通过使用语音转写或者在线抽取的方式获得的，且需要进行用户画像描绘的基础交互信息。

3.根据权利要求2所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤2中，以人工通过规则的方式将文本信息中用于描绘用户画像相关的句子筛选出来。

4.根据权利要求3所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤3中，通过人工理解的方式来判断筛选出句子与画像是否相符合。

5.根据权利要求4所述的一种基于文本信息的用户画像抽取方法，其特征在于：步骤4中，包含但不限于使用N-gram变换对文本信息进行提取，并对在句子中的无效词进行去处，所述的无效词与常用于自然语言处理中的停用词区别处理。

6.根据权利要求5所述的一种基于文本信息的用户画像抽取方法，其特征在于：所述步骤5中，对于任意一个本文信息中词语t和标签l的关系，一般有四种：A,出现词语t的里面，标签l为相关的词条；B,出现词语t的里面，标签l为不相关的词条；C,未出现词语t的里面，标签l为相关的词条；D,未出现词语t的里面，标签l为不相关的词条；因此所述卡方检验的公式为：

tfidf(t,d,D)＝tf(t,d)×idf(t,D)

则代表n-gram t在全部文档D中的逆向出现频率。