CN107908620A

CN107908620A - 一种基于工作文档预判用户职业的方法和装置

Info

Publication number: CN107908620A
Application number: CN201711128739.0A
Authority: CN
Inventors: 余建兴
Original assignee: Western Hills Residence Guangzhou Shi You Network Technology Co Ltd; Zhuhai Kingsoft Online Game Technology Co Ltd
Current assignee: Western Hills Residence Guangzhou Shi You Network Technology Co Ltd; Zhuhai Kingsoft Online Game Technology Co Ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-04-13

Abstract

本发明提出一种基于工作文档预判用户职业的方法，包括以下步骤：获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型；根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；基于训练样本，建立并训练多层感知分类器；以及利用已训练的多层感知分类器预测用户职业。本发明的有益效果是：通过分析不同职业用户在使用工作文档的类型上的显著差异，训练职业的判定模型，利用待判定用户的使用信息反推用户的职业，提高了用户职业的判断准确率。

Description

一种基于工作文档预判用户职业的方法和装置

技术领域

本发明涉及信息分析领域，尤其涉及一种基于工作文档预判用户职业的方法和装置。

背景技术

随着移动互联网和移动互联网的普及和发展，应用软件的开发商及运营商越来越关心其产品的主要使用群体的信息，例如群体的职业、年龄、性别以及使用习惯等等。基于信息分析产品的当前客户群体分布，可以在后继阶段更有针对性地开展商业推销活动或者应用软件本身的功能开发，从而为客户提供更准确的服务或商品。

以手机游戏为例，用户的职业不同，对具体的游戏需求也不相同。譬如，大学生刺激、快节奏和对抗性的社交类游戏。家庭主妇则更喜欢玩休闲类的游戏。公务员或事业单位人员则喜欢益智类游戏等等。为了提高手机游戏推荐的效果，可以根据用户的具体职业定向推荐适合游戏类型，以优化用户体验，并提高推送的点击率。

但是，一方面为了提高注册的时间效率，应用软件一般不要求用户在在注册时必须填报职业；另一方面，即使部分用户填写了这方面信息，也不能保证其填写正确。这造成相关信息在数据库中缺失。目前业界对用户职业预测的研究较少，业务较少对这个难题进行研究。现有方法是根据用户所使用设备所上报的定位信息(例如手机的LBS位置定位)，推测用户所处的建筑物，从而间接推定用户的职业。例如，授权公告号为CN102075850B的发明专利提出了如下一种技术方案：采集规定时段内移动用户的信令位置变化信息；利用采集到的信令位置变化信息构成移动用户的信令位置轨迹；以及根据设定的信令位置轨迹和职业信息的对应关系，以及构成的信令位置轨迹确定移动用户的职业信息。

上述方法依赖于用户的信令位置变化信息。然而，信令位置轨迹所经过的同一幢办公写字楼内一般具有多家性质不同的单位和企业。退一步地，即使在同一家单位或企业中，由于具体的功能部门不同，用户的职业也是千差万别。此外，一方面，对于某些流动性较大的职业，例如业务人员和市场人员等等，其信令位置轨迹有多种可能，且所处的建筑物类型也可以是多样的；另一方面，对于自由职业者，工作场所可能是住宿地而不是常规的办公写字楼。上述种种原因都严重影响上述方案对用户职业的判断准确率。

发明内容

本发明的目的是解决现有技术的不足，提供一种基于工作文档预判用户职业的方法和装置，能够获得提高预测用户职业准确率的效果。

为了实现上述目的，本发明采用以下的技术方案。

首先，本发明提出一种基于工作文档预判用户职业的方法，包括以下步骤：获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型；根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；基于训练样本，建立并训练多层感知分类器；以及利用已训练的多层感知分类器预测用户职业。

在本发明的上述方法实施例中，标注库至少包括用户的特征向量和标注职业。

进一步地，在本发明的上述方法实施例中，根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本进一步包括以下子步骤：根据使用信息，对文档标题作中文分词；对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接主题分布向量和文档类型向量，形成用户特征向量作为训练样本的部分。

再进一步地，在本发明的上述方法实施例中，主题分布向量是基于LDA(LatentDirichlet Allocation，隐含狄利克雷分布)主题模型迭代生成的。

优选地，在本发明的上述方法实施例中，训练样本还包括工作文档的数量。

在本发明的上述方法实施例中，多层感知分类器是采用反向传播算法训练。

在本发明的上述方法实施例中，还可以包括以下步骤：基于已确定职业的用户，验证多层感知分类器所预测用户职业。

其次，本发明还提出一种基于工作文档预判用户职业的装置，包括以下模块：文档采集模块，用于获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型；数据标注模块，用于根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；分类生成模块，用于基于训练样本，建立并训练多层感知分类器；以及数据预测模块，用于利用已训练的多层感知分类器预测用户职业。

在本发明的上述装置实施例中，标注库至少包括用户的特征向量和标注职业。

进一步地，在本发明的上述装置实施例中，数据标注模块进一步包括以下子模块：分词模块，用于根据使用信息，对文档标题作中文分词；构建模块，用于对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接模块，用于拼接主题分布向量和文档类型向量，形成用户特征向量作为训练样本的部分。

再进一步地，在本发明的上述装置实施例中，主题分布向量是基于LDA主题模型迭代生成的。

优选地，在本发明的上述装置实施例中，训练样本还包括工作文档的数量。

在本发明的上述装置实施例中，多层感知分类器是采用反向传播算法训练。

在本发明的上述装置实施例中，还可以包括以下子模块：验证测试模块，用于基于已确定职业的用户，验证多层感知分类器所预测用户职业。

最后，本发明还公开了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如前述任一项所述方法的步骤。

本发明的有益效果为：通过分析不同职业用户在使用工作文档的类型上的显著差异，训练职业的判定模型，利用待判定用户的使用信息反推用户的职业，提高了用户职业的判断准确率。

附图说明

图1所示为本发明所公开的基于工作文档预判用户职业方法的方法流程图；

图2所示为图1中构建训练样本进的子步骤方法流程图；

图3所示为验证预测用户职业方法流程的示意图；

图4所示为本发明所公开的基于工作文档预判用户职业装置的装置模块图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

本发明所公开技术方案是基于以下的假设：不同职业的用户在使用的工作文档内容和类型是不一样的。用户的工作文档本身拥有足够显著的信息用于描述用户的职业特性。利用工作文档的使用信息差异性，可以更为准确地反推用户职业。例如，办公文员一般使用Word、Excel和PowerPoint等商业办公软件，从而其工作文档多是doc、xls或者ppt等格式，且其标题较少甚至不会使用“某某流程图”、“某某算法说明”或“某某系统架构图”等软件开发人员常用词。因此，基于用户的工作文档，可以预测用户的职业。进一步地，与现有技术方案通过获取用户的地理位置并结合具体的地理场景信息进行推断，本发明方案所用到的工作文档使用信息更能体现用户的职业，从而使得预测更为准确。

为方便说明本发明所列举的实施例，本发明按照实际业务场景中用户的消费模式，将用户的职业划分为5个基本类别：企事业单位人员(例如公务员)、在校学生、商业服务人员(例如个体户)、金融业人员(例如银行职员或会计等)和其他。上述分类仅作为职业分类的一个例子。本领域技术人员可以根据具体的应用场景，采用不同的职业划分方式。本发明对此不予限定。

基于上述理由，本发明所公开的技术方案将用户的工作文档的使用信息作为判断标准，预测用户的职业。具体地，参照图1所示的方法流程图，根据本发明所公开的一个实施例，所述基于工作文档预判用户职业的方法，包括以下步骤：获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型(即文件格式，例如PDF、DOC、XLS或者JPG等等各种常见的文件格式)；根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；基于训练样本，建立并训练多层感知分类器；以及利用已训练的多层感知分类器预测用户职业。

在本发明的上述方法实施例中，需要获取用户对工作文档的使用信息主要针对常用的文件类型(例如常用的文本文档格式DOC、表格文档格式XLS或者工程图纸格式DWG等等)。具体工作文档的使用信息可以通过企业商务合作和数据交换的方法，从商务合作伙伴获得用户对工作文档的使用信息，使得用户在使用上述文件类型对应的办公软件时，能够获取工作文档的使用信息。关于获取使用信息的具体方式，本领域技术人员可以根据具体的应用场景而采用本领域常规技术手段实现。本发明对此不予限定。

在本发明的上述方法实施例中，标注库包括但是不限于用户的特征向量和标注职业。其中，用户的特征向量是基于使用信息形成的。标注职业是根据已经确认职业的用户形成的。此外，标注库还可以包括用户的活跃天数、注册时间、注册IP地址和登陆IP地址等辅助判断信息。例如，若注册IP地址或者登陆IP地址可确定为校园网的，且活跃天数与寒暑假的时间段重合度高，则用户的职业是在校学生的概率比较大。

对于用户的特征向量，传统的方案是通过构造文档标题的文本类特征形成，即把多个文档标题组合在一起视为普通文本，并先后对列表文本执行中文分词、词语筛选和特性表示等文本处理技术，构造对应的特征向量。具体地，可采用本领域常用的开源工具结巴分词对文档标题执行中文分词处理；然后，利用TF-IDF(词频—逆向文件频率，termfrequency–inverse document frequency)排序筛选方法，把区分度较小的词语滤除；最后，特性向量采用词语0-1表示法生成。

这种方法对于专业性比较强的规范文本，特征的区分度效果较好。但是，对于文档标题这类短小的文本，上述方法生成的特征区分度较差。此外，该方法忽略了用户的工作文档可能具有不同的主题和内容类别。换句话说，使用信息至少包含以下两方面的信息：文档标题，和文档类型。而上述传统方法构建文本类特征时，由于只考虑了文档标题这单一的信息，忽略了文档类型这一重要信息；因此，诸如工作文档的主题和内容等隐含的信息并没有被充分挖掘和利用，从而降低了用户的特征向量的区分度。

基于上述理由，本发明采用主题聚类的方法，针对文档标题构建特征。具体地，参照图2所示的构建训练样本进的子步骤方法流程图，在本发明的上述方法实施例中，根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本进一步包括以下子步骤：根据使用信息，对文档标题作中文分词；对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接主题分布向量和文档类型向量，形成用户特征向量作为训练样本的部分。其中主题分布向量的各个分量表示根据文档标题中出现的关键词，该用户的全体工作文档属于某个主题的概率。文档类型向量则表示该用户的各类文档类型数量。具体地，由于文档类型可以从文件名的后缀确定，因此在本发明的一个方法实施例中，文档类型向量中的每个分量表示该用户具有对应文档类型的工作文档数量(文档类型向量中的某个分量为零则表示该用户不具有对应文档类型的工作文档)。文档类型向量还可以采用本领域其他常用技术手段实现，以表示工作文档的文档类型方面的特征。本发明对此不予限定。用户特征向量可以简单地将主题分布向量和文档类型向量拼接在一起而形成(即用户特征向量的集合是主题分布向量的集合和文档类型向量的集合所构成的笛卡尔积)。训练样本可以只包括上述定义的用户特征向量，或进一步地包括其他可以用于判断职业的信息。

进一步地，在本发明的上述方法实施例中，训练样本还包括工作文档的数量。事实上，由于用户的各份工作文档不一定都具有规范的文档类型，因此在上述方法实施例中文档类型向量的各个分量之和可以是小于工作文档的数量。基于上述理由，工作文档的数量可通过结合文档类型向量以不确定文档类型，从而进一步地提高预测用户职业的准确率。

在本发明的一个方法实施例中，主题分布向量是基于LDA主题模型迭代生成的。LDA主题模型的具体训练过程作为本领域的公知常识，本发明在此不详细展开描述。本发明只是在此指出，对于每位用户，将其所有工作文档的文档标题组成集合，作为LDA主题模型中的一份训练文档，从而生成每位用户的主题分布向量。

在本发明的一个方法实施例中，多层感知分类器是采用反向传播算法训练，以在适当的时间内获得具有可用的多层感知分类器。具体的多层感知分类器创建和训练可以本领域的常用技术手段实现。本发明对此不予限定。

参照图3所示的方法流程的示意图，在本发明的一个方法实施例中，可基于已确定职业的用户，验证多层感知分类器所预测用户职业。例如，应用软件的运营商可随机筛选1万个用户。这些用户在注册的时候有登记职业。该标注数据与本发明输出的预测结果做匹配，从而统计所提供技术方案准确率，或者作为反馈信息调整分类器的参数。

参照图4所示的装置模块图，根据本发明所公开的一个实施例，所述基于工作文档预判用户职业的装置，包括以下模块：文档采集模块，用于获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型(即文件格式，例如PDF、DOC、XLS或者JPG等等各种常见的文件格式)；数据标注模块，用于根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；分类生成模块，用于基于训练样本，建立并训练多层感知分类器；以及数据预测模块，用于利用已训练的多层感知分类器预测用户职业。

在本发明的上述装置实施例中，需要获取用户对工作文档的使用信息主要针对常用的文件类型。具体工作文档的使用信息可以通过企业商务合作和数据交换的方法，从商务合作伙伴获得用户对工作文档的使用信息，使得用户在使用上述文件类型对应的办公软件时，能够获取工作文档的使用信息。关于获取使用信息的具体方式，本领域技术人员可以根据具体的应用场景而采用本领域常规技术手段实现。本发明对此不予限定。

在本发明的上述装置实施例中，标注库包括但是不限于用户的特征向量和标注职业。其中，数据标注模块是基于使用信息形成用户的特征向量。标注职业是根据已经确认职业的用户形成的。此外，标注库还可以包括用户的活跃天数、注册时间、注册IP地址和登陆IP地址等辅助判断信息。例如，若注册IP地址或者登陆IP地址可确定为校园网的，且活跃天数与寒暑假的时间段重合度高，则用户的职业是在校学生的概率比较大。

对于用户的特征向量，传统方案是通过构造文档标题的文本类特征形成，即把多个文档标题组合在一起视为普通文本，并先后对列表文本执行中文分词、词语筛选和特性表示等文本处理技术，构造对应的特征向量。具体地，可采用本领域常用的开源工具结巴分词对文档标题执行中文分词处理；然后，利用TF-IDF(词频—逆向文件频率，termfrequency–inverse document frequency)排序筛选方法，把区分度较小的词语滤除；最后，特性向量采用词语0-1表示法生成。

这种方案对于专业性比较强的规范文本，特征的区分度效果较好。但是，对于文档标题这类短小的文本，上述方案生成的特征区分度较差。此外，该方案忽略了用户的工作文档可能具有不同的主题和内容类别。换句话说，使用信息至少包含以下两方面的信息：文档标题，和文档类型。而上述传统方案构建文本类特征时，由于只考虑了文档标题这单一的信息，忽略了文档类型这一重要信息；因此，诸如工作文档的主题和内容等隐含的信息并没有被充分挖掘和利用，从而降低了用户的特征向量的区分度。

基于上述理由，本发明采用主题聚类的方案，针对文档标题构建特征。具体地，在本发明的上述装置实施例中，数据标注模块进一步包括以下子模块：分词模块，用于根据使用信息，对文档标题作中文分词；构建模块，用于对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接模块，用于拼接主题分布向量和文档类型向量，形成用户特征向量作为训练样本的部分。其中主题分布向量的各个分量表示根据文档标题中出现的关键词，该用户的全体工作文档属于某个主题的概率。文档类型向量则表示该用户的各类文档类型数量。具体地，由于文档类型可以从文件名的后缀确定，因此在本发明的一个方法实施例中，文档类型向量中的每个分量表示该用户具有对应文档类型的工作文档数量(文档类型向量中的某个分量为零则表示该用户不具有对应文档类型的工作文档)。文档类型向量还可以采用本领域其他常用技术手段实现，以表示工作文档的文档类型方面的特征。本发明对此不予限定。用户特征向量可以简单地将主题分布向量和文档类型向量拼接在一起而形成(即用户特征向量的集合是主题分布向量的集合和文档类型向量的集合所构成的笛卡尔积)。训练样本可以只包括上述定义的用户特征向量，或进一步地包括其他可以用于判断职业的信息。

进一步地，在本发明的上述装置实施例中，训练样本还包括工作文档的数量。事实上，由于用户的各份工作文档不一定都具有规范的文档类型，因此在上述方法实施例中文档类型向量的各个分量之和可以是小于工作文档的数量。基于上述理由，工作文档的数量可通过结合文档类型向量以不确定文档类型，从而进一步地提高预测用户职业的准确率。

在本发明的一个装置实施例中，主题分布向量是基于LDA主题模型迭代生成的。LDA主题模型的具体训练过程作为本领域的公知常识，本发明在此不详细展开描述。本发明只是在此指出，对于每位用户，将其所有工作文档的文档标题组成集合，作为LDA主题模型中的一份训练文档，从而生成每位用户的主题分布向量。

在本发明的一个装置实施例中，多层感知分类器是采用反向传播算法训练，以在适当的时间内获得具有可用的多层感知分类器。具体的多层感知分类器创建和训练可以本领域的常用技术手段实现。本发明对此不予限定。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种基于工作文档预判用户职业的方法，其特征在于，包括以下步骤：

获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型；

根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；

基于训练样本，建立并训练多层感知分类器；以及

利用已训练的多层感知分类器预测用户职业。

2.根据权利要求1所述方法，其特征在于，标注库至少包括用户的特征向量和标注职业。

3.根据权利要求2所述方法，其特征在于，根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本进一步包括以下子步骤：

根据使用信息，对文档标题作中文分词；

对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；

拼接主题分布向量和文档类型向量，形成用户特征向量作为训练样本的部分。

4.根据权利要求3所述方法，其特征在于，主题分布向量是基于LDA主题模型迭代生成的。

5.根据权利要求3所述方法，其特征在于，训练样本还包括工作文档的数量。

6.根据权利要求1所述方法，其特征在于，多层感知分类器是采用反向传播算法训练。

7.根据权利要求1所述方法，其特征在于，还包括以下步骤：

基于已确定职业的用户，验证多层感知分类器所预测用户职业。

8.一种基于工作文档预判用户职业的装置，其特征在于，包括以下模块：

文档采集模块，用于获取用户对工作文档的使用信息，其中使用信息至少包括的文档标题和文档类型；

数据标注模块，用于根据用户对工作文档的使用信息以及记录已标注用户职业的标注库，构建训练样本；

分类生成模块，用于基于训练样本，建立并训练多层感知分类器；以及

数据预测模块，用于利用已训练的多层感知分类器预测用户职业。

9.根据权利要求8所述装置，其特征在于，还包括以下模块：

验证测试模块，用于基于已确定职业的用户，验证多层感知分类器所预测用户职业。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于该指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。