CN108897734B

CN108897734B - 用户画像生成方法、装置、计算机设备和存储介质

Info

Publication number: CN108897734B
Application number: CN201810610030.2A
Authority: CN
Inventors: 陈贇; 杨小成; 沈亚萍; 柴旭峰
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2023-08-22
Anticipated expiration: 2038-06-13
Also published as: CN108897734A

Abstract

本申请涉及一种用户画像生成方法、系统、计算机设备和存储介质。所述方法包括：获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；解析问诊数据得到对应的关键词和主题词；根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。采用本方法能够提高用户画像生成的精确性。

Description

用户画像生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种用户画像生成方法、装置、计算机设备和存储介质。

背景技术

用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据，抽象出一个用户的商业全貌作为企业应用大数据技术的基本方式。用户画像为公司或企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。目前，大多获取用户画像的方法都是通过人为的经验进行统计分析从而得到用户的画像，这种方法分析不全面、不准确，从而导致构建的用户画像不能很好的体现用户全貌，无法满足企业找到精准用户的需求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高精准性的用户画像生成方法、装置、计算机设备和存储介质。

一种用户画像生成方法，该方法包括：

获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；

解析问诊数据得到对应的关键词和主题词；

根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；

根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。

在其中一个实施例中，获取用户数据，包括

获取预设数据库存储的用户历史数据，通过流式数据库获取用户实时数据，根据用户历史数据和用户实时数据得到用户数据，并对用户数据进行数据清洗。

在其中一个实施例中，解析问诊数据得到对应的关键词，包括：

解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；

根据过滤后得到的词建立候选关键词图，并获取候选关键词图中词节点的预设初始权重；

循环迭代候选关键词图，直至达到预设条件时，得到词节点权重；

对词节点权重倒序排序，根据排序结果获取预设数的词作为关键词。

在其中一个实施例中，解析问诊数据得到对应的主题词，包括：

根据过滤后得到的词计算每个预设主题的概率，根据每个预设主题的概率计算每个预设主题对应的词分类；

计算词分类对每个预设主题的概率，根据词分类对每个预设主题的概率得到主题词。

在其中一个实施例中，根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，包括：

根据浏览行为数据获取对应的浏览类目，根据浏览类目获取对应的历史权重；

根据浏览行为数据计算浏览类目浏览次数，将浏览类目浏览次数标准化；

根据浏览类目历史权重和标准化的浏览类目浏览次数计算得到浏览类目权重。

在其中一个实施例中，根据关键词、主题词和浏览类目词确定中心词，包括：

根据关键词、主题词和类目词建立社交网络图谱；

根据社交网络图谱计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词。

在其中一个实施例中，在根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像之后，还包括：

根据用户数据计算中心词浏览次数，根据中心词浏览次数确定中心词权重，根据中心词权重对中心词进行排序，根据排序结果得到用户偏好。

一种用户画像生成装置，该装置包括：

数据获取模块，用于获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；

解析模块，用于解析问诊数据得到对应的关键词和主题词；

浏览类目词获取模块，用于根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；

用户画像生成模块，用于根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

解析问诊数据得到对应的关键词和主题词；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

解析问诊数据得到对应的关键词和主题词；

上述用户画像生成方法、装置、计算机设备和存储介质，通过获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；解析问诊数据得到对应的关键词和主题词；根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。通过获取到用户数据，根据用户数据得到关键词、主题词和浏览类目词，通过关键词、主题词和浏览类目词生成中心词，根据中心词生成用户画像，使得生成的用户画像更加精确。

附图说明

图1为一个实施例中用户画像生成方法的应用场景图；

图2为一个实施例中用户画像生成方法的流程示意图；

图3为一个实施例中得到关键词的流程示意图；

图4为一个实施例中得到主题词的流程示意图；

图5为一个实施例中计算浏览类目权重的流程示意图；

图6为一个实施例中确定中心词的流程示意图；

图7为一个具体的实施例中应用场景图；

图8为一个实施例中用户画像生成装置的结构框图；

图9为一个实施例解析模块的结构框图；

图10为另一个实施例解析模块的结构框图；

图11为一个实施例浏览类目词获取模块的结构框图；

图12为一个实施例用户画像生成模块的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用户画像生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102采集用户数据并将用户数据发送到服务器104，服务器104获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；解析问诊数据得到对应的关键词和主题词；根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；服务器104根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种用户画像生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据。

其中，问诊数据是指用户和医生进行疾病诊断过程中产生的数据。问诊数据可以是问诊主诉、对话消息和拟诊小结等文本信息，也可以是问诊语音、问诊视频等信息。浏览行为数据是指用户访问APP(计算机应用程序)、网页、网站等产生的数据，浏览行为数据可以是点击反馈信息、页面停留时间、日志信息和浏览次数信息等。用户标识用户唯一标识用户，可以是用户名称、用户账号、用户身份证号和用户手机号等。

具体地，服务器可以使用各种方法手段获取到用户数据，比如，服务器可以获取到APP的日志信息得到用户数据，服务器可以获取到客户端反馈信息得到用户数据，也可以是预先在APP、网页、网站等埋点，服务器通过埋点获取到用户数据。

S204，解析问诊数据得到对应的关键词和主题词。

其中，解析是指将不同类型的问诊数据经过处理得到问诊数据对应的关键词和主题词。关键词是指可以用来描述问诊数据中重要内容的词语，主题词是指可以用户描述问诊数据主题的词语。

具体地，根据不同类型的问诊数据使用对应的方法得到问诊数据对应的关键词和主题词。问诊数据可以包括文本数据、语音和视频数据等。

在一个实施例中，当问诊数据是文本数据，则可以是使用Textrank(一种做关键词提取的算法)算法提取文本数据中的关键词，使用线性判别分析(LDA，LinearDiscriminant Analysis,)算法提取文本数据中的主题词。

在一个实施例中，当问诊数据是语音数据，可以通过语音识别技术将语音数据转换为文本数据。

在一个实施例中，当问诊数据视频数据时，可以通过图像识别技术将视频数据转换为文本数据。

S206，根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词。

其中，浏览类目是按照用户浏览信息的类型预先设置好的。浏览类目权重用于描述用户对浏览类目的偏好程度。例如，若用户浏览商城网站，则对应的浏览类目可以是家用电器、手机、医药保健、图书和食品等等。若用户经常浏览家用电器，则家用电器的权重就高。

具体地，服务器根据用户浏览行为数据，获取到预先设置好的与用户浏览行为数据对应的浏览类目。其中，浏览类目可以有多个。根据用户浏览行为数据中对浏览类目的浏览次数计算浏览类目权重，对浏览类目权重从大到小依次进行排序，获取预先设置好的要得到的浏览类目词数，根据浏览类目权重排序结果依次从大到小获取浏览类目词数的浏览类目词。

S208，根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。

其中，中心词是用于描述关键词、主题词和浏览类目词之间的自然语义一致的词。

具体地，根据关键词、主题词和浏览类目词使用社交网络图谱算法确定中心词，比如，得到的关键词、主题词和浏览类目词包括饮酒、喝酒、喝茶、酒类、浓咖啡、酒、啤酒、可可、碳酸、可乐和浓茶等，则利用社交网络图谱算法确定的中心词可以为饮料。将所述中心词作为用户标签，根据用户标签生成用户标识对应的用户画像。

上述实施例中，通过用户画像生成方法中，获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；解析问诊数据得到对应的关键词和主题词；根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；最后根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。通过获取到用户数据，根据用户数据得到关键词、主题词和浏览类目词，通过关键词、主题词和浏览类目词生成中心词，根据中心词生成用户画像，使得生成的用户画像更加精确。

在一个实施例中，步骤S202，即获取用户数据，包括步骤：

其中，流式数据库是指使用分布式实时大数据处理系统获取到的实时数据存储的数据库。其中，分布式实时大数据处理系统可以是Storm(一个开源分布式实时计算系统，它可以实时可靠地处理流数据)。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等

具体地，根据用户标识从预设的数据库中获取到存储的用户历史数据，通过流式数据库获取用户实时数据，根据用户历史数据和用户实时数据得到用户数据，并使用数据仓库技术对用户数据进行数据清洗，去除掉不完整的数据、错误的数据、重复的数据。其中，数据仓库技术可以是ETL(Extract-Transform-Load)

上述实施例中，通过获取到用户历史数据和用户实时数据形成用户数据可以使根据用户数据生成的用户画像更为精准。

在一个实施例中，如图3所示，步骤S204，即解析问诊数据得到对应的关键词，包括步骤：

S302，解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤。

具体地，对不同类型的问诊数据进行解析得到问诊文本，然后对问诊文本进行分词处理和词性标注处理，对分词结果进行过滤，即过滤掉停用词，保留指定词性的词，并形成词的集合。其中，停用词是指与其它词相比，无实际含义的词。可以包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。例如，在一篇文本中去掉标点符号、常用词、以及“名词、动词、形容词、副词之外的词”。

S304，根据过滤后得到的词建立候选关键词图，并获取候选关键词图中词节点的预设初始权重。

其中，候选关键词图是一个由词组成的有向有权图。有向是指按照文本的顺序构建候选关键词图，有权是指词与词之间的相关程度。

具体地，将过滤后得到的每个词作为候选关键词图的节点，按照预设的窗口大小使用共现关系形成词与词之间的边，得到候选关键词图。获取候选关键词图中词节点的预设初始权重。其中，词节点的预设初始权重可以是1.0f。

S306，循环迭代候选关键词图，直至达到预设条件时，得到词节点权重。

具体地，在候选关键词图中使用迭代传播各节点的权重，直至收敛或者达到预设迭代次数时，得到词节点权重。其中，公式中V表示词节点，WS表示词节点权重。W表示边权重，根据边组成的词节点的相似度得到，d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85，In表示指向该词节点的点集合，Out表示该词节点指向的词节点的点集合。

S308，对词节点权重倒序排序，根据排序结果获取预设数的词作为关键词。

具体地，对词节点权值进行倒序排序，按照权值的大小得到对应的词节点，从大到小依次选择预设数量的词节点，将选择的词节点对应的词作为关键词。

上述实施例中，通过解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤，根据过滤后得到的词建立候选关键词图，并获取候选关键词图中词节点的预设初始权重。循环迭代候选关键词图，直至达到预设条件时，得到词节点权重，对词节点权重倒序排序，根据排序结果获取预设数的词作为关键词，使得能够更加方便的获取到关键词，提高了用户画像生成的效率。

在一个实施例中，如图4所示，步骤S204，即解析问诊数据得到对应的主题词，包括步骤：

S402，解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤。

具体地，对不同类型的问诊数据进行解析得到问诊文本，然后对问诊文本进行分词处理和词性标注处理，对分词结果进行过滤，即过滤掉停用词，保留指定词性的词。

S404，根据过滤后得到的词计算每个预设主题的概率，根据每个预设主题的概率计算每个预设主题对应的词分类。

其中，预设主题是指预先设置的文本的各种主题，通过LDA算法提取文本中的主题。

具体地，根据过滤后得到的词计算每个词分别对应每个预设主题的概率，分别统计每个预设主题下对应的所有的词的概率，将预设主题对应的概率最大的一组词作为词分类。使用LDA的联合发布进行计算，每次迭代只改变一个维度的值，直到收敛输出待估计的参数。用在LDA中时，维度就是词汇集，每次迭代时，根据其他词的主题分配来估计当前词的主题概率，即排除当前词的主题分配，根据其他词的主题分配和观察到的词来计算当前词主题的概率。例如：文本中根据LDA联合分布计算出“苹果”为水果的主题为80％，为科技的主题也为80％，则文本中计算“香蕉”为水果的主题为80％，为科技的主题为40％，则水果主题对应的所有词的概率为80％，而科技主题对应所有词的概率为60％。则文本中得到的词分类为“香蕉、苹果”。

S406，计算词分类对每个预设主题的概率，根据词分类对每个预设主题的概率得到主题词。

具体地，计算出词分类对每个预设主题的概率，则该词分类对应的主题为计算出的最大概率对应的预设主题，则将该预设主题作为主题词，则得到所述词分类对应的主题词。

上述实施例中，通过解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤，根据过滤后得到的词计算每个预设主题的概率，根据每个预设主题的概率计算每个预设主题对应的词分类，计算词分类对每个预设主题的概率，根据词分类对每个预设主题的概率得到主题词，可以更加方便的得到文本的主题词，提高了得到用户画像的效率。

在一个实施例中，如图5所示，步骤S206，即根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，包括步骤：

S502，根据浏览行为数据获取对应的浏览类目，根据浏览类目获取对应的历史权重。

具体地，服务器根据浏览行为数据获取对应的浏览类目。其中，预先设置好浏览类目及浏览类目对应的浏览项。每一个浏览类目下可以包括多个浏览项。而浏览行为数据中包括了用户标识点击的浏览项，预先设置好的浏览项和浏览类目的对应关系获取到浏览行为数据中浏览项对应的浏览类目，根据浏览类目获取到对应的历史权重。每一个浏览类目都有对应的历史权重，初始历史权重可以为0。

S504，根据浏览行为数据计算浏览类目浏览次数，将浏览类目浏览次数标准化。

其中，浏览次数标准化是指将浏览次数按比例缩放，使之落入一个小的特定区间。

具体地，根据浏览行为数据中用户点击浏览项的统计次数计算浏览类目浏览次数，将浏览类目对应的所有浏览项的点击次数进行统计得到浏览类目浏览次数。使用离差标准化将浏览类目浏览次数进行线性变换，得到标准化之后的数据。

S506，根据浏览类目历史权重和标准化的浏览类目浏览次数计算得到浏览类目权重。

具体地，根据浏览类目历史权重和标准化的浏览类目浏览次数使用权重计算公式得到浏览类目权重，并将得到的浏览类目权重保存。其中W为浏览类目权重，W'浏览类目为历史权重，T为浏览类目浏览次数标准化之后的数据。

上述实施例中，通过根据浏览行为数据获取对应的浏览类目，根据浏览类目获取对应的历史权重，根据浏览行为数据计算浏览类目浏览次数，将浏览类目浏览次数标准化，根据浏览类目历史权重和标准化的浏览类目浏览次数计算得到浏览类目权重，从而能够更加准确的得到浏览类目权重。

在一个实施例中，如图6所示，步骤S208，即根据关键词、主题词和浏览类目词确定中心词，包括步骤：

S602，根据关键词、主题词和类目词建立社交网络图谱。

其中，社交网络图谱是指一种关系图谱，用于描述关键词、主题词和类目词之间的关联关系。

具体的，根据关键词、主题词和类目词利用自然语言中的词法、句法以及语义特征等建立社交网络图谱。

在一个实施例中，从自然语言知识库中获取到关键词、主题词和类目词之间的关系信息，根据该关系信息建立社交网络图谱。

S604，根据社交网络图谱计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词。

具体地，根据社交网络图谱使用随机游走算法计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词。预先在社交网络图谱中设置好初始迭代词节点x、初次行走长λ和控制精度∈(用于控制算法结束，一个非常小的正数)。获取预设迭代控制次数N和当前迭代次数K，当当前迭代次数小于给定的迭代次数时即K<N时，随机生成一个(-1,1)之间的N维向量u＝(u₁,u₂,...,u_n)(-1<u_i<1,i＝1,2,...,n)，并将其标准化为令x1＝x+λu'完成第一步游走。计算预设函数f(x)值，该函数是一个含有n个变量的多元函数，x＝(x₁,x₂,...,x_n)为N维向量。当f(x₁)<f(x)时，即将该x₁对应的词节点作为初始点，且重置K＝1，x₁为x，重新给定λ和∈进行迭代计算。当f(x₁)>f(x)时，继续进行游走计算。当达到预设迭代次数且λ<∈时，则当前初始迭代词为最优词，并将该最优词作为中心词。

上述实施例中，根据关键词、主题词和类目词建立社交网络图谱，根据社交网络图谱计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词，可以更加方便、快捷、准确的找到中心词，提高生成用户画像的效率。

在一个实施例中，在步骤S208之后，即在根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像之后，包括步骤：

其中，中心词浏览次数是指中心词对应的关键词、主题词和类目词的点击次数的和

具体地，根据用户数据获取中心词对应的关键词、主题词和类目词的点击次数，统计所有中心词对应的关键词、主题词和类目词的点击次数之和后，得到中心词的浏览次数，将中心词浏览次数标准化，获取中心词的历史权重，根据计算得到中心词权重。其中，W为中心词权重，W'为中心词历史权重，T为中心词浏览次数标准化之后的数据。然后对计算得到的中心词权重进行排序，则根据排序结果将权重高的中心词作为用户偏好。

上述实施例中，根据用户数据计算中心词浏览次数，根据中心词浏览次数确定中心词权重，根据中心词权重对中心词进行排序，根据排序结果得到用户偏好，可以精确得到用户的喜好，方便后续使用。

在一个具体地实施例中，如图7所示，包括用户终端702、医生终端704和服务器706。用户在用户终端702使用用户账号登录到医疗健康网站中，向医生发起疾病诊断对话，服务器接收到对话请求，向医生对应的医生终端704发起对话请求，则用户和医生之间进行对话。此时，服务器706会获取到问诊日志信息。则服务器706根据问诊日志信息得到问诊文本，此时，通过该得到问诊文本得到对应的关键词和主题词；服务器706还会获取到用户在医疗健康网站中的医疗商城中的浏览行为数据，根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词，然后根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像，则服务器706可以根据用户画像向用户终端702推送相应的医疗广告，医疗文章等。其中，用户终端702可以是智能手机，则医疗健康网站可以是智能手机中医疗健康APP。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种用户画像生成装置800，包括：数据获取模块802、解析模块804、浏览类目词获取模块806和用户画像生成模块808，其中：

数据获取模块802，用于获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；

解析模块804，用于解析问诊数据得到对应的关键词和主题词；

浏览类目词获取模块806，用于根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；

用户画像生成模块808，用于根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。

上述实施例中，通过数据获取模块802获取用户数据。通过解析模块804得到关键词和主题词，通过浏览类目词获取模块806得到浏览类目词，最后在用户画像生成模块808中根据关键词、主题词和浏览类目词得到中心词，由中心词生成用户标识对应的用户画像。

在一个实施例中，数据获取模块802，包括

在一个实施例中，如图9所示，解析模块804，包括：

文本得到模块902，用于解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；

词图建立模块904，用于根据过滤后得到的词建立候选关键词图，并获取候选关键词图中词节点的预设初始权重；

词节点权重得到模块906，用于循环迭代候选关键词图，直至达到预设条件时，得到词节点权重；

关键词获取模块908，用于对词节点权重倒序排序，根据排序结果获取预设数的词作为关键词。

在一个实施例中，如图10所示，解析模块804，包括：

文本得到模块1002，用于解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；

词分类得到模块1004，用于根据过滤后得到的词计算每个预设主题的概率，根据每个预设主题的概率计算每个预设主题对应的词分类；

主题词得到模块1006，用于计算词分类对每个预设主题的概率，根据词分类对每个预设主题的概率得到主题词。

在一个实施例中，如图11所示，浏览类目词获取模块806，包括：

历史权重获取模块1102，用于根据浏览行为数据获取对应的浏览类目，根据浏览类目获取对应的历史权重；

浏览次数计算模块1104，用于根据浏览行为数据计算浏览类目浏览次数，将浏览类目浏览次数标准化；

浏览类目权重计算模块1106，用于根据浏览类目历史权重和标准化的浏览类目浏览次数计算得到浏览类目权重。

在一个实施例中，如图12所示，用户画像生成模块808，包括：

图谱建立模块1202，用于根据关键词、主题词和类目词建立社交网络图谱；

最优词计算模块1204，用于根据社交网络图谱计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词。

在一个实施例中，用户画像生成装置，还包括：

用户偏好得到模块，用于根据用户数据计算中心词浏览次数，根据中心词浏览次数确定中心词权重，根据中心词权重对中心词进行排序，根据排序结果得到用户偏好。

关于用户画像生成装置的具体限定可以参见上文中对于用户画像生成方法的限定，在此不再赘述。上述用户画像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户历史数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户画像生成方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；解析问诊数据得到对应的关键词和主题词；根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预设数据库存储的用户历史数据，通过流式数据库获取用户实时数据，根据用户历史数据和用户实时数据得到用户数据，并对用户数据进行数据清洗。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；根据过滤后得到的词建立候选关键词图，并获取候选关键词图中词节点的预设初始权重；循环迭代候选关键词图，直至达到预设条件时，得到词节点权重；对词节点权重倒序排序，根据排序结果获取预设数的词作为关键词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；根据过滤后得到的词计算每个预设主题的概率，根据每个预设主题的概率计算每个预设主题对应的词分类；计算词分类对每个预设主题的概率，根据词分类对每个预设主题的概率得到主题词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据浏览行为数据获取对应的浏览类目，根据浏览类目获取对应的历史权重；根据浏览行为数据计算浏览类目浏览次数，将浏览类目浏览次数标准化；根据浏览类目历史权重和标准化的浏览类目浏览次数计算得到浏览类目权重。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据关键词、主题词和类目词建立社交网络图谱；根据社交网络图谱计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据用户数据计算中心词浏览次数，根据中心词浏览次数确定中心词权重，根据中心词权重对中心词进行排序，根据排序结果得到用户偏好。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取用户数据，用户数据包括用户标识、问诊数据和浏览行为数据；解析问诊数据得到对应的关键词和主题词；根据浏览行为数据获取对应的浏览类目，并计算浏览类目权重，对浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；根据关键词、主题词和浏览类目词确定中心词，根据中心词生成用户标识对应的用户画像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤获取预设数据库存储的用户历史数据，通过流式数据库获取用户实时数据，根据用户历史数据和用户实时数据得到用户数据，并对用户数据进行数据清洗。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；根据过滤后得到的词建立候选关键词图，并获取候选关键词图中词节点的预设初始权重；循环迭代候选关键词图，直至达到预设条件时，得到词节点权重；对词节点权重倒序排序，根据排序结果获取预设数的词作为关键词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：解析问诊数据得到问诊文本，将问诊文本进行分词，并对分词结果进行过滤；根据过滤后得到的词计算每个预设主题的概率，根据每个预设主题的概率计算每个预设主题对应的词分类；计算词分类对每个预设主题的概率，根据词分类对每个预设主题的概率得到主题词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据浏览行为数据获取对应的浏览类目，根据浏览类目获取对应的历史权重；根据浏览行为数据计算浏览类目浏览次数，将浏览类目浏览次数标准化；根据浏览类目历史权重和标准化的浏览类目浏览次数计算得到浏览类目权重。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据关键词、主题词和类目词建立社交网络图谱；根据社交网络图谱计算关键词、主题词和类目词之间的最优词，根据最优词得到中心词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据用户数据计算中心词浏览次数，根据中心词浏览次数确定中心词权重，根据中心词权重对中心词进行排序，根据排序结果得到用户偏好。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户画像生成方法，所述方法包括：

获取用户数据，所述用户数据包括用户标识、问诊数据和浏览行为数据；

解析所述问诊数据得到对应的关键词和主题词；

根据所述浏览行为数据获取对应的浏览类目，并计算所述浏览类目权重，对所述浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；

根据所述关键词、所述主题词和所述类目词建立社交网络图谱；

根据所述社交网络图谱计算所述关键词、所述主题词和所述类目词之间的最优词，根据最优词得到中心词，根据所述中心词生成所述用户标识对应的用户画像。

2.根据权利要求1所述的方法，其特征在于，获取用户数据，包括

获取预设数据库存储的用户历史数据，通过流式数据库获取用户实时数据，根据所述用户历史数据和所述用户实时数据得到用户数据，并对所述用户数据进行数据清洗。

3.根据权利要求1所述的方法，其特征在于，解析所述问诊数据得到对应的关键词，包括：

解析所述问诊数据得到问诊文本，将所述问诊文本进行分词，并对分词结果进行过滤；

根据过滤后得到的词建立候选关键词图，并获取所述候选关键词图中词节点的预设初始权重；

对所述词节点权重倒序排序，根据排序结果获取预设数的词作为关键词。

4.根据权利要求1所述的方法，其特征在于，解析所述问诊数据得到对应的主题词，包括：

根据过滤后得到的词计算每个预设主题的概率，根据所述每个预设主题的概率计算所述每个预设主题对应的词分类；

计算所述词分类对每个预设主题的概率，根据所述词分类对每个预设主题的概率得到主题词。

5.根据权利要求1所述的方法，其特征在于，根据所述浏览行为数据获取对应的浏览类目，并计算所述浏览类目权重，包括：

根据所述浏览行为数据获取对应的浏览类目，根据所述浏览类目获取对应的历史权重；

根据所述浏览行为数据计算所述浏览类目浏览次数，将所述浏览类目浏览次数标准化；

根据所述浏览类目历史权重和所述标准化的浏览类目浏览次数计算得到浏览类目权重。

6.根据权利要求1所述的方法，其特征在于，根据所述中心词生成用户标识对应的用户画像之后，还包括：

根据所述用户数据计算所述中心词浏览次数，根据所述中心词浏览次数确定所述中心词权重，根据所述中心词权重对所述中心词进行排序，根据所述排序结果得到用户偏好。

7.一种用户画像生成装置，其特征在于，所述装置包括：

数据获取模块，用于获取用户数据，所述用户数据包括用户标识、问诊数据和浏览行为数据；

解析模块，用于解析所述问诊数据得到对应的关键词和主题词；

浏览类目词获取模块，用于根据所述浏览行为数据获取对应的浏览类目，并计算所述浏览类目权重，对所述浏览类目权重进行排序，根据排序结果获取预设数的浏览类目词；

用户画像生成模块，根据所述关键词、所述主题词和所述类目词建立社交网络图谱；根据所述社交网络图谱计算所述关键词、所述主题词和所述类目词之间的最优词，根据最优词得到中心词，根据所述中心词生成所述用户标识对应的用户画像。

8.根据权利要求7所述的装置，其特征在于，

所述数据获取模块，还用于获取预设数据库存储的用户历史数据，通过流式数据库获取用户实时数据，根据用户历史数据和用户实时数据得到用户数据，并对用户数据进行数据清洗。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。