CN112100237A

CN112100237A - 一种用户数据处理方法、装置、设备以及存储介质

Info

Publication number: CN112100237A
Application number: CN202010923484.2A
Authority: CN
Inventors: 周厚谦; 钟辉强; 方军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-18
Anticipated expiration: 2040-09-04
Also published as: CN112100237B

Abstract

本申请公开了一种用户数据处理方法、装置、设备以及存储介质，涉及人工智能、深度学习和大数据技术领域，进一步涉及神经网络等领域。具体实现方案为：获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息；根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定目标企业的种子用户特征和至少两个待挖掘用户特征；根据所述至少两个待挖掘用户特征与所述种子用户特征之间的距离，从至少两个待挖掘用户中确定所述目标企业的待开发用户。解决了目前帮助企业快速挖掘待开发用户的方案存在人力成本高以及准确率低下等问题，提供了一种对企业的用户数据进行处理的方案，能够精准、高效且低成本帮助企业挖掘待开发用户。

Description

一种用户数据处理方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能、深度学习和大数据技术，具体涉及一种用户数据处理方法、装置、设备以及存储介质。

背景技术

随着市场竞争的越来越激烈，企业需要快速开发新用户，以提升销售效率和提高营收等，进而提升企业的竞争力。然而，目前帮助企业快速发现待开发用户的方案存在人力成本高、准确率低下等问题。因此，亟需一种能够低成本且精准的帮助企业挖掘待开发用户的方法。

发明内容

本公开提供了一种用户数据处理方法、装置、设备以及存储介质，以低成本且精准的为企业挖掘待开发用户。

根据本公开的一方面，提供了一种用户数据处理方法，该方法包括：

获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息；

根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定所述目标企业的种子用户特征和至少两个待挖掘用户特征；

根据所述至少两个待挖掘用户特征与所述种子用户特征之间的距离，从至少两个待挖掘用户中确定所述目标企业的待开发用户。

根据本公开的另一方面，提供了一种用户数据处理装置，该装置包括：

信息获取模块，用于获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息；

特征确定模块，用于响应于目标企业的待开发用户挖掘请求，根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定所述目标企业的种子用户特征和至少两个待挖掘用户特征；

开发模块，用于根据所述至少两个待挖掘用户特征与所述种子用户特征之间的距离，从至少两个待挖掘用户中确定所述目标企业的待开发用户。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的用户数据处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请任一实施例所述的用户数据处理方法。

根据本申请的技术解决了目前帮助企业快速挖掘待开发用户的方案存在人力成本高以及准确率低下等问题，提供了一种对企业的用户数据进行处理的方案，能够精准、高效且低成本帮助企业挖掘待开发用户。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提供的一种用户数据处理方法的流程图；

图2是根据本申请实施例提供的另一种用户数据处理方法的流程图；

图3是根据本申请实施例提供的另一种用户数据处理方法的流程图；

图4是根据本申请实施例提供的一种用户数据处理过程示意图；

图5是根据本申请实施例提供的一种用户数据处理装置的结构示意图；

图6是用来实现本申请实施例的用户数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例提供的一种用户数据处理方法的流程图。本申请实施例适用于如何对企业的用户数据进行处理，以帮助企业快速挖掘出待开发用户的情况。该实施例可以由用户数据处理装置来执行，该装置可以采用软件和/或硬件来实现，并可集成于承载用户数据处理功能的电子设备中，如服务器中。如图1所示，该方法包括：

S101，获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息。

本实施例中，目标企业可以是具有开发新用户需求的企业。意图词语可以是目标企业根据自身产品介绍及面向用户提供的服务，总结提炼的能够体现自身意图的词语。例如，目标企业是一经营出租车业务的企业，则意图词语可以包括出租汽车、汽车租赁、以及货车租赁等。意图词语包能够体现目标企业的产品特征、目标企业能够提供的解决方案或者产品、以及目标企业能够解决的问题等。意图词语包可以由目标企业根据所提炼的意图词语进行扩展得到，还可以由服务器根据目标企业输入的意图词语进行扩展得到。

本实施例中种子用户也可称为历史成单用户，可以是截止到当前时间(即接收到目标企业的待开发用户挖掘请求的时间)已与目标企业签订合作关系的用户等，进一步的，为了保证后续能够准确确定目标企业的待开发用户，种子用户可以是设定时段内(如从过去某一时间到当前时间)，已与目标企业签订合作关系的有效用户。可以理解的是，用户(包括种子用户和待开发用户)可以是普通用户，还可以是企业用户。

可选的，本实施例可以提供可视化交互界面，目标企业在具有开发新用户需求时，可以根据可视化界面中提示信息输入相关参数，如目标企业标识、意图词语(或意图词语包)和种子用户标识等，并提交，进而触发产生待开发用户挖掘请求。本实施例响应于目标企业的待开发用户挖掘请求，从可视化界面中直接获取目标企业输入的意图词语包，或者从可视化界面中获取目标企业输入的意图词语，并根据意图词语确定意图词语包；同时，根据种子用户标识，从企业库中获取种子用户信息和至少两个待挖掘用户信息。其中，待开发用户挖掘请求用于帮助目标企业挖掘潜在用户，可以是目标企业输入相关参数后点击提交所触发产生的；待开发用户挖掘请求还可以是监测到当前时间满足设定时间阈值所触发产生的，例如在目标企业输入相关参数后，预设时段内(如15s内)未检测到任何操作，则可以自动触发产生待开发用户挖掘请求。其中，目标企业标识可以是用于唯一识别目标企业的标识符，如可以是目标企业的企业名称、企业代码或者企业登记号等；若用户为企业用户，则种子用户标识可以是企业名称、企业代码或者企业登记号等。

企业库可以是预先构建的企业用户数据库，可根据实际用户变更情况动态调整；进一步的，为了便于查询，该企业库中数据可以以键值对(Key-Value)形式存储，例如可以将用户标识作为Key，将用户信息作为Value进行存储。企业库中每一用户信息可以包括多种数据源的数据，例如可以包括但不限于用户的基本属性信息、以及能够体现用户意图的相关数据等。可选的，本实施例可以将企业库中除种子用户之外的所有用户作为待挖掘用户，其中，种子用户的数量可以为一个、两个或者两个以上等。

S102，根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定目标企业的种子用户特征和至少两个待挖掘用户特征。

其中，用户特征可用于表征用户的商业意图或商业需求等；对于种子用户而言，种子用户特征能够体现种子用户对目标企业的某种产品需求；相应地，待挖掘用户特征能够体现待挖掘用户所需求产品。

可选的，对于每一种子用户，可以根据目标企业的意图词语包，结合该种子用户信息，确定该种子用户特征。例如可以将目标企业的意图词语包和该种子用户信息一并输入预先训练的神经网络模型，进而得到该种子用户特征；或者可以结合目标企业的意图词语包，对该种子用户信息进行分析、融合等处理，得到该种子用户特征。

与此同时，对于每一待挖掘用户，可以根据目标企业的意图词语包，结合该待挖掘用户信息，确定该待挖掘用户特征。例如，可以将目标企业的意图词语包和该待挖掘用户信息一并输入预先训练的神经网络模型，进而得到该待挖掘用户特征；或者可以结合目标企业的意图词语包，对该待挖掘用户信息进行分析、融合等处理，得到该待挖掘用户特征。

需要说明的是，本实施例结合意图词语包，能够防止用户特征中引入过多无用特征。

S103，根据至少两个待挖掘用户特征与种子用户特征之间的距离，从至少两个待挖掘用户中确定目标企业的待开发用户。

本实施例中，每一待挖掘用户特征与每一种子用户特征之间的距离可以用余弦相似度来表征，或者可以采用杰卡德(Jaccard)相似系数来表征。例如，可以根据至少两个待挖掘用户特征与种子用户特征之间的距离，对多个待挖掘用户进行排序，并依据排序结果从多个待挖掘用户中确定目标企业的待开发用户。

需要说明的是，目前帮助企业快速发现待开发用户的方案主要依赖人工筛选，存在效率低下、人力成本高、且准确度无法保证等问题。而本申请降低了对人工的依赖，且结合意图词语包能够防止用户特征中引入过多无用特征，保证自动、高效且精准的从多个待挖掘用户中选择出目标企业的待开发用户，为企业挖掘新用户提供了一种新思路。

本申请实施例的技术方案，通过根据目标企业的意图词语包，结合目标企业的种子用户信息和多个待挖掘用户信息，能够确定目标企业的待开发用户。解决了目前帮助企业快速挖掘待开发用户的方案存在人力成本高以及准确率低下等问题，提供了一种对企业的用户数据进行处理的方案，能够精准、高效且低成本帮助企业挖掘待开发用户，以帮助企业提升销售效率和提高营收等，进而提升企业的竞争力。

进一步的，为了提高处理效率，可选的，本实施例中S101获取目标企业的意图词语包可以是：根据目标企业输入的意图词语，进行同义扩展，得到目标企业的意图词语包。具体的，对于目标企业输入的每一意图词语，可以通过同义词库进行查询，得到该意图词语的同义词；同时可以对该意图词语进行分析，获取该意图词语的近义词；进而可以由意图词语，意图词语的同义词和近义词构成意图词语包。本实施例对目标企业输入的意图词语进行同义扩展，能够丰富词包，同时丰富的意图词语包为后续准确挖掘目标企业的待开发用户奠定了基础。

进一步的，本实施例中S103根据至少两个待挖掘用户特征与种子用户特征之间的距离，从至少两个待挖掘用户中确定目标企业的待开发用户可以是：根据至少两个待挖掘用户特征与种子用户特征之间的距离，确定至少两个待挖掘用户的意图分数；根据意图分数，从至少两个待挖掘用户中确定目标企业的待开发用户。其中，意图分数用于表征待挖掘用户对目标企业产品需求的高低。

具体的，对于每一待挖掘用户而言，可以计算该待挖掘用户特征与每一种子用户特征之间的余弦相似度；之后可以将计算得到的各余弦相似度相加或求平均等，以得到该待挖掘用户的意图分数；最后将意图分数大于设定数值的待挖掘用户作为目标企业的待开发用户。

为了减少计算复杂度，以及更高效且精准获取目标企业的待开发用户，可选的，对于每一待挖掘用户而言，可以将该待挖掘用户特征与每一种子用户特征构成企业对，一并输入预先训练好的商机感知模型中，得到相似度向量；之后可以对相似度向量进行求和或求平均等，以得到该待挖掘用户的意图分数；最后将意图分数大于设定数值的待挖掘用户作为目标企业的待开发用户。其中，相似度向量的维度与种子用户的数量一致，且相似度向量中每一维度特征可以为待挖掘用户特征与种子用户特征之间的余弦相似度。本实施例中引入意图分数，进一步保证了所确定的待开发用户的准确度。

进一步的，为了便于目标企业直观了解待开发用户，可选的，根据意图分数，从至少两个待挖掘用户中确定目标企业的待开发用户可以是：根据意图分数对待挖掘用户进行排序(比如降序排序)，并根据排序结果将设定数量的待挖掘用户作为目标企业的待开发用户；之后可以按顺序将待开发用户展示给目标企业。可以理解的是，设定数量可以是预先设定的，可以根据目标企业的用户需求灵活进行确定，例如可以是一个，还可以是多个等。

图2是根据本申请实施例提供的一种用户数据处理方法的流程图。本实施例在上述实施例的基础上，进一步对确定目标企业的种子用户特征和待挖掘用户特征进行解释说明。如图2所示，该方法包括：

S201，获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息。

可选的，若企业库中所存储的用户为企业用户，则企业库中每一用户信息可以包括多种数据源的数据，例如可以包括但不限于用户的工商属性信息和行为数据等。其中，工商属性信息可以包括但不限于企业名称、企业所属行业(即类别，比如人工智能、大数据、服务、房地产等行业)、经营状态、注册资金和经营范围等；行为数据能够体现企业某种商业意图，可以包括招聘、招投标等基本行为数据，由于员工行为在一定程度上能够代表企业的商业行为，进而行为数据还可以包括员工行为数据等。

可选的，每一种子用户信息可以包括但不限于该种子用户的工商属性信息和行为数据；每一待挖掘用户信息可以包括但不限于待挖掘用户的工商属性信息和行为数据。

S202，根据种子用户的工商属性信息和至少两个待挖掘用户的工商属性信息，分别确定种子用户的工商特征和至少两个待挖掘用户的工商特征。

由于工商属性信息包含各种数据类型数据，例如工商属性信息可以包括数值型数据(如注册资本、注册时长等)、文本型数据(如企业名称、经营范围等)、以及枚举型数据(如企业所属行业、经营状态等)等。因此，为了便于处理，本实施例可以将工商属性信息中的不同数据统一处理为向量形式。可选的，不同数据类型进行向量化方式不同。

例如，对于数值型数据，可以直接或归一化处理后作为数值向量。对于文本型数据，可以采用结巴(jieba)分词器进行分词处理后，利用预先训练好的word2vec模型进行向量化得到各词语的语义向量，对各词语的语义向量进行平均，得到平均向量；或者可以采用知识增强语义表示模型(Enhanced Language Representation from knowledgeIntEgration，ERNIE)进行向量化处理。对于枚举型数据，可以处理成one-hot向量，其中，one-hot向量的长度由枚举型数据长度决定。

进而，可以按照设定格式，将工商属性信息中不同数据类型数据进行向量化处理后得到的向量进行拼接，得到工商特征。

具体的，对于每一种子用户，可以对该种子用户的工商属性信息进行向量化处理，得到该种子用户的工商特征；同理，对于每一待挖掘用户，可以对该待挖掘用户的工商属性信息进行向量化处理，得到该待挖掘用户的工商特征。

S203，根据意图词语包、种子用户的行为数据和至少两个待挖掘用户的行为数据，确定种子用户的行为特征和至少两个待挖掘用户的行为特征。

本实施例中，用户的行为特征能够表征用户的商业行为或者商业意图，可以用向量表示。可选的，对于每一种子用户，可以根据该种子用户的行为数据和意图词语包，确定共同特征；对共同特征进行向量化，以得到该种子用户的行为特征。或者，对于每一种子用户，可以根据意图词语包中词语与该种子用户的行为数据之间的距离，从意图词语包中确定该种子用户的意图词语表；之后根据该种子用户的意图词语表，确定该种子用户的行为特征。可选的，意图词语包中词语与种子用户的行为数据之间的距离可以采用余弦相似度来表征，或者可以采用杰卡德(Jaccard)相似系数来表征。种子用户的意图词语表可以是目标企业的意图词语包的一个子集。

例如，对于每一种子用户，计算意图词语包中每一词语与该种子用户的行为数据之间的相似度系数；根据相似度系数与第一设定阈值，从意图词语包中确定该种子用户的意图词语表，例如可以将相似度系数大于第一设定阈值的意图词语的集合作为该种子用户的意图词语表；之后，可以利用预先训练好的word2vec模型对该种子用户的意图词语表中词语进行向量化，得到每个词语的语义向量。进而可以直接将该种子用户的意图词语表中每个词语的语义向量，按照设定格式进行拼接，得到该种子用户的行为特征；或者，可以对各词语的语义向量进行平均，将平均向量作为该种子用户的行为特征。

与确定种子用户的行为特征方式类似，可选的，对于每一待挖掘用户，可以根据该待挖掘用户的行为数据和意图词语包，确定共同特征；对共同特征进行向量化，以得到该待挖掘用户的行为特征。或者，对于每一待挖掘用户，可以根据意图词语包中词语与该待挖掘用户的行为数据之间的距离，从意图词语包中确定该待挖掘用户的意图词语表；之后根据该待挖掘用户的意图词语表，确定该待挖掘用户的行为特征。可选的，意图词语包中词语与待挖掘用户的行为数据之间的距离可以采用余弦相似度来表征，或者可以采用杰卡德(Jaccard)相似系数来表征。待挖掘用户的意图词语表可以是目标企业的意图词语包的一个子集。

例如，对于每一待挖掘用户，计算意图词语包中每一词语与该待挖掘用户的行为数据之间的相似度系数；根据相似度系数与第二设定阈值，从意图词语包中确定该待挖掘用户的意图词语表，例如可以将相似度系数大于第二设定阈值的意图词语的集合作为该待挖掘用户的意图词语表；之后，可以利用预先训练好的word2vec模型对该待挖掘用户的意图词语表中词语进行向量化，得到每个词语的语义向量。进而可以直接将该待挖掘用户的意图词语表中每个词语的语义向量，按照设定格式进行拼接，得到该待挖掘用户的行为特征；或者，可以对各词语的语义向量进行平均，将平均向量作为该待挖掘用户的行为特征。本实施例，对于复杂行为数据，结合意图词语包，能够防止引入过多无用特征，提供了一种准确确定行为特征的可选方式，为后续准确确定目标企业的待开发用户奠定了基础。

S204，根据种子用户的工商特征和行为特征，确定种子用户特征。

可选的，对于每一种子用户，在确定该种子用户的工商特征和行为特征之后，可以按照设定拼接方式，直接对该种子用户的工商特征和行为特征进行拼接处理，得到该种子用户特征。或者，可以先将该种子用户的工商特征和行为特征分别与设定权重值相乘，之后再进行拼接处理，得到该种子用户特征。

S205，根据至少两个待挖掘用户的工商特征和行为特征，确定至少两个待挖掘用户特征。

可选的，对于每一待挖掘用户，在确定该待挖掘用户的工商特征和行为特征之后，可以按照设定拼接方式，直接对该待挖掘用户的工商特征和行为特征进行拼接处理，得到该待挖掘用户特征。或者，可以先将该待挖掘用户的工商特征和行为特征分别与设定权重值相乘，之后再进行拼接处理，得到该待挖掘用户特征。

S206，根据至少两个待挖掘用户特征与种子用户特征之间的距离，从至少两个待挖掘用户中确定目标企业的待开发用户。

本申请实施例的技术方案，通过根据目标企业的意图词语包，结合多种数据源数据对种子用户和待挖掘用户进行表征，能够使用户特征覆盖面广，极大地提高了目标企业的待开发用户的召回率和准确率，为精准、高效且低成本帮助企业挖掘待开发用户提供了一种新思路。

图3是根据本申请实施例提供的一种用户数据处理方法的流程图。本实施例在上述实施例的基础上，在用户的行为数据包括用户的基本行为数据和员工行为数据的情况下，进一步对确定目标企业的种子用户特征和待挖掘用户特征进行解释说明。如图3所示，该方法包括：

S301，获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息。

S302，根据种子用户的工商属性信息和至少两个待挖掘用户的工商属性信息，分别确定种子用户的工商特征和至少两个待挖掘用户的工商特征。

S303，根据意图词语包、种子用户的基本行为数据和至少两个待挖掘用户的基本行为数据，确定种子用户的基本行为特征和至少两个待挖掘用户的基本行为特征。

本实施例中，用户的行为数据能够体现企业某种商业意图，可以包括招聘、招投标等基本行为数据；由于员工行为在一定程度上能够代表企业的商业行为，进而行为数据还可以包括员工行为数据等。可选的，本实施例中确定种子用户的基本行为特征和至少两个待挖掘用户的基本行为特征的方式，与上述确定种子用户的行为特征和至少两个待挖掘用户的行为特征的方式相同，本实施例将以确定种子用户的基本行为特征为例进行说明。

例如，对于每一种子用户，计算意图词语包中每一词语与该种子用户的基本行为数据之间的相似度系数；根据相似度系数与第三设定阈值，从意图词语包中确定该种子用户的基本意图词语表，例如可以将相似度系数大于第三设定阈值的意图词语的集合作为该种子用户的基本意图词语表；之后，可以利用预先训练好的word2vec模型对该种子用户的基本意图词语表中词语进行向量化，得到每个词语的语义向量。进而可以直接将该种子用户的基本意图词语表中每个词语的语义向量，按照设定格式进行拼接，得到该种子用户的基本行为特征；或者，可以对各词语的语义向量进行平均，将平均向量作为该种子用户的基本行为特征。

S304，根据意图词语包、种子用户的员工行为数据和至少两个待挖掘用户的员工行为数据，确定种子用户的员工行为特征和至少两个待挖掘用户的员工行为特征。

本实施例中，在确定员工行为特征之前，可以从企业库中直接获取员工行为数据；可选的，若企业库中没有员工行为数据，则可以从企业库中获取用户的工商、周报、期刊或者年报等公开信息，进而根据用户的公开信息，获取用户的员工行为数据。

例如，对于种子用户而言，可以根据种子用户的公开信息，获取种子用户的员工画像和员工搜索行为数据；之后根据种子用户的员工画像和员工搜索行为数据，得到种子用户的员工行为数据。其中，员工画像是基于员工工作行为、职场属性、需求属性、生活习惯以及基本信息等所勾画的一种用户模型。可选的，员工画像中可以包括丰富的数据，例如姓名、照片、经济状态、工作信息、互联网职场背景、工作地点、爱好、婚姻状况、消费观以及居住地等。员工搜索行为数据也可称为员工历史搜索记录。

具体的，对于每一种子用户，可以从该种子用户的公开信息中提取该种子用户的员工基本信息如员工姓名；之后可以根据员工基本信息从互联网中抓取员工画像，同时根据员工基本信息从浏览器中抓取员工搜索行为数据；而后对所抓取的员工画像和搜索行为数据进行去重处理，并将去重处理后的数据作为该种子用户的员工行为数据。

可选的，对于待挖掘用户而言，也可以根据待挖掘用户的公开信息，获取待挖掘用户的员工画像和员工搜索行为数据；之后根据待挖掘用户的员工画像和员工搜索行为数据，得到待挖掘用户的员工行为数据。具体的，对于每一待挖掘用户，可以从该待挖掘用户的公开信息中提取该待挖掘用户的员工基本信息如员工姓名；之后可以根据员工基本信息从互联网中抓取员工画像，同时根据员工基本信息从浏览器中抓取员工搜索行为数据；而后对所抓取的员工画像和搜索行为数据进行去重处理，并将去重处理后的数据作为该待挖掘用户的员工行为数据。

需要说明的是，本实施例引入员工行为数据，进一步丰富了数据，扩大了用户特征的覆盖面，为提升目标企业的待开发用户的准确率奠定了基础。同时本实施例结合员工画像和员工搜索行为数据，确定员工行为数据，又进一步丰富了员工行为数据，为获取丰富的员工行为数据提供了一种可选方式。

具体的，在获取员工行为数据之后，可以根据目标企业的意图词语包和员工行为数据，确定员工行为特征。可选的，本实施例中确定种子用户的员工行为特征和至少两个待挖掘用户的员工行为特征的方式，与上述确定种子用户的行为特征和至少两个待挖掘用户的行为特征的方式相同，本实施例将以确定种子用户的员工行为特征为例进行说明。

例如，对于每一种子用户，计算意图词语包中每一词语与该种子用户的员工行为数据之间的相似度系数；根据相似度系数与第四设定阈值，从意图词语包中确定该种子用户的员工意图词语表，例如可以将相似度系数大于第四设定阈值的意图词语的集合作为该种子用户的员工意图词语表；之后，可以利用预先训练好的word2vec模型对该种子用户的员工意图词语表中词语进行向量化，得到每个词语的语义向量。进而可以直接将该种子用户的员工意图词语表中每个词语的语义向量，按照设定格式进行拼接，得到该种子用户的员工行为特征；或者，可以对各词语的语义向量进行平均，将平均向量作为该种子用户的员工行为特征。

S305，根据种子用户的工商特征、基本行为特征和员工行为特征，确定种子用户特征。

例如，对于每一种子用户，可以按照设定拼接方式，直接对该种子用户的工商特征、基本行为特征和员工行为特征进行拼接处理，得到该种子用户特征。

S306，根据至少两个待挖掘用户的工商特征、基本行为特征和员工行为特征，确定至少两个待挖掘用户特征。

例如，对于每一待挖掘用户，可以按照设定拼接方式，直接对该待挖掘用户的工商特征、基本行为特征和员工行为特征进行拼接处理，得到该待挖掘用户特征。

S307，根据至少两个待挖掘用户特征与种子用户特征之间的距离，从至少两个待挖掘用户中确定目标企业的待开发用户。

本申请实施例的技术方案，通过对用户的行为数据进行细粒度划分，引入基本行为数据和员工行为数据，进一步扩大了用户特征的覆盖面，为提升目标企业的待开发用户的准确率奠定了基础。进而通过根据目标企业的意图词语包，结合多种数据源数据对种子用户和待挖掘用户进行表征，能够使用户特征覆盖面广，极大地提高了目标企业的待开发用户的召回率和准确率。

图4是根据本申请实施例提供的一种用户数据处理过程示意图。本实施例在上述实施例基础上，提供了一种优选实例，涉及模型训练过程。如图4所示，具体过程如下：

本实施例中可以采用任一企业的意图词语和种子用户训练模型。例如目标企业可根据可视化界面中提示信息输入相关参数，如企业标识、意图词语和种子用户标识等。进而本实施例从可视化界面中获取企业输入的意图词语，并对意图词语进行同义扩展得到目标企业的意图词语包；同时，根据种子用户标识，从企业库中获取种子用户信息；之后，可以根据目标企业的意图词语包和种子用户信息，确定目标企业的种子用户特征。其中，每一种子用户特征可以由该种子用户的工商特征、基本行为特征和员工行为特征构成。可选的，所有种子用户特征组成的集合为种子用户特征集。

与此同时，可以采用负采样方式，随机从企业库中选取一批用户作为负采样用户，并可以根据目标企业的意图词语包和负采样用户信息确定负采样用户特征。其中，每一负采样用户特征可以由该负采样用户的工商特征、基本行为特征和员工行为特征构成。可选的，所有负采样用户特征组成的集合为负采样特征集。

为了提高样本丰富度，可以成对构造样本，获取正负样本。例如，可以按照设定比例(例如8:1:1)，将种子用户和负采样用户随机划分为训练集、验证集和测试集；之后将各个集合的企业两两成对，并将种子用户与种子用户构成正样本，负采样用户和负采样用户构成正样本，负采样用户和种子用户构成负样本。

之后，采用所构造样本训练神经网络模型，得到商机感知模型。具体为：模型训练时，分批输入训练集，利用对比损失函数计算损失，通过反向传播算法进行梯度回传，反复迭代；之后利用构造的验证集在模型训练过程保存最佳的模型参数，最后通过测试集验证整个模型的效果。

需要说明的是，本实施例，采用神经网络模型代替人工筛选方式，节省了人力资源；同时采用负采样方式，随机获取负采样用户，提升了模型的准确率；此外采用成对样本输入方式，两两配对，极大丰富了样本，进而使模型训练更加充分。

进而，任一企业(如目标企业)在具有开发新用户需求时，可根据可视化界面中提示信息输入相关参数，如企业标识、意图词语和种子用户标识等，并提交，进而触发产生待开发用户挖掘请求。本实施例响应于企业的待开发用户挖掘请求，确定该企业的意图词语包，以及确定该企业的种子用户特征；对于企业库中每一待挖掘用户，可以根据该企业的意图词语包和该待挖掘用户信息，确定该待挖掘用户特征；将该待挖掘用户特征与每一种子用户特征构成企业对，一并输入预先训练好的商机感知模型中，得到相似度向量；之后可以对相似度向量进行求和或求平均等，以得到该待挖掘用户的意图分数；最后将意图分数大于设定数值的用户作为该企业的待开发用户。

图5是根据本申请实施例提供的一种用户数据处理装置的结构示意图。本申请实施例适用于如何对企业的用户数据进行处理，以帮助企业快速挖掘出待开发用户的情况。该装置可实现本申请任意实施例所述的用户数据处理方法。该装置可集成于承载用户数据处理功能的电子设备中。该用户数据处理装置500具体包括：

信息获取模块501，用于获取目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息。

特征确定模块502，用于根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定目标企业的种子用户特征和至少两个待挖掘用户特征；

开发模块503，用于根据至少两个待挖掘用户特征与种子用户特征之间的距离，从至少两个待挖掘用户中确定目标企业的待开发用户。

示例性的，本实施例中目标企业的种子用户信息包括：种子用户的工商属性信息和行为数据；目标企业的待挖掘用户信息包括：待挖掘用户的工商属性信息和行为数据。

特征确定模块502包括：

工商特征确定单元，用于根据种子用户的工商属性信息和至少两个待挖掘用户的工商属性信息，分别确定种子用户的工商特征和至少两个待挖掘用户的工商特征；

行为特征确定单元，用于根据意图词语包、种子用户的行为数据和至少两个待挖掘用户的行为数据，确定种子用户的行为特征和至少两个待挖掘用户的行为特征；

种子特征确定单元，用于根据种子用户的工商特征和行为特征，确定种子用户特征；

待挖掘特征确定单元，用于根据至少两个待挖掘用户的工商特征和行为特征，确定至少两个待挖掘用户特征。

示例性的，行为特征确定单元具体用于：

根据意图词语包中词语与种子用户的行为数据之间的距离，从意图词语包中确定种子用户的意图词语表；

根据意图词语包中词语与至少两个待挖掘用户的行为数据之间的距离，从意图词语包中确定至少两个待挖掘用户的意图词语表；

根据种子用户的意图词语表和至少两个待挖掘用户的意图词语表，分别确定种子用户的行为特征和至少两个待挖掘用户的行为特征。

示例性的，种子用户的行为数据包括种子用户的基本行为数据和员工行为数据，待挖掘用户的行为数据包括待挖掘用户的基本行为数据和员工行为数据；

相应地，上述装置还可以包括：

信息获取单元，用于根据种子用户的公开信息，获取种子用户的员工画像和员工搜索行为数据；

信息获取单元，还用于根据至少两个待挖掘用户的公开信息，获取至少两个待挖掘用户的员工画像和员工搜索行为数据；

员工数据获取单元，用于根据种子用户的员工画像和员工搜索行为数据，以及至少两个待挖掘用户的员工画像和员工搜索行为数据，分别得到种子用户的员工行为数据和至少两个待挖掘用户的员工行为数据。

示例性的，开发模块503具体用于：

根据至少两个待挖掘用户特征与种子用户特征之间的距离，确定至少两个待挖掘用户的意图分数；

根据意图分数，从至少两个待挖掘用户中确定目标企业的待开发用户。

示例性的，信息获取模块501具体可以用于：

根据目标企业输入的意图词语，进行同义扩展，得到目标企业的意图词语包。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用户数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用户数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用户数据处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用户数据处理方法对应的程序指令/模块(例如，附图5所示的信息获取模块501、特征确定模块502和开发模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用户数据处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用户数据处理方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用户数据处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用户数据处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用户数据处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，通过根据目标企业的意图词语包，结合目标企业的种子用户信息和多个待挖掘用户信息，能够确定目标企业的待开发用户。解决了目前帮助企业快速挖掘待开发用户的方案存在人力成本高以及准确率低下等问题，提供了一种对企业的用户数据进行处理的方案，能够精准、高效且低成本帮助企业挖掘待开发用户，以帮助企业提升销售效率和提高营收等，进而提升企业的竞争力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用户数据处理方法，包括：

2.根据权利要求1所述的方法，其中，所述目标企业的种子用户信息包括：种子用户的工商属性信息和行为数据；所述目标企业的待挖掘用户信息包括：待挖掘用户的工商属性信息和行为数据；

所述根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定所述目标企业的种子用户特征和至少两个待挖掘用户特征，包括：

根据所述种子用户的工商属性信息和至少两个待挖掘用户的工商属性信息，分别确定所述种子用户的工商特征和至少两个待挖掘用户的工商特征；

根据所述意图词语包、种子用户的行为数据和至少两个待挖掘用户的行为数据，确定所述种子用户的行为特征和至少两个待挖掘用户的行为特征；

根据所述种子用户的工商特征和行为特征，确定所述种子用户特征；

根据所述至少两个待挖掘用户的工商特征和行为特征，确定所述至少两个待挖掘用户特征。

3.根据权利要求2所述的方法，其中，所述根据所述意图词语包、种子用户的行为数据和至少两个待挖掘用户的行为数据，确定所述种子用户的行为特征和至少两个待挖掘用户的行为特征，包括：

根据所述意图词语包中词语与所述种子用户的行为数据之间的距离，从所述意图词语包中确定所述种子用户的意图词语表；

根据所述意图词语包中词语与所述至少两个待挖掘用户的行为数据之间的距离，从所述意图词语包中确定所述至少两个待挖掘用户的意图词语表；

根据所述种子用户的意图词语表和至少两个待挖掘用户的意图词语表，分别确定所述种子用户的行为特征和至少两个待挖掘用户的行为特征。

4.根据权利要求2所述的方法，其中，所述种子用户的行为数据包括所述种子用户的基本行为数据和员工行为数据，待挖掘用户的行为数据包括待挖掘用户的基本行为数据和员工行为数据；

所述根据所述意图词语包、种子用户的行为数据和至少两个待挖掘用户的行为数据，确定所述种子用户的行为特征和至少两个待挖掘用户的行为特征之前，还包括：

根据所述种子用户的公开信息，获取所述种子用户的员工画像和员工搜索行为数据；

根据所述至少两个待挖掘用户的公开信息，获取所述至少两个待挖掘用户的员工画像和员工搜索行为数据；

根据所述种子用户的员工画像和员工搜索行为数据，以及所述至少两个待挖掘用户的员工画像和员工搜索行为数据，分别得到所述种子用户的员工行为数据和至少两个待挖掘用户的员工行为数据。

5.根据权利要求1所述的方法，其中，所述根据所述至少两个待挖掘用户特征与所述种子用户特征之间的距离，从至少两个待挖掘用户中确定所述目标企业的待开发用户，包括：

根据所述至少两个待挖掘用户特征与所述种子用户特征之间的距离，确定所述至少两个待挖掘用户的意图分数；

根据所述意图分数，从所述至少两个待挖掘用户中确定所述目标企业的待开发用户。

6.根据权利要求1所述的方法，其中，所述获取目标企业的意图词语包，包括：

根据所述目标企业输入的意图词语，进行同义扩展，得到所述目标企业的意图词语包。

7.一种用户数据处理装置，包括：

特征确定模块，用于根据目标企业的意图词语包、种子用户信息和至少两个待挖掘用户信息，确定所述目标企业的种子用户特征和至少两个待挖掘用户特征；

8.根据权利要求7所述的装置，其中，所述目标企业的种子用户信息包括：种子用户的工商属性信息和行为数据；所述目标企业的待挖掘用户信息包括：待挖掘用户的工商属性信息和行为数据；

所述特征确定模块包括：

工商特征确定单元，用于根据所述种子用户的工商属性信息和至少两个待挖掘用户的工商属性信息，分别确定所述种子用户的工商特征和至少两个待挖掘用户的工商特征；

行为特征确定单元，用于根据所述意图词语包、种子用户的行为数据和至少两个待挖掘用户的行为数据，确定所述种子用户的行为特征和至少两个待挖掘用户的行为特征；

种子特征确定单元，用于根据所述种子用户的工商特征和行为特征，确定所述种子用户特征；

待挖掘特征确定单元，用于根据所述至少两个待挖掘用户的工商特征和行为特征，确定所述至少两个待挖掘用户特征。

9.根据权利要求8所述的装置，其中，所述行为特征确定单元具体用于：

10.根据权利要求8所述的装置，其中，所述种子用户的行为数据包括所述种子用户的基本行为数据和员工行为数据，待挖掘用户的行为数据包括待挖掘用户的基本行为数据和员工行为数据；

所述装置还包括：

信息获取单元，用于根据所述种子用户的公开信息，获取所述种子用户的员工画像和员工搜索行为数据；

所述信息获取单元，还用于根据所述至少两个待挖掘用户的公开信息，获取所述至少两个待挖掘用户的员工画像和员工搜索行为数据；

员工数据获取单元，用于根据所述种子用户的员工画像和员工搜索行为数据，以及所述至少两个待挖掘用户的员工画像和员工搜索行为数据，分别得到所述种子用户的员工行为数据和至少两个待挖掘用户的员工行为数据。

11.根据权利要求7所述的装置，其中，所述开发模块具体用于：

12.根据权利要求7所述的装置，其中，所述信息获取模块具体用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的用户数据处理方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的用户数据处理方法。