CN110502637B

CN110502637B - 一种基于异构信息网络的信息处理方法和信息处理装置

Info

Publication number: CN110502637B
Application number: CN201910798119.0A
Authority: CN
Inventors: 黄楷; 王千; 陈羲
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-03-01
Anticipated expiration: 2039-08-27
Also published as: CN110502637A

Abstract

本申请提供了一种基于异构信息网络的信息处理方法和信息处理装置，其中，该方法包括：获取多个客户端分别发送的待处理文本信息；从多个待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息；基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径；其中，至少两个客户端包括在同一个目标特征维度下的第一目标特征信息；基于生成的至少一条游走路径，确定多个客户端分别对应的第二目标特征信息；第二目标特征信息用于表征不同客户端之间的关联程度；基于多个客户端分别对应的第二目标特征信息，确定多个客户端分别对应的聚类簇。本申请实施例基于异构信息网络，实现聚类，提高了服务器的处理效率。

Description

一种基于异构信息网络的信息处理方法和信息处理装置

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种基于异构信息网络的信息处理方法和信息处理装置。

背景技术

产品的运营团队通常会建立产品的会话群，用户会在会话群中讨论与上述产品相关的话题。基于每个用户在会话群中的文本信息对用户进行聚类，以便监控不同类别的用户情况。

目前，通常采用奇异值分解(Singular Value Decomposition，SVD)的方法，基于用户在会话群中的文本信息对用户进行聚类。在使用SVD方法进行聚类的过程中，通过矩阵保存多个用户的特征信息，并对上述矩阵进行奇异值分解，使矩阵的阶数降低，实现特征信息的压缩和去噪，以对用户进行聚类。

但是，当会话群内的用户、用户的会话内容较多时，采用SVD方法生成矩阵的阶数也会随之增高，进而增加了服务器的计算量，降低了服务器的处理效率。

发明内容

有鉴于此，本申请实施例的目的在于提供一种基于异构信息网络的信息处理方法和信息处理装置，基于不同客户端分别在各个目标特征维度下的第一目标特征信息构建的异构信息网络，对客户端聚类，无需进行复杂的矩阵运算，减小了服务器的计算量，提高了服务器的处理效率。

第一方面，本申请实施例提供了一种基于异构信息网络的信息处理方法，所述方法包括：

获取多个客户端分别发送的待处理文本信息；

从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息；

基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径；其中，所述至少两个客户端包括在同一个目标特征维度下的第一目标特征信息；

基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息；所述第二目标特征信息用于表征不同客户端之间的关联程度；

基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇。

在一种可选的实施方式中，所述基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇之后，包括：

根据多个所述客户端分别对应的聚类簇，确定包括的客户端的个数小于第一阈值的第一目标聚类簇；

基于所述第一目标聚类簇中的客户端分别在每个目标特征维度下的第一目标特征信息，确定所述第一目标聚类簇中的客户端的属性类别；

基于所述第一目标聚类簇中的客户端的属性类别，确定与所述属性类别匹配的针对所述第一目标聚类簇中的客户端的第一推送信息。

在一种可选的实施方式中，所述基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇之后，还包括：

根据多个所述客户端分别对应的聚类簇，确定包括的客户端的个数大于第二阈值的第二目标聚类簇；

针对每一第二目标聚类簇，根据该第二目标聚类簇中的客户端分别在每个目标特征维度下的第一目标特征信息，确定所述第二目标聚类簇对应的兴趣类别；

获取所述兴趣类别对应的第二推送信息，并将所述第二推送信息推送给该第二目标聚类簇对应的每一个客户端。

在一种可选的实施方式中，所述从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息，包括：

针对每一个待处理文本信息，将该待处理文本信息进行分词处理，并提取该待处理文本信息中各个分词分别对应的分词特征；

基于所述分词特征，从该待处理文本信息对应的分词中选取匹配第一目标词性的第一目标分词，并将所述第一目标分词的分词特征与所述目标特征维度中的预设分词特征进行匹配；

选取匹配所述预设分词特征的第一目标分词，并将所述第一目标分词的分词特征作为匹配所述预设的目标特征维度的第一目标特征信息。

在一种可选的实施方式中，所述提取该待处理文本信息中各个分词分别对应的分词特征之后，还包括：

基于所述分词特征，从该待处理文本信息对应的分词中选取匹配第二目标词性的第二目标分词；

将所述第二目标分词所在的目标文本信息中的各个分词的分词特征分别输入至情感分析模型中，得到所述第二目标分词对应的情感类别；其中，所述待处理文本信息包括所述目标文本信息；

基于所述情感类别和所述第二目标分词对应的分词特征，确定匹配预设的目标特征维度的第一目标特征信息。

在一种可选的实施方式中，所述基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径，包括：

针对每一个待处理文本信息，生成该待处理文本信息对应的包括客户端的客户端信息、目标特征维度和第一目标特征信息的三元组信息；

基于多个待处理文本信息分别对应的三元组信息，构建异构信息网络；其中，所述异构信息网络中包括多条单链路，每条单链路中的第一节点对应所述客户端信息、第二节点对应所述第一目标特征信息，第一节点和第二节点之间的边对应所述目标特征维度；

基于所述异构信息网络，选取至少两个客户端包括在同一所述目标特征维度下的所述第一目标特征信息，生成至少一条游走路径。

在一种可选的实施方式中，所述基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息，包括：

将生成的所述至少一条游走路径输入至预测模型中，输出多个客户端分别对应的第二目标特征信息。

第二方面，本申请实施例提供了一种基于异构信息网络的信息处理装置，所述装置包括：

获取模块，用于获取多个客户端分别发送的待处理文本信息；

提取模块，用于从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息；

生成模块，用于基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径；其中，所述至少两个客户端包括在同一个目标特征维度下的第一目标特征信息；

第一确定模块，用于基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息；所述第二目标特征信息用于表征不同客户端之间的关联程度；

第二确定模块，用于基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面任一项所述的基于异构信息网络的信息处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的基于异构信息网络的信息处理方法的步骤。

本申请实施例提供的一种基于异构信息网络的信息处理方法和信息处理装置，通过对多个客户端分别发送的待处理文本信息进行特征提取，获取多个待处理文本信息中匹配预设的目标特征维度的第一目标特征信息，并基于提取的上述第一目标特征信息，生成包括不同客户端之间关联关系的至少一条游走路径，通过上述游走路径，确定多个客户端分别对应的第二目标特征信息；基于多个客户端分别对应的所述第二目标特征信息，确定多个所述客户端分别对应的聚类簇。这样，基于不同客户端分别在各个目标特征维度下的第一目标特征信息构建的异构信息网络的方式进行客户端的聚类，无需进行复杂的矩阵运算，减小了服务器的计算量，提高了服务器的处理效率。

另外，在本申请实施例中，基于情感分析模型的使用，可以获取带有客户端感情倾向的第一目标特征信息，获取的第一目标特征信息更丰富，基于上述第一目标特征信息对客户端聚类的结果更准确；依据上述对客户端聚类的结果，向客户端推送的产品信息更精准。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法的流程图；

图2示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法中，在异构信息网络中生成的游走路径的示意图；

图3示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法中，确定第一推送信息方法的流程图；

图4示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法中，确定第二推送信息方法的流程图；

图5示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法中，一种提取第一目标特征信息方法的流程图；

图6示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法中，另一种提取第一目标特征信息方法的流程图；

图7示出了本申请实施例所提供的一种基于异构信息网络的信息处理方法中，在异构信息网络中生成游走路径方法的流程图；

图8示出了本申请实施例所提供的一种基于异构信息网络的信息处理装置的示意图；

图9示出了本申请实施例所提供的一种电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在使用SVD方法进行聚类的过程中，自定义的特征有限，使得提取的特征有限，进而导致客户端聚类的结果准确度较低；并且，SVD是通过矩阵保存多个用户的特征信息，在进行聚类处理时，对上述矩阵进行奇异值分解，使矩阵的阶数降低，当会话群内的用户、用户的会话内容较多时，采用SVD方法生成矩阵的阶数也会随之增高，进而增加了服务器的计算量，降低了服务器的处理效率。

基于上述问题，本申请实施例提供了一种基于异构信息网络的信息处理方法和信息处理装置，基于不同客户端分别在各个目标特征维度下的第一目标特征信息构建的异构信息网络，对客户端进行聚类处理，无需进行复杂的矩阵运算，减小了服务器的计算量，提高了服务器的处理效率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为了便于对本实施例进行理解，首先对本申请实施例所公开的一种基于异构信息网络的信息处理方法和信息处理装置进行详细介绍。

参见图1所示，为本申请一实施例提供的基于异构信息网络的信息处理方法的流程图，所述方法可以应用于服务器，所述方法包括以下步骤：

S101、获取多个客户端分别发送的待处理文本信息。

在本申请实施例中，服务器中预先建立有会话群，会话群中包括多个客户端，会话群中的客户端可以在会话群中发送会话信息；其中，每个会话群都对应有话题，不同的会话群对应的话题不同；上述会话信息可以包括文本信息、图片信息、动图信息中的至少一种。

每个客户端在会话群中进行会话时，服务器实时监控每个客户端发送的文本信息，在监控到某一个客户端发送的文本信息后，将该文本信息作为对应于该客户端的待处理文本信息。

作为一种实施方式，服务器定期获取多个客户端分别发送的待处理文本信息；比如，服务器每天获取客户端分别发送的待处理文本信息，以便对客户端分别发送的待处理文本信息进行处理。

比如，当会话群中的客户端1发送文本信息1时，服务器获取该文本信息1作为客户端1对应的待处理文本信息1；当会话群中的客户端2发送文本信息2时，服务器获取该文本信息2作为客户端2的待处理文本信息2；直至服务器将在监控周期内获取的文本信息全部处理完成。

S102、从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息。

在本申请实施例中，针对每一个会话群的话题，预设与该话题相关的多个目标特征维度；针对每一个待处理文本信息，提取该待处理文本信息中与上述各个目标特征维度相匹配的第一目标特征信息。

比如，会话群的话题为购买化妆品，预设年龄、性别、居住地、皮肤状态、喜欢的产品、讨厌的产品等与该话题相关的多个目标特征维度；在该会话群中，针对客户端1发送的待处理文本信息1“我皮肤很白”，服务器提取出“皮肤状态”这一目标特征维度下的第一目标特征信息为“白”，得到三元组信息“客户端1-皮肤状态-白”；针对客户端2发送的待处理文本信息2“我讨厌使用爽肤水”，服务器提取出“用户态度”这一目标特征维度下的第一目标特征信息为“讨厌爽肤水”，得到三元组信息“客户端2-用户态度-讨厌爽肤水”。

S103、基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径；其中，所述至少两个客户端包括在同一个目标特征维度下的第一目标特征信息。

在本申请实施例中，针对每一待处理文本信息，该待处理文本信息对应的客户端信息、至少一个目标特征维度和每个目标特征维度对应的第一目标特征信息，组成该待处理文本信息对应的至少一个三元组信息；这样，多个待处理文本信息对应多个三元组信息。其中，客户端在被使用前，需要进行用户信息注册，这里，每一个客户端对应的客户端信息即该客户端预先注册的用户信息。

基于多个待处理文本信息对应的多个三元组信息，可以构建不同客户端分别在多个目标特征维度下的第一目标特征信息的异构信息网络。

其中，服务器中预先存储有选出的游走路径的条数和每条游走路径的节点数量。这里，上述节点数量至少大于3。基于上述异构信息网络，在该异构信息网络中选取包括至少两个客户端在同一个目标特征维度下的所述第一目标特征信息(即3个节点)的至少一条游走路径。

比如，服务器预先定义游走路径为5条，每条游走路径包括的节点数为4个，存储在异构信息网络中的三元组信息包括：“节点1客户端1-边1皮肤-节点2白”、“节点3客户端2-边2皮肤-节点4白”、“节点5客户端2-边3居住地-节点6北京”、“节点7客户端2-边4性别-节点8女”、“节点9客户端3-边5性别-节点10女”、“节点11客户端4-边6皮肤-节点12白”、“节点13客户端4-边7用户态度-节点14喜欢爽肤水”。如图2所示，基于上述异构信息网络中的三元组信息生成的游走路径包括：游走路径1：“节点1客户端1-边1皮肤-节点2(节点4)白-边2皮肤-节点3(节点5)客户端2-边3居住地-节点6北京”；游走路径2：“节点1客户端1-边1皮肤-节点2(节点4)白-边2皮肤-节点3(节点7)客户端2-边4性别-节点8女”；游走路径3：“节点6北京-边3居住地-节点5(节点7)客户端2-边4性别-节点8(节点10)女-边5性别-节点9客户端3”；游走路径4：“节点1客户端1-边1皮肤-节点2(节点12)白-边6皮肤-节点11(节点13)客户端4-边7用户态度-节点14喜欢爽肤水”；游走路径5：“节点11客户端4-边6皮肤-节点12(节点4)白-边2皮肤-节点3(节点5)客户端2-边3居住地-节点6北京”。

S104、基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息；所述第二目标特征信息用于表征不同客户端之间的关联程度。

在本申请实施例中，服务器中预先存储有预测模型，该预测模型中包括多个客户端对应的第二初始特征信息。将异构信息网络中的至少一条游走路径输入至预测模型中，对上述预测模型中的各个客户端对应的第二初始特征信息进行训练，得到多个客户端分别对应的第二目标特征信息。这里，第二目标特征信息是多维的特征向量。

作为一种实施方式，上述预测模型为Word2vec中的Skip-gram模型。

作为一种实施方式，服务器将定期获取的多个客户端分别发送的待处理文本信息对应的至少一条游走路径作为语料输入到预测模型中，通过预测模型学习多个客户端分别对应的第二目标特征信息。

比如，在本申请实施例中，将多个客户端在异构信息网络中生成的多条游走路径输入至预测模型中，得到预测结果，基于上述多条游走路径的预测第二目标特征信息与该预测结果存在的差异，调整该预测模型的参数，直至预测第二目标特征信息与该预测结果一致，停止对该预测模型的训练。

进一步，以调查对象包括五个客户端为例，基于上述五个客户端对应的待处理文本信息在异构信息网络中生成的若干条游走路径，将上述若干条游走路径输入至预测模型中，得到第二目标特征信息为(X₁、X₂、X₃、X₄、X₅)，其中，X_i(i＝1、2、3、4、5)代表每个客户端对应的第二目标特征信息，并且X_i＝(x₁、x₂、x₃……x_N、)，N为每个客户端对应的第二目标特征信息的维数。

S105、基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇。

在本申请实施例中，基于多个客户端分别对应的可聚类的第二目标特征信息，计算多个客户端分别对应的第二目标特征信息之间的相似度，将相似度大于预设阈值的客户端聚类成若干个簇；其中，每个簇内的客户端对应的目标特征维度重合度高，且针对相同的目标特征维度对应第一目标特征信息相似度高。

比如，存储在异构信息网络中的三元组信息包括：“客户端1-皮肤-白”、“客户端1-生活习惯-熬夜”、“客户端2-皮肤-白”、“客户端2-生活习惯-晚睡”、“客户端2-居住地-北京”、“客户端3-居住地-西安”、“客户端3-皮肤-干燥”、“客户端3-性别-女”、“客户端4-居住地-西安”、“客户端4-皮肤-干燥”、“客户端4-性别-女”、“客户端4-生活习惯-早睡”，基于上述三元组信息在异构信息网络中生成若干条游走路径，并将上述生成的若干条游走路径输入至预测模型，得到多个客户端分别对应的第二目标特征信息，在服务器中预设聚类簇数为两簇，基于上述每个客户端分别对应的第二目标特征信息，对上述客户端进行聚类处理，聚类结果为：客户端1与客户端2在第一簇内，客户端3与客户端4在第二簇内。上述聚类结果说明：客户端1与客户端2对应的目标特征维度重合度高，且针对相同的目标特征维度对应第一目标特征信息相似度高；客户端3与客户端4对应的目标特征维度重合度高，且针对相同的目标特征维度对应第一目标特征信息相似度高。

本申请实施例提供的基于异构信息网络的信息处理方法，基于不同客户端分别在各个目标特征维度下的第一目标特征信息构建的异构信息网络的方式进行客户端的聚类，无需进行复杂的矩阵运算，减小了服务器的计算量，提高了服务器的处理效率。

本申请实施例中，对异构信息网络中的客户端进行聚类后，得到多个聚类簇，服务器还可以基于每一个聚类簇的属性信息，向客户端发送推送信息，下面分别针对不同的聚类簇，对发送推送信息的方法进行说明：

第一，当聚类簇内包括的客户端数量较少时，该聚类簇内的客户端有可能是攻击型用户或活跃型用户，如图3所示，基于聚类簇内客户端的属性类别，确定向该聚类簇内客户端发送的第一推送信息，所述方法包括：

S301、根据多个所述客户端分别对应的聚类簇，确定包括的客户端的个数小于第一阈值的第一目标聚类簇。

在本申请实施例中，针对聚类得到的每一个聚类簇，获取该聚类簇包括的客户端的个数，将该聚类簇中客户端的个数与第一阈值进行比较，若小于上述第一阈值，则将该聚类簇标记为第一目标聚类簇；该第一阈值是基于异构信息网络中包括的互异的客户端的总数进行设置的。

S302、基于所述第一目标聚类簇中的客户端分别在每个目标特征维度下的第一目标特征信息，确定所述第一目标聚类簇中的客户端的属性类别。

在本申请实施例中，提取第一目标聚类簇内的客户端信息，获取每一个上述客户端信息的匹配目标特征维度的第一目标特征信息，并基于上述匹配目标特征维度的第一目标特征信息确定该聚类簇内客户端的属性类别。

作为一种实施方式，当第一目标聚类簇内包括的客户端是攻击型用户或活跃型用户时，提取上述第一目标聚类簇中的客户端，并获取上述客户端对应的匹配目标特征维度的第一目标特征信息，基于上述匹配目标特征维度的第一目标特征信息分别确定客户端对某一产品的情感类别；如果上述情感类别分析结果是不喜欢，则该客户端为攻击型用户，如果上述情感类别分析结果是喜欢，则该客户端为活跃型用户。

S303、基于所述第一目标聚类簇中的客户端的属性类别，确定与所述属性类别匹配的针对所述第一目标聚类簇中的客户端的第一推送信息。

在本申请实施例中，客户端的属性类别不同，向该客户端发送的第一推送信息也不同。

比如，当客户端为攻击型用户时，则向该客户端发送的第一推送信息为咨询消息；上述咨询消息包括但不限于对相关产品的用户体验、功能预期、合理建议等；当客户端为活跃型用户时，则向该客户端发送待推荐产品消息。上述待推荐产品消息包括但不限于相关产品的推送消息、推广合作消息等。

第二，当聚类簇内包括的客户端数量较多时，该聚类簇内的客户端对相关产品有相似的需求，如图4所示，基于聚类簇对应的兴趣类别，确定向该聚类簇内客户端发送的第二推送信息，所述方法包括：

S401、根据多个所述客户端分别对应的聚类簇，确定包括的客户端的个数大于第二阈值的第二目标聚类簇。

在本申请实施例中，针对聚类得到的每一个聚类簇，获取该聚类簇包括的客户端的个数，将该聚类簇中客户端的个数与第二阈值进行比较，若大于上述第二阈值，则将该聚类簇标记为第二目标聚类簇；该第二阈值是基于异构信息网络中包括的互异的客户端的总数进行设置的。

S402、针对每一第二目标聚类簇，根据该第二目标聚类簇中的客户端分别在每个目标特征维度下的第一目标特征信息，确定所述第二目标聚类簇对应的兴趣类别。

在本申请实施例中，提取第二目标聚类簇内的客户端信息，获取每一个上述客户端信息的匹配目标特征维度的第一目标特征信息，并基于上述匹配目标特征维度的第一目标特征信息确定该聚类簇的兴趣类别。

比如，服务器对客户端聚类后，得到若干个聚类簇，提取上述某一个聚类簇内包括的客户端信息：客户端1、客户端2、客户端3，并从异构信息网络中提取上述客户端分别对应的三元组信息：“客户端1-皮肤-干燥”、“客户端1-用户态度-喜欢国产品牌”、“客户端1-工资-高”、“客户端2-皮肤-干燥”、“客户端2-用户态度-讨厌假货”、“客户端2-工资-高”、“客户端2-居住地-北京”、“客户端3-皮肤-粗糙”、“客户端3-用户态度-喜欢国产品牌”、“客户端3-职业-企业高管”、“客户端3-居住地-北京”，基于上述每一个客户端的匹配目标特征维度的第一目标特征信息，确定该第二目标聚类簇对应的兴趣类别，这里，第二目标聚类簇对应的兴趣类别为高档保湿型国产化妆品。

每个簇内的客户端对应的目标特征维度重合度高，且针对相同的目标特征维度对应第一目标特征信息相似度高，即基于某一聚类簇内的部分客户端的匹配目标特征维度的第一目标特征信息，可以推测出该聚类簇的兴趣类别。

作为一种实施方式，当第二目标聚类簇包括的客户端的个数大于第三阈值时，按预设的比例抽取第二目标聚类簇内的客户端，基于抽取出的客户端确定该第二目标聚类簇对应的兴趣类别；上述第三阈值大于上述第二阈值并且该第三阈值是基于异构信息网络中包括的互异的客户端的总数进行设置的。

S403、获取所述兴趣类别对应的第二推送信息，并将所述第二推送信息推送给该第二目标聚类簇对应的每一个客户端。

在本申请实施例中，同一聚类簇内的客户端对产品有相似的需求，基于第二目标聚类簇的兴趣类别，确定针对该第二目标聚类簇内每一个客户端的第二推送信息，并将该第二推送信息发送给上述客户端。

比如，确定该第二目标聚类簇对应的兴趣类别为：高档保湿型国产化妆品，则向该第二目标聚类簇内的每一个客户端发送与高档保湿型国产化妆品相关的产品推送消息。

本申请实施例中，针对不同的待处理文本信息，从该待处理文本信息中提取第一目标特征信息的方式也不同，下面分别针对不同的待处理文本信息，对提取第一目标特征信息的方法进行说明：

第一，如图5所示提供了一种提取第一目标特征信息的方法，该方法包括：

S501、针对每一个待处理文本信息，将该待处理文本信息进行分词处理，并提取该待处理文本信息中各个分词分别对应的分词特征。

在本申请实施例中，服务器从待处理文本信息中提取分词，并提取上述分词的分词特征；上述分词特征包括词性特征和命名实体特征，其中，词性特征包括名词、形容词、动词、副词、代词、量词等词性。

比如，从客户端1发送的待处理文本信息1“我皮肤很白”中提取分词，分词提取的结果为：“我”、“皮肤”、“很”、“白”，再提取上述分词的分词特征，分词“我”、“皮肤”、“很”、“白”对应的词性特征分别为代词、名词、副词、形容词。

S502、基于所述分词特征，从该待处理文本信息对应的分词中选取匹配第一目标词性的第一目标分词，并将所述第一目标分词的分词特征与所述目标特征维度中的预设分词特征进行匹配。

S503、选取匹配所述预设分词特征的第一目标分词，并将所述第一目标分词的分词特征作为匹配所述预设的目标特征维度的第一目标特征信息。

在本申请实施例中，将从待处理文本信息中提取出的分词的分词特征与预设的第一目标词性匹配，获取与上述第一目标词性相匹配的分词，作为第一目标分词，将上述第一目标分词与预设分词特征匹配，获取与上述预设分词特征相匹配的第一目标分词的分词特征，作为第一目标特征信息。

比如，基于目标特征维度“皮肤状态”，预设匹配“皮肤状态”的第一目标特征信息的第一目标词性为形容词和名词，并预设匹配“皮肤状态”的第一目标特征信息的预设分词特征为“黑”、“白”、“光滑”、“粗糙”、“斑”、“敏感”、“干性”、“油性”，将从待处理文本信息1“我皮肤很白”中提取出的分词“我”、“皮肤”、“很”、“白”对应的词性特征代词、名词、副词、形容词分别与第一目标词性形容词、名词匹配，匹配结果为：分词“皮肤”、“白”对应的词性特征名词、形容词与第一目标词性匹配成功，将第一目标分词“皮肤”、“白”的分词特征与预设分词特征“黑”、“白”、“光滑”、“粗糙”、“斑”、“敏感”、“干性”、“油性”分别匹配，匹配结果为：分词“白”对应的命名实体特征与预设分词特征匹配成功，分词“白”为匹配“皮肤状态”的第一目标特征信息，得到三元组信息“客户端1-皮肤状态-白”。

第二，基于情感分析模型的使用，能够获取带有客户端感情倾向的第一目标特征信息，如图6所示提供了一种提取带有客户端感情倾向的第一目标特征信息的方法，该方法包括：

S601、基于所述分词特征，从该待处理文本信息对应的分词中选取匹配第二目标词性的第二目标分词。

在本申请实施例中，将从待处理文本信息中提取出的分词的分词特征与预设的第二目标词性匹配，获取与上述第二目标词性相匹配的分词，作为第二目标分词；上述分词特征包括词性特征和命名实体特征。

比如，针对预设的目标特征维度“用户态度”，从客户端1发送的待处理文本信息1“我觉得卸妆膏不好用”中提取分词，分词提取的结果为：“我”、“觉得”、“卸妆膏”、“不好用”，提取上述分词对应的词性特征，依次为：代词、动词、名词、形容词，将上述分词的词性特征分别与预设的第二目标词性-名词匹配，匹配结果为：分词“卸妆膏”对应的词性特征与第二目标词性匹配成功，上述“卸妆膏”作为第二目标分词。

S602、将所述第二目标分词所在的目标文本信息中的各个分词的分词特征分别输入至情感分析模型中，得到所述第二目标分词对应的情感类别；其中，所述待处理文本信息包括所述目标文本信息。

在本申请实施例中，将上述第二目标分词所在的目标文本信息中分词的分词特征输入至情感分析模型中，得到上述带有客户端感情倾向的第二目标分词的情感类别；情感分析模型基于输入的分词的词性特征和命名实体特征输出上述分词对应的情感类别；目标文本信息可以是待处理文本信息的一部分内容，比如，待处理文本信息为“我是北方人，皮肤有点干燥，我喜欢护肤霜”，基于上述待处理文本信息，获取第二目标分词“护肤霜”，对应该第二目标分词的目标文本信息为“我喜欢护肤霜”；目标文本信息还可以是待处理文本信息的全部内容，比如，待处理文本信息为“我喜欢护肤霜”，基于上述待处理文本信息，获取第二目标分词“护肤霜”，对应该第二目标分词的目标文本信息为“我喜欢护肤霜”。

比如，基于客户端1发送的待处理文本信息“我每天都卸妆，我觉得卸妆膏不好用”，提取出匹配第二目标词性的第二目标分词“卸妆膏”，获取第二目标分词“卸妆膏”所在的目标文本信息“我觉得卸妆膏不好用”中的各个分词，获取结果为：“我”、“觉得”、“卸妆膏”、“不好用”，将获取的分词“我”、“觉得”、“卸妆膏”、“不好用”的词性特征和命名实体特征输入情感分析模型中，得到上述第二目标分词“卸妆膏”对应的情感类别，这里，基于分词“我”、“觉得”、“卸妆膏”、“不好用”，情感分析模型输出的情感类别为“讨厌”，则客户端1对“卸妆膏”的情感类别为“讨厌”。

S603、基于所述情感类别和所述第二目标分词对应的分词特征，确定匹配预设的目标特征维度的第一目标特征信息。

在本申请实施例中，将从待处理文本信息中提取出的第二目标分词对应的分词特征与情感分析模型输出的客户端对上述第二目标分词的情感类别，作为匹配预设的目标特征维度的第一目标特征信息，这里预设的目标特征维度通常为“用户态度”。

比如，从待处理文本信息“我每天都卸妆，我觉得卸妆膏不好用”中提取出的第二目标分词为“卸妆膏”，情感分析模型输出的客户端对“卸妆膏”的情感类别为“讨厌”，则第二目标分词“卸妆膏”对应的分词特征与情感类别“讨厌”共同作为第一目标特征信息，第一目标特征信息为“讨厌卸妆膏”。

在本申请实施例中，基于情感分析模型的使用，可以获取带有客户端感情倾向的第一目标特征信息，获取的第一目标特征信息更丰富，基于上述第一目标特征信息对客户端聚类的结果更准确。

本申请实施例中，从待处理文本信息中获取第一目标特征信息，将上述获取的第一目标特征信息与对应的客户端信息、目标特征维度信息以三元组信息的形式保存在异构信息网络中，并在异构信息网络中基于上述三元组信息生成多条游走路径，如图7所示，提供了一种在异构信息网络中生成游走路径的方法，该方法包括：

S701、针对每一个待处理文本信息，生成该待处理文本信息对应的包括客户端的客户端信息、目标特征维度和第一目标特征信息的三元组信息。

在本申请实施例中，基于预设的目标特征维度，提取每一个待处理文本信息中匹配上述目标特征维度的第一目标特征信息，提取出的第一目标特征信息与匹配的目标特征维度、客户端信息共同组成三元组信息。

S702、基于多个待处理文本信息分别对应的三元组信息，构建异构信息网络；其中，所述异构信息网络中包括多条单链路，每条单链路中的第一节点对应所述客户端信息、第二节点对应所述第一目标特征信息，第一节点和第二节点之间的边对应所述目标特征维度。

在本申请实施例中，基于多个客户端发送的多条待处理文本信息，从上述待处理文本信息中获取多个三元组信息，获取的三元组信息以单链路的结构存储在异构信息网络中，三元组信息的三个组分客户端信息、目标特征维度、第一目标特征信息分别对应单链路结构中的第一节点、边、第二节点。

比如，从待处理文本信息中获取三元组信息“客户端1-皮肤-白”，将该三元组信息以单链路1的结构存储在异构信息网络中，“客户端1”对应单链路1的第一节点，“白”对应单链路1的第二节点，第一节点与第二节点之间的边对应目标特征维度“皮肤”。

S703、基于所述异构信息网络，选取至少两个客户端包括在同一所述目标特征维度下的所述第一目标特征信息，生成至少一条游走路径。

在本申请实施例中，一个三元组信息在异构信息网络中对应一个单链路，多个三元组信息在异构信息网络中对应多个单链路。如果多个单链路的第一节点对应的客户端信息相同，则将上述多个第一节点连接；如果多个单链路的边对应同一个目标特征维度，且多个单链路的第二节点对应的第一目标特征信息相同，则将上述多个第二节点连接。基于单链路中连接的节点，在异构信息网络中生成多条游走路径。这里，在生成游走路径前，预设异构信息网络中生成的游走路径的总条数，预设每一条游走路径包括的节点个数，游走路径包括的节点个数至少为三个。

比如，在异构信息网路中存储：单链路1“节点1客户端1-边1皮肤-节点2白”、单链路2“节点3客户端2-边2皮肤-节点4白”，单链路1与单链路2对应相同的目标特征维度“皮肤”，且单链路1与单链路2匹配目标特征维度“皮肤”的第一目标特征信息相同，节点2与节点4连接，生成一条游走路径，该游走路径为：“节点1客户端1-边1皮肤-节点2(节点4)白-边2皮肤-节点3客户端2”。

本申请实施例中，基于异构信息网络中的多个单链路生成至少一条游走路径，上述游走路径将具有同一目标特征维度对应的同一第一目标特征信息的客户端连接，便于预测模型生成表征不同客户端之间的关联程度的第二目标特征信息。

基于同一发明构思，本申请实施例中还提供了与一种基于异构信息网络的信息处理方法对应的一种基于异构信息网络的信息处理装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述一种基于异构信息网络的信息处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图8所示，本申请实施例还提供了一种基于异构信息网络的信息处理装置，所述信息处理装置800包括：

获取模块801，用于获取多个客户端分别发送的待处理文本信息；

提取模块802，用于从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息；

生成模块803，用于基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径；其中，所述至少两个客户端包括在同一个目标特征维度下的第一目标特征信息；

第一确定模块804，用于基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息；所述第二目标特征信息用于表征不同客户端之间的关联程度；

第二确定模块805，用于基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇。

在一种可能的实施方式中，上述基于异构信息网络的信息处理装置还包括：

第三确定模块，用于根据多个所述客户端分别对应的聚类簇，确定包括的客户端的个数小于第一阈值的第一目标聚类簇；

第四确定模块，用于基于所述第一目标聚类簇中的客户端分别在每个目标特征维度下的第一目标特征信息，确定所述第一目标聚类簇中的客户端的属性类别；

第五确定模块，用于基于所述第一目标聚类簇中的客户端的属性类别，确定与所述属性类别匹配的针对所述第一目标聚类簇中的客户端的第一推送信息。

第六确定模块，用于根据多个所述客户端分别对应的聚类簇，确定包括的客户端的个数大于第二阈值的第二目标聚类簇；

第七确定模块，用于针对每一第二目标聚类簇，根据该第二目标聚类簇中的客户端分别在每个目标特征维度下的第一目标特征信息，确定所述第二目标聚类簇对应的兴趣类别；

推送模块，用于获取所述兴趣类别对应的第二推送信息，并将所述第二推送信息推送给该第二目标聚类簇对应的每一个客户端。

在一种可能的实施方式中，提取模块802，在从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息时，包括：

在一种可能的实施方式中，提取模块802，在针对每一个待处理文本信息，将该待处理文本信息进行分词处理，并提取该待处理文本信息中各个分词分别对应的分词特征之后，包括：

在一种可能的实施方式中，生成模块803，在基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径时，包括：

在一种可能的实施方式中，第一确定模块804，在基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息时，包括：

如图9所示，本申请实施例提供的一种电子设备900，包括：处理器901、存储器902和总线，所述存储器902存储有所述处理器901可执行的机器可读指令，当电子设备运行时，所述处理器901与所述存储器902之间通过总线通信，所述处理器901执行所述机器可读指令，以执行如上述基于异构信息网络的信息处理方法的步骤。

具体地，上述存储器902和处理器901能够为通用的存储器和处理器，这里不做具体限定，当处理器901运行存储器902存储的计算机程序时，能够执行上述基于异构信息网络的信息处理方法。

对应于上述基于异构信息网络的信息处理方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述基于异构信息网络的信息处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于异构信息网络的信息处理方法，其特征在于，包括：

获取多个客户端分别发送的待处理文本信息；

基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇；

其中，所述基于至少两个客户端分别在每个目标特征维度下的第一目标特征信息，生成至少一条游走路径，包括：

2.根据权利要求1所述的基于异构信息网络的信息处理方法，其特征在于，所述基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇之后，所述方法还包括：

3.根据权利要求1所述的基于异构信息网络的信息处理方法，其特征在于，所述基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇之后，所述方法还包括：

4.根据权利要求1所述的基于异构信息网络的信息处理方法，其特征在于，所述从多个所述待处理文本信息中分别提取匹配预设的目标特征维度的第一目标特征信息，包括：

5.根据权利要求4所述的基于异构信息网络的信息处理方法，其特征在于，所述提取该待处理文本信息中各个分词分别对应的分词特征之后，所述方法还包括：

6.根据权利要求1所述的基于异构信息网络的信息处理方法，其特征在于，所述基于生成的所述至少一条游走路径，确定多个客户端分别对应的第二目标特征信息，包括：

7.一种基于异构信息网络的信息处理装置，其特征在于，包括：

第二确定模块，用于基于多个客户端分别对应的第二目标特征信息，确定多个所述客户端分别对应的聚类簇；

其中，生成模块，还用于针对每一个待处理文本信息，生成该待处理文本信息对应的包括客户端的客户端信息、目标特征维度和第一目标特征信息的三元组信息；

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的基于异构信息网络的信息处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的基于异构信息网络的信息处理方法的步骤。