CN111667029A

CN111667029A - 一种聚类方法、装置、设备及存储介质

Info

Publication number: CN111667029A
Application number: CN202010657194.8A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-09-15
Anticipated expiration: 2040-07-09
Also published as: CN111667029B

Abstract

本申请实施例公开一种聚类方法、装置、设备及存储介质，在针对问答平台上的提问方进行群体划分时，获取问答平台上的问答数据，问答数据中包括提出问题的提问方标识和回答问题的回答方标识。针对每个提问方，根据提问方标识和回答方标识的对应关系，确定提问方的提问行为特征，进而根据每个提问方的提问行为特征，提问行为特征通过回答提问方提出的问题的回答方集合来体现，不同提问方所关心的细分方面可能不同，且不同回答方擅长的细分方面也不同，根据这样的提问行为特征确定出的提问行为相似度可以对提问方进行聚类，得到目标数量的提问方群体类簇，实现提问方的细粒度划分。另外，该方法不以对象的类型为划分依据，可以避免难以分类的问题。

Description

一种聚类方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域，特别是涉及一种聚类方法、装置、设备及存储介质。

背景技术

随着互联网医疗的长足发展，各种在线医疗问答社区越来越受到患者的广泛欢迎，例如“寻医问药”和“丁香园”等。随着患者越来越多，平台方有必要通过技术手段将患有类似病症的患者进行自动聚类，以便建立特定类型患者子社区，或者进一步对相似患者做一些特定的推荐服务等。

相关技术中，对患者聚类的方法往往是通过分类模型识别患者提出的问题所属的疾病类型，然后按疾病对患者进行群体划分即聚类。

然而，现实中一个患者往往患有或者对多种疾病感兴趣，另外即使同一个疾病，不同患者所关心的细分方面也有很大不同。这就导致相关技术对患者群划分上粒度过粗，且可能那些具有多种综合疾病的患者往往无法被划分在某个疾病类别中。

发明内容

为了解决上述技术问题，本申请提供了一种聚类方法、装置、设备及存储介质，可以实现提问方的细粒度划分。另外，由于该方法并不以问题中所涉及对象(例如疾病)的类型为划分依据，故对于具有多种综合疾病的提问方，仍然可以根据回答提问方提出的问题的回答方集合将该提问方划分在某个提问方群体类簇中，避免难以分类的问题。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种聚类方法，所述方法包括：

获取问答平台上的问答数据，所述问答数据中包括提出问题的提问方标识和回答问题的回答方标识；

针对每个提问方，根据所述提问方标识和所述回答方标识的对应关系，确定所述提问方的提问行为特征，所述提问行为特征通过回答所述提问方提出的问题的回答方集合来体现；

根据每个所述提问方的提问行为特征，确定任意两个所述提问方之间的提问行为相似度；

根据所述提问行为相似度对所述提问方进行聚类，得到目标数量的提问方群体类簇。

第二方面，本申请实施例提供一种聚类装置，所述装置包括获取单元、第一确定单元、第二确定单元和聚类单元：

所述获取单元，用于获取问答平台上的问答数据，所述问答数据中包括提出问题的提问方标识和回答问题的回答方标识；

所述第一确定单元，用于针对每个提问方，根据所述提问方标识和所述回答方标识的对应关系，确定所述提问方的提问行为特征，所述提问行为特征通过回答所述提问方提出的问题的回答方集合来体现；

所述第二确定单元，用于根据每个所述提问方的提问行为特征，确定任意两个所述提问方之间的提问行为相似度；

所述聚类单元，用于根据所述提问行为相似度对所述提问方进行聚类，得到目标数量的提问方群体类簇。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，在针对问答平台上的提问方进行群体划分时，获取问答平台上的问答数据，问答数据中包括提出问题的提问方标识和回答问题的回答方标识。针对每个提问方，根据提问方标识和回答方标识的对应关系，确定提问方的提问行为特征，进而根据每个提问方的提问行为特征，确定任意两个提问方之间的提问行为相似度。其中，提问行为特征通过回答提问方提出的问题的回答方集合来体现，由于一种疾病通常可以细分为多个方面，不同提问方所关心的细分方面可能不同，且不同回答方擅长的细分方面也不同，故回答提问方提出问题包括哪些回答方可以体现出提问方的提问行为特征。根据这样的提问行为特征确定出的提问行为相似度可以对提问方进行聚类，得到目标数量的提问方群体类簇，实现提问方的细粒度划分。另外，由于该方法并不以问题所涉及对象(例如疾病)的类型为划分依据，故对于具有多种综合疾病的提问方，仍然可以根据回答提问方提出的问题的回答方集合将该提问方划分在某个提问方群体类簇中，避免难以分类的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种聚类方法的系统架构示意图；

图2为本申请实施例提供的一种聚类方法的流程图；

图3为本申请实施例提供的患者提问区的界面示意图；

图4为本申请实施例提供的医生回复区的界面示意图；

图5为本申请实施例提供的根据问答数据构建的二部图的示意图；

图6为本申请实施例提供的基于K-means算法实现聚类的流程图；

图7为本申请实施例提供的聚类过程中样本点的变化情况示意图；

图8为本申请实施例提供的一种聚类方法的流程图；

图9为本申请实施例提供的一种聚类装置的结构图；

图10为本申请实施例提供一种终端设备的结构图；

图11为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了在在线问答社区中建立特定类型提问方子社区，或者进一步对相似提问方做一些特定的推荐服务等，通常需要对在线问答社区中的提问方进行分类。

然而，相关技术提供的提问方群划分方法，往往对提问方群划分上粒度过粗，且可能那些具有多种综合疾病的提问方往往无法被划分在某个类别中。

为了解决上述技术问题，本申请实施例提供一种聚类方法，该方法可以实现提问方的细粒度划分。同时，由于该方法并不以问题中所涉及对象例如疾病的类型为划分依据，故对于具有多种综合疾病的提问方，仍然可以根据回答提问方提出的问题的回答方集合将该提问方划分在某个提问方群体类簇中，避免难以分类的问题。

本申请实施例所提供的方法涉及到云技术领域，例如大数据(Big data)，大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

本申请实施例还可以涉及人工智能领域，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，可以涉及的人工智能技术包括自然语言处理(NatureLanguage processing，NLP)，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请例如涉及其中的语义理解(Semantic understanding)技术，本申请通过语义理解可以将问答数据转换成二部图。

在本申请实施例中，可以通过电子设备执行上述聚类方法，电子设备可以是服务器，也可以是终端设备。若电子设备为终端设备，则终端设备可以从服务器上获取问答平台上的问答数据，进而对提问方进行聚类，从而根据该聚类的结果向提问方推荐服务或构建提问方子社区；若电子设备为服务器，则服务器可以执行本申请实施例提供的方法，对提问方进行聚类，向终端设备返回该聚类的结果，从而由终端设备根据该聚类的结果向提问方推荐服务或构建提问方子社区。当然，电子设备也可以包括终端设备和服务器，二者配合完成上述聚类方法，本申请实施例对聚类方法的执行主体不做限定。

参见图1，图1为本申请实施例提供的聚类方法的系统架构示意图。该系统架构中包括终端设备101和服务器102，服务器102可以用于存储问答平台上产生的所有问答数据，用户通过终端设备101可以进入问答平台，若用户是提问方，则用户通过终端设备101可以在问答平台上提出问题，若用户是回答方，则用户通过终端设备101可以在问答平台上回答提问方提出的问题。其中，问答平台可以是医疗问答平台、学术问答平台等可以提出问题并获得回答的平台，若问答平台为医疗问答平台，通常提问方所提出的问题中涉及的对象可以疾病，此时提问方可以是但不限定于患者，回答方可以是但不限定于医生。本申请实施例对问答平台的类型、提问方以及回答方的身份不做限定，本申请实施例将主要以问答平台是医疗问答平台，提问方是患者，回答方是医生为例进行介绍。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备101以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例以终端设备101为执行主体对聚类方法进行介绍。终端设备101可以从服务器102获取问答平台上的问答数据，问答数据为提问方在问答平台上提出问题，回答方对提问方提出的问题进行回答时所产生的数据，问答数据中包括提出问题的提问方标识和回答问题的回答方标识，从而便于知晓每个提问方提出的问题由哪些回答方回答。

针对每个提问方，终端设备101根据提问方标识和回答方标识的对应关系，确定提问方的提问行为特征，提问行为特征通过回答提问方提出的问题的回答方集合来体现，即通过回答方集合中所包括的回答方可以确定提问方所关心的疾病的细分方面。

终端设备101根据每个提问方的提问行为特征，确定任意两个提问方之间的提问行为相似度。在医疗问答平台中，由于一种疾病通常可以细分为多个方面，不同提问方所关心的细分方面可能不同，且不同回答方擅长的细分方面也不同，故回答提问方提出问题包括哪些回答方可以体现出提问方的提问行为特征。终端设备101根据这样的提问行为特征确定出的提问行为相似度可以对提问方进行聚类，得到目标数量的提问方群体类簇，实现提问方的细粒度划分。同时，由于该方法并不以疾病类型为划分依据，故对于具有多种综合疾病的提问方，仍然可以根据回答提问方提出的问题的回答方集合将该提问方划分在某个提问方群体类簇中，避免难以分类的问题。

接下来，将以终端设备为执行主体，结合附图对本申请实施例提供的聚类方法进行详细介绍。

参见图2，图2示出了一种聚类方法的流程图，所述方法包括：

S201、获取问答平台上的问答数据。

其中，问答平台可以包括提问方提问区和回答方回复区，在医疗问答社区中，此时，提问方可以是患者，回答方可以是医生。患者提问区的界面可以参见图3所示，患者可以在患者提问区提出自己所关心的问题，例如患者A提出问题“我比较肥胖，21岁身高162体重155斤！通过检查血糖高了，请问在吃方面应该注意哪些，可以有效降血糖”；医生回复区的界面可以参见图4所示，该界面可以展示医生的头像、姓名、所在医院、职称(例如主治医师)、所在科室、所擅长疾病以及医生针对患者提出的问题做出的回答，例如医生针对患者A提出问题的回答“需要清淡饮食，限制高脂高热量食物，多吃青菜，适当运动，控制体重”等，其中可以包括多个医生的回复。

问答数据为提问方在问答平台上提出问题，回答方对提问方提出的问题进行回答时所产生的数据，终端设备可以获取问答数据，问答数据中包括提出问题的提问方标识和回答问题的回答方标识，从而便于知晓每个提问方提出的问题由哪些回答方回答。

S202、针对每个提问方，根据所述提问方标识和所述回答方标识的对应关系，确定所述提问方的提问行为特征。

在问答平台上提出问题的提问方有对应的提问方标识，回答问题的回答方有对应的回答方标识，根据问答平台上的问答数据，可以确定出提问方标识和回答方标识的对应关系，该对应关系可以反映出哪些回答方回答了哪些提问方的问题，故终端设备可以根据对应关系确定提问行为特征，提问行为特征通过回答所述提问方提出的问题的回答方集合来体现。

在一种可能的实施例中，为了清晰、明确的体现出回答方标识与提问方标识的对应关系，即体现出哪些回答方回答了哪些提问方提出的问题，在执行S202之前，终端设备可以根据问答数据构建二部图，该二部图用于体现提问方标识和回答方标识的对应关系。

如果一个提问方提出一个问题，被若干个回答方回答，则该提问方和这些回答方之间有一条边。那么对于多提问方-多回答方的平台问答关系来说，则会构成一个二部图。该二部图以提问方标识和回答方标识作为节点，节点之间的边表示回答方标识对应的回答方回答了提问方标识对应的提问方提出的问题，即二者具有对应关系。

参见图5所示，图5以提问方是患者，回答方是医生为例对二部图进行介绍。图5以患者的患者标识例如患者1、患者2、患者3，以及医生标识例如医生1、医生2、医生3作为节点，体现了患者1、2、3和医生1、2、3之间的对应关系。其中，患者1分别与医生1和医生3之间具有一条边，则说明医生1和医生3回答了患者1提出的问题，同理医生1回答了患者2提出的问题，医生2回答了患者3提出的问题。

在一种可能的实施例中，由于可以通过回答方集合用于体现提问行为特征，故S202的实现方式可以是针对每个提问方，根据对应关系，确定回答该提问方提出的问题的回答方集合，即确定出提问方的提问行为特征，体现了提问方所关心的对象的细分方面。

例如图5所示，针对患者1确定出的医生集合(即回答方集合)中包括医生1和医生3，针对患者2确定出的医生集合中包括医生1，针对患者3确定出的医生集合中包括医生2。

S203、根据每个所述提问方的提问行为特征，确定任意两个所述提问方之间的提问行为相似度。

终端设备可以根据提问行为特征，确定任意两个提问方之间的提问行为相似度，若任意两个提问方用患者1和患者2表示，则任意两个患者之间的问诊行为相似度可以表示为Similarity(患者1，患者2)

在一种可能的实施例中，若终端设备根据对应关系，确定回答该提问方提出的问题的回答方集合，那么，针对任意两个提问方例如第一提问方和第二提问方确定提问行为相似度的方式可以是终端设备根据第一提问方的回答方集合和第二提问方的回答方集合，确定共同回答方数，共同回答方数为第一提问方的回答方集合和第二提问方的回答方集合之间属于同一科室的共同回答方的数量。例如可以是第一提问方的回答方集合和第二提问方的回答方集合取交集。

通常情况下，两个提问方例如患者提出的问题被越多同一科室的共同医生回答越多，则意味着这两个提问方的相似度越高，即提问方的提问行为相似度越高，故终端设备可以根据共同回答方数确定第一提问方与第二提问方的提问行为相似度。通常情况下，第一提问方和第二提问方具有一个共同回答方，则共同回答方数加1，从而最终确定共同回答方数。

在本实施例中，可以将共同回答方数与回答方总数的比值确定为第一提问方与第二提问方的提问行为相似度。其中，回答方总数为第一提问方的回答方集合和第二提问方的回答方集合中所有回答方的数量。

此处，若第一提问方表示为患者1，第二提问方表示为患者2，则第一提问方与第二提问方之间的提问行为相似度的计算方法如下：

Similarity(患者1，患者2)＝共同回答方数/回答方总数

在问答平台上针对提问方提出的问题，可能存在大量回答方的回答，有些回答可能是用于解决提问方提出的问题，有些可能仅回答“不知道”，即使是用于解决提问方提出的问题的回答中，也可能存在一些不靠谱的回答，做出这些回答的回答方难以体现出提问方的实际提问行为，因此，在确定共同回答方数时需要将这些可能性考虑其中，以便确定出的共同回答方数能够较为准确的体现出提问方的提问行为，进而提高确定提问行为相似度的准确性。

由于回答方的回答是否靠谱可以通过提问方的反馈信息来体现，因此，终端设备可以获取第一提问方和第二提问方针对共同回答方中每个回答方的回答的反馈信息，根据反馈信息确定共同回答方中每个回答方的权重，这样，在确定提问行为相似度是，可以根据共同回答方数和共同回答方中每个回答方的权重计算第一提问方与第二提问方的提问行为相似度。

反馈信息可以包括是提问方的点赞数、是否被提问方采纳、回答质量的评价等，点赞数越多，被用户采纳、回答质量的评价较好，则认为回答方的权重越大。此时，在获取到共同回答方数后，还需要乘以每个回答方的权重，以计算提问行为相似度。

S204、根据所述提问行为相似度对所述提问方进行聚类，得到目标数量的提问方群体类簇。

本申请实施例可以通过多种算法实现聚类，例如K-means算法，也称为K-平均或者K-均值聚类算法，也可以用一些图聚类方法，如标签传播算法等。本申请实施例主要对K-means算法进行介绍。通过该方法，根据提问行为相似度对提问方进行聚类，得到目标数量的提问方群体类簇时，终端设备从提问方中选取所述目标数量个提问方作为聚类中心，其中，目标数量可以是预先设置的，聚类中心可以是随机选取的，然后根据提问行为相似度，确定每个提问方与各个聚类中心之间的距离，根据距离确定目标数量的提问方群体类簇，例如将提问方分配给与其距离最近的聚类中心，聚类中心及分配给该聚类中心的其他提问方代表一个提问方群体类簇。

在实际应用过程中，其实现过程可以参见图6所示，输入是样本集D＝{x₁,x₂,...x_m}，D为提问方的集合，x₁、x₂、...x_m分别表示每个提问方的提问方标识，最大迭代次数N。首先，设置目标数量(参见图6中S601)，目标数量例如为k，目标数量即待划分得到的提问方群体类簇的数目，目标数量为人工经验值(一般为几十到上百)，最大迭代次数也为经验值。从数据集D中随机选择k个样本作为初始的k个聚类中心(参见图6中S602)，k个聚类中心表示为{μ₁,μ₂,...,μ_k}，μ₁、μ₂、...、μ_k分别表示k个聚类中心的提问方标识。

对于n＝1,2,...,N，将提问方群体类簇划分C初始化为C_t＝φ，t＝1，2...k；对于i＝1,2...m，计算每个提问方与各个聚类中心的距离(参见图6中S603)，即计算提问方x_i和各个聚类中心μ_j(j＝1,2,...k)的距离，其中距离可以用d_ij表示，d_ij＝||x_i-μ_j||。将提问方分配给与其距离最近的聚类中心(参见图6中S604)，即将x_i标记最小的为d_ij所对应的类别λ_i。此时更新C_λi＝C_λi∪{x_i}。对于j＝1,2,...,k,对C_j中所有的样本点(表示提问方的点)重新计算新的质心，如果所有的k个聚类中心都没有发生变化，即判断是否存在提问方改变其当前所在的提问方群体类簇(参见图6中S605)，若否，则输出目标数量的提问方群体类簇C＝{C₁,C₂,...C_k}(参见图6中S606)，若是，重新执行S602。

聚类过程中样本点的变化情况可以参见图7所示，其中，两个“×”标识的样本点分别为聚类中心，第一次更新提问方群体类簇时，得到图7中(a)所示的结果，其中存在两个灰色的样本点划分至黑色样本点所在提问方群体类簇中，三个黑色样本点划分至灰色样本点所在提问方群体类簇中；在第二次更新提问方群体类簇时，有两个样本点改变了其当前所在的提问方群体类簇，得到图7中(b)所示的结果；在第N次更新提问方群体类簇时，没有样本点改变其当前所在的提问方群体类簇，得到图7中(c)所示的结果，即得到最终的提问方群体类簇。

在对问答平台上的提问方进行聚类后，可以根据聚类得到的结果(提问方群体类簇)进行多种应用，例如向提问方推荐服务，例如推荐回答方、推荐药品等，则终端设备可以根据提问方所属的提问方群体类簇，向提问方推荐对应的服务信息。

另外，终端设备还可以根据提问方群体类簇，在问答平台上建立提问方子社区，即将属于同一提问方群体类簇的提问方拉入同一提问方子社区，以便在提问方子社区中进行交流等。

另外，本申请实施例无需事先人工标注大量样本，从而避免类别划分的粒度因训练成本过高而受到限制。

接下来，将结合实际应用场景对本申请实施例提供的聚类方法进行介绍。在该应用场景中，当某一提问方例如目标提问方登录问答平台时，可以为提问方推荐一些服务。为了实现精准推荐，可以对问答平台上的提问方进行聚类，针对不同类别的提问方推荐对应的服务。为此，本申请实施例提供一种聚类方法，参见图8，包括：

S801、获取问答平台上的问答数据。

S802、针对每个提问方，根据所述对应关系，确定回答所述提问方提出的问题的回答方集合。

S803、根据第一提问方的回答方集合和第二提问方的回答方集合，确定共同回答方数。

其中，第一提问方和第二提问方为任意两个提问方。

S804、根据共同回答方数与回答方总数的比值确定第一提问方与第二提问方的提问行为相似度。

S805、根据提问行为相似度对提问方进行聚类，得到目标数量的提问方群体类簇。

S806、根据目标提问方所属的提问方群体类簇，向提问方推荐对应的服务信息。

基于图2对应实施例提供的聚类方法，本申请实施例还提供一种聚类装置，参见图9，所述装置包括获取单元901、第一确定单元902、第二确定单元903和聚类单元904：

所述获取单元901，用于获取问答平台上的问答数据，所述问答数据中包括提出问题的提问方标识和回答问题的回答方标识；

所述第一确定单元902，用于针对每个提问方，根据所述提问方标识和所述回答方标识的对应关系，确定所述提问方的提问行为特征，所述提问行为特征通过回答所述提问方提出的问题的回答方集合来体现；

所述第二确定单元903，用于根据每个所述提问方的提问行为特征，确定任意两个所述提问方之间的提问行为相似度；

所述聚类单元904，用于根据所述提问行为相似度对所述提问方进行聚类，得到目标数量的提问方群体类簇。

在一种可能的实现方式中，所述第一确定单元902，用于：

针对每个所述提问方，根据所述对应关系，确定回答所述提问方提出的问题的回答方集合，所述回答方集合用于体现所述提问行为特征；

若所述任意两个所述提问方包括第一提问方和第二提问方，所述第二确定单元903，用于：

根据所述第一提问方的回答方集合和所述第二提问方的回答方集合，确定共同回答方数；所述共同回答方数为所述第一提问方的回答方集合和所述第二提问方的回答方集合之间属于同一科室的共同回答方的数量；

根据所述共同回答方数确定所述第一提问方与所述第二提问方的提问行为相似度。

在一种可能的实现方式中，所述第二确定单元903，用于将所述共同回答方数与回答方总数的比值确定为所述第一提问方与所述第二提问方的提问行为相似度；所述回答方总数为所述第一提问方的回答方集合和所述第二提问方的回答方集合中所有回答方的数量。

在一种可能的实现方式中，所述获取单元901还用于：

获取所述第一提问方和所述第二提问方针对所述共同回答方中每个回答方的回答的反馈信息；

根据所述反馈信息确定所述共同回答方中每个回答方的权重；

所述第二确定单元903，用于：

根据所述共同回答方数和所述共同回答方中每个回答方的权重确定所述第一提问方与所述第二提问方的提问行为相似度。

在一种可能的实现方式中，所述装置还包括构建单元：

所述构建单元，用于根据所述问答数据构建二部图，所述二部图用于体现所述提问方标识和所述回答方标识的对应关系。

在一种可能的实现方式中，所述聚类单元904，用于：

从所述提问方中选取所述目标数量个提问方作为聚类中心；

根据所述提问行为相似度，确定每个提问方与各个所述聚类中心之间的距离；

根据所述距离确定所述目标数量的提问方群体类簇。

在一种可能的实现方式中，所述装置还包括推荐单元：

所述推荐单元，用于根据所述提问方所属的提问方群体类簇，向所述提问方推荐对应的服务信息；

或，

根据所述提问方群体类簇，在所述问答平台上建立提问方子社区。

本申请实施例还提供了一种电子设备，该电子设备用于执行本申请实施例提供的聚类方法。下面结合附图对该电子设备进行介绍。请参见图10所示，本申请实施例提供了一种电子设备，该电子设备可以是终端设备，以终端设备为智能手机为例：

图10示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图10，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1080是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

在本实施例中，所述终端设备中的处理器1080可以执行以下步骤；

该电子设备还可以包括服务器，本申请实施例还提供服务器，请参见图11所示，图11为本申请实施例提供的服务器1100的结构图，服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本实施例中，所述服务器1100中的中央处理器1122可以执行以下步骤；

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的聚类方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例各种可选实现方式中提供的聚类方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述提问方标识和所述回答方标识的对应关系，确定所述提问方的提问行为特征，包括：

若所述任意两个所述提问方包括第一提问方和第二提问方，所述根据每个所述提问方的提问行为特征，确定任意两个所述提问方之间的提问行为相似度，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述共同回答方数确定所述第一提问方与所述第二提问方的提问行为相似度，包括：

将所述共同回答方数与回答方总数的比值确定为所述第一提问方与所述第二提问方的提问行为相似度；所述回答方总数为所述第一提问方的回答方集合和所述第二提问方的回答方集合中所有回答方的数量。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述共同回答方数确定所述第一提问方与所述第二提问方的提问行为相似度，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述根据所述提问方标识和所述回答方标识的对应关系，确定所述提问方的提问行为特征之前，所述方法还包括：

根据所述问答数据构建二部图，所述二部图用于体现所述提问方标识和所述回答方标识的对应关系。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述提问行为相似度对所述提问方进行聚类，得到目标数量的提问方群体类簇，包括：

从所述提问方中选取所述目标数量个提问方作为聚类中心；

根据所述距离确定所述目标数量的提问方群体类簇。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

根据所述提问方所属的提问方群体类簇，向所述提问方推荐对应的服务信息；

或，

8.一种聚类装置，其特征在于，所述装置包括获取单元、第一确定单元、第二确定单元和聚类单元：

9.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的方法。