CN112101015B

CN112101015B - 一种识别多标签对象的方法及装置

Info

Publication number: CN112101015B
Application number: CN202010936862.0A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2024-01-26
Anticipated expiration: 2040-09-08
Also published as: CN112101015A

Abstract

本申请的实施例提供了一种识别多标签对象的方法及装置。该识别多标签对象的方法包括：获取对象发布的至少两条内容数据；基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。本申请实施例的技术方案基于对象发布的内容数据中进行分词和聚类，提高了对象分类的可靠性，同时也保证了对象标签的一致统一性，进而提高了识别多标签对象的可靠性和精确性。

Description

一种识别多标签对象的方法及装置

技术领域

本申请涉及计算机及通信技术领域，具体而言，涉及一种识别多标签对象的方法及装置。

背景技术

在很多设定标签的系统中，例如在医疗行业中，医生往往会根据自己的情况自主来设定标签，这种可能造成用户标签的杜撰，造成标签的不准确，也可能由于各种类型的词语，造成标签参差不齐的情况。进而导致无法统一的根据标签，来对用户进行统一、精确的管理，而造成用户对象管理混乱的问题。

发明内容

本申请的实施例提供了一种识别多标签对象的方法及装置，进而至少在一定程度上可以保证对象标签的一致统一性，进而提高了识别多标签对象的可靠性和精确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种识别多标签对象的方法，包括：获取对象发布的至少两条内容数据；基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。

根据本申请实施例的一个方面，提供了一种识别多标签对象的装置，包括：获取单元，用于获取对象发布的至少两条内容数据；生成单元，用于基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；聚类单元，用于对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；确定单元，用于基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。

在本申请的一些实施例中，基于前述方案，所述获取单元包括：页面获取单元，用于分别获取所述对象发布的各条内容数据的网络页面，并获取所述网络页面的热度；数据筛选单元，用于基于设定的热度阈值，筛选所述内容数据，得到筛选之后的内容数据。

在本申请的一些实施例中，基于前述方案，所述识别多标签对象的装置还包括：领域确定单元，用于基于所述内容数据，确定所述内容数据对应的领域；数据确定单元，用于基于所述领域获取所述领域对应的目标数据；词典确定单元，用于对所述目标数据进行训练，得到所述领域对应的数据样本词典。

在本申请的一些实施例中，基于前述方案，所述内容数据包括内容标题；所述生成单元包括：词汇生成单元，用于基于分词工具对所述内容标题进行分词，得到内容词汇；向量转换单元，用于基于所述内容数据的领域对应的数据样本词典，将所述内容词汇转换为对应的语义向量；向量生成单元，用于根据各所述内容词汇对应的语义向量之间的和，生成所述内容标题对应的词向量。

在本申请的一些实施例中，基于前述方案，所述向量转换单元配置为：基于所述内容数据的领域对应的数据样本词典，生成所述内容词汇对应的独热编码；基于设定的输入权重矩阵对所述独热编码进行线性处理，生成所述独热编码对应的线性向量；根据所述线性向量的平均值，生成隐层向量；基于所述隐层向量与设定的输出权重矩阵之间的乘积得到的概率，确定所述内容词汇对应的语义向量。

在本申请的一些实施例中，基于前述方案，所述聚类单元包括：距离确定单元，用于基于设定的聚类质心点，确定所述词向量与各所述聚类质心点之间的距离；质心确定单元，用于基于所述词向量与各所述聚类质心点之间的距离，确定所述词向量对应的目标质心点；簇群确定单元，用于将所述词向量纳入所述目标质心点对应的簇群。

在本申请的一些实施例中，基于前述方案，所述识别多标签对象的装置还用于：基于所述簇群中各词向量的平均坐标，确定所述簇群的更新质心点；基于所述更新质心点，计算所述各词向量与所述更新质心点之间的更新距离；通过所述更新距离更新所述词向量对应的簇群。

在本申请的一些实施例中，基于前述方案，所述确定单元用于：若所述簇群数量大于或者等于设定的最小阈值，且小于或者等于设定的最大阈值，则判定所述对象为多标签对象。

在本申请的一些实施例中，基于前述方案，所述对象为医生；所述识别多标签对象的装置还包括：科室确定单元，用于对所述医生发布的内容数据中的内容标题进行分类，生成所述医生对应的科室标签；疾病确定单元，用于基于系统中的综合病症患者的病例信息，确定所述综合病症患者对应的疾病标签；标签匹配单元，用于将所述疾病标签与所述科室标签进行匹配，确定与所述疾病标签对应的目标科室标签；医生推送单元，用于向所述综合病症患者推送所述目标科室标签对应的医生。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的识别多标签对象的方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的识别多标签对象的方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的识别多标签对象的方法。

在本申请的一些实施例所提供的技术方案中，通过获取对象发布的至少两条内容数据，并基于内容数据的领域对应的数据样本词典对内容数据进行转换，生成内容数据对应的词向量，以对词向量进行聚类，确定各个词向量对应的簇群，通过根据所有内容数据对应的簇群确定对象对应的簇群数量，以基于对象对应的簇群数量和标签数量之间的对应关系，判定对象是否为多标签对象，通过直接基于对象发布的内容数据中进行分词和聚类，提高了对象分类的可靠性，同时也保证了对象标签的一致统一性，进而提高了识别多标签对象的可靠性和精确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本申请的一个实施例的识别多标签对象的方法的流程图；

图3示意性示出了根据本申请的一个实施例的一种发表内容数据的系统截图；

图4示意性示出了根据本申请的一个实施例的一种内容数据预处理的示意图；

图5示意性示出了根据本申请的一个实施例的一种生成语义向量的示意图；

图6示意性示出了根据本申请的一个实施例的聚类得到词向量对应的簇群的流程图；

图7示意性示出了根据本申请的一个实施例的医疗推送的流程图；

图8示意性示出了根据本申请的一个实施例的识别多标签对象的示意图；

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as aService，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

医疗云(Medical cloud)，是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子疾病记录、医保等等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术，具体通过如下实施例进行说明：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备通过网络104与服务器105交互，以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了至少两条内容数据，服务器105获取对象发布的至少两条内容数据；基于内容数据的领域对应的数据样本词典对内容数据进行转换，生成各内容数据对应的词向量；对各词向量进行聚类，得到词向量对应的簇群，以及对象对应的簇群数量；基于对象对应的簇群数量，确定对象是否为多标签对象，其中，多标签对象的标签数量与簇群数量对应。

本申请实施例中通过获取对象发布的至少两条内容数据，并基于内容数据的领域对应的数据样本词典对内容数据进行转换，生成内容数据对应的词向量，以对词向量进行聚类，确定各个词向量对应的簇群，通过根据所有内容数据对应的簇群确定对象对应的簇群数量，以基于对象对应的簇群数量和标签数量之间的对应关系，判定对象是否为多标签对象，通过基于对象发布的内容数据中进行分词和聚类，提高了对象分类的可靠性，同时也保证了对象标签的一致统一性，进而提高了识别多标签对象的可靠性和精确性。

需要说明的是，本申请实施例所提供的识别多标签对象的方法一般由服务器105执行，相应地，识别多标签对象的装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的识别多标签对象的方法。

在本申请的一个实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的识别多标签对象的方法的流程图，该识别多标签对象的方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该识别多标签对象的方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取对象发布的至少两条内容数据。

在本申请的一个实施例中，对象可以在系统中发布内容数据。其中，对象可以为系统用户、计算机设备、机器人等等。其发布的内容数据可以为文章、图像、视频，或者还可以是问答文章、问题回答等等。

图3为本申请实施例提供的一种发表内容数据的系统截图。

如图3所示，示例性的，在医疗网站中，对于作为对象的医生来说，在医生账户的主页310中，包括的信息有医生的信息，例如：职称、科室、经验等级、擅长疾病等等。除此之外，还包括文章和问答等，例如，精彩回答和交流分享320，其中在精彩回答部分包括了各病患的问题以及该医生的回答等信息，这些信息都可以作为医生发布的内容数据。

除此之外，为了更加清楚、全面的对对象进行分析和定性，本实施例中可以获取对象发布的多条内容数据，以反映出对象实际擅长或者偏好的内容。

在本申请的一个实施例中，步骤S210中获取对象发布的至少两条内容数据的过程，包括如下步骤：分别获取对象发布的各条内容数据的网络页面，并获取网络页面的热度；基于设定的热度阈值，筛选内容数据，得到筛选之后的内容数据。

在本申请的一个实施例中，由于对象发布的内容数据存在不同的受众，因此，一条内容数据的热度不同。本实施例中可以分别获取对象发布的各条内容数据的网络页面，并获取网络页面的热度；基于设定的热度阈值，筛选内容数据，得到筛选之后的内容数据。

其中，本实施例中热度可以包括点赞数、播放量或者阅读量等。热度阈值可以基于点赞数、播放量或者阅读量来确定对应的数量阈值，例如10、20或者30等。

图4为本申请实施例提供的一种内容数据预处理的示意图。

如图4所示，例如，医生发表的内容分为医疗科普文章及患者问答等数据，为了保证这些数据本身可以代表医生真正的专长，我们需要通过一些行为特征来过滤。首先使用下载工具，下载目标医疗科普平台上的医疗科普和问答文章HTML页，提取该播放量410或者点赞数420。即选取那些播放量410大于30次的科普文章、以及患者问答点赞数420大于10次的问答数据作为可以代表该医生专长的高质量发表内容集合。其他那些回答后很少人点赞和阅读的内容则不视其为专长内容，或许只是该医生业余内容，则忽略不进入后续算法过程。

在本申请的一个实施例中，步骤S220中基于内容数据的领域对应的数据样本词典对内容数据进行转换，生成各内容数据对应的词向量的过程之前，包括如下步骤：基于内容数据，确定内容数据对应的领域；基于领域获取领域对应的目标数据；对目标数据进行训练，得到领域对应的数据样本词典。

在本申请的一个实施例中，由于各种内容数据对应的专业不同，导致其分词断句的方式不同。因此为了保证分词的精确性，本实施例中通过确定内容数据对应的领域，以获取到该领域对应的目标数据。进而基于目标数据进行训练，得到该领域对应的数据样本词典，用于将各个词语转换为向量的形式。

示例性的，由于传统的词典是基于通用维基百科等语料训练，故并不适用于医疗这类具有很多专业词汇的领域。所以我们基于各医疗互联网平台上抓取的海量医疗文章、问答标题答案数据训练医疗领域词典，使用该词典对上述过滤之后的医生发表专业科普文章或医疗问答数据标题做K维度语义向量，其中，K一般取20～50维。

在步骤S220中，基于内容数据的领域对应的数据样本词典对内容数据进行转换，生成各内容数据对应的词向量。

在本申请的一个实施例中，在确定了内容数据对应的领域之后，基于内容数据的领域对应的数据样本词典，对内容数据进行转化，以生成内容数据对应的词向量。本实施例中通过词向量来量化表示内容数据，以便于之后的运算和分析。

在本申请的一个实施例中，内容数据包括内容标题；步骤S220中基于内容数据的领域对应的数据样本词典对内容数据进行转换，生成各内容数据对应的词向量的过程，包括如下步骤：基于分词工具对内容标题进行分词，得到内容词汇；基于内容数据的领域对应的数据样本词典，将内容词汇转换为对应的语义向量；根据各内容词汇对应的语义向量之间的和，生成内容标题对应的词向量。

在本申请的一个实施例中，为了减少内容数据的运算量，本实施例中通过内容数据中的内容标题进行处理。具体的，通过分词工具对内容标题进行分词，得到内容词汇；基于内容数据的领域对应的数据样本词典，将内容词汇转换为对应的语义向量；根据各内容词汇对应的语义向量之间的和，生成内容标题对应的词向量。

具体的，使用分词工具对上述标题进行切词，得到单独的词汇；将每个词使用上述训练好的医疗词典表示成一个K维度语义向量；之后将标题中所有词的K维度语义向量相加，即可得到该标题的一个K维向量表示；综上，有了该标题的K维度语义向量后，我们可以认为每个标题语义向量为空间中一个样本点。

在本申请的一个实施例中，基于内容数据的领域对应的数据样本词典，将内容词汇转换为对应的语义向量的过程，包括如下步骤：基于内容数据的领域对应的数据样本词典，生成内容词汇对应的独热编码；基于设定的输入权重矩阵对独热编码进行线性处理，生成独热编码对应的线性向量；根据线性向量的平均值，生成隐层向量；基于隐层向量与设定的输出权重矩阵之间的乘积得到的概率，确定内容词汇对应的语义向量。

图5为本申请实施例提供的一种生成语义向量的示意图。

如图5所示，在本申请的一个实施例中，基于内容数据的领域对应的数据样本词典，生成内容词汇对应的独热编码510，得到输入向量520；在隐藏层530，基于设定的输入权重矩阵对独热编码进行线性处理，生成独热编码对应的线性向量；根据线性向量的平均值，生成隐层向量；在输出层540，基于隐层向量与设定的输出权重矩阵之间的乘积得到的概率550，确定内容词汇对应的语义向量。

本实施例中通过输入大量已分词的文本，输出用一个稠密向量来表示每个词，通过基于词向量的重要意义在于将自然语言转换成了计算机能够理解的向量，以抓住词的上下文、语义，衡量词与词的相似性，在文本分类、情感分析等许多自然语言处理领域有重要作用。

在步骤S230中，对各词向量进行聚类，得到词向量对应的簇群，以及对象对应的簇群数量。

在本申请的一个实施例中，在得到词向量之后，基于词向量进行聚类得到各个词向量对应的簇群。并基于对象发布的各内容数据对应的所有簇群，确定对象对应的簇群数量。

在本申请的一个实施例中，如图6所示，步骤S230中对各词向量进行聚类，得到词向量对应的簇群，以及对象对应的簇群数量的过程，包括步骤S610～S630，详细说明如下：

在步骤S610中，基于设定的聚类质心点，确定词向量与各聚类质心点之间的距离。

在本申请的一个实施例中，有了该标题的K维度语义向量后，我们可以认为每个标题语义向量为空间中一个样本点。本实施例中预先设定预设数量的聚类质心点，这里的聚类质心点的设定的数量为最大数量。以基于设定的聚类质心点，确定词向量与各聚类质心点之间的距离。

本实施例中将两个向量之间的相似度即为两个标题样本点之间的距离，进而则可以对其聚类。具体的，设k是我们事先给定的聚类数，c⁽ⁱ⁾代表样例i与k个类中距离最近的那个类，c⁽ⁱ⁾中i的值是1到k中的一个。质心μ_j代表我们对属于同一个类的样本中心点的猜测，j表示质心的标识。拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个星星作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离。

示例性的，在医疗网站的应用场景中，用k或n_cluster表示事先设定的最大的聚类个数，在该场景下一般认为一个医生擅长的科室领域不可能超过20个，故默认设定为最多举出20个类目。实际中绝大部分医生发表的内容最后都只能聚为1～2个类目，上述数目仅为实例。

在步骤S620中，基于词向量与各聚类质心点之间的距离，确定词向量对应的目标质心点。

在本申请的一个实施例中，在确定了词向量和各聚类质心点之间的距离之后，基于词向量与各聚类质心点之间的距离，确定词向量对应的目标质心点。即选取距离最近的那个星团作为c⁽ⁱ⁾，这样经过第一步每一个星星都有了所属的星团。通过如下公式表示：

随机选取k各聚类质心点为μ₁,μ₂,…,μ_k∈Rⁿ，其中质心μ_j代表对属于同一个类的样本中心点的猜测，确定各个词向量x⁽ⁱ⁾对应的目标质心点为：

在步骤S630中，将词向量纳入目标质心点对应的簇群。

在本申请的一个实施例中，在确定了各个词向量对应的目标质心点之后，将词向量纳入目标质心点对应的簇群，直至将所有的词向量都添加至其对应的簇群。

在本申请的一个实施例中，还包括如下步骤：基于簇群中各词向量的平均坐标，确定簇群的更新质心点；基于更新质心点，计算各词向量与更新质心点之间的更新距离；通过更新距离更新词向量对应的簇群。

在本申请的一个实施例中，在将所有的词向量都添加至其对应的簇群之后，基于簇群中各词向量的平均坐标，确定簇群的更新质心点，即重新计算它的质心μ_j，对里面所有的星星坐标求平均；基于更新质心点，计算各词向量与更新质心点之间的更新距离；通过更新距离更新词向量对应的簇群，重复迭代上述步骤直到质心不变或者变化很小，具体的公式表示为：

对于词向量x⁽ⁱ⁾当前对应的质心点c⁽ⁱ⁾，确定其对应的更新质心点为：

其中，m为质心点的数量。

除此之外，本实施例中还可以针对对象发布的内容数据，做线性判别分析，以得到各内容数据对应的簇群信息。

在步骤S240中，基于对象对应的簇群数量，确定对象是否为多标签对象，其中，多标签对象的标签数量与簇群数量对应。

在本申请的一个实施例中，在确定了对象对应的簇群数量之后，基于对象对应的簇群数量与簇群数量之间的对应关系，确定对象是否为多标签对象。具体的，在本申请的一个实施例中，若簇群数量大于或者等于设定的最小阈值，且小于或者等于设定的最大阈值，则判定对象为多标签对象。

在本申请的一个实施例中，在医疗领域的应用环境中，本实施例中可以将大于或等于两个、且小于或等于4个簇群数量的医生判定为多专长医生，而如果簇群数量大于5个，则可能代表着该医生存在医而不精的伪多专长，实际可能只是万金油式的庸医，甚至其本身医生资质是否正常都值得平台方怀疑。

在本申请的一个实施例中，如图7所示，对象包括医生；基于对象对应的簇群数量，确定对象是否为多标签对象之后，还包括步骤S710～S740，详细说明如下：

在步骤S710中，对医生发布的内容数据中的内容标题进行分类，生成医生对应的科室标签。

在本申请的一个实施例中，在医疗领域的应用场景中，本实施例中的对象包括医生。通过对医生发布的内容数据中的内容标题进行分类，以基于分类得到的分类结果，确定医生对应的簇群数量以及每个簇群的标签，并将簇群的标签作为医生对应的科室标签。

在步骤S720中，基于系统中的综合病症患者的病例信息，确定综合病症患者对应的疾病标签。

在本申请的一个实施例中，基于系统中的综合病症患者的病例信息，对其病例信息中的内容进行分类和标签处理，生成综合病症患者对应的疾病标签。本实施例中综合病症患者用于表示身体各部位生病、或者疑难杂症等等。

在步骤S730中，将疾病标签与科室标签进行匹配，确定与疾病标签对应的目标科室标签。

在本申请的一个实施例中，基于综合病症患者的疾病标签与医生的科室标签进行匹配，确定相互匹配的标签。其匹配的方式可以使基于各个标签对应的词向量之间的相似度来确定两者之间是否匹配，进而确定疾病标签对应的目标科室标签。

在步骤S740中，向综合病症患者推送目标科室标签对应的医生。

在本申请的一个实施例中，在确定疾病标签对应的目标科室标签之后，向综合病症患者推送目标科室标签对应的医生。以使得综合病症患者可以得到对应的医生的治疗，既能保证病患可以得到充分的救治，又能保证医生的资源可以得到充分的利用。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的识别多标签对象的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的识别多标签对象的方法的实施例。

图8示出了根据本申请的一个实施例的识别多标签对象的装置的框图。

参照图8所示，根据本申请的一个实施例的识别多标签对象的装置800，包括：获取单元810，用于获取对象发布的至少两条内容数据；生成单元820，用于基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；聚类单元830，用于对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；确定单元840，用于基于所述对象对应的簇群数量，确定所述对象是否为多标签对象，其中，所述多标签对象的标签数量与所述簇群数量对应。

在本申请的一些实施例中，基于前述方案，所述获取单元810包括：页面获取单元，用于分别获取所述对象发布的各条内容数据的网络页面，并获取所述网络页面的热度；数据筛选单元，用于基于设定的热度阈值，筛选所述内容数据，得到筛选之后的内容数据。

在本申请的一些实施例中，基于前述方案，所述识别多标签对象的装置800还包括：领域确定单元，用于基于所述内容数据，确定所述内容数据对应的领域；数据确定单元，用于基于所述领域获取所述领域对应的目标数据；词典确定单元，用于对所述目标数据进行训练，得到所述领域对应的数据样本词典。

在本申请的一些实施例中，基于前述方案，所述内容数据包括内容标题；所述生成单元820包括：词汇生成单元，用于基于分词工具对所述内容标题进行分词，得到内容词汇；向量转换单元，用于基于所述内容数据的领域对应的数据样本词典，将所述内容词汇转换为对应的语义向量；向量生成单元，用于根据各所述内容词汇对应的语义向量之间的和，生成所述内容标题对应的词向量。

在本申请的一些实施例中，基于前述方案，所述聚类单元830包括：距离确定单元，用于基于设定的聚类质心点，确定所述词向量与各所述聚类质心点之间的距离；质心确定单元，用于基于所述词向量与各所述聚类质心点之间的距离，确定所述词向量对应的目标质心点；簇群确定单元，用于将所述词向量纳入所述目标质心点对应的簇群。

在本申请的一些实施例中，基于前述方案，所述识别多标签对象的装置800还用于：基于所述簇群中各词向量的平均坐标，确定所述簇群的更新质心点；基于所述更新质心点，计算所述各词向量与所述更新质心点之间的更新距离；通过所述更新距离更新所述词向量对应的簇群。

在本申请的一些实施例中，基于前述方案，所述确定单元840用于：若所述簇群数量大于或者等于设定的最小阈值，且小于或者等于设定的最大阈值，则判定所述对象为多标签对象。

在本申请的一些实施例中，基于前述方案，所述对象为医生；所述识别多标签对象的装置800还包括：科室确定单元，用于对所述医生发布的内容数据中的内容标题进行分类，生成所述医生对应的科室标签；疾病确定单元，用于基于系统中的综合病症患者的病例信息，确定所述综合病症患者对应的疾病标签；标签匹配单元，用于将所述疾病标签与所述科室标签进行匹配，确定与所述疾病标签对应的目标科室标签；医生推送单元，用于向所述综合病症患者推送所述目标科室标签对应的医生。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(Central Processing Unit，CPU)901，其可以根据存储在只读存储器(Read-Only Memory，ROM)902中的程序或者从储存部分908加载到随机访问存储器(Random Access Memory，RAM)903中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的储存部分908；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入储存部分908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种识别多标签对象的方法，其特征在于，包括：

分别获取对象发布的各条内容数据的网络页面，并获取所述网络页面的热度，所述对象包括医生，所述内容数据包括医疗科普文章和患者问答；

基于设定的热度阈值，筛选所述内容数据，得到筛选之后的内容数据，所述内容数据反映所述对象擅长或者偏好的内容；

基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；

对各所述词向量进行聚类，得到所述词向量对应的簇群，基于对象发布的各内容数据对应的所有簇群确定所述对象对应的簇群数量；

若所述簇群数量大于或者等于设定的最小阈值，且小于或者等于设定的最大阈值，则判定所述对象为多标签对象；

内容数据包括内容标题；基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量，包括：

基于分词工具对所述内容标题进行分词，得到内容词汇；

基于所述内容数据的领域对应的数据样本词典，生成所述内容词汇对应的独热编码；

基于设定的输入权重矩阵对所述独热编码进行线性处理，生成所述独热编码对应的线性向量；

根据所述线性向量的平均值，生成隐层向量；

基于所述隐层向量与设定的输出权重矩阵之间的乘积得到的概率，确定所述内容词汇对应的语义向量；

根据各所述内容词汇对应的语义向量之间的和，生成所述内容标题对应的词向量。

2.根据权利要求1所述的方法，其特征在于，基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量之前，还包括：

基于所述内容数据，确定所述内容数据对应的领域；

基于所述领域获取所述领域对应的目标数据；

对所述目标数据进行训练，得到所述领域对应的数据样本词典。

3.根据权利要求1所述的方法，其特征在于，对各所述词向量进行聚类，得到所述词向量对应的簇群，包括：

基于设定的聚类质心点，确定所述词向量与各所述聚类质心点之间的距离；

基于所述词向量与各所述聚类质心点之间的距离，确定所述词向量对应的目标质心点；

将所述词向量纳入所述目标质心点对应的簇群。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述簇群中各词向量的平均坐标，确定所述簇群的更新质心点；

基于所述更新质心点，计算所述各词向量与所述更新质心点之间的更新距离；

通过所述更新距离更新所述词向量对应的簇群。

5.根据权利要求1所述的方法，其特征在于，所述对象包括医生；

基于所述对象对应的簇群数量，确定所述对象是否为多标签对象之后，还包括：

对所述医生发布的内容数据中的内容标题进行分类，生成所述医生对应的科室标签；

基于系统中的综合病症患者的病例信息，确定所述综合病症患者对应的疾病标签；

将所述疾病标签与所述科室标签进行匹配，确定与所述疾病标签对应的目标科室标签；

向所述综合病症患者推送所述目标科室标签对应的医生。

6.一种识别多标签对象的装置，其特征在于，包括：

获取单元，用于获取对象发布的至少两条内容数据；

生成单元，用于基于所述内容数据的领域对应的数据样本词典对所述内容数据进行转换，生成各所述内容数据对应的词向量；

聚类单元，用于对各所述词向量进行聚类，得到所述词向量对应的簇群，以及所述对象对应的簇群数量；

确定单元，用于若所述簇群数量大于或者等于设定的最小阈值，且小于或者等于设定的最大阈值，则判定所述对象为多标签对象；

获取单元包括：页面获取单元，用于分别获取所述对象发布的各条内容数据的网络页面，并获取所述网络页面的热度，所述对象包括医生，所述内容数据包括医疗科普文章和患者问答；数据筛选单元，用于基于设定的热度阈值，筛选所述内容数据，得到筛选之后的内容数据，所述内容数据反映所述对象擅长或者偏好的内容；

内容数据包括内容标题；所述生成单元包括：词汇生成单元，用于基于分词工具对所述内容标题进行分词，得到内容词汇；向量转换单元，用于基于所述内容数据的领域对应的数据样本词典，生成所述内容词汇对应的独热编码；基于设定的输入权重矩阵对所述独热编码进行线性处理，生成所述独热编码对应的线性向量；根据所述线性向量的平均值，生成隐层向量；基于所述隐层向量与设定的输出权重矩阵之间的乘积得到的概率，确定所述内容词汇对应的语义向量；向量生成单元，用于根据各所述内容词汇对应的语义向量之间的和，生成所述内容标题对应的词向量。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述权利要求1-5任一项所述的方法。

8.一种计算机可读介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述权利要求1-5任一项所述的方法。