CN111339301B

CN111339301B - 标签确定方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111339301B
Application number: CN202010135371.6A
Authority: CN
Inventors: 张发恩; 魏畅毅
Original assignee: Innovation Qizhi Qingdao Technology Co ltd
Current assignee: Innovation Qizhi Qingdao Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-11-28
Anticipated expiration: 2040-02-28
Also published as: CN111339301A

Abstract

本发明涉及一种标签确定方法、装置、电子设备及计算机可读存储介质，属于文本处理领域。该方法包括：获取公司简介文本；将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签。通过该方法，可以尽可能多地为公司确定出对应的标签，增加公司标签的详细程度。

Description

标签确定方法、装置、电子设备及计算机可读存储介质

技术领域

本申请属于文本处理领域，具体涉及一种标签确定方法、装置、电子设备及计算机可读存储介质。

背景技术

现有的根据公司的简介在对公司进行打标签时，一般通过提取行业的关键词，得到初始行业标签，然后通过网络模型计算初始行业标签的概率，得到与公司对应的行业标签。

然而现有技术得到的标签一般都是取概率最大的标签为公司标签，对于公司而言，打上的标签不够详细。

发明内容

有鉴于此，本申请的目的在于提供一种标签确定方法、装置、电子设备及计算机可读存储介质，可以得到与公司对应的详细行业标签。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种标签确定方法，所述方法包括：获取公司简介文本；将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签。在本申请实施例所提供的标签确定方法中，不再像传统的方案把网络模型确定出的概率最大的标签确定为公司的标签，而是先通过匹配的方式得到多个与公司的公司简介文本对应的初始标签，尽可能多地扩大公司标签的范围，然后再通过网络模型筛选出的标签白名单剔除初始标签中可能由于误命中而得到的初始标签，并将剩余的初始标签确定为与公司简介文本对应的标签，因此，在本申请实施例所提供的标签确定方法中，可以尽可能多地为公司确定出对应的标签，增加公司标签的详细程度。

结合第一方面实施例，在一种可能的实施方式中，所述根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签，包括：将所述初始标签与所述标签白名单的交集确定为与所述公司简介文本对应的标签。

结合第一方面实施例，在一种可能的实施方式中，所述将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单，包括：将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的多个标签的概率；根据所述概率的大小，从所述多个标签中确定出所述标签白名单。

结合第一方面实施例，在一种可能的实施方式中，在所述将所述公司简介文本与预先保存的标签库进行匹配之前，所述方法还包括：获取标签库，其中，所述标签库内保存有各个行业的多个子标签，所述多个子标签形成多叉树，所述多叉树的每个节点为一个子标签；

相应的，将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签，包括：将所述公司简介文本与预先保存的各个行业的多个子标签进行匹配，得到命中的子标签；以所述命中的子标签为底层节点向所述命中的子标签所在的多叉树的根节点进行搜索，得到与所述命中的子标签对应的标签层级结构链；其中，所述标签层级结构链为所述初始标签。

结合第一方面实施例，在一种可能的实施方式中，所述根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签，包括：将与所述标签白名单存在交集的标签层级结构链确定为与所述公司简介文本对应的标签。

第二方面，本申请实施例提供一种标签确定装置，所述装置包括：获取模块、匹配模块、输入模块以及确定模块。获取模块，用于获取公司简介文本；匹配模块，用于将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；输入模块，用于将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；确定模块，用于根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签。

结合第二方面实施例，在一种可能的实施方式中，所述确定模块，用于将所述初始标签与所述标签白名单的交集确定为与所述公司简介文本对应的标签。

结合第二方面实施例，在一种可能的实施方式中，所述输入模块，用于将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的多个标签的概率；根据所述概率的大小，从所述多个标签中确定出所述标签白名单。

结合第二方面实施例，在一种可能的实施方式中，所述获取模块，还用于获取标签库，其中，所述标签库内保存有各个行业的多个子标签，所述多个子标签形成多叉树，所述多叉树的每个节点为一个子标签；

相应的，所述匹配模块，用于将所述公司简介文本与预先保存的各个行业的多个子标签进行匹配，得到命中的子标签；以所述命中的子标签为底层节点向所述命中的子标签所在的多叉树的根节点进行搜索，得到与所述命中的子标签对应的标签层级结构链；其中，所述标签层级结构链为所述初始标签。

结合第二方面实施例，在一种可能的实施方式中，所述确定模块，用于将与所述标签白名单存在交集的标签层级结构链确定为与所述公司简介文本对应的标签。

第三方面，本申请实施例还提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种标签确定方法的流程图。

图2示出了本申请实施例提供的一种行业标签概念关系表的示意图。

图3示出了本申请实施例提供的一种标签确定装置的结构框图。

图4示出了本申请实施例提供的一种电子设备的结构示意图。

标号：100-电子设备；110-处理器；120-存储器；400-标签确定装置；410-获取模块；420-匹配模块；430-输入模块；440-确定模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

此外，针对现有技术中出现的对公司进行打标签所存在的标签不够详细的缺陷是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案，都应该是申请人在本申请过程中对本申请做出的贡献。

为了解决上述缺陷，本申请实施例提供一种标签确定方法、装置、电子设备及计算机可读存储介质，可以得到与公司对应的详细行业标签。

该技术可采用相应的软件、硬件以及软硬结合的方式实现。下面将针对本申请所提供的标签确定方法进行介绍。

请参阅图1，本申请实施例提供一种标签确定方法。该方法可以应用于电子设备，也可以应用于安装在电子设备内的应用程序(Application，APP)，还可以应用于某个小程序，该小程序内嵌在安装于电子设备内的某一公众平台。

下面将结合图1对其所包含的步骤进行说明。

步骤S110：获取公司简介文本。

一般而言，在公司的官网首页展示有与公司的业务范围、公司的性质等对应的文字介绍，因此，公司简介文本可以通过获取公司的官网首页的相应内容得到。

作为一种可选的实施方式，电子设备可以通过其所包括的摄像头对公司的官网首页展示的文字介绍进行拍摄，从而获取到与文字介绍对应的图片。后续，电子设备通过保存在本地或者云端的文字识别软件获取到公司简介文本，以供自身和/或APP和/或小程序使用。

作为另一种可选的实施方式，电子设备可以通过保存在本地或者云端的爬虫程序直接爬取公司官网所展示的文字介绍，从而获取到公司简介文本，以供自身和/或APP和/或小程序使用。

作为另一种可选的实施方式，公司简介文本还可以是由其他设备获取，并通过信息传输的方式发送给电子设备，以便电子设备获取到公司简介文本。其中，其他设备获取公司简介文本的方式本申请实施例不做具体限制。

步骤S120：将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签。

其中，值得指出的是，在进行匹配之前，电子设备预先获取标签库进行保存，在标签库内保存有行业分析师整理出的行业标签概念关系表，其中，每个行业对应一个行业标签概念关系表。

在一种可选的实施方式中，行业标签概念关系表内尽可能包括与之对应的行业的行业标签关键词，即子标签。电子设备在将公司简介文本与标签库进行匹配时，将公司简介文本中的词语与各个行业标签概念关系表中的子标签进行相似度计算，当公司简介文本中的某个词与某个子标签的相似度超过阈值时，确定该子标签为与公司简介文本对应的初始标签。

当然，值得指出的是，在进行匹配后，与一个公司简介文本对应的初始标签可能存在一个，也可能存在多个。

在另一种可选的实施方式中，每个行业标签概念关系表中的子标签呈现出层级结构。如图2所示，每个行业标签概念关系表所包括的多个子标签形成多叉树，其中，每个子标签均为多叉树中的一个节点，多叉树的根节点为行业总标签，即行业总称。

在这种实施方式下，电子设备在将公司简介文本与标签库进行匹配时，依旧计算公司简介文本中的词语与各个行业标签概念关系表中的子标签的相似度，当公司简介文本中的某个词与某个子标签的相似度超过阈值时，确定该子标签为命中的子标签。后续，以该命中的子标签为底层节点向该命中的子标签所在的多叉树的根节点进行搜索，直至搜索得到多叉树的根节点后停止搜索，从而得到包括该命中的子标签的标签层级结构链。其中，包括该命中的子标签的标签层级结构链为与公司简介文本对应的初始标签。

在标签层级结构链中，其首尾分别为命中的子标签以及子标签所在的多叉树的根节点所对应的子标签，若存在中间子标签，则中间子标签为多叉树中位于命中的子标签所在的节点与根节点之间的节点对应的子标签。例如在图2中，假设命中的子标签为“消费金融”，当以“消费金融”作为底层节点向根节点“科技金融”进行搜索时，得到的标签层级结构链为“消费金融”-“银行类业务”-“科技金融”。

当然，值得指出的是，当初始标签为标签层级结构链时，在进行匹配后，与一个公司简介文本对应的初始标签可能存在一个，也可能存在多个。

步骤S130：将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单。

其中，该网络模型在训练过程中，以多个已经设置好标签类型的公司简介文本为训练集对网络模型进行训练。当后续网络模型被训练至收敛状态后，将公司简介文本输入网络模型，从而可以得到与公司简介文本对应的多个标签的概率。后续，网络模型根据多个标签的概率的大小，从多个标签中确定出标签白名单。

在一种可选的实施方式中，网络模型可以将概率大于概率阈值的标签确定为标签白名单。

在另一种可选的实施方式中，网络模型还可以根据多个标签的概率的大小将该多个标签按照概率从大到小的原则进行排序，然后将排在概率阈值之前概率大于概率阈值且排序靠前的标签确定为标签白名单。其中，可以将排序位于前预设排序值(例如前五)的标签确定为标签白名单。

步骤S140：根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签。

在得到与公司简介文本对应的初始标签以及标签白名单后，电子设备将初始标签与标签白名单的交集确定为与公司简介文本对应的标签。

在一种可选的实施方式中，当初始标签为标签层级结构链时，电子设备将与标签白名单存在交集的标签层级结构链确定为与公司简介文本对应的标签。其中，当标签层级结构链中的某个子标签与标签白名单中的一个标签相同时，即确定标签层级结构链与标签白名单存在交集。

在本申请实施例所提供的标签确定方法中，不再像传统的方案把网络模型确定出的概率最大的标签确定为公司的标签，而是先通过匹配的方式得到多个与公司的公司简介文本对应的初始标签，尽可能多地扩大公司标签的范围，然后再以初始标签为基础，通过网络模型筛选出的标签白名单剔除初始标签中可能由于误命中而得到的初始标签，并将剩余的初始标签确定为与公司简介文本对应的标签，因此，在本申请实施例所提供的标签确定方法中，可以尽可能多地为公司确定出对应的标签，增加公司标签的详细程度。

如图3所示，本申请实施例还提供一种标签确定装置400，标签确定装置400可以包括：获取模块410、匹配模块420、输入模块430以及确定模块440。

获取模块410，用于获取公司简介文本；

匹配模块420，用于将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；

输入模块430，用于将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；

确定模块440，用于根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签。

在一种可能的实施方式中，所述确定模块440，用于将所述初始标签与所述标签白名单的交集确定为与所述公司简介文本对应的标签。

在一种可能的实施方式中，所述输入模块430，用于将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的多个标签的概率；根据所述概率的大小，从所述多个标签中确定出所述标签白名单。

在一种可能的实施方式中，所述获取模块410，还用于获取标签库，其中，所述标签库内保存有各个行业的多个子标签，所述多个子标签形成多叉树，所述多叉树的每个节点为一个子标签；相应的，所述匹配模块420，用于将所述公司简介文本与预先保存的各个行业的多个子标签进行匹配，得到命中的子标签；以所述命中的子标签为底层节点向所述命中的子标签所在的多叉树的根节点进行搜索，得到与所述命中的子标签对应的标签层级结构链；其中，所述标签层级结构链为所述初始标签。

在一种可能的实施方式中，所述确定模块440，用于将与所述标签白名单存在交集的标签层级结构链确定为与所述公司简介文本对应的标签。

本申请实施例所提供的标签确定装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的标签确定方法所包含的步骤。

此外，请参看图4，本发明实施例还提供一种用于实现本申请实施例的标签确定方法、装置的电子设备100。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device，MID)、个人数字助理、服务器等设备。

其中，电子设备100可以包括：处理器110、存储器120。

应当注意，图4所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有后文出现的标签确定方法对应的程序或者后文出现的标签确定装置。可选的，当存储器120内存储有标签确定装置时，标签确定装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，标签确定装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如标签确定装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：获取公司简介文本；将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的标签确定方法、装置、电子设备及计算机可读存储介质，在本申请实施例所提供的标签确定方法中，不再像传统的方案把网络模型确定出的概率最大的标签确定为公司的标签，而是先通过匹配的方式得到多个与公司的公司简介文本对应的初始标签，尽可能多地扩大公司标签的范围，然后再通过网络模型筛选出的标签白名单剔除初始标签中可能由于误命中而得到的初始标签，并将剩余的初始标签确定为与公司简介文本对应的标签，因此，在本申请实施例所提供的标签确定方法中，可以尽可能多地为公司确定出对应的标签，增加公司标签的详细程度。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种标签确定方法，其特征在于，所述方法包括：

获取公司简介文本；

获取标签库；

将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；

将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；所述标签白名单为概率大于概率阈值的设定数量的标签；

根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签；

所述将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签，包括：

将所述公司简介文本与多个行业标签概念关系表中的子标签进行相似度计算，所述行业标签概念关系表内包括与之对应的行业的多个行业标签关键词，所述行业标签关键词为所述子标签；确定所述多个行业标签概念关系表中的子标签与所述公司简介文本中的词汇的相似度超过阈值的子标签为命中的子标签；或，将所述公司简介文本与预先保存的各个行业的多个子标签进行匹配，得到命中的子标签；其中，所述标签库内保存有各个行业的多个子标签，所述多个子标签形成多叉树，所述多叉树的每个节点为一个子标签；

以所述命中的子标签为底层节点向所述命中的子标签所在的多叉树的根节点进行搜索，得到与所述命中的子标签对应的标签层级结构链；其中，所述标签层级结构链为所述初始标签，所述初始标签为多个；

所述根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签，包括：

将与所述标签白名单存在交集的标签层级结构链确定为与所述公司简介文本对应的多个标签。

2.根据权利要求1所述的方法，其特征在于，所述将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单，包括：

将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的多个标签的概率；

根据所述概率的大小，从所述多个标签中确定出所述标签白名单。

3.一种标签确定装置，其特征在于，所述装置包括：

获取模块，用于获取公司简介文本；

匹配模块，用于将所述公司简介文本与预先保存的标签库进行匹配，得到初始标签；

输入模块，用于将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的标签白名单；所述标签白名单为概率大于概率阈值的设定数量的标签；

确定模块，用于根据所述初始标签及所述标签白名单得到与所述公司简介文本对应的标签；

所述匹配模块，还用于将所述公司简介文本与多个行业标签概念关系表中的子标签进行相似度计算，所述行业标签概念关系表内包括与之对应的行业的多个行业标签关键词，所述行业标签关键词为所述子标签；确定所述多个行业标签概念关系表中的子标签与所述公司简介文本中的词汇的相似度超过阈值的子标签为命中的子标签；或，将所述公司简介文本与预先保存的各个行业的多个子标签进行匹配，得到命中的子标签；

所述获取模块，还用于获取标签库，其中，所述标签库内保存有各个行业的多个子标签，所述多个子标签形成多叉树，所述多叉树的每个节点为一个子标签；

所述匹配模块，还用于以所述命中的子标签为底层节点向所述命中的子标签所在的多叉树的根节点进行搜索，得到与所述命中的子标签对应的标签层级结构链；其中，所述标签层级结构链为所述初始标签，所述初始标签为多个；

所述确定模块，还用于将与所述标签白名单存在交集的标签层级结构链确定为与所述公司简介文本对应的多个标签。

4.根据权利要求3所述的装置，其特征在于，所述输入模块，用于将所述公司简介文本输入预先训练好的网络模型，得到与所述公司简介文本对应的多个标签的概率；根据所述概率的大小，从所述多个标签中确定出所述标签白名单。

5.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行如权利要求1或2所述的方法。

6.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1或2所述的方法。