CN113255370B

CN113255370B - 基于语义相似度的行业类型推荐方法、装置、设备及介质

Info

Publication number: CN113255370B
Application number: CN202110694374.8A
Authority: CN
Inventors: 旷雄; 郑越; 黄俊斌; 梁智豪; 任伯阳
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-09-20
Anticipated expiration: 2041-06-22
Also published as: CN113255370A

Abstract

本发明公开了一种基于语义相似度的行业类型推荐方法、装置、设备及介质，该方法包括：当接收到目标企业名称时，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；基于语义相似度集合推荐目标企业名称对应的行业类型。采用本申请能降低企业所属行业类型的识别难度，进而提升了监管部门的监控效率。

Description

基于语义相似度的行业类型推荐方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，特别涉及基于语义相似度的行业类型推荐方法、装置、设备及介质。

背景技术

近年来社会现代化进程的不断加快，国内的企业数量呈现日益增长的趋势。当前，企业各行业分类标准已经制定，由于目前的企业可能提供了多个业务线，从而使得根据制定的行业标准可能会发现一个企业对应了多个所属子行业。随着信息化技术的不断发展，监管部门越发渴望能快速识别出目标企业当前的若干核心行业类型。

在现有技术方案中，当需要针对某一个企业的行业类型进行识别时，监管部门需要根据企业工商信息、产品信息、网站信息等数据进行人工手动映射分类，从而得到该企业的核心服务类型。由于监管的企业数量庞大，企业数据获取的难度大，准确度低，同时人工操作时需要耗费大量人力物力，从而加大了企业所属核心行业的识别难度，进一步降低了监管效率。

发明内容

基于此，有必要针对软件系统上线后的安全性低的问题，提供一种基于语义相似度的行业类型推荐方法、装置、设备及介质。

一种基于语义相似度的行业类型推荐方法，方法包括：当接收到目标企业名称时，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；基于语义相似度集合推荐目标企业名称对应的行业类型；其中，所述第一关键词是所述企业经营描述文本内包含的多个词汇，所述第二关键词是每个所述行业类型描述文本内包含的多个词汇。

在其中一个实施例中，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本，包括：根据所述目标企业名称从预先设定的网站中查询所述目标企业名称对应的企业经营描述文本；从预设行业类型库中匹配与所述企业经营描述文本对应的行业类型描述文本，其中所述行业类型描述文本包括一个或多个。

在其中一个实施例中，从预设行业类型库中匹配与所述企业经营描述文本对应的行业类型描述文本，其中所述行业类型描述文本包括一个或多个，包括：初始化预设行业类型库；采用滑动窗口算法创建初始滑动窗口；将所述预设行业类型库与所述初始滑动窗口进行关联，生成与所述预设行业类型库具有关联关系的目标滑动窗口；将所述企业经营描述文本输入所述目标滑动窗口中进行匹配，输出所述企业经营描述文本对应的行业类型描述文本。

在其中一个实施例中，计算第一关键词集合与多批第二关键词集合中各第二关键词集合之间的语义相似度，生成语义相似度集合，包括：将第一关键词集合输入预先训练的Word2Vec语言模型中，输出多个第一向量；均值化多个第一向量后生成第一目标向量；从多批第二关键词集合中获取任意一批第二关键词集合输入预先训练的Word2Vec语言模型中，输出多个第二向量；均值化多个第二向量后生成第二目标向量；计算第一目标向量与第二目标向量之间的余弦值，并将余弦值确定为第一目标向量与第二目标向量之间的语义相似度；将获取的任意一批第二关键词集合从多批第二关键词集合中剔除；继续执行从多批第二关键词集合中获取任意一批第二关键词集合输入预先训练的Word2Vec语言模型中的步骤，直到多批第二关键词集合中每一批第二关键词集合剔除结束后，生成语义相似度集合。

在其中一个实施例中，基于语义相似度集合推荐目标企业名称对应的行业类型，包括：将语义相似度集合中各语义相似度降序排列；从相似度数值最高的语义相似度开始依次获取预设数量的语义相似度；将预设数量的语义相似度对应的行业类型确定为目标企业名称对应的行业类型；将目标企业名称对应的行业类型推送至相关部门。

在其中一个实施例中，按照以下方式生成预先训练的Word2Vec语言模型，包括：采集多个企业经营描述与多个企业经营描述各自对应的行业类型描述文本集合生成模型训练样本；创建Word2Vec语言模型；将模型训练样本输入Word2Vec语言模型中进行训练，输出模型的损失值；当模型的损失值到达预先设定的阈值时，生成预先训练的Word2Vec语言模型；其中，所述损失值是基于概率值计算生成的，所述概率值是根据所述模型训练样本的语义向量确定出的最优常数计算生成的。

在其中一个实施例中，将模型训练样本输入Word2Vec语言模型中进行训练，输出模型的损失值，包括：

将模型训练样本输入Word2Vec语言模型中，生成模型训练样本对应的语义向量；计算语义向量对应的概率值；获取概率值对应的交叉熵；将交叉熵与预设交叉熵的差值确定为模型的损失值；输出模型的损失值；其中，计算语义向量对应的概率值，包括：计算语义向量的特征编码；识别语义向量的维度；将语义向量的特征编码与语义向量的维度作积后生成向量矩阵，并选取向量矩阵中的最大值作为最优常数；根据最优常数与预设概率值计算公式生成语义向量对应的概率值。

一种基于语义相似度的行业类型推荐装置，装置包括：文本生成模型，用于当接收到目标企业名称时，基于所述目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；关键词集合生成模块，用于对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；相似度集合生成模块，用于计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；行业类型推荐模块，用于基于所述语义相似度集合推荐所述目标企业名称对应的行业类型；其中，所述第一关键词是所述企业经营描述文本内包含的多个词汇，所述第二关键词是每个所述行业类型描述文本内包含的多个词汇。

一种设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述基于语义相似度的行业类型推荐方法的步骤。

一种存储有计算机可读指令的介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于语义相似度的行业类型推荐方法的步骤。

上述基于语义相似度的行业类型推荐方法、装置、设备和介质，基于语义相似度的行业类型推荐装置当接收到目标企业名称时，首先基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本，然后对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合，其次计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到，最后基于语义相似度集合推荐目标企业名称对应的行业类型。由于本申请根据预先训练的Word2Vec语言模型生成第一目标向量与第二目标向量，并基于第一目标向量与第二目标向量的余弦值进而确定出目标企业的最优行业类型，从而降低了企业所属行业类型的识别难度，进一步提升了监管部门的监控效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本申请一个实施例中提供的基于语义相似度的行业类型推荐方法的实施环境图；

图2为本申请一个实施例中设备的内部结构示意图；

图3为本申请一个实施例中提供的基于语义相似度的行业类型推荐方法的方法示意图；

图4为本申请一个实施例中提供的基于语义相似度的行业类型推荐过程的过程示意图；

图5为本申请另一个实施例中提供的Word2Vec模型训练方法的方法示意图；

图6是本申请实施例提供的一种基于语义相似度的行业类型推荐装置的装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为一个实施例中提供的基于语义相似度的行业类型推荐方法的实施环境图，如图1所示，在该实施环境中，包括设备110以及客户端120。

设备110可以为服务器设备，例如为缓存企业经营描述文本以及多个行业类型描述文本的设备、还可以是用来部署预先训练的Word2Vec语言模型的服务器设备。当需要进行基于语义相似度的行业类型推荐时，客户端120当接收到目标企业名称时，客户端120基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本，客户端120对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合，客户端120从设备110中加载预先训练的Word2Vec语言模型，并基于预先训练的Word2Vec语言模型计算第一关键词集合与多批第二关键词集合中各第二关键词集合之间的语义相似度，生成语义相似度集合，客户端120基于语义相似度集合推荐目标企业名称对应的行业类型。

需要说明的是，客户端120可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。设备110以及客户端120可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明在此不做限制。

图2为一个实施例中设备的内部结构示意图。如图2所示，该设备包括通过系统总线连接的处理器、介质、存储器和网络接口。其中，该设备的介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于语义相似度的行业类型推荐方法。该设备的处理器用于提供计算和控制能力，支撑整个设备的运行。该设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于语义相似度的行业类型推荐方法。该设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，介质为一种可读的存储介质。

下面将结合附图3-附图4，对本申请实施例提供的基于语义相似度的行业类型推荐方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于语义相似度的行业类型推荐装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图3，为本申请实施例提供了一种基于语义相似度的行业类型推荐方法的流程示意图。如图3所示，本申请实施例的方法可以包括以下步骤：

S101，当接收到目标企业名称时，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；

其中，目标企业名称是需要分析出该企业所属最佳几个行业类型的企业名称。企业经营描述文本是该企业在工商部门注册时经营范围的描述。

通常，企业经营描述文本可以在工商部门数据库进行查询获取，也可以在相关网站进行查询，相关网站例如：企查查。在本申请中，根据所述目标企业名称从预先设定的网站中查询所述目标企业名称对应的企业经营描述文本优先选择通过爬虫技术从企查查网站爬取目标企业名称对应的企业经营描述文本。

需要说明的是，在实际应用场景中，可以通过爬虫技术查询某一个目标企业名称对应的企业经营描述文本，也可以通过爬虫技术查询某一批目标企业对应的企业经营描述文本。

在本申请实施例中，首先根据所述目标企业名称从预先设定的网站中查询所述目标企业名称对应的企业经营描述文本，然后从预设行业类型库中匹配与所述企业经营描述文本对应的行业类型描述文本，其中所述行业类型描述文本包括一个或多个，最后将企业经营描述文本与多个行业类型描述文本确定为目标企业对应的企业经营描述文本与多个行业类型描述文本。

在一种可能的实现方式中，当需要分析目标企业对应的多个核心行业类型时，首先用户通过显示器从表格中或文档中选择某一个目标企业名称，用户选择后通过触发确定按钮进行分析，当检测到用户触发确定按钮后，基于语义相似度的行业类型推荐装置接收用户选择的目标企业名称，然后连接企查查网站，通过预先设定的爬虫技术从企查查网站内根据所述目标企业名称从预先设定的网站中查询所述目标企业名称对应的企业经营描述文本。

具体的，匹配企业经营描述文本对应的多个行业类型描述文本时，首先初始化预设行业类型库，然后采用滑动窗口算法创建初始滑动窗口，再将所述预设行业类型库与所述初始滑动窗口进行关联，生成与所述预设行业类型库具有关联关系的目标滑动窗口，最后将所述企业经营描述文本输入所述目标滑动窗口中进行匹配，输出所述企业经营描述文本对应的行业类型描述文本。

S102，对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；

通常，预处理方式至少包括文本去噪、中文分词、过滤停用词。

在本申请实施例中，在预处理企业经营描述文本与多个行业类型描述文本时，首先针对企业经营描述文本进行去噪处理，生成去噪后的企业经营描述文本，然后对去噪后的企业经营描述文本进行中文分词处理，得到去噪后的企业经营描述文本中多个词组，再针对企业经营描述文本中多个词组过滤停用词，从而得到第一关键词集合。

在本申请实施例中，在预处理多个行业类型描述文本时，首先针对多个行业类型描述文本中每个行业类型描述文本进行去噪处理，生成去噪后的多个行业类型描述文本，然后针对去噪后的多个行业类型描述文本进行中文分词，从而得到每个行业类型描述文本对应的多个词组，最后针对每个行业类型描述文本对应的多个词组过滤停用词后生成多批第二关键词集合。

S103，计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；

其中，语义相似度是基于第一关键词与第二关键词对应的语义向量计算生成的，第一关键词与第二关键词对应的语义向量是通过预先训练的Word2Vec语言模型输出的。

在本申请实施例中，按照以下方式生成预先训练的Word2Vec语言模型，首先采集多个企业经营描述与多个企业经营描述各自对应的行业类型描述文本集合生成模型训练样本，然后创建Word2Vec语言模型，再将模型训练样本输入Word2Vec语言模型中进行训练，输出模型损失值，当模型损失值到达预先设定的阈值且模型迭代训练次数到达预设次数时，生成预先训练的Word2Vec语言模型。

具体地，在将模型训练样本输入Word2Vec语言模型中进行训练，输出模型损失值时，首先将模型训练样本输入Word2Vec语言模型中，得到模型训练样本对应的语义向量，然后计算语义向量对应的概率值，再根据概率值计算交叉熵，最后将交叉熵与预设交叉熵的差值确定为模型损失值，并输出模型损失值。

具体的，概率值的计算公式为：

其中，n为语义向量个数，X为语义向量，T为语义向量的维度，e为预先确定的最优常数常数项。其中，熵是热力学中表征物质状态的参量之一，其物理意义是体系混乱程度的度量，在本申请实施例中根据交叉熵的差值来完成Word2Vec语言模型的参数优化。

进一步地，当损失值未到达预先设定的阈值时，调整Word2Vec语言模型的模型参数，并继续将模型训练样本输入调整参数后的Word2Vec语言模型中进行训练；或者，当模型迭代训练次数未到达预先设定的训练次数时，继续将模型训练样本输入Word2Vec语言模型中进行训练。

例如，将所有企业经营描述和行业类型描述文本数据进行文本去噪、中文分词、过滤停用词后得到待处理的数据文档集D，将文档集D作为Word2Vec模型的输入，来训练Word2Vec模型，得到预先训练的Word2Vec语言模型。

进一步地，现有技术中一个服务器需要部署一个Word2Vec语言模型，当全国具备多台服务器时需要部署多个Word2Vec语言模型，每个模型的占用内存较大，从而提升了存储空间，浪费人力物力财力。本申请通过将模型保存至区块链，通过区块链既可以实现模型共享，又可以保障模型不被篡改。

在一种可能的实现方式中，在预先训练的Word2Vec语言模型生成后，首先将第一关键词集合V1依次输入预先训练的Word2Vec语言模型后输出多个第一向量，再将多个第一向量进行均值化后得到第一目标向量，然后从多批第二关键词集合中获取任何一批第二关键词集合V2，并将第一批第二关键词集合V2中每个关键词输入预先训练的Word2Vec语言模型后输出多个第二向量，再将多个第二向量进行均值化后得到第二目标向量，其次计算第一目标向量与第二目标向量的目标余弦值，并将目标余弦值确定为第一关键词集合V1与第一批第二关键词集合V2之间的目标语义相似度，最后将获取的该批第二关键词集合V2从多批第二关键词集合中删除。

具体的，目标余弦值计算公式为：

进一步地，判断多批第二关键词集合中是否还存在某一批第二关键词集合，若不存在，说明多批第二关键词集合全部遍历结束，进行下一步。否则，继续执行从多批第二关键词集合中获取任何一批第二关键词集合V2的步骤，直到多批第二关键词集合全部遍历结束，当多批第二关键词集合全部遍历结束时，生成语义相似度集合，语义相似度集合中包含多个目标语义相似度。

S104，基于语义相似度集合推荐目标企业名称对应的行业类型；其中，所述第一关键词是所述企业经营描述文本内包含的多个词汇，所述第二关键词是每个所述行业类型描述文本内包含的多个词汇。

在本申请实施例中，当基于步骤S104得到多个目标语义相似度后，根据相似度的大小将多个目标语义相似度进行降序排列，生成降序排序后的多个语义相似度，根据排序后的高低顺序从初始位置获取预设数量的语义相似度对应的行业类型，最后将获取的预设数量的语义相似度对应的行业类型确定为目标企业最优的多个行业类型，并将最优的多个行业类型推荐至相关部门。

例如，根据相似度的大小，由高到低进行排序，返回相似度排在TOP5的行业类型，作为目标企业所涉及的行业。

例如图4所示，图4为本申请提供的一种基于语义相似度的行业类型推荐过程的过程示意框图，首先获取多个企业的企业经营描述文本与各企业的企业经营描述文本对应的每个行业类型描述文本作为数据样本，然后构建语言模型并将数据样本输入模型进行训练后生成预先训练的语言模型。当预先训练的模型应用到实际场景中后，获取目标企业的企业经营描述文本，然后根据目标企业的企业经营描述文本查询该企业对应的多个行业类型描述文本，其次将企业经营描述文本与多个行业类型描述文本的关键词集合输入预先训练的语言模型中进行处理后输出目标企业的企业经营描述文本对应的语义向量与多个行业类型描述文本对应的语义向量，再进行语义相似度对比来生成多个目标语义相似度，并将多个目标语义相似度排序后获取排在前边的预设数量的目标语义相似度，最后将排在前边的预设数量的目标语义相似度对应的行业类型进行推荐。

在本申请实施例中，首先基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本，然后对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合，其次计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到，最后基于语义相似度集合推荐目标企业名称对应的行业类型。由于本申请根据预先训练的Word2Vec语言模型生成第一目标向量与第二目标向量，并基于第一目标向量与第二目标向量的余弦值进而确定出目标企业的最优行业类型，从而降低了企业所属行业类型的识别难度，进一步提升了监管部门的监控效率。

如图5所示，图5是本申请提供的一种基于语义相似度的行业类型推荐中模型的训练方法，包括：

S201，采集多个企业经营描述与多个企业经营描述各自对应的行业类型描述文本集合生成模型训练样本；

S202，创建Word2Vec语言模型；

S203，将模型训练样本输入Word2Vec语言模型中，生成模型训练样本对应的语义向量；

S204，计算语义向量的特征编码；

S205，识别语义向量的维度；

S206，将语义向量的特征编码与语义向量的维度作积后生成向量矩阵，并选取向量矩阵中的最大值作为最优常数；

S207，根据最优常数与预设概率值计算公式生成语义向量对应的概率值；

S208，获取概率值对应的交叉熵；

S209，将交叉熵与预设交叉熵的差值确定为模型的损失值；

S210，当模型的损失值到达预先设定的阈值时，生成预先训练的Word2Vec语言模型。

通常，由于现有技术中模型训练过程中概率值的计算仅通过语义向量的个数与语义向量的维度计算出概率值，基于该概率值计算出的模型损失值与预先设定的阈值相差甚远，此时需要经过多次参数调整才能使得模型损失值接近预先设定的阈值，从而增加了模型参数调整的频率，提升了模型训练的时间。

本申请通过在概率值计算过程中加入了可根据当前语义向量维度自动变化的可变参数，通过可变参数计算出概率值，根据可变参数计算出概率值进一步计算出的模型损失值可以最大程度的接近预先设定的阈值，从而大大减少了模型参数调整的频率，进一步提升了模型的训练效率。

需要说明的是，本申请通过可控参数法使得模型的训练次数大大降低。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图6，其示出了本发明一个示例性实施例提供的基于语义相似度的行业类型推荐装置的结构示意图，应用于服务器。该基于语义相似度的行业类型推荐系统可以通过软件、硬件或者两者的结合实现成为设备的全部或一部分。该装置1包括文本生成模型10、关键词集合生成模块20、相似度集合生成模块30、行业类型推荐模块40。

文本生成模型10，用于当接收到目标企业名称时，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；

关键词集合生成模块20，用于对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；

相似度集合生成模块30，用于计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；

行业类型推荐模块40，用于基于语义相似度集合推荐目标企业名称对应的行业类型；其中，所述第一关键词是所述企业经营描述文本内包含的多个词汇，所述第二关键词是每个所述行业类型描述文本内包含的多个词汇。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在一个实施例中，提出了一种设备，设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：当接收到目标企业名称时，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；基于语义相似度集合推荐目标企业名称对应的行业类型。

在一个实施例中，处理器执行从预设行业类型库中匹配与所述企业经营描述文本对应的行业类型描述文本，其中所述行业类型描述文本包括一个或多个时，具体执行以下操作：初始化预设行业类型库；采用滑动窗口算法创建初始滑动窗口；将所述预设行业类型库与所述初始滑动窗口进行关联，生成与所述预设行业类型库具有关联关系的目标滑动窗口；将所述企业经营描述文本输入所述目标滑动窗口中进行匹配，输出所述企业经营描述文本对应的行业类型描述文本。

在一个实施例中，处理器执行计算第一关键词集合与多批第二关键词集合中各第二关键词集合之间的语义相似度，生成语义相似度集合时，具体执行以下操作：将第一关键词集合输入预先训练的Word2Vec语言模型中，输出多个第一向量；均值化多个第一向量后生成第一目标向量；从多批第二关键词集合中获取任意一批第二关键词集合输入预先训练的Word2Vec语言模型中，输出多个第二向量；均值化多个第二向量后生成第二目标向量；计算第一目标向量与第二目标向量之间的余弦值，并将余弦值确定为第一目标向量与第二目标向量之间的语义相似度；将获取的任意一批第二关键词集合从多批第二关键词集合中剔除；继续执行从多批第二关键词集合中获取任意一批第二关键词集合输入预先训练的Word2Vec语言模型中的步骤，直到多批第二关键词集合中每一批第二关键词集合剔除结束后，生成语义相似度集合。

在一个实施例中，处理器执行基于语义相似度集合推荐目标企业名称对应的行业类型时，具体执行以下操作：将语义相似度集合中各语义相似度降序排列；从相似度数值最高的语义相似度开始依次获取预设数量的语义相似度；将预设数量的语义相似度对应的行业类型确定为目标企业名称对应的行业类型；将目标企业名称对应的行业类型推送至相关部门。

在一个实施例中，处理器生成预先训练的Word2Vec语言模型时，具体执行以下操作：采集多个企业经营描述与多个企业经营描述各自对应的行业类型描述文本集合生成模型训练样本；创建Word2Vec语言模型；将模型训练样本输入Word2Vec语言模型中进行训练，输出模型的损失值；当模型的损失值到达预先设定的阈值时，生成预先训练的Word2Vec语言模型。

在一个实施例中，处理器执行将模型训练样本输入Word2Vec语言模型中进行训练，输出模型的损失值时，具体执行以下操作：将模型训练样本输入Word2Vec语言模型中，生成模型训练样本对应的语义向量；计算语义向量对应的概率值；获取概率值对应的交叉熵；将交叉熵与预设交叉熵的差值确定为模型的损失值；输出模型的损失值。

在一个实施例中，处理器执行计算语义向量对应的概率值时，具体执行以下操作：计算语义向量的特征编码；识别语义向量的维度；将语义向量的特征编码与语义向量的维度作积后生成向量矩阵，并选取向量矩阵中的最大值作为最优常数；根据最优常数与预设概率值计算公式生成语义向量对应的概率值。

在一个实施例中，提出了一种存储有计算机可读指令的介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：当接收到目标企业名称时，基于目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；基于语义相似度集合推荐目标企业名称对应的行业类型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性介质，或随机存储记忆体(RandomAccess Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于语义相似度的行业类型推荐方法，其特征在于，所述方法包括：

当接收到目标企业名称时，基于所述目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；

对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；

计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；

基于所述语义相似度集合推荐所述目标企业名称对应的行业类型；其中，所述第一关键词是所述企业经营描述文本内包含的多个词汇，所述第二关键词是每个所述行业类型描述文本内包含的多个词汇；其中，按照以下方式生成预先训练的Word2Vec语言模型，包括：

采集多个企业经营描述与所述多个企业经营描述各自对应的行业类型描述文本集合生成模型训练样本；

创建Word2Vec语言模型；

将所述模型训练样本输入所述Word2Vec语言模型中进行训练，输出所述模型的损失值；

当所述模型的损失值到达预先设定的阈值时，生成预先训练的Word2Vec语言模型，其中，所述损失值是基于概率值计算生成的，所述概率值是根据所述模型训练样本的语义向量确定出的最优常数计算生成的；其中，

所述将所述模型训练样本输入所述Word2Vec语言模型中进行训练，输出所述模型的损失值，包括：

将所述模型训练样本输入所述Word2Vec语言模型中，生成模型训练样本对应的语义向量；

计算所述语义向量对应的概率值；

获取所述概率值对应的交叉熵；

将所述交叉熵与预设交叉熵的差值确定为所述模型的损失值；

输出所述模型的损失值；其中，

所述计算所述语义向量对应的概率值，包括：

计算所述语义向量的特征编码；

识别所述语义向量的维度；

将所述语义向量的特征编码与所述语义向量的维度作积后生成向量矩阵，并选取所述向量矩阵中的最大值作为最优常数；

根据所述最优常数与预设概率值计算公式生成语义向量对应的概率值；

其中，预设概率值计算公式为：

其中，

n为语义向量个数，X为语义向量，T为语义向量的维度，e为最优常数。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本，包括：

根据所述目标企业名称从预先设定的网站中查询所述目标企业名称对应的企业经营描述文本；

从预设行业类型库中匹配与所述企业经营描述文本对应的行业类型描述文本，其中所述行业类型描述文本包括一个或多个。

3.根据权利要求2所述的方法，其特征在于，所述从预设行业类型库中匹配与所述企业经营描述文本对应的行业类型描述文本，包括：

初始化预设行业类型库；

采用滑动窗口算法创建初始滑动窗口；

将所述预设行业类型库与所述初始滑动窗口进行关联，生成与所述预设行业类型库具有关联关系的目标滑动窗口；

将所述企业经营描述文本输入所述目标滑动窗口中进行匹配，输出所述企业经营描述文本对应的行业类型描述文本。

4.根据权利要求1所述的方法，其特征在于，所述计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合，包括：

将所述第一关键词集合输入预先训练的Word2Vec语言模型中，输出多个第一向量；

均值化所述多个第一向量后生成第一目标向量；

从所述多个第二关键词集合中获取任意一个第二关键词集合输入所述预先训练的Word2Vec语言模型中，输出多个第二向量；

均值化所述多个第二向量后生成第二目标向量；

计算所述第一目标向量与所述第二目标向量之间的余弦值，并将所述余弦值确定为所述第一目标向量与所述第二目标向量之间的语义相似度；

将获取的所述任意一个第二关键词集合从所述多个第二关键词集合中剔除；

继续执行所述从所述多个第二关键词集合中获取任意一个第二关键词集合输入所述预先训练的Word2Vec语言模型中的步骤，直到所述多个第二关键词集合中每一个第二关键词集合剔除结束后，生成语义相似度集合。

5.根据权利要求1所述的方法，其特征在于，所述基于所述语义相似度集合推荐所述目标企业名称对应的行业类型，包括：

将所述语义相似度集合中各语义相似度降序排列；

从相似度数值最高的语义相似度开始依次获取预设数量的语义相似度；

将所述预设数量的语义相似度对应的行业类型确定为所述目标企业名称对应的行业类型；

将所述目标企业名称对应的行业类型推送至相关部门。

6.一种基于语义相似度的行业类型推荐装置，其特征在于，所述装置包括：

文本生成模型，用于当接收到目标企业名称时，基于所述目标企业名称生成目标企业对应的企业经营描述文本与多个行业类型描述文本；

关键词集合生成模块，用于对所述企业经营描述文本进行预处理得到第一关键词集合，同时对所述多个行业类型描述文本分别进行预处理得到多个第二关键词集合；

相似度集合生成模块，用于计算所述第一关键词集合与各第二关键词集合之间的语义相似度，并生成语义相似度集合；其中，所述语义相似度为基于预先训练的Word2Vec语言模型得到；

行业类型推荐模块，用于基于所述语义相似度集合推荐所述目标企业名称对应的行业类型；其中，所述第一关键词是所述企业经营描述文本内包含的多个词汇，所述第二关键词是每个所述行业类型描述文本内包含的多个词汇；其中，按照以下方式生成预先训练的Word2Vec语言模型，包括：