CN113779967A

CN113779967A - 企业转型信息生成方法及装置、存储介质、电子设备

Info

Publication number: CN113779967A
Application number: CN202110429290.1A
Authority: CN
Inventors: 孙沁田; 胡安民; 张钧波; 郑宇�
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-12-10

Abstract

本公开涉及计算机领域，提供了一种企业转型信息生成方法及装置、计算机存储介质、电子设备，方法包括：获取与目标企业相关的文本信息、分类数据和关系网信息；基于文本信息确定第一转型分数和第一转型描述，基于分类数据确定第二转型分数和第二转型描述，并基于关系网信息确定第三转型分数和第三转型描述；根据第一转型分数、第二转型分数和第三转型分数确定企业转型分数，并将第一转型描述、第二转型描述和第三转型描述进行整合，以获取企业转型描述；根据企业转型分数和企业转型描述生成与目标企业对应的企业转型信息。本公开能够从多个数据来源获取数据分析并生成企业转型信息，避免了人工监测，进而减少了成本，提高了效率。

Description

企业转型信息生成方法及装置、存储介质、电子设备

技术领域

本公开涉及计算机领域，特别涉及一种企业转型信息生成方法、企业转型信息生成装置、计算机存储介质及电子设备。

背景技术

企业转型监测有助于政府扶持相关企业，宏观的企业转型监测分析也能反映出营商环境、经济趋势的变化，为政策制定提供依据。为了监测企业转型，现有的技术通常依赖于对企业自身填报的经营范围描述进行人为分析，如图1所示，可以看出该企业正从单一的房地产开发业涉足更多行业。

但是通过人为分析监测企业转型存在成本大、效率低、无法自动化的问题，并且数据来源单一，仅依赖于企业自身填报的经营范围，信息可能滞后，导致监测效率低、准确率差。

鉴于此，本领域亟需开发一种新的企业转型信息生成方法及装置。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种企业转型信息生成方法、企业转型信息生成装置、计算机存储介质及电子设备，进而至少在一定程度上提高了企业转型监测的效率和准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种企业转型信息生成方法，其特征在于，包括：

获取与目标企业相关的文本信息、分类数据和关系网信息；

基于所述文本信息确定第一转型分数和第一转型描述，基于所述分类数据确定第二转型分数和第二转型描述，并基于所述关系网信息确定第三转型分数和第三转型描述；

根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，并将所述第一转型描述、所述第二转型描述和所述第三转型描述进行整合，以获取企业转型描述；

根据所述企业转型分数和所述企业转型描述生成与所述目标企业对应的企业转型信息。

在本公开的示例性实施例中，所述文本信息包括历史文本信息和当前文本信息；

所述基于所述文本信息确定第一转型分数和第一转型描述，包括：

计算所述历史文本信息和所述当前文本信息之间的第一相似度，根据所述第一相似度确定所述第一转型分数；

将所述历史文本信息和所述当前文本信息进行对比，以生成所述第一转型描述。

在本公开的示例性实施例中，所述计算所述历史文本信息和所述当前文本信息之间的第一相似度，包括：

对所述历史文本信息和所述当前文本信息分别进行分词；

基于所述历史文本信息对应的分词计算与所述历史文本信息对应的第一TF-IDF向量；

基于所述当前文本信息对应的分词计算与所述当前文本信息对应的第二TF-IDF向量；

计算所述第一TF-IDF向量与所述第二TF-IDF向量之间的距离，以获取所述第一相似度。

在本公开的示例性实施例中，所述根据所述第一相似度确定所述第一转型分数，包括：

获取1与所述第一相似度之间的差值，并将所述差值作为所述第一转型分数。

在本公开的示例性实施例中，所述分类数据包括历史分类数据和当前分类数据；

所述基于所述分类数据确定第二转型分数和第二转型描述，包括：

计算所述历史分类数据和所述当前分类数据之间的第二相似度，根据所述第二相似度确定所述第二转型分数；

将所述历史分类数据和所述当前分类数据进行对比，以生成所述第二转型描述。

在本公开的示例性实施例中，所述历史分类数据和所述当前分类数据为稀疏型散点数据；

所述计算所述历史分类数据和所述当前分类数据之间的第二相似度，根据所述第二相似度确定所述第二转型分数，包括：

将所述当前分类数据与所述历史分类数据进行比对；

当所述当前分类数据中存在不同于所述历史分类数据的分类数据时，确定所述第二转型分数为1。

在本公开的示例性实施例中，所述历史分类数据和所述当前分类数据为稠密型散点数据；

基于所述历史分类数据获取第三TF-IDF向量，并基于所述当前分类数据获取第四TF-IDF向量；

计算所述第三TF-IDF向量与所述第四TF-IDF向量之间的距离，以获取所述第二相似度；

获取1与所述第二相似度之间的差值，并将所述差值作为所述第二转型分数。

在本公开的示例性实施例中，所述关系网数据包括历史关系网数据和当前关系网数据

所述基于所述关系网数据确定第三转型分数和第三转型描述，包括：

计算所述历史关系网数据和所述当前关系网数据之间的第三相似度，根据所述第三相似度确定所述第三转型分数；

获取所述目标企业与所述历史关系网数据中其它企业的第一距离，以及所述目标企业与所述当前关系网数据中其它企业的第二距离；

将所述第一距离和所述第二距离进行对比，以生成所述第三转型描述。

在本公开的示例性实施例中，所述计算所述历史关系网信息和所述当前关系网信息之间的第三相似度，包括：

基于所述历史关系网信息构建历史关系图，并基于所述当前关系网信息构建当前关系图；

分别对所述历史关系图和所述当前关系图进行随机游走，以生成多个历史企业序列和当前企业序列；

通过图神经网络分别对所述历史企业序列和所述当前企业序列进行特征提取，以获取与所述历史企业序列对应的第一向量和与所述当前企业序列对应的第二向量；

计算所述第一向量与所述第二向量之间的距离，以获取所述第三相似度。

在本公开的示例性实施例中，所述根据所述第三相似度确定所述第三转型分数，包括：

获取1与所述第三相似度之间的差值，并将所述差值作为所述第三转型分数。

在本公开的示例性实施例中，所述根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，包括：

对所述第一转型分数、所述第二转型分数和所述第三转型分数进行加权求和，以获取所述企业转型分数。

根据本公开的第二方面，提供一种企业转型信息生成装置，其特征在于，包括：

信息获取模块，用于获取与目标企业相关的文本信息、分类数据和关系网信息；

信息处理模块，用于基于所述文本信息确定第一转型分数和第一转型描述，基于所述分类数据确定第二转型分数和第二转型描述，并基于所述关系网信息确定第三转型分数和第三转型描述；

信息整合模块，用于根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，并将所述第一转型描述、所述第二转型描述和所述第三转型描述进行整合，以获取企业转型描述；

信息生成模块，用于根据所述企业转型分数和所述企业转型描述生成与所述目标企业对应的企业转型信息。

根据本公开的第三方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的企业转型信息生成方法。

根据本公开的的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的企业转型信息生成方法。

由上述技术方案可知，本公开示例性实施例中的企业转型信息生成方法、企业转型信息生成装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

本公开中的企业转型信息生成方法，首先获取与目标企业相关的文本信息、分类数据和关系网信息；接着基于文本信息确定第一转型分数和第一转型描述，基于分类数据确定第二转型分数和第二转型描述，并基于关系网信息确定第三转型分数和第三转型描述；然后根据第一转型分数、第二转型分数和第三转型分数确定企业转型分数，并将第一转型描述、第二转型描述和第三转型描述进行整合，以获取企业转型描述；最后根据企业转型分数和企业转型描述生成与目标企业对应的企业转型信息。基于企业转型信息即可明确企业是否转型，以及具体的转型方向。本公开的企业转型信息生成方法一方面能够从多个数据来源获取数据分析并生成企业转型信息，保证了数据获取的及时性，进而提高了企业转型信息的准确率；另一方面能够避免人工监测，通过自动化方式实现企业转型的监测，进而减少成本，提高效率。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出相关技术中企业转型信息的界面示意图；

图2示出本公开示例性实施例中企业转型信息生成方法的流程示意图；

图3示出本公开示例性实施例中获取第一相似度的流程示意图；

图4示出本公开示例性实施例中第一转型分数和第一转型描述的界面示意图；

图5示出本公开示例性实施例中基于企业采购商品类目所确定的转型分数和转型描述的界面示意图；

图6示出本公开示例性实施例中确定第三转型分数和第三转型描述的流程示意图；

图7示出本公开示例性实施例中确定第三转型分数的流程示意图；

图8示出本公开示例性实施例中根据目标企业历史关系网信息构建的有向图的结构示意图；

图9示出本公开示例性实施例中根据目标企业的当前关系网信息构建的有向图的界面示意图；

图10示出本公开示例性实施例中企业转型信息的界面示意图；

图11示出本公开示例性实施例中企业转型信息生成装置的结构示意图；

图12示出本公开示例性实施例中计算机存储介质的结构示意图；

图13示出本公开示例性实施例中电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

应用本公开实施例的技术方案的示例性系统架构具体可以包括终端设备、网络以及服务器。其中，上述终端设备可以是智能手机、便携式计算机、平板电脑等具有显示单元的终端设备，用户通过终端设备可以向服务器发送关于目标企业的企业转型信息生成请求；网络用以在终端设备和服务器之间提供通信链路的介质，网络可以包括各种连接类型，例如有线通信链路、无线通信链路等等，在本公开实施例中，终端设备和服务器之间的网络可以是无线通信链路，具体地可以是移动网络，该移动网络可以将企业转型信息生成请求发送至服务器，以使服务器获取与该目标企业相关的文本信息、分类数据和关系网信息，进而通过对该些信息进行分析获取与目标企业对应的企业转型信息，该企业转型信息可以呈现在终端设备的显示界面，供用户从中分析得出目标企业的转型方向及转型程度。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。值得说明的是，本公开中的服务器可以是独立的服务器或者是多个服务器形成的服务器集群。

值得说明的是，服务器还可以将获取的与目标企业相关的文本信息、分类数据和关系网信息通过网络返回至终端设备，以使终端设备对该些信息进行分析获取与目标企业对应的企业转型信息，并将该企业转型信息呈现在终端设备的显示界面，供用户从中分析得出目标企业的转型方向及转型程度。

在本公开的相关技术中，对企业转型的监测主要依赖于人工监测，通过监测人员对企业不同时间段的经营范围文本描述及变更记录进行对比，判断企业是否存在转型。但是人工监测的方法存在两个缺点：(1)无法自动化，并且需要人为分析每家企业，成本大、效率低；(2)数据来源单一，仅仅依赖企业自身填报的经营范围，信息可能滞后。

针对相关技术中存在的问题，本公开提出了一种企业转型信息生成方法，该企业转型信息生成方法可以由服务器执行，也可以由终端设备执行。图2示出了企业转型信息生成方法的流程图，如图2所示，企业转型信息生成方法包括：

步骤S210：获取与目标企业相关的文本信息、分类数据和关系网信息；

步骤S220：基于所述文本信息确定第一转型分数和第一转型描述，基于所述分类数据确定第二转型分数和第二转型描述，并基于所述关系网信息确定第三转型分数和第三转型描述；

步骤S230：根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，并将所述第一转型描述、所述第二转型描述和所述第三转型描述进行整合，以获取企业转型描述；

步骤S240：根据所述企业转型分数和所述企业转型描述生成与所述目标企业对应的企业转型信息。

本公开的企业转型信息生成方法通过对多源数据进行采集并分析以获取企业转型信息，一方面能够从多个数据来源获取数据分析并生成企业转型信息，保证了数据获取的及时性，进而提高了企业转型信息的准确率；另一方面能够避免人工监测，通过自动化方式实现企业转型的监测，进而减少成本，提高效率。

下面对企业转型信息生成方法的各个步骤进行详细说明。

在步骤S210中，获取与目标企业相关的文本信息、分类数据和关系网信息。

在本公开的示例性实施例中，为了判断目标企业是否存在转型，用户可以通过终端设备从多个平台的服务器中获取与目标企业相关的数据，根据所获取的多源数据进行分析，以获取目标企业的企业转型信息。在本公开的实施例中，可以获取与目标企业相关的三类数据，分别为文字信息、分类数据和关系网信息，其中文字信息具体为目标企业的经营范围文本描述及变更记录，具体可以在工商行政管理局或天眼查、企查查中获取，还可以爬取企业官网、门户网站等来源的公开文本中获取与企业经营范围相关的文本；分类数据主要是与目标企业的经营相关的散列数据，例如可以是企业采购商品类目、企业销售商品类目、企业持有的经营许可证类型、企业缴税类型等等，具体地可以从线上线下销售采购渠道、各种企业购平台/电商网站、工商局、税务局等来获取上述类型的分类数据；关系网信息包括目标企业与其它企业之间的供需、交易关系，具体可以从企业撮合平台上的交易数据和企业填报的关联信息等数据源获取关系网信息。

进一步地，对于天眼查、企查查网站获取的企业经营变更类目，只需在变更发生时记录变更前后的经营范围文本信息，对于企业官网等爬取的企业经营范围相关的文本信息，可以人为定义文本信息的更新频率，例如每月定时爬取一次文本；对于企业持有的经营许可证类型、企业缴税类型等数据，只需在变更发生时记录新增类目，其它数据的更新频率取决于企业的行为频率，例如，企业在某企业采购平台每月都会进行几次采购，可以定义更新频率为按月；同样地，对于关系网信息的获取可以根据企业交易的频率，定义更新频率为按月。值得说明的是，人为定义的更新频率还可以是其它的频率，不仅限于按月，本公开实施例对此不做具体限定。

在步骤S220中，基于所述文本信息确定第一转型分数和第一转型描述，基于所述分类数据确定第二转型分数和第二转型描述，并基于所述关系网信息确定第三转型分数和第三转型描述。

在本公开的示例性实施例中，由于是判断目标企业是否存在转型，因此必然需要将目标企业当前的状态与历史状态进行比较，因而在采集文本信息、分类数据和关系网信息时需要采集对应的历史信息和当前信息，也就是说，文本信息包括历史文本信息和当前文本信息，分类数据包括历史分类数据和当前分类数据，关系网信息包括历史关系网信息和当前关系网信息。值得说明的是，本申请中的历史和当前均对应一时间段，而不是一个时间点，例如历史文本信息可以是上一月的企业经营范围文本描述及变更记录，当前文本信息是当月的企业经营范围文本描述及变更记录，等等。

在基于文本信息确定第一转型分数和第一转型描述时，可以通过对历史文本信息和当前文本信息进行向量化处理，根据二者所对应的向量计算当前文本信息和历史文本信息之间的第一相似度，进而根据第一相似度确定第一转型分数，同时将历史文本信息和当前文本信息进行对比以生成第一转型描述。

图3示出了获取第一相似度的流程示意图，如图3所示，在步骤S301中，对历史文本信息和当前文本信息分别进行分词；在步骤S302中，基于历史文本信息对应的分词计算与历史文本信息对应的第一TF-IDF向量；在步骤S303中，基于当前文本信息对应的分词计算与当前文本信息对应的第二TF-IDF向量；在步骤S304中，计算第一TF-IDF向量与第二TF-IDF向量之间的距离，以获取第一相似度。

其中，在对历史文本信息和当前文本信息分别进行分词时，可以利用Python中的Jieba库进行分词，以将历史文本信息和当前文本信息分解成为由多个分词构成的文本。在完成分词后，可以根据TF-IDF算法计算与历史文本信息和当前文本信息对应的第一TF-IDF向量和第二TF-IDF向量。以计算第一TF-IDF向量为例，对该向量的计算过程进行说明：

计算词频TF，具体表达式如公式(1)所示：

其中，某词为Jieba库中的词，文本为历史文本信息，某词在文本中出现次数为该词在历史文本信息中出现的次数，文本总词数为历史文本信息所包含的分词数量。

计算逆文档频率IDF，具体表达式如公式(2)所示：

其中，文本总数为Jieba库中包含的文本的总数量，包含该词的文本数为Jieba库中包含某词的文本数。

在获取TF值和IDF值后，将二者相乘即可得到与某词对应的TF-IDF值，如公式(3)所示：

TF-IDF＝TF×IDF (3)

通过根据公式(1)-(3)计算Jieba库中每个词语对应的TF-IDF值，即可根据所有词语的TF-IDF值确定第一TF-IDF向量，也就是说，第一TF-IDF向量中每个元素分别对应Jieba库中每个词语在历史文本信息中的TF-IDF值。

根据上述方法可以获取与历史文本信息对应的第一TF-IDF向量，记为υ1，同样地，可以根据上述方法获取与当前文本信息对应的第二TF-IDF向量，记为υ2。为了判断目标企业是否存在转型，也就是判断当前文本信息相对于历史文本信息是否存在变化，可以通过判断υ1和υ2之间的第一相似度进行确定。在本公开的实施例中，可以采用余弦距离、欧式距离、马氏距离、曼哈顿距离等进行相似度判断，以余弦距离为例，可以采用公式(4)计算υ1和υ2之间的第一相似度，具体如下：

进一步地，根据第一相似度可以确定第一转型分数，具体地，可以获取1与第一相似度之间的差值(1-第一相似度)，该差值即为第一转型分数。从第一转型分数的计算公式可以看出，第一相似度越小，表示目标企业的转型程度越大；第一相似度越大，表示目标企业的转型程度越小。

同时，还可以通过对比历史文本信息和当前文本信息，确定目标企业的经营范围文本描述及变更记录中发生变化的部分，进而可以生成第一转型描述。例如，目标企业的经营范围文本描述在变更前为“房地产开发”，变更后为“房地产开发、建筑装修、建筑装饰材料经销、汽车出租、商场、餐饮、娱乐***”，那么通过对比可以发现，当前文本信息中的“建筑装修、建筑装饰材料经销、汽车出租、商场、餐饮、娱乐***”均为新增经营范围，因此可以将新增经营范围通过不同的字体、颜色、大小等属性设置标记为不同于“房地产开发”的属性设置。图4示出了第一转型分数和第一转型描述的界面示意图，如图4所示，其中存在两条企业的转型信息，每条企业的转型信息分别由变更前经营范围文本描述、变更后经营范围文本描述和第一转型分数组成，根据转型分数可以明确，第一条转型信息对应的企业的转型程度大于第二条转型信息所对应的企业的转型程度。

在本公开的示例性实施例中，还可以根据分类数据确定第二转型分数和第二转型描述，与文本信息类似，分类数据也包括历史分类数据和当前分类数据，其中历史分类数据表示与当前时间段的分类数据所对应的上一时间段的分类数据。在本公开的实施例中，分类数据具体为企业经营分类数据，例如包括企业采购商品类目、企业销售商品类目、企业持有的经营许可证类型、企业缴税类型等等，该些分类数据可以从线上线下销售采购渠道、各种企业购平台/电商网站、工商局、税务局等平台或机构获取。与获取第一转型分数和第一转型描述类似，可以通过计算历史分类数据和当前分类数据之间的第二相似度确定第二转型分数，以及通过将历史分类数据和当前分类数据进行对比以生成第二转型描述。

在确定第二转型分数时，对于不同的分类数据可以采用不同的方式，具体地，对于企业持有的经营许可证类型、企业缴税等类型的数据，其更新频率较低，只需在变更发生时记录新增类目即可，因此该类数据可视为稀疏型散列数据。而对于企业采购商品类目、企业销售商品类目等类型的数据，其更新频率较高，例如有的企业每月会在企业采购平台进行多次采购等等，因此该类数据可视为稠密型散列数据。针对稀疏型散列数据，可以通过比对当前分类数据与历史分类数据，在确定当前分类数据中存在不同于历史分类数据的分类数据时，确定第二转型分数为1，否则为0；针对稠密型散列数据，则可以通过计算当前分类数据和历史分类数据之间的相似度以确定第二转型分数，具体地，还可以基于TF-IDF思想进行相似度计算。

以企业采购数据为例进行说明，可以采用与公式(1)-(2)类似的计算公式计算与分类数据对应的TF、IDF值，具体如公式(3)-(4)所示：

其中，目标类目商品为类目库中任意类目的商品，而类目库是根据所有企业在线上线下销售采购渠道、各种企业购平台/电商网站进行采购的历史所统计得到的所有商品类目的集合。

接着，根据公式(5)可以获取与历史分类数据对应的第三TF-IDF向量中的TF-IDF值以及与当前分类数据对应的第四TF-IDF向量中的TF-IDF值：

TF-IDF＝TF×IDF (5)

根据公式(3)-(5)的计算，可以获取与历史分类数据对应的第三TF-IDF向量和与当前分类数据对应的第四TF-IDF向量，向量中的每个元素对应类目库中各个商品类目在目标企业的历史时间段或当前时间段采购向量中的TF-IDF分数。

与计算第一转型分数类似，可以通过计算第三TF-IDF向量和第四TF-IDF向量之间的第二相似度，以确定第二转型分数。以余弦距离计算第二相似度为例，具体计算公式如式(6)所示：

其中，υ3为第三TF-IDF向量，υ4为第四TF-IDF向量。

在获取第二相似度后，可以获取1与第二相似度之间的差值，并将该差值作为第二转型分数，即(1-第二相似度)。同样地，第二相似度越小，表示目标企业的转型程度越大。另外，还可以通过对比历史分类数据和当前分类数据，生成第二转型描述，图5示出了基于企业采购商品类目所确定的转型分数和转型描述的界面示意图，如图5所示，某企业的历史采购商品类目为“办公桌椅”，当前采购商品类目为“办公桌椅，血糖仪”，新增“血糖仪”，因此可以对“血糖仪”采用不同于“办公桌椅”的字体、颜色、大小进行标注。同时根据图5中第二组信息可知，某企业的历史采购商品类目为“办公桌椅，血糖仪”，当前采购商品类目为“办公桌椅，血糖仪，显示器”，新增“显示器”，因此可以对“显示器”采用不同于“办公桌椅，血糖仪”的字体、颜色、大小进行标注，并且第一组信息对应的转型分数为0.95，第二组信息对应的转型分数为0.1，说明第一组信息对应的企业的转型程度大于第二组信息对应的企业的转型程度。

在本公开的示例性实施例中，分类数据的类型有多个，因此可以根据各个类型的分类数据获取与其对应的第二转型分数和第二转型描述，在根据文本信息、分类数据和关系网信息获取所有的转型分数和转型描述，并进行融合时，再将多个转型分数进行加权求和以获取与目标企业对应的企业转型分数，以及将多个转型描述进行叠加以获取与目标企业对应的企业转型描述。

值得说明的是，在更新如企业采购商品类目、企业销售商品类目等稠密性散列数据时，由于企业的行为频率不固定，因此可以按月定义更新频率，当然还可以按半月、季度等定义更新频率，等等。另外，在计算TF和IDF时采用的是企业的采购次数，但是由于企业各类目采购行为的稀疏型，为了提高计算结果的准确性，可以将历史分类数据和当前分类数据中与采购次数对应的数据定义为企业在上月往前一年的各类目商品的采购次数和企业在当月往前一年的各类目商品的采购次数，例如当月为2021年4月，那么历史分类数据中所包含的采购次数为企业在2020年4月1日至2021年3月31日的各类目商品的采购次数，当前分类数据中所包含的采购次数为企业在2020年5月1日至2021年4月30日的各类目商品的采购次数。

在本公开的示例性实施例中，通过对目标企业的关系网信息进行梳理，可以明确目标企业与其它企业之间的供需、交易关系。关系网信息可以从企业撮合平台上的交易数据、企业填报的关联信息等信息源获取，根据关系网信息的更新频率可以获取当前关系网信息和与之对应的历史关系网信息，例如当按月更新关系网信息时，当前关系网信息可以是当月与目标企业存在供需、交易关系的企业信息，历史关系网信息可以是上月与目标企业存在供需、交易关系的企业信息，等等。

同样地，基于历史关系网信息和当前关系网信息可以确定与目标企业对应的第三转型分数和第三转型描述。图6示出了确定第三转型分数和第三转型描述的流程示意图，如图6所示，在步骤S601中，计算历史关系网信息和当前关系网信息之间的第三相似度，根据第三相似度确定第三转型分数；在步骤S602中，获取目标企业与历史关系网信息中其它企业的第一距离，以及目标企业与当前关系网信息中其它企业的第二距离；在步骤S603中，将第一距离和第二距离进行对比，以生成第三转型描述。

步骤S601可以根据图7所示的流程示意图实现，具体如下：

在步骤S701中，基于历史关系网信息构建历史关系图，并基于当前关系网信息构建当前关系图。

为了清晰地分析出目标企业关系网的变化，可以基于图结构对与目标企业存在供需、交易关系的企业进行分析，具体地，可以以目标企业和与其存在供需、交易关系的企业为节点，以目标企业和其它企业之间的供需、交易关系为边形成有向图，有向图中边的指向即代表了企业之间的供需和交易关系。图8示出了根据目标企业历史关系网信息构建的有向图的结构示意图，如图8所示，目标企业为企业1，与其存在供需和交易关系的企业有企业A—企业G，其中企业A-企业C是企业1的客户，因此边的指向由企业1分别指向企业A-企业C，企业D-企业G是企业1的供应商，因此边的指向由企业D-企业G指向企业1。相应地，在获取与目标企业相关的历史关系网信息和当前关系网信息后，可以基于历史关系网信息构建历史关系图，并基于当前关系网信息构建当前关系图。进一步地，可以根据存在边的两个企业之间的交易次数确定边的权重，具体方式本公开不作具体限定，只要保证权重与交易次数正相关即可。

在步骤S702中，分别对历史关系图和当前关系图进行随机游走，以生成多个历史企业序列和当前企业序列。

在本公开的示例性实施例中，在步骤S701建立的历史关系图和当前关系图中可以随机选择起点，固定长度、次数等超参数，生成多个历史企业序列和当前企业序列，并采用训练好的图神经网络对历史企业序列和当前企业序列进行处理，以获取与历史企业序列和当前企业序列中各企业对应的向量。其中，在对历史关系图和当前关系图进行随机游走生成历史企业序列和当前企业序列的过程中，可以根据边的权重进行游走，权重越大，随机游走时选取的概率就越大。

在步骤S703中，通过图神经网络分别对所述历史企业序列和所述当前企业序列进行特征提取，以获取与所述历史企业序列对应的第一向量和与所述当前企业序列对应的第二向量。

在本公开的示例性实施例中，图神经网络具体可以是SkipGram神经网络，其属于word2vec模型的一种，通过将历史企业序列或当前企业序列中的任一企业名称所对应的one-hot向量输入至SkipGram神经网络，可以通过隐藏层中的权重矩阵对输入向量进行作用，以输出与该企业名称对应的嵌入向量。其中，隐藏层中的权重矩阵是通过对SkipGram神经网络进行训练所得到的。为了方便描述，将通过SkipGram神经网络对历史企业序列中的企业名称处理得到的嵌入向量记为第一向量，将通过SkipGram神经网络对当前企业序列中的企业名称处理得到的嵌入向量记为第二向量。

在步骤S704中，计算所述第一向量与所述第二向量之间的距离，以获取所述第三相似度。

在本公开的示例性实施例中，在获取第一向量和第二向量后，可以通过计算第一向量和第二向量之间的第三相似度确定第三转型分数。与第一相似度、第二相似度相似，也可以通过计算余弦距离、欧式距离等方式计算第三相似度，在本公开的实施例中，具体采用余弦距离确定第三相似度。进一步地，也可以获取1与第三相似度之间的差值(1-第三相似度)，并将该差值作为第三转型分数，同样地，第三相似度越小，表示目标企业的转型程度越大。

在步骤S602和步骤S603中，可以通过计算目标企业对应的嵌入向量与历史关系网信息中其它企业对应的嵌入向量之间的第一距离，同时计算目标企业对应的嵌入向量与当前关系网信息中其它企业对应的嵌入向量之间的第二距离，通过比对第一距离和第二距离，即可确定当前关系网信息相对于历史关系网信息是否发生变化。图9示出了根据目标企业的当前关系网信息构建的有向图的界面示意图，如图9所示，相比于图8所示的历史关系网信息构建的有向图，图9中新增了供应商企业H，通过目标企业的嵌入向量与历史关系网信息中其它企业以及当前关系网信息中其它企业之间的距离，并进行对比后即可确定发生变化的关联企业信息。

根据图8和图9所示的有向图可以确定与目标企业的关系网信息对应的第三转型描述，该第三转型描述可以以图的形式体现，也可以将图转换为文字，通过不同的字体、颜色或大小标识当前关系网信息中与历史关系网信息不同的关联企业信息。

在步骤S230中，根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，并将所述第一转型描述、所述第二转型描述和所述第三转型描述进行整合，以获取企业转型描述。

在本公开的示例性实施例中，在获取第一转型分数、第二转型分数和第三转型分数后，可以对其进行多源数据融合，以获取与目标企业对应的企业转型分数。具体地，可以采用加权求和的方式进行融合，其中各个转型分数的权重可以是平均权重，也可以是根据经验设定的权重，以平均权重为例，若存在四个转型分数，那么每个转型分数对应的权重均为0.25。在获取第一转型描述、第二转型描述和第三转型描述后，可以直接将各个转型描述进行整合即可形成与目标企业对应的企业转型描述。

在步骤S240中，根据所述企业转型分数和所述企业转型描述生成与所述目标企业对应的企业转型信息。

在本公开的示例性实施例中，在获取企业转型分数和企业转型描述之后，可以将二者进行整合形成与目标企业对应的企业转型信息，帮助用户直观获取企业是否存在转型以及转型程度的大小等信息。

图10示出了企业转型信息的界面示意图，如图10所示，企业转型信息包括企业转型描述和企业转型分数，企业转型描述包括历史企业经营范围文本、当前企业经营范围文本、历史企业采购商品类目、当前企业采购商品类目、历史企业销售商品类目、当前企业销售商品类目、历史关系网和当前关系网，企业转型分数则是经过加权求和后得到的分数值。从图中可知，目标企业从最初的房地产开发转型为集房地产开发、建筑装修、建筑装饰材料经销、汽车出租、商场、餐饮、娱乐等为一体的综合型企业，并且其所采购和销售的商品类目，以及存在关联的企业，较转型前所采购和销售的商品类目，以及存在关联的企业都有所变化，从企业转型描述可以看出目标企业的转型程度较大，相应地，企业转型分数也达到了0.9，充分说明了目标企业的转型程度大，可以帮助政府及其它机构对目标企业进行扶持或监管，或者制定或修改行业的相关政策。

本公开通过对目标企业相关的文本信息、分类数据和关系网信息进行分析，以获取第一转型分数和第一转型描述、第二转型分数和第二转型描述以及第三转型分数和第三转型描述，然后根据各个转型分数确定企业转型分数，根据各个转型描述获取企业转型描述，最后根据企业转型分数和企业转型描述即可得到目标企业的企业转型信息。本公开的技术方案一方面能够从多个数据来源获取数据分析并生成企业转型信息，具体地可以将企业经营范围相关文本信息、企业经营相关(如采购类目等)的分类类型数据以及企业关系网信息作为数据来源，保证了数据获取的及时性，并且对企业转型提供了全方位检测，进而提高了企业转型信息的准确率；另一方面能够避免人工监测，通过文本相似度、图嵌入、向量相似度等AI算法计算企业转型分数以及企业转型描述，以这种自动化的方式实现了企业转型的监测，进而减少了成本，提高了效率。

本公开还提供了一种企业转型信息生成装置，图11示出了企业转型信息生成装置的结构示意图，如图11所示，企业转型信息生成装置1100可以包括信息获取模块1101、信息处理模块1102、信息整合模块1103和信息生成模块1104。其中：

信息获取模块1101，用于获取与目标企业相关的文本信息、分类数据和关系网信息；

信息处理模块1102，用于基于所述文本信息确定第一转型分数和第一转型描述，基于所述分类数据确定第二转型分数和第二转型描述，并基于所述关系网信息确定第三转型分数和第三转型描述；

信息整合模块1103，用于根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，并将所述第一转型描述、所述第二转型描述和所述第三转型描述进行整合，以获取企业转型描述；

信息生成模块1104，用于根据所述企业转型分数和所述企业转型描述生成与所述目标企业对应的企业转型信息。

在本公开的一个实施例中，所述文本信息包括历史文本信息和当前文本信息；所述信息处理模块1102包括：第一转型分数计算单元，用于计算所述历史文本信息和所述当前文本信息之间的第一相似度，根据所述第一相似度确定所述第一转型分数；第一转型描述生成单元，用于将所述历史文本信息和所述当前文本信息进行对比，以生成所述第一转型描述。

在本公开的一个实施例中，所述第一转型分数计算单元配置为：对所述历史文本信息和所述当前文本信息分别进行分词；基于所述历史文本信息对应的分词计算与所述历史文本信息对应的第一TF-IDF向量；基于所述当前文本信息对应的分词计算与所述当前文本信息对应的第二TF-IDF向量；计算所述第一TF-IDF向量与所述第二TF-IDF向量之间的距离，以获取所述第一相似度。

在本公开的一个实施例中，所述第一转型分数计算单元还配置为：获取1与所述第一相似度之间的差值，并将所述差值作为所述第一转型分数。

在本公开的一个实施例中，所述分类数据包括历史分类数据和当前分类数据；所述信息处理模块1102包括：第二转型分数计算单元，用于计算所述历史分类数据和所述当前分类数据之间的第二相似度，根据所述第二相似度确定所述第二转型分数；第二转型描述生成单元，用于将所述历史分类数据和所述当前分类数据进行对比，以生成所述第二转型描述。

在本公开的一个实施例中，所述历史分类数据和所述当前分类数据为稀疏型散列数据；所述第二转型分数计算单元配置为：将所述当前分类数据与所述历史分类数据进行比对；当所述当前分类数据中存在不同于所述历史分类数据的分类数据时，确定所述第二转型分数为1。

在本公开的一个实施例中，所述历史分类数据和所述当前分类数据为稠密型散列数据；所述第二转型分数计算单元配置为：基于所述历史分类数据获取第三TF-IDF向量，并基于所述当前分类数据获取第四TF-IDF向量；计算所述第三TF-IDF向量与所述第四TF-IDF向量之间的距离，以获取所述第二相似度；获取1与所述第二相似度之间的差值，并将所述差值作为所述第二转型分数。

在本公开的一个实施例中，所述关系网数据包括历史关系网信息和当前关系网信息；所述信息处理模块1102包括：第三转型分数计算单元，用于计算所述历史关系网信息和所述当前关系网信息之间的第三相似度，根据所述第三相似度确定所述第三转型分数；距离计算单元，用于获取所述目标企业与所述历史关系网信息中其它企业的第一距离，以及所述目标企业与所述当前关系网信息中其它企业的第二距离；第三转型描述生成单元，用于将所述第一距离和所述第二距离进行对比，以生成所述第三转型描述。

在本公开的一个实施例中，所述第三转型分数计算单元配置为：基于所述历史关系网信息构建历史关系图，并基于所述当前关系网信息构建当前关系图；分别对所述历史关系图和所述当前关系图进行随机游走，以生成多个历史企业序列和当前企业序列；通过图神经网络分别对所述历史企业序列和所述当前企业序列进行特征提取，以获取与所述历史企业序列对应的第一向量和与所述当前企业序列对应的第二向量；计算所述第一向量与所述第二向量之间的距离，以获取所述第三相似度。

在本公开的一个实施例中，所述第三转型分数计算单元还配置为：获取1与所述第三相似度之间的差值，并将所述差值作为所述第三转型分数。

在本公开的一个实施例中，所述信息整合模块1103配置为：对所述第一转型分数、所述第二转型分数和所述第三转型分数进行加权求和，以获取所述企业转型分数。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图12来描述根据本发明的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230和显示单元1240。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1210执行，使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1210可以执行如图2中所示的步骤S210：获取与目标企业相关的文本信息、分类数据和关系网信息；步骤S220：基于所述文本信息确定第一转型分数和第一转型描述，基于所述分类数据确定第二转型分数和第二转型描述，并基于所述关系网信息确定第三转型分数和第三转型描述；步骤S230：根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，并将所述第一转型描述、所述第二转型描述和所述第三转型描述进行整合，以获取企业转型描述；在步骤S240中，根据所述企业转型分数和所述企业转型描述生成与所述目标企业对应的企业转型信息。

存储单元1220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202，还可以进一步包括只读存储单元(ROM)12203。

存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204，这样的程序模块12205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1200也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图13所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品1300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种企业转型信息生成方法，其特征在于，包括：

获取与目标企业相关的文本信息、分类数据和关系网信息；

2.根据权利要求1所述的方法，其特征在于，所述文本信息包括历史文本信息和当前文本信息；

3.根据权利要求2所述的方法，其特征在于，所述计算所述历史文本信息和所述当前文本信息之间的第一相似度，包括：

对所述历史文本信息和所述当前文本信息分别进行分词；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一相似度确定所述第一转型分数，包括：

5.根据权利要求1所述的方法，其特征在于，所述分类数据包括历史分类数据和当前分类数据；

6.根据权利要求5所述的方法，其特征在于，所述历史分类数据和所述当前分类数据为稀疏型散列数据；

将所述当前分类数据与所述历史分类数据进行比对；

7.根据权利要求5所述的方法，其特征在于，所述历史分类数据和所述当前分类数据为稠密型散列数据；

8.根据权利要求1所述的方法，其特征在于，所述关系网数据包括历史关系网信息和当前关系网信息；

所述基于所述关系网信息确定第三转型分数和第三转型描述，包括：

计算所述历史关系网信息和所述当前关系网信息之间的第三相似度，根据所述第三相似度确定所述第三转型分数；

获取所述目标企业与所述历史关系网信息中其它企业的第一距离，以及所述目标企业与所述当前关系网信息中其它企业的第二距离；

9.根据权利要求8所述的方法，其特征在于，所述计算所述历史关系网信息和所述当前关系网信息之间的第三相似度，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第三相似度确定所述第三转型分数，包括：

11.根据权利要求1所述的方法，其特征在于，所述根据所述第一转型分数、所述第二转型分数和所述第三转型分数确定企业转型分数，包括：

12.一种企业转型信息生成装置，其特征在于，包括：

13.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～11中任意一项所述的企业转型信息生成方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～11中任意一项所述的企业转型信息生成方法。