CN107894986B

CN107894986B - 一种基于向量化的企业关系划分方法、服务器以及客户端

Info

Publication number: CN107894986B
Application number: CN201710877442.8A
Authority: CN
Inventors: 姜海峰; 周玉刚
Original assignee: Beijing Naren Network Technology Co ltd
Current assignee: Beijing Naren Network Technology Co ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2021-03-30
Anticipated expiration: 2037-09-26
Also published as: CN107894986A

Abstract

本发明涉及一种基于向量化的企业关系划分方法及装置，其中方法包括：通过企业描述文本的向量化，得到企业向量，根据所述企业向量的距离计算得到企业之间的相似度，根据所述企业之间的相似度得到企业之间关系类型，将所述企业之间关系类型存入数据库中用以构建企业关系图谱。采用本发明中的方法，能够划分出企业之间的相似度，还能够得到企业之间的关系类型，且划分过程既具有词向量容易生成和量化的特点，又具有文本统计信息快捷高效的特点。此外，本发明的方法对企业检索和简历推荐的准确率都具有很高的价值。

Description

一种基于向量化的企业关系划分方法、服务器以及客户端

技术领域

本发明涉及计算机软件、自然语言处理领域，特别涉及一种基于向量化的企业关系划分方法及装置。

背景技术

数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后便成为信息。具体地，数据处理是对数据的采集、存储、检索、加工、变换和传输。

目前，在很多的数据处理应用中需要获得企业和企业的关系，这种关系的获得通常是人为编辑的，采用人为编辑的方式需要耗费大量的人力成本。另外对于一些自动化的企业关系挖掘程序中也是针对的结构化文本，然而通过结构化文本直接挖掘企业关系可能存在数据缺失，并且不能针对企业转型发展及时更新企业的关系类型。

发明内容

本发明要解决的技术问题是，提供一种向量化的、可视化的、可实时更新的基于向量化的企业关系划分方法。

解决上述技术问题，本发明提供了一种基于向量化的企业关系划分方法，包括如下步骤：

通过企业描述文本的向量化，得到企业向量，

根据所述企业向量的距离计算得到企业之间的相似度，

根据所述企业之间的相似度得到企业之间关系类型，

将所述企业之间关系类型存入数据库中用以构建企业关系图谱。

更进一步，所述向量化采用词语向量化word embedding。

更进一步，方法还包括：统计出所述描述文本中的词频信息。

更进一步，方法还包括：根据词语权重和/或句子权重，过滤掉无关词句。

更进一步，所述词语权重至少根据词性和/或词义定义。

更进一步，通过分类器获取所述描述文本中句子权重。

更进一步，所述企业向量

其中，vec(company)是某一个企业的向量，word_i是企业描述文本中的一个单词，vec(word_i)是单词的词向量，w(word_i)是标量加权系数。

本发明提供了一种客户端，包括一用以实现交互指令的处理器，以及一用以储存多条关系划分指令的储存设备，所述关系划分指令由所述处理器加载并进行如下执行：

通过企业描述文本的向量化，得到企业向量，

根据所述企业向量的距离计算得到企业之间的相似度，

根据所述企业之间的相似度得到企业之间关系类型。

更进一步，所述关系划分指令还包括：将所述企业之间关系类型存入数据库中用以构建企业关系图谱。

本发明提供了一种企业关系划分服务器，包括：向量化单元、相似度计算单元以及关系类型单元，

向量化单元，用以通过企业描述文本的向量化，得到企业向量，

相似度计算单元，用以根据所述企业向量的距离计算得到企业之间的相似度，

关系类型单元，用以根据所述企业之间的相似度得到企业之间关系类型，将所述企业之间关系类型存入数据库中用以构建企业关系图谱

本发明的有益效果：

1)本发明中的方法，通过利用企业描述文本对企业进行向量化，并通过企业向量的距离和位置关系获得企业之间的相似度和关联关系。弥补了现有技术中直接使用结构化文本的数据缺失，且能够针对企业转型发展及时更新企业的关系类型。

2)更进一步，在本发明中通过垂直领域的语料训练词向量，与企业描述文本的统计信息结合对文本进行向量化。再加上文本的过滤和权重的调整的优化处理，在对于企业向量的生成中，除了一些统计信息调整词语向量在合成企业向量中的权重外，可以加入词性和句子的权重信息，从而降低了虚词和无效文本的影响。

3)更进一步，在本发明中根据已有的人工标注的企业关系数据，并利用机器学习的方法优化生成企业向量时的词向量加权系数，比如SVM支持向量机。

4)此外，本发明的装置中还可利用企业关系类型和其他来源的数据接口构建企业关系图谱，从而通过综合、推理使得用户获得更全面的企业关联关系，用户获得更好的体验。

附图说明

图1是本发明一实施例中的方法流程示意图；

图2是本发明一实施例中的服务器结构示意图；

图3是本发明一优选实施例中的方法执行流程示意图。

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

请参考图1是本发明一实施例中的方法流程示意图，本实施例中的基于向量化的企业关系划分方法具体包括：

步骤S100通过企业描述文本的向量化，得到企业向量，在所述步骤中首先需要获取企业描述文本。企业描述文本包括但不限于，企业对自身业务、公司文化、公司背景等内容的文本描述，此外还包括了与企业所相关联的第三方描述文本，包括但不限于百科、政府招商、招聘等第三方描述文本。必要时需要对数据做清洗处理，剔除其中的错误数据。本领域技术人员能够明了获取企业描述文本的来源包括但不限于，外部网站数据和内部数据。收集企业描述文本的方式优选为：网络爬虫技术。网络爬虫可按照如下的流程进行抓取：首先选取一部分经过挑选的种子URL(包括但不限于上述的外部网站)；然后将这些URL放入待抓取URL队列，从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。最后，分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

在一些实施例中，根据网络爬虫划分的页面可包括：已下载未过期网页、已下载已过期网页、待下载网页、可知网页以及不可知网页。

在一些实施例中，网络爬虫技术的抓取策略是深度优先遍历策略，深度优先遍历策略是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。

在一些实施例中，网络爬虫技术的抓取策略是宽度优先遍历策略，宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。

在一些实施例中，网络爬虫技术的抓取策略是反向链接数策略，反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。考虑到在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等他我那个也的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。

在一些实施例中，网络爬虫技术的抓取策略是Partial PageRank策略，PartialPageRank算法借鉴了PageRank算法的思想：对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。具体而言，如果每次抓取一个页面，就重新计算PageRank值，一种折中方案是：每抓取K个页面后，重新计算一次PageRank值。但是，对于已经下载下来的页面中分析出的链接，即未知网页那一部分，暂时是没有PageRank值的。为了解决这个问题，会给这些页面一个临时的PageRank值：将这个网页所有入链传递进来的PageRank值进行汇总，这样就形成了该未知页面的PageRank值，从而参与排序。

在一些实施例中，网络爬虫技术的抓取策略是OPIC策略策略，在算法开始前，给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。

在一些实施例中，网络爬虫技术的抓取策略是大站优先策略，对于待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。

针对网络爬虫采集到的数据，可以进行企业描述文本的向量化，利用文本向量化产生企业的向量，自动化收集和更新。作为本实施例中的优选可实施方式，所述向量化采用词语向量化word embedding。word embedding是NLP自然语言处理(Natural LanguageProcessing)中的处理手段，具体而言，若通过采用得到企业描述文本，文本中包含了单词序列比如“360、杀毒、浏览器、软件、搜索引擎”,能够对企业描述文本中每个不同的单词都得到一个对应的向量表示。优选地，词语向量化处理时采用word2vec的工具包。使用word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果即词向量(word embedding)，可以很好地度量词与词之间的相似性。垂直领域专注于某一领域，如IT、娱乐、体育，通过垂直领域的语料训练词向量，减少了噪音的干扰和权重的影响，与企业描述文本的统计信息结合对文本进行向量化。

在一些实施例中，基于词语向量化的操作时，还包括：统计出所述描述文本中的词频信息。优选地，统计信息主要是文档中的词频信息以及相应的基本数学运算组合，常见的词频加权包括但不限于，绝对词频(TF)，倒排文档频率(IDF)，TF-IDF等。

在一些实施例中，基于词语向量化的操作时，还包括：根据词语权重和/或句子权重，过滤掉无关词句。比如，根据已有的人工标注的企业关系数据，利用机器学习的方法优化生成企业向量时的词向量加权系数。优选地，采用SVM支持向量机。

在一些实施例中，基于词语向量化的操作时，所述词语权重至少根据词性和/或词义定义。除了统计信息外，还需要根据词语本身的特点和句子类型加权过滤掉无关的词句。比如，词语的权重需要根据词性和词义两方面来确定，对于企业描述中的地名、人名等都需要降低在生成企业向量时的权重。

在一些实施例中，基于词语向量化的操作时，通过分类器获取所述描述文本中句子权重。具体地，句子的权重的获得需要对句子训练分类器，分类器输出的概率值为相应句子的权重值。在实际流程中可以提前对文本进行过滤，相当于加权系数为0或者1，只有权值为1的进入后续的加权求和处理。

文本的过滤和权重的调整。对于企业向量的生成中，除了一些统计信息调整词语向量在合成企业向量中的权重外，可以加入词性和句子的权重信息，降低虚词和无效文本的影响。通过word embedding，可知所述企业向量为：

步骤S101根据所述企业向量的距离计算得到企业之间的相似度，企业相似度关系的度量和关联分析，企业的相似程度可以通过向量的距离计算得到。企业向量距离的度量准则包括但不限于，余弦距离(向量夹角的余弦值)，欧几里得距离等。

步骤S102根据所述企业之间的相似度得到企业之间关系类型，由于企业向量本身带有词义信息，在相似度基础上可以进一步比较企业之间的关系类型。两个企业向量作为输入，训练企业关系的分类器，输出为企业的关系类型。

步骤S103将所述企业之间关系类型存入数据库中用以构建企业关系图谱，在对两个企业关系处理的基础上可以构建、丰富全部企业的关系图谱。关系图谱可以是单独的一个系统，也可以作为更复杂的企业知识图谱的一部分。企业的关系图谱中可以根据关联程度分为完全相关，部分相关，基本无关等类别，包含的关系类型分为竞争，合作，上下游等类别。任一两个企业之间的相似度由于通过相似度计算得到，通过向量距离构建关系图谱。通过根据计算得到的相似度，可以得到竞争，合作，上下游等类别的关系。

本申请中的一种客户端，包括一用以实现交互指令的处理器，以及一用以储存多条关系划分指令的储存设备，所述关系划分指令由所述处理器加载并进行如下执行：通过企业描述文本的向量化，得到企业向量，根据所述企业向量的距离计算得到企业之间的相似度，根据所述企业之间的相似度得到企业之间关系类型。优选地，所述关系划分指令还包括：将所述企业之间关系类型存入数据库中用以构建企业关系图谱。客户端包括但不限于，PC、安卓、iPhone、WP、iPad、Mac等等。通过安装客户端可以实现通过企业描述文本的向量化，得到企业向量，根据所述企业向量的距离计算得到企业之间的相似度，根据所述企业之间的相似度得到企业之间关系类型。

请参考图2，是本发明一实施例中的服务器结构示意图一种企业关系划分服务器，包括：向量化单元1、相似度计算单元2以及关系类型单元3，向量化单元1，用以通过企业描述文本的向量化，得到企业向量，相似度计算单元2，用以根据所述企业向量的距离计算得到企业之间的相似度，关系类型单元3，用以根据所述企业之间的相似度得到企业之间关系类型，将所述企业之间关系类型存入数据库中用以构建企业关系图谱。

在一些实施例中，所述向量化采用词语向量化word embedding。

在一些实施例中，向量化单元1还用以：统计出所述描述文本中的词频信息。

在一些实施例中，向量化单元1还用以：根据词语权重和/或句子权重，过滤掉无关词句。

在一些实施例中，所述词语权重至少根据词性和/或词义定义。

在一些实施例中，通过分类器获取所述描述文本中句子权重。

在一些实施例中，所述企业向量

请参考图3是本发明一优选实施例中的方法执行流程示意图，企业数据包括但不限于，需要分析企业关系的数据以及经过已有的人工标注的企业关系数据，比如可以在百度百科爬取搜狗，360，百度，万科的企业描述同时在内部数据库中调出三家企业的企业描述文本(已标注的)。随后进行预处理，所述预处理包括但不限于，网络爬虫技术。同时，必要时需要对数据做清洗处理，剔除其中的错误数据。比如，缺失值清洗，去除不需要的字段、填充缺失内容(业务知识或经验推测填充缺失值/以同一指标的计算结果填充缺失值/以不同指标的计算结果填充缺失值)、重新取数：如果某些指标非常重要又缺失率高，那就需要和取数人员或业务人员了解，是否有其他渠道可以取到相关数据。又比如，格式内容清洗，对时间、日期、数值、全半角等显示格式不一致处理，对内容中有不该存在的字符的的处理，内容与该字段应有内容不符的处理，比如企业组织信用代码、头、尾、中间的空格，也可能出现企业中存在数字符号、身份证号中出现汉字等问题。这种情况下，需要以半自动校验半人工方式来找出可能存在的问题，并去除不需要的字符。再比如，逻辑错误清洗，去掉一些使用简单逻辑推理就可以直接发现问题的数据，防止分析结果走偏。比如，去除不合理值、修正矛盾内容。

通过上述预处理过后即可对四家公司分别生成企业的企业向量，在深深企业向量的过程中包括但不限于如下的操作：

所述企业向量

其中，vec(company)是某一个企业的向量，word_i是企业描述文本中的一个单词，vec(word_i)是单词的词向量，w(word_i)是标量加权系数。所述向量化采用词语向量化word embedding。

上述词语向量化还包括：统计出所述描述文本中的词频信息。

上述词语向量化还包括：根据词语权重和/或句子权重，过滤掉无关词句。

上述词语向量化中的所述词语权重至少根据词性和/或词义定义。

上述词语向量化中通过分类器获取所述描述文本中句子权重。

分别得到对四家公司分别生成企业的企业向量：

1vec(cormpany)、2vec(cormpany)、3vec(cormpany)、4vec(cormpany)

计算企业相似度的优选方式为：企业的相似程度可以通过向量的距离计算得到，而进一步企业向量距离的度量准则包括余弦距离(向量夹角的余弦值)，欧几里得距离等。由于企业向量本身带有词义信息，在相似度基础上可以进一步比较企业之间的关系类型。比如，以两个企业向量作为输入，训练企业关系的分类器，输出为企业的关系类型。

由上述得到：搜狗，360，百度的相似度很高(基本部分相关)，而与万科的相似度会比较低(基本无关等类别)。考虑到企业相关关系的推断需要用有监督的机器学习方法训练分类器，通过标签数据百度和360是竞争关系的训练，得到分类器可以识别搜狗和百度也是竞争关系。由于词向量容易生成和量化的，又具有文本统计信息快捷高效，整个方法对企业关系划分能够较快速的实现。

优选地，对任意两家企业的关系处理之后就可以存入数据库中构建企业关系图谱。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

总体而言，本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施，而其它一些方面可以以固件或软件实施，该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示，但是可以理解本文描述的框、设备、系统、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。

此外，虽然操作以特定顺序描述，但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行，或是要求所有所示的操作被执行以实现期望结果。在一些情形下，多任务或并行处理可以是有利的。类似地，虽然若干具体实现方式的细节在上面的讨论中被包含，但是这些不应被解释为对本公开的范围的任何限制，而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对，在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims

1.一种基于向量化的企业关系划分方法，其特征在于，包括如下步骤：

通过企业描述文本的向量化，得到企业向量，收集企业描述文本的方式为：网络爬虫技术；根据网络爬虫采集到的数据，进行企业描述文本的向量化，利用文本向量化产生企业的向量，自动化收集和更新；

根据所述企业向量的距离计算得到企业之间的相似度，

根据所述企业之间的相似度得到企业之间关系类型，

将所述企业之间关系类型存入数据库中用以构建企业关系图谱，关系图谱是单独的一个系统，也作为更复杂的企业知识图谱的一部分；企业的关系图谱中根据关联程度分为完全相关，部分相关，基本无关类别，包含的关系类型分为竞争，合作，上下游类别；任一两个企业之间的相似度由于通过相似度计算得到，通过向量距离构建关系图谱。

2.根据权利要求1所述的企业关系划分方法，其特征在于，所述向量化采用词语向量化word embedding。

3.根据权利要求1或2所述的企业关系划分方法，其特征在于，还包括：统计出所述描述文本中的词频信息。

4.根据权利要求1或2所述的企业关系划分方法，其特征在于，还包括：根据词语权重和/或句子权重，过滤掉无关词句。

5.根据权利要求4所述的企业关系划分方法，其特征在于，所述词语权重至少根据词性和/或词义定义。

6.根据权利要求4所述的企业关系划分方法，其特征在于，通过分类器获取所述描述文本中句子权重。

7.根据权利要求1或2所述的企业关系划分方法，其特征在于，所述企业向量

8.一种客户端，其特征在于，包括一用以实现交互指令的处理器，以及一用以储存多条关系划分指令的储存设备，所述关系划分指令由所述处理器加载并进行如下执行：

通过企业描述文本的向量化，得到企业向量，

根据所述企业向量的距离计算得到企业之间的相似度，

根据所述企业之间的相似度得到企业之间关系类型。

9.根据权利要求8所述的客户端，其特征在于，所述关系划分指令还包括：将所述企业之间关系类型存入数据库中用以构建企业关系图谱。

10.一种企业关系划分服务器，其特征在于，包括：向量化单元、相似度计算单元以及关系类型单元，

关系类型单元，用以根据所述企业之间的相似度得到企业之间关系类型，将所述企业之间关系类型存入数据库中用以构建企业关系图谱。