CN109522407A

CN109522407A - 企业关系预测方法、装置、计算机设备和存储介质

Info

Publication number: CN109522407A
Application number: CN201811257533.2A
Authority: CN
Inventors: 徐冰; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-26

Abstract

本申请涉及一种基于分类模型的企业关系预测方法、装置、计算机设备和存储介质。所述方法包括：获取关系文本，关系文本包括第一企业实体和第二企业实体，解析关系文本，得到第一企业实体和第二企业实体对应的文本特征和依赖树特征，根据文本特征得到文本向量，根据依赖树特征得到依赖树向量，将文本向量和依赖树向量进行拼接，得到关系文本的特征向量，将特征向量输入预先训练的分类模型中，得到分类模型输出各个分类标签的第一概率；分类标签对应一种关系类型，确定概率最大的分类标签对应的关系类型为第一企业实体和第二企业实体的企业关系。采用本方法能够提高企业关系预测的准确性。

Description

企业关系预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种企业关系预测方法、装置、计算机设备和存储介质。

背景技术

企业关系是指两个企业之间的投资、合作等关系，通过分析一个企业与其他企业的企业关系，可以对该企业的经营状况进行管控。随着互联网技术的发展，可以从互联网中获取大量该企业的新闻、公开文件等数据，具体可以通过爬虫技术设置数据爬取策略，从而获得大量与该企业相关的新闻和公开文件。在利用上述数据进行企业关系分析时，传统技术是通过特征工程的方式，然而，由于自然语句的结构复杂，采用传统特征工程难以描述自然语句结构对企业关系的影响，因此造成传统特征工程无法准确分析自然语句中两个企业之间的联系。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决自然语句中企业关系预测不准确问题的企业关系预测方法、装置、计算机设备和存储介质。

一种企业关系预测方法，所述方法包括：

获取关系文本，所述关系文本包括第一企业实体和第二企业实体；

解析所述关系文本，得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征；

根据所述文本特征得到文本向量，根据所述依赖树特征，得到依赖树向量；

将所述文本向量和所述依赖树向量进行拼接，得到所述关系文本的特征向量；

将所述特征向量输入预先训练的分类模型中，得到所述分类模型输出各个分类标签的第一概率；所述分类标签对应一种关系类型；

确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

在其中一个实施例中，还包括：根根据预先设置的关键词词袋，对所述关系文本进行匹配，得到所述关键词词袋输出各个所述分类标签的第二概率；

根据预先设置的第一权值，对所述第一概率和所述第二概率进行加权，得到所述关系文本属于各个所述关系类型的第三概率；确定所述第三概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

在其中一个实施例中，还包括：将所述关系文本输入预先设置的推断模型，得到所述推断模型输出的各个所述分类标签的第四概率；根据预先设置的第二权值，对所述第一概率、第二概率以及第四概率进行加权，得到所述关系文本属于各个所述关系类型的第五概率；确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

在其中一个实施例中，所述文本特征包括：整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征中的任意两个以上；还包括：根据预先设置的词袋模型，对所述关系文本进行词袋匹配，得到所述关系文本的整体词袋特征；或，根据所述第一企业实体和所述第二企业实体在所述关系文本中的位置，将所述关系文本分为三个子文本，根据所述词袋模型，分别得到所述三个子文本的子文本词袋特征，将所述三个子文本的所述子文本词袋特征进行组合，得到所述局部词袋特征；或，获取所述关系文本中所述第一企业实体和所述第二企业实体的字符数量，根据所述字符数量确定所述句中字符距离特征；或，根据所述关系文本中的并列字符，得到所述并列关系特征；或，根据预先设置的实体词库，匹配所述第一企业实体和所述第二企业实体，根据匹配结果，确定所述实体名称特征。

在其中一个实施例中，所述依赖树特征包括依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上；还包括：对所述关系文本进行依赖树解析，得到所述关系文本的依赖树；根据所述依赖树中所述第一企业实体与所述第二企业实体的距离，得到所述依赖树距离特征；或，获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中的各个词语对象对应的词性标签，根据预先设置的第一词性标签词袋匹配各个对象的所述词性标签，根据匹配结果得到所述POSTAG特征；或，获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象对应的词性标签，根据预先设置的第二词性标签词袋匹配各个对象的所述词性标签，根据匹配结果得到所述CPOSTAG特征；或，获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象，根据所述词袋模型匹配所述各个词语对象，得到所述依赖树结构词袋特征；或，获取所述依赖树中包含所述第一企业实体和所述第二企业实体的子路径，根据预先设置的关系词袋模型，匹配所述子路径中的各个词语对象，根据匹配结果，确定所述依赖树相邻节点关系特征；或，根据所述第一企业实体和所述第二企业实体在所述依赖树中的节点关系，确定所述依赖树实体关系特征；所述节点关系包括：子节点关系以及父节点关系。

在其中一个实施例中，还包括：根据所述整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征和/或实体名称特征分别向量化后，拼接得到文本向量；根据所述依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征和/或依赖树实体关系特征分别向量化后，拼接得到依赖树向量。

在其中一个实施例中，还包括：根据预先设置的汉语言处理包中句法解析程序对所述关系文本进行依赖树解析，得到所述关系文本的依赖树。

一种企业关系预测装置，所述装置包括：

获取模块，用于获取关系文本，所述关系文本中包括第一企业实体和第二企业实体；

特征提取模块，用于解析所述关系文本，得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征；

向量化模块，用于根据所述文本特征得到文本向量，根据所述依赖树特征，得到依赖树向量；将所述文本向量和所述依赖树向量进行拼接，得到所述关系文本的特征向量；

模型输出模块，用于将将所述特征向量输入预先训练的分类模型中，得到所述分类模型输出各个分类标签的第一概率；所述分类标签对应一种关系类型；

预测模块，用于确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述企业关系预测方法、装置、计算机设备和存储介质，通过对关系文本进行解析，从而提取出关系文本中的文本特征和依赖树特征，以此加强对关系文本结构的解释性，然后根据文本特征和依赖树特征，构建关系文本的特征向量，通过预先训练的分类模型对特征向量进行分类，根据分类模型输出标签的概率，确定关系文本中两个企业的企业关系，准确的对企业关系进行预测。

附图说明

图1为一个实施例中企业关系预测方法的应用场景图；

图2为一个实施例中企业关系预测方法的流程示意图；

图3为一个实施例中提取文本特征步骤的流程示意图；

图4为一个实施例中提取依赖树特征步骤的流程示意图；

图5为一个实施例中企业关系预测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的企业关系预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

其中，终端102可以通过HTTP请求从服务器104获取关系文本。关系文本可以是微博文章、公众号文章、博客中包含的自然语句，也可以是新闻资讯的标题等，终端102获取上述关系文本后，可以将每条关系文本存储在终端102的数据库中。

另外，为了提高企业关系预测的效率，可以在终端102中设置相应的关系文本爬虫脚本，通过爬虫脚本从互联网中分布的各个服务器104中获取关系文本，因此，爬虫脚本可以获取大量的关系文本，从而保证企业关系预测的准确性。

具体的，终端102在进行企业关系预测时，可以定向预测两个企业的企业关系，例如：预测企业A和企业B的企业关系。在定向预测时，通过企业A和企业B检索终端102的数据库，得到同时包含企业A实体和企业B实体的关系文本。然后逐条对关系文本进行文本特征提取和依赖树特征提取，依据文本特征和依赖树特征构建关系文本的特征向量，从而根据预先训练的分类模型，确定企业A和企业B的企业关系。另外，终端102还可以进行模糊预测，即设置企业实体库，企业实体库中预先保存市面上大部分企业的企业实体名称，通过企业实体库匹配关系文本中包含两个企业实体的关系文本，然后提取出关系文本中的两个企业实体，然后根据对关系文本进行文本特征提取和依赖树特征提取，依据文本特征和依赖树特征构建关系文本的特征向量，从而根据预先训练的分类模型，确定两个企业的企业关系，通过数据库中大量的关系文本，可以得到多个企业的企业关系。

在一个实施例中，如图2所示，提供了一种企业关系预测方法，以该方法应用于图1中的终端例进行说明，包括以下步骤：

步骤202，获取关系文本。

关系文本属于自然语句，关系文本中包含第一企业实体和第二企业实体，第一企业实体和第二企业实体可以是企业的名称、缩写以及广为人知的昵称等，通过第一企业实体和第二企业实体均可以唯一确定企业的信息。

具体的，关系文本可以是新闻资讯的新闻标题，通过对新闻标题进行筛选，若新闻标题中包括第一企业实体和第二企业实体，则可以将该新闻标题作为关系文本。互联网中包括有大量的新闻资讯，因此，可以从互联网中获取该新闻标题作为关系文本。

进一步的，终端中可以设置爬虫脚本，然后设置新闻资讯来源的URL(UniformResource Locator，统一资源定位符)地址，通过爬虫脚本访问URL地址获取新闻资讯。因此，可以通过设置合适的URL地址，可以获取大量的新闻资讯。在获取新闻资讯之后，可以提取各个新闻资讯的新闻标题，然后检测新闻标题中是否包含第一企业实体和第二企业实体。值得说明的是，第一、第二仅为方便说明，例如，按照阅读顺序，从左至右检测，出现第一个企业实体作为第一企业实体，第二个企业实体作为第二企业实体。

另外，关系文本的选择，不仅可以采用新闻标题，可以从新闻资讯中挖掘关系文本，作为优选的方案，新闻标题具有高度概括性，因此将新闻标题作为关系文本可以提高企业关系预测的准确性。

步骤204，解析关系文本，得到第一企业实体和第二企业实体对应的文本特征和依赖树特征。

其中，文本特征指的是基于文本的特征，例如，词向量特征、词袋特征等，文本特征可以从文本语义角度对关系文本进行解释。依赖树特征是基于关系文本进行分词后建立的依赖树得到的，依赖树特征在词性、词序角度对关系文本进行解释。因此，通过从多个角度对关系文本进行解释，可以提高企业关系预测的准确性。

另外，终端中可以预先设置企业实体库，企业实体库是通过收集大量企业实体而建立的，通过企业实体库对企业关系文本进行关键词匹配，可以得到关系文本中的第一企业实体和第二企业实体，从而确定第一企业实体和第二企业实体在关系文本中的位置。通过确定第一企业实体和第二企业实体在关系文本中的位置，即可以根据第一企业实体和第二企业实体在关系文本中的位置构建针对该位置关系的文本特征和依赖树特征，从而进一步提高企业关系预测的准确性。值得说明的是，文本特征和依赖树特征实质上是从关系文本中提取，为了体现本实施例中文本特征和依赖树特征基于该位置关系，将关系文本的文本特征和依赖树特征表述为第一企业实体和第二企业实体对应的文本特征和依赖树特征。

步骤206，根据文本特征得到文本向量，根据依赖树特征，得到依赖树向量。

其中，根据文本特征可以得到文本向量，文本向量可以是通过对文本特征进行向量化而得到的。根据依赖树特征可以得到依赖树向量，依赖树向量可以通过对依赖树进行向量化得到的。

具体的，对于分类模型，可以设置Embedding层，进行向量，以便分类模型对输入的识别。

步骤208，将文本向量和依赖树向量进行拼接，得到关系文本的特征向量。

其中，向量的拼接方式可选择维数叠加的方式，例如，三维向量与四维向量拼接得到七维向量。还可以选择拼接形成矩阵的方式，例如，三维向量与四维向量拼接得到七维向量拼接得到2×4的输入矩阵。

具体的，在进行矩阵拼接时，还需要对文本向量金额依赖树向量进行对齐操作，对齐可以采用补零的方式，例如在三维向量中补入零使其变为四维向量，从而拼接得到2×4的输入矩阵。另外，高维必然会增加计算的复杂程度，可以设置维度阈值，例如300，若文本向量大于300时，在进行矩阵拼接时，删除大于300维部分的数据。

步骤210，将特征向量输入预先训练的分类模型中，得到分类模型输出各个分类标签的第一概率；分类标签对应一种关系类型。

分类模型可以选择逻辑斯蒂回归、决策树、随机森林、支持向量机等分类器。在进行模型训练时，首先需要建立样本集，样本集中包括大量已标注的关系文本，标注指的是确定关系文本中第一企业实体和第二企业实体的企业关系的标记，根据标注设置对应的目标标签，根据企业关系的不同，可以设置多个不同的目标标签。

具体的，还需要设置验证集和测试集，用于确定分类模型是否训练完毕以及准确性验证。在进行训练时，将已标注的关系文本采用相同的方法进行文本特征提取和依赖树特征提取，然后融合得到已标注关系文本的特征向量，将特征向量输入初始分类模型中，根据初始分类模型输出的结果，根据其目标标签以及预先设置的损失函数，优化初始分类模型内部参数，直至在验证集上的准确性达到要求。

另外，分类标签和进行分类模型训练时的目标标签的数目对应，利用分类模型的softmax层可以输出各个分类标签的概率。

步骤212，确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

概率越大表示企业关系与其对应的关系类型越接近，因此，可以通过排序的方式获取所有概率最大的关系类型，从而确定第一企业实体和第二企业实体的企业关系。

上述企业关系预测方法中，通过对关系文本进行解析，从而提取出关系文本中的文本特征和依赖树特征，以此加强对关系文本结构的解释性，然后根据文本特征和依赖树特征，构建关系文本的特征向量，通过预先训练的分类模型对特征向量进行分类，根据分类模型输出标签的概率，确定关系文本中两个企业的企业关系，准确的对企业关系进行预测。

在一实施例中，如图3所示，提供一种提取文本特征步骤的示意性流程图，具体步骤如下：

步骤302，获取预先设置的用于关系文本解析的文本特征类型。

步骤304，根据文本特征类型，对关系文本进行解析，得到针对各个文本特征类型的子文本特征。

步骤306，将子文本特征进行融合得到关系文本的文本特征。

本实施例中，可以预先设置多种文本特征类型对关系文本进行解析，得到多种子文本特征，将子文本特征融合得到关系文本的文本特征，从而可以加强文本特征对关系文本的解释性，提高企业关系预测的准确性。

对于步骤302中，在一实施例中，待选的文本特征类型包括整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征。可以选择两种以上的文本特征类型进行融合得到文本特征。

对于步骤304，在一实施例中，可以根据预先设置的词袋模型，对关系文本进行词袋匹配，从而得到关系文本的整体词袋特征。

在另一实施例中，在对整体词袋特征进行向量化时，可以根据词袋模型的维数，确定整体词袋特征向量的维数，然后根据匹配到词袋模型中关键词的位置，确定整体词袋特征向量。

具体的，词袋模型中包括100个关键词，即100维，那么确定整体词袋特征向量为100维，通过对关系文本进行词袋匹配，在匹配到的关键词位置置1，未匹配到的关键词置0，从而得到整体词袋特征向量。

对于步骤304，在一实施例中，根据第一企业实体和第二企业实体在关系文本中的位置，将关系文本分类三个子文本，根据词袋模型，分别对三个子文本进行词袋匹配，得到三个子文本的子文本词袋特征，然后对三个子文本词袋特征进行组合，得到局部词袋特征。

在另一实施例中，在对局部词袋特征进行向量化时，可以根据词袋模型的维数，确定每个子文本词袋特征向量的维数，然后通过词袋匹配每个子文本，确定每个子文本词袋特征向量，然后将每个子文本词袋特征向量进行组合，得到局部词袋特征向量。

具体的，词袋模型中包括100个关键词，即100维，那么确定每个子文本特征向量的维数为100，然后采用词袋匹配的方式确定每个子文本特征向量匹配到词袋模型中的关键词，在匹配到关键词的位置置1，没有匹配到的关键词位置置0，从而确定个子文本特征向量，然后三个子文本特征向量组合得到300维的局部词袋特征。

对于步骤304，在一实施例中，获取关系文本中第一企业实体和第二企业实体的字符数量，根据字符数量确定句中字符距离特征。

在另一实施例中，在对句中字符距离特征向量化时，确定句中字符距离特征向量为1维向量，即通过字符数量确定句中字符距离特征向量在该维度的值。

具体的，若在关系文本中，第一企业实体和第二企业实体的字符距离为8，则确定句中字符距离特征向量在该维度的值为8。

对于步骤304，在一实施例中，根据关系文本中第一企业实体和第二企业实体间存在的并列字符，得到并列关系特征。

本实施例中，并列字符可以是但不限于和”、“与”以及“、”

在另一实施例中，在对并列关系特征进行向量化时，确定并列关系特征向量的维度为2，根据第一企业实体和第二企业实体间是否存在并列字符，确定第一维的值，根据第一企业实体和第二企业实体间存在并列字符的数量确定第二维的值。

具体的，当第一企业实体和第二企业实体间存在并列字符时，将第一维的值置1，当不存在并列字符时，将第一维的值置0。当检测到第一企业实体和第二企业实体间的并列字符次数大于2时，将第二维的值置1，若不大于2，则将第二维的值置0。

对于步骤304，在一实施例中，根据预先设置的实体词库匹配第一企业实体和第二企业实体，根据匹配结果，确定实体名称特征。

在另一实施例中，在对实体名称特征进行向量化时，确定实体名称特征向量为3维，根据第一企业实体是否出现在实体词库中，确定第一维的值，根据第二企业实体是否出现在实体词库中，确定第二维的值，根据第一企业实体和第二企业实体是否同时出现在实体词库中，确定第三维的值。

具体的，当第一企业实体出现在实体词库中时，确定第一维的值为1，否则为0，当第二企业实体出现在实体词库中时，确定第二维的值为1，否则为0，当第一企业实体和第二企业实体同时出现在实体词库中时，确定第三位的值为1，否则为0。

本实施例中，企业实体出现在实体词库中指的是企业实体完全覆盖实体词库中的实体词。例如：第一企业实体中为xx银行，实体词库中包含实体词“银行”，则可以确定第一企业实体出现在实体词库中。

对于步骤306，在一实施例中，利用上述实施例中得到的整体词袋特征向量、局部词袋特征向量、句中字符距离特征向量、并列关系特征向量以及实体名称特征向量中的两个以上，进行向量的拼接，可以得到关系文本的文本向量。

在一实施例中，如图4所示，提供一种提取依赖树特征的示意性流程图，具体步骤如下：

步骤402，对关系文本进行依赖树解析，得到关系文本的依赖树。

步骤404，获取预先设置依赖树特征类型。

步骤406，根据依赖树特征类型对依赖树进行解析，得到对应于各个依赖树特征类型的依赖树子特征。

步骤408，对各个依赖树子特征进行融合，得到关系文本的依赖树特征。

本实施例中，可以预先设置多种依赖树特征类型来解析关系文本的依赖树特征，然后融合得到依赖树特征，从而可以加强依赖树特征对关系文本的解释性，提高企业关系预测的准确性。

对于步骤402，在一实施例中，可以根据预先设置的汉语言处理包中的句法解析程序对关系文本进行依赖树解析，得到关系文本的依赖树。

具体的，汉语言处理包可以是Hanlp，句法解析程序可以是CRF Parser。

对于步骤404，在一实施例中，依赖树特征类型可以包括：依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征以及依赖树实体关系特征。可以选择两种以上的依赖树特征类型融合得到依赖树特征。

对于步骤406，在一实施例中，根据依赖树中第一企业实体与第二企业实体的距离，得到依赖树距离特征。

在另一实施例中，在对依赖树距离特征进行向量化时，确定依赖树距离特征向量为一维向量，根据第一企业实体和第二企业实体在依赖树中的距离，确定该维度的值。

具体的，第一企业实体和第二企业实体在依赖树中的距离为4，则确定依赖树特征向量第一维的值为4。

对于步骤406，在一实施例中，获取依赖树中第一企业实体和第二企业实体的路径中的各个词语对象对应的词性标签，根据预先设置的第一词性标签词袋匹配各个词语对象的词性标签，根据匹配结果得到POSTAG特征。

在另一实施例中，在对POSTAG特征向量化时，确定POSTAG特征向量的维数与第一词性标签词袋的维度一致，根据第一企业实体和第二企业实体在依赖树路径上各个词语对象的词性标签在第一词性标签词袋中的匹配结果，确定POSTAG特征向量。

具体的，第一词性标签词袋的中包括20个词性标签，即维数为20，那么确定POSTAG特征向量的维数为20，通过第一词性标签词袋匹配第一企业实体和第二企业实体在依赖树路径上各个词语对象的词性标签，在匹配到词性标签的位置置1，未匹配到的词性标签位置置0，从而得到维数为20的POSTAG特征向量。

对于步骤406，在一实施例中，获取依赖树中第一企业实体和第二企业实体的路径中各个词语对象对应的词性标签，根据预先设置的第二词性标签词袋匹配各个对象的词性标签，根据匹配结果得到CPOSTAG特征。

在另一实施例中，在对CPOSTAG特征向量化时，确定CPOSTAG特征向量的维数与第二词性标签词袋的维度一致，根据第一企业实体和第二企业实体在依赖树路径上各个词语对象的词性标签在第二词性标签词袋中的匹配结果，确定CPOSTAG特征向量。

具体的，第二词性标签词袋的中包括30个词性标签，即维数为30，那么确定CPOSTAG特征向量的维数为30，通过第二词性标签词袋匹配第一企业实体和第二企业实体在依赖树路径上各个词语对象的词性标签，在匹配到词性标签的位置置1，未匹配到的词性标签位置置0，从而得到维数为30的CPOSTAG特征向量。

对于步骤406，在一实施例中，获取依赖树中包含第一企业实体和第二企业实体的子路径，根据预先设置的关系词袋模型，匹配子路径中的各个词语对象，根据匹配结果，确定依赖树相邻节点关系特征。

在另一实施例中，在对依赖树相邻节点关系特征进行向量化时，确定依赖树相邻节点关系特征向量的维数与关系词袋模型的维数一致，关系词袋模型的维数为关系词袋模型中包含的关系词个数，根据依赖树中第一企业实体和第二企业实体路径中包含的词语对象在关系词袋模型中的匹配结果，确定依赖树相邻节点关系特征向量。

具体的，关系词袋模型中包括20个关系词，即20维，根据依赖树中第一企业实体和第二企业实体路径中包含的词语对象在关系词袋模型中进行匹配，在匹配到关系词的位置置1，在未匹配到关键词的位置置0，从而得到20维的依赖树相邻节点关系特征向量。

对于步骤406，在一实施例中，获取依赖树中第一企业实体和所述第二企业实体的路径中各个词语对象，根据所述词袋模型匹配所述各个词语对象，得到依赖树结构词袋特征。

在另一实施例中，在对依赖树结构词袋特征进行向量化时，确定依赖树结构词袋特征向量的维数与词袋模型的维数一致，根据第一企业实体和第二企业实体路径中各个词语对象在词袋模型中的匹配结果，确定依赖树结构词袋特征向量。

具体的，词袋模型中包括100个关键词，即100维，当第一企业实体和第二企业实体路径中各个词语对象匹配到对应的关键词，则在依赖树结构词袋特征向量中该关键词为置1，否则置0，从而得到100维的依赖树结构词袋特征向量。

对于步骤406，在一实施例中，根据第一企业实体和第二企业实体在依赖树中的节点关系，确定依赖树实体关系特征；节点关系包括：子节点关系以及父节点关系。

在另一实施例中，在对依赖树实体关系特征进行向量化时，确定依赖树实体关系特征向量的维数为4维，根据第一企业实体是否为第二企业实体的父节点确定第一维的值，根据第二企业实体是否为第一企业实体的父节点确定第二维的值，根据第一企业实体是否为第二企业实体的子节点确定第三维的值，根据第二企业实体是否为第一企业实体的子节点确定第四维的值。从而确定依赖树实体关系特征向量。

对于步骤408，在一实施例中，在对各个依赖树特征进行向量化之后，可以根据依赖距离特征向量、POSTAG特征向量、CPOSTAG特征向量、依赖树结构词袋特征向量、依赖树相邻节点关系特征向量以及依赖树实体关系特征向量中的两个以上拼接生成依赖树向量。

另外，在一实施例中，还可以通过加权的方式提高企业关系预测的准确性，具体如下：根据预先设置的关键词词袋，对关系文本进行匹配，得到关键词词袋输出各个分类标签的第二概率；根据预先设置的第一权值，对第一概率和第二概率进行加权，得到关系文本属于各个关系类型的第三概率；确定第三概率中概率最大的分类标签对应的关系类型为第一企业实体和第二企业实体的企业关系。

本实施例中，可以根据预测模型输出的分类标签对应的关系类型，构建关系类型关键词词袋，关键词词袋为各个关系类型中常用的关键词构成。因此对关系文本进行关键词词袋匹配，为关键词词袋设置输出标签为分类标签，可以得到关系文本属于各个分类标签的第二概率，然后将第一概率和第二概率按照第一权值加权，得到新的关系文本属于各个关系类型的第三概率，从而从第三概率中选择概率最大的关系类型作为第一企业实体和第二企业实体的企业关系。通过加权的方式，一方面可以解决单一预测方式容易出现出差的情况，另一方面可以解决模型训练不足导致误差的问题，从而提高企业关系预测的准确性。

在另一实施例中，还可以借助神经网络模型的推断模型对关系文本进行预测，得到推断模型输出的各个分类标签的第四概率，然后，将第一概率、第二概率和第四概率按照第二权值进行加权，从而得到第五概率。确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

本实施例中，神经网络模型可以弥补特征工程中没有考虑的因素，因此可以进一步提高企业关系预测的准确性。

值得说明的是，在第一权值中，第一概率的权值>第二概率的权值，在第二权值中，第一概率的权值>第二概率的权值>第四概率的权值。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种企业关系预测装置，包括：获取模块502、特征提取模块504、向量化模块506、模型输出模块508和预测模块510，其中：

获取模块502，用于获取关系文本，所述关系文本包括第一企业实体和第二企业实体。

特征提取模块504，用于解析所述关系文本，得到所述第一企业实体和所述第二企业实体对应的文本特征和依赖树特征。

向量化模块506，用于根据所述文本特征得到文本向量，根据所述依赖树特征，得到依赖树向量；将所述文本向量和所述依赖树向量进行拼接，得到所述关系文本的特征向量。

模型输出模块508，用于将所述特征向量输入预先训练的分类模型中，得到所述分类模型输出各个分类标签的第一概率；所述分类标签对应一种关系类型。

预测模块510，用于确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

在一个实施例中，还包括词袋匹配模型，用于根据预先设置的关键词词袋，对所述关系文本进行匹配，得到所述关键词词袋输出各个所述分类标签的第二概率，预测模块510还用于根据预先设置的第一权值，对所述第一概率和所述第二概率进行加权，得到所述关系文本属于各个所述关系类型的第三概率；确定所述第三概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

在一个实施例中，还包括神经网络匹配模型，用于将所述关系文本输入预先设置的推断模型，得到所述推断模型输出的各个所述分类标签的第四概率，预测模块510还用于根据预先设置的第二权值，对所述第一概率、第二概率以及第四概率进行加权，得到所述关系文本属于各个所述关系类型的第五概率；确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

在一个实施例中，所述文本特征包括：整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征中的任意两个以上；特征提取模块504还用于，根据预先设置的词袋模型，对所述关系文本进行词袋匹配，得到所述关系文本的整体词袋特征；或，根据所述第一企业实体和所述第二企业实体在所述关系文本中的位置，将所述关系文本分为三个子文本，根据所述词袋模型，分别得到所述三个子文本的子文本词袋特征，将所述三个子文本的所述子文本词袋特征进行组合，得到所述局部词袋特征；或，获取所述关系文本中所述第一企业实体和所述第二企业实体的字符数量，根据所述字符数量确定所述句中字符距离特征；或，根据所述关系文本中所述第一企业实体和所述第二企业实体间存在的并列字符，得到所述并列关系特征；或，根据预先设置的实体词库，匹配所述第一企业实体和所述第二企业实体，根据匹配结果，确定所述实体名称特征。

在一个实施例中，所述依赖树特征包括依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上；特征提取模块504还用于，对所述关系文本进行依赖树解析，得到所述关系文本的依赖树；根据所述依赖树中所述第一企业实体与所述第二企业实体的距离，得到所述依赖树距离特征；或，获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中的各个词语对象对应的词性标签，根据预先设置的第一词性标签词袋匹配各个词语对象的所述词性标签，根据匹配结果得到所述POSTAG特征；或，获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象对应的词性标签，根据预先设置的第二词性标签词袋匹配各个对象的所述词性标签，根据匹配结果得到所述CPOSTAG特征；或，获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象，根据所述词袋模型匹配所述各个词语对象，得到所述依赖树结构词袋特征；或，获取所述依赖树中包含所述第一企业实体和所述第二企业实体的子路径，根据预先设置的关系词袋模型，匹配所述子路径中的各个词语对象，根据匹配结果，确定所述依赖树相邻节点关系特征；或，根据所述第一企业实体和所述第二企业实体在所述依赖树中的节点关系，确定所述依赖树实体关系特征；所述节点关系包括：子节点关系以及父节点关系。

在一个实施例中，向量化模块506还用于，根据所述整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征、实体名称特征中的两个以上分别向量化后，拼接得到文本向量；根据所述依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的两个以上分别向量化后，拼接得到依赖树向量。

在一个实施例中，特征提取模块504还用于根据预先设置的汉语言处理包中句法解析程序对所述关系文本进行依赖树解析，得到所述关系文本的依赖树。

关于企业关系预测装置的具体限定可以参见上文中对于企业关系预测方法的限定，在此不再赘述。上述企业关系预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关系文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业关系预测方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时实现本申请任意一个实施例中提供的短信发送的方法的步骤。

一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的短信发送的方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种企业关系预测方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据预先设置的关键词词袋，对所述关系文本进行匹配，得到所述关键词词袋输出各个所述分类标签的第二概率；

所述确定概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系，包括：

根据预先设置的第一权值，对所述第一概率和所述第二概率进行加权，得到所述关系文本属于各个所述关系类型的第三概率；

确定所述第三概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述关系文本输入预先设置的推断模型，得到所述推断模型输出的各个所述分类标签的第四概率；

所述确定各个所述关系类型中概率最大的为所述第一企业实体和第二企业实体的企业关系，包括：

根据预先设置的第二权值，对所述第一概率、第二概率以及第四概率进行加权，得到所述关系文本属于各个所述关系类型的第五概率；

确定所述第五概率中概率最大的分类标签对应的关系类型为所述第一企业实体和第二企业实体的企业关系。

4.根据权利要求1所述的方法，其特征在于，所述文本特征包括：整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征以及实体名称特征中的任意两个以上；

所述解析所述关系文本，得到所述关系文本基于所述第一企业实体和所述第二企业实体在所述关系文本中位置的文本特征，包括：

根据预先设置的词袋模型，对所述关系文本进行词袋匹配，得到所述关系文本的整体词袋特征；

或，

根据所述第一企业实体和所述第二企业实体在所述关系文本中的位置，将所述关系文本分为三个子文本，根据所述词袋模型，分别得到所述三个子文本的子文本词袋特征，将所述三个子文本的所述子文本词袋特征进行组合，得到所述局部词袋特征；

或，

获取所述关系文本中所述第一企业实体和所述第二企业实体的字符数量，根据所述字符数量确定所述句中字符距离特征；

或，

根据所述关系文本中所述第一企业实体和所述第二企业实体间存在的并列字符，得到所述并列关系特征；

或，

根据预先设置的实体词库，匹配所述第一企业实体和所述第二企业实体，根据匹配结果，确定所述实体名称特征。

5.根据权利要求4所述的方法，其特征在于，所述依赖树特征包括依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上；

所述解析所述关系文本，得到所述关系文本基于所述第一企业实体和所述第二企业实体在所述关系文本中位置的依赖树特征，包括：

对所述关系文本进行依赖树解析，得到所述关系文本的依赖树；

根据所述依赖树中所述第一企业实体与所述第二企业实体的距离，得到所述依赖树距离特征；

或，

获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中的各个词语对象对应的词性标签，根据预先设置的第一词性标签词袋匹配各个词语对象的所述词性标签，根据匹配结果得到所述POSTAG特征；

或，

获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象对应的词性标签，根据预先设置的第二词性标签词袋匹配各个对象的所述词性标签，根据匹配结果得到所述CPOSTAG特征；

或，

获取所述依赖树中所述第一企业实体和所述第二企业实体的路径中各个词语对象，根据所述词袋模型匹配所述各个词语对象，得到所述依赖树结构词袋特征；

或，

获取所述依赖树中包含所述第一企业实体和所述第二企业实体的子路径，根据预先设置的关系词袋模型，匹配所述子路径中的各个词语对象，根据匹配结果，确定所述依赖树相邻节点关系特征；

或，

根据所述第一企业实体和所述第二企业实体在所述依赖树中的节点关系，确定所述依赖树实体关系特征；所述节点关系包括：子节点关系以及父节点关系。

6.根据权利要求5所述的方法，其特征在于，所述根据所述文本特征和所述依赖树特征，得到文本向量和依赖树向量，包括：

根据所述整体词袋特征、局部词袋特征、句中字符距离特征、并列关系特征、实体名称特征中的任意两个以上分别向量化后，拼接得到文本向量；

根据所述依赖距离特征、POSTAG特征、CPOSTAG特征、依赖树结构词袋特征、依赖树相邻节点关系特征、依赖树实体关系特征中的任意两个以上分别向量化后，拼接得到依赖树向量。

7.根据权利要求5所述的方法，其特征在于，所述对所述关系文本进行依赖树解析，得到所述关系文本的依赖树，包括：

根据预先设置的汉语言处理包中句法解析程序对所述关系文本进行依赖树解析，得到所述关系文本的依赖树。

8.一种企业关系预测装置，其特征在于，所述装置包括：

获取模块，用于获取关系文本，所述关系文本包括第一企业实体和第二企业实体；

模型输出模块，用于将所述特征向量输入预先训练的分类模型中，得到所述分类模型输出各个分类标签的第一概率；所述分类标签对应一种关系类型；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。