CN109558584A - 企业关系预测方法、装置、计算机设备和存储介质 - Google Patents
企业关系预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109558584A CN109558584A CN201811257532.8A CN201811257532A CN109558584A CN 109558584 A CN109558584 A CN 109558584A CN 201811257532 A CN201811257532 A CN 201811257532A CN 109558584 A CN109558584 A CN 109558584A
- Authority
- CN
- China
- Prior art keywords
- relationship
- sentence
- relationship sentence
- template
- business entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 50
- 238000004590 computer program Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 239000012141 concentrate Substances 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于分类算法的企业关系预测方法、装置、计算机设备和存储介质。所述方法包括:获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;根据第一关系句以及预先设置的关系句模板,得到第二关系句,将第一关系句和第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率,根据概率最大的分类标签以及第二关系句,对第一企业实体和第二企业实体之间的关系类型进行预测,得到关系预测结果。采用本方法能够提高企业关系预测的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种企业关系预测方法、装置、计算机设备和存储介质。
背景技术
随着计算机网络技术的发展,对于信息的获取提供了极大的便利。在需要对企业关系进行预测时,可以从网络中获取两个企业的相关资讯,对资讯进行标注,然后对资讯的文本进行特征分析,通过特征与标注的监督学习训练预测模型,通过将待预测企业关系资讯的文本输入预测模型,可以对企业关系进行预测。然而,这种方式下,需要对资讯文本进行深入建模,导致预测模型中参数众多,一方面计算效率低,另一方面预测模型的准确性完全依赖与特征选择,在特征选择不合适时,预测的准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决传统特征工程进行关系预测时计算效率低和准确性低问题的企业关系预测方法、装置、计算机设备和存储介质。
一种企业关系预测方法,所述方法包括:
获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
在其中一个实施例中,还包括:从预设的语料库中获取已标注语料;根据所述已标注语料以及所述关系句模板,得到所述已标注语料对应的已标注关系句;分别对所述已标注语料和所述已标注关系句进行分词处理,得到所述已标注语料的第一特征词集和所述已标注关系句的第二特征词集;获取所述第一特征词集中第一特征词对应于所述已标注关系句的第一向量,和所述第二特征词集中第二特征词对应于所述已标注语料的第二向量;对所述第一向量和所述第二向量分别求和,将求和结果输入预设的多分类模型中;根据所述已标注语料的标注和预先设置的终止条件,利用所述语料库对所述多分类模型进行迭代,当所述多分类模型输出所述标注的概率满足所述终止条件时,得到所述分解模型。
在其中一个实施例中,还包括:获取所述语料库中所述标注的类别数量;根据所述标注的类别数量,获取对应数量的关系句模板;根据所述关系句模板和所述已标注语料,得到所述已标注语料的已标注关系句。
在其中一个实施例中,还包括:获取所述对应数量的关系句模板,根据所述第一关系句,得到对应数量的第二关系句;所述将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率,包括:根据所述第一关系句和所述对应数量的第二关系句,得到对应数量的输入组,所述输入组包含所述第一关系句和所述对应数量的第二关系句中的一条第二关系句;将所述输入组分别输入所述分解模型,得到每个所述输入组对应于各个预先设置的分类标签的概率。
在其中一个实施例中,还包括:所述分类标签包括:包含标签和悖论标签;当概率最大的分类标签为包含标签,则确定第一企业实体和第二企业实体的关系类型与所述第二关系句中的关系分类一致;当概率最大的分类标签为悖论标签,则确定第一企业实体和第二企业实体的关系分类与所述第二关系句中的关系分类不同。
在其中一个实施例中,还包括:解析所述第一关系句,得到所述第一企业实体和所述第二企业实体;查询预先设置的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
在其中一个实施例中,还包括:获取预先建立的模板表单,所述模板表单中包括模板标识以及与所述模板标识对应的所述关系句模板;确定所述第一关系句对应的模板标识;根据所述模板标识,查询所述模板表单,得到所述模板标识对应的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
一种企业关系预测装置,所述装置包括:
获取模块,用于获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
关系句构建模块,用于根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
模型输出模块,用于将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
预测模块,用于根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
上述企业关系预测方法、装置、计算机设备和存储介质,通过获取第一关系句,第一关系句包含第一企业实体和第二企业实体,根据第一关系句以及预先设置的关系句模板,得到第二关系句,将第一关系句和第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率,根据概率最大的分类标签以及第二关系句,对第一企业实体和第二企业实体之间的关系类型进行预测,得到关系预测结果。本发明实施例中,对于待预测企业关系的第一关系句,无需进行深入建模,只需要构建对应的第二关系语句,然后输入分解模型,即可以根据第二关系语句以及分解模型输出各个分类标签的概率,对第一关系句中的企业关系进行预测,因此预测准确性也不会受到第一关系句中特征的影响,从而提高关系预测时计算效率和准确性。
附图说明
图1为一个实施例中企业关系预测方法的应用场景图;
图2为一个实施例中企业关系预测方法的流程示意图;
图3为一个实施例中训练分解模型方式的流程示意图;
图4为另一个实施例中企业关系预测方法的流程示意图;
图5为一个实施例中企业关系预测装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的企业关系预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体的,终端102可以通过HTTP访问互联网中的服务器104,服务器104中存储大量的包含第一企业实体和第二企业实体的第一关系句,第一关系句可以是新闻文本、公众号文章、微博文章等的标题以及字段,终端102中指定的程序通过HTTP访问服务器104,从服务器104中获取第一关系句句,从而确保第一关系句的数据来源。
另外,服务器104也可以是本地服务器,服务器104配置了本地数据库,本地数据库中存储了大量的第一关系句,服务器104可以实现本地数据库中第一关系句的更新。服务器104和终端102可以接入同一局域网,终端102可以通过端口访问服务器104,从而从本地数据库中获取第一关系句。
进一步的,终端102中预先配置了分解模型,终端102获取到第一关系句后,可以根据第一关系句和关系句模板构建对应的第二关系句,关系句模板预先存储在终端102中,然后将第一关系句和第二关系句输入分解模型中,得到分解模型输出的各个分类标签的概率,然后根据分类标签的该利率和第二关系句,确定第一企业实体和第二企业实体的企业关系。
在一个实施例中,如图2所示,提供了一种企业关系预测方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取第一关系句。
第一企业关系句属于自然语句,第一关系句中包含第一企业实体和第二企业实体,第一企业实体和第二企业实体可以是企业的名称、缩写以及广为人知的昵称等,通过第一企业实体和第二企业实体可以唯一确定企业的信息。
具体的,第一关系句可以是新闻文本的新闻标题,通过对新闻标题进行筛选,若新闻标题中包括第一企业实体和第二企业实体,则可以将该新闻标题作为第一关系句。互联网中包括有大量的新闻文本,因此,可以从互联网中获取该新闻标题作为第一关系句。
进一步的,终端中可以设置爬虫脚本,然后设置新闻文本来源的URL(UniformResource Locator,统一资源定位符)地址,通过爬虫脚本访问URL地址获取新闻文本。因此,可以通过设置合适的URL地址,可以获取大量的新闻文本。在获取新闻文本之后,可以提取各个新闻文本的新闻标题,然后检测新闻标题中是否包含第一企业实体和第二企业实体。值得说明的是,第一、第二仅为方便说明,例如,按照阅读顺序,从左至右检测,出现第一个企业实体作为第一企业实体,第二个企业实体作为第二企业实体。
步骤204,根据第一关系句以及预先设置的关系句模板,得到第二关系句。
关系句模板为终端中预先设置好的,终端中可以同时设置多个关系句模板,在获取到第一关系句时,可以根据第一关系句和关系句模板,构建第二关系句。值得说明是,第二关系句为自然语句,构建好的第二关系句中也包括第一企业实体和第二企业实体。
具体的,关系句模板可以存储在模板表单中,可以为模板表单中每一关系句模板建立索引,因此在需要调用关系句模板时,终端根据索引发送调用指令,根据调用指令查询模板表单,从而得到所需要的关系句模板。
步骤206,将第一关系句和第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率。
分解模型可以从大量的信息中筛选出少部分重要信息,并忽略不重要的信息。本步骤中的分解模型包括三个工作单元,即注意力单元、比较单元以及聚集单元。分解模型的输入为一组数据,因此第一关系句和第二关系句需要同时输入分解模型中。
具体的,第一关系句和第二关系句输入分解模型之后,注意力单元建立第一关系句和第二关系句中每个词与另一个关系句的权重表达,比较模型是一个全连接网络,可以将权重表达转化为向量的形式,然后将向量输入另一个全连接网络,即可以输出预设分类标签的概率。
步骤208,根据概率最大的分类标签以及第二关系句,对第一企业实体和第二企业实体之间的关系类型进行预测,得到关系预测结果。
通过预先对分解模型进行训练,在输入第一关系句和第二关系句后,分解模型输出预设标签的概率,然后可以通过排序,可以筛选出概率最大的分类标签。
实质上,将第一关系句和第二关系句输入分解模型,通过输出的分类标签,从而确定第一关系句和第二关系句是否相关,若是相关的,由于第二关系句是通过关系句模板进行构建的,因此,第二关系句的语义已知,从而可以进一步判断第一关系句中第一企业实体和第二企业实体的企业关系。
上述企业关系预测方法中,通过获取第一关系句,第一关系句包含第一企业实体和第二企业实体,根据第一关系句以及预先设置的关系句模板,得到第二关系句,将第一关系句和第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率,根据概率最大的分类标签以及第二关系句,对第一企业实体和第二企业实体之间的关系类型进行预测,得到关系预测结果。本发明实施例中,对于待预测企业关系的第一关系句,无需进行深入建模,只需要构建对应的第二关系语句,然后输入分解模型,即可以根据第二关系语句以及分解模型输出各个分类标签的概率,对第一关系句中的企业关系进行预测,因此预测准确性也不会受到第一关系句中特征的影响,从而提高关系预测时计算效率和准确性。
在一实施例中,如图3所示,提供一种分解模型的训练方式的示意性流程图,具体步骤如下:
步骤302,从预设的语料库中获取已标注语料。
语料库中包括已标注语料,已标注语料的格式和第一关系句相似,均包括两个企业实体。
在已标注语料中,两个企业实体的企业关系确定,根据其关系,用标注进行标记,标注可以是字符串形式,也可以是其他字符的形式。
步骤304,根据已标注语料以及关系句模板,得到已标注语料对应的已标注关系句。
已标注关系是自然语句,其结构与第二关系句类似,通过对已标注语料进行信息提取,然后根据关系句模板可以拼接得到已标注关系句。
步骤306,分别对已标注语料和已标注关系句进行分词处理,得到已标注语料的第一特征词集和已标注关系句的第二特征词集。
步骤308,获取第一特征词集中第一特征词对应于已标注关系句的第一向量,和第二特征词集中第二特征词对应于已标注语料的第二向量。
步骤310,对第一向量和第二向量分别求和,将求和结果输入预设的多分类模型中。
步骤312,根据预先设置的终止条件,利用语料库对多分类模型进行迭代,当多分类模型输出标注的概率满足终止条件时,得到分解模型。
本实施例中,通过已标注语料训练分解模型的过程,可以得知在进行企业关系预测时,第一关系句和第二关系句的处理过程。在构建分解模型,从构建第一关系句和第二关系句的分解向量出发,通过全连接网络,实现分类标签的概率输出,从而可以准确对企业关系进行预测。
对于步骤306,在一实施例中,可以根据词向量工具对已标注语料和已标注关系句进行分词处理,分词之后,得到多个词语,根据已标注语料的词语,可以得到第一特征词集,根据已标注关系句的词语,可以得到第二特征词集。
在一实施例中,分解模型包括:注意力单元、比较单元以及聚集单元。其中,注意力单元由神经网络F训练得到,比较单元有全连接网络G训练得到,聚集单元有全连接网络H训练得到。
具体的,注意力单元可以执行计算第一特征词集和第二特征词集之间的各个词语的注意力权重,然后归一化得到第一特征词集中第二特征词集中两两词语之间的加权表示,具体计算步骤如下:
将第一特征词集和第二特征词集(mi,nj)输入神经网络F中,得到第一特征词及和第二特征词集中两两词语之间的权重eij,其中eij=FT(mi)F(nj),然后利用softmax归一化的方式,得到第一特征词集中每个词语与第二特征词集中每个词语的加权表示以及得到第二特征词集中每个词语与第一特征词语的加权表示
对于步骤308,在一实施例中,比较单元中全连接网络G的输入为(mi,βi)和(nj,αi),将(mi,βi)输入全连接网络G中,得到第一向量v1,i=G([mi,βi]),将(nj,αi)输入全连接网络G中,得到第二向量v2,j=G([nj,αj])。
对于步骤310,在一实施例中,聚集单元实质上是一个分类器,分类器由全连接网络H构成,聚集单元可以根据输入,输出预设标签的概率,从而实现对企业关系的预测。在将第一向量和第二向量输入全连接网络H中时,还需要对第一向量和第二向量分别求和。第一向量求和的结果为:V1=∑iv1,i,第二向量求和的结果为:V2=Σjv2,j。然后将[V1,V2]输入全连接网络H中,从而输出各预设标签的概率。
对于步骤312,在一实施例中,终止条件可以是聚集单元输出分类标签在验证集上达到一定的准确性,才停止训练。
在另一实施例中,在进行迭代时,可以通过反向传播的方式。首先需要定义损失函数,损失函数可以根据神经网络F、全连接网络G以及全连接网络H的损失值定义。在输出满足验证集中准确要求时,使损失函数输出的损失值收敛,即停止训练。
在一实施例中,通过查询语料库中所有已标注语料的标注,可以得到标注的类别数量,因此在构建已标注关系句时,需要构建每种标注对应的关系句,以此从差异性和相似性角度,训练分解模型,在利用该分解模型进行企业关系预测时,预测结果更加准确。
具体步骤如下:获取语料库中已标注语料的标注的类别数量,根据标注的类别数量,获取对应数量的关系句模板,根据关系句模板和已标注语料,得到已标注语料的已标注关系句。
在一具体实施例中,标注包括:上下游关系、投资关系和合作关系,那么在获取到已标注语料时,分别获取上下游关系的关系句模板、投资关系的关系句模板以及合作关系的关系句模板。
在另一实施例中,如图4所示,提供另一中企业关系预测方法的示意性流程图,具体步骤如下:
步骤402,获取第一关系句。
步骤404,根据第一关系句以及多个关系句模板,得到多个第二关系句。
步骤406,根据第一关系句和多个第二关系句,得到对应数量的输入组。
输入组包含第一关系句和多个第二关系句中的一条第二关系句。
步骤408,将输入组分别输入分解模型,得到各个输入组对应的各个预先设置的分类标签的概率。
步骤410,根据每个输入组中概率最大的分类标签以及输入组中的第二关系句,对输入组中第一企业实体和第二企业实体的关系类性进行预测,得到多个关系预测结果。
本实施例中,由于包括多个输入组,必然可以得到多个结果,根据多个结果,可以确定第一企业实体和第二企业实体的企业关系。上述方法得到的结果信息量更加大,从而在面对复杂企业关系时,通过以此输入,即可以得到第一企业实体和第二企业实体之间复杂的关系。
在一实施例中,分类标签包括包含标签和悖论标签,当概率最大的分类标签为包含标签,则确定第一企业实体和第二企业实体的关系类型与第二关系句中的关系分类一致;当概率最大的分类标签为悖论标签,则确定第一企业实体和第二企业实体的关系分类与第二关系句中的关系分类不同。
具体的,第一关系句可以是“A企业为拓展业务建立子公司B企业”,那么可以构建的第二关系句可以是“B企业是A企业的子公司”,将第一关系句和第二关系句输入分解模型中,模型输出包含标签的概率大于悖论标签,则第一关系句中的企业关系可以有第二关系句确定,并且,第一关系句中的企业关系为第二关系句中的企业关系。若构建的第二关系句为“B企业和A企业为上下游关系”,则模型输出包含标签的概率小于悖论标签,则确定第一关系句中的企业关系不是第二关系句中的企业关系。
在另一实施例中,在构建第二关系句时,可以解析第一关系句,提取出第一关系句中的第一企业实体和第二企业实体,然后根据关系句模板,将第一企业实体和第二企业实体填充至关系句模板的对应位置,得到第二关系句。
具体的,关系句模板可以是“_和_为上下游关系”,其中“_”可以是占位符,占位符中可以填充文本,因此,提取出第一企业实体和第二企业实体,可以将第一企业实体和第二企业实体填充到占位符中。
在一实施例中,终端中可以预先建议模板表单,模板表单中包括模板标识和模板标识对应的关系句模板,模板表单如下表1所示:
表1
因此,在构建第二关系句时,获取模板标识,然后根据模板标识查询模板表单,得到模板标识对应的关系句模板,从而将第一企业实体和第二企业实体填充入关系句模板中对应位置,得到第二关系句。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种企业关系预测装置,包括:获取模块502、关系句构建模块504、模型输出模块506和预测模块508,其中:
获取模块502,用于获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
关系句构建模块504,用于根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
模型输出模块506,用于将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
预测模块508,用于根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
在其中一个实施例中,还包括训练模块,用于从预设的语料库中获取已标注语料;根据所述已标注语料以及所述关系句模板,得到所述已标注语料对应的已标注关系句;分别对所述已标注语料和所述已标注关系句进行分词处理,得到所述已标注语料的第一特征词集和所述已标注关系句的第二特征词集;获取所述第一特征词集中第一特征词对应于所述已标注关系句的第一向量,和所述第二特征词集中第二特征词对应于所述已标注语料的第二向量;对所述第一向量和所述第二向量分别求和,将求和结果输入预设的多分类模型中;根据预先设置的终止条件,利用所述语料库对所述多分类模型进行迭代,当所述多分类模型输出所述分类标签的概率满足所述终止条件时,得到所述分解模型。
在其中一个实施例中,训练模块,还用于获取所述语料库中所述已标注语料的标注的类别数量;根据所述标注的类别数量,获取对应数量的关系句模板;根据所述关系句模板和所述已标注语料,得到所述已标注语料的已标注关系句。
在其中一个实施例中,关系句构建模块504还用于获取所述对应数量的关系句模板,根据所述第一关系句,得到对应数量的第二关系句,模型输出模块506还用于根据所述第一关系句和所述对应数量的第二关系句,得到对应数量的输入组,所述输入组包含所述第一关系句和所述对应数量的第二关系句中的一条第二关系句;将所述输入组分别输入所述分解模型,得到每个所述输入组对应于各个预先设置的分类标签的概率。
在其中一个实施例中,分类标签包括:包含标签和悖论标签,预测模块508还用于当概率最大的分类标签为包含标签,则确定所述第一企业实体和第二企业实体的关系类型与所述第二关系句中的关系分类一致;当概率最大的分类标签为悖论标签,则确定所述第一企业实体和第二企业实体的关系分类与所述第二关系句中的关系分类不同。
在其中一个实施例中,关系句构建模块504还用于解析所述第一关系句,得到所述第一企业实体和所述第二企业实体;查询预先设置的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
在其中一个实施例中,表单获取模块,用于获取预先建立的模板表单,所述模板表单中包括模板标识以及与所述模板标识对应的所述关系句模板,关系句构建模块504还用于确定所述第一关系句对应的模板标识;根据所述模板标识,查询所述模板表单,得到所述模板标识对应的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
关于企业关系预测装置的具体限定可以参见上文中对于企业关系预测方法的限定,在此不再赘述。上述企业关系预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储企业关系预测时获取的第一关系句数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业关系预测方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从预设的语料库中获取已标注语料;根据所述已标注语料以及所述关系句模板,得到所述已标注语料对应的已标注关系句;分别对所述已标注语料和所述已标注关系句进行分词处理,得到所述已标注语料的第一特征词集和所述已标注关系句的第二特征词集;获取所述第一特征词集中第一特征词对应于所述已标注关系句的第一向量,和所述第二特征词集中第二特征词对应于所述已标注语料的第二向量;对所述第一向量和所述第二向量分别求和,将求和结果输入预设的多分类模型中;根据预先设置的终止条件,利用所述语料库对所述多分类模型进行迭代,当所述多分类模型输出所述分类标签的概率满足所述终止条件时,得到所述分解模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述语料库中所述已标注语料的标注的类别数量;根据所述标注的类别数量,获取对应数量的关系句模板;根据所述关系句模板和所述已标注语料,得到所述已标注语料的已标注关系句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述对应数量的关系句模板,根据所述第一关系句,得到对应数量的第二关系句;根据所述第一关系句和所述对应数量的第二关系句,得到对应数量的输入组,所述输入组包含所述第一关系句和所述对应数量的第二关系句中的一条第二关系句;将所述输入组分别输入所述分解模型,得到每个所述输入组对应于各个预先设置的分类标签的概率。
在一个实施例中,分类标签包括:包含标签和悖论标签;处理器执行计算机程序时还实现以下步骤:当概率最大的分类标签为包含标签,则确定所述第一企业实体和第二企业实体的关系类型与所述第二关系句中的关系分类一致;当概率最大的分类标签为悖论标签,则确定所述第一企业实体和第二企业实体的关系分类与所述第二关系句中的关系分类不同。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:解析所述第一关系句,得到所述第一企业实体和所述第二企业实体;查询预先设置的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预先建立的模板表单,所述模板表单中包括模板标识以及与所述模板标识对应的所述关系句模板;确定所述第一关系句对应的模板标识;根据所述模板标识,查询所述模板表单,得到所述模板标识对应的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从预设的语料库中获取已标注语料;根据所述已标注语料以及所述关系句模板,得到所述已标注语料对应的已标注关系句;分别对所述已标注语料和所述已标注关系句进行分词处理,得到所述已标注语料的第一特征词集和所述已标注关系句的第二特征词集;获取所述第一特征词集中第一特征词对应于所述已标注关系句的第一向量,和所述第二特征词集中第二特征词对应于所述已标注语料的第二向量;对所述第一向量和所述第二向量分别求和,将求和结果输入预设的多分类模型中;根据预先设置的终止条件,利用所述语料库对所述多分类模型进行迭代,当所述多分类模型输出所述分类标签的概率满足所述终止条件时,得到所述分解模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述语料库中所述已标注语料的标注的类别数量;根据所述标注的类别数量,获取对应数量的关系句模板;根据所述关系句模板和所述已标注语料,得到所述已标注语料的已标注关系句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述对应数量的关系句模板,根据所述第一关系句,得到对应数量的第二关系句;根据所述第一关系句和所述对应数量的第二关系句,得到对应数量的输入组,所述输入组包含所述第一关系句和所述对应数量的第二关系句中的一条第二关系句;将所述输入组分别输入所述分解模型,得到每个所述输入组对应于各个预先设置的分类标签的概率。
在一个实施例中,分类标签包括:包含标签和悖论标签;计算机程序被处理器执行时还实现以下步骤:当概率最大的分类标签为包含标签,则确定所述第一企业实体和第二企业实体的关系类型与所述第二关系句中的关系分类一致;当概率最大的分类标签为悖论标签,则确定所述第一企业实体和第二企业实体的关系分类与所述第二关系句中的关系分类不同。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:解析所述第一关系句,得到所述第一企业实体和所述第二企业实体;查询预先设置的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先建立的模板表单,所述模板表单中包括模板标识以及与所述模板标识对应的所述关系句模板;确定所述第一关系句对应的模板标识;根据所述模板标识,查询所述模板表单,得到所述模板标识对应的关系句模板;将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种企业关系预测方法,所述方法包括:
获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
根据概率最大的所述分类标签以及与所述分类标签对应的所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
2.根据权利要求1所述的方法,其特征在于,所述分解模型的训练方式,包括:
从预设的语料库中获取已标注语料;
根据所述已标注语料以及所述关系句模板,得到所述已标注语料对应的已标注关系句;
分别对所述已标注语料和所述已标注关系句进行分词处理,得到所述已标注语料的第一特征词集和所述已标注关系句的第二特征词集,所述第一特征词集包括第一特征词,第二特征词集包括第二特征词,
获取所述第一特征词集中第一特征词对应于所述已标注关系句的第一向量,和所述第二特征词集中第二特征词对应于所述已标注语料的第二向量;
对所述第一向量和所述第二向量分别求和,将求和结果输入预设的多分类模型中;
根据预先设置的终止条件,利用所述语料库对所述多分类模型进行迭代,当所述多分类模型输出所述分类标签的概率满足所述终止条件时,得到所述分解模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述已标注语料以及所述关系句模板,得到所述已标注语料对应的已标注关系句,包括:
获取所述语料库中所述已标注语料的标注的类别数量;
根据所述标注的类别数量,获取对应数量的关系句模板;
根据所述关系句模板和所述已标注语料,得到所述已标注语料的已标注关系句。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一关系句以及预先设置的关系句模板,得到第二关系句,还包括:
获取所述对应数量的关系句模板,根据所述第一关系句,得到对应数量的第二关系句;
所述将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率,包括:
根据所述第一关系句和所述对应数量的第二关系句,得到对应数量的输入组,所述输入组包含所述第一关系句和所述对应数量的第二关系句中的一条第二关系句;
将所述输入组分别输入所述分解模型,得到每个所述输入组对应于各个预先设置的分类标签的概率。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述分类标签包括:包含标签和悖论标签;
所述根据概率最大的所述分类标签以及第二关系句,对第一企业实体和第二企业实体的关系分类进行预测,包括:
当概率最大的分类标签为包含标签,则确定所述第一企业实体和第二企业实体的关系类型与所述第二关系句中的关系分类一致;
当概率最大的分类标签为悖论标签,则确定所述第一企业实体和第二企业实体的关系分类与所述第二关系句中的关系分类不同。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一关系句以及预先设置的关系句模板,得到第二关系句,包括:
解析所述第一关系句,得到所述第一企业实体和所述第二企业实体;
查询预先设置的关系句模板;
将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取预先建立的模板表单,所述模板表单中包括模板标识以及与所述模板标识对应的所述关系句模板;
根据所述第一关系句以及预先设置的关系句模板,得到第二关系句,还包括:
确定所述第一关系句对应的模板标识;
根据所述模板标识,查询所述模板表单,得到所述模板标识对应的关系句模板;
将所述第一企业实体和所述第二企业实体填充入所述关系句模板中对应位置,得到第二关系句。
8.一种企业关系预测装置,其特征在于,所述装置包括:
获取模块,用于获取第一关系句,所述第一关系句包含第一企业实体和第二企业实体;
关系句构建模块,用于根据所述第一关系句以及预先设置的关系句模板,得到第二关系句;
模型输出模块,用于将所述第一关系句和所述第二关系句输入预先设置的分解模型,得到各个预先设置的分类标签的概率;
预测模块,用于根据概率最大的所述分类标签以及所述第二关系句,对所述第一企业实体和所述第二企业实体之间的关系类型进行预测,得到关系预测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257532.8A CN109558584A (zh) | 2018-10-26 | 2018-10-26 | 企业关系预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257532.8A CN109558584A (zh) | 2018-10-26 | 2018-10-26 | 企业关系预测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558584A true CN109558584A (zh) | 2019-04-02 |
Family
ID=65865386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811257532.8A Pending CN109558584A (zh) | 2018-10-26 | 2018-10-26 | 企业关系预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558584A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488789A (zh) * | 2013-10-08 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置和搜索引擎 |
CN105550253A (zh) * | 2015-12-09 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种类型关系的获取方法及装置 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN108182179A (zh) * | 2018-01-29 | 2018-06-19 | 北京神州泰岳软件股份有限公司 | 一种自然语言处理方法及装置 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
CN108427707A (zh) * | 2018-01-23 | 2018-08-21 | 深圳市阿西莫夫科技有限公司 | 人机问答方法、装置、计算机设备和存储介质 |
CN108520041A (zh) * | 2018-04-03 | 2018-09-11 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
CN108573025A (zh) * | 2018-03-12 | 2018-09-25 | 北京云知声信息技术有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
-
2018
- 2018-10-26 CN CN201811257532.8A patent/CN109558584A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488789A (zh) * | 2013-10-08 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置和搜索引擎 |
CN105550253A (zh) * | 2015-12-09 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种类型关系的获取方法及装置 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN108427707A (zh) * | 2018-01-23 | 2018-08-21 | 深圳市阿西莫夫科技有限公司 | 人机问答方法、装置、计算机设备和存储介质 |
CN108182179A (zh) * | 2018-01-29 | 2018-06-19 | 北京神州泰岳软件股份有限公司 | 一种自然语言处理方法及装置 |
CN108573025A (zh) * | 2018-03-12 | 2018-09-25 | 北京云知声信息技术有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
CN108520041A (zh) * | 2018-04-03 | 2018-09-11 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN108509596B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108628974B (zh) | 舆情信息分类方法、装置、计算机设备和存储介质 | |
CN111859986B (zh) | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
CN110852856A (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN110032732A (zh) | 一种文本标点预测方法、装置、计算机设备及存储介质 | |
CN108563734A (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
CN109087205A (zh) | 舆情指数的预测方法及装置、计算机设备和可读存储介质 | |
CN109977394A (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
CN112100401A (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN109447412A (zh) | 构建企业关系图谱的方法、装置、计算机设备和存储介质 | |
CN112036647B (zh) | 基于人工智能的简历信息处理方法、装置、设备及介质 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN113343711B (zh) | 工单生成方法、装置、设备及存储介质 | |
CN112579777B (zh) | 一种未标注文本的半监督分类方法 | |
CN111552810B (zh) | 实体抽取与分类方法、装置、计算机设备和存储介质 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
Li et al. | Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |