CN112418320B - 一种企业关联关系识别方法、装置及存储介质 - Google Patents

一种企业关联关系识别方法、装置及存储介质 Download PDF

Info

Publication number
CN112418320B
CN112418320B CN202011331510.9A CN202011331510A CN112418320B CN 112418320 B CN112418320 B CN 112418320B CN 202011331510 A CN202011331510 A CN 202011331510A CN 112418320 B CN112418320 B CN 112418320B
Authority
CN
China
Prior art keywords
enterprise
text information
enterprises
association relationship
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011331510.9A
Other languages
English (en)
Other versions
CN112418320A (zh
Inventor
陈家银
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202011331510.9A priority Critical patent/CN112418320B/zh
Publication of CN112418320A publication Critical patent/CN112418320A/zh
Application granted granted Critical
Publication of CN112418320B publication Critical patent/CN112418320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种企业关联关系识别方法、装置、存储介质及终端,该方法包括:通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;输出待识别企业和多个企业之间的关联关系。因此,采用本申请实施例,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。

Description

一种企业关联关系识别方法、装置及存储介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种企业关联关系识别方法、装置及存储介质。
背景技术
企业关联关系,是指根据供给关系确定上游企业与下游企业之间的关系。通常,一家企业的上游企业和下游企业的健康状况,直接影响该企业的经营状态。如果能够获知与该企业具有上下游关系的企业,则可以将上下游企业的诸多因素纳入考虑范围内。因此,在很多场景下,例如,对企业进行信用评估等场景,人们希望能够准确获知企业关联关系。
现有的企业上下游供需关系识别方法采用分类的思想进行识别,具体有无监督学习和监督学习两种主流方法。其中无监督学习需要手工去构造与企业上下游供需关系相关的特征,但需要很强的行业知识,因为不同行业企业的关联特征是不同的。监督学习通常是基于深度学习的方法,但需要大量的标注数据才能取到好的效果,消耗大量的人工成本。由于现有技术中无监督学习和监督学习生成的模型识别能力低,从而降低了企业关系知识图谱构建工作,让人工智能技术无法高效的在企业营销活动中落地。
发明内容
本申请实施例提供了一种企业关联关系识别方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种企业关联关系识别方法,该方法包括:
通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
输出待识别企业和多个企业之间的关联关系。
可选的,按照下述方法生成预先训练的企业关联关系识别模型,包括:
采集并预处理每个行业中多个企业的文本信息,生成训练样本;
根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
当损失值达到最小时,生成训练后的企业关联关系识别模型。
可选的,方法还包括:
从训练样本中随机抽取某一企业的文本信息;
将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别;
计算企业类别的类别相似度;
当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
可选的,采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:
采集每个行业中多个企业的文本信息;
将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息;
将各企业标注的文本信息确定为训练样本。
可选的,将训练样本输入至企业关联关系识别模型中,输出模型的损失值,包括:
将各企业标注的文本信息依次输入至企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及
基于企业关联关系识别模型中的K均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值;
输出企业关联关系识别模型的损失值。
可选的,当损失值达到最小时,生成训练后的企业关联关系识别模型,包括:
当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
可选的,损失值计算函数为其中,loss为损失值,ai为到同一簇内其他文本的平均距离,bi为在相邻最近的簇中到其他样本的平均距离,N为样本总个数。
第二方面,本申请实施例提供了一种企业关联关系识别装置,该装置包括:
文本信息采集模块,用于通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
文本信息输入模块,用于确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
关联关系输出模块,用于输出待识别企业和多个企业之间的关联关系。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过BERT神经网络、卷积神经网络以及K均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种企业关联关系识别方法的流程示意图;
图2是本申请实施例提供的一种企业关联关系识别模型训练过程的过程示意图;
图3是本申请实施例提供的一种企业关联关系识别过程的过程示意图;
图4是本申请实施例提供的一种企业关联关系识别模型训练方法的流程示意图;
图5是本申请实施例提供的一种企业关联关系识别装置的装置示意图;
图6是本申请实施例提供的另一种企业关联关系识别装置的装置示意图;
图7是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面将结合附图1-附图4,对本申请实施例提供的企业关联关系识别方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的企业关联关系识别装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的企业关联关系识别装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
请参见图1,为本申请实施例提供了一种企业关联关系识别方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
其中,应用程序接口(Application Programming Interface,API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。网络爬虫(又称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
通常,企业关联关系识别是企业上下游关系的识别,是指根据所给定的企业,按照其供给关系,来识别它的“供应商”、“同行”、“潜在客户”等关系,即给定企业集合C={c1,c2,…,cn},对于某个确定企业cs,需要从企业实体集合中对任意ci进行关系识别后得到关联关系f(cs,r,ci),其中r为可能存在的关系。从任务需求上来看,企业上下关系的识别其实就是判断两个企业的产品是什么,然后判断二者是否存在供需关系。
需要说明的是,企业的名称、企业的简介、经营范围都会蕴含产品信息,这也将企业关联关系识别转换成利用企业这些属性进行文本分类的问题。在进行企业关联关系识别时,首先就是通过多种方式获取到不同行业的多个企业的产品信息。
在一种可能的实现方式中,在进行企业关联关系(俗称企业上下游关联关系)识别时,首先通过预先设计的应用程序编程接口从指定数据库获取多个企业的文本信息。
进一步地,指定的数据库可以是第三方公司的数据库,也可以是不同企业的数据库,可根据第三方数据库和多个企业数据库的开发者所提供的数据获取API采集企业的多个属性信息,得到多个企业的文本信息。
在另一种可能的实现方式中,在进行企业关联关系(俗称企业上下游关联关系)识别时,根据预先设计的网络爬虫脚本语言从网络采集企业的多个属性信息,得到多个企业的文本信息。
S102,确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
其中,待识别企业的文本信息可以是预先设定的待识别企业提供的信息,还可以是从步骤S101中确定出的待识别企业的文本信息。企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法进行创建的。BERT神经网络是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。卷积神经网络是深度学习的代表算法之一。卷积神经网络(CNN)具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。K均值聚类算法(k-means)可以实现对数据信息的聚类。
在本申请实施例中,在训练企业关联关系识别模型时,首先通过API和/或网络爬虫脚本在互联网中采集并预处理每个行业中多个企业的文本信息,生成训练样本,再将BERT神经网络、卷积神经网络以及K均值聚类算法柔和一起创建企业关联关系识别模型,使得该模型具有BERT神经网络、卷积神经网络以及K均值聚类算法的特征,然后将训练样本输入至企业关联关系识别模型中,输出模型的损失值,当损失值达到最小时,生成训练后的企业关联关系识别模型。模型在第一次训练后,从训练样本中随机抽取某一企业的文本信息,并将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别,然后计算企业类别的类别相似度,最后当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
进一步地,在采集并预处理每个行业中多个企业的文本信息时,首先采集每个行业中多个企业的文本信息,再将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本,然后将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息,最后将各企业标注的文本信息确定为训练样本。
进一步地,在将训练样本输入至企业关联关系识别模型中,输出模型的损失值,具体为:首先将各企业标注的文本信息依次输入至企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量,以及基于企业关联关系识别模型中的K均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果,然后根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值,最后输出企业关联关系识别模型的损失值。
需要说明的是,当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并再次将训练样本输入至企业关联关系识别模型中的步骤。
例如图2所示,图2为本申请实施例提供的企业关联关系识别模型的训练过程示意图,在对企业关联关系识别模型进行训练时,首先采集样本数据进行预处理后得到训练数据,然后收集企业的属性文本处理后输入BERT+CNN进行文本处理形成文本向量,再采用神经网络k-means进行文本聚类后得到初步的企业关联关系识别模型。再从样本数据中随机获取某一企业的样本数据进行预测,判断和标注的目标类别是否高度匹配,如果高度匹配切迭代训练的次数大于等于10次,则形成最终的企业关联关系识别模型。如果不匹配则将待处理数据进行人工校正后继续迭代训练,如果迭代次数没到达10次时,继续迭代训练。
在一种可能的实现方式中,在根据上述方式训练完成企业关联关系识别模型后,可将步骤S101采集的多个企业的文本信息以及待识别企业的文本信息输入训练后的模型中进行处理。
S103,输出待识别企业和多个企业之间的关联关系。
通常,在基于步骤S102进行处理结束后生成并输出待识别企业和多个企业之间的关联关系。
例如图3所示,图3是基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的企业关联关系识别模型的内部结构处理公司文本信息的过程,首先公司的信息可具备公司属性(具体包括公司名称、公司简介、公司类型以及公司经营范围),将企业实体的属性文本进行拼接,然后按字符级进行token化,生成位置嵌入(Position Embedding)、分割嵌入(Segment Embedding)、字标记(Token Embedding),句子长度(seq_length)取512,然后输入BERT神经网络中的Bert层处理,处理后再输入CNN层进行卷积核池化操作形成文本向量,再将文本向量输入K-means层中进行聚类,最后得到聚类结果。通过最终的聚类结果可得到待识别企业和多个企业间的上下游关联关系。
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过BERT神经网络、卷积神经网络以及K均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
请参见图4,为本申请实施例提供了一种企业关联关系识别模型训练方法的流程示意图。如图4所示,本申请实施例的方法可以包括以下步骤:
S201,采集每个行业中多个企业的文本信息;
通常,考虑到现有行业数据的广泛性,数据集采用相关度比较高的各大行业的数据,主要由企业的名称、企业简介、企业经营范围及企业类型所组成的文本。将抽样单位按照企业数据源划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
S202,将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
通常,对收集到的文本数据进行清洗及噪声去除,由于企业经营范围字段过长且噪声极大,截取前30个字符作为目标文本,且去除掉其中的噪声数据,比如“(国家禁止或涉及行政审批的货物和技术进出口除外)”等解释说明性文本数据。
S203,将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息,将各企业标注的文本信息确定为训练样本;
在本申请实施例中,将企业实体的属性文本进行拼接,然后按字符级进行标记化,生成位置嵌入(Position Embedding)、分割嵌入(Segment Embedding)、字标记(TokenEmbedding),句子长度(seq_length)取512位,将各企业标注的文本信息确定为训练样本。
S204,根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
S205,将各企业标注的文本信息依次输入至企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;
通常,BERT(Bidirectional Encoder Representations from Transformers)是2018年谷歌开源出一款强大的自然语言处理的预训练模型。它使用了Transformer作为算法的主要框架,更彻底的捕捉语句中的双向关系,使用了Mask Language Model(MLM)和Next Sentence Prediction(NSP)的多任务训练目标;基于BERT,可以在很多NLP任务上进行微调,提升效果。同样,本发明也利用BERT预训练模型,提升企业实体的表征学习效果,一定程度也可以减少对标注数据的依赖。
在具体操作中,本发明是采用BERT变体RoBERTa进行编码后采用CNN进行特征提取,因为RoBERTa是用中文语料进行训练的,更适合本发明的任务场景。
在采用CNN进行特征提取时,在传统的神经网络中,每个神经元的输出接到下一层每个神经元的输入上,这是全连接,而在CNN中,每一层都用不同的卷积核,对输入层进行卷积得到输出,再把它们组合起来得到特征向量,为KMeans层的输入做准备。
在本申请中进行卷积时,选取指定大小的滑动窗口的卷积核对特征矩阵进行卷积,其间用到0填充操作,目的是为了充分利用和处理输入数据的边缘信息,搭配合适的卷积层参数可保持与输入同等大小,而避免随着网络深度增加,输入大小的急剧减小,在操作过程中,本发明选择[2,3,4]不同的卷积核大小,卷积核数据为128,其公式如下:
f=(mapsize-kernelsize+2*padding)/stride+1
其中mapsize为BERT编码后的向量,kernelsize为卷积核大小,padding,stride分别为填充变量与步长。
再卷积层后,接一个池化层,本发明采用max-pooling的池化方式,然后将不同的卷积核进行拼接,形成代表企业实体的向量。卷积与池化的目的就是从企业实体文本中抽取关键N-gram特征,类似产品信息等,提升企业实体在面向关系任务识别的表征效果。
S206,基于企业关联关系识别模型中的K均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
在本申请实施例中,聚类试图将数据集中的样本划分为若干个通常是不相交的“簇”,通过这样的划分,每个簇可能对应一些潜在的类别,在本发明中对应“同行”、“供应商”、“潜在客户”和“其他”。k-means聚类算法(k均值算法)是原型聚类算法之一。
在经过BERT+CNN表征后,形成企业实体集合D={c1,c2,…cn},然后聚类形成C={C1,C2,…,CK}簇,此处K=4。
其中是簇Ci的均值向量。公式1在一定程度上刻画了簇内样本围绕簇均值样本的紧密程度,E值越小,则簇内样本相似度越高。K-means采用了贪心策略,通过迭代化来找到公式1的最优解。流程如下:
(1)从D中随机选取k个样本作为初始向量{μ12,…,μk}。
(2)依次计算样本xj(1≤j≤m)与各均值向量μi(1≤i≤k)的距离dij=||xji||2,根据距离最近的均值向量确定xj的类别C。
(3)计算新的均值向量若μ′i与μi不相等,则更新均值向量。直到当前均值均未更新。
S207,根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值,输出模型的损失值;
在本申请实施例中,为了通过特征提取和KMeans聚类过程的相互作用对网络进行动态调整和优化,我们定义优化目标为
其中,si为企业样本i的分类效果变量,ai为到同一簇内其他文本的平均距离,bi为在相邻最近的簇中到其他样本的平均距离,N为样本总个数,SC的值在-1到1之间,值越高,聚类结果越合理。因此,损失函数定义为:
定义了损失函数后,可以根据损失函数对神经网络的特征提取过程进行连续的训练、调整和优化。直到损失函数最小,在现有条件下聚类结果达到最优。
S208,当损失值达到最小时,生成训练后的企业关联关系识别模型;
在一种可能的实现方式中,当损失值达到最小时,生成训练后的企业关联关系识别模型,当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
S209,从训练样本中随机抽取某一企业的文本信息,并将某一企业的文本信息输入训练后的企业关联关系识别模型中生成企业类别;
S210,计算企业类别的类别相似度;
S211,当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
在一种可能的实现方式中,当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型,如果类别相似度小于预设值时,将该数据样本作为待处理数据进行人工校正,重新训练该模型。当迭代次数小于10次时,继续进行迭代训练该模型。
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过BERT神经网络、卷积神经网络以及K均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图5,其示出了本发明一个示例性实施例提供的企业关联关系识别装置的结构示意图。该企业关联关系识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置5包括文本信息采集模块10、文本信息输入模块20、关联关系输出模块30。
文本信息采集模块10,用于通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
文本信息输入模块20,用于确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建后采用训练样本训练所生成;
关联关系输出模块30,用于输出待识别企业和多个企业之间的关联关系。
可选的,例如图6所示,装置1还包括:
训练样本生成模块40,用于采集并预处理每个行业中多个企业的文本信息,生成训练样本;
模型创建模块50,用于根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
损失值输出模块60,用于将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
模型生成模块70,用于当损失值达到最小时,生成训练后的企业关联关系识别模型。
需要说明的是,上述实施例提供的企业关联关系识别装置在执行企业关联关系识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的企业关联关系识别装置与企业关联关系识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过BERT神经网络、卷积神经网络以及K均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的企业关联关系识别方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的企业关联关系识别方法。
请参见图7,为本申请实施例提供了一种终端的结构示意图。如图7所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及企业关联关系识别应用程序。
在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的企业关联关系识别应用程序,并具体执行以下操作:
通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建后采用训练样本训练所生成;
输出待识别企业和多个企业之间的关联关系。
在一个实施例中,处理器1001在执行通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息之前时,还执行以下操作:
采集并预处理每个行业中多个企业的文本信息,生成训练样本;
根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
当损失值达到最小时,生成训练后的企业关联关系识别模型;
从训练样本中随机抽取某一企业的文本信息;
将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别;
计算企业类别的类别相似度;
当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
在一个实施例中,处理器1001在执行采集并预处理每个行业中多个企业的文本信息,生成训练样本时,具体执行以下操作:
采集每个行业中多个企业的文本信息;
将每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
将各企业的属性文本进行拼接,并按照预设字符级标注方式标注拼接后的属性文本生成各企业标注的文本信息;
将各企业标注的文本信息确定为训练样本。
在一个实施例中,处理器1001在执行将训练样本输入至企业关联关系识别模型中,输出模型的损失值时,具体执行以下操作:
将各企业标注的文本信息依次输入至企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及
基于企业关联关系识别模型中的K均值聚类算法将各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
根据聚类结果以及预设损失值计算函数计算企业关联关系识别模型的损失值;
输出企业关联关系识别模型的损失值。
在一个实施例中,处理器1001在执行当损失值达到最小时,生成训练后的企业关联关系识别模型时,具体执行以下操作:
当损失值未达到最小时,基于损失值对企业关联关系识别模型进行调整,并执行将训练样本输入至企业关联关系识别模型中的步骤。
在本申请实施例中,企业关联关系识别装置首先通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息,然后确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中,最后输出待识别企业和多个企业之间的关联关系。由于本申请通过BERT神经网络、卷积神经网络以及K均值聚类算法创建模型,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (7)

1.一种企业关联关系识别方法,其特征在于,所述方法包括:
通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
确定待识别企业的文本信息,将所述多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,所述企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
输出所述待识别企业和所述多个企业之间的关联关系;其中,
按照下述方法生成预先训练的企业关联关系识别模型,包括:
采集并预处理每个行业中多个企业的文本信息,生成训练样本;其中,
所述采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:
采集每个行业中多个企业的文本信息;
将所述每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
将所述各企业的属性文本进行拼接,并按照预设字符级标注方式标注所述拼接后的属性文本生成各企业标注的文本信息;
将所述各企业标注的文本信息确定为训练样本;
根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
将所述训练样本输入至所述企业关联关系识别模型中,输出所述模型的损失值;
当所述损失值达到最小时,生成训练后的企业关联关系识别模型;其中,
所述将所述训练样本输入至所述企业关联关系识别模型中,输出所述模型的损失值,包括:
将所述各企业标注的文本信息依次输入至所述企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及,
基于所述企业关联关系识别模型中的K均值聚类算法将所述各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
根据所述聚类结果以及预设损失值计算函数计算所述企业关联关系识别模型的损失值;
输出所述企业关联关系识别模型的损失值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述训练样本中随机抽取某一企业的文本信息;
将所述某一企业的文本信息输入所述训练后的企业关联关系识别模型中,生成企业类别;
计算所述企业类别的类别相似度;
当所述类别相似度大于预设值且所述模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
3.根据权利要求1所述的方法,其特征在于,所述当所述损失值达到最小时,生成训练后的企业关联关系识别模型,包括:
当所述损失值未达到最小时,基于所述损失值对所述企业关联关系识别模型进行调整,并执行所述将所述训练样本输入至所述企业关联关系识别模型中的步骤。
4.根据权利要求1所述的方法,其特征在于,所述损失值计算函数为其中,loss为损失值,ai为到同一簇内其他文本的平均距离,bi为在相邻最近的簇中到其他样本的平均距离,N为样本总个数。
5.一种企业关联关系识别装置,其特征在于,所述装置包括:
文本信息采集模块,用于通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
文本信息输入模块,用于确定待识别企业的文本信息,将所述多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,所述企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
关联关系输出模块,用于输出所述待识别企业和所述多个企业之间的关联关系;其中,
按照下述方法生成预先训练的企业关联关系识别模型,包括:
采集并预处理每个行业中多个企业的文本信息,生成训练样本;其中,
所述采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:
采集每个行业中多个企业的文本信息;
将所述每个行业中多个企业的文本信息进行清洗及噪声去除,生成多个企业中各企业的属性文本;
将所述各企业的属性文本进行拼接,并按照预设字符级标注方式标注所述拼接后的属性文本生成各企业标注的文本信息;
将所述各企业标注的文本信息确定为训练样本;
根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
将所述训练样本输入至所述企业关联关系识别模型中,输出所述模型的损失值;
当所述损失值达到最小时,生成训练后的企业关联关系识别模型;其中,
所述将所述训练样本输入至所述企业关联关系识别模型中,输出所述模型的损失值,包括:
将所述各企业标注的文本信息依次输入至所述企业关联关系识别模型中的BERT神经网络和卷积神经网络进行文本处理,生成各企业文本信息所对应的文本向量;以及,
基于所述企业关联关系识别模型中的K均值聚类算法将所述各企业文本信息所对应的文本向量进行聚类,生成各企业文本信息的聚类结果;
根据所述聚类结果以及预设损失值计算函数计算所述企业关联关系识别模型的损失值;
输出所述企业关联关系识别模型的损失值。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-4任意一项的方法步骤。
7.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-4任意一项的方法步骤。
CN202011331510.9A 2020-11-24 2020-11-24 一种企业关联关系识别方法、装置及存储介质 Active CN112418320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011331510.9A CN112418320B (zh) 2020-11-24 2020-11-24 一种企业关联关系识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011331510.9A CN112418320B (zh) 2020-11-24 2020-11-24 一种企业关联关系识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112418320A CN112418320A (zh) 2021-02-26
CN112418320B true CN112418320B (zh) 2024-01-19

Family

ID=74777401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011331510.9A Active CN112418320B (zh) 2020-11-24 2020-11-24 一种企业关联关系识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112418320B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN114615311B (zh) * 2022-03-03 2024-02-13 平安国际融资租赁有限公司 一种企业信息处理方法、装置、设备及存储介质
CN114840750A (zh) * 2022-04-26 2022-08-02 北京金堤科技有限公司 模型的构建方法、关系的确定方法、装置、介质及设备
CN114998631B (zh) * 2022-08-08 2022-11-11 成都薯片科技有限公司 企业logo生成方法、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN107665451A (zh) * 2016-07-29 2018-02-06 百度在线网络技术(北京)有限公司 一种基于客户特征数据进行产品推送的方法及装置
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置
CN109299362A (zh) * 2018-09-21 2019-02-01 平安科技(深圳)有限公司 相似企业推荐方法、装置、计算机设备及存储介质
WO2019095572A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 企业投资风险评估方法、装置及存储介质
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质
CN111797858A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、行为预测方法、装置、存储介质及设备
CN111860674A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 样本类别识别方法、装置、计算机设备及存储介质
WO2020221278A1 (zh) * 2019-04-29 2020-11-05 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665451A (zh) * 2016-07-29 2018-02-06 百度在线网络技术(北京)有限公司 一种基于客户特征数据进行产品推送的方法及装置
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
WO2019095572A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 企业投资风险评估方法、装置及存储介质
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置
CN109299362A (zh) * 2018-09-21 2019-02-01 平安科技(深圳)有限公司 相似企业推荐方法、装置、计算机设备及存储介质
CN111797858A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、行为预测方法、装置、存储介质及设备
WO2020221278A1 (zh) * 2019-04-29 2020-11-05 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质
CN111860674A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 样本类别识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王超.面向企业图谱构建的中文命名实体识别技术研究.《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2020,全文. *

Also Published As

Publication number Publication date
CN112418320A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
EP3467723B1 (en) Machine learning based network model construction method and apparatus
CN109271521B (zh) 一种文本分类方法及装置
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112765357A (zh) 文本分类方法、装置和电子设备
CN113553510A (zh) 一种文本信息推荐方法、装置及可读介质
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
WO2021159099A9 (en) Searching for normalization-activation layer architectures
CN115066689A (zh) 细粒度的随机神经架构搜索
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置
CN112445914A (zh) 文本分类方法、装置、计算机设备和介质
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备
CN113094504A (zh) 基于自动机器学习的自适应文本分类方法及装置
CN112632229A (zh) 文本聚类方法及装置
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质
CN116049414B (zh) 基于话题描述的文本聚类方法、电子设备和存储介质
EP4125010A1 (en) Adaptive learning based systems and methods for optimization of unsupervised clustering
CN116029492B (zh) 派单方法和装置
US20230124177A1 (en) System and method for training a sparse neural network whilst maintaining sparsity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant