CN109447412A - 构建企业关系图谱的方法、装置、计算机设备和存储介质 - Google Patents
构建企业关系图谱的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109447412A CN109447412A CN201811122759.1A CN201811122759A CN109447412A CN 109447412 A CN109447412 A CN 109447412A CN 201811122759 A CN201811122759 A CN 201811122759A CN 109447412 A CN109447412 A CN 109447412A
- Authority
- CN
- China
- Prior art keywords
- business
- relationship
- business entity
- entity
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
Abstract
本申请涉及一种基于大数据的构建企业关系图谱的方法、装置、计算机设备和存储介质。所述方法包括:获取企业关系语句,企业关系语句中包括第一企业实体和第二企业实体;提取所述企业关系语句中的关键词,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型,当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列,将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向,根据关系类型和关系流向构建企业关系图谱。采用本方法能够提高构建企业关系图谱的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种构建企业关系图谱的方法、装置、计算机设备和存储介质。
背景技术
目前,企业关系图谱是以企业为点,点与点的连接关系构成的图谱,通过图谱中点与点的连接关系,可以直观的获知两个企业之间的关系。随着计算机技术的发展,网络中会出现大量关于企业之间的新闻报道,通过新闻标题,可以大致预测企业关系。然而,企业关系复杂,同一新闻报道,可能存在大量不同的标题,因此需要对成千上万条的新闻资讯进行预测,以建立企业关系图谱,通过人工方式对成千上万条的新闻资讯进行预测,不仅需要耗费大量的人力和物力,而且构建企业关系图谱的效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决构建企业关系图谱效率低下问题的构建企业关系图谱的方法、装置、计算机设备和存储介质。
一种构建企业关系图谱的方法,所述方法包括:
获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体;
提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型;
当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;
将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向;
根据所述关系类型和所述关系流向构建企业关系图谱。
在其中一个实施例中,还包括:对企业关系语句进行分词处理,得到多个候选词;
将所述候选词输入预先设置的加权模型,得到所述候选词的权重;
将所述权重从大到小进行排序,选择排序靠前的预设个权重对应的候选词作为关键词。
在其中一个实施例中,还包括:对所述企业关系语句进行切词处理,得到多个词语;获取第一企业实体和第二企业实体之间所述词语组成的词语序列,对所述词语序列进行词性分析,得到第一企业实体和第二企业实体之间的词性序列。
在其中一个实施例中,还包括:获取预先设置的词性与字母的对应关系,其中,不同词性对应不同的字母;根据所述对应关系,将所述词性序列中各词性用字母进行替换,得到所述词性序列对应的字母序列;将所述字母序列输入预先设置的神经网络模型中,得到所述第一企业实体与所述第二企业实体的关系流向。
在其中一个实施例中,还包括:从预先设置的语料库获取已标注关系语料;获取所述已标注关系语料中第一企业实体和第二企业实体之间的已知词性序列和已知关系流向,将所述已知词性序列作为的输入,所述已知关系流向作为标签,利用所述输入和所述标签在神经网络中进行训练,得到所述神经网络模型。
在其中一个实施例中,还包括:设置数据源和包含第一企业实体和第二企业实体的对象;通过预先设置的爬虫脚本,从所述数据源获取包含所述对象的企业关系语句。
在其中一个实施例中,还包括:生成企业关系图谱中第一企业实体和第二企业实体对应的点,根据所述关系类型建立企业关系图谱中第一企业实体的点与第二企业实体的点的连接关系;根据所述关系流向确定企业关系图谱中所述连接关系的方向。
一种构建企业关系图谱的装置,所述装置包括:
获取模块,用于获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体;
关系预测模块,用于提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型;
流向预测模块,用于当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向;
构建模块,用于根据所述关系类型和所述关系流向构建企业关系图谱。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体;
提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型;
当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;
将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向;
根据所述关系类型和所述关系流向构建企业关系图谱。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体;
提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型;
当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;
将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向;
根据所述关系类型和所述关系流向构建企业关系图谱。
上述构建企业关系图谱的方法、装置、计算机设备和存储介质,通过获取企业关系语句,企业关系语句中包括第一企业实体和第二企业实体,然后提取企业关系语句中的关键,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型,当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列,将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向,根据关系类型和所述关系流向构建企业关系图谱。本发明实时例中,通过企业关系语句的关键词,然后基于词袋模型对关键词进行匹配,预测企业实体之间的关系类型,并且根据词性序列,通过神经网络模型对关系流向进行预测,整个过程响应快速,无需人为参与,就可以输出两个企业实体的关系图谱,从而提高构建企业关系图谱的效率。
附图说明
图1为一个实施例中构建企业关系图谱的方法的应用场景图;
图2为一个实施例中构建企业关系图谱的方法的流程示意图;
图3为一个实施例中获取企业关系语句中关键词步骤的流程示意图;
图4为另一个实施例中获取词性序列步骤的流程示意图;
图5为一个实施例中构建企业关系图谱的装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的构建企业关系图谱的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
进一步的,终端102持续接收服务器104中的企业关系语句,企业关系语句具体可以是新闻标题,终端102对新闻标题进行关系类型推测和关系流向推测,从而通过终端102构建企业关系图谱。
另外,终端102中可以运行可视化软件,以此将构建的企业关系图谱进行可视化展示,通过持续的接收企业关系语句,从而企业关系图谱也是动态变化,从而可以清楚的反映了企业关系的变化,为企业监控提供有利的信息支持。
终端102中预先存储了各个关系类型对应的词袋模型以及预先训练的神经网络模型,在获取企业关系语句时可以通过词袋模型快速匹配到企业关系语句的关系类型,从而根据神经网络模型,预测关系流向。整个过程耗时短,响应快速。
服务器104可以是新闻来源网站的服务器,终端102通过网络访问新闻来源网站的URL(Uniform Resource Locator,统一资源定位符)地址,可以从服务器获取到新闻资讯,从而获取到新闻标题。
在一个实施例中,如图2所示,提供了一种构建企业关系图谱的方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取企业关系语句。
企业关系语句为自然语句,该自然语句中包括第一企业实体和第二企业实体。企业实体可以是企业名称、企业名称缩写以及企业在社会上认可的外号等。通过企业实体,可以确定唯一的企业。
具体的,关系语句可以是新闻资讯的新闻标题,新闻标题中可能包括两个企业的企业实体,因此,可以从互联网中获取该类型新闻标题作为企业关系语句。
另外,在构建企业关系图谱时,需要构建指定企业的企业关系图谱,因此,可以通过在终端中设置爬虫脚本或者爬虫程序,通过企业实体设置索引,从互联网中获取大量的包含企业实体的新闻标题,然后从中选择包含其他企业实体的新闻标题,因此,终端中还需要设置企业实体库,通过企业实体库,匹配得到新闻标题中的企业关系语句。
步骤204,提取企业关系语句中的关键词,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型。
关键词可以体现出企业关系语句的主要信息,提取关键词可以是对企业关系语句进行分词后,进行筛选,得到企业关系语句的关键词。
预先设置的词袋模型可以是多个关系类型对应的词袋模型,可以通过语料库,训练出每个关系类型对应的词袋模型,然后对企业关系语句进行关键词匹配,可以得到企业关系语句中第一企业实体和第二企业实体的关系类型。
具体的,关系类型可以是:上下游关系、投资关系、合作关系等,通过语料库,可以训练得到上下游关系词袋模型、投资关系词袋模型以及合作关系词袋模型,词袋模型中均包含多个词汇,在进行匹配时,统计关键词在各个词袋模型中出现的词频,从而根据词频确定企业关系语句所属的词袋模型,从而确定企业关系语句中第一企业实体和第二企业实体的关系类型。本实施例中,采用的词袋模型具有一定的通用性,因此可以是方法实现更加简单。
步骤206,当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列。
关系流向指的是关系类型存在实施方和接收方,例如:投资关系,第一企业实体投资第二企业实体,其中,第一企业实体为实施方,第二企业实体为接收方,因此这种关系类型是不可逆的。因此,在构建企业关系图谱时,在企业关系图谱中反映关系流向,可以增加企业关系图谱中的信息量。
具体的,在终端中存储各个关系类型是否存在关系流向的信息,因此,在判断企业关系语句中第一企业实体和第二企业实体的关系类型后,可以判断关系类型是否存在关系流向。
另外,企业关系语句中包含第一企业实体和第二企业实体,对于第一企业实体和第二企业实体之间的词汇,可以分析词汇的词性,从而得到词性序列。对于中文而言,可以建立词性库,通过词性库按照一定的顺序匹配每个词汇,得到每个词汇词性,然后将词性按照一定的顺序排列,得到词性序列。对于中文而言,词性序列可以确定第一企业实体和第二企业实体中,哪一个为主语,从而可以确定关系类型中的实施方。
步骤208,将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向。
预先设置的神经网络模型(Neural Networks,NN)是根据已标注的词性序列进行训练得到的。词性序列可以采用方向标签进行标记,方向标签与关系流向相对应,将词性序列输入训练好的神经网络模型,输出方向标签,从而可以得到关系流向。
步骤210,根据关系类型和关系流向构建企业关系图谱。
在获取企业关系句的关系类型和关系流向后,可以构建企业关系句中,第一企业实体和第二企业实体的关系图谱。生成图谱具体可以是:在可视化界面的画布上,生成分别表示第一企业实体和第二企业实体的点,然后将两个点进行连接,值得说明的是,不同的关系类型可以采用不同类型的线条进行表示,因此需要预先定义线条类型与关系类型的对应关系。对于关系流向可以采用箭头形式表示。另外,在可视化界面的画布上,每个企业实体仅有唯一对应的点,因此,在对大量企业关系句进行分析后,可以在可视化界面的画布上呈现多个企业的关系图谱。
上述种构建企业关系图谱的方法中,通过获取企业关系语句,企业关系语句中包括第一企业实体和第二企业实体,然后提取企业关系语句中的关键,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型,当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列,将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向,根据关系类型和所述关系流向构建企业关系图谱。本发明实时例中,通过企业关系语句的关键词,然后基于词袋模型对关键词进行匹配,预测企业实体之间的关系类型,并且根据词性序列,通过神经网络模型对关系流向进行预测,整个过程响应快速,无需人为参与,就可以输出两个企业实体的关系图谱,从而提高构建企业关系图谱的效率。
在一实施例中,如图3所示,提供一种获取企业关系语句中关键词步骤的示意性流程图,具体步骤如下:
步骤302,对企业关系语句进行分词处理,得到多个候选词。
本实施例中,采用分词的方法对企业关系语句进行分割,得到多个候选词,在这多个候选词中,其中大部分均为停顿词、数量词等,因此,需要去除候选词中的停顿词、数量词等,从而使预测效果更佳。
步骤304,将候选词输入预先设置的加权模型,得到候选词的权重。
本步骤中,通过建立加权模型,将候选词输入加权模型中,从而得到各个候选词的权重。
具体的,加权模型可以通过TF-IDF(term frequency–inverse documentfrequency,词频-逆向文件词频)算法实现。具体步骤如下:获取大量的企业关系语句作为逆向文件,统计每个候选词在企业关系语句中的词频,记作正向词频,然后统计该候选词在逆向文件中出现的频率,记作逆向词频,从而得到候选词的权重为正向词频除以逆向词频得到的值。本方案中,权重越大,则说明该候选词的重要性越高。
步骤306,将权重从大到小进行排序,选择排序靠前的预设个权重对应的候选词作为关键词。
通过权重的大小,可以对所有候选词的重要性进行排序,从而确定重要性高的作为关键词。
本发明实施例中,提供的方法流程,可以提高候选词提取的准确性,从而提供企业关系句分类时的准确性。
在一实施例中,如图4所示,提供一种获取词性序列步骤的示意性流程图,具体步骤如下:
步骤402,对企业关系语句进行切词处理,得到多个词语。
切词是将企业关系句分割为独立的词语,每个词语均有独立的含义。在本步骤中,终端无需关注每个词语具体的含义,只需要记录每个企业关系句被分割后的词语的顺序。
步骤404,获取第一企业实体和第二企业实体之间词语组成的词语序列,对词语序列进行词性分析,得到第一企业实体和第二企业实体之间的词性序列。
通过上一步骤中记录的企业关系句被分割后的词语的顺序,可以得到第一企业实体和第二企业实体之间词语组成的词语序列。然后逐个解析词语序列中每个词语的词性,从而得到第一企业实体和第二企业实体之间的词性序列。
本发明实施例中,通过对企业关系句进行切词,得到独立的词语,从而便于提取出企业关系语句中的词性序列。
在另一实施例中,将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向的步骤可以是:获取预先设置的词性与字母的对应关系,其中,不同词性对应不同的字母;根据对应关系,将词性序列中各词性用字母进行替换,得到词性序列对应的字母序列;将字母序列输入预先设置的神经网络模型中,得到第一企业实体与所述第二企业实体的关系流向。
本实施例中,将词性用字母表示,在得到词语的词性后,直接转换为字母,因此将词性序列采用字母序列的形式表示,在进行关系流向的预测时,只需要将字母序列输入神经网络模型即可。采用本方法,可以将词性序列替换为字母序列,利用字母序列可解释性强的特点,从而提高关系流向预测的准确性。
在又一实施例中,还需要训练得到神经网络模型,具体步骤如下:从预先设置的语料库获取已标注关系语料,获取已标注关系语料中第一企业实体和第二企业实体之间的已知词性序列和已知关系流向,将已知关系流向作为标签,已知词性序列作为输入,利用输入和标签在神经网络中进行训练,得到神经网络模型。
具体的,通过已知词性序列和已知关系流向,建立样本集、测试集和验证集,例如:样本集中包括1892条已知词性序列和已知关系流向的样本,将样本集中的样本输入初始的神经网络中,通过样本集中样本的不断迭代,在测试集样本的测试中形成初始的神经网络模型,知道神经网络模型在验证集上达到一定的准确性,从而训练得到神经网络模型。通过对已知词性序列的训练,可以解释词性序列与关系流向的关系,从而在输入词性序列时,可以准确的预测词性序列对应的关系流向。
另外,在一实施例中,企业关系语句可以是新闻标题,新闻来源可以是网络,通过收集网络资讯,从而提取网络资讯的新闻标题,可以得到企业关系语句。在收集企业资讯时,可以在终端中设置爬虫脚本,然后设置数据源以及对象,其中,对象为包含第一企业实体和第二企业实体的对象,通过爬虫脚本从数据源获取包含对象的新闻标题。
具体的,数据源可以是预先筛选的URL地址,通过爬虫脚本,爬虫脚本访问URL地址,可以从URL地址的数据库获取新闻标题,从而保证持续的数据来源。
在一实施例中,根据关系类型和关系流向构建企业关系图谱的步骤可以是:生成企业关系图谱中第一企业实体和第二企业实体对应的点,根据关系类型建立企业关系图谱中第一企业实体的点与第二企业实体的点的连接关系,根据关系流向确定企业关系图谱中连接关系的方向。
具体的,终端中可以运行可视化软件,在构建企业关系图谱时,在可视化软件的画布中,生成企业关系图谱中第一企业实体和第二企业实体对应的点,值得说明的是,可以首先生成第一企业实体对应的点,然后在第一企业实体的点一定距离内生成第二企业实体对应的点,从而使可视化显示时,企业关系视觉效果更加清晰。在生成企业实体的点后,建立第一企业实体和第二企业实体的连接关系,点与点的连接,可以采用不同类型的线条表示不同的关系类型,例如:红色的线条可以表示第一企业实体与第二企业实体的合作关系,虚线可以表示第一企业实体和第二企业实体的投资关系,值得说明的是,线条的类型不限于颜色,还可以是不同宽细等。根据关系流向确定线条的方向,方向可以通过线条体现。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种构建企业关系图谱的装置,包括:获取模块502、关系预测模块504、流向预测模块506和构建模块508,其中:
获取模块502,用于获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体。
关系预测模块504,用于提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型。
流向预测模块506,用于当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向。
构建模块508,用于根据所述关系类型和所述关系流向构建企业关系图谱。
上述种构建企业关系图谱的装置中,通过获取模块502获取企业关系语句,企业关系语句中包括第一企业实体和第二企业实体,然后关系预测模块504提取企业关系语句中的关键,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型,流向预测模块506当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列,将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向,构建模块508根据关系类型和关系流向构建企业关系图谱。本发明实时例中,通过企业关系语句的关键词,然后基于词袋模型对关键词进行匹配,预测企业实体之间的关系类型,并且根据词性序列,通过神经网络模型对关系流向进行预测,整个过程响应快速,无需人为参与,就可以输出两个企业实体的关系图谱,从而提高构建企业关系图谱的效率。
在一实施例中,关系预测模块504还用于对企业关系语句进行分词处理,得到多个候选词;将候选词输入预先设置的加权模型,得到候选词的权重;将权重从大到小进行排序,选择排序靠前的预设个权重对应的候选词作为关键词。
在一实施例中,流向预测模块506还用于对企业关系语句进行切词处理,得到多个词语;获取第一企业实体和第二企业实体之间词语组成的词语序列,对词语序列进行词性分析,得到第一企业实体和第二企业实体之间的词性序列。
在一实施例中,流向预测模块506还用于获取预先设置的词性与字母的对应关系,其中,不同词性对应不同的字母;根据对应关系,将词性序列中各词性用字母进行替换,得到词性序列对应的字母序列;将字母序列输入预先设置的神经网络模型中,得到第一企业实体与所述第二企业实体的关系流向。
在一实施例中,还包括模型训练模块,用于从预先设置的语料库获取已标注关系语料;获取所述已标注关系语料中第一企业实体和第二企业实体之间的已知词性序列和已知关系流向,将所述已知词性序列作为输入,所述已知关系流向作为标签,利用所述输入和所述标签在神经网络中进行训练,得到所述神经网络模型。
在一实施例中,获取模块502还用于设置数据源和包含第一企业实体和第二企业实体的对象,通过预先设置的爬虫脚本,从数据源获取包含对象的企业关系语句。
在一实施例中,构建模块508还用于生成企业关系图谱中第一企业实体和第二企业实体对应的点,根据关系类型建立企业关系图谱中第一企业实体的点与第二企业实体的点的连接关系;根据关系流向确定企业关系图谱中连接关系的方向。
关于构建企业关系图谱的装置的具体限定可以参见上文中对于构建企业关系图谱的方法的限定,在此不再赘述。上述构建企业关系图谱的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储构建企业关系图谱时所获取或者得到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种构建企业关系图谱的方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取企业关系语句,企业关系语句中包括第一企业实体和第二企业实体。
提取企业关系语句中的关键词,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型。
当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列。
将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向。
根据关系类型和关系流向构建企业关系图谱。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取企业关系语句,企业关系语句中包括第一企业实体和第二企业实体。
提取企业关系语句中的关键词,根据预先设置的词袋模型对关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型。
当关系类型存在关系流向时,获取企业关系语句中第一企业实体和第二企业实体之间的词性序列。
将词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向。
根据关系类型和关系流向构建企业关系图谱。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种构建企业关系图谱的方法,所述方法包括:
获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体;
提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型;
当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;
将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向;
根据所述关系类型和所述关系流向构建企业关系图谱。
2.根据权利要求1所述的方法,其特征在于,获取所述企业关系语句中的关键词,包括:
对企业关系语句进行分词处理,得到多个候选词;
将所述候选词输入预先设置的加权模型,得到所述候选词的权重;
将所述权重从大到小进行排序,选择排序靠前的预设个权重对应的候选词作为关键词。
3.根据权利要求1所述的方法,其特征在于,所述获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列,包括:
对所述企业关系语句进行切词处理,得到多个词语;
获取第一企业实体和第二企业实体之间所述词语组成的词语序列,对所述词语序列进行词性分析,得到第一企业实体和第二企业实体之间的词性序列。
4.根据权利要3所述的方法,其特征在于,将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向,包括:
获取预先设置的词性与字母的对应关系,其中,不同词性对应不同的字母;
根据所述对应关系,将所述词性序列中各词性用字母进行替换,得到所述词性序列对应的字母序列;
将所述字母序列输入预先设置的神经网络模型中,得到所述第一企业实体与所述第二企业实体的关系流向。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
从预先设置的语料库获取已标注关系语料;
获取所述已标注关系语料中第一企业实体和第二企业实体之间的已知词性序列和已知关系流向,将所述已知词性序列作为输入,所述已知关系流向作为标签,利用所述输入和所述标签在神经网络中进行训练,得到所述神经网络模型。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述获取企业关系语句,包括:
设置数据源和包含第一企业实体和第二企业实体的对象;
通过预先设置的爬虫脚本,从所述数据源获取包含所述对象的企业关系语句。
7.根据权利要求1至4任一项所述的方法,其特征在于,根据所述关系类型和所述关系流向构建企业关系图谱,包括:
生成企业关系图谱中第一企业实体和第二企业实体对应的点,根据所述关系类型建立企业关系图谱中第一企业实体的点与第二企业实体的点的连接关系;
根据所述关系流向确定企业关系图谱中所述连接关系的方向。
8.一种构建企业关系图谱的装置,其特征在于,所述装置包括:
获取模块,用于获取企业关系语句,所述企业关系语句中包括第一企业实体和第二企业实体;
关系预测模块,用于提取所述企业关系语句中的关键词,根据预先设置的词袋模型对所述关键词进行匹配,得到企业关系语句中第一企业实体和第二企业实体的关系类型;
流向预测模块,用于当所述关系类型存在关系流向时,获取所述企业关系语句中第一企业实体和第二企业实体之间的词性序列;将所述词性序列输入预先设置的神经网络模型中,得到第一企业实体与第二企业实体的关系流向;
构建模块,用于根据所述关系类型和所述关系流向构建企业关系图谱。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811122759.1A CN109447412A (zh) | 2018-09-26 | 2018-09-26 | 构建企业关系图谱的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811122759.1A CN109447412A (zh) | 2018-09-26 | 2018-09-26 | 构建企业关系图谱的方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109447412A true CN109447412A (zh) | 2019-03-08 |
Family
ID=65544467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811122759.1A Withdrawn CN109447412A (zh) | 2018-09-26 | 2018-09-26 | 构建企业关系图谱的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447412A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458399A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 风险信息生成方法、装置、计算机设备和存储介质 |
CN110990587A (zh) * | 2019-12-04 | 2020-04-10 | 电子科技大学 | 基于主题模型的企业关系发现方法及系统 |
CN111414485A (zh) * | 2020-03-17 | 2020-07-14 | 北京恒通慧源大数据技术有限公司 | 企业客户关联关系图谱构建方法、装置、存储器和计算机 |
WO2022142116A1 (zh) * | 2020-12-28 | 2022-07-07 | 平安科技(深圳)有限公司 | 文档处理方法、装置、电子设备及存储介质 |
-
2018
- 2018-09-26 CN CN201811122759.1A patent/CN109447412A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458399A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 风险信息生成方法、装置、计算机设备和存储介质 |
CN110990587A (zh) * | 2019-12-04 | 2020-04-10 | 电子科技大学 | 基于主题模型的企业关系发现方法及系统 |
CN110990587B (zh) * | 2019-12-04 | 2023-04-18 | 电子科技大学 | 基于主题模型的企业关系发现方法及系统 |
CN111414485A (zh) * | 2020-03-17 | 2020-07-14 | 北京恒通慧源大数据技术有限公司 | 企业客户关联关系图谱构建方法、装置、存储器和计算机 |
WO2022142116A1 (zh) * | 2020-12-28 | 2022-07-07 | 平安科技(深圳)有限公司 | 文档处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021184571A1 (zh) | 动态表单生成方法、装置、计算机设备和存储介质 | |
CN109447412A (zh) | 构建企业关系图谱的方法、装置、计算机设备和存储介质 | |
CN109829628A (zh) | 基于大数据的风险预警方法、装置和计算机设备 | |
CN110021439A (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
CN109815333A (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN108228873A (zh) | 对象推荐、发布内容推送方法、装置、存储介质和设备 | |
CN109829153A (zh) | 基于卷积神经网络的意图识别方法、装置、设备及介质 | |
CN109858010A (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
US20170060826A1 (en) | Automatic Sentence And Clause Level Topic Extraction And Text Summarization | |
CN109753653A (zh) | 实体名称识别方法、装置、计算机设备和存储介质 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN115687687B (zh) | 一种面向开放域查询的视频片段搜索方法及系统 | |
CN111666401A (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN109815331A (zh) | 文本情感分类模型的构建方法、装置和计算机设备 | |
CN109710933A (zh) | 训练语料的获取方法、装置、计算机设备和存储介质 | |
CN109325118A (zh) | 不平衡样本数据预处理方法、装置和计算机设备 | |
CN109214417A (zh) | 用户意图的挖掘方法及装置、计算机设备及可读介质 | |
CN111324716A (zh) | 指标数据获取方法、装置、计算机设备和存储介质 | |
CN110135694A (zh) | 产品风险评估方法、装置、计算机设备和存储介质 | |
CN110532575A (zh) | 文本翻译方法及装置 | |
CN107256266A (zh) | 一种查询内容展示方法及其系统 | |
CN107015965A (zh) | 一种中文文本情感分析装置及方法 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN116188250A (zh) | 图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190308 |