CN110489560A - 基于知识图谱技术的小微企业画像生成方法及装置 - Google Patents

基于知识图谱技术的小微企业画像生成方法及装置 Download PDF

Info

Publication number
CN110489560A
CN110489560A CN201910533256.1A CN201910533256A CN110489560A CN 110489560 A CN110489560 A CN 110489560A CN 201910533256 A CN201910533256 A CN 201910533256A CN 110489560 A CN110489560 A CN 110489560A
Authority
CN
China
Prior art keywords
entity
data
relationship
little wei
wei enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910533256.1A
Other languages
English (en)
Inventor
李振
刘恒
赵兴莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Original Assignee
MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MINSHENG SCIENCE AND TECHNOLOGY Co Ltd filed Critical MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Priority to CN201910533256.1A priority Critical patent/CN110489560A/zh
Publication of CN110489560A publication Critical patent/CN110489560A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱技术的小微企业画像生成的方法及装置,属于数据分析领域。该方法包括:结构化数据处理;非结构化数据处理;构建知识图谱;生成小微企业画像。通过构建企业知识图谱,将小微企业分散的数据整合起来,并弥补小微企业缺失的数据,形成巨大的企业数据网络结构图,清晰体现企业多层上下游关系、多层股权关系、高管信息、舆情数据等等。

Description

基于知识图谱技术的小微企业画像生成方法及装置
技术领域
本发明涉及数据分析领域,具体涉及一种基于知识图谱技术的多源异构数据的小微企业画像生成方法及装置。
背景技术
小微企业是我国经济和社会发展中的一支重要支撑力量,在确保国民经济稳定增长、缓解社会就业压力、拉动民间投资、优化经济结构、促进市场竞争、推进技术创新、保持社会稳定等方面具有不可替代的重要作用。但是小微企业融资难是全世界难题,小微企业融资困难本质上来说三个不对称,一个信息不对称,一个风险不对称,一个是收益和成本不对称。信息不对称是银行对小微企业不透明、不了解;风险不对称是因为没有抵押,小微企业破产后,给银行造成损失;成本不对称是指,大银行做小微企业贷款每一笔要几千块成本,成本高、收益小。
所以,创建小微企业公司信息相关的知识图谱,能够实现只需查询一家公司,就可以了解该公司的整个股权链情况,向上可穿透股东,向下可穿透子公司,高效直观的刻画拟授信主体间的关联网络,借助知识图谱技术可以全维度对主体进行画像,立体复现主体的真实状况,从而快速高效地小微企业信息不完善的痛点,帮助银行等金融机构实现小微企业风险评级和信用管理考核评价,一定程度上解决小微企业贷款难的问题。
知识图谱基于图的数据结构,由节点和边组成,每个节点表示“实体”,每条边为实体与实体之间的“关系”,可以清晰表达公司之间的各种关系,借助知识图谱可以全面展示小微企业的信息,解决之前传统方案诸多难题和不足,更好帮助金融机构在小微企业贷款方面进行风险管理。
发明内容
鉴于上述问题,本发明针对小微企业企业的数据来源分散、财务数据不全、数据结构差异大、数据缺失严重等问题,提供了一种基于知识图谱、兼容多种数据源、多种数据结构的小微企业画像生成方法、设备和装置。
根据本发明的第一方面,提供一种小微企业画像生成方法,其特征在于,所述方法通过结构化数据构建第一知识图谱,获取非结构化数据并提取出关系描述框架三元组关系表达式,将非结构化数据转化为结构化数据,导入所述第一企业知识图谱形成第二企业知识图谱,基于所述第二企业知识图谱生成小微企业画像,所述方法具体包括:
步骤1:结构化数据处理;
步骤2:非结构化数据处理;
步骤3:生成小微企业画像。
进一步的,所述步骤1具体包括:
步骤11:确定为创建第一企业知识图谱所需要的结构化数据;
步骤12:将所述结构化数据以csv格式文件形式导出;
步骤13:将导出的csv格式文件导入图数据库并创建节点,给节点赋予属性值;
步骤14:在导入csv格式文件数据中查找实体,并建立实体之间的关系;
步骤15:按照上述步骤导入不同维度的实体关系,得到第一企业知识图谱。
进一步的,所述步骤2具体包括:
步骤21:对用于构建实体识别模型和关系抽取模型的第一非结构化数据进行预处理,去除不必要的信息,提取出正文,并切分为若干句子;
步骤22:标注第一样本数据作为实体识别模型的样本;
步骤23:将标记的第一样本数据分为实体识别模型训练集和实体识别模型测试集,实体识别模型训练集用于训练实体识别模型的参数,实体识别模型测试集用于测试实体识别模型是否可用;
步骤24:利用实体识别模型训练集和实体识别模型测试集对实体识别模型进行训练和测试,训练后的实体识别模型能够用于实体识别;
步骤25:标注第二样本数据作为实体间的关系抽取模型的样本;
步骤26:将标注的第二样本数据分为关系抽取模型训练集和关系抽取模型测试集,关系抽取模型训练集用于训练关系抽取模型的参数,关系抽取模型测试集用于测试关系抽取模型是否可用;
步骤27:利用关系抽取模型训练集和关系抽取模型测试集对关系抽取模型进行训练和测试,训练后的实体识别模型能够用于关系抽取;
步骤28:获取用于实体识别和关系抽取的第二非结构化数据,经过实体识别模型后识别出各个实体,再经过关系抽取模型后抽取各个实体之间的关系;
步骤29;抽取到的实体及关系以关系描述框架三元组结构进行表示,得到结构化数据,导入图数据库中,在第一企业知识图谱的基础上创建新的关系,形成第二企业知识图谱。
进一步的,所述步骤3具体包括:以小微企业为中心,通过第二企业知识图谱绘制出关系图,形成针对所述小微企业的小微企业画像。
进一步的,结构化数据来源于银行内部脱敏后的交易数据。
进一步的,非结构化数据来源于银行授信项目的信贷报告。
进一步的,所述关系描述框架三元组关系表达式为:实体,关系,实体。
根据本发明的第二方面,提供一种小微企业画像生成装置,所述装置采用根据权利要求1至7中任一项所述的方法进行操作,所述装置包括:
第一知识图谱构建部件,用于将结构化数据导入图数据库中,查找实体,为实体建立关系,导入不同维度的实体关系,得到第一企业知识图谱;
第二知识图谱构建部件,用于对非结构化数据进行处理,构建实体识别模型和关系抽取模型,以关系描述框架三元组结构表示实体及关系,将非结构化数据转化为结构化数据,导入图数据库中,在第一企业知识图谱的基础上创建新的关系,形成第二企业知识图谱;
小微企业画像生成部件,以某一小微企业为中心,通过第二企业知识图谱绘制出关系图,形成针对该小微企业的小微企业画像。
根据本发明的第三方面,提供一种小微企业画像生成系统,所述系统包括:
处理器和用于存储可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以执行根据以上任一方面所述的小微企业画像生成方法。
根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据以上任一方面所述的小微企业画像生成方法。
本发明的有益效果:
通过构建企业知识图谱,将小微企业分散的数据整合起来,并弥补小微企业缺失的数据,形成巨大的企业数据网络结构图,通过查找企业,就可以清晰地看到企业多层上下游关系、多层股权关系、高管信息、舆情数据等等,通过这些综合信息,对企业评级做出考量,给予经营状况良好、有发展潜力、对本地经济发展有促进的企业贷款,一定程度上解决小微企业发展所面临的关键问题——资金资本缺乏。
附图说明
图1是本发明的整体系统结构图;
图2是结构化数据构建知识图谱的流程图;
图3是非结构化数据实体识别方法的流程图;
图4是非结构化数据实体识别的具体程序实现的流程图;
图5是非结构化数据实体识别的神经网络模型结构;
图6是非结构化数据实体关系抽取的过程图;
图7是非结构化数据实体关系抽取的具体算法实现的流程图
图8是利用知识图谱提供搜索方法的流程图;
图9是Neo4j中存储的小微企业股东关系知识图谱示意图;
图10是用户利用知识图谱搜索,输入查询实体和关系类型,设定查询属性,根据用户输入返回的结果示意图。
具体实施方式
本发明提供了基于金融领域知识图谱生成小微企业画像的方法及装置。通过大规模的结构化数据构建知识图谱,再获取大量非结构化数据,从中提取出三元组关系表达式,导入已构建的知识图谱,丰富知识图谱内容,通过知识图谱还实现小微企业相关信息的搜索,下面将参照附图更详细地描述本公开的示例性实施例。
定义解释:
小微企业画像是针对小微企业客户,根据企业工商信息、信贷信息和关联交易等信息而抽象出的一个标签化企业模型。
脱敏:去除敏感信息,包括身份证号,手机号,工资等个人隐私数据。
本发明的小微企业画像生成方法包括:
步骤一:结构化数据处理。初始结构化数据来源于银行内部脱敏后的交易数据,已经具有<实体,关系,实体>这样的三元组表达形式,根据需求,对原始数据进行处理,去除掉无用的数据,将有效数据导入图数据库,并建立关系。
101确定需求数据;最终创建的知识图谱要达到充分描绘企业画像的目的,由此确定满足该需求的数据;
102将数据导出为csv格式文件;因为图数据库可接受的文件类型是csv类型,而原始数据以表的形式存储在普通数据库中,所以将三元组的各列有效的数据导出为csv文件;
103导出的csv格式文件导入图数据库;用图数据库语言导入上一步导出的csv文件,导入图数据库的同时创建节点,并给节点赋予属性值;
104在导入数据中查找实体,并建立实体之间的关系;每一条数据包含两个实体,一个关系,查找两个实体,创建新节点表示实体,并给实体赋予对应属性,在两个实体间建立关系;
105按照上述步骤导入描述企业不同维度的数据,并建立不同维度的关系,得到初步的企业知识图谱。
步骤二:非结构化数据处理。非结构化数据来源于银行授信项目的信贷报告。由于没有表达成<实体,关系,实体>的三元组结构,需要从文本中提取实体和实体间的关系,这里用到自然语言处理方法中的中文实体识别和中文关系抽取方法。
201非结构化数据预处理;去除文本中很多不必要的信息,提取出正文,并切分为若干句子。
202标注数据作为训练实体识别模型的样本;将实体分为组织机构、人名、位置三种类型,使用中文实体识别的软件初步识别样本中的实体,然后人工纠正标记结果,得到训练模型所需样本;
203将标记好的样本分为训练集和测试集,训练集用于训练实体识别模型参数,测试集用于测试实体识别模型是否可用;
204训练好的模型可以用于新的信贷报告中的实体识别;
205标注数据用于训练实体间关系抽取的网络;将关系抽取理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系;找到具有确定关系的实体对,再去获取该实体对共同出现的语句作为正样本,负样本从实体库中随机产生没有关系的实体对,再去获取这样的实体对共同出现的语句;
206将标注的数据集分为训练集和测试集;训练集用于训练关系抽取模型的参数,测试集用于测试关系抽取模型是否可用;
207训练得到模型参数,可用于新样本的关系抽取;
208获取新的信贷报告,经过实体识别模型后,再进行实体关系抽取;
209抽取到的实体关系以<实体,关系,实体>的三元组的结构表示,得到结构化数据,导入图数据库中,在现有知识图谱的基础上创建新的关系。
第三步:生成小微企业画像。以某一小微企业为中心绘制成关系图,全方位展示出企业基本信息,借贷信息、控股信息等,帮助银行等金融机构实现小微企业风险评级和信用管理考核评价。
本发明的小微企业画像生成装置包括:
第一知识图谱构建部件,用于将结构化数据导入图数据库中,查找实体,给实体建立关系,导入不同维度的实体关系,得到第一企业知识图谱。
第二知识图谱构建部件,用于对非结构化数据进行处理,构建实体识别模型和关系抽取模型,以关系描述框架三元组结构表示实体及关系,得到结构化数据,导入图数据库中,在第一企业知识图谱的基础上创建新的关系,形成第二企业知识图谱。
小微企业画像生成部件,以某一小微企业为中心,通过第二企业知识图谱绘制出关系图,形成针对该小微企业的小微企业画像。
依据本发明的另一个方面,还提供了一系列设备:
存储知识图谱的设备:在服务器上安装Neo4j,将数据导入到Neo4j图数据库中,创建实体,给实体建立关系,以关系图形式存储在服务器上,可以多设备访问该数据库。进入Neo4j的图形操作界面可以直接操作数据库,也可以查看数据库的状态。
训练神经网络模型的设备:实体识别和关系抽取涉及深度神经网络的计算,需要大量的计算,使用了带8G显存GPU的电脑。
调用数据库,绘制企业画像的设备:加载neo4j相关的jar包,利用neo4j图数据库的JAVA API构建restful API,在前端调用restful API并通过d3.js绘制小微企业的力导向图。
企业画像展示设备:普通安装浏览器的电脑都可以通过网页搜索企业,看到企业画像。
依据本发明又一个方面,还提供了一种基于知识图谱提供搜索,生成小微企业画像的方法,包括:
设计一个交互式网页界面,交互式网页界面和图数据库相关联;
用户可以在界面上输入公司名称、管理者名字、关系等关键词进行搜索,还可对属性进行限制,比如限制时间属性是2018年;
解析用户输入后,在图数据库中查找,返回搜索实体和对应关系连接的另一实体或多个实体,显示在网页界面上。
本发明的整体结构图如图1所示。首先通过结构化数据和非结构化数据构建出金融领域的知识图谱,然后利用该知识图谱进行生成小微企业的画像。
结构化数据:结构化数据已经具备明确的<实体,关系,实体>三元组结构,其中,部分实体、实体属性在图数据库中的表达方式如表1所示:
表1部分实体和实体属性在图数据库中的定义和表达
知识图谱中涉及的部分关系类型和关系属性在图数据库中的表达方式如表2所示:
表2部分关系和关系属性在图数据库中的定义和表达
按照提供的结构化数据,建立公司、机构、人物之间对应的关系,建立高管和公司之间的关系。
非结构化数据:依据结构化数据来收集非结构化数据。根据结构化数据初步生成的企业知识图谱,以与企业相关联的实体名称作为搜索关键词,从授信报告中获取相关的信息。比如一个小微企业:“北京久恒送变电工程安装有限公司”,结构化数据建立的知识图谱中已知其大股东是张文利,在图数据库中是<北京恒久送变电工程安装有限公司,股东(持股比例:60.1%),张文利>这样的三元组关系,而其他信息未知,以“张文利”为搜索关键词,可以发现他还控股另外两家公司。非结构数据是文本格式的文件,需要从中提取出需要的信息和关系,添加到知识图谱中。通过训练深度神经网络,让计算机自动实现实体和关系的抽取。需要从非结构化数据中提取出来的实体包括:人物、机构、地址;需要提取出来的关系包括:控股关系、夫妻关系、客户关系。
描绘企业画像,展示企业整体情况:用户输入某公司名,也可以输入公司名的一部分进行模糊搜索,返回满足用户搜索的公司,展示出公司的控股关系、地址、高管等关系图,只展示一级,如用户需要,可点击图中的节点展开该节点的相关信息,扩展二级甚至更深层次的关系。
对于结构化数据,只需要按照数据创建实体间的关系即可。结构化数据构建知识图谱的流程如图2所示。
首先是整理数据,将表1中需要的字段按实体和关系分类整理在不同的表中。按列存储实体和关系属性,每一行包括实体属性、关系属性、另一实体属性。比如建立公司和公司之间股权的关系,三元组中的一个实体是公司,属性有公司名和公司ID,关系是股东,属性有持股比例和持股日期,另一实体是公司,属性有公司名和公司ID。
使用Neo4j图数据库,该数据库只接受导入csv文件,所以整理好的数据表导出为csv文件。
将导出的csv文件导入Neo4j中,新建一个节点来表示导入的数据表,不同字段用不同的属性键值表示,比如导入公司-股东-公司的关系数据表,新建节点CompanyHolder,该节点有属性键值:company_name表示控股公司名称字段,company_id表示控股公司ID字段,holderpct表示持股百分比,period表示持股时间,company_name1表示被控股公司名称字段,company_id1表示被控股公司ID字段,用数据库专用语言建立实体之间的关系,新建实体节点Company,包含company_name和company_id属性,匹配到Company-Holder中的控股公司,建立满足Company节点结构的公司实体,被控股公司同样也满足Company节点的结构,也属于公司实体,有了两个实体,使用数据库语言在两个公司实体间建立关系,并给关系添加持股百分比和持股时间属性。其他关系也采用类似的方法创建。
在创建关系时,若当前获取的实体名称、实体属性、关系名称和关系属性完全相同,则不重复创建。当实体名称、实体属性相同但是关系名称和属性不同时,仅增加实体间关系的指向,不重复创建相同实体。
对于非结构化数据,需要经过实体识别和实体间关系抽取,得到三元组结构后,将信息添加到上述通过结构化数据构建的知识图谱中。图3为实体识别流程,图6为实体关系抽取流程。
实体识别:
获取实体识别模型的训练语料:从财经网站上爬取新闻报道,去除掉网页中的不必要信息,比如html标签、广告等无用信息,提取出新闻正文文本,存储下来,作为语料库。在金融领域,需要提取的实体有组织机构、位置、人名三种类型,使用Standford NLP工具初步提取命名实体,但是这样提取出来的实体正确率较低,再进行一次人工纠正,使用序列标注中的IOB2标签方案,标记后的实例:“去O年O十O二O月O二O十O四O日O,O市B-ORG委I-ORG书O记O张B-PER敬I-PER涛I-PER召O集O县O市O主O要O负O责O同O志O研O究O信O访O工O作O时O,O提O出O三O问O”,得到训练实体识别模型的语料库。
实体识别算法流程如图4所示。网络模型训练:依据训练神经网络的常用划分比例6:2:2,随机将语料库分为训练数据、验证数据和测试数据。建立字典类型的变量,字典的键为训练集中的字,字典的值为字对应的频率,按频率由大到小排序,序号及为对应字符的索引编号,将字转换为索引编号表示的形式,方便后续处理。使用已经训练好的中文字向量,将输入的句子嵌入为向量形式,得到句子的向量表达。有了输入之后,建立网络模型,并对初始化模型参数。网络模型使用迭代扩展卷积网络(Iterated Dilated ConvolutionNeural Network,IDCNN),其结构如图5所示,输入是经字符嵌入后的向量,进行多层卷积和dropout之后,得到的输出结果整理维度之后,和目标比较,计算CRF(Conditional RandomField,条件随机场)损失,经过梯度下降最小化损失,得到模型的参数,模型训练100步,自动将最优结果的模型保存下来,在有新的句子输入时不需要再调整参数,直接计算识别出命名实体。具体数学原理参见论文Fast and Accurate Entity Recognition withIterated Dilated Convolutions。
程序实现的效果:输入为中文语句,输出为句子中包含的实体、实体的位置和实体的类型,对应每个中文汉字的位置,标记出该汉字的类型。比如输入为:“中国网财经1月30日迅(记者刘小菲)据统计,除当年9月底上市的顶固集创外,其余27只个股的收益均为负值,曲美家具则以约50%的跌幅位列倒数第4”,输出为:[{‘start’:0,’end’:3,’word’:’中国网’,’type’:’ORG’},{‘start’:15,’end’:18,’word’:’刘小菲’,’type’:’PER’},{‘start’:29,’end’:33,’word’:’顶固集创’,’type’:’ORG’},{‘start’:51,’end’:54,’word’:’曲美家具’,’type’:’ORG’}。
实体间关系抽取:实体关系抽取算法将关系抽取理解为分类问题,给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系。获取实体关系抽取模型的语料,除了从开源项目获取的语料,我们还自己搜集了许多语料:首先找到有确定关系的实体对,然后去获取该实体对共同出现的语句作为正样本。负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。模型使用双向GRU(Gated RecurrentUnit)网络,将图3流程的实体识别结果和句子作为输入,输出为实体间的关系,比如如下语句:“据了解,目前GQY视讯的实际控股人为郭启寅、袁向阳夫妇。”经实体识别网络识别出实体1:郭启寅,实体2:袁向阳,将实体和句子共同输入到双向GRU网络中,输出夫妻关系。语料库以8:2的比例划分为训练集和测试集,训练双向GRU网络的参数,训练完成后,参数保存,可用于新样本的关系抽取。输入新的样本,可以用该模型直接抽取句子中的关系。
算法流程图如图7所示。做字向量嵌入后,得到输入实体和句子的向量表达形式,再对句子做位置嵌入,根据每个字和实体1、实体2的距离,得到两个嵌入向量,嵌入向量和字向量作为网络的输入。使用正向GRU网络和反向GRU网络在训练时,在训练时兼顾了上下文信息,GRU是循环网络,正向和反向均使用一层,输入正向输入到正向GRU网络,再反顺序输入方向GRU网络,正向网络和反向网络的输出相加,输入到注意力层,注意力层是一个全连接层,节点数设为70,该参数可调节,注意力层的输出经softmax层计算后,输出范围转换为0到1之间,输出和目标值之间的差距计算交叉熵损失,经过梯度下降,自动的调整网络参数,优化结果,将最优的网络参数存储下来。
描绘企业画像:设计一个交互式网页界面,交互式网页界面和图数据库相关联,用户可以在界面上输入公司名称、管理者名字、关系等关键词进行搜索,还可对属性进行限制,比如限制时间属性是2018年,返回搜索实体和对应关系连接的另一实体或多个实体,绘制成关系图,显示在网页界面上;如用户需要,可点击图中的节点展开该节点的相关信息,扩展二级甚至更深层次的关系。
本发明还公开了实现该系统的设备。获取包含实体和实体关系的三元组,使用Neo4j数据库语言建立实体和关系的图,实体用圆点表示,关系用直线箭头表示,就可以将实体和关系以图的形式存储在数据库中,如果在服务器上安装Neo4j,多个设备可以访问该数据库,Neo4j的图形操作界面也可以搜索小微企业并返回小微企业的关系图谱,但是要求使用Cypher语言。
训练神经网络模型的设备:实体识别和关系抽取涉及深层神经网络的计算,需要大量的计算,使用了带8G显存GPU的电脑。
调用数据库,绘制企业画像的设备:根据用户输入的关系以及企业实体,转换成CyperQL,利用neo4j图数据库的JAVA API构建restful API,获取所需数据,在前端调用restful API并通过d3.js分别渲染企业上下游信息、高管信息、持股比例等的力导向图。
企业画像展示设备:普通安装浏览器的电脑都可以通过网页搜索企业,看到企业画像。
为了达到使用这不用Cypher也可以查询的目的,本发明还提供了一种基于知识图谱提供搜索,生成小微企业画像的装置,包括:
设计一个交互式网页界面,交互式网页界面和图数据库相关联;
用户可以在界面上输入公司名称、管理者名字、关系等关键词进行搜索,还可对属性进行限制,比如限制时间属性是2018年;
解析用户输入后,在图数据库中查找,返回以小微企业为中心的企业画像,显示在网页界面上。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机、计算机、服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种小微企业画像生成方法,其特征在于,所述方法通过结构化数据构建第一企业知识图谱,获取非结构化数据并提取出关系描述框架三元组关系表达式,将非结构化数据转化为结构化数据,导入到所述第一企业知识图谱形成第二企业知识图谱,基于所述第二企业知识图谱生成小微企业画像,所述方法具体包括:
步骤1:结构化数据处理;
步骤2:非结构化数据处理;
步骤3:生成小微企业画像。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤11:确定为创建第一企业知识图谱所需要的结构化数据;
步骤12:将所述结构化数据以csv格式文件形式导出;
步骤13:将导出的csv格式文件导入图数据库并创建节点,给节点赋予属性值;
步骤14:在导入csv格式文件数据中查找实体,并建立实体之间的关系;
步骤15:按照上述步骤导入不同维度的实体关系,得到第一企业知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述步骤2具体包括:
步骤21:对用于构建实体识别模型和关系抽取模型的第一非结构化数据进行预处理,去除不必要的信息,提取出正文,并切分为若干句子;
步骤22:标注第一样本数据作为实体识别模型的样本;
步骤23:将标注的第一样本数据分为实体识别模型训练集和实体识别模型测试集,实体识别模型训练集用于训练实体识别模型的参数,实体识别模型测试集用于测试实体识别模型是否可用;
步骤24:利用实体识别模型训练集和实体识别模型测试集对实体识别模型进行训练和测试,训练后的实体识别模型能够用于实体识别;
步骤25:标注第二样本数据作为实体间的关系抽取模型的样本;
步骤26:将标注的第二样本数据分为关系抽取模型训练集和关系抽取模型测试集,关系抽取模型训练集用于训练关系抽取模型的参数,关系抽取模型测试集用于测试关系抽取模型是否可用;
步骤27:利用关系抽取模型训练集和关系抽取模型测试集对关系抽取模型进行训练和测试,训练后的实体识别模型能够用于关系抽取;
步骤28:获取用于实体识别和关系抽取的第二非结构化数据,经过实体识别模型后识别出各个实体,再经过关系抽取模型后抽取各个实体之间的关系;
步骤29;抽取到的实体及关系以关系描述框架三元组结构进行表示,得到结构化数据,导入图数据库中,在第一企业知识图谱的基础上创建新的关系,形成第二企业知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述步骤3具体包括:以小微企业为中心,通过第二企业知识图谱绘制出关系图,形成针对所述小微企业的小微企业画像。
5.根据权利要求1所述的方法,其特征在于,结构化数据来源于银行内部脱敏后的交易数据。
6.根据权利要求1所述的方法,其特征在于,非结构化数据来源于银行授信项目的信贷报告。
7.根据权利要求1所述的方法,其特征在于,所述关系描述框架三元组关系表达式为:实体,关系,实体。
8.一种小微企业画像生成装置,其特征在于,所述装置采用根据权利要求1至7中任一项所述的方法进行操作,所述装置包括:
第一知识图谱构建部件,用于将结构化数据导入图数据库中,查找实体,为实体建立关系,导入不同维度的实体关系,得到第一企业知识图谱;
第二知识图谱构建部件,用于对非结构化数据进行处理,构建实体识别模型和关系抽取模型,以关系描述框架三元组结构表示实体及关系,将非结构化数据转化为结构化数据,导入图数据库中,在第一企业知识图谱的基础上创建新的关系,形成第二企业知识图谱;
小微企业画像生成部件,以某一小微企业为中心,通过第二企业知识图谱绘制出关系图,形成针对该小微企业的小微企业画像。
9.一种小微企业画像生成系统,其特征在于,所述系统包括:
处理器和用于存储可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以执行根据权利要求1至7中任一项所述的小微企业画像生成方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的小微企业画像生成方法。
CN201910533256.1A 2019-06-19 2019-06-19 基于知识图谱技术的小微企业画像生成方法及装置 Pending CN110489560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533256.1A CN110489560A (zh) 2019-06-19 2019-06-19 基于知识图谱技术的小微企业画像生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533256.1A CN110489560A (zh) 2019-06-19 2019-06-19 基于知识图谱技术的小微企业画像生成方法及装置

Publications (1)

Publication Number Publication Date
CN110489560A true CN110489560A (zh) 2019-11-22

Family

ID=68546360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910533256.1A Pending CN110489560A (zh) 2019-06-19 2019-06-19 基于知识图谱技术的小微企业画像生成方法及装置

Country Status (1)

Country Link
CN (1) CN110489560A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046115A (zh) * 2019-12-24 2020-04-21 四川文轩教育科技有限公司 基于知识图谱的异构数据库互联管理方法
CN111179052A (zh) * 2019-12-17 2020-05-19 北京明略软件系统有限公司 一种识别实际控制人的方法及系统
CN111324609A (zh) * 2020-02-17 2020-06-23 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质
CN111444410A (zh) * 2020-03-27 2020-07-24 民生科技有限责任公司 一种基于知识图谱的关联交易挖掘识别方法及装置
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN112015909A (zh) * 2020-08-19 2020-12-01 普洛斯科技(重庆)有限公司 知识图谱的构建方法及装置、电子设备、存储介质
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112330183A (zh) * 2020-11-18 2021-02-05 布瑞克农业大数据科技集团有限公司 一种构建农业企业大数据画像的方法和系统
CN112632197A (zh) * 2021-02-01 2021-04-09 上海冰鉴信息科技有限公司 基于知识图谱的业务关系处理方法及装置
CN112733019A (zh) * 2020-12-31 2021-04-30 郑州轻工业大学 一种开放式知识图谱推理研究系统
CN112800243A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于知识图谱的项目预算分析方法及系统
CN112837199A (zh) * 2021-02-25 2021-05-25 重庆数联铭信科技有限公司 一种建立中小微企业大数据服务平台的方法
CN113377882A (zh) * 2021-06-08 2021-09-10 北京巨网云互联科技有限公司 一种互联网组织内及组织间关系模型实现方法
CN113537796A (zh) * 2021-07-22 2021-10-22 大路网络科技有限公司 一种企业风险评估方法、装置及设备
CN113609848A (zh) * 2021-08-23 2021-11-05 国家市场监督管理总局信息中心 一种工业产品质量安全监管方法及装置
CN113627862A (zh) * 2021-10-13 2021-11-09 广东卓维网络有限公司 一种基于一本账的甲供物资的全过程管理方法和装置
CN113674079A (zh) * 2021-07-30 2021-11-19 湖南三湘银行股份有限公司 一种基于关系图谱和客户画像的金融风险控制系统及方法
CN116127047A (zh) * 2023-04-04 2023-05-16 北京大学深圳研究生院 企业信息库的建立方法与装置
CN117390232A (zh) * 2023-11-30 2024-01-12 金网络(北京)数字科技有限公司 一种企业画像构建方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480125A (zh) * 2017-07-05 2017-12-15 重庆邮电大学 一种基于知识图谱的关系链接方法
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
US20190019088A1 (en) * 2017-07-14 2019-01-17 Guangdong Shenma Search Technology Co., Ltd. Knowledge graph construction method and device
CN109446341A (zh) * 2018-10-23 2019-03-08 国家电网公司 知识图谱的构建方法及装置
GB201900860D0 (en) * 2018-03-22 2019-03-13 Adobe Inc Constructing enterprise-specific knowledge graph

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480125A (zh) * 2017-07-05 2017-12-15 重庆邮电大学 一种基于知识图谱的关系链接方法
US20190019088A1 (en) * 2017-07-14 2019-01-17 Guangdong Shenma Search Technology Co., Ltd. Knowledge graph construction method and device
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
GB201900860D0 (en) * 2018-03-22 2019-03-13 Adobe Inc Constructing enterprise-specific knowledge graph
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109446341A (zh) * 2018-10-23 2019-03-08 国家电网公司 知识图谱的构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊晶: "《甲骨学知识图谱构建方法研究》", 31 January 2019, 科学技术文献出版社 *
袁旭萍: "基于深度学习的商业领域知识图谱构建", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179052A (zh) * 2019-12-17 2020-05-19 北京明略软件系统有限公司 一种识别实际控制人的方法及系统
CN111046115A (zh) * 2019-12-24 2020-04-21 四川文轩教育科技有限公司 基于知识图谱的异构数据库互联管理方法
CN111046115B (zh) * 2019-12-24 2023-08-08 四川文轩教育科技有限公司 基于知识图谱的异构数据库互联管理方法
CN111324609A (zh) * 2020-02-17 2020-06-23 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质
CN111444410A (zh) * 2020-03-27 2020-07-24 民生科技有限责任公司 一种基于知识图谱的关联交易挖掘识别方法及装置
CN111444410B (zh) * 2020-03-27 2023-09-15 民生科技有限责任公司 一种基于知识图谱的关联交易挖掘识别方法及装置
CN112015909A (zh) * 2020-08-19 2020-12-01 普洛斯科技(重庆)有限公司 知识图谱的构建方法及装置、电子设备、存储介质
CN112015909B (zh) * 2020-08-19 2024-04-30 普洛斯科技(重庆)有限公司 知识图谱的构建方法及装置、电子设备、存储介质
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN111950932B (zh) * 2020-08-26 2023-04-25 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112330183A (zh) * 2020-11-18 2021-02-05 布瑞克农业大数据科技集团有限公司 一种构建农业企业大数据画像的方法和系统
CN112733019A (zh) * 2020-12-31 2021-04-30 郑州轻工业大学 一种开放式知识图谱推理研究系统
CN112632197A (zh) * 2021-02-01 2021-04-09 上海冰鉴信息科技有限公司 基于知识图谱的业务关系处理方法及装置
CN112632197B (zh) * 2021-02-01 2023-08-04 上海冰鉴信息科技有限公司 基于知识图谱的业务关系处理方法及装置
CN112800243A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于知识图谱的项目预算分析方法及系统
CN112837199A (zh) * 2021-02-25 2021-05-25 重庆数联铭信科技有限公司 一种建立中小微企业大数据服务平台的方法
CN113377882A (zh) * 2021-06-08 2021-09-10 北京巨网云互联科技有限公司 一种互联网组织内及组织间关系模型实现方法
CN113537796A (zh) * 2021-07-22 2021-10-22 大路网络科技有限公司 一种企业风险评估方法、装置及设备
CN113674079A (zh) * 2021-07-30 2021-11-19 湖南三湘银行股份有限公司 一种基于关系图谱和客户画像的金融风险控制系统及方法
CN113609848A (zh) * 2021-08-23 2021-11-05 国家市场监督管理总局信息中心 一种工业产品质量安全监管方法及装置
CN113627862A (zh) * 2021-10-13 2021-11-09 广东卓维网络有限公司 一种基于一本账的甲供物资的全过程管理方法和装置
CN116127047A (zh) * 2023-04-04 2023-05-16 北京大学深圳研究生院 企业信息库的建立方法与装置
CN116127047B (zh) * 2023-04-04 2023-08-01 北京大学深圳研究生院 企业信息库的建立方法与装置
CN117390232A (zh) * 2023-11-30 2024-01-12 金网络(北京)数字科技有限公司 一种企业画像构建方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110489560A (zh) 基于知识图谱技术的小微企业画像生成方法及装置
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN103309886B (zh) 一种基于交易平台的结构化信息搜索方法和装置
Chen et al. Websrc: A dataset for web-based structural reading comprehension
CN106649272A (zh) 一种基于混合模型的命名实体识别方法
CN106598950A (zh) 一种基于混合层叠模型的命名实体识别方法
Calzada Pérez Corpus-based methods for comparative translation and interpreting studies: Mapping differences and similarities with traditional and innovative tools
TW202001620A (zh) 自動化網站資料蒐集方法
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
US20120078950A1 (en) Techniques for Extracting Unstructured Data
CN109933783A (zh) 一种不良资产经营领域的合同要素化方法
CN112784589A (zh) 一种训练样本的生成方法、装置及电子设备
Sinha et al. NLP-based automatic answer evaluation
Musliadi et al. Twitter Social Media Conversion Topic Trending Analysis Using Latent Dirichlet Allocation Algorithm
Brahimi et al. Mapping the Scientific Landscape of Metaverse Using VOSviewer and Bibliometrix
Ohtani How is People’s Awareness of “Biodiversity” Measured? Using Sentiment Analysis and LDA Topic Modeling in the Twitter Discourse Space from 2010 to 2020
Rawat et al. Topic modelling of legal documents using NLP and bidirectional encoder representations from transformers
Rahul et al. Social media sentiment analysis for Malayalam
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
JP6155409B1 (ja) 決算分析システムおよび決算分析プログラム
CN109635289A (zh) 词条分类方法及审计信息抽取方法
Agarwal et al. Detecting Fake Reviews using Machine learning techniques: a survey
Poibeau et al. Generating navigable semantic maps from social sciences corpora
Fang et al. Research on sentiment analysis of financial texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122