CN110929134A - 投融资数据管理方法、装置、计算机设备及存储介质 - Google Patents

投融资数据管理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110929134A
CN110929134A CN201911226148.6A CN201911226148A CN110929134A CN 110929134 A CN110929134 A CN 110929134A CN 201911226148 A CN201911226148 A CN 201911226148A CN 110929134 A CN110929134 A CN 110929134A
Authority
CN
China
Prior art keywords
data
investment
financing
preset
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911226148.6A
Other languages
English (en)
Inventor
赵寒枫
乔胜
刘新宇
黄鸿康
严博宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen New Guodu Jinfu Technology Co Ltd
Original Assignee
Shenzhen New Guodu Jinfu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen New Guodu Jinfu Technology Co Ltd filed Critical Shenzhen New Guodu Jinfu Technology Co Ltd
Priority to CN201911226148.6A priority Critical patent/CN110929134A/zh
Publication of CN110929134A publication Critical patent/CN110929134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Abstract

本发明公开了一种投融资数据管理方法、装置、计算机设备及存储介质。该方法包括:通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据;对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive数据仓库中;从Hive数据仓库中提取新闻文本数据,并通过NLP模型从新闻文本数据中提取实体;根据从新闻文本数据中提取的实体建立投融资知识图谱,并将投融资知识图谱储存到Neo4j图形数据库中;将Hive数据仓库中的统计数据以及冗长属性数据储存到Mysql关系型数据库中;将Hive数据仓库中的复杂型数据储存到ES数据库中。本发明通过知识图谱可直观展示投融资机构间的关系,并且信息提取效率高,查询响应快。

Description

投融资数据管理方法、装置、计算机设备及存储介质
技术领域
本发明涉及投融资技术领域,尤其涉及一种投融资数据管理方法、装置、计算机设备及存储介质。
背景技术
随着经济的飞速发展,诞生了大量的投资机构和创业公司。但由于现有相关数据存储分散、关联性较差、可视化难度较高,导致机构和公司在进行投融资的时候很难找准定位、做出抉择。
现有技术存在如下缺陷:
1.现有的智能投融资系统较少,且基本信息的关联性较差。
2.人工整理投融资数据,提取需要信息工作量太大。
3.当数据量大时,保证数据实时的更新和查询的高效率有难度。
发明内容
本发明实施例提供了一种投融资数据管理方法、装置、计算机设备及存储介质,旨在解决现有技术中难以展示投融资机构间关系、投融资数据整理效率差以及投融资数据查询慢的问题。
第一方面,本发明实施例提供了一种投融资数据管理方法,其包括:
通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容;
对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive 数据仓库中;
从所述Hive数据仓库中提取新闻文本数据,并通过预设的NLP模型从所述新闻文本数据中提取实体,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型;
根据从所述新闻文本数据中提取的实体建立投融资知识图谱,并将所述投融资知识图谱储存到预设的Neo4j图形数据库中;
将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的Mysql 关系型数据库中;
将所述Hive数据仓库中的复杂型数据储存到预设的ES数据库中。
其进一步的技术方案为,所述NLP模型为BERT模型,所述通过预设的NLP 模型从所述新闻文本数据中提取实体,包括:
采用BIO标注体系对所述新闻文本数据进行数据实体标注;
通过数据实体标注后的所述新闻文本数据对预设的BERT模型进行微调训练,并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。
其进一步的技术方案为,所述方法还包括:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
其进一步的技术方案为,所述方法还包括:
若接收到用户端发送的统计分析数据查询请求,则根据所述统计分析数据查询请求在所述Mysql关系型数据库中查询相应的统计分析数据,并将查询到的统计分析数据发送给客户端。
其进一步的技术方案为,所述方法还包括:
若接收到用户端发送的全文查询请求,则根据所述全文查询请求在所述ES 数据库中查询相应的全文数据,并将查询到的全文数据发送给客户端。
其进一步的技术方案为,所述统计数据包括年投/融资次数、相似公司/机构、行业年投资金额以及投资轮次占比。
其进一步的技术方案为,所述冗长属性数据包括经营范围、网站链接以及公司描述。
第二方面,本发明实施例还提供了一种投融资数据管理装置,其包括用于执行上述方法的单元。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
通过应用本发明实施例的技术方案,能够达到以下技术效果。
关联性更强,传统投融资系统只是将投资机构或者公司的信息数据罗列出来,其之间的相关性并没有很好的展示;而本发明采用的知识图谱架构,不仅可以展示投资机构与公司之间的关系,而且还可以进行推理展示,更加直观的了解关注对象的投融资分布。
更精准的模型,采用最新NLP模型BERT的中文预训练模型为基础,加上大量新闻数据做微调,可以更精准的提取新闻中的关键字段,节省人工处理时间,提高工作效率。
查询响应更及时,通过将数仓Hive中的数据根据特性和功能的不同分别存储于三个数据库中,可以有效率的利用不同数据库之间的特性,以最快速度响应用户的查询需求。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种投融资数据管理方法的流程示意图;
图2为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的投融资数据管理方法的流程示意图。如图所示,该方法包括以下步骤S1-S6。
S1,通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容。
具体实施中,通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据等样本数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容。具体地,建立爬虫子模块对互联网上的投融资数据源中的投融资新闻数据进行实时爬取。爬取内容包括且不限于:公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态等。
预设企业是指与投融资相关的企业,预设企业由本领域技术人员预先设定。
S2,对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到 Hive数据仓库中。
具体实施中,对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive数据仓库中。
需要说明的是,爬虫爬取到的投融资新闻数据以及预设企业的工商数据一般是不完整的、有噪声的和不一致的。数据清理是指填充数据中缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。
Hive是基于Hadoop的一个数据仓库工具,其可以将结构化的数据文件映射为一张数据库表。
S3,从所述Hive数据仓库中提取新闻文本数据,并通过预设的NLP模型从所述新闻文本数据中提取实体,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型。
具体实施中,从所述Hive数据仓库中提取新闻文本数据作为NLP训练的语料集。并通过预设的NLP(Natural Language Processing,自然语言处理)模型从所述新闻文本数据中提取实体。其中,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型。
在一实施例中,NLP模型具体为BERT(Bidirectional Encoder Representationsfrom Transformers)模型。以上步骤S3具体包括如下步骤S31-S32。
S31,采用BIO标注体系对所述新闻文本数据进行数据实体标注。
具体实施中,采用BIO(B-begin,I-inside,O-outside)标注体系对所述新闻文本数据进行数据实体标注。在一实施例中,“B-COM”、“I-COM”、“B-FIRM”、“I-FIRM”、“O”等分别表示:公司名类型词语开头、公司名类型词语片段、机构名类型词语开头、机构名类型词语片段以及不属于任何实体类别。
S32,通过数据实体标注后的所述新闻文本数据对预设的BERT模型进行微调训练,并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。
具体实施中,通过数据实体标注后的所述新闻文本数据对预设的BERT模型(具体为BERT模型中的中文预训练模型chinese_L-12_H-768_A-12)进行微调训练(fine-tuning),并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。其中,实体包括且不限于:融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间、投资类型(领投、跟投等)等。
S4,根据从所述新闻文本数据中提取的实体建立投融资知识图谱,并将所述投融资知识图谱储存到预设的Neo4j图形数据库中。
具体实施中,根据从所述新闻文本数据中提取的实体建立投融资知识图谱。
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据(在本发明中为新闻文本数据) 进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
知识图谱有自顶向下和自底向上两种构建方式。其中,自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中。自底向上构建,则是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
知识图谱的三个基本要素即:实体、关系和属性。其中,实体作为知识图谱中的节点,关系用于连接两个实体之间,属性作为实体或者关系的属性说明。根据以上步骤所爬取和识别的属性、实体的基础上定义实体之间的关系及其属性,包括且不限于以下关系及属性:
1.关系:
投资关系:丰田汽车(机构实体)-投资(关系)->滴滴出行(公司实体)
任职关系:程维(人物实体)-任职(关系)->滴滴出行(公司实体)
教育关系:程维(人物实体)-受教育(关系)->北京化工大学(学校实体)
2.实体属性:
机构属性:机构名称、地理位置、成立日期、投资行业、投资阶段、投资类型等。
公司属性:公司名称、地理位置、融资轮次、成立日期、所属行业、注册资本、经营状态等。
人物属性:人物名称、地理位置、曾任职位等。
学校属性:学校级别、地理位置、成立年份等。
3.关系属性:
投资(关系)属性:投资日期、投资金额、此轮估值、投资轮次等。
任职(关系)属性:具体职位、在职状态等。
教育(关系)属性:学位信息、入学时间等。
并根据以上处理得到的实体、关系以及属性建立投融资知识图谱。
投融资知识图谱中的实体、关系、部分实体的简约属性数据属于关系型数据。其有着查询、推理和以图形进行展示的需求。因此需要将投融资知识图谱中的数据存入Neo4j图形数据库中,作为关系查询,关系推理和结果展示,最为合适。
S5,将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的 Mysql关系型数据库中。
具体实施中,Hive数据仓库中包括统计数据以及冗长属性数据。本发明实施例中将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的 Mysql关系型数据库中。
具体地,统计数据:由公司或者机构的基本数据进行附加运算所的到的再生数据,例如:年投/融资次数、相似公司/机构、行业年投资金额、投资轮次占比等。此类数据,数据结构简单,关系依赖较强。冗长属性数据,如经营范围、网站链接、公司描述等。由于这些数据比较冗长且只具有展示效果,放在图形数据库中(Neo4j)显得比较冗余。
以上数据(统计数据以及冗长属性数据)的特性是不需要模糊查询、数据结构单一且只作为数据展示。基于以上数据的特性将其存储在Mysql关系型数据库中,作为简单查询和展示,最为合适。
S6,将所述Hive数据仓库中的复杂型数据储存到预设的ES数据库中。
具体实施中,Hive数据仓库中包括复杂型数据。本发明实施例中,将所述 Hive数据仓库中的复杂型数据储存到预设的ES(Elastic Search)数据库中。
复杂型数据通常逻辑关系比较复杂,且大部分属于一对多值的属性,例如公司的标签属性有:互联网、金融、生活服务等。当用户要选取多个标签时,如果采用传统关系型数据库Mysql只能对该属性内容进行遍历模糊匹配,导致查询效率低。且如果对于一些嵌套属性(属性值个数不确定)如果进行清洗展开,会导致整个二维表变的很大,占用较多存储空间。
因此使用全文搜索引擎Elastic Search进行存储,在向ES中写入数据时,可以自定义其字段为复杂嵌套类型:nested,每个子数据字段皆为索引。且对于如新闻标题、新闻内容这种长文本进行关键字的查询来说,ES可以在写入数据时使用自带的中文分词器ik_max_word将长文本内容进行分词,并建立索引。这样在搜索复杂关系数据时ES可以根据创建的数据索引迅速找到对应符合标准的索引主体,大大提升了搜索速度。
此外,本发明实施例提出的技术方案还包括前端展示的步骤。根据客户端网页的展示需求功能的不同分别调用不同类型的数据库进行支持。如展示投融资关系(图形),则需要进行节点之间的关系推理,其后端查询则连接图形数据库Neo4j进行支持;如展示统计分析数据,则需要从数据库中直接提取分析计算的结果,使用Mysql数据库进行支持;如展示全文搜索结果,则需要对所包含查询关键字的数据进行搜索反馈,则使用ES全文搜索引擎进行支持。具体地,包括如下步骤:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
若接收到用户端发送的统计分析数据查询请求,则根据所述统计分析数据查询请求在所述Mysql关系型数据库中查询相应的统计分析数据,并将查询到的统计分析数据发送给客户端。
若接收到用户端发送的全文查询请求,则根据所述全文查询请求在所述ES 数据库中查询相应的全文数据,并将查询到的全文数据发送给客户端。
通过应用本发明实施例的技术方案,能够达到以下技术效果。
关联性更强,传统投融资系统只是将投资机构或者公司的信息数据罗列出来,其之间的相关性并没有很好的展示;而本发明采用的知识图谱架构,不仅可以展示投资机构与公司之间的关系,而且还可以进行推理展示,更加直观的了解关注对象的投融资分布;。
更精准的模型,采用最新NLP模型BERT的中文预训练模型为基础,加上大量新闻数据做微调,可以更精准的提取新闻中的关键字段,节省人工处理时间,提高工作效率。
查询响应更及时,通过将数仓Hive中的数据根据特性和功能的不同分别存储于三个数据库中,可以有效率的利用不同数据库之间的特性,以最快速度响应用户的查询需求。
对应于以上投融资数据管理方法,本发明还提供一种投融资数据管理装置。该投融资数据管理装置包括用于执行上述投融资数据管理方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,该投融资数据管理装置包括爬取单元、数据清理单元、提取单元、第一储存单元、第二储存单元以及第三储存单元。
爬取单元,用于通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容;
数据清理单元,用于对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive数据仓库中;
提取单元,用于从所述Hive数据仓库中提取新闻文本数据,并通过预设的 NLP模型从所述新闻文本数据中提取实体,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型;
第一储存单元,用于根据从所述新闻文本数据中提取的实体建立投融资知识图谱,并将所述投融资知识图谱储存到预设的Neo4j图形数据库中;
第二储存单元,用于将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的Mysql关系型数据库中;
第三储存单元,用于将所述Hive数据仓库中的复杂型数据储存到预设的ES 数据库中。
在一实施例中,所述NLP模型为BERT模型,所述提取单元包括标注单元、以及识别单元。
标注单元,用于采用BIO标注体系对所述新闻文本数据进行数据实体标注;
识别单元,用于通过数据实体标注后的所述新闻文本数据对预设的BERT 模型进行微调训练,并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。
在一实施例中,所述投融资数据管理装置还包括第一查询单元、第二查询单元以及第三查询单元。
第一查询单元,用于若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
第二查询单元,用于若接收到用户端发送的统计分析数据查询请求,则根据所述统计分析数据查询请求在所述Mysql关系型数据库中查询相应的统计分析数据,并将查询到的统计分析数据发送给客户端。
第三查询单元,用于若接收到用户端发送的全文查询请求,则根据所述全文查询请求在所述ES数据库中查询相应的全文数据,并将查询到的全文数据发送给客户端。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述投融资数据管理装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述投融资数据管理装置可以实现为一种计算机程序的形式,该计算机程序可以在如图2所示的计算机设备上运行。
请参阅图2,图2是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图2,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器 504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种投融资数据管理方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种投融资数据管理方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容;
对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive 数据仓库中;
从所述Hive数据仓库中提取新闻文本数据,并通过预设的NLP模型从所述新闻文本数据中提取实体,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型;
根据从所述新闻文本数据中提取的实体建立投融资知识图谱,并将所述投融资知识图谱储存到预设的Neo4j图形数据库中;
将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的Mysql 关系型数据库中;
将所述Hive数据仓库中的复杂型数据储存到预设的ES数据库中。
在一实施例中,所述NLP模型为BERT模型,处理器502在实现所述通过预设的NLP模型从所述新闻文本数据中提取实体步骤时,具体实现如下步骤:
采用BIO标注体系对所述新闻文本数据进行数据实体标注;
通过数据实体标注后的所述新闻文本数据对预设的BERT模型进行微调训练,并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。
在一实施例中,处理器502还实现如下步骤:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
在一实施例中,处理器502还实现如下步骤:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
在一实施例中,处理器502还实现如下步骤:
若接收到用户端发送的全文查询请求,则根据所述全文查询请求在所述ES 数据库中查询相应的全文数据,并将查询到的全文数据发送给客户端。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容;
对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive 数据仓库中;
从所述Hive数据仓库中提取新闻文本数据,并通过预设的NLP模型从所述新闻文本数据中提取实体,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型;
根据从所述新闻文本数据中提取的实体建立投融资知识图谱,并将所述投融资知识图谱储存到预设的Neo4j图形数据库中;
将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的Mysql 关系型数据库中;
将所述Hive数据仓库中的复杂型数据储存到预设的ES数据库中。
在一实施例中,所述NLP模型为BERT模型,所述处理器在执行所述计算机程序而实现所述通过预设的NLP模型从所述新闻文本数据中提取实体步骤时,具体实现如下步骤:
采用BIO标注体系对所述新闻文本数据进行数据实体标注;
通过数据实体标注后的所述新闻文本数据对预设的BERT模型进行微调训练,并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。
在一实施例中,所述处理器在执行所述计算机程序还实现如下步骤:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
在一实施例中,所述处理器在执行所述计算机程序还实现如下步骤:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
在一实施例中,所述处理器在执行所述计算机程序还实现如下步骤:
若接收到用户端发送的全文查询请求,则根据所述全文查询请求在所述ES 数据库中查询相应的全文数据,并将查询到的全文数据发送给客户端。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种投融资数据管理方法,其特征在于,包括:
通过预设的网络爬虫爬取互联网上的投融资新闻数据以及预设企业的工商数据,所述网络爬虫爬取的内容包括公司/机构名称、注册地址、法人、成立日期、所属行业、注册资本、公司状态以及新闻内容;
对爬取的数据进行数据清理处理,并将数据清理处理后的数据存入到Hive数据仓库中;
从所述Hive数据仓库中提取新闻文本数据,并通过预设的NLP模型从所述新闻文本数据中提取实体,所述实体包括融资公司名称、投资机构名称、人物名称、投融资轮次、投融资金额、公司估值、投融资时间以及投资类型;
根据从所述新闻文本数据中提取的实体建立投融资知识图谱,并将所述投融资知识图谱储存到预设的Neo4j图形数据库中;
将所述Hive数据仓库中的统计数据以及冗长属性数据储存到预设的Mysql关系型数据库中;
将所述Hive数据仓库中的复杂型数据储存到预设的ES数据库中。
2.根据权利要求1所述的投融资数据管理方法,其特征在于,所述NLP模型为BERT模型,所述通过预设的NLP模型从所述新闻文本数据中提取实体,包括:
采用BIO标注体系对所述新闻文本数据进行数据实体标注;
通过数据实体标注后的所述新闻文本数据对预设的BERT模型进行微调训练,并通过微调训练后的BERT模型对所述新闻文本数据中的实体进行识别。
3.根据权利要求1所述的投融资数据管理方法,其特征在于,所述方法还包括:
若接收到用户端发送的投融资关系查询请求,则根据所述投融资关系查询请求在所述Neo4j图形数据库中查询相应的投融资关系数据,并将查询到的投融资关系数据发送给客户端。
4.根据权利要求1所述的投融资数据管理方法,其特征在于,所述方法还包括:
若接收到用户端发送的统计分析数据查询请求,则根据所述统计分析数据查询请求在所述Mysql关系型数据库中查询相应的统计分析数据,并将查询到的统计分析数据发送给客户端。
5.根据权利要求1所述的投融资数据管理方法,其特征在于,所述方法还包括:
若接收到用户端发送的全文查询请求,则根据所述全文查询请求在所述ES数据库中查询相应的全文数据,并将查询到的全文数据发送给客户端。
6.根据权利要求1所述的投融资数据管理方法,其特征在于,所述统计数据包括年投/融资次数、相似公司/机构、行业年投资金额以及投资轮次占比。
7.根据权利要求1所述的投融资数据管理方法,其特征在于,所述冗长属性数据包括经营范围、网站链接以及公司描述。
8.一种投融资数据管理装置,其特征在于,所述投融资数据管理装置包括用于执行如权利要求1-7任一项所述方法的单元。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
CN201911226148.6A 2019-12-04 2019-12-04 投融资数据管理方法、装置、计算机设备及存储介质 Pending CN110929134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911226148.6A CN110929134A (zh) 2019-12-04 2019-12-04 投融资数据管理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911226148.6A CN110929134A (zh) 2019-12-04 2019-12-04 投融资数据管理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110929134A true CN110929134A (zh) 2020-03-27

Family

ID=69857862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911226148.6A Pending CN110929134A (zh) 2019-12-04 2019-12-04 投融资数据管理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110929134A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149422A (zh) * 2020-09-23 2020-12-29 中冶赛迪工程技术股份有限公司 一种基于自然语言的企业新闻动态监测方法
CN112528028A (zh) * 2020-12-28 2021-03-19 北京华彬立成科技有限公司 投融资信息挖掘方法、装置、电子设备和存储介质
CN113111075A (zh) * 2021-03-19 2021-07-13 上海药慧信息技术有限公司 投融资信息挖掘方法、装置、电子设备和存储介质
CN113129072A (zh) * 2021-04-30 2021-07-16 上海药慧信息技术有限公司 一种基于投融资信息的企业估值确定方法及装置
CN114238268A (zh) * 2021-11-29 2022-03-25 武汉达梦数据技术有限公司 一种数据存储方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235340A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for knowledge research
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235340A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for knowledge research
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
青岛英谷教育科技股份有限公司等, 西安电子科技大学出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149422A (zh) * 2020-09-23 2020-12-29 中冶赛迪工程技术股份有限公司 一种基于自然语言的企业新闻动态监测方法
CN112149422B (zh) * 2020-09-23 2024-04-05 中冶赛迪工程技术股份有限公司 一种基于自然语言的企业新闻动态监测方法
CN112528028A (zh) * 2020-12-28 2021-03-19 北京华彬立成科技有限公司 投融资信息挖掘方法、装置、电子设备和存储介质
CN113111075A (zh) * 2021-03-19 2021-07-13 上海药慧信息技术有限公司 投融资信息挖掘方法、装置、电子设备和存储介质
CN113111075B (zh) * 2021-03-19 2023-09-05 上海药慧信息技术有限公司 投融资信息挖掘方法、装置、电子设备和存储介质
CN113129072A (zh) * 2021-04-30 2021-07-16 上海药慧信息技术有限公司 一种基于投融资信息的企业估值确定方法及装置
CN114238268A (zh) * 2021-11-29 2022-03-25 武汉达梦数据技术有限公司 一种数据存储方法和装置
CN114238268B (zh) * 2021-11-29 2022-09-30 武汉达梦数据技术有限公司 一种数据存储方法和装置

Similar Documents

Publication Publication Date Title
US10990632B2 (en) Multidimensional search architecture
JP5607164B2 (ja) セマンティック・トレーディング・フロア
CN110929134A (zh) 投融资数据管理方法、装置、计算机设备及存储介质
US8131684B2 (en) Adaptive archive data management
US8661015B2 (en) Identification of name entities via search, determination of alternative searches, and automatic integration of data across a computer network for dynamic portal generation
US20130166563A1 (en) Integration of Text Analysis and Search Functionality
US11366858B2 (en) Data preparation using semantic roles
US20220107980A1 (en) Providing an object-based response to a natural language query
CN112927082A (zh) 信用风险的预测方法、装置、设备、介质和程序产品
US20180075095A1 (en) Organizing datasets for adaptive responses to queries
CN110675238A (zh) 客户标签配置方法、系统、可读存储介质及电子设备
CN113032420A (zh) 数据查询方法、装置和服务器
US20230385291A1 (en) Semantic entity search using vector space
Arora et al. A synonym based approach of data mining in search engine optimization
US11328005B2 (en) Machine learning (ML) based expansion of a data set
CN116127047A (zh) 企业信息库的建立方法与装置
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring
Wenjun et al. Research on brand crisis identify index model based on cluster analysis
US11880379B1 (en) Identity resolution in knowledge graph databases
US20240012825A1 (en) An electronic data analysis system and method
Rodrigues POI Mining and Generation
Ulici Choosing a Suitable Query Engine for Providing Observability and Accessibility for Dynamic Reporting of Business Data
Issertial et al. Data management and user interface for a call for paper manager
RAVAT Temporal Graphs: From Modelling to Analysis
CN117874246A (zh) 知识图谱的构建方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327