CN111899089A - 基于知识图谱的企业风险预警方法及系统 - Google Patents

基于知识图谱的企业风险预警方法及系统 Download PDF

Info

Publication number
CN111899089A
CN111899089A CN202010626160.2A CN202010626160A CN111899089A CN 111899089 A CN111899089 A CN 111899089A CN 202010626160 A CN202010626160 A CN 202010626160A CN 111899089 A CN111899089 A CN 111899089A
Authority
CN
China
Prior art keywords
data
enterprise
structured
risk
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010626160.2A
Other languages
English (en)
Inventor
沈春泽
李加庆
周张泉
孙华蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202010626160.2A priority Critical patent/CN111899089A/zh
Publication of CN111899089A publication Critical patent/CN111899089A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识图谱的企业风险预警方法及系统,涉及人工智能技术领域。该方法包括:获取企业信息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池;获取企业信息的非结构化数据,处理后形成企业关系数据汇入语料库;基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据构建目标企业的知识图谱;利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息,实现风险预警。该系统应用有上述所提的方法。

Description

基于知识图谱的企业风险预警方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于知识图谱的企业风险 预警方法及系统。
背景技术
金融大数据分析和金融领域文本的语义处理是金融行业知识提取的关键 性基础技术,可以为知识发现和推理决策提供技术支撑。因此,越来越多的 金融机构及企业加入构建金融领域的企业风险预警研究,为企业的应用决策 提供精准可靠的依据。金融领域由于对数据强烈的依赖性,被认为是人工智 能技术最适合落地的领域之一,海量的数据为人们更好地掌握与认知事物规 律,提供了越来越丰富的来源。但是,由于数据量的急剧增长,对数据的分 析与理解的要求已经远远超过人类的生理极限,这对分析的方式提出了新的要求与挑战。传统的数据处理和文本搜索的方式已经很难适应现实瞬息万变 的市场行情,无法满足金融分析的实时性、穿透性和全局性的要求。
现有金融分析获取的数据源结构单一,仅能够从结构化数据中挖掘风险 因子,无法对相关的非结构化数据加以利用,如公开的网页文本信息,而这 些公开的网页文本信息往往蕴藏着有效的风险因子。综上,由于数据源的结 构单一,降低了企业风险预警结果的准确性。
发明内容
本发明的目的在于提供一种基于知识图谱的企业风险预警方法及系统, 能够从多种不同结构的数据中挖掘企业的风险因子,进而提升企业风险预警 结果的准确性。
为了实现上述目的,本发明的第一方面提供一种基于知识图谱的企业风 险预警方法,包括:
获取关于企业信息的结构化数据和半结构化数据,处理后形成标准化结 构数据汇入数据池;
获取关于企业信息的非结构化数据,处理后形成企业关系数据汇入语料 库;
基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据 构建目标企业的知识图谱;
利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息, 实现风险预警。
优选地,获取关于企业信息的结构化数据和半结构化数据,处理后形成 标准化结构数据汇入数据池的方法包括:
分别在第一处理器中配置结构化处理模板,在第二处理器中配置半结构 化处理模板;
将获取的结构化数据输入第一处理器,经数据清洗后按照结构化处理模 板提取字段后得到标准化结构数据;
将获取的半结构化数据输入第二处理器,经数据清洗后按照半结构化处 理模板提取字段后得到标准化结构数据;
将得到标准化结构数据汇入数据池。
示例性地,所述结构化数据包括工商数据、税务数据、财务数据、行业 指标数据中的一种或多种,所述半结构化数据包括法院公告数据和/或判决文 书数据。
优选地,爬取关于企业信息的非结构化数据,处理后形成企业关系数据 汇入语料库的方法包括:
通过分布式爬虫技术从多个网站上抓取网页信息,采用文本处理器解析 清洗后,从中抽取能够反映企业间关系的谓词三元组形成企业关系数据。
较佳地,从中抽取能够反映企业间关系的谓词三元组形成企业关系数据 的方法包括:
将清洗后的网页文本分词后输入训练完成的BiLSTM编码模型中,抽取 包括主语、关系、宾语结构的谓词三元组形成企业关系数据。
优选地,训练风险识别模型的方法包括:
使用XGBoost树算法对多份知识图谱样本进行有监督学习训练,得到风 险识别模型。
较佳地,在步骤利用预先训练的风险识别模型从知识图谱中挖掘出目标 企业的风险信息之后还包括:
分别对数据池中的标准化结构数据和语料库中的企业关系数据定期更新, 并定期更新目标企业的知识图谱;
利用所述风险识别模型从更新的目标企业知识图谱中同步获取风险信息, 并将风险信息推送给用户。
与现有技术相比,本发明提供的基于知识图谱的企业风险预警方法具有 以下有益效果:
本发明提供的基于知识图谱的企业风险预警方法,首先获取关于企业信 息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池, 以及爬取关于企业信息的非结构化数据,处理后形成企业关系数据汇入语料 库,然后基于数据池中的标准化结构数据以及语料库中的企业关系数据构建 目标企业的知识图谱,最终利用预先训练的风险识别模型从知识图谱中挖掘 出目标企业的风险信息,实现风险预警。
可见,本发明提高获取多种数据结构的数据源构建知识图谱,能够从多 个维度充分挖掘出知识图谱中与目标企业相关的风险信息,提高了对目标企 业风险预警的准确性。
本发明的第二方面提供一种基于知识图谱的企业风险预警系统,应用于 上述技术方案所述的基于知识图谱的企业风险预警方法中,所述系统包括:
数据池单元,用于获取关于企业信息的结构化数据和半结构化数据,处 理后形成标准化结构数据汇入数据池;
语料库单元,用于获取关于企业信息的非结构化数据,处理后形成企业 关系数据汇入语料库;
知识图谱构建单元,基于所述数据池中的标准化结构数据以及所述语料 库中的企业关系数据构建目标企业的知识图谱;
风险预警单元,利用预先训练的风险识别模型从知识图谱中挖掘出目标 企业的风险信息,实现风险预警。
优选地,所述数据池单元包括:
模板配置模块,用于分别在第一处理器中配置结构化处理模板,在第二 处理器中配置半结构化处理模板;
字段提取模块,用于将获取的结构化数据输入第一处理器,经数据清洗 后按照结构化处理模板提取字段后得到标准化结构数据,以及将获取的半结 构化数据输入第二处理器,经数据清洗后按照半结构化处理模板提取字段后 得到标准化结构数据;
汇总模块,用于将得到标准化结构数据汇入数据池。
与现有技术相比,本发明提供的基于知识图谱的企业风险预警系统的有 益效果与上述技术方案提供的基于知识图谱的企业风险预警方法的有益效果 相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质 上存储有计算机程序,计算机程序被处理器运行时执行上述基于知识图谱的 企业风险预警方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述 技术方案提供的基于知识图谱的企业风险预警方法的有益效果相同,在此不 做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部 分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的 不当限定。在附图中:
图1为本发明实施例中基于知识图谱的企业风险预警方法的流程示意图;
图2为本发明实施例中实体特征的内部因子和关系类型的识别策略示例 图;
图3为本发明实施例中编码模型的示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提 下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种基于知识图谱的企业风险预警方法,包括:
获取关于企业信息的结构化数据和半结构化数据,处理后形成标准化结 构数据汇入数据池;获取关于企业信息的非结构化数据,处理后形成企业关 系数据汇入语料库;基于数据池中的标准化结构数据以及语料库中的企业关 系数据构建目标企业的知识图谱;利用预先训练的风险识别模型从知识图谱 中挖掘出目标企业的风险信息,实现风险预警。
本实施例提供的基于知识图谱的企业风险预警方法,首先获取关于企业 信息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池, 以及爬取关于企业信息的非结构化数据,处理后形成企业关系数据汇入语料 库,然后基于数据池中的标准化结构数据以及语料库中的企业关系数据构建 目标企业的知识图谱,最终利用预先训练的风险识别模型从知识图谱中挖掘 出目标企业的风险信息,实现风险预警。
可见,本实施例提高获取多种数据结构的数据源构建知识图谱,能够从 多个维度充分挖掘出知识图谱中与目标企业相关的风险信息,提高了对目标 企业风险预警的准确性。
上述实施例中,获取关于企业信息的结构化数据和半结构化数据,处理 后形成标准化结构数据汇入数据池的方法包括:
分别在第一处理器中配置结构化处理模板,在第二处理器中配置半结构 化处理模板;将获取的结构化数据输入第一处理器,经数据清洗后按照结构 化处理模板提取字段后得到标准化结构数据;将获取的半结构化数据输入第 二处理器,经数据清洗后按照半结构化处理模板提取字段后得到标准化结构 数据;将得到标准化结构数据汇入数据池。其中,结构化数据包括工商数据、 税务数据、财务数据、行业指标数据中等,半结构化数据包括法院公告数据、 判决文书等。
具体实施时,接入了多个来源的结构化数据,比如企业的工商数据、税 务数据等,但由于历史遗留、来源差异等原因,导致接入的数据不规范,故 需要针对每个来源的结构化数据使用第一处理器以统一的规范进行处理生成 标准化结构数据放入数据池。同样地,还接入了多个来源的半结构化数据, 比如司法类信息,如:法院公告、判决文书等,这类文本信息既包含了如文 书号、发文单位、原被告姓名等结构化信息,也包含了书写格式相对单一的 文本信息,此类数据源在使用之前需使用第二处理器提取特定字段生成标准 化结构数据放入数据池。其中,第一处理器处理处理得到的标准化结构数据 与第二处理器处理得到的标准化结构数据,两者的结构数据即可以设置为相 同,也可以设置为不同,本实施例对此不做限制。
数据池中的标准结构化数据包含了多个维度的信息,其中的部分信息可 以用来揭示企业隐含的风险。例如:
1、企业的法人变更信息,如果法人在短时间内频繁变更,则可能预示了 潜在的风险;
2、涉诉的司法信息大量增加,企业作为被告人在短时间内出现大量的司 法信息往往揭示了风险;
3、企业经营范围发生较大变更,表示了企业转移了核心业务,进入陌生 领域,隐含了一定的风险。
上述实施例中,爬取关于企业信息的非结构化数据,处理后形成企业关 系数据汇入语料库的方法包括:
通过分布式爬虫技术从多个网站上抓取网页信息,采用文本处理器解析 清洗后,从中抽取能够反映企业间关系的谓词三元组形成企业关系数据。
具体地,从中抽取能够反映企业间关系的谓词三元组形成企业关系数据 的方法包括:
将清洗后的网页文本分词后输入训练完成的BiLSTM编码模型中,抽取 包括主语、关系、宾语结构的谓词三元组形成企业关系数据。
具体实施时,相对于结构化数据,本实施例还使用爬虫技术从网上收集 了大量公开的非结构化数据,也就是网页文本数据。网上每时每刻都在产生 大量与企业相关的公开信息,包括新闻、论坛等,此类信息形式多样,处理 难度大,但往往时效性高,对风险预警而言是极为重要的来源。
首先,使用分布式爬虫从互联网上实时抓取网页信息,针对不同来源的 网页信息使用相应的文本处理器进行自然语言处理以及解析、清洗等处理, 其中自然语言处理包括网页去噪,网页去重,热点提取,主题分类,情绪识 别等一系列的句法或语义处理,然后从中抽取能够反映企业间关系的谓词三 元组形成企业关系数据,通过谓词三元组(主语-关系-宾语)能够反映出企业 间的关系信息并构建语料库。其中,谓词三元组的获取方法为本领域技术人 员的公知常识,以下仅做示例性说明:
通过对网页信息中的各个分词进行标注,将实体和关系的识别问题转变 成一个序列标注问题,编码模型使用的是BiLSTM来进行编码,用于网页信 息中谓词三元组的识别。假设爬取的网页信息为“美国总统特朗普将要访问 乔布斯的苹果公司。”,其识别策略如图2所示,通过实体特征的内部因子 和关系类型提取出网页信息中的谓词三元组,如“特朗普:总统:美国”、 “乔布斯:创立:苹果公司”。其识别策略的具体实现过程可通过如图3中的编码模型来实现:
通过将“乔布斯的苹果公司。”输入编码模型的输入层,再经Embedding 层、Encoding层、Decoding层依次处理后,求导计算后通过输出层输出网页 信息中的实体关系,也即实体特征的内部因子和关系类型,进而从中提取出 “乔布斯:创立:苹果公司”的谓词三元组。
最终,将语料库中的企业关系数据经过去重、去歧后与数据池中的标准 化结构数据关联融合构建目标企业的知识图谱,由于知识图谱中包括了与企 业相关的高时效性的公开信息,因此丰富了知识图谱的数据维度和数据来源, 为准确高效的风险预警提供有力的数据支撑。知识图谱可以分类型构建,如 关联关系图谱、股权关系图谱、投资比例图谱、风险要素图谱、关联查询图 谱等。
上述实施例中,训练风险识别模型的方法包括:
使用XGBoost树算法对多份知识图谱样本进行有监督学习训练,得到风 险识别模型。可以理解的是,利用XGBoost树算法进行决策数构造的过程大 致如下:
Figure BDA0002564823780000091
Figure BDA0002564823780000092
Figure BDA0002564823780000093
Figure BDA0002564823780000094
上式中,从根节点开始利用新的决策树预测样本值,并累加到原来的树 上。通过n次迭代,构建好一个基于XGBoost决策数的风险识别模型,在这 个风险识别模型的帮助下,可以从知识图谱中预测目标企业的风险。需要说 明的是,基于XGBoost决策数构建风险识别模型为本领域现有技术,本实施 例对此不做赘述。另外,风险识别模型的训练也为本领域常用的技术手段, 本实施例对其具体实现方式不做赘述。
进一步地,上述实施例中在步骤利用预先训练的风险识别模型从知识图 谱中挖掘出目标企业的风险信息之后还包括:
分别对数据池中的标准化结构数据和语料库中的企业关系数据定期更新, 并定期更新目标企业的知识图谱;利用风险识别模型从更新的目标企业知识 图谱中同步获取风险信息,并将风险信息推送给用户。通过定时更新数据池 和语料库,能够对目标企业的知识图谱进行同步更新,从而及时获取到目标 企业的风险信息,而主动将风险信息通过邮件、短信等方式推送给用户,能 够使用户第一时间掌握目标企业的风险情况。通常,互联网上的关于某个被 监控目标企业突然出现大量的负面报道,大概率表明该企业存在风险。
综上,本实施例应用了数据处理、自然语言处理、知识图谱等一系列技 术对海量数据进行自动化、智能化的处理分析,最终得到关于各目标企业的 多维度的风险报告,为贷中、贷后的业务人员节省大量的人力工作,提高效 率,辅助决策及时采取风险处置措施,避免或减少损失。
实施例二
本实施例提供一种基于知识图谱的企业风险预警系统,包括:
数据池单元,用于获取关于企业信息的结构化数据和半结构化数据,处 理后形成标准化结构数据汇入数据池;
语料库单元,用于获取关于企业信息的非结构化数据,处理后形成企业 关系数据汇入语料库;
知识图谱构建单元,基于所述数据池中的标准化结构数据以及所述语料 库中的企业关系数据构建目标企业的知识图谱;
风险预警单元,利用预先训练的风险识别模型从知识图谱中挖掘出目标 企业的风险信息,实现风险预警。
优选地,所述数据池单元包括:
模板配置模块,用于分别在第一处理器中配置结构化处理模板,在第二 处理器中配置半结构化处理模板;
字段提取模块,用于将获取的结构化数据输入第一处理器,经数据清洗 后按照结构化处理模板提取字段后得到标准化结构数据,以及将获取的半结 构化数据输入第二处理器,经数据清洗后按照半结构化处理模板提取字段后 得到标准化结构数据;
汇总模块,用于将得到标准化结构数据汇入数据池。
与现有技术相比,本发明实施例提供的基于知识图谱的企业风险预警系 统的有益效果与上述实施例一提供的基于知识图谱的企业风险预警方法的有 益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有 计算机程序,计算机程序被处理器运行时执行上述基于知识图谱的企业风险 预警方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上 述技术方案提供的企业关联风险预警方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤 是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读 取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储 介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变 化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 以所述权利要求的保护范围为准。

Claims (10)

1.一种基于知识图谱的企业风险预警方法,其特征在于,包括:
获取企业信息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池;
获取企业信息的非结构化数据,处理后形成企业关系数据汇入语料库;
基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据构建目标企业的知识图谱;
利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息,实现风险预警。
2.根据权利要求1所述的方法,其特征在于,获取企业信息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池的方法包括:
在第一处理器中配置结构化处理模板,以及在第二处理器中配置半结构化处理模板;
将获取的结构化数据输入第一处理器,经数据清洗后按照结构化处理模板提取字段后得到标准化结构数据;
将获取的半结构化数据输入第二处理器,经数据清洗后按照半结构化处理模板提取字段后得到标准化结构数据;
将得到标准化结构数据汇入数据池。
3.根据权利要求1或2所述的方法,其特征在于,所述结构化数据包括工商数据、税务数据、财务数据、行业指标数据中的一种或多种,所述半结构化数据包括法院公告数据和/或判决文书数据。
4.根据权利要求1所述的方法,其特征在于,爬取关于企业信息的非结构化数据,处理后形成企业关系数据的方法包括:
通过分布式爬虫技术从多个网站上抓取网页信息,采用文本处理器解析清洗后,从中抽取能够反映企业间关系的谓词三元组形成企业关系数据。
5.根据权利要求4所述的方法,其特征在于,从中抽取能够反映企业间关系的谓词三元组形成企业关系数据的方法包括:
将清洗后的网页文本分词后输入训练完成的BiLSTM编码模型中,抽取包括主语、关系、宾语结构的谓词三元组形成企业关系数据。
6.根据权利要求1所述的方法,其特征在于,训练风险识别模型的方法包括:
使用XGBoost树算法对多份知识图谱样本进行有监督学习训练,得到风险识别模型。
7.根据权利要求6所述的方法,其特征在于,在步骤利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息之后还包括:
分别对数据池中的标准化结构数据和语料库中的企业关系数据定期更新,并定期更新目标企业的知识图谱;
利用所述风险识别模型从更新的目标企业知识图谱中同步获取风险信息,并将风险信息推送给用户。
8.一种基于知识图谱的企业风险预警系统,其特征在于,包括:
数据池单元,用于获取企业信息的结构化数据和半结构化数据,处理后形成标准化结构数据汇入数据池;
语料库单元,用于获取企业信息的非结构化数据,处理后形成企业关系数据汇入语料库;
知识图谱构建单元,基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据构建目标企业的知识图谱;
风险预警单元,利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息,实现风险预警。
9.根据权利要求8所述的系统,其特征在于,所述数据池单元包括:
模板配置模块,用于在第一处理器中配置结构化处理模板,以及在第二处理器中配置半结构化处理模板;
字段提取模块,用于将获取的结构化数据输入第一处理器,经数据清洗后按照结构化处理模板提取字段后得到标准化结构数据,以及将获取的半结构化数据输入第二处理器,经数据清洗后按照半结构化处理模板提取字段后得到标准化结构数据;
汇总模块,用于将得到标准化结构数据汇入数据池。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。
CN202010626160.2A 2020-07-01 2020-07-01 基于知识图谱的企业风险预警方法及系统 Pending CN111899089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010626160.2A CN111899089A (zh) 2020-07-01 2020-07-01 基于知识图谱的企业风险预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010626160.2A CN111899089A (zh) 2020-07-01 2020-07-01 基于知识图谱的企业风险预警方法及系统

Publications (1)

Publication Number Publication Date
CN111899089A true CN111899089A (zh) 2020-11-06

Family

ID=73191788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010626160.2A Pending CN111899089A (zh) 2020-07-01 2020-07-01 基于知识图谱的企业风险预警方法及系统

Country Status (1)

Country Link
CN (1) CN111899089A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598489A (zh) * 2020-12-14 2021-04-02 深圳市快付通金融网络科技服务有限公司 基于金融应用的风险监测方法及系统
CN112686679A (zh) * 2020-12-31 2021-04-20 天津工业大学 一种客户关联关系智能分析系统及方法
CN112836517A (zh) * 2021-01-27 2021-05-25 浪潮云信息技术股份公司 一种基于自然语言处理挖掘风险信号的方法
CN113254650A (zh) * 2021-06-28 2021-08-13 明品云(北京)数据科技有限公司 一种基于知识图谱的评估推送方法、系统、设备和介质
CN113361962A (zh) * 2021-06-30 2021-09-07 支付宝(杭州)信息技术有限公司 基于区块链网络识别企业风险性的方法及装置
CN113537796A (zh) * 2021-07-22 2021-10-22 大路网络科技有限公司 一种企业风险评估方法、装置及设备
CN113779273A (zh) * 2021-09-16 2021-12-10 平安国际智慧城市科技股份有限公司 基于知识图谱的企业信息挖掘方法、装置、计算机及介质
CN114066223A (zh) * 2021-11-15 2022-02-18 福建正孚软件有限公司 基于知识图谱的国资国企可配置规则监控方法及存储介质
CN114596011A (zh) * 2022-05-09 2022-06-07 未来地图(深圳)智能科技有限公司 基于人工智能的企业数据处理方法及相关装置
CN114612018A (zh) * 2022-05-11 2022-06-10 中国南方电网有限责任公司 一种内控风险监测方法、系统和可读存储介质
CN115269879A (zh) * 2022-09-05 2022-11-01 北京百度网讯科技有限公司 知识结构数据的生成方法、数据搜索方法和风险告警方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108596439A (zh) * 2018-03-29 2018-09-28 北京中兴通网络科技股份有限公司 一种基于知识图谱的企业风险预测方法及系统
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
CN110889556A (zh) * 2019-11-28 2020-03-17 福建亿榕信息技术有限公司 一种企业经营风险预测方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108596439A (zh) * 2018-03-29 2018-09-28 北京中兴通网络科技股份有限公司 一种基于知识图谱的企业风险预测方法及系统
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
CN110889556A (zh) * 2019-11-28 2020-03-17 福建亿榕信息技术有限公司 一种企业经营风险预测方法和系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598489A (zh) * 2020-12-14 2021-04-02 深圳市快付通金融网络科技服务有限公司 基于金融应用的风险监测方法及系统
CN112598489B (zh) * 2020-12-14 2023-12-26 深圳市快付通金融网络科技服务有限公司 基于金融应用的风险监测方法及系统
CN112686679A (zh) * 2020-12-31 2021-04-20 天津工业大学 一种客户关联关系智能分析系统及方法
CN112836517A (zh) * 2021-01-27 2021-05-25 浪潮云信息技术股份公司 一种基于自然语言处理挖掘风险信号的方法
CN113254650A (zh) * 2021-06-28 2021-08-13 明品云(北京)数据科技有限公司 一种基于知识图谱的评估推送方法、系统、设备和介质
CN113361962A (zh) * 2021-06-30 2021-09-07 支付宝(杭州)信息技术有限公司 基于区块链网络识别企业风险性的方法及装置
CN113537796A (zh) * 2021-07-22 2021-10-22 大路网络科技有限公司 一种企业风险评估方法、装置及设备
CN113779273A (zh) * 2021-09-16 2021-12-10 平安国际智慧城市科技股份有限公司 基于知识图谱的企业信息挖掘方法、装置、计算机及介质
CN114066223A (zh) * 2021-11-15 2022-02-18 福建正孚软件有限公司 基于知识图谱的国资国企可配置规则监控方法及存储介质
CN114596011A (zh) * 2022-05-09 2022-06-07 未来地图(深圳)智能科技有限公司 基于人工智能的企业数据处理方法及相关装置
CN114612018A (zh) * 2022-05-11 2022-06-10 中国南方电网有限责任公司 一种内控风险监测方法、系统和可读存储介质
CN115269879A (zh) * 2022-09-05 2022-11-01 北京百度网讯科技有限公司 知识结构数据的生成方法、数据搜索方法和风险告警方法

Similar Documents

Publication Publication Date Title
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
Shi et al. Prospecting information extraction by text mining based on convolutional neural networks–a case study of the Lala copper deposit, China
Mehmood et al. Implementing big data lake for heterogeneous data sources
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN109446341A (zh) 知识图谱的构建方法及装置
CN110597870A (zh) 一种企业关系挖掘方法
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN106407208A (zh) 一种城市管理本体知识库的构建方法及系统
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN112883286A (zh) 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质
Xia et al. Building terrorist knowledge graph from global terrorism database and wikipedia
CN111143394B (zh) 知识数据处理方法、装置、介质及电子设备
CN104346382A (zh) 使用语言查询的文本分析系统和方法
CN113377739A (zh) 知识图谱应用方法、平台、电子设备及存储介质
CN118475924A (zh) 用于计算机实现的数据变换的处理器、计算机程序产品、系统和方法
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
Priya et al. Entity resolution for high velocity streams using semantic measures
CN112905790A (zh) 监管事件定性指标提取的方法、装置和系统
Liu et al. Practical skills of business english correspondence writing based on data mining algorithm
CN111507105A (zh) 一种基于语义相似性分析的技术文件相似性排查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201106