CN117541044B - 基于项目风险分析的项目分类方法、系统、介质及设备 - Google Patents
基于项目风险分析的项目分类方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN117541044B CN117541044B CN202311316117.6A CN202311316117A CN117541044B CN 117541044 B CN117541044 B CN 117541044B CN 202311316117 A CN202311316117 A CN 202311316117A CN 117541044 B CN117541044 B CN 117541044B
- Authority
- CN
- China
- Prior art keywords
- data
- project
- descriptive text
- line
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000011160 research Methods 0.000 claims abstract description 31
- 230000009193 crawling Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000036541 health Effects 0.000 claims description 5
- 230000003862 health status Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于项目风险分析的项目分类方法、系统、介质及设备,方法包括:响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据,并采集可研报告数据,基于数据分析以确定待投资项目对应的多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,以确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种基于项目风险分析的项目分类方法、系统、介质及设备。
背景技术
随着互联网和大数据的兴起,出现了很多的投、融资平台。这些投、融资平台往往只是对投资项目按行业进行简单的分类,或者仅仅考虑预期收益把投资项目进行简单的分类排列,投资人往往需要在大量的投资项目上浪费大量的时间进行风险分析,以确定出适合自己的投资项目。
相关技术中,当前通用的投资项目风险分析手段是通过获取投资项目在一段历史时间内的收益表现数据,基于该数据预测未来该投资项目的风险类型。由于历史时间内的收益表现数据比较单一,不确定性大,使得风险分析结果不准确;同时人工主动基于收益表现数据的分险分析方式主观性强,分析效率低。
发明内容
本申请实施例提供了一种基于项目风险分析的项目分类方法、系统、介质及设备。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种基于项目风险分析的项目分类方法,应用于服务器,方法包括:
响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据,并采集待投资项目的可研报告数据;
根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据;
将多个投资关键特征数据输入预先训练的项目风险分析模型中,输出待投资项目对应的风险标签序列;
基于风险标签序列,确定待投资项目的风险类别。
可选的,多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据;
根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据,包括:
根据企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据,并结合大数据技术对每个预设关键投资标签匹配数据源,得到每个预设关键投资标签的待分析数据;
加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型;
将每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中,分别输出待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据;
将市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据。
可选的,响应于终端针对待投资项目发送的项目风险分析请求之前,还包括:
采用神经网络建立项目风险分析模型;
根据每个企业的多源异构数据以及可研报告数据,确定每个预设关键投资标签的标签匹配数据;
根据标签匹配数据分析多个样本投资关键特征,得到每个预设关键投资标签的样本投资关键特征序列;
接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联,生成历史训练样本;
将历史训练样本输入项目风险分析模型进行模型训练,输出第一模型损失值;
在第一模型损失值到达最小时,生成初始项目风险分析模型;
对历史训练样本进行数据增强,得到增强数据;
根据增强数据对初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型。
可选的,初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数;
根据增强数据对初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型,包括:
求取历史训练样本以及增强数据的交集,并将交集进行删除,得到多行描述文本;
将多行描述文本中每行描述文本进行分词处理,得到每行描述文本的多个词汇序列;
根据每行描述文本的多个词汇序列,确定每行描述文本的向量序列;
将每行描述文本的向量序列依次输入归一化函数,输出每行描述文本的文本表示;
将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层,输出多行描述文本的关系结构特征;
基于多行描述文本的关系结构特征和损失函数,计算模型损失值;
当模型损失值到达最小时,生成预先训练的项目风险分析模型。
可选的,根据每行描述文本的多个词汇序列,确定每行描述文本的向量序列,包括:
获取预先生成的词汇与向量的映射关系表;
在映射关系表中匹配每行描述文本的多个词汇序列各自对应的向量,得到每行描述文本的向量序列;或者,
将每行描述文本的多个词汇序列映射为预设固定维度的向量,得到每行描述文本的向量序列。
可选的,将每行描述文本的向量序列依次输入归一化函数,输出每行描述文本的文本表示,包括:
将每行描述文本的向量序列通过双向长短期记忆网络进行编码,得到每行描述文本中各字符的前后方向上的隐层状态;
将每行描述文本中各字符的前后方向上的隐层状态进行拼接,得到每行描述文本中各字符的隐层输出;
将每行描述文本中各字符的隐层输出输入全连接层中,得到各字符的隐含输出;
将各字符的隐含输出和预设风险标签进行相似度计算,得到各字符的相似度;
通过归一化函数将各字符的相似度进行归一化处理,得到每行描述文本的文本表示。
可选的,基于多行描述文本的关系结构特征和损失函数,计算模型损失值,包括:
根据每行描述文本的关系结构特征,计算每行描述文本的预测风险标签;
通过F-Measur算法,计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率;
计算精确率和召回率的加权平均值;
将加权平均值输入损失函数中,得到模型损失值;其中,
加权平均值的计算公式为:
其中,C为权重值,X是精确率,Y是召回率;
损失函数的表达式为:
其中,n为多行描述文本的行数,xi为第i行描述文本的加权平均值,P()为模型先验值计算函数,logQ()为任意一行描述文本的加权平均值和自身关联的风险标签之间的空间相似距离。
第二方面,本申请实施例提供了一种基于项目风险分析的项目分类系统,系统包括:
数据爬取模块,用于响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据,并采集待投资项目的可研报告数据;
数据分析模块,用于根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据;
数据输入模块,用于将多个投资关键特征数据输入预先训练的项目风险分析模型中,输出待投资项目对应的风险标签序列;
风险输出模块,用于基于风险标签序列,确定待投资项目的风险类别。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,服务器首先响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析,以确定待投资项目对应的多个投资关键特征数据,然后将多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例提供的一种基于项目风险分析的项目分类方法的流程示意图;
图2是本申请提供的一种实施场景的场景示意图;
图3是本申请提供的一种模型训练过程的过程示意图;
图4是本申请提供的一种初始项目风险分析模型的模型处理过程图;
图5是本申请实施例提供的一种项目风险分析模型训练过程的过程示意图;
图6是本申请实施例提供的一种基于项目风险分析的项目分类系统的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述和附图充分地示出本申请的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的系统和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
目前,当前通用的投资项目风险分析手段是通过获取投资项目在一段历史时间内的收益表现数据,基于该数据预测未来该投资项目的风险类型。
本申请的发明人注意到,由于历史时间内的收益表现数据比较单一,不确定性大,使得风险分析结果不准确;同时人工主动基于收益表现数据的分险分析方式主观性强,分析效率低。
为了能够解决分析结果不准确以及分析效率低的问题,本申请发明人研究发现,服务器首先响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析,以确定待投资项目对应的多个投资关键特征数据,然后将多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
本申请提供了一种基于项目风险分析的项目分类方法、系统、介质及设备,以解决上述相关技术问题中存在的问题。下面将结合附图1-附图5,对本申请实施例提供的基于项目风险分析的项目分类方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的基于项目风险分析的项目分类系统上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
请参见图1,为本申请实施例提供了一种基于项目风险分析的项目分类方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据,并采集待投资项目的可研报告数据;
例如图2所示,图2是本申请提供的一种实施场景的场景示意图,包括终端和服务器,终端和服务器之间可通过无线或者有线进行通信连接;终端提供了基于项目风险分析的项目分类的相关功能接口,用户可基于相关功能接口触发项目风险分析请求;服务器上部署有预先训练的项目风险分析模型以及基于项目风险分析的项目分类的应用程序,可基于来自终端的项目风险分析请求执行步骤S101-步骤S104。
其中,待投资项目是企业提供的用于客户进行投资后可有收益的产品,例如银行APP中理财专区里边提供的各个理财产品;多源异构数据是通过多个渠道获取的不同来源的数据,多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据;例如企业工商信息可通过天眼查提供的数据进行获取。可研报告数据是由企业、政府部门、科研机构等单位出具的,用于评估一个项目或计划的可行性、风险和收益等情况的说明,并提出相应建议的文档。
在本申请实施例中,服务器在接收到来自终端的项目风险分析请求时,可响应于终端针对待投资项目发送的项目风险分析请求,采用爬虫技术爬取与待投资项目关联企业的多源异构数据,并通过OCR识别技术自动采集待投资项目的可研报告数据。
S102,根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据;
在本申请实施例中,在根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据时,服务器首先根据企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据,并结合大数据技术对每个预设关键投资标签匹配数据源,得到每个预设关键投资标签的待分析数据;然后加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型;其次将每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中,分别输出待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据;最后将市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据。
具体的,在结合大数据技术对每个预设关键投资标签匹配数据源时,首先可采用大数据处理程序对企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据进行数据清洗、数据过滤以及数据规则化,得到目标数据,然后计算目标数据中不同数据与每个预设关键投资标签之间的语义相似度,并在语义相似度大于预设阈值的情况下,通过聚类算法归类出与每个预设关键投资标签语义相似度大于预设阈值的数据,得到每个预设关键投资标签的待分析数据。
需要说明的是,由于本申请中关键投资标签的数据不同,因此本申请针对每个预设关键投资标签都预先训练了一个分析模型,将不同的数据输入各自对应的模型中,本申请精细化的模型处理相比于现有技术中一个统一的数据处理模型,可提升分析结果的准确性。单个模型的训练方式可采用现有技术的模型训练过程,此处不在赘述。
S103,将多个投资关键特征数据输入预先训练的项目风险分析模型中,输出待投资项目对应的风险标签序列;
其中,预先训练的项目风险分析模型是能够输出投资项目对象风险标签的数学模型。
在本申请实施例中,在生成预先训练的项目风险分析模型时,首先采用神经网络建立项目风险分析模型;再根据每个企业的多源异构数据以及可研报告数据,确定每个预设关键投资标签的标签匹配数据;然后根据标签匹配数据分析多个样本投资关键特征,得到每个预设关键投资标签的样本投资关键特征序列;再接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联,生成历史训练样本;其次将历史训练样本输入项目风险分析模型进行模型训练,输出第一模型损失值;再在第一模型损失值到达最小时,生成初始项目风险分析模型;最后对历史训练样本进行数据增强,得到增强数据;再根据增强数据对初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型。
例如图3所示,图3是本申请提供的一种模型训练过程的过程示意图,该训练过程分为两个阶段,包括一阶段训练过程和二阶段训练过程。在一阶段训练过程中,首先建立项目风险分析模型,然后根据每个企业的多源异构数据以及可研报告数据,生成历史训练样本,最后根据历史训练样本,对项目风险分析模型进行训练,得到初始项目风险分析模型。在二阶段训练过程中,首先对历史训练样本进行数据增强,得到增强数据,然后通过增强数据对初始项目风险分析模型进行二阶段训练,得到预先训练的项目风险分析模型。
其中,初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数。
在本申请实施例中,首先求取历史训练样本以及增强数据的交集,并将交集进行删除,得到多行描述文本;再将多行描述文本中每行描述文本进行分词处理,得到每行描述文本的多个词汇序列;然后根据每行描述文本的多个词汇序列,确定每行描述文本的向量序列;再将每行描述文本的向量序列依次输入归一化函数,输出每行描述文本的文本表示;最后将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层,输出多行描述文本的关系结构特征;再基于多行描述文本的关系结构特征和损失函数,计算模型损失值;以及当模型损失值到达最小时,生成预先训练的项目风险分析模型。
例如图4所示,图4是本申请提供的一种初始项目风险分析模型的模型处理过程图,首先将每行描述文本的向量序列输入归一化函数中,输出每行描述文本的文本表示,然后将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层,输出多行描述文本的关系结构特征,最后基于多行描述文本的关系结构特征结合损失函数计算损失值。
在本申请实施例中,在根据每行描述文本的多个词汇序列,确定每行描述文本的向量序列时,首先获取预先生成的词汇与向量的映射关系表;然后在映射关系表中匹配每行描述文本的多个词汇序列各自对应的向量,得到每行描述文本的向量序列;或者,将每行描述文本的多个词汇序列映射为预设固定维度的向量,得到每行描述文本的向量序列。
在本申请实施例中,在将每行描述文本的向量序列依次输入归一化函数,输出每行描述文本的文本表示时,首先将每行描述文本的向量序列通过双向长短期记忆网络进行编码,得到每行描述文本中各字符的前后方向上的隐层状态;然后将每行描述文本中各字符的前后方向上的隐层状态进行拼接,得到每行描述文本中各字符的隐层输出;再将每行描述文本中各字符的隐层输出输入全连接层中,得到各字符的隐含输出;其次将各字符的隐含输出和预设风险标签进行相似度计算,得到各字符的相似度;最后通过归一化函数将各字符的相似度进行归一化处理,得到每行描述文本的文本表示。
具体的,在基于多行描述文本的关系结构特征和损失函数,计算模型损失值时,首先根据每行描述文本的关系结构特征,计算每行描述文本的预测风险标签;然后通过F-Measur算法,计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率;其次计算精确率和召回率的加权平均值;最后将加权平均值输入损失函数中,得到模型损失值;其中,加权平均值的计算公式为:
其中,C为权重值,X是精确率,Y是召回率;
损失函数的表达式为:
其中,n为多行描述文本的行数,xi为第i行描述文本的加权平均值,P()为模型先验值计算函数,logQ()为任意一行描述文本的加权平均值和自身关联的风险标签之间的空间相似距离。
S104,基于风险标签序列,确定待投资项目的风险类别。
在一种可能的实现方式中,在基于风险标签序列,确定待投资项目的风险类别时,首先识别风险标签序列中各个风险标签的标签类别,根据各个风险标签的标签类别,将风险标签序列划分为多类风险标签,统计每类风险标签的数量,并将数量最多的风险标签对应的标签类别确定为待投资项目的风险类别。
例如,标签类别为A风险、B风险、C风险、D风险,A风险的风险级别最高,D风险的风险级别最低,可通过统计标签类别的数量确定待投资项目的最终的风险类别。当C风险的标签数量最多时,待投资项目的风险类别为C风险。
在另一种可能的实现方式中,在基于风险标签序列,确定待投资项目的风险类别时,首先将风险标签序列中各个风险标签输入预先关联了风险类型标签的滑动窗口,以统计每种风险类型标签的数量,最后将数量最多的风险类型标签对应的标签类别确定为待投资项目的风险类别。
进一步地,在得到风险类别后,可将风险类别展示给投资者,方便投资者查看和调整。
投资者在投资中,可实时获取并更新外部数据,如天眼查的工商信息、企业年报、财税报告、舆情信息、恒生指数、A股、港股等官方渠道数据,对内自动采集项目的进度数据,通过模型分析,及时发现项目的延误、超支等风险问题,为投资者提供精准的风险预警提示。
投资者在投资完成的阶段中,基于OCR识别技术自动采集投资项目的后评估报告数据,结合项目前期的可研报告,通过项目风险评估模型分析投资者的投资回报率、风险调整收益等指标,可视化比对可研报告数据和后评估数据,自动分析差距及原因,并为投资者提供投资优化建议。
在本申请实施例中,服务器首先响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析,以确定待投资项目对应的多个投资关键特征数据,然后将多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
例如图5所示,图5是本申请提供的一种项目风险分析模型训练过程的过程示意图,模型训练步骤包括:
S201,采用神经网络建立项目风险分析模型;
S202,根据每个企业的多源异构数据以及可研报告数据,确定每个预设关键投资标签的标签匹配数据;
S203,根据标签匹配数据分析多个样本投资关键特征,得到每个预设关键投资标签的样本投资关键特征序列;
S204,接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联,生成历史训练样本;
S205,将历史训练样本输入项目风险分析模型进行模型训练,输出第一模型损失值;
S206,在第一模型损失值到达最小时,生成初始项目风险分析模型;
S207,对历史训练样本进行数据增强,得到增强数据;
S208,根据增强数据对初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型。
在本申请实施例中,服务器首先响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析,以确定待投资项目对应的多个投资关键特征数据,然后将多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
下述为本申请系统实施例,可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节,请参照本申请方法实施例。
请参见图6,其示出了本申请一个示例性实施例提供的基于项目风险分析的项目分类系统的结构示意图。该基于项目风险分析的项目分类系统可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。该系统1包括数据爬取模块10、数据分析模块20、数据输入模块30、风险输出模块40。
数据爬取模块10,用于响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据,并采集待投资项目的可研报告数据;
数据分析模块20,用于根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据;
数据输入模块30,用于将多个投资关键特征数据输入预先训练的项目风险分析模型中,输出待投资项目对应的风险标签序列;
风险输出模块40,用于基于风险标签序列,确定待投资项目的风险类别。
需要说明的是,上述实施例提供的基于项目风险分析的项目分类系统在执行基于项目风险分析的项目分类方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于项目风险分析的项目分类系统与基于项目风险分析的项目分类方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,服务器首先响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析,以确定待投资项目对应的多个投资关键特征数据,然后将多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
本申请还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的基于项目风险分析的项目分类方法。
本申请还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的基于项目风险分析的项目分类方法。
请参见图7,为本申请实施例提供了一种电子设备的结构示意图。如图7所示,电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储系统。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于项目风险分析的项目分类应用程序。
在图7所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的基于项目风险分析的项目分类应用程序,并具体执行以下操作:
响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据,并采集待投资项目的可研报告数据;
根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据;
将多个投资关键特征数据输入预先训练的项目风险分析模型中,输出待投资项目对应的风险标签序列;
基于风险标签序列,确定待投资项目的风险类别。
在一个实施例中,处理器1001在执行根据多源异构数据与可研报告数据,分析待投资项目对应的多个投资关键特征数据时,具体执行以下操作:
根据企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据,并结合大数据技术对每个预设关键投资标签匹配数据源,得到每个预设关键投资标签的待分析数据;
加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型;
将每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中,分别输出待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据;
将市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据。
在一个实施例中,处理器1001在执行响应于终端针对待投资项目发送的项目风险分析请求之前时,还执行以下操作:
采用神经网络建立项目风险分析模型;
根据每个企业的多源异构数据以及可研报告数据,确定每个预设关键投资标签的标签匹配数据;
根据标签匹配数据分析多个样本投资关键特征,得到每个预设关键投资标签的样本投资关键特征序列;
接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联,生成历史训练样本;
将历史训练样本输入项目风险分析模型进行模型训练,输出第一模型损失值;
在第一模型损失值到达最小时,生成初始项目风险分析模型;
对历史训练样本进行数据增强,得到增强数据;
根据增强数据对初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型。
在一个实施例中,处理器1001在执行根据增强数据对初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型时,具体执行以下操作:
求取历史训练样本以及增强数据的交集,并将交集进行删除,得到多行描述文本;
将多行描述文本中每行描述文本进行分词处理,得到每行描述文本的多个词汇序列;
根据每行描述文本的多个词汇序列,确定每行描述文本的向量序列;
将每行描述文本的向量序列依次输入归一化函数,输出每行描述文本的文本表示;
将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层,输出多行描述文本的关系结构特征;
基于多行描述文本的关系结构特征和损失函数,计算模型损失值;
当模型损失值到达最小时,生成预先训练的项目风险分析模型。
在一个实施例中,处理器1001在执行根据每行描述文本的多个词汇序列,确定每行描述文本的向量序列时,具体执行以下操作:
获取预先生成的词汇与向量的映射关系表;
在映射关系表中匹配每行描述文本的多个词汇序列各自对应的向量,得到每行描述文本的向量序列;或者,
将每行描述文本的多个词汇序列映射为预设固定维度的向量,得到每行描述文本的向量序列。
在一个实施例中,处理器1001在执行将每行描述文本的向量序列依次输入归一化函数,输出每行描述文本的文本表示时,具体执行以下操作:
将每行描述文本的向量序列通过双向长短期记忆网络进行编码,得到每行描述文本中各字符的前后方向上的隐层状态;
将每行描述文本中各字符的前后方向上的隐层状态进行拼接,得到每行描述文本中各字符的隐层输出;
将每行描述文本中各字符的隐层输出输入全连接层中,得到各字符的隐含输出;
将各字符的隐含输出和预设风险标签进行相似度计算,得到各字符的相似度;
通过归一化函数将各字符的相似度进行归一化处理,得到每行描述文本的文本表示。
在一个实施例中,处理器1001在执行基于多行描述文本的关系结构特征和损失函数,计算模型损失值时,具体执行以下操作:
根据每行描述文本的关系结构特征,计算每行描述文本的预测风险标签;
通过F-Measur算法,计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率;
计算精确率和召回率的加权平均值;
将加权平均值输入损失函数中,得到模型损失值;其中,
加权平均值的计算公式为:
其中,C为权重值,X是精确率,Y是召回率;
损失函数的表达式为:
其中,n为多行描述文本的行数,xi为第i行描述文本的加权平均值,P()为模型先验值计算函数,logQ()为任意一行描述文本的加权平均值和自身关联的风险标签之间的空间相似距离。
在本申请实施例中,服务器首先响应于终端针对待投资项目发送的项目风险分析请求,爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析,以确定待投资项目对应的多个投资关键特征数据,然后将多个投资关键特征数据输入预先训练的项目风险分析模型,输出待投资项目对应的风险标签序列,最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到,多源异构数据和可研报告数据的维度复杂,数据量非常丰富,因此基于多个投资关键特征数据确定的风险分析结果准确度高;同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别,从而提升了风险分析效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,基于项目风险分析的项目分类的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (6)
1.一种基于项目风险分析的项目分类方法,其特征在于,应用于服务器,所述方法包括:
响应于终端针对待投资项目发送的项目风险分析请求,爬取与所述待投资项目关联企业的多源异构数据,并采集所述待投资项目的可研报告数据;
根据所述多源异构数据与所述可研报告数据,分析所述待投资项目对应的多个投资关键特征数据;其中,
所述多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据;
所述根据所述多源异构数据与所述可研报告数据,分析所述待投资项目对应的多个投资关键特征数据,包括:
根据所述企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与所述可研报告数据,并结合大数据技术对每个预设关键投资标签匹配数据源,得到每个预设关键投资标签的待分析数据;
加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型;
将所述每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中,分别输出所述待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据;
将所述市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据;
将所述多个投资关键特征数据输入预先训练的项目风险分析模型中,输出所述待投资项目对应的风险标签序列;
基于所述风险标签序列,确定所述待投资项目的风险类别;其中,
所述响应于终端针对待投资项目发送的项目风险分析请求之前,还包括:
采用神经网络建立项目风险分析模型;
根据每个企业的多源异构数据以及可研报告数据,确定每个预设关键投资标签的标签匹配数据;
根据所述标签匹配数据分析多个样本投资关键特征,得到每个预设关键投资标签的样本投资关键特征序列;
接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联,生成历史训练样本;
将所述历史训练样本输入所述项目风险分析模型进行模型训练,输出第一模型损失值;
在所述第一模型损失值到达最小时,生成初始项目风险分析模型;
对所述历史训练样本进行数据增强,得到增强数据;
根据所述增强数据对所述初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型;其中,
所述初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数;
所述根据所述增强数据对所述初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型,包括:
求取所述历史训练样本以及所述增强数据的交集,并将所述交集进行删除,得到多行描述文本;
将所述多行描述文本中每行描述文本进行分词处理,得到每行描述文本的多个词汇序列;
根据所述每行描述文本的多个词汇序列,确定每行描述文本的向量序列;
将所述每行描述文本的向量序列依次输入所述归一化函数,输出每行描述文本的文本表示;
将所述每行描述文本的文本表示输入所述双向长短期记忆网络以及全连接层,输出多行描述文本的关系结构特征;
基于所述多行描述文本的关系结构特征和所述损失函数,计算模型损失值;
当所述模型损失值到达最小时,生成预先训练的项目风险分析模型;其中,
所述基于所述多行描述文本的关系结构特征和所述损失函数,计算模型损失值,包括:
根据每行描述文本的关系结构特征,计算每行描述文本的预测风险标签;
通过F-Measur算法,计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率;
计算所述精确率和召回率的加权平均值;
将所述加权平均值输入所述损失函数中,得到模型损失值;其中,
所述加权平均值的计算公式为:
其中,C为权重值,X是精确率,Y是召回率;
所述损失函数的表达式为:
其中,n为多行描述文本的行数,xi为第i行描述文本的加权平均值,P()为模型先验值计算函数,logQ()为任意一行描述文本的加权平均值和自身关联的风险标签之间的空间相似距离。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每行描述文本的多个词汇序列,确定每行描述文本的向量序列,包括:
获取预先生成的词汇与向量的映射关系表;
在所述映射关系表中匹配所述每行描述文本的多个词汇序列各自对应的向量,得到每行描述文本的向量序列;或者,
将所述每行描述文本的多个词汇序列映射为预设固定维度的向量,得到每行描述文本的向量序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述每行描述文本的向量序列依次输入所述归一化函数,输出每行描述文本的文本表示,包括:
将所述每行描述文本的向量序列通过所述双向长短期记忆网络进行编码,得到所述每行描述文本中各字符的前后方向上的隐层状态;
将所述每行描述文本中各字符的前后方向上的隐层状态进行拼接,得到所述每行描述文本中各字符的隐层输出;
将所述每行描述文本中各字符的隐层输出输入所述全连接层中,得到各字符的隐含输出;
将所述各字符的隐含输出和预设风险标签进行相似度计算,得到各字符的相似度;
通过所述归一化函数将各字符的相似度进行归一化处理,得到每行描述文本的文本表示。
4.一种基于项目风险分析的项目分类系统,其特征在于,所述系统包括:
数据爬取模块,用于响应于终端针对待投资项目发送的项目风险分析请求,爬取与所述待投资项目关联企业的多源异构数据,并采集所述待投资项目的可研报告数据;
数据分析模块,用于根据所述多源异构数据与所述可研报告数据,分析所述待投资项目对应的多个投资关键特征数据;其中,
所述多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据;
所述根据所述多源异构数据与所述可研报告数据,分析所述待投资项目对应的多个投资关键特征数据,包括:
根据所述企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与所述可研报告数据,并结合大数据技术对每个预设关键投资标签匹配数据源,得到每个预设关键投资标签的待分析数据;
加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型;
将所述每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中,分别输出所述待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据;
将所述市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据;
数据输入模块,用于将所述多个投资关键特征数据输入预先训练的项目风险分析模型中,输出所述待投资项目对应的风险标签序列;
风险输出模块,用于基于所述风险标签序列,确定所述待投资项目的风险类别;其中,
所述基于项目风险分析的项目分类系统还具体用于:
采用神经网络建立项目风险分析模型;
根据每个企业的多源异构数据以及可研报告数据,确定每个预设关键投资标签的标签匹配数据;
根据所述标签匹配数据分析多个样本投资关键特征,得到每个预设关键投资标签的样本投资关键特征序列;
接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联,生成历史训练样本;
将所述历史训练样本输入所述项目风险分析模型进行模型训练,输出第一模型损失值;
在所述第一模型损失值到达最小时,生成初始项目风险分析模型;
对所述历史训练样本进行数据增强,得到增强数据;
根据所述增强数据对所述初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型;其中,
所述初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数;
所述根据所述增强数据对所述初始项目风险分析模型进行训练,生成预先训练的项目风险分析模型,包括:
求取所述历史训练样本以及所述增强数据的交集,并将所述交集进行删除,得到多行描述文本;
将所述多行描述文本中每行描述文本进行分词处理,得到每行描述文本的多个词汇序列;
根据所述每行描述文本的多个词汇序列,确定每行描述文本的向量序列;
将所述每行描述文本的向量序列依次输入所述归一化函数,输出每行描述文本的文本表示;
将所述每行描述文本的文本表示输入所述双向长短期记忆网络以及全连接层,输出多行描述文本的关系结构特征;
基于所述多行描述文本的关系结构特征和所述损失函数,计算模型损失值;
当所述模型损失值到达最小时,生成预先训练的项目风险分析模型;其中,
所述基于所述多行描述文本的关系结构特征和所述损失函数,计算模型损失值,包括:
根据每行描述文本的关系结构特征,计算每行描述文本的预测风险标签;
通过F-Measur算法,计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率;
计算所述精确率和召回率的加权平均值;
将所述加权平均值输入所述损失函数中,得到模型损失值;其中,
所述加权平均值的计算公式为:
其中,C为权重值,X是精确率,Y是召回率;
所述损失函数的表达式为:
其中,n为多行描述文本的行数,xi为第i行描述文本的加权平均值,P()为模型先验值计算函数,logQ()为任意一行描述文本的加权平均值和自身关联的风险标签之间的空间相似距离。
5.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-3任意一项所述的方法。
6.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-3任意一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945488 | 2023-07-28 | ||
CN2023109454884 | 2023-07-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117541044A CN117541044A (zh) | 2024-02-09 |
CN117541044B true CN117541044B (zh) | 2024-06-11 |
Family
ID=89784974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311316117.6A Active CN117541044B (zh) | 2023-07-28 | 2023-10-11 | 基于项目风险分析的项目分类方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541044B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726291A (zh) * | 2018-12-29 | 2019-05-07 | 中科鼎富(北京)科技发展有限公司 | 分类模型的损失函数优化方法、装置及样本分类方法 |
CN109800976A (zh) * | 2019-01-07 | 2019-05-24 | 平安科技(深圳)有限公司 | 项目投资决策方法、装置、计算机设备和存储介质 |
CN109816221A (zh) * | 2019-01-07 | 2019-05-28 | 平安科技(深圳)有限公司 | 项目风险决策方法、装置、计算机设备和存储介质 |
CN113505712A (zh) * | 2021-07-16 | 2021-10-15 | 自然资源部第一海洋研究所 | 基于新型损失函数的卷积神经网络的海面溢油检测方法 |
CN115358866A (zh) * | 2022-07-27 | 2022-11-18 | 北京企名片科技有限公司 | 一种投资风险预估系统 |
CN115617975A (zh) * | 2022-12-20 | 2023-01-17 | 国家电网有限公司客户服务中心 | 针对少样本多轮对话的意图识别方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148133A1 (en) * | 2014-11-26 | 2016-05-26 | International Business Machines Corporation | Risk assessment through contextual analysis |
US10846640B2 (en) * | 2017-06-01 | 2020-11-24 | Autodesk, Inc. | Architecture, engineering and construction (AEC) risk analysis system and method |
US20230116345A1 (en) * | 2021-09-07 | 2023-04-13 | BetaRisk, Inc. | Systems and methods for enterprise wide risk assessment and aggregated risk analysis |
-
2023
- 2023-10-11 CN CN202311316117.6A patent/CN117541044B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726291A (zh) * | 2018-12-29 | 2019-05-07 | 中科鼎富(北京)科技发展有限公司 | 分类模型的损失函数优化方法、装置及样本分类方法 |
CN109800976A (zh) * | 2019-01-07 | 2019-05-24 | 平安科技(深圳)有限公司 | 项目投资决策方法、装置、计算机设备和存储介质 |
CN109816221A (zh) * | 2019-01-07 | 2019-05-28 | 平安科技(深圳)有限公司 | 项目风险决策方法、装置、计算机设备和存储介质 |
CN113505712A (zh) * | 2021-07-16 | 2021-10-15 | 自然资源部第一海洋研究所 | 基于新型损失函数的卷积神经网络的海面溢油检测方法 |
CN115358866A (zh) * | 2022-07-27 | 2022-11-18 | 北京企名片科技有限公司 | 一种投资风险预估系统 |
CN115617975A (zh) * | 2022-12-20 | 2023-01-17 | 国家电网有限公司客户服务中心 | 针对少样本多轮对话的意图识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117541044A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
US20210312288A1 (en) | Method for training classification model, classification method, apparatus and device | |
CN113947336A (zh) | 评估投标企业风险的方法、装置、存储介质及计算机设备 | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN113807103B (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN109214642A (zh) | 一种建筑施工工序约束的自动抽取和分类方法及系统 | |
CN112419029A (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN116821372A (zh) | 基于知识图谱的数据处理方法、装置、电子设备及介质 | |
CN113434688A (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
US10685281B2 (en) | Automated predictive modeling and framework | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN108509588B (zh) | 一种基于大数据的律师评估方法及推荐方法 | |
CN114330318A (zh) | 一种金融领域中文细粒度实体识别方法及装置 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN117541044B (zh) | 基于项目风险分析的项目分类方法、系统、介质及设备 | |
CN110287396A (zh) | 文本匹配方法及装置 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN115048487A (zh) | 基于人工智能的舆情分析方法、装置、计算机设备及介质 | |
CN112989001A (zh) | 一种问答处理方法、装置、介质及电子设备 | |
Léon | Extracting information from PDF invoices using deep learning | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN111027318A (zh) | 基于大数据的行业分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Cui Xiaolong Inventor after: Meng Ye Inventor after: Liu Tieqi Inventor after: Feng Yufei Inventor after: Li Huan Inventor before: Meng Ye Inventor before: Cui Xiaolong Inventor before: Liu Tieqi Inventor before: Feng Yufei Inventor before: Li Huan |
|
GR01 | Patent grant |