CN116308758A - 一种基于大数据的金融风险分析方法及系统 - Google Patents
一种基于大数据的金融风险分析方法及系统 Download PDFInfo
- Publication number
- CN116308758A CN116308758A CN202310305221.9A CN202310305221A CN116308758A CN 116308758 A CN116308758 A CN 116308758A CN 202310305221 A CN202310305221 A CN 202310305221A CN 116308758 A CN116308758 A CN 116308758A
- Authority
- CN
- China
- Prior art keywords
- text
- financial risk
- risk analysis
- paragraph
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 185
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000003068 static effect Effects 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000008521 reorganization Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 19
- 238000011156 evaluation Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于大数据的金融风险分析方法及系统,通过从指定地址读取目标数据以提取文本数据,对同一目标数据中的文本数据进行聚类和重组以生成一个或多个分别对应不同主题的文本块,将主题与金融风险相关的文本块确定为有效文本块,确定所述有效文本块相关的金融风险分析要素,将所述有效文本块分解为多个文本单元使得每个所述文本单元对应一个金融风险分析要素,将对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重,将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析,能够充分且有效地利用互联网大数据实现金融风险分析。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种基于大数据的金融风险分析方法及系统。
背景技术
金融市场复杂多变,各种类型的金融风险层出不穷,金融市场的参与者需要保持对金融市场中的各种信息随时保持高度的关注。然而,要从海量的市场信息中识别出影响金融风险的信息并对其进行定性分析和定量分析,单凭人力很难做到。随着计算机技术的发展,人们开始尝试使用计算机代替人力对金融风险进行分析,特别是一些金融机构会为自身或其客户建立金融风险分析系统,以期通过金融风险分析系统对金融市场中的各种信息进行收集分析,识别金融风险并以此为基础制定金融风险管理策略。
在传统的金融风险分析方法中,一般是预先设计多个层级的金融风险分析维度,基于收集到的信息对这些金融风险分析维度进行量化分析。对于一些对应的信息为客观数据的分析维度,如产量、成本、销售额、利润等,可以在进行简单的标准化处理后直接将其纳入到风险计算模型中进行相关金融风险系数计算。而对于一些对应的信息为主观数据的分析维度,例如舆情风险、企业文化风险等,需要采用量化手段对其进行量化。常见的量化有两种形式,一种是对目标对象的目标维度进行确定或否定的判断,并预先配置两个不同判断结果对应的风险计算分值;另一种是对目标对象的目标维度在一定分值范围内进行评分,一般是人工评分,目前也有采用计算机进行文字识别后自动进行评分的方案,但其对于所输入的信息的形式要求较高。
金融风险分析系统的数据来源比较常见的有三种,一种是企业自身提供并录入到系统中的数据,一种是通过合作的三方机构如电商平台等提供的数据接口所获取的数据,一种是利用数据采集工具从互联网采集的数,对于前两种数据,其一般已经按照金融风险分析系统整理为所需要的数据格式,可以直接输入到风险计算模型中进行相关金融风险系数计算,但其数据形式单一、数据量有限,据此得到的金融风险分析结果较为片面,对于第三种数据,由于数据来源较多,难以形成统一的数据格式,因此即便搜集到大量的有用信息,也需要人为进行整理才能进行分析,需要投入大量的人力,因此在实际应用中,仍然存在大量的金融市场信息无法在金融风险分析中得到有效的利用。
发明内容
本发明正是基于上述问题,提出了一种基于大数据的金融风险分析方法及系统,能够充分且有效地利用互联网大数据实现金融风险分析。
有鉴于此,本发明的第一方面提出了一种基于大数据的金融风险分析方法,包括:
从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
从所述目标数据的主体内容中提取文本数据;
对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
判断每个文本块的主题是否与金融风险相关;
将主题与金融风险相关的文本块确定为有效文本块;
确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析方法中,从所述目标数据的主体内容中提取文本数据的步骤具体包括:
从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析方法中,对同一目标数据中的文本数据进行聚类和重组的步骤具体包括:
将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
将所述段落主题列表与相应段落的段落标识进行关联存储;
计算所述段落主题列表两两之间的相似度;
将相似度大于预设的阈值的段落合并为一个文本块;
将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
为每一个文本块分配用于表征主题差异的文本块标识;
将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析方法中,将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括:
获取待合并的两个或两个以上的段落的段落标识;
根据所述段落标识读取所述两个或两个以的段落的主题列表;
生成文本块主题列表;
顺序读取所述两个或两个以的段落的主题列表中的主题词;
判读当前读取的主题词是否已存在于所述文本块主题列表中;
判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析方法中,计算所述段落主题列表两两之间的相似度的步骤具体包括:
定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=min(ni1,ni2);
当ni1<ni2时,k=ni1;
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=max(ni1,ni2);
当ni1>ni2时,k=ni1;
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
本发明的第二方面提出了一种基于大数据的金融风险分析系统,包括:
目标数据读取模块,用于从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
文本数据提取模块,用于从所述目标数据的主体内容中提取文本数据;
文本数据重组模块,用于对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
风险相关性判断模块,用于判断每个文本块的主题是否与金融风险相关;
有效文本块确定模块,用于将主题与金融风险相关的文本块确定为有效文本块;
分析要素确定模块,用于确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
文本单元分解模块,用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
计量权重确定模块,用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
指标模型参数输入模块,用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据提取模块具体包括:
主体内容识别模块,用于从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
文本识别模块,用于对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
文本格式化模块,用于根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
段落标识分配模块,用于按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据重组模块具体包括:
主题模型参数输入模块,用于将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
段落主题列表存储模块,用于将所述段落主题列表与相应段落的段落标识进行关联存储;
列表相似度计算模块,用于计算所述段落主题列表两两之间的相似度;
段落合并模块,用于将相似度大于预设的阈值的段落合并为一个文本块;
列表合并模块,用于将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
文本块标识分配模块,用于为每一个文本块分配用于表征主题差异的文本块标识;
文本块主题列表存储模块,用于将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表合并模块具体包括:
段落标识获取模块,用于获取待合并的两个或两个以上的段落的段落标识;
主题列表读取模块,用于根据所述段落标识读取所述两个或两个以的段落的主题列表;
文本块主题列表生成模块,用于生成文本块主题列表;
主题词读取模块,用于顺序读取所述两个或两个以的段落的主题列表中的主题词;
主题词存在性判断模块,用于判读当前读取的主题词是否已存在于所述文本块主题列表中;
循环执行模块,用于在判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
主题词写入模块,用于在判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表相似度计算模块具体包括:
第一变量定义模块,用于定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第二变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=min(ni1,ni2);
第一数组维度赋值模块,用于当ni1<ni2时,k=ni1;
第一相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第三变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=max(ni1,ni2);
第二数组维度赋值模块,用于当ni1>ni2时,k=ni1;
第二相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
本发明提出了一种基于大数据的金融风险分析方法及系统,通过从指定地址读取目标数据以提取文本数据,对同一目标数据中的文本数据进行聚类和重组以生成一个或多个分别对应不同主题的文本块,将主题与金融风险相关的文本块确定为有效文本块,确定所述有效文本块相关的金融风险分析要素,将所述有效文本块分解为多个文本单元使得每个所述文本单元对应一个金融风险分析要素,将对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重,将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析,能够充分且有效地利用互联网大数据实现金融风险分析。
附图说明
图1是本发明一个实施例提供的一种基于大数据的金融风险分析方法的流程图;
图2是本发明一个实施例提供的一种基于大数据的金融风险分析系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本说明书的描述中,术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
下面参照附图来描述根据本发明一些实施方式提供的一种基于大数据的金融风险分析方法及系统。
如图1所示,本发明的第一方面提供一种基于大数据的金融风险分析方法,包括:
从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
从所述目标数据的主体内容中提取文本数据;
对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
判断每个文本块的主题是否与金融风险相关;
将主题与金融风险相关的文本块确定为有效文本块;
确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析方法中,所述量化要素包括成本、销售额、利润、销量、股价,所述可量化要素包括人才加盟、高官离职、竞品发布、市场开拓。
进一步的,在上述的基于大数据的金融风险分析方法中,所述文本单元为两个标点符号间具有完整语义的语句,所述标点符号包括逗号、分号、句号。
进一步的,在上述的基于大数据的金融风险分析方法中,所述目标数据为静态页面数据或动态页面数据,所述静态页面数据的页面类型包括htm、html、dhtml、xhtml、shtm、shtml中一种或多种,所述动态页面数据的页面类型包括asp、jsp、php、aspx、jspx、cgi中一种或多种。
进一步的,在上述的基于大数据的金融风险分析方法中,从所述目标数据的主体内容中提取文本数据的步骤具体包括:
从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析方法中,所述文本内容包括段落文本、按钮文本、标签文本、列表文本、表格文本以及其它控件文本,所述非文本内容包括表格文本、列表文本、字幕文本以及标注文本,根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据的步骤具体包括:
按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句;
根据语义的关联性将生成的语句划分为段落。
进一步的,在上述的基于大数据的金融风险分析方法中,按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句的步骤具体包括:
从所述文本内容中识别文章属性文本,所述文章属性文本包括作者、发布日期、标题以及发布网站;
将所述文章属性文本重构为完整语句,所述完整语句的名式为“作者”在“发布日期”将标题为“标题”的文章发布在“发布网站”。
例如文章头部或者尾部的作者、发表时期时间标记语句化后为:XXX在2022年1月1日将本文《文章标题》发表在XXX网站。
进一步的,在上述的基于大数据的金融风险分析方法中,按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句的步骤具体包括:
从所述表格文本中识别表格属性文本以及表格内容文本,所述表格属性文本包括表格标题文本、表格副标题文本以及表格标注文本,所述表格内容文本包括字段名称文本以及字段值文本,所述字段名称文本包括横向字段名称文本以及纵向字段名称文本;
生成对应每一个字段值文本的名称、值的键值对,所述键值对为“横向字段名称文本,纵向字段名称文本,字段值文本”、“横向字段名称文本,字段值文本”或者“纵向字段名称文本,字段值文本”中的一种;
根据所述表格属性文本将每一个所述键值对重构为完整语句。
例如表格标题为XX公司2022年第一季度,表格中包含“销售额:100”,字段名称中包含“/万元人民币”,转为语句:XX公司2022年第一季度的销售额为100万元人民币,又例如从某社交平台上获取的“XX公司的CEO XXX”和“XXX宣布即将就XX技术开发新的产品”重组为“XX公司的CEO XXX宣布即将就XX技术开发新的产品”。
进一步的,在上述的基于大数据的金融风险分析方法中,对同一目标数据中的文本数据进行聚类和重组的步骤具体包括:
将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
将所述段落主题列表与相应段落的段落标识进行关联存储;
计算所述段落主题列表两两之间的相似度;
将相似度大于预设的阈值的段落合并为一个文本块;
将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
为每一个文本块分配用于表征主题差异的文本块标识;
将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析方法中,将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括:
获取待合并的两个或两个以上的段落的段落标识;
根据所述段落标识读取所述两个或两个以的段落的主题列表;
生成文本块主题列表;
顺序读取所述两个或两个以的段落的主题列表中的主题词;
判读当前读取的主题词是否已存在于所述文本块主题列表中;
判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析方法中,所述主题生成模型为隐含狄利克雷分布模型。
进一步的,在上述的基于大数据的金融风险分析方法中,计算所述段落主题列表两两之间的相似度的步骤具体包括:
定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=min(ni1,ni2);
当ni1<ni2时,k=ni1;
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=max(ni1,ni2);
当ni1>ni2时,k=ni1;
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
进一步的,在上述的基于大数据的金融风险分析方法中,所述词向量模型为使用中文维基百科作为中文语料库以及使用英文维基百科作为英文语料库进行训练得到的中英文双语模型。
进一步的,在上述的基于大数据的金融风险分析方法中,判断每个文本块的主题是否与金融风险相关的步骤具体包括:
读取文本块对应的文本块主题列表;
读取预先配置的金融风险关键词列表;
将所述文本块主题列表中的每个主题词与所述金融风险关键词列表的每个主题词两两输入预先训练好的词向量模型中计算两者之间的相似度;
当所述文本块主题列表中的任一主题词与所述金融风险关键词列表的任一主题词之间的相似度大于预设的阈值时,确定所述文本块的主题与金融风险相关。
进一步的,在上述的基于大数据的金融风险分析方法中,将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析的步骤具体包括:
对所述文本单元进行分词处理得到多个关键词;
生成对应所述关键词的词向量序列;
将所述词向量序列以及所述计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型;
输出所述金融风险分析指标的金融风险评分。
进一步的,在上述的基于大数据的金融风险分析方法中,所述金融风险分析指标模型包括多要素分析指标的分析模型,当所述目标数据中的文本单元所涉及的金融风险分析要素不足以完成所述多要素分析指标的金融风险分析时,从所述指定地址获取关联数据与所述目标数据合并后进行共同分析。
进一步的,在上述的基于大数据的金融风险分析方法中,在从指定地址读取目标数据的步骤之前,还包括:
获取预先配置的所述目标地址的可信度评价信息;
根据所述可信度评价信息确定是否执行从指定地址读取目标数据的步骤。
进一步的,在上述的基于大数据的金融风险分析方法中,在对同一目标数据中的文本数据进行聚类和重组的步骤之前,还包括:
获取待评价金融风险的主体对象信息;
判断所述目标数据与所述主体对象的关联性;
根据所述目标数据与所述主体对象的关联性确定是否执行对同一目标数据中的文本数据进行聚类和重组的步骤。
如图2所示,本发明的第二方面提供一种基于大数据的金融风险分析系统,包括:
目标数据读取模块,用于从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
文本数据提取模块,用于从所述目标数据的主体内容中提取文本数据;
文本数据重组模块,用于对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
风险相关性判断模块,用于判断每个文本块的主题是否与金融风险相关;
有效文本块确定模块,用于将主题与金融风险相关的文本块确定为有效文本块;
分析要素确定模块,用于确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
文本单元分解模块,用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
计量权重确定模块,用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
指标模型参数输入模块,用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析系统中,所述量化要素包括成本、销售额、利润、销量、股价,所述可量化要素包括人才加盟、高官离职、竞品发布、市场开拓。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本单元为两个标点符号间具有完整语义的语句,所述标点符号包括逗号、分号、句号。
进一步的,在上述的基于大数据的金融风险分析系统中,所述目标数据为静态页面数据或动态页面数据,所述静态页面数据的页面类型包括htm、html、dhtml、xhtml、shtm、shtml中一种或多种,所述动态页面数据的页面类型包括asp、jsp、php、aspx、jspx、cgi中一种或多种。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据提取模块具体包括:
主体内容识别模块,用于从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
文本识别模块,用于对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
文本格式化模块,用于根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
段落标识分配模块,用于按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本内容包括段落文本、按钮文本、标签文本、列表文本、表格文本以及其它控件文本,所述非文本内容包括表格文本、列表文本、字幕文本以及标注文本,所述文本格式化模块具体包括:
完整语句生成模块,用于按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句;
段落划分模块,用于根据语义的关联性将生成的语句划分为段落。
进一步的,在上述的基于大数据的金融风险分析系统中,所述完整语句生成模块具体包括:
文章属性文本识别模块,用于从所述文本内容中识别文章属性文本,所述文章属性文本包括作者、发布日期、标题以及发布网站;
完整语句重构模块,用于将所述文章属性文本重构为完整语句,所述完整语句的名式为“作者”在“发布日期”将标题为“标题”的文章发布在“发布网站”。
例如文章头部或者尾部的作者、发表时期时间标记语句化后为:XXX在2022年1月1日将本文《文章标题》发表在XXX网站。
进一步的,在上述的基于大数据的金融风险分析系统中,所述完整语句生成模块具体包括:
表格文本识别模块,用于从所述表格文本中识别表格属性文本以及表格内容文本,所述表格属性文本包括表格标题文本、表格副标题文本以及表格标注文本,所述表格内容文本包括字段名称文本以及字段值文本,所述字段名称文本包括横向字段名称文本以及纵向字段名称文本;
键值对生成模块,用于生成对应每一个字段值文本的名称、值的键值对,所述键值对为“横向字段名称文本,纵向字段名称文本,字段值文本”、“横向字段名称文本,字段值文本”或者“纵向字段名称文本,字段值文本”中的一种;
完整语句重构模块,用于根据所述表格属性文本将每一个所述键值对重构为完整语句。
例如表格标题为XX公司2022年第一季度,表格中包含“销售额:100”,字段名称中包含“/万元人民币”,转为语句:XX公司2022年第一季度的销售额为100万元人民币,又例如从某社交平台上获取的“XX公司的CEO XXX”和“XXX宣布即将就XX技术开发新的产品”重组为“XX公司的CEO XXX宣布即将就XX技术开发新的产品”。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据重组模块具体包括:
主题模型参数输入模块,用于将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
段落主题列表存储模块,用于将所述段落主题列表与相应段落的段落标识进行关联存储;
列表相似度计算模块,用于计算所述段落主题列表两两之间的相似度;
段落合并模块,用于将相似度大于预设的阈值的段落合并为一个文本块;
列表合并模块,用于将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
文本块标识分配模块,用于为每一个文本块分配用于表征主题差异的文本块标识;
文本块主题列表存储模块,用于将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表合并模块具体包括:
段落标识获取模块,用于获取待合并的两个或两个以上的段落的段落标识;
主题列表读取模块,用于根据所述段落标识读取所述两个或两个以的段落的主题列表;
文本块主题列表生成模块,用于生成文本块主题列表;
主题词读取模块,用于顺序读取所述两个或两个以的段落的主题列表中的主题词;
主题词存在性判断模块,用于判读当前读取的主题词是否已存在于所述文本块主题列表中;
循环执行模块,用于在判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
主题词写入模块,用于在判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析系统中,所述主题生成模型为隐含狄利克雷分布模型。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表相似度计算模块具体包括:
第一变量定义模块,用于定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第二变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=min(ni1,ni2);
第一数组维度赋值模块,用于当ni1<ni2时,k=ni1;
第一相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第三变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=max(ni1,ni2);
第二数组维度赋值模块,用于当ni1>ni2时,k=ni1;
第二相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
进一步的,在上述的基于大数据的金融风险分析系统中,所述词向量模型为使用中文维基百科作为中文语料库以及使用英文维基百科作为英文语料库进行训练得到的中英文双语模型。
进一步的,在上述的基于大数据的金融风险分析系统中,所述风险相关性判断模块具体包括:
文本块主题列表读取模块,用于读取文本块对应的文本块主题列表;
金融风险关键词列表读取模块,用于读取预先配置的金融风险关键词列表;
第三向量模型参数输入模块,用于将所述文本块主题列表中的每个主题词与所述金融风险关键词列表的每个主题词两两输入预先训练好的词向量模型中计算两者之间的相似度;
风险相关性确定模块,用于当所述文本块主题列表中的任一主题词与所述金融风险关键词列表的任一主题词之间的相似度大于预设的阈值时,确定所述文本块的主题与金融风险相关。
进一步的,在上述的基于大数据的金融风险分析系统中,所述指标模型参数输入模块具体包括:
分词处理模块,用于对所述文本单元进行分词处理得到多个关键词;
词向量序列生成模块,用于生成对应所述关键词的词向量序列;
参数输入模块,用于将所述词向量序列以及所述计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型;
风险评分输出模块,用于输出所述金融风险分析指标的金融风险评分。
进一步的,在上述的基于大数据的金融风险分析系统中,所述金融风险分析指标模型包括多要素分析指标的分析模型,当所述目标数据中的文本单元所涉及的金融风险分析要素不足以完成所述多要素分析指标的金融风险分析时,从所述指定地址获取关联数据与所述目标数据合并后进行共同分析。
进一步的,在上述的基于大数据的金融风险分析系统中,还包括:
可信度评价信息获取模块,用于获取预先配置的所述目标地址的可信度评价信息;
第一执行判断模块,用于根据所述可信度评价信息确定是否执行从指定地址读取目标数据的步骤。
进一步的,在上述的基于大数据的金融风险分析系统中,还包括:
主体对像信息获取模块,用于获取待评价金融风险的主体对象信息;
对象关联性判断模块,用于判断所述目标数据与所述主体对象的关联性;
第二执行判断模块,用于根据所述目标数据与所述主体对象的关联性确定是否执行对同一目标数据中的文本数据进行聚类和重组的步骤。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。显然,根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种基于大数据的金融风险分析方法,其特征在于,包括:
从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
从所述目标数据的主体内容中提取文本数据;
对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
判断每个文本块的主题是否与金融风险相关;
将主题与金融风险相关的文本块确定为有效文本块;
确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
2.根据权利要求1所述的基于大数据的金融风险分析方法,其特征在于,从所述目标数据的主体内容中提取文本数据的步骤具体包括:
从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
3.根据权利要求2所述的基于大数据的金融风险分析方法,其特征在于,对同一目标数据中的文本数据进行聚类和重组的步骤具体包括:
将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
将所述段落主题列表与相应段落的段落标识进行关联存储;
计算所述段落主题列表两两之间的相似度;
将相似度大于预设的阈值的段落合并为一个文本块;
将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
为每一个文本块分配用于表征主题差异的文本块标识;
将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
4.根据权利要求3所述的基于大数据的金融风险分析方法,其特征在于,将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括:
获取待合并的两个或两个以上的段落的段落标识;
根据所述段落标识读取所述两个或两个以的段落的主题列表;
生成文本块主题列表;
顺序读取所述两个或两个以的段落的主题列表中的主题词;
判读当前读取的主题词是否已存在于所述文本块主题列表中;
判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
判断为否时,将当前读取的主题词写入所述文本块主题列表中。
6.根据权利要求5所述的基于大数据的金融风险分析方法,其特征在于,使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=min(ni1,ni2);
当ni1<ni2时,k=ni1;
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
k=max(ni1,ni2);
当ni1>ni2时,k=ni1;
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
10.一种基于大数据的金融风险分析系统,其特征在于,包括:
目标数据读取模块,用于从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
文本数据提取模块,用于从所述目标数据的主体内容中提取文本数据;
文本数据重组模块,用于对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
风险相关性判断模块,用于判断每个文本块的主题是否与金融风险相关;
有效文本块确定模块,用于将主题与金融风险相关的文本块确定为有效文本块;
分析要素确定模块,用于确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
文本单元分解模块,用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
计量权重确定模块,用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
指标模型参数输入模块,用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310305221.9A CN116308758B (zh) | 2023-03-20 | 2023-03-20 | 一种基于大数据的金融风险分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310305221.9A CN116308758B (zh) | 2023-03-20 | 2023-03-20 | 一种基于大数据的金融风险分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116308758A true CN116308758A (zh) | 2023-06-23 |
CN116308758B CN116308758B (zh) | 2024-01-05 |
Family
ID=86828561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310305221.9A Active CN116308758B (zh) | 2023-03-20 | 2023-03-20 | 一种基于大数据的金融风险分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116308758B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777634A (zh) * | 2023-06-25 | 2023-09-19 | 深圳征信服务有限公司 | 一种基于人工智能的金融数据分析系统及方法 |
CN118093849A (zh) * | 2024-04-26 | 2024-05-28 | 杭州数云信息技术有限公司 | 对话方法及装置、存储介质、终端、计算机程序产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471934A (zh) * | 2018-10-09 | 2019-03-15 | 杭州安恒信息技术股份有限公司 | 基于互联网的金融风险线索发掘方法 |
CN110134948A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 一种基于文本数据的金融风险控制方法、装置和电子设备 |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN112348662A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于用户职业预测的风险评估方法、装置和电子设备 |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及系统 |
KR20210082880A (ko) * | 2019-12-26 | 2021-07-06 | 주식회사 하나금융티아이 | 주제 키워드 기반 투자 유니버스 구성 방법 및 시스템 |
CN113743111A (zh) * | 2020-08-25 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 基于文本预训练和多任务学习的金融风险预测方法及装置 |
CN114549154A (zh) * | 2022-01-28 | 2022-05-27 | 南京科融数据系统股份有限公司 | 一种金融数据预警方法及系统 |
CN114936282A (zh) * | 2022-04-28 | 2022-08-23 | 北京中科闻歌科技股份有限公司 | 金融风险线索确定方法、装置、设备和介质 |
CN115393094A (zh) * | 2022-08-22 | 2022-11-25 | 广东省华南技术转移中心有限公司 | 预测模型的训练方法、数据分析方法、装置以及介质 |
-
2023
- 2023-03-20 CN CN202310305221.9A patent/CN116308758B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN109471934A (zh) * | 2018-10-09 | 2019-03-15 | 杭州安恒信息技术股份有限公司 | 基于互联网的金融风险线索发掘方法 |
CN110134948A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 一种基于文本数据的金融风险控制方法、装置和电子设备 |
KR20210082880A (ko) * | 2019-12-26 | 2021-07-06 | 주식회사 하나금융티아이 | 주제 키워드 기반 투자 유니버스 구성 방법 및 시스템 |
CN113743111A (zh) * | 2020-08-25 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 基于文本预训练和多任务学习的金融风险预测方法及装置 |
CN112348662A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于用户职业预测的风险评估方法、装置和电子设备 |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及系统 |
CN114549154A (zh) * | 2022-01-28 | 2022-05-27 | 南京科融数据系统股份有限公司 | 一种金融数据预警方法及系统 |
CN114936282A (zh) * | 2022-04-28 | 2022-08-23 | 北京中科闻歌科技股份有限公司 | 金融风险线索确定方法、装置、设备和介质 |
CN115393094A (zh) * | 2022-08-22 | 2022-11-25 | 广东省华南技术转移中心有限公司 | 预测模型的训练方法、数据分析方法、装置以及介质 |
Non-Patent Citations (2)
Title |
---|
AKIB MASHRUR: "Machine Learning for Financial Risk Management: A Survey", 《ACCESS》, no. 8, pages 203203 - 203223, XP011820709, DOI: 10.1109/ACCESS.2020.3036322 * |
王小楠,黄卫东: "基于类别主题词集的加权相似度短文本分类", 《计算机技术与发展》, vol. 32, no. 9, pages 95 - 99 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777634A (zh) * | 2023-06-25 | 2023-09-19 | 深圳征信服务有限公司 | 一种基于人工智能的金融数据分析系统及方法 |
CN116777634B (zh) * | 2023-06-25 | 2024-06-11 | 深圳征信服务有限公司 | 一种基于人工智能的金融数据分析系统及方法 |
CN118093849A (zh) * | 2024-04-26 | 2024-05-28 | 杭州数云信息技术有限公司 | 对话方法及装置、存储介质、终端、计算机程序产品 |
CN118093849B (zh) * | 2024-04-26 | 2024-08-06 | 杭州数云信息技术有限公司 | 对话方法及装置、存储介质、终端、计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN116308758B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jou et al. | Visual affect around the world: A large-scale multilingual visual sentiment ontology | |
CN116308758B (zh) | 一种基于大数据的金融风险分析方法及系统 | |
Heckner et al. | Tagging tagging. Analysing user keywords in scientific bibliography management systems | |
Mahlberg | Corpus linguistics and the study of nineteenth-century fiction | |
US20150324459A1 (en) | Method and apparatus to build a common classification system across multiple content entities | |
US11023503B2 (en) | Suggesting text in an electronic document | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
Adrian et al. | Contag: A semantic tag recommendation system | |
Zuccala et al. | A machine‐learning approach to coding book reviews as quality indicators: Toward a theory of megacitation | |
Cabrera-Diego et al. | Ranking résumés automatically using only résumés: A method free of job offers | |
Przybyła et al. | When classification accuracy is not enough: Explaining news credibility assessment | |
Brugman et al. | Nederlab: Towards a single portal and research environment for diachronic Dutch text corpora | |
Zhang et al. | Examining differences among book reviews from various online platforms | |
Rebora et al. | Robert Musil, a war journal, and stylometry: Tackling the issue of short texts in authorship attribution | |
US20190295110A1 (en) | Performance analytics system for scripted media | |
Gupta et al. | A two-staged NLP-based framework for assessing the sentiments on Indian supreme court judgments | |
Qumsiyeh et al. | Searching web documents using a summarization approach | |
Burghardt et al. | Same same, but different? On the Relation of Information Science and the Digital Humanities A Scientometric Comparison of Academic Journals Using LDA and Hierarchical Clustering | |
Álvarez Carmona et al. | Author profiling in social media with multimodal information | |
Bizzoni et al. | Predicting Literary Quality How Perspectivist Should We Be? | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
CN114564956A (zh) | 一种细粒度属性自动提取的用户评论文本情感挖掘模型 | |
dos Santos et al. | Annotation of a corpus of tweets for sentiment analysis | |
Cipriani | Innovation of Digital Stylistics in Literary Translation Studies | |
Tannous et al. | TSHD: Topic Segmentation Based on Headings Detection (Case Study: Resumes) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |