CN116308758A - 一种基于大数据的金融风险分析方法及系统 - Google Patents

一种基于大数据的金融风险分析方法及系统 Download PDF

Info

Publication number
CN116308758A
CN116308758A CN202310305221.9A CN202310305221A CN116308758A CN 116308758 A CN116308758 A CN 116308758A CN 202310305221 A CN202310305221 A CN 202310305221A CN 116308758 A CN116308758 A CN 116308758A
Authority
CN
China
Prior art keywords
text
financial risk
risk analysis
paragraph
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310305221.9A
Other languages
English (en)
Other versions
CN116308758B (zh
Inventor
刘振
韩凤娟
胡煜
蔡志彬
卢威谕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Credit Investigation Service Co ltd
Original Assignee
Shenzhen Credit Investigation Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Credit Investigation Service Co ltd filed Critical Shenzhen Credit Investigation Service Co ltd
Priority to CN202310305221.9A priority Critical patent/CN116308758B/zh
Publication of CN116308758A publication Critical patent/CN116308758A/zh
Application granted granted Critical
Publication of CN116308758B publication Critical patent/CN116308758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于大数据的金融风险分析方法及系统,通过从指定地址读取目标数据以提取文本数据,对同一目标数据中的文本数据进行聚类和重组以生成一个或多个分别对应不同主题的文本块,将主题与金融风险相关的文本块确定为有效文本块,确定所述有效文本块相关的金融风险分析要素,将所述有效文本块分解为多个文本单元使得每个所述文本单元对应一个金融风险分析要素,将对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重,将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析,能够充分且有效地利用互联网大数据实现金融风险分析。

Description

一种基于大数据的金融风险分析方法及系统
技术领域
本发明涉及互联网技术领域,特别涉及一种基于大数据的金融风险分析方法及系统。
背景技术
金融市场复杂多变,各种类型的金融风险层出不穷,金融市场的参与者需要保持对金融市场中的各种信息随时保持高度的关注。然而,要从海量的市场信息中识别出影响金融风险的信息并对其进行定性分析和定量分析,单凭人力很难做到。随着计算机技术的发展,人们开始尝试使用计算机代替人力对金融风险进行分析,特别是一些金融机构会为自身或其客户建立金融风险分析系统,以期通过金融风险分析系统对金融市场中的各种信息进行收集分析,识别金融风险并以此为基础制定金融风险管理策略。
在传统的金融风险分析方法中,一般是预先设计多个层级的金融风险分析维度,基于收集到的信息对这些金融风险分析维度进行量化分析。对于一些对应的信息为客观数据的分析维度,如产量、成本、销售额、利润等,可以在进行简单的标准化处理后直接将其纳入到风险计算模型中进行相关金融风险系数计算。而对于一些对应的信息为主观数据的分析维度,例如舆情风险、企业文化风险等,需要采用量化手段对其进行量化。常见的量化有两种形式,一种是对目标对象的目标维度进行确定或否定的判断,并预先配置两个不同判断结果对应的风险计算分值;另一种是对目标对象的目标维度在一定分值范围内进行评分,一般是人工评分,目前也有采用计算机进行文字识别后自动进行评分的方案,但其对于所输入的信息的形式要求较高。
金融风险分析系统的数据来源比较常见的有三种,一种是企业自身提供并录入到系统中的数据,一种是通过合作的三方机构如电商平台等提供的数据接口所获取的数据,一种是利用数据采集工具从互联网采集的数,对于前两种数据,其一般已经按照金融风险分析系统整理为所需要的数据格式,可以直接输入到风险计算模型中进行相关金融风险系数计算,但其数据形式单一、数据量有限,据此得到的金融风险分析结果较为片面,对于第三种数据,由于数据来源较多,难以形成统一的数据格式,因此即便搜集到大量的有用信息,也需要人为进行整理才能进行分析,需要投入大量的人力,因此在实际应用中,仍然存在大量的金融市场信息无法在金融风险分析中得到有效的利用。
发明内容
本发明正是基于上述问题,提出了一种基于大数据的金融风险分析方法及系统,能够充分且有效地利用互联网大数据实现金融风险分析。
有鉴于此,本发明的第一方面提出了一种基于大数据的金融风险分析方法,包括:
从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
从所述目标数据的主体内容中提取文本数据;
对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
判断每个文本块的主题是否与金融风险相关;
将主题与金融风险相关的文本块确定为有效文本块;
确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析方法中,从所述目标数据的主体内容中提取文本数据的步骤具体包括:
从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析方法中,对同一目标数据中的文本数据进行聚类和重组的步骤具体包括:
将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
将所述段落主题列表与相应段落的段落标识进行关联存储;
计算所述段落主题列表两两之间的相似度;
将相似度大于预设的阈值的段落合并为一个文本块;
将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
为每一个文本块分配用于表征主题差异的文本块标识;
将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析方法中,将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括:
获取待合并的两个或两个以上的段落的段落标识;
根据所述段落标识读取所述两个或两个以的段落的主题列表;
生成文本块主题列表;
顺序读取所述两个或两个以的段落的主题列表中的主题词;
判读当前读取的主题词是否已存在于所述文本块主题列表中;
判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析方法中,计算所述段落主题列表两两之间的相似度的步骤具体包括:
定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000031
其中i1≠i2
进一步的,在上述的基于大数据的金融风险分析方法中,使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000041
的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
定义相似度静态数组
Figure BDA0004146528730000042
其中:
k=min(ni1,ni2);
将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA0004146528730000043
当ni1<ni2时,k=ni1
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA0004146528730000044
从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA0004146528730000045
的第j1个子元素:
Figure BDA0004146528730000046
根据所述相似度静态数组
Figure BDA0004146528730000047
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000048
进一步的,在上述的基于大数据的金融风险分析方法中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000049
与所述相似度静态数组
Figure BDA00041465287300000410
的关系满足:
Figure BDA00041465287300000411
进一步的,在上述的基于大数据的金融风险分析方法中,计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA00041465287300000412
的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
定义相似度静态数组
Figure BDA00041465287300000413
其中:
k=max(ni1,ni2);
将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA0004146528730000051
当ni1>ni2时,k=ni1
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA0004146528730000052
从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA0004146528730000053
的第j1个子元素:
Figure BDA0004146528730000054
根据所述相似度静态数组
Figure BDA0004146528730000055
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000056
进一步的,在上述的基于大数据的金融风险分析方法中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000057
与所述相似度静态数组
Figure BDA0004146528730000058
的关系满足:
Figure BDA0004146528730000059
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
Figure BDA00041465287300000510
本发明的第二方面提出了一种基于大数据的金融风险分析系统,包括:
目标数据读取模块,用于从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
文本数据提取模块,用于从所述目标数据的主体内容中提取文本数据;
文本数据重组模块,用于对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
风险相关性判断模块,用于判断每个文本块的主题是否与金融风险相关;
有效文本块确定模块,用于将主题与金融风险相关的文本块确定为有效文本块;
分析要素确定模块,用于确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
文本单元分解模块,用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
计量权重确定模块,用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
指标模型参数输入模块,用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据提取模块具体包括:
主体内容识别模块,用于从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
文本识别模块,用于对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
文本格式化模块,用于根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
段落标识分配模块,用于按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据重组模块具体包括:
主题模型参数输入模块,用于将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
段落主题列表存储模块,用于将所述段落主题列表与相应段落的段落标识进行关联存储;
列表相似度计算模块,用于计算所述段落主题列表两两之间的相似度;
段落合并模块,用于将相似度大于预设的阈值的段落合并为一个文本块;
列表合并模块,用于将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
文本块标识分配模块,用于为每一个文本块分配用于表征主题差异的文本块标识;
文本块主题列表存储模块,用于将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表合并模块具体包括:
段落标识获取模块,用于获取待合并的两个或两个以上的段落的段落标识;
主题列表读取模块,用于根据所述段落标识读取所述两个或两个以的段落的主题列表;
文本块主题列表生成模块,用于生成文本块主题列表;
主题词读取模块,用于顺序读取所述两个或两个以的段落的主题列表中的主题词;
主题词存在性判断模块,用于判读当前读取的主题词是否已存在于所述文本块主题列表中;
循环执行模块,用于在判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
主题词写入模块,用于在判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表相似度计算模块具体包括:
第一变量定义模块,用于定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
遍历计算模块,用于使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000071
其中i1≠i2
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第二变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
第一数组定义模块,用于定义相似度静态数组
Figure BDA0004146528730000072
其中:
k=min(ni1,ni2);
第一向量模型参数输入模块,用于将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA0004146528730000073
第一数组维度赋值模块,用于当ni1<ni2时,k=ni1
第一相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA0004146528730000074
第一数组元素赋值模块,用于从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA0004146528730000081
的第j1个子元素:
Figure BDA0004146528730000082
第一相似度计算模块,用于根据所述相似度静态数组
Figure BDA0004146528730000083
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000084
进一步的,在上述的基于大数据的金融风险分析系统中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000085
与所述相似度静态数组
Figure BDA0004146528730000086
的关系满足:
Figure BDA0004146528730000087
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第三变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
第二数组定义模块,用于定义相似度静态数组
Figure BDA0004146528730000088
其中:
k=max(ni1,ni2);
第二向量模型参数输入模块,用于将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA0004146528730000089
第二数组维度赋值模块,用于当ni1>ni2时,k=ni1
第二相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA00041465287300000810
第二数组元素赋值模块,用于从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA00041465287300000811
的第j1个子元素:
Figure BDA00041465287300000812
第二相似度计算模块,用于根据所述相似度静态数组
Figure BDA00041465287300000813
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA00041465287300000814
进一步的,在上述的基于大数据的金融风险分析系统中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000091
与所述相似度静态数组
Figure BDA0004146528730000092
的关系满足:
Figure BDA0004146528730000093
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
Figure BDA0004146528730000094
本发明提出了一种基于大数据的金融风险分析方法及系统,通过从指定地址读取目标数据以提取文本数据,对同一目标数据中的文本数据进行聚类和重组以生成一个或多个分别对应不同主题的文本块,将主题与金融风险相关的文本块确定为有效文本块,确定所述有效文本块相关的金融风险分析要素,将所述有效文本块分解为多个文本单元使得每个所述文本单元对应一个金融风险分析要素,将对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重,将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析,能够充分且有效地利用互联网大数据实现金融风险分析。
附图说明
图1是本发明一个实施例提供的一种基于大数据的金融风险分析方法的流程图;
图2是本发明一个实施例提供的一种基于大数据的金融风险分析系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本说明书的描述中,术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
下面参照附图来描述根据本发明一些实施方式提供的一种基于大数据的金融风险分析方法及系统。
如图1所示,本发明的第一方面提供一种基于大数据的金融风险分析方法,包括:
从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
从所述目标数据的主体内容中提取文本数据;
对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
判断每个文本块的主题是否与金融风险相关;
将主题与金融风险相关的文本块确定为有效文本块;
确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析方法中,所述量化要素包括成本、销售额、利润、销量、股价,所述可量化要素包括人才加盟、高官离职、竞品发布、市场开拓。
进一步的,在上述的基于大数据的金融风险分析方法中,所述文本单元为两个标点符号间具有完整语义的语句,所述标点符号包括逗号、分号、句号。
进一步的,在上述的基于大数据的金融风险分析方法中,所述目标数据为静态页面数据或动态页面数据,所述静态页面数据的页面类型包括htm、html、dhtml、xhtml、shtm、shtml中一种或多种,所述动态页面数据的页面类型包括asp、jsp、php、aspx、jspx、cgi中一种或多种。
进一步的,在上述的基于大数据的金融风险分析方法中,从所述目标数据的主体内容中提取文本数据的步骤具体包括:
从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析方法中,所述文本内容包括段落文本、按钮文本、标签文本、列表文本、表格文本以及其它控件文本,所述非文本内容包括表格文本、列表文本、字幕文本以及标注文本,根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据的步骤具体包括:
按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句;
根据语义的关联性将生成的语句划分为段落。
进一步的,在上述的基于大数据的金融风险分析方法中,按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句的步骤具体包括:
从所述文本内容中识别文章属性文本,所述文章属性文本包括作者、发布日期、标题以及发布网站;
将所述文章属性文本重构为完整语句,所述完整语句的名式为“作者”在“发布日期”将标题为“标题”的文章发布在“发布网站”。
例如文章头部或者尾部的作者、发表时期时间标记语句化后为:XXX在2022年1月1日将本文《文章标题》发表在XXX网站。
进一步的,在上述的基于大数据的金融风险分析方法中,按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句的步骤具体包括:
从所述表格文本中识别表格属性文本以及表格内容文本,所述表格属性文本包括表格标题文本、表格副标题文本以及表格标注文本,所述表格内容文本包括字段名称文本以及字段值文本,所述字段名称文本包括横向字段名称文本以及纵向字段名称文本;
生成对应每一个字段值文本的名称、值的键值对,所述键值对为“横向字段名称文本,纵向字段名称文本,字段值文本”、“横向字段名称文本,字段值文本”或者“纵向字段名称文本,字段值文本”中的一种;
根据所述表格属性文本将每一个所述键值对重构为完整语句。
例如表格标题为XX公司2022年第一季度,表格中包含“销售额:100”,字段名称中包含“/万元人民币”,转为语句:XX公司2022年第一季度的销售额为100万元人民币,又例如从某社交平台上获取的“XX公司的CEO XXX”和“XXX宣布即将就XX技术开发新的产品”重组为“XX公司的CEO XXX宣布即将就XX技术开发新的产品”。
进一步的,在上述的基于大数据的金融风险分析方法中,对同一目标数据中的文本数据进行聚类和重组的步骤具体包括:
将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
将所述段落主题列表与相应段落的段落标识进行关联存储;
计算所述段落主题列表两两之间的相似度;
将相似度大于预设的阈值的段落合并为一个文本块;
将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
为每一个文本块分配用于表征主题差异的文本块标识;
将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析方法中,将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括:
获取待合并的两个或两个以上的段落的段落标识;
根据所述段落标识读取所述两个或两个以的段落的主题列表;
生成文本块主题列表;
顺序读取所述两个或两个以的段落的主题列表中的主题词;
判读当前读取的主题词是否已存在于所述文本块主题列表中;
判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析方法中,所述主题生成模型为隐含狄利克雷分布模型。
进一步的,在上述的基于大数据的金融风险分析方法中,计算所述段落主题列表两两之间的相似度的步骤具体包括:
定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000131
其中i1≠i2
进一步的,在上述的基于大数据的金融风险分析方法中,使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000132
的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
定义相似度静态数组
Figure BDA0004146528730000133
其中:
k=min(ni1,ni2);
将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA0004146528730000134
当ni1<ni2时,k=ni1
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA0004146528730000141
从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA0004146528730000142
的第j1个子元素:
Figure BDA0004146528730000143
根据所述相似度静态数组
Figure BDA0004146528730000144
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000145
进一步的,在上述的基于大数据的金融风险分析方法中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000146
与所述相似度静态数组
Figure BDA0004146528730000147
的关系满足:
Figure BDA0004146528730000148
进一步的,在上述的基于大数据的金融风险分析方法中,计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000149
的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
定义相似度静态数组
Figure BDA00041465287300001410
其中:
k=max(ni1,ni2);
将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA00041465287300001411
当ni1>ni2时,k=ni1
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA00041465287300001412
从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA00041465287300001413
的第j1个子元素:
Figure BDA00041465287300001414
根据所述相似度静态数组
Figure BDA0004146528730000151
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000152
进一步的,在上述的基于大数据的金融风险分析方法中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000153
与所述相似度静态数组
Figure BDA0004146528730000154
的关系满足:
Figure BDA0004146528730000155
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
Figure BDA0004146528730000156
进一步的,在上述的基于大数据的金融风险分析方法中,所述词向量模型为使用中文维基百科作为中文语料库以及使用英文维基百科作为英文语料库进行训练得到的中英文双语模型。
进一步的,在上述的基于大数据的金融风险分析方法中,判断每个文本块的主题是否与金融风险相关的步骤具体包括:
读取文本块对应的文本块主题列表;
读取预先配置的金融风险关键词列表;
将所述文本块主题列表中的每个主题词与所述金融风险关键词列表的每个主题词两两输入预先训练好的词向量模型中计算两者之间的相似度;
当所述文本块主题列表中的任一主题词与所述金融风险关键词列表的任一主题词之间的相似度大于预设的阈值时,确定所述文本块的主题与金融风险相关。
进一步的,在上述的基于大数据的金融风险分析方法中,将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析的步骤具体包括:
对所述文本单元进行分词处理得到多个关键词;
生成对应所述关键词的词向量序列;
将所述词向量序列以及所述计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型;
输出所述金融风险分析指标的金融风险评分。
进一步的,在上述的基于大数据的金融风险分析方法中,所述金融风险分析指标模型包括多要素分析指标的分析模型,当所述目标数据中的文本单元所涉及的金融风险分析要素不足以完成所述多要素分析指标的金融风险分析时,从所述指定地址获取关联数据与所述目标数据合并后进行共同分析。
进一步的,在上述的基于大数据的金融风险分析方法中,在从指定地址读取目标数据的步骤之前,还包括:
获取预先配置的所述目标地址的可信度评价信息;
根据所述可信度评价信息确定是否执行从指定地址读取目标数据的步骤。
进一步的,在上述的基于大数据的金融风险分析方法中,在对同一目标数据中的文本数据进行聚类和重组的步骤之前,还包括:
获取待评价金融风险的主体对象信息;
判断所述目标数据与所述主体对象的关联性;
根据所述目标数据与所述主体对象的关联性确定是否执行对同一目标数据中的文本数据进行聚类和重组的步骤。
如图2所示,本发明的第二方面提供一种基于大数据的金融风险分析系统,包括:
目标数据读取模块,用于从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
文本数据提取模块,用于从所述目标数据的主体内容中提取文本数据;
文本数据重组模块,用于对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
风险相关性判断模块,用于判断每个文本块的主题是否与金融风险相关;
有效文本块确定模块,用于将主题与金融风险相关的文本块确定为有效文本块;
分析要素确定模块,用于确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
文本单元分解模块,用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
计量权重确定模块,用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
指标模型参数输入模块,用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
进一步的,在上述的基于大数据的金融风险分析系统中,所述量化要素包括成本、销售额、利润、销量、股价,所述可量化要素包括人才加盟、高官离职、竞品发布、市场开拓。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本单元为两个标点符号间具有完整语义的语句,所述标点符号包括逗号、分号、句号。
进一步的,在上述的基于大数据的金融风险分析系统中,所述目标数据为静态页面数据或动态页面数据,所述静态页面数据的页面类型包括htm、html、dhtml、xhtml、shtm、shtml中一种或多种,所述动态页面数据的页面类型包括asp、jsp、php、aspx、jspx、cgi中一种或多种。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据提取模块具体包括:
主体内容识别模块,用于从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
文本识别模块,用于对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
文本格式化模块,用于根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
段落标识分配模块,用于按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本内容包括段落文本、按钮文本、标签文本、列表文本、表格文本以及其它控件文本,所述非文本内容包括表格文本、列表文本、字幕文本以及标注文本,所述文本格式化模块具体包括:
完整语句生成模块,用于按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句;
段落划分模块,用于根据语义的关联性将生成的语句划分为段落。
进一步的,在上述的基于大数据的金融风险分析系统中,所述完整语句生成模块具体包括:
文章属性文本识别模块,用于从所述文本内容中识别文章属性文本,所述文章属性文本包括作者、发布日期、标题以及发布网站;
完整语句重构模块,用于将所述文章属性文本重构为完整语句,所述完整语句的名式为“作者”在“发布日期”将标题为“标题”的文章发布在“发布网站”。
例如文章头部或者尾部的作者、发表时期时间标记语句化后为:XXX在2022年1月1日将本文《文章标题》发表在XXX网站。
进一步的,在上述的基于大数据的金融风险分析系统中,所述完整语句生成模块具体包括:
表格文本识别模块,用于从所述表格文本中识别表格属性文本以及表格内容文本,所述表格属性文本包括表格标题文本、表格副标题文本以及表格标注文本,所述表格内容文本包括字段名称文本以及字段值文本,所述字段名称文本包括横向字段名称文本以及纵向字段名称文本;
键值对生成模块,用于生成对应每一个字段值文本的名称、值的键值对,所述键值对为“横向字段名称文本,纵向字段名称文本,字段值文本”、“横向字段名称文本,字段值文本”或者“纵向字段名称文本,字段值文本”中的一种;
完整语句重构模块,用于根据所述表格属性文本将每一个所述键值对重构为完整语句。
例如表格标题为XX公司2022年第一季度,表格中包含“销售额:100”,字段名称中包含“/万元人民币”,转为语句:XX公司2022年第一季度的销售额为100万元人民币,又例如从某社交平台上获取的“XX公司的CEO XXX”和“XXX宣布即将就XX技术开发新的产品”重组为“XX公司的CEO XXX宣布即将就XX技术开发新的产品”。
进一步的,在上述的基于大数据的金融风险分析系统中,所述文本数据重组模块具体包括:
主题模型参数输入模块,用于将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
段落主题列表存储模块,用于将所述段落主题列表与相应段落的段落标识进行关联存储;
列表相似度计算模块,用于计算所述段落主题列表两两之间的相似度;
段落合并模块,用于将相似度大于预设的阈值的段落合并为一个文本块;
列表合并模块,用于将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
文本块标识分配模块,用于为每一个文本块分配用于表征主题差异的文本块标识;
文本块主题列表存储模块,用于将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表合并模块具体包括:
段落标识获取模块,用于获取待合并的两个或两个以上的段落的段落标识;
主题列表读取模块,用于根据所述段落标识读取所述两个或两个以的段落的主题列表;
文本块主题列表生成模块,用于生成文本块主题列表;
主题词读取模块,用于顺序读取所述两个或两个以的段落的主题列表中的主题词;
主题词存在性判断模块,用于判读当前读取的主题词是否已存在于所述文本块主题列表中;
循环执行模块,用于在判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
主题词写入模块,用于在判断为否时,将当前读取的主题词写入所述文本块主题列表中。
进一步的,在上述的基于大数据的金融风险分析系统中,所述主题生成模型为隐含狄利克雷分布模型。
进一步的,在上述的基于大数据的金融风险分析系统中,所述列表相似度计算模块具体包括:
第一变量定义模块,用于定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
遍历计算模块,用于使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000191
其中i1≠i2
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第二变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
第一数组定义模块,用于定义相似度静态数组
Figure BDA0004146528730000192
其中:
k=min(ni1,ni2);
第一向量模型参数输入模块,用于将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA0004146528730000193
第一数组维度赋值模块,用于当ni1<ni2时,k=ni1
第一相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA0004146528730000201
第一数组元素赋值模块,用于从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA0004146528730000202
的第j1个子元素:
Figure BDA0004146528730000203
第一相似度计算模块,用于根据所述相似度静态数组
Figure BDA0004146528730000204
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000205
进一步的,在上述的基于大数据的金融风险分析系统中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000206
与所述相似度静态数组
Figure BDA0004146528730000207
的关系满足:
Figure BDA0004146528730000208
进一步的,在上述的基于大数据的金融风险分析系统中,所述遍历计算模块具体包括:
第三变量定义模块,用于定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
第二数组定义模块,用于定义相似度静态数组
Figure BDA0004146528730000209
其中:
k=max(ni1,ni2);
第二向量模型参数输入模块,用于将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure BDA00041465287300002010
第二数组维度赋值模块,用于当ni1>ni2时,k=ni1
第二相似度序列获取模块,用于获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure BDA00041465287300002011
第二数组元素赋值模块,用于从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure BDA00041465287300002012
的第j1个子元素:
Figure BDA00041465287300002013
第二相似度计算模块,用于根据所述相似度静态数组
Figure BDA00041465287300002014
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000211
进一步的,在上述的基于大数据的金融风险分析系统中,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure BDA0004146528730000212
与所述相似度静态数组
Figure BDA0004146528730000213
的关系满足:
Figure BDA0004146528730000214
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
Figure BDA0004146528730000215
进一步的,在上述的基于大数据的金融风险分析系统中,所述词向量模型为使用中文维基百科作为中文语料库以及使用英文维基百科作为英文语料库进行训练得到的中英文双语模型。
进一步的,在上述的基于大数据的金融风险分析系统中,所述风险相关性判断模块具体包括:
文本块主题列表读取模块,用于读取文本块对应的文本块主题列表;
金融风险关键词列表读取模块,用于读取预先配置的金融风险关键词列表;
第三向量模型参数输入模块,用于将所述文本块主题列表中的每个主题词与所述金融风险关键词列表的每个主题词两两输入预先训练好的词向量模型中计算两者之间的相似度;
风险相关性确定模块,用于当所述文本块主题列表中的任一主题词与所述金融风险关键词列表的任一主题词之间的相似度大于预设的阈值时,确定所述文本块的主题与金融风险相关。
进一步的,在上述的基于大数据的金融风险分析系统中,所述指标模型参数输入模块具体包括:
分词处理模块,用于对所述文本单元进行分词处理得到多个关键词;
词向量序列生成模块,用于生成对应所述关键词的词向量序列;
参数输入模块,用于将所述词向量序列以及所述计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型;
风险评分输出模块,用于输出所述金融风险分析指标的金融风险评分。
进一步的,在上述的基于大数据的金融风险分析系统中,所述金融风险分析指标模型包括多要素分析指标的分析模型,当所述目标数据中的文本单元所涉及的金融风险分析要素不足以完成所述多要素分析指标的金融风险分析时,从所述指定地址获取关联数据与所述目标数据合并后进行共同分析。
进一步的,在上述的基于大数据的金融风险分析系统中,还包括:
可信度评价信息获取模块,用于获取预先配置的所述目标地址的可信度评价信息;
第一执行判断模块,用于根据所述可信度评价信息确定是否执行从指定地址读取目标数据的步骤。
进一步的,在上述的基于大数据的金融风险分析系统中,还包括:
主体对像信息获取模块,用于获取待评价金融风险的主体对象信息;
对象关联性判断模块,用于判断所述目标数据与所述主体对象的关联性;
第二执行判断模块,用于根据所述目标数据与所述主体对象的关联性确定是否执行对同一目标数据中的文本数据进行聚类和重组的步骤。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。显然,根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种基于大数据的金融风险分析方法,其特征在于,包括:
从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
从所述目标数据的主体内容中提取文本数据;
对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
判断每个文本块的主题是否与金融风险相关;
将主题与金融风险相关的文本块确定为有效文本块;
确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
2.根据权利要求1所述的基于大数据的金融风险分析方法,其特征在于,从所述目标数据的主体内容中提取文本数据的步骤具体包括:
从所述目标数据中识别主体内容,所述主体内容包括文本内容和/或非文本内容,所述非文本内容包括图片、音频以及视频中的一种或多种;
对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据;
根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据;
按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。
3.根据权利要求2所述的基于大数据的金融风险分析方法,其特征在于,对同一目标数据中的文本数据进行聚类和重组的步骤具体包括:
将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表;
将所述段落主题列表与相应段落的段落标识进行关联存储;
计算所述段落主题列表两两之间的相似度;
将相似度大于预设的阈值的段落合并为一个文本块;
将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表;
为每一个文本块分配用于表征主题差异的文本块标识;
将所述文本块主题列表与相应文本块的文本块标识进行关联存储。
4.根据权利要求3所述的基于大数据的金融风险分析方法,其特征在于,将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括:
获取待合并的两个或两个以上的段落的段落标识;
根据所述段落标识读取所述两个或两个以的段落的主题列表;
生成文本块主题列表;
顺序读取所述两个或两个以的段落的主题列表中的主题词;
判读当前读取的主题词是否已存在于所述文本块主题列表中;
判断为是时,跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤;
判断为否时,将当前读取的主题词写入所述文本块主题列表中。
5.根据权利要求3所述的基于大数据的金融风险分析方法,其特征在于,计算所述段落主题列表两两之间的相似度的步骤具体包括:
定义第一遍历变量i1∈[1,n]和第二遍历变量i2∈[1,n],其中n为所述格式化文本数据中的段落数量;
使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA0004146528690000021
其中i1≠i2
6.根据权利要求5所述的基于大数据的金融风险分析方法,其特征在于,使所述第一遍历变量以及所述第二遍历变量分别在[1,n]之间遍历以计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA0004146528690000022
的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
定义相似度静态数组
Figure FDA0004146528690000031
其中:
k=min(ni1,ni2);
将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure FDA0004146528690000032
当ni1<ni2时,k=ni1
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure FDA0004146528690000033
从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure FDA0004146528690000034
的第j1个子元素:
Figure FDA0004146528690000035
根据所述相似度静态数组
Figure FDA0004146528690000036
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA0004146528690000037
7.根据权利要求6所述的基于大数据的金融风险分析方法,其特征在于,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA0004146528690000038
与所述相似度静态数组
Figure FDA0004146528690000039
的关系满足:
Figure FDA00041465286900000310
8.根据权利要求5所述的基于大数据的金融风险分析方法,其特征在于,计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA00041465286900000311
的步骤具体包括:
定义第三遍历变量j1∈[1,ni1]和第四遍历变量j2∈[1,ni2],其中ni1为第i1个段落主题列表中的主题词数量,ni2为第i2个段落主题列表中的主题词数量;
定义相似度静态数组
Figure FDA00041465286900000312
其中:
k=max(ni1,ni2);
将第i1个段落主题列表中的第j1个主题词与第i2个段落主题列表中的第j2个主题词输入预先训练好的词向量模型中计算两者之间的相似度
Figure FDA00041465286900000313
当ni1>ni2时,k=ni1
获取第i1个段落主题列表中的第j1个主题词对应的相似度序列:
Figure FDA0004146528690000041
从所述相似度序列中确定一个最大值赋值给所述相似度静态数组
Figure FDA0004146528690000042
的第j1个子元素:
Figure FDA0004146528690000043
根据所述相似度静态数组
Figure FDA0004146528690000044
计算第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA0004146528690000045
9.根据权利要求8所述的基于大数据的金融风险分析方法,其特征在于,第i1个段落主题列表与第i2个段落主题列表之间的相似度
Figure FDA0004146528690000046
与所述相似度静态数组
Figure FDA0004146528690000047
的关系满足:
Figure FDA0004146528690000048
其中α为基础相似度系数,β为扩展相似度系数,且两者满足:
Figure FDA0004146528690000049
10.一种基于大数据的金融风险分析系统,其特征在于,包括:
目标数据读取模块,用于从指定地址读取目标数据,所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址;
文本数据提取模块,用于从所述目标数据的主体内容中提取文本数据;
文本数据重组模块,用于对同一目标数据中的文本数据进行聚类和重组,以生成一个或多个分别对应不同主题的文本块;
风险相关性判断模块,用于判断每个文本块的主题是否与金融风险相关;
有效文本块确定模块,用于将主题与金融风险相关的文本块确定为有效文本块;
分析要素确定模块,用于确定所述有效文本块相关的金融风险分析要素,所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素;
文本单元分解模块,用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元,使得每个所述文本单元对应一个金融风险分析要素;
计量权重确定模块,用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重;
指标模型参数输入模块,用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。
CN202310305221.9A 2023-03-20 2023-03-20 一种基于大数据的金融风险分析方法及系统 Active CN116308758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310305221.9A CN116308758B (zh) 2023-03-20 2023-03-20 一种基于大数据的金融风险分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310305221.9A CN116308758B (zh) 2023-03-20 2023-03-20 一种基于大数据的金融风险分析方法及系统

Publications (2)

Publication Number Publication Date
CN116308758A true CN116308758A (zh) 2023-06-23
CN116308758B CN116308758B (zh) 2024-01-05

Family

ID=86828561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310305221.9A Active CN116308758B (zh) 2023-03-20 2023-03-20 一种基于大数据的金融风险分析方法及系统

Country Status (1)

Country Link
CN (1) CN116308758B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777634A (zh) * 2023-06-25 2023-09-19 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
CN118093849A (zh) * 2024-04-26 2024-05-28 杭州数云信息技术有限公司 对话方法及装置、存储介质、终端、计算机程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471934A (zh) * 2018-10-09 2019-03-15 杭州安恒信息技术股份有限公司 基于互联网的金融风险线索发掘方法
CN110134948A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 一种基于文本数据的金融风险控制方法、装置和电子设备
WO2020037942A1 (zh) * 2018-08-20 2020-02-27 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN112348662A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 基于用户职业预测的风险评估方法、装置和电子设备
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及系统
KR20210082880A (ko) * 2019-12-26 2021-07-06 주식회사 하나금융티아이 주제 키워드 기반 투자 유니버스 구성 방법 및 시스템
CN113743111A (zh) * 2020-08-25 2021-12-03 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置
CN114549154A (zh) * 2022-01-28 2022-05-27 南京科融数据系统股份有限公司 一种金融数据预警方法及系统
CN114936282A (zh) * 2022-04-28 2022-08-23 北京中科闻歌科技股份有限公司 金融风险线索确定方法、装置、设备和介质
CN115393094A (zh) * 2022-08-22 2022-11-25 广东省华南技术转移中心有限公司 预测模型的训练方法、数据分析方法、装置以及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037942A1 (zh) * 2018-08-20 2020-02-27 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN109471934A (zh) * 2018-10-09 2019-03-15 杭州安恒信息技术股份有限公司 基于互联网的金融风险线索发掘方法
CN110134948A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 一种基于文本数据的金融风险控制方法、装置和电子设备
KR20210082880A (ko) * 2019-12-26 2021-07-06 주식회사 하나금융티아이 주제 키워드 기반 투자 유니버스 구성 방법 및 시스템
CN113743111A (zh) * 2020-08-25 2021-12-03 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置
CN112348662A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 基于用户职业预测的风险评估方法、装置和电子设备
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及系统
CN114549154A (zh) * 2022-01-28 2022-05-27 南京科融数据系统股份有限公司 一种金融数据预警方法及系统
CN114936282A (zh) * 2022-04-28 2022-08-23 北京中科闻歌科技股份有限公司 金融风险线索确定方法、装置、设备和介质
CN115393094A (zh) * 2022-08-22 2022-11-25 广东省华南技术转移中心有限公司 预测模型的训练方法、数据分析方法、装置以及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKIB MASHRUR: "Machine Learning for Financial Risk Management: A Survey", 《ACCESS》, no. 8, pages 203203 - 203223, XP011820709, DOI: 10.1109/ACCESS.2020.3036322 *
王小楠,黄卫东: "基于类别主题词集的加权相似度短文本分类", 《计算机技术与发展》, vol. 32, no. 9, pages 95 - 99 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777634A (zh) * 2023-06-25 2023-09-19 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
CN116777634B (zh) * 2023-06-25 2024-06-11 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
CN118093849A (zh) * 2024-04-26 2024-05-28 杭州数云信息技术有限公司 对话方法及装置、存储介质、终端、计算机程序产品
CN118093849B (zh) * 2024-04-26 2024-08-06 杭州数云信息技术有限公司 对话方法及装置、存储介质、终端、计算机程序产品

Also Published As

Publication number Publication date
CN116308758B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Jou et al. Visual affect around the world: A large-scale multilingual visual sentiment ontology
CN116308758B (zh) 一种基于大数据的金融风险分析方法及系统
Heckner et al. Tagging tagging. Analysing user keywords in scientific bibliography management systems
Mahlberg Corpus linguistics and the study of nineteenth-century fiction
US20150324459A1 (en) Method and apparatus to build a common classification system across multiple content entities
US11023503B2 (en) Suggesting text in an electronic document
Trappey et al. An R&D knowledge management method for patent document summarization
Adrian et al. Contag: A semantic tag recommendation system
Zuccala et al. A machine‐learning approach to coding book reviews as quality indicators: Toward a theory of megacitation
Cabrera-Diego et al. Ranking résumés automatically using only résumés: A method free of job offers
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Brugman et al. Nederlab: Towards a single portal and research environment for diachronic Dutch text corpora
Zhang et al. Examining differences among book reviews from various online platforms
Rebora et al. Robert Musil, a war journal, and stylometry: Tackling the issue of short texts in authorship attribution
US20190295110A1 (en) Performance analytics system for scripted media
Gupta et al. A two-staged NLP-based framework for assessing the sentiments on Indian supreme court judgments
Qumsiyeh et al. Searching web documents using a summarization approach
Burghardt et al. Same same, but different? On the Relation of Information Science and the Digital Humanities A Scientometric Comparison of Academic Journals Using LDA and Hierarchical Clustering
Álvarez Carmona et al. Author profiling in social media with multimodal information
Bizzoni et al. Predicting Literary Quality How Perspectivist Should We Be?
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
CN114564956A (zh) 一种细粒度属性自动提取的用户评论文本情感挖掘模型
dos Santos et al. Annotation of a corpus of tweets for sentiment analysis
Cipriani Innovation of Digital Stylistics in Literary Translation Studies
Tannous et al. TSHD: Topic Segmentation Based on Headings Detection (Case Study: Resumes)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant