CN116308758A

CN116308758A - 一种基于大数据的金融风险分析方法及系统

Info

Publication number: CN116308758A
Application number: CN202310305221.9A
Authority: CN
Inventors: 刘振; 韩凤娟; 胡煜; 蔡志彬; 卢威谕
Original assignee: Shenzhen Credit Investigation Service Co ltd
Current assignee: Shenzhen Credit Investigation Service Co ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23
Anticipated expiration: 2043-03-20
Also published as: CN116308758B

Abstract

本发明提出了一种基于大数据的金融风险分析方法及系统，通过从指定地址读取目标数据以提取文本数据，对同一目标数据中的文本数据进行聚类和重组以生成一个或多个分别对应不同主题的文本块，将主题与金融风险相关的文本块确定为有效文本块，确定所述有效文本块相关的金融风险分析要素，将所述有效文本块分解为多个文本单元使得每个所述文本单元对应一个金融风险分析要素，将对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重，将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析，能够充分且有效地利用互联网大数据实现金融风险分析。

Description

一种基于大数据的金融风险分析方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种基于大数据的金融风险分析方法及系统。

背景技术

金融市场复杂多变，各种类型的金融风险层出不穷，金融市场的参与者需要保持对金融市场中的各种信息随时保持高度的关注。然而，要从海量的市场信息中识别出影响金融风险的信息并对其进行定性分析和定量分析，单凭人力很难做到。随着计算机技术的发展，人们开始尝试使用计算机代替人力对金融风险进行分析，特别是一些金融机构会为自身或其客户建立金融风险分析系统，以期通过金融风险分析系统对金融市场中的各种信息进行收集分析，识别金融风险并以此为基础制定金融风险管理策略。

在传统的金融风险分析方法中，一般是预先设计多个层级的金融风险分析维度，基于收集到的信息对这些金融风险分析维度进行量化分析。对于一些对应的信息为客观数据的分析维度，如产量、成本、销售额、利润等，可以在进行简单的标准化处理后直接将其纳入到风险计算模型中进行相关金融风险系数计算。而对于一些对应的信息为主观数据的分析维度，例如舆情风险、企业文化风险等，需要采用量化手段对其进行量化。常见的量化有两种形式，一种是对目标对象的目标维度进行确定或否定的判断，并预先配置两个不同判断结果对应的风险计算分值；另一种是对目标对象的目标维度在一定分值范围内进行评分，一般是人工评分，目前也有采用计算机进行文字识别后自动进行评分的方案，但其对于所输入的信息的形式要求较高。

金融风险分析系统的数据来源比较常见的有三种，一种是企业自身提供并录入到系统中的数据，一种是通过合作的三方机构如电商平台等提供的数据接口所获取的数据，一种是利用数据采集工具从互联网采集的数，对于前两种数据，其一般已经按照金融风险分析系统整理为所需要的数据格式，可以直接输入到风险计算模型中进行相关金融风险系数计算，但其数据形式单一、数据量有限，据此得到的金融风险分析结果较为片面，对于第三种数据，由于数据来源较多，难以形成统一的数据格式，因此即便搜集到大量的有用信息，也需要人为进行整理才能进行分析，需要投入大量的人力，因此在实际应用中，仍然存在大量的金融市场信息无法在金融风险分析中得到有效的利用。

发明内容

本发明正是基于上述问题，提出了一种基于大数据的金融风险分析方法及系统，能够充分且有效地利用互联网大数据实现金融风险分析。

有鉴于此，本发明的第一方面提出了一种基于大数据的金融风险分析方法，包括：

从指定地址读取目标数据，所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址；

从所述目标数据的主体内容中提取文本数据；

对同一目标数据中的文本数据进行聚类和重组，以生成一个或多个分别对应不同主题的文本块；

判断每个文本块的主题是否与金融风险相关；

将主题与金融风险相关的文本块确定为有效文本块；

确定所述有效文本块相关的金融风险分析要素，所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素；

根据所述金融风险分析要素将所述有效文本块分解为多个文本单元，使得每个所述文本单元对应一个金融风险分析要素；

将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重；

将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。

进一步的，在上述的基于大数据的金融风险分析方法中，从所述目标数据的主体内容中提取文本数据的步骤具体包括：

从所述目标数据中识别主体内容，所述主体内容包括文本内容和/或非文本内容，所述非文本内容包括图片、音频以及视频中的一种或多种；

对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据；

根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据；

按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。

进一步的，在上述的基于大数据的金融风险分析方法中，对同一目标数据中的文本数据进行聚类和重组的步骤具体包括：

将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表；

将所述段落主题列表与相应段落的段落标识进行关联存储；

计算所述段落主题列表两两之间的相似度；

将相似度大于预设的阈值的段落合并为一个文本块；

将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表；

为每一个文本块分配用于表征主题差异的文本块标识；

将所述文本块主题列表与相应文本块的文本块标识进行关联存储。

进一步的，在上述的基于大数据的金融风险分析方法中，将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表的步骤具体包括：

获取待合并的两个或两个以上的段落的段落标识；

根据所述段落标识读取所述两个或两个以的段落的主题列表；

生成文本块主题列表；

顺序读取所述两个或两个以的段落的主题列表中的主题词；

判读当前读取的主题词是否已存在于所述文本块主题列表中；

判断为是时，跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤；

判断为否时，将当前读取的主题词写入所述文本块主题列表中。

进一步的，在上述的基于大数据的金融风险分析方法中，计算所述段落主题列表两两之间的相似度的步骤具体包括：

定义第一遍历变量i₁∈[1，n]和第二遍历变量i₂∈[1，n]，其中n为所述格式化文本数据中的段落数量；

使所述第一遍历变量以及所述第二遍历变量分别在[1，n]之间遍历以计算第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

其中i₁≠i₂。

进一步的，在上述的基于大数据的金融风险分析方法中，使所述第一遍历变量以及所述第二遍历变量分别在[1，n]之间遍历以计算第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

的步骤具体包括：

定义第三遍历变量j₁∈[1，n_i1]和第四遍历变量j₂∈[1，n_i2]，其中n_i1为第i₁个段落主题列表中的主题词数量，n_i2为第i₂个段落主题列表中的主题词数量；

定义相似度静态数组

其中：

k＝min(n_i1，n_i2)；

将第i₁个段落主题列表中的第j₁个主题词与第i₂个段落主题列表中的第j₂个主题词输入预先训练好的词向量模型中计算两者之间的相似度

当n_i1＜n_i2时，k＝n_i1；

获取第i₁个段落主题列表中的第j₁个主题词对应的相似度序列：

从所述相似度序列中确定一个最大值赋值给所述相似度静态数组

的第j₁个子元素：

根据所述相似度静态数组

计算第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

进一步的，在上述的基于大数据的金融风险分析方法中，第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

与所述相似度静态数组

的关系满足：

进一步的，在上述的基于大数据的金融风险分析方法中，计算第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

的步骤具体包括：

定义相似度静态数组

其中：

k＝max(n_i1，n_i2)；

当n_i1＞n_i2时，k＝n_i1；

的第j₁个子元素：

根据所述相似度静态数组

与所述相似度静态数组

的关系满足：

其中α为基础相似度系数，β为扩展相似度系数，且两者满足：

本发明的第二方面提出了一种基于大数据的金融风险分析系统，包括：

目标数据读取模块，用于从指定地址读取目标数据，所述指定地址为网络地址或者将所述目标数据下载到本地后指向所述目标数据的本地地址；

文本数据提取模块，用于从所述目标数据的主体内容中提取文本数据；

文本数据重组模块，用于对同一目标数据中的文本数据进行聚类和重组，以生成一个或多个分别对应不同主题的文本块；

风险相关性判断模块，用于判断每个文本块的主题是否与金融风险相关；

有效文本块确定模块，用于将主题与金融风险相关的文本块确定为有效文本块；

分析要素确定模块，用于确定所述有效文本块相关的金融风险分析要素，所述金融风险分析要素为用于评价一个或多个金融风险分析指标的量化或可量化要素；

文本单元分解模块，用于根据所述金融风险分析要素将所述有效文本块分解为多个文本单元，使得每个所述文本单元对应一个金融风险分析要素；

计量权重确定模块，用于将所述有效文本块中对应每一个金融风险分析要素的文本单元的数量确定为所述有效文本块中相应金融风险分析指标的计量权重；

指标模型参数输入模块，用于将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析。

进一步的，在上述的基于大数据的金融风险分析系统中，所述文本数据提取模块具体包括：

主体内容识别模块，用于从所述目标数据中识别主体内容，所述主体内容包括文本内容和/或非文本内容，所述非文本内容包括图片、音频以及视频中的一种或多种；

文本识别模块，用于对所述非文本内容执行文本识别以获取所述非文本内容中的文本数据；

文本格式化模块，用于根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据；

段落标识分配模块，用于按照所述主体内容的原始布局以从上到下、从左到右的顺序为所述格式化文本数据中的每个段落分配用于表示原始布局顺序的段落标识。

进一步的，在上述的基于大数据的金融风险分析系统中，所述文本数据重组模块具体包括：

主题模型参数输入模块，用于将所述格式化文本数据中每个段落的文本数据输入预先训练好的主题生成模型中以生成每个段落对应的段落主题列表；

段落主题列表存储模块，用于将所述段落主题列表与相应段落的段落标识进行关联存储；

列表相似度计算模块，用于计算所述段落主题列表两两之间的相似度；

段落合并模块，用于将相似度大于预设的阈值的段落合并为一个文本块；

列表合并模块，用于将合并为一个文本块的段落对应的段落主题列表合并为对应所述文本块的文本块主题列表；

文本块标识分配模块，用于为每一个文本块分配用于表征主题差异的文本块标识；

文本块主题列表存储模块，用于将所述文本块主题列表与相应文本块的文本块标识进行关联存储。

进一步的，在上述的基于大数据的金融风险分析系统中，所述列表合并模块具体包括：

段落标识获取模块，用于获取待合并的两个或两个以上的段落的段落标识；

主题列表读取模块，用于根据所述段落标识读取所述两个或两个以的段落的主题列表；

文本块主题列表生成模块，用于生成文本块主题列表；

主题词读取模块，用于顺序读取所述两个或两个以的段落的主题列表中的主题词；

主题词存在性判断模块，用于判读当前读取的主题词是否已存在于所述文本块主题列表中；

循环执行模块，用于在判断为是时，跳过当前读取的主题词返回执行顺序读取所述两个或两个以的段落的主题列表中的主题词的步骤；

主题词写入模块，用于在判断为否时，将当前读取的主题词写入所述文本块主题列表中。

进一步的，在上述的基于大数据的金融风险分析系统中，所述列表相似度计算模块具体包括：

第一变量定义模块，用于定义第一遍历变量i₁∈[1，n]和第二遍历变量i₂∈[1，n]，其中n为所述格式化文本数据中的段落数量；

遍历计算模块，用于使所述第一遍历变量以及所述第二遍历变量分别在[1，n]之间遍历以计算第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

其中i₁≠i₂。

进一步的，在上述的基于大数据的金融风险分析系统中，所述遍历计算模块具体包括：

第二变量定义模块，用于定义第三遍历变量j₁∈[1，n_i1]和第四遍历变量j₂∈[1，n_i2]，其中n_i1为第i₁个段落主题列表中的主题词数量，n_i2为第i₂个段落主题列表中的主题词数量；

第一数组定义模块，用于定义相似度静态数组

其中：

k＝min(n_i1，n_i2)；

第一向量模型参数输入模块，用于将第i₁个段落主题列表中的第j₁个主题词与第i₂个段落主题列表中的第j₂个主题词输入预先训练好的词向量模型中计算两者之间的相似度

第一数组维度赋值模块，用于当n_i1＜n_i2时，k＝n_i1；

第一相似度序列获取模块，用于获取第i₁个段落主题列表中的第j₁个主题词对应的相似度序列：

第一数组元素赋值模块，用于从所述相似度序列中确定一个最大值赋值给所述相似度静态数组

的第j₁个子元素：

第一相似度计算模块，用于根据所述相似度静态数组

进一步的，在上述的基于大数据的金融风险分析系统中，第i₁个段落主题列表与第i₂个段落主题列表之间的相似度

与所述相似度静态数组

的关系满足：

第三变量定义模块，用于定义第三遍历变量j₁∈[1，n_i1]和第四遍历变量j₂∈[1，n_i2]，其中n_i1为第i₁个段落主题列表中的主题词数量，n_i2为第i₂个段落主题列表中的主题词数量；

第二数组定义模块，用于定义相似度静态数组

其中：

k＝max(n_i1，n_i2)；

第二向量模型参数输入模块，用于将第i₁个段落主题列表中的第j₁个主题词与第i₂个段落主题列表中的第j₂个主题词输入预先训练好的词向量模型中计算两者之间的相似度

第二数组维度赋值模块，用于当n_i1＞n_i2时，k＝n_i1；

第二相似度序列获取模块，用于获取第i₁个段落主题列表中的第j₁个主题词对应的相似度序列：

第二数组元素赋值模块，用于从所述相似度序列中确定一个最大值赋值给所述相似度静态数组

的第j₁个子元素：

第二相似度计算模块，用于根据所述相似度静态数组

与所述相似度静态数组

的关系满足：

附图说明

图1是本发明一个实施例提供的一种基于大数据的金融风险分析方法的流程图；

图2是本发明一个实施例提供的一种基于大数据的金融风险分析系统的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在本发明的描述中，术语“多个”则指两个或两个以上，除非另有明确的限定，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本说明书的描述中，术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

下面参照附图来描述根据本发明一些实施方式提供的一种基于大数据的金融风险分析方法及系统。

如图1所示，本发明的第一方面提供一种基于大数据的金融风险分析方法，包括：

从所述目标数据的主体内容中提取文本数据；

判断每个文本块的主题是否与金融风险相关；

将主题与金融风险相关的文本块确定为有效文本块；

进一步的，在上述的基于大数据的金融风险分析方法中，所述量化要素包括成本、销售额、利润、销量、股价，所述可量化要素包括人才加盟、高官离职、竞品发布、市场开拓。

进一步的，在上述的基于大数据的金融风险分析方法中，所述文本单元为两个标点符号间具有完整语义的语句，所述标点符号包括逗号、分号、句号。

进一步的，在上述的基于大数据的金融风险分析方法中，所述目标数据为静态页面数据或动态页面数据，所述静态页面数据的页面类型包括htm、html、dhtml、xhtml、shtm、shtml中一种或多种，所述动态页面数据的页面类型包括asp、jsp、php、aspx、jspx、cgi中一种或多种。

进一步的，在上述的基于大数据的金融风险分析方法中，所述文本内容包括段落文本、按钮文本、标签文本、列表文本、表格文本以及其它控件文本，所述非文本内容包括表格文本、列表文本、字幕文本以及标注文本，根据语义的关联性对所述文本内容中的文本数据和所述非文本内容中的文本数据进行语句化和段落化处理以生成格式化文本数据的步骤具体包括：

按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句；

根据语义的关联性将生成的语句划分为段落。

进一步的，在上述的基于大数据的金融风险分析方法中，按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句的步骤具体包括：

从所述文本内容中识别文章属性文本，所述文章属性文本包括作者、发布日期、标题以及发布网站；

将所述文章属性文本重构为完整语句，所述完整语句的名式为“作者”在“发布日期”将标题为“标题”的文章发布在“发布网站”。

例如文章头部或者尾部的作者、发表时期时间标记语句化后为：XXX在2022年1月1日将本文《文章标题》发表在XXX网站。

从所述表格文本中识别表格属性文本以及表格内容文本，所述表格属性文本包括表格标题文本、表格副标题文本以及表格标注文本，所述表格内容文本包括字段名称文本以及字段值文本，所述字段名称文本包括横向字段名称文本以及纵向字段名称文本；

生成对应每一个字段值文本的名称、值的键值对，所述键值对为“横向字段名称文本，纵向字段名称文本，字段值文本”、“横向字段名称文本，字段值文本”或者“纵向字段名称文本，字段值文本”中的一种；

根据所述表格属性文本将每一个所述键值对重构为完整语句。

例如表格标题为XX公司2022年第一季度，表格中包含“销售额：100”，字段名称中包含“/万元人民币”，转为语句：XX公司2022年第一季度的销售额为100万元人民币，又例如从某社交平台上获取的“XX公司的CEO XXX”和“XXX宣布即将就XX技术开发新的产品”重组为“XX公司的CEO XXX宣布即将就XX技术开发新的产品”。

将所述段落主题列表与相应段落的段落标识进行关联存储；

计算所述段落主题列表两两之间的相似度；

将相似度大于预设的阈值的段落合并为一个文本块；

为每一个文本块分配用于表征主题差异的文本块标识；

获取待合并的两个或两个以上的段落的段落标识；

生成文本块主题列表；

顺序读取所述两个或两个以的段落的主题列表中的主题词；

进一步的，在上述的基于大数据的金融风险分析方法中，所述主题生成模型为隐含狄利克雷分布模型。

其中i₁≠i₂。

的步骤具体包括：

定义相似度静态数组

其中：

k＝min(n_i1，n_i2)；

当n_i1＜n_i2时，k＝n_i1；

的第j₁个子元素：

根据所述相似度静态数组

与所述相似度静态数组

的关系满足：

的步骤具体包括：

定义相似度静态数组

其中：

k＝max(n_i1，n_i2)；

当n_i1＞n_i2时，k＝n_i1；

的第j₁个子元素：

根据所述相似度静态数组

与所述相似度静态数组

的关系满足：

进一步的，在上述的基于大数据的金融风险分析方法中，所述词向量模型为使用中文维基百科作为中文语料库以及使用英文维基百科作为英文语料库进行训练得到的中英文双语模型。

进一步的，在上述的基于大数据的金融风险分析方法中，判断每个文本块的主题是否与金融风险相关的步骤具体包括：

读取文本块对应的文本块主题列表；

读取预先配置的金融风险关键词列表；

将所述文本块主题列表中的每个主题词与所述金融风险关键词列表的每个主题词两两输入预先训练好的词向量模型中计算两者之间的相似度；

当所述文本块主题列表中的任一主题词与所述金融风险关键词列表的任一主题词之间的相似度大于预设的阈值时，确定所述文本块的主题与金融风险相关。

进一步的，在上述的基于大数据的金融风险分析方法中，将所述文本单元及其计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型中进行金融风险分析的步骤具体包括：

对所述文本单元进行分词处理得到多个关键词；

生成对应所述关键词的词向量序列；

将所述词向量序列以及所述计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型；

输出所述金融风险分析指标的金融风险评分。

进一步的，在上述的基于大数据的金融风险分析方法中，所述金融风险分析指标模型包括多要素分析指标的分析模型，当所述目标数据中的文本单元所涉及的金融风险分析要素不足以完成所述多要素分析指标的金融风险分析时，从所述指定地址获取关联数据与所述目标数据合并后进行共同分析。

进一步的，在上述的基于大数据的金融风险分析方法中，在从指定地址读取目标数据的步骤之前，还包括：

获取预先配置的所述目标地址的可信度评价信息；

根据所述可信度评价信息确定是否执行从指定地址读取目标数据的步骤。

进一步的，在上述的基于大数据的金融风险分析方法中，在对同一目标数据中的文本数据进行聚类和重组的步骤之前，还包括：

获取待评价金融风险的主体对象信息；

判断所述目标数据与所述主体对象的关联性；

根据所述目标数据与所述主体对象的关联性确定是否执行对同一目标数据中的文本数据进行聚类和重组的步骤。

如图2所示，本发明的第二方面提供一种基于大数据的金融风险分析系统，包括：

进一步的，在上述的基于大数据的金融风险分析系统中，所述量化要素包括成本、销售额、利润、销量、股价，所述可量化要素包括人才加盟、高官离职、竞品发布、市场开拓。

进一步的，在上述的基于大数据的金融风险分析系统中，所述文本单元为两个标点符号间具有完整语义的语句，所述标点符号包括逗号、分号、句号。

进一步的，在上述的基于大数据的金融风险分析系统中，所述目标数据为静态页面数据或动态页面数据，所述静态页面数据的页面类型包括htm、html、dhtml、xhtml、shtm、shtml中一种或多种，所述动态页面数据的页面类型包括asp、jsp、php、aspx、jspx、cgi中一种或多种。

进一步的，在上述的基于大数据的金融风险分析系统中，所述文本内容包括段落文本、按钮文本、标签文本、列表文本、表格文本以及其它控件文本，所述非文本内容包括表格文本、列表文本、字幕文本以及标注文本，所述文本格式化模块具体包括：

完整语句生成模块，用于按语义对所述文本内容中除段落文本外的其它文本以及所述非文本内容进行重构以分别生成完整的语句；

段落划分模块，用于根据语义的关联性将生成的语句划分为段落。

进一步的，在上述的基于大数据的金融风险分析系统中，所述完整语句生成模块具体包括：

文章属性文本识别模块，用于从所述文本内容中识别文章属性文本，所述文章属性文本包括作者、发布日期、标题以及发布网站；

完整语句重构模块，用于将所述文章属性文本重构为完整语句，所述完整语句的名式为“作者”在“发布日期”将标题为“标题”的文章发布在“发布网站”。

表格文本识别模块，用于从所述表格文本中识别表格属性文本以及表格内容文本，所述表格属性文本包括表格标题文本、表格副标题文本以及表格标注文本，所述表格内容文本包括字段名称文本以及字段值文本，所述字段名称文本包括横向字段名称文本以及纵向字段名称文本；

键值对生成模块，用于生成对应每一个字段值文本的名称、值的键值对，所述键值对为“横向字段名称文本，纵向字段名称文本，字段值文本”、“横向字段名称文本，字段值文本”或者“纵向字段名称文本，字段值文本”中的一种；

完整语句重构模块，用于根据所述表格属性文本将每一个所述键值对重构为完整语句。

文本块主题列表生成模块，用于生成文本块主题列表；

进一步的，在上述的基于大数据的金融风险分析系统中，所述主题生成模型为隐含狄利克雷分布模型。

其中i₁≠i₂。

第一数组定义模块，用于定义相似度静态数组

其中：

k＝min(n_i1，n_i2)；

第一数组维度赋值模块，用于当n_i1＜n_i2时，k＝n_i1；

的第j₁个子元素：

第一相似度计算模块，用于根据所述相似度静态数组

与所述相似度静态数组

的关系满足：

第二数组定义模块，用于定义相似度静态数组

其中：

k＝max(n_i1，n_i2)；

第二数组维度赋值模块，用于当n_i1＞n_i2时，k＝n_i1；

的第j₁个子元素：

第二相似度计算模块，用于根据所述相似度静态数组

与所述相似度静态数组

的关系满足：

进一步的，在上述的基于大数据的金融风险分析系统中，所述词向量模型为使用中文维基百科作为中文语料库以及使用英文维基百科作为英文语料库进行训练得到的中英文双语模型。

进一步的，在上述的基于大数据的金融风险分析系统中，所述风险相关性判断模块具体包括：

文本块主题列表读取模块，用于读取文本块对应的文本块主题列表；

金融风险关键词列表读取模块，用于读取预先配置的金融风险关键词列表；

第三向量模型参数输入模块，用于将所述文本块主题列表中的每个主题词与所述金融风险关键词列表的每个主题词两两输入预先训练好的词向量模型中计算两者之间的相似度；

风险相关性确定模块，用于当所述文本块主题列表中的任一主题词与所述金融风险关键词列表的任一主题词之间的相似度大于预设的阈值时，确定所述文本块的主题与金融风险相关。

进一步的，在上述的基于大数据的金融风险分析系统中，所述指标模型参数输入模块具体包括：

分词处理模块，用于对所述文本单元进行分词处理得到多个关键词；

词向量序列生成模块，用于生成对应所述关键词的词向量序列；

参数输入模块，用于将所述词向量序列以及所述计量权重输入到与所述金融风险分析要素对应的金融风险分析指标模型；

风险评分输出模块，用于输出所述金融风险分析指标的金融风险评分。

进一步的，在上述的基于大数据的金融风险分析系统中，所述金融风险分析指标模型包括多要素分析指标的分析模型，当所述目标数据中的文本单元所涉及的金融风险分析要素不足以完成所述多要素分析指标的金融风险分析时，从所述指定地址获取关联数据与所述目标数据合并后进行共同分析。

进一步的，在上述的基于大数据的金融风险分析系统中，还包括：

可信度评价信息获取模块，用于获取预先配置的所述目标地址的可信度评价信息；

第一执行判断模块，用于根据所述可信度评价信息确定是否执行从指定地址读取目标数据的步骤。

主体对像信息获取模块，用于获取待评价金融风险的主体对象信息；

对象关联性判断模块，用于判断所述目标数据与所述主体对象的关联性；

第二执行判断模块，用于根据所述目标数据与所述主体对象的关联性确定是否执行对同一目标数据中的文本数据进行聚类和重组的步骤。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。显然，根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。