CN117236328A

CN117236328A - 基于数据分析的金融文本智能核查系统

Info

Publication number: CN117236328A
Application number: CN202311494955.2A
Authority: CN
Inventors: 邢光辉; 董飞洋; 欧洁怀
Original assignee: Shenzhen Taire Technology Co ltd
Current assignee: Shenzhen Taire Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117236328B

Abstract

本发明属于文本核查领域，涉及数据分析技术，用于解决现有技术中的金融文本智能核查系统在完成敏感词比对之后，无法根据文本的原始特征对敏感词库进行优化的问题，具体是基于数据分析的金融文本智能核查系统，包括智能核查平台，智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块；文本筛查模块用于对金融文本进行敏感词筛查分析：将进行智能核查的金融文本分解为若干个子文本，将子文本中的语句进行打散得到若干个词组；本发明可以对金融文本进行敏感词筛查分析，通过将金融文本进行分割，然后对子文本中的语句进行打散得到词组，对每一个词组与敏感词库进行比对，从而通过敏感词比对生成初步筛查结果。

Description

基于数据分析的金融文本智能核查系统

技术领域

本发明属于文本核查领域，涉及数据分析技术，具体是基于数据分析的金融文本智能核查系统。

背景技术

金融领域的文本审核具有重要的意义，它可以帮助金融机构有效地识别和防范潜在的风险，保护投资者的合法权益，为了提高审核效率和准确性，许多金融机构开始采用人工智能技术，特别是机器学习模型，来进行金融文本审核。

现有技术中的金融文本智能核查系统一般是在文本数据提取之后进行去除噪声、分词以及词性标注，然后通过建模进行敏感词比对，根据比对结果生成文本核查结果；数据预处理虽然可以提高文本核查效率，但是失去了文本的原始特征，在完成敏感词比对之后无法根据文本的原始特征对敏感词库进行优化，从而导致风险核查结果精确性不高。

针对上述技术问题，本申请提出一种解决方案。

发明内容

本发明的目的在于提供基于数据分析的金融文本智能核查系统，用于解决现有技术中的金融文本智能核查系统在完成敏感词比对之后无法根据文本的原始特征对敏感词库进行优化的问题；

本发明需要解决的技术问题为：如何提供一种在完成敏感词比对之后可以根据文本的原始特征对敏感词库进行优化的基于数据分析的金融文本智能核查系统。

本发明的目的可以通过以下技术方案实现：

基于数据分析的金融文本智能核查系统，包括智能核查平台，所述智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块；

所述文本筛查模块用于对金融文本进行敏感词筛查分析：将进行智能核查的金融文本分解为若干个子文本，将子文本中的语句进行打散得到若干个词组，通过存储模块获取到敏感词库，将随机选取敏感词库中的一个敏感词并标记为筛查词，将子文本中所有的词组与筛查词进行比对并通过比对结果对敏感词是否与子文本关联进行判定；

所述词库优化模块用于对敏感词库进行优化分析：随机选取敏感词库中的一个敏感词作为优化对象，将与优化对象相关联的子文本标记为优化对象的关联文本，由所有关联文本中的词组构成关联集合，在关联集合内随机选取一个词组作为关键词，获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到关键词的优化系数YH，通过优化系数YH对关键词是否具有优化特征进行判定；

所述风险核验模块用于对金融文本进行风险评估。

作为本发明的一种优选实施方式，将子文本中所有的词组与筛查词进行比对的具体过程包括：若子文本中存在有与筛查词完全相同的词组，则将对应敏感词与子文本进行关联；若子文本中不存在有与筛查词完全相同的词组，则将对应敏感词标记为子文本的无关词；然后随机选取下一个敏感词标记为筛查词，直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词，子文本的敏感词筛查过程结束，在所有子文本全部完成敏感词筛查之后，将金融文本的筛查结果发送至智能核查平台，智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块。

作为本发明的一种优选实施方式，关联数据GL的获取过程包括：将包含有关键词的子文本标记为关键文本，将关键文本的关联数据GL；向量数据XL为所有子文本的数量；出现数据CX为关键词在关联集合中的出现次数。

作为本发明的一种优选实施方式，对关键词是否具有优化特征进行判定的具体过程包括：通过存储模块获取到优化阈值YHmax，将关键词的优化系数YH与优化阈值YHmax进行比较：若优化系数YH小于优化阈值YHmax，则判定关键词不具有优化特征；若优化系数YH大于等于优化阈值，则判定关键词具有优化特征，将对应关键词与敏感词库中所有敏感词进行比对：若敏感词库中包含有与关键词完全相同的敏感词，则不对关键词进行处理；若敏感词库中不包含与关键词完全相同的敏感词，则将对应关键词标记为敏感词并加入到敏感词库当中；在关联集合中所有词组均作为关键词进行优化分析之后，随机选取敏感词库中的下一个敏感词作为优化对象，重新建立关联集合并进行优化分析，直至敏感词库中所有敏感词全部作为优化对象完成优化分析。

作为本发明的一种优选实施方式，风险核验模块用于对金融文本进行风险评估：金融文本中所有敏感词出现次数的总和标记为敏感数据MG，通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX；通过存储模块获取到风险阈值FXmin、FXmax，将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较并通过比较结果对金融文本的核查等级进行标记。

作为本发明的一种优选实施方式，将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较的具体过程包括：若FX≤FXmin，则判定金融文本的核查风险性满足要求，将金融文本的核查等级标记为一等级，生成核查一级信号并将核查一级信号发送至智能核查平台，智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端；若FXmin＜FX＜FXmax，则判定金融文本的核查风险性不满足要求，将金融文本的核查等级标记为二等级，生成核查二级信号并将核查二级信号发送至智能核查平台，智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端；若FX≥FXmax，则判定金融文本的核查风险性不满足要求，将金融文本的核查等级标记为三等级，生成核查三级信号并将核查三级信号发送至智能核查平台，智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端。

作为本发明的一种优选实施方式，该基于数据分析的金融文本智能核查系统的工作方法，包括以下步骤：

步骤一：对金融文本进行敏感词筛查分析：将进行智能核查的金融文本分解为若干个子文本，将子文本中的语句进行打散得到若干个词组，通过存储模块获取到敏感词库，将随机选取敏感词库中的一个敏感词并标记为筛查词，将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定；

步骤二：对敏感词库进行优化分析：随机选取敏感词库中的一个敏感词作为优化对象，将与优化对象相关联的子文本标记为优化对象的关联文本，由所有关联文本中的词组构成关联集合，在关联集合内随机选取一个词组作为关键词，获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到优化系数YH，通过优化系数对关键词是否具有优化特征进行判定；

步骤三：对金融文本进行风险评估：金融文本中所有敏感词出现次数的总和标记为敏感数据MG，通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX，通过风险系数FX对金融文本的核查等级进行标记。

本发明具备下述有益效果：

1、通过文本筛查模块可以对金融文本进行敏感词筛查分析，通过将金融文本进行分割，然后对子文本中的语句进行打散得到词组，对每一个词组与敏感词库进行比对，根据比对结果对包含有敏感词的子文本进行标记，从而通过敏感词比对生成初步筛查结果；

2、通过词库优化模块可以对敏感词库进行优化分析，通过所有包含有敏感词的子文本的词组构成关联集合，从而对关联集合中元素的多项参数进行综合分析与计算得到优化系数，通过优化系数对关键词的敏感程度进行分析，从而将敏感程度较高的关键词补入到敏感词库当中，对敏感词库进行丰富优化，提高后续文本筛查的精确性；

3、通过风险核验模块可以对金融文本进行风险评估，在进行敏感词库优化之后再次对金融文本中的敏感词参数进行提取与计算得到风险系数，通过风险系数来对金融文本的核查风险性进行反馈。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的系统框图；

图2为本发明实施例二的方法流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

如图1所示，基于数据分析的金融文本智能核查系统，包括智能核查平台，智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块。

文本筛查模块用于对金融文本进行敏感词筛查分析：将进行智能核查的金融文本分解为若干个子文本，将子文本中的语句进行打散得到若干个词组，通过存储模块获取到敏感词库，将随机选取敏感词库中的一个敏感词并标记为筛查词，将子文本中所有的词组与筛查词进行比对：若子文本中存在有与筛查词完全相同的词组，则将对应敏感词与子文本进行关联；若子文本中不存在有与筛查词完全相同的词组，则将对应敏感词标记为子文本的无关词；然后随机选取下一个敏感词标记为筛查词，直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词，子文本的敏感词筛查过程结束，在所有子文本全部完成敏感词筛查之后，将金融文本的筛查结果发送至智能核查平台，智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块；对金融文本进行敏感词筛查分析，通过将金融文本进行分割，然后对子文本中的语句进行打散得到词组，对每一个词组与敏感词库进行比对，根据比对结果对包含有敏感词的子文本进行标记，从而通过敏感词比对生成初步筛查结果。

词库优化模块用于对敏感词库进行优化分析：随机选取敏感词库中的一个敏感词作为优化对象，将与优化对象相关联的子文本标记为优化对象的关联文本，由所有关联文本中的词组构成关联集合，在关联集合内随机选取一个词组作为关键词，获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB，关联数据GL的获取过程包括：将包含有关键词的子文本标记为关键文本，将关键文本的关联数据GL；向量数据XL为所有子文本的数量；出现数据CX为关键词在关联集合中的出现次数；文本数据WB为所有子文本的词组数量总和；通过公式YH=α1*GL/XL-α2*CX/WB得到关键词的优化系数YH，其中α1与α2均为比例系数，且α1＞α2＞1；通过存储模块获取到优化阈值YHmax，将关键词的优化系数YH与优化阈值YHmax进行比较：若优化系数YH小于优化阈值YHmax，则判定关键词不具有优化特征；若优化系数YH大于等于优化阈值，则判定关键词具有优化特征，将对应关键词与敏感词库中所有敏感词进行比对：若敏感词库中包含有与关键词完全相同的敏感词，则不对关键词进行处理；若敏感词库中不包含与关键词完全相同的敏感词，则将对应关键词标记为敏感词并加入到敏感词库当中；在关联集合中所有词组均作为关键词进行优化分析之后，随机选取敏感词库中的下一个敏感词作为优化对象，重新建立关联集合并进行优化分析，直至敏感词库中所有敏感词全部作为优化对象完成优化分析；对敏感词库进行优化分析，通过所有包含有敏感词的子文本的词组构成关联集合，从而对关联集合中元素的多项参数进行综合分析与计算得到优化系数，通过优化系数对关键词的敏感程度进行分析，从而将敏感程度较高的关键词补入到敏感词库当中，对敏感词库进行丰富优化，提高后续文本筛查的精确性。

风险核验模块用于对金融文本进行风险评估：金融文本中所有敏感词出现次数的总和标记为敏感数据MG，通过公式FX=（β1*GL+β2*MG）/（β3*XL）得到金融文本的风险系数FX，其中β1、β2以及β3均为比例系数，且β1＞β2＞β3＞1；通过存储模块获取到风险阈值FXmin、FXmax，将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较：若FX≤FXmin，则判定金融文本的核查风险性满足要求，将金融文本的核查等级标记为一等级，生成核查一级信号并将核查一级信号发送至智能核查平台，智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端；若FXmin＜FX＜FXmax，则判定金融文本的核查风险性不满足要求，将金融文本的核查等级标记为二等级，生成核查二级信号并将核查二级信号发送至智能核查平台，智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端；若FX≥FXmax，则判定金融文本的核查风险性不满足要求，将金融文本的核查等级标记为三等级，生成核查三级信号并将核查三级信号发送至智能核查平台，智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端；对金融文本进行风险评估，在进行敏感词库优化之后再次对金融文本中的敏感词参数进行提取与计算得到风险系数，通过风险系数来对金融文本的核查风险性进行反馈。

实施例二

如图2所示，基于数据分析的金融文本智能核查方法，包括以下步骤：

基于数据分析的金融文本智能核查系统，工作时，将进行智能核查的金融文本分解为若干个子文本，将子文本中的语句进行打散得到若干个词组，通过存储模块获取到敏感词库，将随机选取敏感词库中的一个敏感词并标记为筛查词，将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定；随机选取敏感词库中的一个敏感词作为优化对象，将与优化对象相关联的子文本标记为优化对象的关联文本，由所有关联文本中的词组构成关联集合，在关联集合内随机选取一个词组作为关键词，获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到优化系数YH，通过优化系数对关键词是否具有优化特征进行判定；金融文本中所有敏感词出现次数的总和标记为敏感数据MG，通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX，通过风险系数FX对金融文本的核查等级进行标记。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置；如：公式YH=α1*GL/XL-α2*CX/WB；由本领域技术人员采集多组样本数据并对每一组样本数据设定对应的优化系数；将设定的优化系数和采集的样本数据代入公式，任意两个公式构成二元一次方程组，将计算得到的系数进行筛选并取均值，得到α1以及α2的取值分别为3.25和2.67；

系数的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较，关于系数的大小，取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的优化系数；只要不影响参数与量化后数值的比例关系即可，如优化系数与关联数据的数值成正比。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于数据分析的金融文本智能核查系统，其特征在于，包括智能核查平台，所述智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块；

所述风险核验模块用于对金融文本进行风险评估。

2.根据权利要求1所述的基于数据分析的金融文本智能核查系统，其特征在于，将子文本中所有的词组与筛查词进行比对的具体过程包括：若子文本中存在有与筛查词完全相同的词组，则将对应敏感词与子文本进行关联；若子文本中不存在有与筛查词完全相同的词组，则将对应敏感词标记为子文本的无关词；然后随机选取下一个敏感词标记为筛查词，直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词，子文本的敏感词筛查过程结束，在所有子文本全部完成敏感词筛查之后，将金融文本的筛查结果发送至智能核查平台，智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块。

3.根据权利要求2所述的基于数据分析的金融文本智能核查系统，其特征在于，关联数据GL的获取过程包括：将包含有关键词的子文本标记为关键文本，将关键文本的关联数据GL；向量数据XL为所有子文本的数量；出现数据CX为关键词在关联集合中的出现次数。

4.根据权利要求3所述的基于数据分析的金融文本智能核查系统，其特征在于，对关键词是否具有优化特征进行判定的具体过程包括：通过存储模块获取到优化阈值YHmax，将关键词的优化系数YH与优化阈值YHmax进行比较：若优化系数YH小于优化阈值YHmax，则判定关键词不具有优化特征；若优化系数YH大于等于优化阈值，则判定关键词具有优化特征，将对应关键词与敏感词库中所有敏感词进行比对：若敏感词库中包含有与关键词完全相同的敏感词，则不对关键词进行处理；若敏感词库中不包含与关键词完全相同的敏感词，则将对应关键词标记为敏感词并加入到敏感词库当中；在关联集合中所有词组均作为关键词进行优化分析之后，随机选取敏感词库中的下一个敏感词作为优化对象，重新建立关联集合并进行优化分析，直至敏感词库中所有敏感词全部作为优化对象完成优化分析。

5.根据权利要求4所述的基于数据分析的金融文本智能核查系统，其特征在于，风险核验模块用于对金融文本进行风险评估：金融文本中所有敏感词出现次数的总和标记为敏感数据MG，通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX；通过存储模块获取到风险阈值FXmin、FXmax，将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较并通过比较结果对金融文本的核查等级进行标记。

6.根据权利要求5所述的基于数据分析的金融文本智能核查系统，其特征在于，将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较的具体过程包括：若FX≤FXmin，则判定金融文本的核查风险性满足要求，将金融文本的核查等级标记为一等级，生成核查一级信号并将核查一级信号发送至智能核查平台，智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端；若FXmin＜FX＜FXmax，则判定金融文本的核查风险性不满足要求，将金融文本的核查等级标记为二等级，生成核查二级信号并将核查二级信号发送至智能核查平台，智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端；若FX≥FXmax，则判定金融文本的核查风险性不满足要求，将金融文本的核查等级标记为三等级，生成核查三级信号并将核查三级信号发送至智能核查平台，智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端。

7.根据权利要求1-6任一项所述的基于数据分析的金融文本智能核查系统，其特征在于，该基于数据分析的金融文本智能核查系统的工作方法，包括以下步骤：