CN117236328A - 基于数据分析的金融文本智能核查系统 - Google Patents

基于数据分析的金融文本智能核查系统 Download PDF

Info

Publication number
CN117236328A
CN117236328A CN202311494955.2A CN202311494955A CN117236328A CN 117236328 A CN117236328 A CN 117236328A CN 202311494955 A CN202311494955 A CN 202311494955A CN 117236328 A CN117236328 A CN 117236328A
Authority
CN
China
Prior art keywords
text
financial
sensitive word
checking
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311494955.2A
Other languages
English (en)
Other versions
CN117236328B (zh
Inventor
邢光辉
董飞洋
欧洁怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taire Technology Co ltd
Original Assignee
Shenzhen Taire Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Taire Technology Co ltd filed Critical Shenzhen Taire Technology Co ltd
Priority to CN202311494955.2A priority Critical patent/CN117236328B/zh
Publication of CN117236328A publication Critical patent/CN117236328A/zh
Application granted granted Critical
Publication of CN117236328B publication Critical patent/CN117236328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明属于文本核查领域,涉及数据分析技术,用于解决现有技术中的金融文本智能核查系统在完成敏感词比对之后,无法根据文本的原始特征对敏感词库进行优化的问题,具体是基于数据分析的金融文本智能核查系统,包括智能核查平台,智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块;文本筛查模块用于对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组;本发明可以对金融文本进行敏感词筛查分析,通过将金融文本进行分割,然后对子文本中的语句进行打散得到词组,对每一个词组与敏感词库进行比对,从而通过敏感词比对生成初步筛查结果。

Description

基于数据分析的金融文本智能核查系统
技术领域
本发明属于文本核查领域,涉及数据分析技术,具体是基于数据分析的金融文本智能核查系统。
背景技术
金融领域的文本审核具有重要的意义,它可以帮助金融机构有效地识别和防范潜在的风险,保护投资者的合法权益,为了提高审核效率和准确性,许多金融机构开始采用人工智能技术,特别是机器学习模型,来进行金融文本审核。
现有技术中的金融文本智能核查系统一般是在文本数据提取之后进行去除噪声、分词以及词性标注,然后通过建模进行敏感词比对,根据比对结果生成文本核查结果;数据预处理虽然可以提高文本核查效率,但是失去了文本的原始特征,在完成敏感词比对之后无法根据文本的原始特征对敏感词库进行优化,从而导致风险核查结果精确性不高。
针对上述技术问题,本申请提出一种解决方案。
发明内容
本发明的目的在于提供基于数据分析的金融文本智能核查系统,用于解决现有技术中的金融文本智能核查系统在完成敏感词比对之后无法根据文本的原始特征对敏感词库进行优化的问题;
本发明需要解决的技术问题为:如何提供一种在完成敏感词比对之后可以根据文本的原始特征对敏感词库进行优化的基于数据分析的金融文本智能核查系统。
本发明的目的可以通过以下技术方案实现:
基于数据分析的金融文本智能核查系统,包括智能核查平台,所述智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块;
所述文本筛查模块用于对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对敏感词是否与子文本关联进行判定;
所述词库优化模块用于对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到关键词的优化系数YH,通过优化系数YH对关键词是否具有优化特征进行判定;
所述风险核验模块用于对金融文本进行风险评估。
作为本发明的一种优选实施方式,将子文本中所有的词组与筛查词进行比对的具体过程包括:若子文本中存在有与筛查词完全相同的词组,则将对应敏感词与子文本进行关联;若子文本中不存在有与筛查词完全相同的词组,则将对应敏感词标记为子文本的无关词;然后随机选取下一个敏感词标记为筛查词,直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词,子文本的敏感词筛查过程结束,在所有子文本全部完成敏感词筛查之后,将金融文本的筛查结果发送至智能核查平台,智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块。
作为本发明的一种优选实施方式,关联数据GL的获取过程包括:将包含有关键词的子文本标记为关键文本,将关键文本的关联数据GL;向量数据XL为所有子文本的数量;出现数据CX为关键词在关联集合中的出现次数。
作为本发明的一种优选实施方式,对关键词是否具有优化特征进行判定的具体过程包括:通过存储模块获取到优化阈值YHmax,将关键词的优化系数YH与优化阈值YHmax进行比较:若优化系数YH小于优化阈值YHmax,则判定关键词不具有优化特征;若优化系数YH大于等于优化阈值,则判定关键词具有优化特征,将对应关键词与敏感词库中所有敏感词进行比对:若敏感词库中包含有与关键词完全相同的敏感词,则不对关键词进行处理;若敏感词库中不包含与关键词完全相同的敏感词,则将对应关键词标记为敏感词并加入到敏感词库当中;在关联集合中所有词组均作为关键词进行优化分析之后,随机选取敏感词库中的下一个敏感词作为优化对象,重新建立关联集合并进行优化分析,直至敏感词库中所有敏感词全部作为优化对象完成优化分析。
作为本发明的一种优选实施方式,风险核验模块用于对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX;通过存储模块获取到风险阈值FXmin、FXmax,将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较并通过比较结果对金融文本的核查等级进行标记。
作为本发明的一种优选实施方式,将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较的具体过程包括:若FX≤FXmin,则判定金融文本的核查风险性满足要求,将金融文本的核查等级标记为一等级,生成核查一级信号并将核查一级信号发送至智能核查平台,智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端;若FXmin<FX<FXmax,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为二等级,生成核查二级信号并将核查二级信号发送至智能核查平台,智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端;若FX≥FXmax,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为三等级,生成核查三级信号并将核查三级信号发送至智能核查平台,智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端。
作为本发明的一种优选实施方式,该基于数据分析的金融文本智能核查系统的工作方法,包括以下步骤:
步骤一:对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定;
步骤二:对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到优化系数YH,通过优化系数对关键词是否具有优化特征进行判定;
步骤三:对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX,通过风险系数FX对金融文本的核查等级进行标记。
本发明具备下述有益效果:
1、通过文本筛查模块可以对金融文本进行敏感词筛查分析,通过将金融文本进行分割,然后对子文本中的语句进行打散得到词组,对每一个词组与敏感词库进行比对,根据比对结果对包含有敏感词的子文本进行标记,从而通过敏感词比对生成初步筛查结果;
2、通过词库优化模块可以对敏感词库进行优化分析,通过所有包含有敏感词的子文本的词组构成关联集合,从而对关联集合中元素的多项参数进行综合分析与计算得到优化系数,通过优化系数对关键词的敏感程度进行分析,从而将敏感程度较高的关键词补入到敏感词库当中,对敏感词库进行丰富优化,提高后续文本筛查的精确性;
3、通过风险核验模块可以对金融文本进行风险评估,在进行敏感词库优化之后再次对金融文本中的敏感词参数进行提取与计算得到风险系数,通过风险系数来对金融文本的核查风险性进行反馈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的系统框图;
图2为本发明实施例二的方法流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
如图1所示,基于数据分析的金融文本智能核查系统,包括智能核查平台,智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块。
文本筛查模块用于对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对:若子文本中存在有与筛查词完全相同的词组,则将对应敏感词与子文本进行关联;若子文本中不存在有与筛查词完全相同的词组,则将对应敏感词标记为子文本的无关词;然后随机选取下一个敏感词标记为筛查词,直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词,子文本的敏感词筛查过程结束,在所有子文本全部完成敏感词筛查之后,将金融文本的筛查结果发送至智能核查平台,智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块;对金融文本进行敏感词筛查分析,通过将金融文本进行分割,然后对子文本中的语句进行打散得到词组,对每一个词组与敏感词库进行比对,根据比对结果对包含有敏感词的子文本进行标记,从而通过敏感词比对生成初步筛查结果。
词库优化模块用于对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB,关联数据GL的获取过程包括:将包含有关键词的子文本标记为关键文本,将关键文本的关联数据GL;向量数据XL为所有子文本的数量;出现数据CX为关键词在关联集合中的出现次数;文本数据WB为所有子文本的词组数量总和;通过公式YH=α1*GL/XL-α2*CX/WB得到关键词的优化系数YH,其中α1与α2均为比例系数,且α1>α2>1;通过存储模块获取到优化阈值YHmax,将关键词的优化系数YH与优化阈值YHmax进行比较:若优化系数YH小于优化阈值YHmax,则判定关键词不具有优化特征;若优化系数YH大于等于优化阈值,则判定关键词具有优化特征,将对应关键词与敏感词库中所有敏感词进行比对:若敏感词库中包含有与关键词完全相同的敏感词,则不对关键词进行处理;若敏感词库中不包含与关键词完全相同的敏感词,则将对应关键词标记为敏感词并加入到敏感词库当中;在关联集合中所有词组均作为关键词进行优化分析之后,随机选取敏感词库中的下一个敏感词作为优化对象,重新建立关联集合并进行优化分析,直至敏感词库中所有敏感词全部作为优化对象完成优化分析;对敏感词库进行优化分析,通过所有包含有敏感词的子文本的词组构成关联集合,从而对关联集合中元素的多项参数进行综合分析与计算得到优化系数,通过优化系数对关键词的敏感程度进行分析,从而将敏感程度较高的关键词补入到敏感词库当中,对敏感词库进行丰富优化,提高后续文本筛查的精确性。
风险核验模块用于对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过公式FX=(β1*GL+β2*MG)/(β3*XL)得到金融文本的风险系数FX,其中β1、β2以及β3均为比例系数,且β1>β2>β3>1;通过存储模块获取到风险阈值FXmin、FXmax,将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较:若FX≤FXmin,则判定金融文本的核查风险性满足要求,将金融文本的核查等级标记为一等级,生成核查一级信号并将核查一级信号发送至智能核查平台,智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端;若FXmin<FX<FXmax,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为二等级,生成核查二级信号并将核查二级信号发送至智能核查平台,智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端;若FX≥FXmax,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为三等级,生成核查三级信号并将核查三级信号发送至智能核查平台,智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端;对金融文本进行风险评估,在进行敏感词库优化之后再次对金融文本中的敏感词参数进行提取与计算得到风险系数,通过风险系数来对金融文本的核查风险性进行反馈。
实施例二
如图2所示,基于数据分析的金融文本智能核查方法,包括以下步骤:
步骤一:对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定;
步骤二:对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到优化系数YH,通过优化系数对关键词是否具有优化特征进行判定;
步骤三:对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX,通过风险系数FX对金融文本的核查等级进行标记。
基于数据分析的金融文本智能核查系统,工作时,将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定;随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到优化系数YH,通过优化系数对关键词是否具有优化特征进行判定;金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX,通过风险系数FX对金融文本的核查等级进行标记。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式,公式中的系数是由本领域技术人员根据实际情况进行设置;如:公式YH=α1*GL/XL-α2*CX/WB;由本领域技术人员采集多组样本数据并对每一组样本数据设定对应的优化系数;将设定的优化系数和采集的样本数据代入公式,任意两个公式构成二元一次方程组,将计算得到的系数进行筛选并取均值,得到α1以及α2的取值分别为3.25和2.67;
系数的大小是为了将各个参数进行量化得到的一个具体的数值,便于后续比较,关于系数的大小,取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的优化系数;只要不影响参数与量化后数值的比例关系即可,如优化系数与关联数据的数值成正比。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (7)

1.基于数据分析的金融文本智能核查系统,其特征在于,包括智能核查平台,所述智能核查平台通信连接有文本筛查模块、词库优化模块、风险核验模块以及存储模块;
所述文本筛查模块用于对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对敏感词是否与子文本关联进行判定;
所述词库优化模块用于对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到关键词的优化系数YH,通过优化系数YH对关键词是否具有优化特征进行判定;
所述风险核验模块用于对金融文本进行风险评估。
2.根据权利要求1所述的基于数据分析的金融文本智能核查系统,其特征在于,将子文本中所有的词组与筛查词进行比对的具体过程包括:若子文本中存在有与筛查词完全相同的词组,则将对应敏感词与子文本进行关联;若子文本中不存在有与筛查词完全相同的词组,则将对应敏感词标记为子文本的无关词;然后随机选取下一个敏感词标记为筛查词,直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词,子文本的敏感词筛查过程结束,在所有子文本全部完成敏感词筛查之后,将金融文本的筛查结果发送至智能核查平台,智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块。
3.根据权利要求2所述的基于数据分析的金融文本智能核查系统,其特征在于,关联数据GL的获取过程包括:将包含有关键词的子文本标记为关键文本,将关键文本的关联数据GL;向量数据XL为所有子文本的数量;出现数据CX为关键词在关联集合中的出现次数。
4.根据权利要求3所述的基于数据分析的金融文本智能核查系统,其特征在于,对关键词是否具有优化特征进行判定的具体过程包括:通过存储模块获取到优化阈值YHmax,将关键词的优化系数YH与优化阈值YHmax进行比较:若优化系数YH小于优化阈值YHmax,则判定关键词不具有优化特征;若优化系数YH大于等于优化阈值,则判定关键词具有优化特征,将对应关键词与敏感词库中所有敏感词进行比对:若敏感词库中包含有与关键词完全相同的敏感词,则不对关键词进行处理;若敏感词库中不包含与关键词完全相同的敏感词,则将对应关键词标记为敏感词并加入到敏感词库当中;在关联集合中所有词组均作为关键词进行优化分析之后,随机选取敏感词库中的下一个敏感词作为优化对象,重新建立关联集合并进行优化分析,直至敏感词库中所有敏感词全部作为优化对象完成优化分析。
5.根据权利要求4所述的基于数据分析的金融文本智能核查系统,其特征在于,风险核验模块用于对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX;通过存储模块获取到风险阈值FXmin、FXmax,将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较并通过比较结果对金融文本的核查等级进行标记。
6.根据权利要求5所述的基于数据分析的金融文本智能核查系统,其特征在于,将金融文本的风险系数FX与风险阈值FXmin、FXmax进行比较的具体过程包括:若FX≤FXmin,则判定金融文本的核查风险性满足要求,将金融文本的核查等级标记为一等级,生成核查一级信号并将核查一级信号发送至智能核查平台,智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端;若FXmin<FX<FXmax,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为二等级,生成核查二级信号并将核查二级信号发送至智能核查平台,智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端;若FX≥FXmax,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为三等级,生成核查三级信号并将核查三级信号发送至智能核查平台,智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端。
7.根据权利要求1-6任一项所述的基于数据分析的金融文本智能核查系统,其特征在于,该基于数据分析的金融文本智能核查系统的工作方法,包括以下步骤:
步骤一:对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定;
步骤二:对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据GL、向量数据XL、出现数据CX以及文本数据WB并进行数值计算得到优化系数YH,通过优化系数对关键词是否具有优化特征进行判定;
步骤三:对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据MG,通过对敏感数据MG、关联数据GL以及向量数据XL进行数值计算得到金融文本的风险系数FX,通过风险系数FX对金融文本的核查等级进行标记。
CN202311494955.2A 2023-11-10 2023-11-10 基于数据分析的金融文本智能核查系统 Active CN117236328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311494955.2A CN117236328B (zh) 2023-11-10 2023-11-10 基于数据分析的金融文本智能核查系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311494955.2A CN117236328B (zh) 2023-11-10 2023-11-10 基于数据分析的金融文本智能核查系统

Publications (2)

Publication Number Publication Date
CN117236328A true CN117236328A (zh) 2023-12-15
CN117236328B CN117236328B (zh) 2024-01-30

Family

ID=89088396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311494955.2A Active CN117236328B (zh) 2023-11-10 2023-11-10 基于数据分析的金融文本智能核查系统

Country Status (1)

Country Link
CN (1) CN117236328B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107089A1 (en) * 1998-01-27 2004-06-03 Gross John N. Email text checker system and method
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN111046142A (zh) * 2019-12-13 2020-04-21 深圳前海环融联易信息科技服务有限公司 文本审查方法、装置、电子设备及计算机存储介质
CN111460814A (zh) * 2020-03-10 2020-07-28 中国平安人寿保险股份有限公司 敏感信息检测方法、装置、终端及介质
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质
WO2021052148A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于人工智能的合同敏感词校验方法、装置、计算机设备及存储介质
CN114417821A (zh) * 2022-03-29 2022-04-29 南昌华梦达航空科技发展有限公司 基于云平台的金融文本核查分析系统
CN116720515A (zh) * 2023-06-05 2023-09-08 上海识装信息科技有限公司 基于大语言模型的敏感词审核方法、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107089A1 (en) * 1998-01-27 2004-06-03 Gross John N. Email text checker system and method
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
WO2021052148A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于人工智能的合同敏感词校验方法、装置、计算机设备及存储介质
CN111046142A (zh) * 2019-12-13 2020-04-21 深圳前海环融联易信息科技服务有限公司 文本审查方法、装置、电子设备及计算机存储介质
CN111460814A (zh) * 2020-03-10 2020-07-28 中国平安人寿保险股份有限公司 敏感信息检测方法、装置、终端及介质
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质
CN114417821A (zh) * 2022-03-29 2022-04-29 南昌华梦达航空科技发展有限公司 基于云平台的金融文本核查分析系统
CN116720515A (zh) * 2023-06-05 2023-09-08 上海识装信息科技有限公司 基于大语言模型的敏感词审核方法、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PING XIONG ET.AL: "Privacy Risk Assessment for Text Data Based on Semantic Correlation Learning", 《SPRINGER NATURE SWITZERLAND AG 2021》, pages 200 - 208 *
汪少敏 等: "利用深度学习融合模型提升文本内容安全的研究", 电信科学, no. 05, pages 25 - 30 *

Also Published As

Publication number Publication date
CN117236328B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN110348214B (zh) 对恶意代码检测的方法及系统
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN113743111A (zh) 基于文本预训练和多任务学习的金融风险预测方法及装置
CN116663525B (zh) 一种文档审核方法、装置、设备及存储介质
CN110675269A (zh) 文本审核方法以及装置
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
Haryono et al. Aspect-based sentiment analysis of financial headlines and microblogs using semantic similarity and bidirectional long short-term memory
CN116248412B (zh) 共享数据资源异常检测方法、系统、设备、存储器及产品
CN116975206B (zh) 一种基于aigc大模型的垂直领域训练方法、装置及电子设备
CN117236328B (zh) 基于数据分析的金融文本智能核查系统
CN113378156B (zh) 一种基于api的恶意文件检测方法和系统
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN114662486A (zh) 一种基于机器学习的突发事件敏感词检测方法
CN114816962A (zh) 基于attention-lstm的网络故障预测方法
CN113468882A (zh) 一种识别相似备件的方法
CN112632284A (zh) 用于未标注文本数据集的信息抽取方法及系统
CN113268647B (zh) 一种网络安全情报数据的分类方法、系统及装置
Chmielowski et al. Application of explainable artificial intelligence in software bug classification
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
CN112434516B (zh) 一种融合正文文本信息的自适应评论情感分析系统及方法
Kuang et al. Automated detection on the security of the linked-list operations
CN116861905A (zh) 基于深度学习的电力标准实体关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant