CN114936282B - 金融风险线索确定方法、装置、设备和介质 - Google Patents

金融风险线索确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN114936282B
CN114936282B CN202210470144.8A CN202210470144A CN114936282B CN 114936282 B CN114936282 B CN 114936282B CN 202210470144 A CN202210470144 A CN 202210470144A CN 114936282 B CN114936282 B CN 114936282B
Authority
CN
China
Prior art keywords
text
word
initial
word vector
index table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210470144.8A
Other languages
English (en)
Other versions
CN114936282A (zh
Inventor
张东雷
柳力多
王芳芳
董立峰
曲宝玉
王磊
罗引
曹家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN202210470144.8A priority Critical patent/CN114936282B/zh
Publication of CN114936282A publication Critical patent/CN114936282A/zh
Application granted granted Critical
Publication of CN114936282B publication Critical patent/CN114936282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种金融风险线索确定方法、装置、设备和介质。该方法包括:获取待分类文本,并对待分类文本进行分词处理,得到各目标词语;基于各目标词语和目标词向量索引表,生成待分类文本对应的第一融合词向量组合;其中,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量;将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型;基于目标文本类型确定待分类文本是否为金融分线线索。通过上述技术方案,有效地提升了文本分类速度,进而提升线上金融业务中违规行为信息的发现效率。

Description

金融风险线索确定方法、装置、设备和介质
技术领域
本公开涉及大数据技术领域,尤其涉及一种金融风险线索确定方法、装置、设备和介质。
背景技术
随着互联网技术的发展,诸多业务已经通过“互联网+”的模式进行线上实现,例如“互联网+金融”实现了线上金融业务。由于互联网行为不易监管和互联网数据量大的特点,出现了难以及时发现线上金融业务中存在的违规行为信息(如非法集资的线索)的问题。
目前对于线上金融业务中存在的违规行为信息的发现,主要是通过对互联网数据进行数据挖掘来实现。例如,对从互联网中获取的大量金融数据进行数据清洗等预处理后,采用多种模型融合的方式来确定预处理后的金融数据的数据特征,然后将该数据特征输入预先训练好的分类模型中,以得到输入数据是否为违规行为信息的分类结果。
但是,上述技术方案中采用多种模型融合的方式存在模型冗余问题,使得实际应用中参与计算的模型较多,致使数据特征提取过程的模型权重数量庞大、模型运算速度慢,从而导致数据特征提取过程消耗的存储资源多、运算资源多且速度慢的问题,并最终导致线上金融业务中违规行为信息的发现率低。
发明内容
为了解决上述技术问题,本公开提供了一种金融风险线索确定方法、装置、设备和介质。
第一方面,本公开实施例提供了一种金融风险线索确定方法,该方法包括:
获取待分类文本,并对待分类文本进行分词处理,得到各目标词语;其中,待分类文本为线上金融业务生成的文本;
基于各目标词语和目标词向量索引表,生成待分类文本对应的第一融合词向量组合;其中,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量;
将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型;其中,文本分类模型利用初始文本样本集预先训练获得;
基于目标文本类型确定待分类文本是否为金融风险线索。
在一些实施例中,将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型包括:
基于待分类文本中包含的语句数量和每个语句中包含的词语数量,将第一融合词向量组合转换为至少两个第二融合词向量组合;
将各第二融合词向量组合输入文本分类模型,获得模型输出结果;
基于模型输出结果确定待分类文本的目标文本类型。
在一些实施例中,文本分类模型通过如下方式预先训练:
获取初始文本样本集;初始文本样本集中的每个初始文本样本包含初始文本和初始文本对应的风险标签;
基于初始文本样本集中的每个初始文本,构建初始词向量索引表;其中,初始词向量索引表中包含各词语和每个词语的索引位置;
基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表;其中,目标词向量索引表中包含各词语、每个词语对应的索引位置和词向量,多级别为词级别、2-gram级别和3-gram级别中的至少两个;
基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对预设神经网络模型进行训练,生成文本分类模型。
在一些实施例中,基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表包括:
基于初始词向量索引表,构建每个初始文本的词序组合;
对于每个词序组合,利用预设向量转换算法对词序组合进行2-gram级别和3-gram级别的向量转换,得到词序组合对应的2-gram级别词向量组合和3-gram级别词向量组合;
对于每个词序组合,对词序组合对应的词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成词序组合对应的第三融合词向量组合;
利用每个词序组合对应的第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表。
在一些实施例中,获取初始文本样本集包括:
获取预设维度对应的多个原始文本;
针对每个预设维度,利用预设维度的关键词词典对预设维度对应的各原始文本进行筛选,获得预设维度下的各初始文本;
基于每个初始文本和相应初始文本对应的风险标签,生成各预设维度对应的初始文本样本集。
在一些实施例中,任一预设维度的关键词词典通过如下方式预先构建:
对预设维度对应的各原始文本进行分词处理,获得各初始词语,并对各初始词语进行聚类分析,确定各聚类类别的中心关键词;
针对每个聚类类别,基于聚类类别中的各初始词语与聚类类别对应的中心关键词之间的词距离,确定聚类类别中的各候选关键词;
针对每个聚类类别,基于候选关键词和中心关键词之间的词相似度,对各候选关键词进行筛选,获得筛选关键词;
基于各聚类类别对应的中心关键词和筛选关键词,构建预设维度的关键词词典。
在一些实施例中,基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对预设神经网络模型进行训练,生成文本分类模型包括:
针对每个初始文本,基于目标词向量索引表、初始文本包含的语句数量和每个语句包含的词语数量,生成初始文本对应的第四融合词向量组合;
基于每个初始文本对应的第四融合词向量组合和风险标签,对预设神经网络模型进行训练,生成文本分类模型。
第二方面,本公开实施例还提供了一种金融风险线索确定装置,该装置包括:
待分类文本获取模块,用于获取待分类文本,并对待分类文本进行分词处理,得到各目标词语;
第一融合词向量组合生成模块,用于基于各目标词语和目标词向量索引表,生成待分类文本对应的第一融合词向量组合;其中,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量;
目标文本类型确定模块,将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型;其中,文本分类模型利用初始文本样本集预先训练获得;
金融风险线索确定模块,用于基于目标文本确定待分类文本是否为金融风险线索。
在一些实施例中,金融风险线索确定模块具体用于:
基于待分类文本中包含的语句数量和每个语句中包含的词语数量,将第一融合词向量组合转换为至少两个第二融合词向量组合;
将各第二融合词向量组合输入文本分类模型,获得模型输出结果;
基于模型输出结果确定待分类文本的目标文本类型。
在一些实施例中,金融风险线索确定装置还包括文本分类模型训练模块,该文本分类模型训练模块包括:
样本集获取单元,用于获取初始文本样本集;初始文本样本集中的每个初始文本样本包含初始文本和初始文本对应的风险标签;
索引表构建单元,用于基于初始文本样本集中的每个初始文本,构建初始词向量索引表;其中,初始词向量索引表中包含各词语和每个词语的索引位置;
第三融合特征向量生成单元,用于基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表;其中,目标词向量索引表中包含各词语、每个词语对应的索引位置和词向量,多级别为词级别、2-gram级别和3-gram级别中的至少两个;
文本分类模型训练单元,用于基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对预设神经网络模型进行训练,生成文本分类模型。
在一些实施例中,第三融合特征向量生成单元具体用于:
基于初始词向量索引表,构建每个初始文本的词序组合;
对于每个词序组合,利用预设向量转换算法对词序组合进行2-gram级别和3-gram级别的向量转换,得到词序组合对应的2-gram级别词向量组合和3-gram级别词向量组合;
对于每个词序组合,对词序组合对应的词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成词序组合对应的第三融合词向量组合;
利用每个词序组合对应的第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表。
在一些实施例中,样本集获取单元具体用于:
获取预设维度对应的多个原始文本;
针对每个预设维度,利用预设维度的关键词词典对预设维度对应的各原始文本进行筛选,获得预设维度下的各初始文本;
基于每个初始文本和相应初始文本对应的风险标签,生成各预设维度对应的初始文本样本集。
在一些实施例中,该文本分类模型训练装置还包括关键词词典构建单元,用于通过如下方式预先构建任一预设维度的关键词词典:
对预设维度对应的各原始文本进行分词处理,获得各初始词语,并对各初始词语进行聚类分析,确定各聚类类别的中心关键词;
针对每个聚类类别,基于聚类类别中的各初始词语与聚类类别对应的中心关键词之间的词距离,确定聚类类别中的各候选关键词;
针对每个聚类类别,基于候选关键词和中心关键词之间的词相似度,对各候选关键词进行筛选,获得筛选关键词;
基于各聚类类别对应的中心关键词和筛选关键词,构建预设维度的关键词词典。
在一些实施例中,文本分类模型训练单元具体用于:
针对每个初始文本,基于目标词向量索引表、初始文本包含的语句数量和每个语句包含的词语数量,生成初始文本对应的第四融合词向量组合;
基于每个初始文本对应的第四融合词向量组合和风险标签,对预设神经网络模型进行训练,生成文本分类模型。
第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行本公开任意实施例中所提供的金融风险线索确定方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行本公开任意实施例中所提供的金融风险线索确定方法的步骤。
本公开实施例提供的金融风险线索确定方法,通过对获取到的、线上金融业务产生的、需要进行风险分类的待分类文本进行分析处理得到目标词语,并利用目标词向量索引表对各目标词语进行词向量转换,生成该待分类文本对应的第一融合词向量组合,其中,目标词向量索引表基于初始文本样本集和具有多级别的词向量转换功能的预设向量转换算法预先构建;再将第一融合词向量组合输入预先训练好的文本分类模型,得到待分类文本的目标文本类型;进而根据目标文本类型确定待分类文本是否是违规行为信息的金融风险线索;解决了现有技术中因多种模型融合方式存在的模型冗余、模型权重数量庞大、模型运算速度慢的问题而造成的存储资源占用多、运算资源消耗多且计算速度慢的问题,实现了在确保线上金融业务中违规行为信息的发现准确率的同时,有效地提升模型运算速度,从而提升线上金融业务中违规行为信息的发现效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种金融风险线索确定方法的流程示意图;
图2为本公开实施例提供的一种文本分类模型训练方法的流程示意图;
图3是本公开实施例提供的又一种文本分类模型训练方法的流程示意图;
图4是本公开实施例提供的一种金融风险线索确定装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步的详细描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种金融风险线索确定方法的流程示意图。参见图1,该金融风险线索确定方法具体包括:
S110、获取待分类文本,并对待分类文本进行分词处理,得到各目标词语;其中,待分类文本为线上金融业务生成的文本。
其中,待分类文本是指需要进行风险类型分类判断的数据文本。在一些实施例中,待分类文本可以是在互联网海量文本数据中,抽取金融业务中三个预设维度相关的数据文本,通过对这些数据文本进行分类以进行风险线索的分类预测。分词可以是利用jieba分词工具对文本进行分词处理,可以将一段文本经过处理分成若干个语句,将一段语句分词若干个单独的词语。
具体地,电子设备从互联网海量文本数据中,获取金融业务中三个预设维度相关的需要进行风险分类的文本作为待分类文本,对获取到的待分类文本利用jiebe分词工具进行分词处理,得到该待分类文本对应的各目标词语。
可选地,利用分词工具对待分类文本进行分词处理,分词工具可以为jieba、pjuseg、lac分词工具中的一个,通过对比分词效果,lac分词更偏重实体方向,pkuseg和jieba分词效果相似,但jieba分词推理速度更快,因此采用jieba分词工具进行使用。其中金融业务中三个预设维度在下述实施例中详细说明,在此不再赘述。
S120、基于各目标词语和目标词向量索引表,生成待分类文本对应的第一融合词向量组合;其中,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量。
其中,第一融合词向量组合可以是由各个目标词语在目标词向量索引表中得到每个目标词语的索引位置,由每个目标词语索引对应的词向量共同组成第一融合词向量组合。
具体地,获取得到待分类文本的各目标词语后,基于目标词向量索引表,查找对应的目标词语在目标词向量索引表中每个词语的索引位置,通过待分类文本中各个目标词语对应的索引生成该待分类文本的第一融合词向量组合。
可选地,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量,其具体构建过程在下述实施例中详细说明,在此不再赘述。
S130、将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型;其中,文本分类模型利用初始文本样本集预先训练获得。
其中,本文分类模型可以为对待分类文本进行文本类型分类的模型,其训练过程在下述实施例中详细说明。文本类型可以是用于表征文本是否为金融风险线索的类型,例如可以包括风险类型和安全类型。目标文本类型是待分类文本对应的文本类型。
具体地,将得到的第一融合词向量组合输入至已经训练好的文本分类模型中,得到模型输出结果。在文本类型包含风险类型和安全类型的实施方式中,模型输出结果可以是两个概率值,即待分类文本属于安全类型的概率值和待分类文本属于风险类型的概率值。然后,根据模型输出结果确定待分类文本的目标文本类型,即将两个概率值中数值较大的概率值对应的文本类型确定为待分类文本的目标文本类型。例如,风险类型对应的概率值较大,那么确定待分类文本的目标文本类型为风险类型。
在一些实施例中,将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型包括:
S131、基于待分类文本中包含的语句数量和每个语句中包含的词语数量,将第一融合词向量组合转换为至少两个第二融合词向量组合。
其中,语句数量和词语数量分别为待分类文本中包含的语句的数量和每个语句中包含的分词的词语数量。例如,利用jieba分词对待分类文本进行处理后,例如可以将任一文本的每个语句处理成任意数量的词语,则该待分类文本中包含有经过处理后的语句数量和每个语句中包含的词语数量。
具体地,基于待分类文本中包含的语句数量和每个语句中包含的词语数量,可以将一篇文章处理成N×M的二维数据,其中N为句子数量,M为每个句子的词语数量,所以每个待分类文本输入的数据变成了batch*n_sentence*n_words(第二融合词向量组合),其中batch为每个文本分类模型每次处理的数据量的大小,n_sentence为待分类文本中保留的句子数量,n_words为每一个句子中保留的词语数量。因此,可将待分类文本对应的第一融合词向量组合转换为至少两个第二融合词向量组合,用于输入文本分类模型中。
S132、将各第二融合词向量组合输入文本分类模型,获得模型输出结果。
具体地,将转换好的各第二融合词向量组合输入至训练好的文本分类模型中,通过文本分类模型处理,得到该待分类文本对应的输出结果。
S133、基于模型输出结果确定待分类文本的目标文本类型。
具体地,通过模型输出的结果为两个概率值,将两个概率值中数值较大的概率值对应的文本类型确定为待分类文本的目标文本类型。
S140、基于目标文本类型确定待分类文本是否为金融风险线索。
具体地,在得到待分类文本的目标文本类型后,对待分类文本是否为金融风险线索进行判断。当待分类文本的目标文本类型为风险类型时,则确定待分类文本是金融风险线索;当待分类文本的目标文本类型为安全类型时,则确定待分类文本是正常的金融业务文本。
本公开实施例的上述技术方案,通过对获取到的、线上金融业务产生的、需要进行风险分类的待分类文本进行分析处理得到目标词语,并利用目标词向量索引表对各目标词语进行词向量转换,生成该待分类文本对应的第一融合词向量组合,其中,目标词向量索引表基于初始文本样本集和具有多级别的词向量转换功能的预设向量转换算法预先构建;再将第一融合词向量组合输入预先训练好的文本分类模型,对该待分类文本进行是否为违规行为信息的风险文本的分类,得到待分类文本的目标文本类型,基于目标文本类型确定待分类文本是否为金融风险线索,实现了在确保线上金融业务中违规行为信息的发现准确率的同时,有效地提升模型运算速度,从而提升线上金融业务中违规行为信息的发现效率。
图2是本公开实施例提供的一种文本分类模型训练方法的流程图。参见图2,该文本分类模型训练方法具体包括:
S210、获取初始文本样本集;初始文本样本集中的每个初始文本样本包含初始文本和初始文本对应的风险标签。
其中,初始文本样本集由多个初始文本共同构成,每个初始文本为经过筛选和风险标签标注后得到的文本。在一些实施例中,初始文本样本集包含按照1:1比例分布的正样本和负样本,正样本为标注的风险标签为风险类型的初始文本样本,负样本为标注的风险标签为安全类型的初始文本样本。这里的风险标签是预先设置的、用于表征初始文本的风险程度的标识性信息。例如,可以将符合违规行为信息的初始文本的风险标签设置为1,表征该初始文本为疑似违规行为产生的风险类型的文本;将正常行为信息的初始文本的风险标签设置为0,表征该初始文本为正常金融业务行为产生的安全类型的文本。
具体地,电子设备从互联网数据中抓取线上金融业务对应的诸多文本数据。然后,对这些文本数据进行过滤和筛选等预处理,得到各初始文本。之后,电子设备对每个初始文本进行其是否为违规行为信息的风险程度标注,即为每个初始文本设置表征文本为疑似违规行为产生的风险文本的风险类型或表征该文本为正常金融业务行为产生的非风险文本的安全类型的风险标签。这样,可获得包含各初始文本样本。
此外,为了确保后续模型训练的效率和准确性,电子设备还可以对各初始文本样本进行进一步的筛选,以确保风险标签为风险类型的正样本和风险标签为安全类型的负样本的数量比例为1:1。
在一个实施例中,获取初始文本样本集包括:
S211、获取预设维度对应的多个原始文本。
其中,预设维度是指预先设定的线上金融业务相关的业务模块。为了提高后续模型训练的准确性,预设维度的数量可以设置为不少于3个。在一些实施例中,预设维度可以是包括金融安全领域舆情维度、广告维度和投诉维度。原始文本可以是从网络上进行爬取直接得到的文本。
具体地,在互联网数据中例如从新闻、博客、电子报纸、微信、微博等渠道抽取数据,并通过金融安全领域舆情、广告、投诉三个维度从抽取的数据中再次抽取各预设维度对应的原始文本。通过抽取对应维度的原始文本并进行后续处理,以满足业务应用对各维度下文本数据的需求。
S212、针对每个预设维度,利用预设维度的关键词词典对预设维度对应的各原始文本进行筛选,获得预设维度下的各初始文本。
其中,关键词词典是由线上金融业务中的违规行为信息中的诸多关键词构成的集合,其用于对原始文本进行筛选。该关键词词典可以是预先人工构建,也可以是利用关键词提取的相关技术手段来预先构建。例如,关键词词典可以为利用聚类算法对原始文本进行处理,根据得到的中心关键词和筛选后的关键词共用组成关键词词典,用于对预设维度对应的各原始文本进行筛选,获得各预设维度下的初始文本。
具体地,在抽取得到三个维度下的原始文本后,根据关键词词典对各预设维度下的原始文本进行筛选。具体实施时,针对任一预设维度,将该预设维度下的各原始文本中包含关键词词典中的至少一个关键词的原始文本,确定为该预设维度下的初始文本。最终获得各预设维度下对应的各初始文本。
S213、基于每个初始文本和相应初始文本对应的风险标签,生成各预设维度对应的初始文本样本集。
具体地,根据预先设置的风险标签对每个初始文本进行标注,得到成对的初始文本和风险标签的初始文本样本。同时,可以对每个维度下的每个初始文本进行数据清洗,如分词、去除停用词、去除非汉语词等操作,生成各预设维度对应的初始文本样本集。
可选地,数据清洗可以发现并纠正文本数据中可分类的错误,并检查文本数据的一致性,处理无效文本和文本缺失,在此文本处理中进行只保留汉字的处理;分词通过对文本进行分词处理以使文本能够以词为单位进行分析;去除停用词中停用词为人工制作,在处理文本中自动过滤掉该制作后的停用词。
S220、基于初始文本样本集中的每个初始文本,构建初始词向量索引表;其中,初始词向量索引表中包含各词语和每个词语的索引位置。
其中,初始词向量索引表包括各词语和每个词语的索引位置,索引位置可以为该词语在各预设维度下的词典中的位置数据,通过该位置数据,可以在各预设维度下的词典中找到该对应的词语。
具体地,基于各预设维度的初始文本样本集,利用jieba分词对各预设维度制作各自的词表,其中各词表的大小为最高包含25W个词语。具体制作原则为:若制作词表大小不超过25W个词,则将该词表中的所有词语全部保留;若制作词表大小超过25W个词,则对所有的词语按照词频降序排序保留前25W个词语,作为该预设维度下的词表。初始文本样本集中的每个初始文本进行分词处理后包含对应的词语,每个词语在各预设维度下的词表中存在对应的位置数据。因此基于初始文本样本集中的每个初始文本,构建初始词向量索引表,初始词向量索引表中包含该初始文本对应的词语和每个词语在词表中的索引位置。
可选地,制作各预设维度的词表,利用分词工具对其进行分词制作词表,分词工具对比jieba、pkuseg、lac的分词效果,lac分词更偏重实体方向,pkuseg和jieba分词效果相似,但jieba分词推理速度更快,因此采用jieba分词工具进行使用。
S230、基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表;其中,目标词向量索引表中包含各词语、每个词语对应的索引位置和词向量,多级别为词级别和2-gram级别、3-gram级别中的至少一个共同构成。
其中,预设向量转换算法是预先设置的、用于将文本/词语转换为数字化向量的算法,例如可以是词频-逆词频算法、word2vec算法及其相关算法、N-gram算法等等。本公开实施例中,预设向量转换算法是各种文本转换为向量的算法中,能够将不同长度的文本(如词语、短语、短句等)转换为数字化向量的算法,例如可以是上述N-gram算法。N-gram算法是一种基于统计语言模型的算法其基于在实际中同一段文本第N个词的含义和文本中的每个词都会有一定的联系的假设,将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。第三融合词向量组合是指对初始文本对应的多级别的词向量进行向量融合后得到的结果。这里的组合也是一种向量的概念。如果词向量中的每个元素为一维向量,那么第一融合词向量组合便可理解为二维向量。如果词向量中的每个元素为单个数值,那么第一融合词向量组合可理解为一维向量。
相关技术中采用多种模型串联计算的方式对各初始文本进行数据特征的提取,其存在计算速度慢的问题。本公开实施例中摒弃了多种模型融合的方式,而是采用对每个初始文本进行多级别的向量转换和向量融合的方式进行各初始文本的数据特征的提取。该多级别的向量转换和向量融合的方式是指将初始文本拆分为不同的文本长度(对应多级别),并对每种文本长度进行词向量转换,且对各词向量转换结果进行融合,得到该初始文本对应的第三融合词向量组合。
具体地,在经过S220得到初始词向量索引表后,基于初始词向量索引表和预设向量转换算法,对每个初始文本进行多级别的向量转换和向量融合。其中,多级别表示为利用jieba分词可以对初始文本进行分词操作,通过初始文本中每个分词后的词进行排列组合。其中jieba分词后的每个文本最小可以拆分为单个字,因此由单个字可以构成两个字级别的2-gram级别和三个字级别的3-gram级别。向量转换可以为利用预设向量转算算法对初始词向量索引表进行2-gram级别索引表和3-gram级别索引表的构建。最后对词级别、2-gram级别、3-gram级别基于预设向量转换算法向量训练层,分别训练对应词向量,并进行向量融合,生成每个初始文本对应的第一融合词向量组合。得到的各初始文本的第三词向量组合更新初始词向量索引表,得到更新后的目标词向量索引表。
进一步地,通过2-gram哈希公式构建2-gram级别索引表,通过3-gram哈希公式构建3-gram级别索引表,基于预设向量转换算法词向量训练层,对词级别、2-gram级别、3-gram级别分别训练对应词向量,并进行向量融合,进而得到每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表。
在一个实施例中,基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第一融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表包括:
S231、基于初始词向量索引表,构建每个初始文本的词序组合。
其中,利用上述词表,基于每个初始文本中分词后每个词对应词表中的索引位置,构建每个初始文本的初始词向量索引表,基于预设向量转换算法词向量训练层,训练对应词级别的词向量,构建对应的每个初始文本的词序组合。
S232、对于每个词序组合,利用预设向量转换算法对词序组合进行2-gram和3-gram级别的向量转换,得到词序组合对应的2-gram级别词向量组合和3-gram级别词向量组合。
其中,构建每个初始文本的词序组合后,利用预设向量算法对初始词向量索引表进行2-gram和3-gram级别的向量转换,经过2-gram哈希公式和3-gram哈希公式得到对应的2-gram级别索引表和3-gram级别索引表,基于预设向量转换算法词向量训练层,训练对应的2-gram级别、3-gram级别的词向量,并构建对应的2-gram级别词向量组合和3-gram级别词向量组合。
具体地,针对2-gram级别的索引表转换利用2-gram哈希公式进行计算,其中2-gram哈希公式表示为:
(sequence[n-1]×HashValue1)%buckets
针对3-gram级别的索引表转换利用3-gram哈希公式进行计算,其中3-gram哈希公式表示为:
(sequence[n-1]×HashValue2+sequence[n-2]×14918087)%buckets
其中sequence为每一条初始文本的词级别索引表;buckets为2-gram、3-gram对应的词表大小,其值可更改,具体为:若jieba分词后的词表数为VocabValue,则2-gram的buckets上限和3-gram的buckets上限为其中为满足推理速度,根据经验,buckets值最好不要超过25W;HashValue无固定值可自行设定,需满足:值域定为buckets正整数倍加上左闭右开区间[2,buckets)任意整数,同时HashValue1和Hashvalue2的值不能相同,且为质数。
通过上述2-gram哈希公式和3-gram哈希公式,基于预设向量转换算法词向量训练层,得到对应的2-gram级别词向量组合和3-gram级别词向量组合。
S233、对于每个词序组合,对词序组合对应的词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成词序组合对应的第三融合词向量组合。
具体地,经过预设向量转换算法得到2-gram级别词向量组合和3-gram级别词向量组合,将词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成该词序组合对应的第三融合词向量组合。该第三融合词向量组合为对应的初始文本经过预设向量转换算法处理后得到的对应的词向量组合。
可选地,针对初始文本中的每个词都对应一个融合后的词向量,因此在利用分词制作的此表中,若该词表取最大值表示该词表大小为25W,则其中25W词都分别对应一个融合后的词向量。
S234、利用每个词序组合对应的第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表。
具体地,在得到第三融合词向量组合后,利用该第三融合词向量组合更新该初始文本对应的初始词向量索引表,得到更新后该初始文本对应的目标词向量索引表。
S240、基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对预设神经网络模型进行训练,生成文本分类模型。
其中,预设神经网络模型可以为深度学习分类模型,具体可以为fasttext、textcnn、textrnn、textrcnn、transformer中的其中一个模型算法。
具体地,fasttext、textcnn、textrnn、textrcnn、transformer多个模型算法都可以用来进行分类,在通过实验输入相同的数值向量,根据得到结果的准确率等评估指标确定采用textcnn模型算法作为使用的模型进行训练。在得到目标词向量索引表后,基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对textcnn模型进行训练。通过训练得到训练好的文本分类模型,利用该文本分类模型,对待分类文本进行预测,即可确定该待分类文本的文本类型。
本公开实施例的上述技术方案,通过利用多级别的向量转换和向量融合解决了现有技术中模型融合方法造成的准确率提升性价比不高、权重矩阵庞大、推理速度缓慢的问题,实现了在确保准确率的同时,推理速度有效地提升进而满足工业高并发使用需求的效果。并且通过利用分词将文本数据处理为二维文本,解决了现有技术中只处理单一长短文本数据导致训练结果与实际不符的问题,实现了更好的处理长短文本的序列特征,以满足互联网数据实际文本不均情况的效果。
图3是本公开实施例提供的又一种文本分类模型训练方法的流程图。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图3,该文本分类模型训练方法包括:
S301、获取预设维度对应的多个原始文本。
S302、针对每个预设维度,利用预设维度的关键词词典对预设维度对应的各原始文本进行筛选,获得预设维度下的各初始文本。
具体地,在得到每个预设维度下的关键词词典后,利用各维度的关键词词典对每个预设维度对应的原始文本进行关键词筛选,原始文本中只要符合关键词词典中的任意一个关键词,即将该原始文本作为该预设维度下的初始文本。
在一些实施例中,关键词词典通过如下步骤A~步骤D预先构建:
步骤A、对预设维度对应的各原始文本进行分词处理,获得各初始词语,并对各初始词语进行聚类分析,确定各聚类类别的中心关键词。
其中,聚类算法是发现数据对象之间的关系的算法,通过将数据进行分组,使得组内的相似性尽可能的大,组间的相似性尽可能的小;首先随机选择K个点作为初始质心,K为用户指定的期望的簇的个数,通过计算每个点到各个质心的举例,将每个点指派到最近的质心形成K个簇,然后根据指派到簇的点重新计算簇的执行,重复指派和更新质心,直到簇不发生变化或达到最大迭代次数则停止。
具体地,在得到三个预设维度的原始文本以后,利用分词处理得到各原始文本的初始词语,通过聚类算法对用词向量表示的词语进行聚类,通过不断迭代,得到指定数目的聚类中心词语,选择聚类中心词语作为文本的一个主要关键词。
步骤B、针对每个聚类类别,基于聚类类别中的各初始词语与聚类类别对应的中心关键词之间的词距离,确定聚类类别中的各候选关键词。
具体地,针对每个中心关键词所处的聚类类别,分别计算各个聚类类别中各初始词语与对应的中心关键词之间的词距离,根据曼哈顿距离,选择距离中心关键词词距离最近的十个关键词作为候选关键词。
步骤C、针对每个聚类类别,基于候选关键词和中心关键词之间的词相似度,对各候选关键词进行筛选,获得筛选关键词。
具体地,在得到候选关键词后,并设定相似度阈值:0.65。其中相似度阈值0.65为经过实验不断比较结果效果得到,在阈值为0.65时效果最佳。通过利用word2vec语义向量与关键词的向量进行相似度计算,相似度计算公式为余弦相似度:
其中,a、b为语义向量,若对每个关键词的相似度计算后的输出结果大于阈值,则将该候选关键词作为筛选关键词。
步骤D、基于各聚类类别对应的中心关键词和筛选关键词,构建预设维度的关键词词典。
具体地,在计算得到筛选关键词后,将各中心关键词和筛选关键词共同构成该维度的关键词词典,用于对原始文本进行关键词筛选。
可选地,关键词词典为保证其准确性,还可以通过由金融安全领域从业专家统一审核,得到多维度关键词词典。
通过上述步骤A~步骤D所提供的关键词词典构建方法,从各个渠道获取数据文本,利用关键词聚类抽取算法得到较为精准的关键词,经过专家审核可得到权威性、精确性、广泛性更高的关键词词典。
S303、基于每个初始文本和相应初始文本对应的风险标签,生成各预设维度对应的初始文本样本集。
具体地,通过文本标注对每个初始文本进行标注并得到其对应的风险标签,基于每个初始文本和其对应的风险标签,对每个维度的文本数据进行数据清洗、分词、去除停用词操作,生成各预设维度对应的初始文本样本集。
S304、基于初始文本样本集中的每个初始文本,构建初始词向量索引表;其中,初始词向量索引表中包含各词语和每个词语的索引位置。
具体地,基于各预设维度的初始文本样本集,利用jieba分词对各预设维度制作各自的词表。初始文本样本集中的每个初始文本进行分词处理后包含对应的词语,每个词语在各预设维度下的词表中存在对应的位置数据,因此基于初始文本样本集中的每个初始文本,构建初始词向量索引表,初始词向量索引表中包含该初始文本对应的词语和每个词语在词表中的索引位置。
S305、基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表;其中,目标词向量索引表中包含各词语、每个词语对应的索引位置和词向量,多级别为词级别、2-gram级别和3-gram级别中的至少两个。
具体地,在经过上述步骤得到初始词向量索引表后,基于初始词向量索引表和预设向量转换算法,对个初始文本进行多级别的向量转换和向量融合。其中,多级别表示为利用jieba分词可以将初始文本进行分词,通过初始文本中每个分词后的词进行排列组合,其中jieba分词后的每个文本最小可以拆分为单个字,因此由单个字可以构成两个字级别的2-gram级别和三个字级别的3-gram级别。向量转换可以为利用预设向量转算算法对初始词向量索引表进行2-gram级别索引表和3-gram级别索引表的构建。最后对词级别、2-gram级别、3-gram级别基于预设向量转换算法向量训练层,分别训练对应词向量,并进行向量融合,生成每个初始文本对应的第三融合词向量组合。得到的各初始文本的第三融合词向量组合更新初始词向量索引表,得到更新后的目标词向量索引表。
S306、针对每个初始文本,基于目标词向量索引表、初始文本包含的语句数量和每个语句包含的词语数量,生成初始文本对应的第四融合词向量组合。
具体地,将初始文本处理成N*M二维数据,其中N为初始文本包含的语句数量,M为初始文本每个语句中的词语数量,对初始文本中每个词基于目标词向量索引表,得到初始文本对应的第四融合词向量组合。
S307、基于每个初始文本对应的第四融合词向量组合和风险标签,对预设神经网络模型进行训练,生成文本分类模型。
具体地,在得到第四融合词向量组合后,并基于风险标签输入值预设神经网络模型中进行训练。其中,每个初始文本转换后的二维数据(即第四融合词向量组合)表示为:batch*n_sentence*n_words。其中batch为每个训练批次大小,n_sentence为每篇文章保留句子数量,n_words为每一个句子中保留词语数量。通过使用textcnn训练,得到文本分类模型。
具体地,将batch*n_sentence*n_words的数据进行embedding后维度为batch*n_sentence*n_words*embedding_dim,对词语的维度进行均值池化,维度为batch*n_sentence*n_embedding_dim。通过进行2-gram、3-gram的长度卷积操作,取出保留句子中最显著的特征,进行接段连接层分类处理,分类结果经过激活函数激活,其中激活函数选择sigmoid函数,如下公式所示,其中x为sigmoid函数的输入值:
Loss损失函数选择多分类交叉熵受损失CrossEntropyLoss(),如下公式所示,其中x为logSoftmax()之后的数值列表:
本公开实施例的上述技术方案,通过获取预设维度的多个原始文本,通过分词处理并对其进行关键词聚类分析,得到每个预设维度对应的关键词词典;利用各关键词词典对对应的各预设维度的原始文本进行筛选得到各维度下的初始文本;通过文本标注得到各初始文本的风险标签,并生成各预设维度对应的初始文本样本集。实现了利用关键词词典对各原始文本进行筛选,避免了人工筛选噪声文本而产生的耗时耗力的问题,提高了初始文本样本集的构建速度。通过针对每个初始文本,基于目标词向量索引表、初始文本包含的语句数量和每个语句包含的词语数量,生成初始文本对应的第四融合词向量组合;基于每个初始文本对应的第四融合词向量组合和风险标签,对预设神经网络模型进行训练,生成文本分类模型。实现了利用泛性数据处理方式,将初始文本转换为与其语句数量和语句中的词语数量相匹配的二维矩阵,解决了相关技术中神经网络模型的输入为单一长文本或短文本而造成的数据分布不一致的问题,更好考虑了长短文本的序列特征,使得文本分类模型的处理更加符合互联网数据实际文本不均匀的情况,提高文本分类模型的普适性和文本分类效率。
图4为本公开实施例提供的一种金融风险线索确定装置的结构示意图。如图4所示,该金融风险线索确定装置400包括:
待分类文本获取模块410,用于获取待分类文本,并对待分类文本进行分词处理,得到各目标词语;
第一融合词向量组合生成模块420,用于基于各目标词语和目标词向量索引表,生成待分类文本对应的第一融合词向量组合;其中,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量;
目标文本类型确定模块430,将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型;其中,文本分类模型利用初始文本样本集预先训练获得。
金融风险线索确定模块440,用于基于目标文本类型确定待分类文本是否为金融风险线索。
通过本公开实施例提供的一种金融风险线索确定装置,通过对获取到的待分类文本进行分析处理得到目标词语,基于各目标词语和目标词向量索引表生成该待分类文本对应的第一融合词向量组合,利用预先训练好的文本分类模型,对该待分类文本进行分类,以确定待分类文本的目标文本类型;进而根据目标文本类型确定待分类文本是否是违规行为信息的金融风险线索。解决了现有技术中因多种模型融合方式存在的模型冗余、模型权重数量庞大、模型运算速度慢的问题而造成的存储资源占用多、运算资源消耗多且计算速度慢的问题,实现了在确保线上金融业务中违规行为信息的发现准确率的同时,有效地提升模型运算速度,从而提升线上金融业务中违规行为信息的发现效率。
在一些实施例中,目标文本类型确定模块430具体用于:
基于待分类文本中包含的语句数量和每个语句中包含的词语数量,将第一融合词向量组合转换为至少两个第二融合词向量组合;
将各第二融合词向量组合输入文本分类模型,获得模型输出结果;
基于模型输出结果确定待分类文本的文本类型。
在一些实施例中,金融风险线索确定装置400还包括文本分类模型训练模块,该文本分类模型训练模块包括:
样本集获取单元,用于获取初始文本样本集;初始文本样本集中的每个初始文本样本包含初始文本和初始文本对应的风险标签;
索引表构建单元,用于基于初始文本样本集中的每个初始文本,构建初始词向量索引表;其中,初始词向量索引表中包含各词语和每个词语的索引位置;
第三融合特征向量生成单元,用于基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表;其中,目标词向量索引表中包含各词语、每个词语对应的索引位置和词向量,多级别为词级别和2-gram级别、3-gram级别中的至少一个共同构成;
文本分类模型训练单元,用于基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对预设神经网络模型进行训练,生成文本分类模型。
在一些实施例中,第三融合特征向量生成单元具体用于:
基于初始词向量索引表,构建每个初始文本的词序组合;
对于每个词序组合,利用预设向量转换算法对词序组合进行2-gram级别和3-gram级别的向量转换,得到词序组合对应的2-gram级别词向量组合和3-gram级别词向量组合;
对于每个词序组合,对词序组合对应的词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成词序组合对应的第三融合词向量组合;
利用每个词序组合对应的第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表。
在一些实施例中,样本集获取单元具体用于:
获取预设维度对应的多个原始文本;
针对每个预设维度,利用预设维度的关键词词典对预设维度对应的各原始文本进行筛选,获得预设维度下的各初始文本;
基于每个初始文本和相应初始文本对应的风险标签,生成各预设维度对应的初始文本样本集。
在一些实施例中,该文本分类模型训练模块还包括关键词词典构建单元,用于通过如下方式预先构建任一预设维度的关键词词典:
对预设维度对应的各原始文本进行分词处理,获得各初始词语,并对各初始词语进行聚类分析,确定各聚类类别的中心关键词;
针对每个聚类类别,基于聚类类别中的各初始词语与聚类类别对应的中心关键词之间的词距离,确定聚类类别中的各候选关键词;
针对每个聚类类别,基于候选关键词和中心关键词之间的词相似度,对各候选关键词进行筛选,获得筛选关键词;
基于各聚类类别对应的中心关键词和筛选关键词,构建预设维度的关键词词典。
在一些实施例中,文本分类模型训练单元具体用于:
针对每个初始文本,基于目标词向量索引表、初始文本包含的语句数量和每个语句包含的词语数量,生成初始文本对应的第二融合词向量组合;
基于每个初始文本对应的第二融合词向量组合和风险标签,对预设神经网络模型进行训练,生成文本分类模型。
本公开实施例所提供的金融风险线索确定装置400可执行本公开任意实施例所提供的金融风险线索确定方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述金融风险线索确定模型训练装置的实施例中,所包括的各个模块、单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。
图5为本公开实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括一个或多个处理器501和存储器502。
处理器501可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备500中的其他组件以执行期望的功能。
存储器502可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器501可以运行所述程序指令,以实现上文所说明的本公开实施例的文本分类模型训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备500还可以包括:输入装置503和输出装置504,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。该输入装置503可以包括例如键盘、鼠标等等。该输出装置504可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置504可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备500中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备500还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的文本分类模型训练方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的文本分类模型训练方法。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,本公开所用术语仅为了描述特定实施例,而非限制本申请范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种金融风险线索确定方法,其特征在于,包括:
获取待分类文本,并对所述待分类文本进行分词处理,得到各目标词语;其中,所述待分类文本为线上金融业务生成的文本;
基于各所述目标词语和目标词向量索引表,生成所述待分类文本对应的第一融合词向量组合;其中,所述目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,所述初始文本样本集为文本分类模型的训练样本集,所述预设向量转换算法用于将文本转换为多级别的词向量;
将所述第一融合词向量组合输入所述文本分类模型,并根据模型输出结果确定所述待分类文本的目标文本类型;其中,所述文本分类模型利用所述初始文本样本集预先训练获得;
基于所述目标文本类型确定所述待分类文本是否为金融风险线索;
其中,所述文本分类模型通过如下方式预先训练:
获取所述初始文本样本集;所述初始文本样本集中的每个初始文本样本包含初始文本和所述初始文本对应的风险标签;
基于所述初始文本样本集中的每个所述初始文本,构建初始词向量索引表;其中,所述初始词向量索引表中包含各词语和每个所述词语的索引位置;
基于所述初始词向量索引表和所述预设向量转换算法,对各所述初始文本进行所述多级别的向量转换和向量融合,生成每个所述初始文本对应的第三融合词向量组合,并利用各所述第三融合词向量组合更新所述初始词向量索引表,得到目标词向量索引表;其中,所述目标词向量索引表中包含各所述词语、每个所述词语对应的索引位置和词向量,所述多级别为词级别、2-gram级别和3-gram级别中的至少两个;
基于所述目标词向量索引表、各所述初始文本和每个所述初始文本对应的所述风险标签,对预设神经网络模型进行训练,生成所述文本分类模型;
其中,所述基于所述初始词向量索引表和所述预设向量转换算法,对各所述初始文本进行所述多级别的向量转换和向量融合,生成每个所述初始文本对应的第三融合词向量组合,并利用各所述第三融合词向量组合更新所述初始词向量索引表,得到目标词向量索引表包括:
基于所述初始词向量索引表,构建每个所述初始文本的词序组合;
对于每个所述词序组合,利用所述预设向量转换算法对所述词序组合进行2-gram级别和3-gram级别的向量转换,得到所述词序组合对应的2-gram级别词向量组合和3-gram级别词向量组合;
对于每个所述词序组合,对所述词序组合对应的词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成所述词序组合对应的所述第三融合词向量组合;
利用每个所述词序组合对应的所述第三融合词向量组合更新所述初始词向量索引表,得到所述目标词向量索引表。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一融合词向量组合输入所述文本分类模型,并根据模型输出结果确定所述待分类文本的目标文本类型包括:
基于所述待分类文本中包含的语句数量和每个语句中包含的词语数量,将所述第一融合词向量组合转换为至少两个第二融合词向量组合;
将各所述第二融合词向量组合输入所述文本分类模型,获得所述模型输出结果;
基于所述模型输出结果确定所述待分类文本的目标文本类型。
3.根据权利要求1所述的方法,其特征在于,所述获取所述初始文本样本集包括:
获取预设维度对应的多个原始文本;
针对每个所述预设维度,利用所述预设维度的关键词词典对所述预设维度对应的各所述原始文本进行筛选,获得所述预设维度下的各所述初始文本;
基于每个所述初始文本和相应初始文本对应的所述风险标签,生成各所述预设维度对应的所述初始文本样本集。
4.根据权利要求3所述的方法,其特征在于,任一所述预设维度的所述关键词词典通过如下方式预先构建:
对所述预设维度对应的各所述原始文本进行分词处理,获得各初始词语,并对各所述初始词语进行聚类分析,确定各聚类类别的中心关键词;
针对每个所述聚类类别,基于所述聚类类别中的各所述初始词语与所述聚类类别对应的所述中心关键词之间的词距离,确定所述聚类类别中的各候选关键词;
针对每个所述聚类类别,基于所述候选关键词和所述中心关键词之间的词相似度,对各所述候选关键词进行筛选,获得筛选关键词;
基于各所述聚类类别对应的所述中心关键词和所述筛选关键词,构建所述预设维度的所述关键词词典。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标词向量索引表、各所述初始文本和每个所述初始文本对应的所述风险标签,对预设神经网络模型进行训练,生成文本分类模型包括:
针对每个所述初始文本,基于所述目标词向量索引表、所述初始文本包含的语句数量和每个语句包含的词语数量,生成所述初始文本对应的第四融合词向量组合;
基于每个所述初始文本对应的所述第四融合词向量组合和所述风险标签,对预设神经网络模型进行训练,生成文本分类模型。
6.一种金融风险线索确定装置,其特征在于,包括:
待分类文本获取模块,用于获取待分类文本,并对所述待分类文本进行分词处理,得到各目标词语;
第一融合词向量组合生成模块,用于基于各所述目标词语和目标词向量索引表,生成所述待分类文本对应的第一融合词向量组合;其中,所述目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,所述初始文本样本集为文本分类模型的训练样本集,所述预设向量转换算法用于将文本转换为多级别的词向量;
目标文本类型确定模块,将所述第一融合词向量组合输入所述文本分类模型,并根据模型输出结果确定所述待分类文本的目标文本类型;其中,所述文本分类模型利用所述初始文本样本集预先训练获得;
金融风险线索确定模块,用于基于所述目标文本类型确定所述待分类文本是否为金融风险线索;
其中,所述装置还包括文本分类模型训练模块,所述文本分类模型训练模块包括:
样本集获取单元,用于获取初始文本样本集;初始文本样本集中的每个初始文本样本包含初始文本和初始文本对应的风险标签;
索引表构建单元,用于基于初始文本样本集中的每个初始文本,构建初始词向量索引表;其中,初始词向量索引表中包含各词语和每个词语的索引位置;
第三融合特征向量生成单元,用于基于初始词向量索引表和预设向量转换算法,对各初始文本进行多级别的向量转换和向量融合,生成每个初始文本对应的第三融合词向量组合,并利用各第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表;其中,目标词向量索引表中包含各词语、每个词语对应的索引位置和词向量,多级别为词级别、2-gram级别和3-gram级别中的至少两个;所述多级别是按照相应级别所包含的字数,对所述初始文本进行分词处理所获得的单个字进行排列组合而得到;
文本分类模型训练单元,用于基于目标词向量索引表、各初始文本和每个初始文本对应的风险标签,对预设神经网络模型进行训练,生成文本分类模型;
其中,所述第三融合特征向量生成单元具体用于:
基于初始词向量索引表,构建每个初始文本的词序组合;
对于每个词序组合,利用预设向量转换算法对词序组合进行2-gram级别和3-gram级别的向量转换,得到词序组合对应的2-gram级别词向量组合和3-gram级别词向量组合;
对于每个词序组合,对词序组合对应的词级别词向量组合、2-gram级别词向量组合和3-gram级别词向量组合进行向量融合,生成词序组合对应的第三融合词向量组合;
利用每个词序组合对应的第三融合词向量组合更新初始词向量索引表,得到目标词向量索引表。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至5任一项所述的金融风险线索确定方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至5任一项所述的金融风险线索确定方法的步骤。
CN202210470144.8A 2022-04-28 2022-04-28 金融风险线索确定方法、装置、设备和介质 Active CN114936282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210470144.8A CN114936282B (zh) 2022-04-28 2022-04-28 金融风险线索确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210470144.8A CN114936282B (zh) 2022-04-28 2022-04-28 金融风险线索确定方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN114936282A CN114936282A (zh) 2022-08-23
CN114936282B true CN114936282B (zh) 2024-06-11

Family

ID=82862024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210470144.8A Active CN114936282B (zh) 2022-04-28 2022-04-28 金融风险线索确定方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114936282B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308758B (zh) * 2023-03-20 2024-01-05 深圳征信服务有限公司 一种基于大数据的金融风险分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291195B (zh) * 2020-01-21 2021-08-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
CN113011533B (zh) * 2021-04-30 2023-10-24 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质

Also Published As

Publication number Publication date
CN114936282A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
US11210468B2 (en) System and method for comparing plurality of documents
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US11580119B2 (en) System and method for automatic persona generation using small text components
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN107506472B (zh) 一种学生浏览网页分类方法
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110909531A (zh) 信息安全的甄别方法、装置、设备及存储介质
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN111241410A (zh) 一种行业新闻推荐方法及终端
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
Nasim et al. Cluster analysis of urdu tweets
CN114936282B (zh) 金融风险线索确定方法、装置、设备和介质
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
Assegaff et al. Experimental of vectorizer and classifier for scrapped social media data
CN114742062B (zh) 文本关键词提取处理方法及系统
CN117151089A (zh) 新词发现方法、装置、设备和介质
JP2023072863A (ja) 情報処理装置、情報処理方法およびプログラム
Cabrera et al. INFOTEC-LaBD at PoliticES 2022: Low-dimensional Stacking Model for Political Ideology Profiling.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant