CN116955608A - 账户状态信息获取方法、装置、电子设备和可读介质 - Google Patents

账户状态信息获取方法、装置、电子设备和可读介质 Download PDF

Info

Publication number
CN116955608A
CN116955608A CN202310090407.7A CN202310090407A CN116955608A CN 116955608 A CN116955608 A CN 116955608A CN 202310090407 A CN202310090407 A CN 202310090407A CN 116955608 A CN116955608 A CN 116955608A
Authority
CN
China
Prior art keywords
text
account
vector
vectors
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310090407.7A
Other languages
English (en)
Inventor
苏文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310090407.7A priority Critical patent/CN116955608A/zh
Publication of CN116955608A publication Critical patent/CN116955608A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种账户状态信息获取方法、装置、电子设备和可读介质。该方法包括:分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量;根据预设的目标文本,分别对文本数据中的目标文本进行匹配,得到M个文本统计向量;将M个文本向量与M个文本统计向量进行向量拼接,得到拼接向量;根据拼接向量进行账户状态分析,得到待处理账户的账户状态信息。该方法通过语义分类与专家经验确定的目标文本相结合,将专家经验引入到分类模型中,同时保留分类模型对通用语义的拟合能力,使得专家经验覆盖新案例、传统文本分类模型覆盖常见案例,从而提升账户状态管理的覆盖范围和准确性。

Description

账户状态信息获取方法、装置、电子设备和可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种账户状态信息获取方法、装置、电子设备和可读介质。
背景技术
随着互联网技术的迅速发展和移动支付的普及,通过互联网进行交易成为常态,而在互联网交易过程中也存在具有目标行为的交易过程,例如各类存在风险或者不合规的交易,如何对这些类别的交易进行识别并进行风险管理成为难题。
在相关技术中,交易账户风险状态的管理过程主要依赖于利用交易文本的语义,即通过对交易文本的语义进行分析,根据语义的评测结果来对账户的风险状态进行分析和获取。
然而,语义分析大都是在通用文本分类上取得良好效果,随着账户风险越发复杂,仅采用语义分析已经难以对风险账户的状态进行覆盖,影响交易账户状态管理的有效性。
发明内容
基于上述技术问题,本申请提供一种账户状态信息获取方法、装置、电子设备和可读介质,以通过语义分类与专家经验确定的目标文本相结合,将专家经验引入到分类模型中,同时保留分类模型对通用语义的拟合能力,使得专家经验覆盖新案例、传统文本分类模型覆盖常见案例,从而提升账户状态管理的覆盖范围和准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种账户状态信息获取方法,包括:
分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量;
根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量;
将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量;
根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息。
根据本申请实施例的一个方面,提供一种账户状态信息获取装置,包括:
卷积模块,用于分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量;
匹配模块,用于根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量;
拼接模块,用于将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量;
评估模块,用于根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息。
在本申请的一些实施例中,基于以上技术方案,所述待处理账户的交易文本中包含M个文本类别的文本数据;卷积模块包括:
嵌入单元,用于根据所述文本类别对应的嵌入层模型,对于所述M个文本类别的文本数据分别进行嵌入转换过程,得到M个文本类别的嵌入向量;
卷积单元,用于根据所述文本类别对应的卷积层模型,分别对所述M个文本类别的嵌入向量进行卷积,得到所述M个文本类别的文本向量。
在本申请的一些实施例中,基于以上技术方案,拼接模块包括:
均值计算单元,用于对于所述M个文本向量,计算每个文本向量的向量值均值;
拼接单元,用于将M个向量值均值与文本统计向量依次拼接,得到拼接向量。
在本申请的一些实施例中,基于以上技术方案,账户状态信息获取装置还包括:
训练数据获取模块,用于获取所述M个文本类别的训练文本数据;
训练匹配模块,用于根据预设的目标文本,对所述训练文本数据中的目标文本进行匹配,得到训练文本统计向量;
训练预测模块,用于根据各个文本类别的训练文本数据和所述训练文本统计向量,分别通过各个文本类别对应的待训练嵌入层模型和待训练卷积层模型进行预测,得到训练预测结果;
模型训练模块,用于根据所述训练预测结果和损失函数,对所述待训练嵌入层模型和所述待训练卷积层模型进行训练,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本申请的一些实施例中,基于以上技术方案,模型训练模块包括:
参数确定单元,用于对于各个文本类别,根据对应的训练文本数据的正样本与负样本的比例以及难易样本的分布,确定损失参数;
损失计算单元,用于将所述训练预测结果和所述损失参数带入损失函数进行计算,得到损失结果;
参数调整单元,用于根据所述损失结果,调整所述待待训嵌入层模型和所述待训练卷积层模型的模型参数,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本申请的一些实施例中,基于以上技术方案,训练数据获取模块包括:
文本获取单元,用于获取交易账户的第一交易文本和风险账户的第二交易文本,所述第一交易文本和所述第二交易文本中包含对应于至少一个文本类别的文本数据;
文字组合单元,用于将所述风险账户的交易文本中的文字打乱并重新组合,得到模拟交易文本;
文本合并单元,用于将所述交易账户的交易文本、所述风险账户的交易文本和所述模拟交易文本合并作为所述训练文本数据。
在本申请的一些实施例中,基于以上技术方案,拼接模块包括:
加权单元,用于根据预设的权重规则,对所述文本向量和所述文本统计向量进行加权,得到文本加权向量和统计加权向量;
融合单元,用于通过特征融合模型,根据所述文本加权向量和所述统计加权向量之间的映射关系,生成拼接向量。
在本申请的一些实施例中,基于以上技术方案,所述匹配模块包括:
统计单元,用于根据预设的目标文本,分别统计M个文本数据中出现所述目标文本的个数和次数,得到所述M个文本数据中目标文本的个数统计结果和次数统计结果;
归一化单元,用于分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量。
在本申请的一些实施例中,基于以上技术方案,归一化单元包括:
最大值获取子单元,用于获取所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果中的最大值和最小值;
线性变化子单元,用于根据所述最大值和所述最小值,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行线性变换,得到所述M个文本统计向量。
在本申请的一些实施例中,基于以上技术方案,归一化单元包括:
标准差计算子单元,用于计算所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果的均值和标准差;
标准化子单元,用于根据所述均值和所述标准差,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行标准化,得到所述M个文本统计向量。
在本申请的一些实施例中,基于以上技术方案,评估模块包括:
特征交互单元,用于将所述拼接向量输入到全连接层中进行特征交互,得到特征交互结果;
分类映射单元,用于根据所述特征交互结果进行分类映射,得到所述待处理账户的账户状态信息。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的账户状态信息获取方法。
根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的账户状态信息获取方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供账户状态信息获取方法。
在本申请的实施例中,通过卷积模型对交易文本进行卷积,还根据预设的目标文本对交易文本中的目标文本进行匹配,将卷积的结果与风险统计的结果结合来账户状态分析账户状态信息获取。通过语义分类与专家经验确定的目标文本相结合,将专家经验引入到分类模型中,同时保留分类模型对通用语义的拟合能力,使得专家经验覆盖新案例、传统文本分类模型覆盖常见案例,从而提升账户状态管理的覆盖范围和准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1为本申请实施例中交易风险的评估系统运行的网络架构图;
图2为本申请实施例提供的一种账户状态信息获取的流程架构图;
图3为本申请实施例提供的一种账户状态信息获取方法的示意性流程图;
图4为文本卷积网络的结构示意图;
图5为本申请实施例中模型整体架构的示意性架构图;
图6示意性地示出了本申请实施例中账户状态信息获取装置的组成框图;
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请的具体实施方式中,涉及到用户信息、区块中的交易数据等相关的数据,当本申请各个实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应理解,本申请的方案可以应用于风险控制领域,并且具体应用在根据在线交易的交易记录对交易账户是否存在交易风险账户状态分析账户状态信息获取的场景中。本申请提供的账户状态信息获取方法可以应用于终端设备或者服务器中包含交易风险的评估功能的系统或程序中,例如支付安全控件,具体的,交易风险的评估系统可以运行于如图1所示的网络架构中,图1为本申请实施例中交易风险的评估系统运行的网络架构图,如图可知,交易风险的评估系统可以提供与多个信息源相关的交易风险的评估过程,即通过终端设备110一侧的交易操作对交易服务器120下发对应的交易信息,交易服务器120通过风控服务器130对交易信息中是否包含目标商户进行识别,并进行风险管理;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到交易风险的管理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了两个服务器,但在实际场景中,交易服务器120和风控服务器130可以为一个服务器,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
上述的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。上述的各个服务器可以实际部署在同一个物理服务器上,各个服务器的功能则构成管理系统各个功能模块。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。终端设备以及服务器的数量也不做限制。
可以理解的是,上述交易风险的评估系统可以运行于个人移动终端,例如:作为支付安全控件这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供交易风险的评估管理,以得到信息源的交易风险的评估结果;具体的交易风险的评估系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着互联网技术的迅速发展和移动支付的普及,通过互联网进行交易成为常态,而在互联网交易过程中也存在具有目标行为的交易过程,例如各类存在风险或者不合规的交易,如何对这些类别的交易进行识别并进行风险管理成为难题。
交易风险管理的过程主要依赖于利用交易文本的语义,即通过对交易文本的语义进行分析,根据语义的评测结果来账户状态分析账户状态信息获取。
然而,语音分析大都是在通用文本分类上取得良好效果,随着风险交易越发复杂,仅采用语义分析已经难以对风险交易和风险账户的交易行为进行覆盖,影响交易风险管理的有效性。
基于此类问题,本申请提出了一种基于机器学习的账户状态信息获取方法,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体的,该方法应用于图2所示的交易风险的管理的流程框架中,图2为本申请实施例提供的一种账户状态信息获取的流程架构图,用户通过终端进行交易操作,进而触发服务器对交易过程中涉及的商户账户状态分析账户状态信息获取,具体识别的过程为基于商户历史的交易文本以及经过专家评定的目标文本词库训练所得到的账户状态信息获取模型来进行。账户状态信息获取模型会对商户的风险状态进行评估并划分出商户的账户状态信息获取结果,进而进行风险管理。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种交易风险的账户状态信息获取装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该交易风险的账户状态信息获取装置通过卷积模型对交易文本进行卷积,还根据预设的目标文本对交易文本中的目标文本进行匹配,将卷积的结果与风险统计的结果结合来账户状态分析账户状态信息获取。通过语义分类与专家经验确定的目标文本相结合,将专家经验引入到分类模型中,同时保留分类模型对通用语义的拟合能力,使得专家经验覆盖新案例、传统文本分类模型覆盖常见案例,从而提升账户状态管理的覆盖范围和准确性。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中账户状态信息获取方法进行介绍,请参阅图3,图3为本申请实施例提供的一种账户状态信息获取方法的示意性流程图,该账户状态信息获取方法可以是由终端执行的,也可以是由服务器执行的,还可以是由终端与服务器共同执行的,下面以服务器执行为例进行说明,本申请实施例至少包括以下步骤S310至步骤S340:
步骤S310,分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量。
本实施例中,M个文本类别的文本数据用于指示与待处理账户有关的历史交易中所涉及到的交易描述文字,例如交易备注、交易数据以及交易双方的描述信息等。待处理账户的交易文本中包含M个文本类别的文本数据,M是大于1或者等于1的整数。具体地,文本类别根据对应交易的交易场景来分类,例如账户在支付场景中会产生四类文本数据,即转账出款文本、转账入款文本、红包出款文本和红包入款文本。。待处理账户是进行交易过程中所涉及到的交易账户,其可以交易双方中的任意一方,例如收款方或者付款方。待处理账户通常是具有风险行为的账户,风险行为可以包括交易中涉及不合规或不合法目的的交易行为,也可以是交易过程中所涉及的其他特定行为。
服务器会通过文本卷积模型来对待处理账户的交易文本进行卷积,得到文本向量。文本卷积模型是根据各个交易账户的历史交易文本进行训练得到的,其中的训练样本可以是交易账户中被标记为风险账户的历史交易的历史交易文本。
具体的,由于交易数据存在一定的时效性,即某一账户可能以前不涉及风险交易,最近几个月才涉及风险交易,因此可以将交易文本中的部分输入进行识别,即首先获取第一范围信息;然后基于第一范围信息从交易文本中提取在识别范围内的实时数据;进而将实时数据输入文本卷积模型,以从账户集合中确定具有风险行为的风险账户,即风险账户的确定为动态更新的过程,从而保证当前时刻的风险账户的准确性。
对应的,对于风险账户的确定需要一定数量的数据的支撑以保证风险账户提取的准确性,即第一范围信息可以是具有一定时间跨度的时长周期,例如:一个月。
可以理解的是,对于文本卷积模型的训练模型,可以是基于前一时刻的交易文本训练所得,即训练数据中标注为具有风险行为的风险账户样本为前一时刻的待处理账户,然后基于前一时刻的待处理账户进行特征的加工,加工成有效特征后,利用机器学习模型,对待处理账户的属性进行分类训练。
具体地,在通过文本卷积模型来进行卷积的过程中,首先会将交易文本转换成特定的嵌入矩阵,然后通过特定的卷积核来对嵌入矩阵进行卷积过程,从而得到输出的文本向量。在方案的整体过程中,文本卷积模型可以作为整体账户状态信息获取模型的一部分,通过对交易文本进行卷积来提取出交易文本中的语义结构关系,例如区分主、谓、宾语,确定其中的常见短语、惯用语和感叹词等语义结构的信息。
步骤S320,根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量。
在本实施例中,预设的目标文本是根据专家经验在历史的交易文本中筛选出的文本内容,例如风险词或者非正常交易关键词等。此类目标文本本身指示所涉及的交易是可能存在风险的风险交易,而涉及风险交易的交易账户则是潜在的风险账户。预设的目标文本通常来源于目标文本库。在对交易文本中的目标文本进行匹配时,会遍历目标文本库中的目标文本,与交易文本中的词语进行匹配,并且对匹配的结果进行统计,从而得到风险统计结果,例如统计目标文本出现的个数以及次数。在进行遍历的过程中,通常针对不同的文本类别分别进行遍历和统计,从而针对于M个文本类别统计出M个风险统计结果。将M个风险统计结果进行向量化,就可以得到文本统计向量。在具体的匹配过程中,可以将目标文本与交易文本进行直接匹配,还可以将目标文本或者交易文本分散和打乱后进行匹配。例如,将目标文本分解为单个的风险文字,将单个风险文字与交易文本匹配,确定风险文字在交易文本中的出现顺序,再将该出现顺序与目标文本本身的顺序进行比较,如果顺序相同,则判断匹配到该目标文本。
步骤S330,将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量。
服务器会将M个文本向量与M个文本统计向量进行向量拼接,得到拼接向量。向量拼接的方式取决于向量的具体情况可以设置多种。具体地,可以采用直接拼接的方式,将M个文本向量与M个文本统计向量直接依次排列成为拼接向量。在一些实施例中拼接过程也可以采用对M个文本向量与M个文本统计向量进行计算或统计的方式,例如,计算M个文本向量与M个文本统计向量中元素的均值、最大值或者最小值,又或者可以对这些向量进行求和等方式进行。
步骤S340,根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息。
账户状态信息指的是待处理账户是否处于存在交易风险的状态,例如待处理账户是否涉及参与风险交易、或者待处理账户是否存在非正常交易损害其他账户的安全等。具体地,根据拼接向量账户状态分析账户状态信息获取的过程可以是账户状态信息获取模型整体计算过程的一部分,即通过账户状态信息获取模型中的一层或者子模型来进行评估过程。例如,服务器可以直接通过全连接对拼接向量进行特征交叉,从而得到对于待处理账户的账户状态信息,或者,也可以进一步引入额外的计算过程,例如引入产品层,来针对拼接向量中的各个特征域之间的特征进行针对性的特征融合过程,融合后再输入到全连接层中进行计算。此外,还可以引入专门的评估子模型,将拼接向量作为输入,直接输出对待处理账户的账户状态信息。通过将评估子模型与文本卷积模型作为账户状态信息获取模型的组成部分的一起训练,来完成账户状态信息获取模型中各个子模型的参数训练过程。
在本申请的实施例中,通过卷积模型对交易文本进行卷积,还根据预设的目标文本对交易文本中的目标文本进行匹配,将卷积的结果与风险统计的结果结合来账户状态分析账户状态信息获取。通过语义分类与专家经验确定的目标文本相结合,将专家经验引入到分类模型中,同时保留分类模型对通用语义的拟合能力,使得专家经验覆盖新案例、传统文本分类模型覆盖常见案例,从而提升账户状态管理的覆盖范围和准确性。
在本申请的一个实施例中,基于以上技术方案,待处理账户的交易文本中包含M个文本类别的文本数据;上述步骤S310,对待处理账户的交易文本进行卷积,得到文本向量,具体包含如下步骤:
根据所述文本类别对应的嵌入层模型,对于所述M个文本类别的文本数据分别进行嵌入转换过程,得到M个文本类别的嵌入向量;
根据所述文本类别对应的卷积层模型,分别对所述M个文本类别的嵌入向量进行卷积,得到所述M个文本类别的文本向量。
在本实施例中,账户行为在每个文本类别中的表征均有所不同,例如,如转账出款表示大额支付行为特征,转账收款表示大额收益支付行为特征,而红包出款更多表示主动宣传特征,红包入款更多表征日常接触较多的宣传特征。对于不同的文本类别,对应地存在不同的文本卷积模型进行单独的卷积过程。具体地,为了便于介绍,请参阅图4,图4为文本卷积网络的结构示意图。卷积过程中首先会根据文本类别对应的嵌入层模型,来将对应文本类别的文本数据进行嵌入转换,M个文本类别会转换出M个嵌入向量。如图4所示,不同文本类别的原始文本1和原始文本2会分别根据对应的嵌入层模型进行各自的嵌入过程1和嵌入过程2,从而分别得到对应的嵌入向量。具体地,不同文本类别对应的嵌入层模型是各自独立的模型,其中所使用的参数以及嵌入向量的映射关系等都可以是不同的。在一些实施例中,不同文本类别所对应的嵌入向量的转换方式也可以是不同的,例如采用不同的嵌入算法或者采用不同类型的嵌入向量转换模型来对文本数据进行转换,从而得到对应的嵌入向量。例如,在一个实施例中,文本数据中包含来自各个账户交易的交易文本内容。针对于一个文本类型的文本数据,服务器会统计为包含目标文本的交易文本内容的总数,随后根据该总数与文本数据中所包含的交易文本内容的总数来计算出各个目标文本的权重值。该权重值表示一个目标文本在整个文本数据中的出现频率或者重要程度。根据各个词语的权重值则可以对应得到原始文本对应的嵌入向量。可以理解,对于文本数据中的非目标文本,其对应的权重值可以直接设置为0。
随后,服务器根据文本类别对应的卷积层模型,分别对M个文本类别的嵌入向量进行卷积,得到M个文本类别的文本向量。具体地,在卷积层模型中,首先会利用对应的卷积核,来对嵌入向量进行卷积。如图4所示,在卷积时,通过3个不同大小的卷积核来进行卷积,每个卷积核有两个输出通道,从而得到6个输出结果,随后通过池化层来对输出结果进行池化,将不同长度的向量转换成定长的标识,再组合成对应的文本向量。原始文本1和原始文本2各自单独进行卷积和池化过程,其中所采用的模型的参数也是针对于文本类别进行训练得到的,从而得到各自的文本向量,不同的文本向量分别表示不同类别的文本的语义信息。
在本申请的实施例中,通过对不同文本类别的文本数据采用单独的嵌入模型和卷积模型进行卷积过程,从而使得所提取的文本向量能够体现不同的文本类别的文本特征,有利于提升文本向量的表征能力,进而提升语义识别的准确性。
在本申请的一个实施例中,基于以上技术方案,上述步骤S330,将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量,包括:
对于所述M个文本向量,计算每个文本向量的向量值均值;
将M个向量值均值与文本统计向量依次拼接,得到拼接向量。
在本申请的实施例中,在进行拼接过程时,采用计算均值并以此拼接的方式来进行。具体地,服务器首先对于每个文本向量计算出对应的向量值均值,从而得到M个向量值均值。随后,将M个向量值均值与文本统计向量依次拼接。可以理解的是,M个文本类别在文本统计向量的统计过程中是单独进行的。以统计过程中统计个数和次数为例,则会统计M个文本类别的文本数据中目标文本的个数和次数,从而得到M组文本统计向量,每个文本统计向量为2维向量,向量值分别对应于个数和次数。在拼接时,则会拼接为M个向量均值+2M维的文本统计向量,拼接向量的拼接结果为M+2M维的向量。在一个实施例中,向量拼接的过程会将文本向量与文本统计向量直接拼接,也就是说,如果文本向量为N维向量,则拼接得到的拼接向量则为MN+2M维的向量。
在本申请的实施例中,将文本向量的均值与文本统计向量拼接来得到拼接向量,从而能够使得拼接向量中文本统计向量所代表的专家经验能够保留更多细节,有利于平衡语义识别与专家经验对结果的影响能力,避免单独要素对结果产生误导。
在本申请的一个实施例中,基于以上技术方案,上述步骤S310,分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量之前,本申请的方案还包括如下步骤:
获取所述M个文本类别的训练文本数据;
根据预设的目标文本,对所述训练文本数据中的目标文本进行匹配,得到训练文本统计向量;
根据各个文本类别的训练文本数据和所述训练文本统计向量,分别通过各个文本类别对应的待训练嵌入层模型和待训练卷积层模型进行预测,得到训练预测结果;
根据所述训练预测结果和损失函数,对所述待训练嵌入层模型和所述待训练卷积层模型进行训练,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本申请的实施例中,会利用交易平台中各个账户的历史交易数据来对嵌入层和卷积层的模型进行训练。具体地,服务器首先会获取M个文本类别的训练文本数据。训练文本数据中会包含正样本和负样本,其中,正样本通常指的是在实际业务中发现的风险账户的交易记录中提取出的文本数据,负样本则是并未发现存在风险的正常账户的交易记录中的文本数据。每个样本会被标记对应的风险结果,即属于风险账户或者不属于风险账户。在拿到训练文本数据后,服务器会根据预设的目标文本,来匹配训练文本数据中的目标文本,从而得到训练文本统计向量。目标文本的具体统计过程如本申请中相关实施例的具体介绍,在此不做赘述。可以理解的是,对于M个文本类别,统计目标文本的统计也是分开的,即对应于每个类别都存在对应的训练文本统计向量。随后,服务器会根据各个文本类别的训练文本数据和所述训练文本统计向量,分别通过各个文本类别对应的待训练嵌入层模型和待训练卷积层模型进行预测,得到训练预测结果。可以理解的是,虽然存在M个文本类别,但预测过程中,对于一个账户仅输出一个预测结果,也就是说,在预测过程中,M个文本类别的数据都会用于对账户的风险状态进行预测。在得到预测结果后,则可以根据预测结果和实际的真实结果进行损失函数的计算,再根据损失函数的结果,对待训练嵌入层模型和待训练卷积层模型的模型参数进行调整,通过迭代的方式进行持续的训练,直到训练出的模型损失结果收敛,从而完成训练的过程。可以立即的是,在实际的预测过程中,通过各个文本类别对应的待训练嵌入层模型和待训练卷积层模型进行预测的过程中,还可以进一步涉及其他的模型或者计算公式,这些模型或者计算公式中所需要调整的参数也会与待训练嵌入层模型和待训练卷积层模型的参数一起进行训练。也就是说,基于文本信息账户状态分析账户状态信息获取的过程中所涉及的模型或者计算过程可以被认为是一个账户状态信息获取模型的组成部分,其中需要训练的参数则都通过账户状态信息获取模型的整体训练过程来完成。
在本申请的实施例中,通过M个文本类别的训练文本数据来构建训练数据,在训练过程中融入预设目标文本的专家经验,从而允许该训练出模型的预测结果能够充分融合专家经验,有利于提升方案中账户状态信息获取结果的准确性。
在本申请的一个实施例中,基于以上技术方案,上述步骤,根据所述训练预测结果和损失函数,对所述待训练嵌入层模型和所述待训练卷积层模型进行训练,得到对应于各个文本类别的嵌入层模型和卷积层模型,具体包括如下步骤:
对于各个文本类别,根据对应的训练文本数据的正样本与负样本的比例以及难易样本的分布,确定损失参数;
将所述训练预测结果和所述损失参数带入损失函数进行计算,得到损失结果;
根据所述损失结果,调整所述待待训嵌入层模型和所述待训练卷积层模型的模型参数,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本实施例中,对于风控场景,正样本的数量相对于负样本通常比较稀少,尤其对于一个新的风险场景刚爆发的阶段,正样板的数量通常很稀缺。对于此类样本不均衡的情况,通常需要在训练过程中进行对应的调整。具体地,对于各个文本类别,需要根据对应的训练文本数据的正样本与负样本的比例以及难易样本的分布,确定损失参数。具体地,对于正样本与负样本的比例,设置超参数a,对于困难样本和简单样本的分布,设置超参数r。在进行损失计算的过程中,将这两个超参数带入损失函数进行计算,得到损失结果。损失函数的具体计算方式如下:
其中,y∈{±1}为样本的实际结果,p为预测结果,超参数a用来调整样本比例不均衡,另外超参数r用于调整简单案例与困难案例之间损失的分布,超参数r的取值>1会增加困难案例对训练过程损失的贡献,从而提升正样本对于结果的影响。
在计算得到损失结果后,服务器会根据损失结果进行反向传播,从而调整待待训嵌入层模型和待训练卷积层模型的模型参数,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本申请的实施例中,通过在损失函数中针对正负样本和难易样本设置对应的超参数来进行针对性的调整,从而使得训练得到的模型能够充分学习到少量的正样本的特征,有利于提高模型预测的准确性。
在本申请的一个实施例中,基于以上技术方案,上述步骤,获取所述M个文本类别的训练文本数据,具体包括如下步骤:
获取交易账户的第一交易文本和风险账户的第二交易文本,所述第一交易文本和所述第二交易文本中包含对应于至少一个文本类别的文本数据;
将所述风险账户的交易文本中的文字打乱并重新组合,得到模拟交易文本;
将所述交易账户的交易文本、所述风险账户的交易文本和所述模拟交易文本合并作为所述训练文本数据。
在本实施例中,通过文字重组的方式来对训练样本进行数据增强。具体地,在实际的业务场景中,在文本证据有效期内,不同时间点的交易文本对于判别账户是否为风险账户是等价的,所以在进行数据增强时,可以利用交易文本之间的这种时序无关性对数据进行增强。例如,同一样本,将不同时间点的交易文本打乱之后重组作为一条等价正样本。服务器会获取交易账户的第一交易文本和风险账户的第二交易文本,其中,第一交易文本是正常交易的文本,作为负样本,第二交易文本是风险账户的交易文本作为正样本,第一交易文本和第二交易文本中都包含对应于至少一个文本类别的文本数据,通常第一交易文本和第二交易文本中的文本类别的数量和种类都是相同的。随后,服务器将将风险账户的交易文本中的文字打乱并重新组合,得到模拟交易文本。例如,原本的源文本为“生日快乐##XXX资金##退礼金”,在进行重新组合后的模拟交易文本可以是“生日快乐##退礼金##XXX资金”,从而放大正样本的集合。最后,将交易账户的交易文本、风险账户的交易文本和模拟交易文本合并作为训练文本数据。
在一些实施例中,还可以使用语言模型来生成训练数据。具体地,先通过历史数据和标注训练一个语言增强模型,对于需要增强的交易文本,随机去掉文中的一个词或字,随后将交易文本的剩余部分输入语言增强模型,语言增强模型对针对该交易文本输出多个预测结果,将这些预测结果替换掉原交易文本中被去掉的词或字,从而得到多个新的交易文本。在另一些实施例中,可以通过将交易文本交叉来进行增强。具体地,对于风险账户中不同交易的交易文本,首先筛选中其中确实存在风险的风险交易,并提取出这些风险交易的风险交易文本。随后,对于同一个文本类别的两个风险交易文本,分别将两个交易文本划分为若干文本段,并且将两个风险交易文本划分的文本段进行对换和组合,从而生成新的风险交易文本。例如,两个风险交易文本都被划分为文本段,则可以将两个风险交易文本的后两个文本段进行对换,从而得到两个新的风险交易文本。
在本申请的实施例中,通过将风险账户的交易文本的文字打乱并重新组合成模拟交易文本,从而平衡训练数据中的正负样本比例,并且允许模型拟合到风险交易文本的无序特性,有利于提升账户状态信息获取所覆盖的案例范围。
在本申请的一个实施例中,基于以上技术方案,上述步骤S330,将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量,具体包括如下步骤:
根据预设的权重规则,对所述文本向量和所述文本统计向量进行加权,得到文本加权向量和统计加权向量;
通过特征融合模型,根据所述文本加权向量和所述统计加权向量之间的映射关系,生成拼接向量。
在本实施例中,在进行向量拼接的特征融合过程中,将采用特征融合模型来对M个文本向量和M个文本统计向量进行融合。具体地,服务器首先会根据预设的权重规则,对文本向量和文本统计向量进行加权,得到文本加权向量和统计加权向量。预设的权重规则通常是根据专家经验确定的规则,其中包含加权的具体方式以及对应的权重值。在一个实施例中,权重规则中会规定根据交易文本的文本类别来进行对应的加权,并且对于文本统计向量也会根据对应的文本类别来确定对应的权重以及进行加权。
在加权完成后,将文本加权向量和统计加权向量作为输入参数输入到特征融合模型中,通过特征融合模型的计算过程来对两个向量进行融合,从而生成拼接向量。具体地,特征融合模型可以采用任意适合的机器学习模型来进行处理,其训练过程可以随方案中的其他模型一起进行训练。
在本申请的实施例中,通过特征融合模型来对文本向量和文本统计向量融合,并根据预设的权重规则对文本向量和文本统计向量进行加权,相较于直接拼接的融合方式,使得融合后的拼接向量更充分地体现出文本向量和文本统计向量的特征,有利于提升拼接向量的表征能力。
在本申请的一个实施例中,基于以上技术方案,上述步骤S320,根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量,具体包括如下步骤:
根据预设的目标文本,分别统计M个文本数据中出现所述目标文本的个数和次数,得到所述M个文本数据中目标文本的个数统计结果和次数统计结果;
分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量。
在本实施例中,服务器在进行目标文本匹配时,首先会根据预设的目标文本,统计M个文本数据中出现所述目标文本的个数和次数,从而得到M个文本数据中目标文本的个数统计结果和次数统计结果。可以理解的是,对于多种文本类别的文本数据的情况,在统计目标文本时,会对每个文本类别进行单独统计,即对于每个文本类别的文本数据,分别统计出现目标文本的个数和次数,每个文本类别对应得到一个2维向量,其中的向量值则记录个数统计结果和次数统计结果,M个文本类别则会统计得到M个2维向量。
在得到统计结果后,服务器会对个数统计结果和所述个数统计结果进行归一化,从而得到文本统计向量。例如,对于M个文本类别,统计得到M个2维向量,基于这些2维向量中的向量值可以进行线性函数归一化或者零均值归一化等方式,从而得到归一化的结果作为文本统计向量。
在本申请的实施例中,通过对目标文本的个数和次数统计结果进行归一化,从而能够使目标文本的统计结果与文本卷积的结果转换为同空间向量,有利于将目标文本引入到文本分类模型中,提高方案的可操作性。
在本申请的一个实施例中,基于以上技术方案,上述步骤,分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量,具体包括如下步骤:
获取所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果中的最大值和最小值;
根据所述最大值和所述最小值,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行线性变换,得到所述M个文本统计向量。
在本实施例中,采用线性归一化的方式来对目标文本的所述个数统计结果和所述次数统计结果进行归一化处理。具体地,服务器会从交易文本中目标文本的个数统计结果和次数统计结果中确定最大值和最小值。对于交易文本中存在多个文本分类的情况,则会获取各个文本分类中个数统计结果和次数统计结果中的最大值和最小值。随后,根据最大值和最小值,对交易文本中目标文本的个数统计结果和次数统计结果进行线性变换。具体地,线性变换的公式如下:
其中Xmax为最大值,Xmin为最小值,X为待进行归一化的个数统计结果或者次数统计结果。通过上述的计算过程,将统计得到的次数映射到[0,1]的范围中,实现对原始统计数据的等比缩放。
在本申请的实施例中,提供了一种通过最大值和最小线进行归一化得到文本统计向量的具体实施方式,有利于提升方案的可操作性。
在本申请的一个实施例中,基于以上技术方案,上述步骤,分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量,具体包括如下步骤:
计算所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果的均值和标准差;
根据所述均值和所述标准差,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行标准化,得到所述M个文本统计向量。
在本实施例中,采用零均值归一化的方式来对目标文本的所述个数统计结果和所述次数统计结果进行归一化处理。具体地,服务器会计算交易文本中目标文本的个数统计结果和次数统计结果的均值μ和标准差σ。对于交易文本中存在多个文本分类的情况,则会根据各个文本分类中个数统计结果和次数统计结果的来计算均值和标准差。随后,根据均值μ和标准差σ,对交易文本中目标文本的个数统计结果和次数统计结果进行标准化。具体地,标准化的公式如下:
通过上述的公式,可以将原始的统计数据均值为0、标准差为1的分布上,从而实现对原始统计数据的缩放。
在本申请的实施例中,提供了一种通过均值和标准差进行归一化来得到文本统计向量的具体实施方式,有利于提升方案的可操作性。
在本申请的一个实施例中,基于以上技术方案,上述步骤S340,根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息,得到文本统计向量,具体包括如下步骤:
将所述拼接向量输入到全连接层中进行特征交互,得到特征交互结果;
根据所述特征交互结果进行分类映射,得到所述待处理账户的账户状态信息。
在本实施例中,基于拼接向量进行账户状态管理的过程中,首先将拼接向量输入到全连接层中进行特征交互,得到特征交互结果。全连接层可以文本分类模型卷积层和池化层中具有类别区分性的局部信息以及基于目标文本库引入的专家经验,从而值得特征交互结果能够体现出风险账户的交易文本中所具备的特征。随后,根据特征交互结果进行分类映射,得到待处理账户的账户状态信息。分类映射可以通过softmax函数来进行。可以理解,全连接层中所使用的参数以及softmax所使用的参数在训练的过程中都可以与其他模型的参数一起进行训练。
本申请的整体方案可以认为是通过一个账户状态信息获取模型进行整体训练和预测得到的。请参阅图5,图5为本申请实施例中模型整体架构的示意性架构图。如图5所示,整体架构中包含两条处理分支,其中一条为通过嵌入层、卷积层和池化层来对交易文本进行卷积的语义识别过程,该过程会针对交易文本输出文本向量,另一条分支为基于目标文本进行匹配和统计的统计归一过程。通过统计交易文本中的目标文本的出现情况,并且统计的结果归一化,从而得到输入的文本统计向量。文本向量和文本统计向量经过特征拼接的融合过程,得到拼接结果。拼接结果在被输入到全连接层中进行计算和分类,从而得到最终对于账户的账户状态信息获取结果。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施,可以用于执行本申请上述实施例中的账户状态信息获取方法。图6示意性地示出了本申请实施例中账户状态信息获取装置的组成框图。如图6所示,账户状态信息获取装置600主要可以包括:
卷积模块610,用于分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量;
匹配模块620,用于根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量;
拼接模块630,用于将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量;
评估模块640,用于根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息。
在本申请的一些实施例中,基于以上技术方案,所述待处理账户的交易文本中包含M个文本类别的文本数据;卷积模块610包括:
嵌入单元,用于根据所述文本类别对应的嵌入层模型,对于所述M个文本类别的文本数据分别进行嵌入转换过程,得到M个文本类别的嵌入向量;
卷积单元,用于根据所述文本类别对应的卷积层模型,分别对所述M个文本类别的嵌入向量进行卷积,得到所述M个文本类别的文本向量。
在本申请的一些实施例中,基于以上技术方案,拼接模块630包括:
均值计算单元,用于对于所述M个文本向量,计算每个文本向量的向量值均值;
拼接单元,用于将M个向量值均值与文本统计向量依次拼接,得到拼接向量。
在本申请的一些实施例中,基于以上技术方案,账户状态信息获取装置600还包括:
训练数据获取模块,用于获取所述M个文本类别的训练文本数据;
训练匹配模块,用于根据预设的目标文本,对所述训练文本数据中的目标文本进行匹配,得到训练文本统计向量;
训练预测模块,用于根据各个文本类别的训练文本数据和所述训练文本统计向量,分别通过各个文本类别对应的待训练嵌入层模型和待训练卷积层模型进行预测,得到训练预测结果;
模型训练模块,用于根据所述训练预测结果和损失函数,对所述待训练嵌入层模型和所述待训练卷积层模型进行训练,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本申请的一些实施例中,基于以上技术方案,模型训练模块包括:
参数确定单元,用于对于各个文本类别,根据对应的训练文本数据的正样本与负样本的比例以及难易样本的分布,确定损失参数;
损失计算单元,用于将所述训练预测结果和所述损失参数带入损失函数进行计算,得到损失结果;
参数调整单元,用于根据所述损失结果,调整所述待待训嵌入层模型和所述待训练卷积层模型的模型参数,得到对应于各个文本类别的嵌入层模型和卷积层模型。
在本申请的一些实施例中,基于以上技术方案,训练数据获取模块包括:
文本获取单元,用于获取交易账户的第一交易文本和风险账户的第二交易文本,所述第一交易文本和所述第二交易文本中包含对应于至少一个文本类别的文本数据;
文字组合单元,用于将所述风险账户的交易文本中的文字打乱并重新组合,得到模拟交易文本;
文本合并单元,用于将所述交易账户的交易文本、所述风险账户的交易文本和所述模拟交易文本合并作为所述训练文本数据。
在本申请的一些实施例中,基于以上技术方案,拼接模块630包括:
加权单元,用于根据预设的权重规则,对所述文本向量和所述文本统计向量进行加权,得到文本加权向量和统计加权向量;
融合单元,用于通过特征融合模型,根据所述文本加权向量和所述统计加权向量之间的映射关系,生成拼接向量。
在本申请的一些实施例中,基于以上技术方案,所述匹配模块620包括:
统计单元,用于根据预设的目标文本,分别统计M个文本数据中出现所述目标文本的个数和次数,得到所述M个文本数据中目标文本的个数统计结果和次数统计结果;
归一化单元,用于分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量。
在本申请的一些实施例中,基于以上技术方案,归一化单元包括:
最大值获取子单元,用于获取所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果中的最大值和最小值;
线性变化子单元,用于根据所述最大值和所述最小值,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行线性变换,得到所述M个文本统计向量。
在本申请的一些实施例中,基于以上技术方案,归一化单元包括:
标准差计算子单元,用于计算所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果的均值和标准差;
标准化子单元,用于根据所述均值和所述标准差,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行标准化,得到所述M个文本统计向量。
在本申请的一些实施例中,基于以上技术方案,评估模块640包括:
特征交互单元,用于将所述拼接向量输入到全连接层中进行特征交互,得到特征交互结果;
分类映射单元,用于根据所述特征交互结果进行分类映射,得到所述待处理账户的账户状态信息。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(Central Processing Unit,CPU)701,其可以根据存储在只读存储器(Read-Only Memory,ROM)702中的程序或者从储存部分708加载到随机访问存储器(Random Access Memory,RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output,I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的储存部分708;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入储存部分708。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种账户状态信息获取方法,其特征在于,包括:
分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量;
根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量;
将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量;
根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息。
2.根据权利要求1所述的方法,其特征在于,所述分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量,包括:
根据所述文本类别对应的嵌入层模型,对于所述M个文本类别的文本数据分别进行嵌入转换过程,得到M个文本类别的嵌入向量;
根据所述文本类别对应的卷积层模型,分别对所述M个文本类别的嵌入向量进行卷积,得到所述M个文本类别的文本向量。
3.根据权利要求2所述的方法,其特征在于,所述将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量,包括:
对于所述M个文本向量,计算每个文本向量的向量值均值;
将M个向量值均值与文本统计向量依次拼接,得到拼接向量。
4.根据权利要求2所述的方法,其特征在于,所述分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量之前,所述方法还包括:
获取所述M个文本类别的训练文本数据;
根据预设的目标文本,对所述训练文本数据中的目标文本进行匹配,得到训练文本统计向量;
根据各个文本类别的训练文本数据和所述训练文本统计向量,分别通过各个文本类别对应的待训练嵌入层模型和待训练卷积层模型进行预测,得到训练预测结果;
根据所述训练预测结果和损失函数,对所述待训练嵌入层模型和所述待训练卷积层模型进行训练,得到对应于各个文本类别的嵌入层模型和卷积层模型。
5.根据权利要求4所述的方法,其特征在于,根据所述训练预测结果和损失函数,对所述待训练嵌入层模型和所述待训练卷积层模型进行训练,得到对应于各个文本类别的嵌入层模型和卷积层模型,包括:
对于各个文本类别,根据对应的训练文本数据的正样本与负样本的比例以及难易样本的分布,确定损失参数;
将所述训练预测结果和所述损失参数带入损失函数进行计算,得到损失结果;
根据所述损失结果,调整所述待待训嵌入层模型和所述待训练卷积层模型的模型参数,得到对应于各个文本类别的嵌入层模型和卷积层模型。
6.根据权利要求4所述的方法,其特征在于,所述获取所述M个文本类别的训练文本数据,包括:
获取交易账户的第一交易文本和风险账户的第二交易文本,所述第一交易文本和所述第二交易文本中包含对应于至少一个文本类别的文本数据;
将所述风险账户的交易文本中的文字打乱并重新组合,得到模拟交易文本;
将所述交易账户的交易文本、所述风险账户的交易文本和所述模拟交易文本合并作为所述训练文本数据。
7.根据权利要求1所述的方法,其特征在于,所述将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量,包括:
根据预设的权重规则,对所述文本向量和所述文本统计向量进行加权,得到文本加权向量和统计加权向量;
通过特征融合模型,根据所述文本加权向量和所述统计加权向量之间的映射关系,生成拼接向量。
8.根据权利要求1所述的方法,其特征在于,所述根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量,包括:
根据预设的目标文本,分别统计M个文本数据中出现所述目标文本的个数和次数,得到所述M个文本数据中目标文本的个数统计结果和次数统计结果;
分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量。
9.根据权利要求8所述的方法,其特征在于,所述分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量,包括:
获取所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果中的最大值和最小值;
根据所述最大值和所述最小值,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行线性变换,得到所述M个文本统计向量。
10.根据权利要求8所述的方法,其特征在于,所述分别对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行归一化,得到M个文本统计向量,包括:
计算所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果的均值和标准差;
根据所述均值和所述标准差,对所述M个文本数据中目标文本的所述个数统计结果和所述次数统计结果进行标准化,得到所述M个文本统计向量。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息,包括:
将所述拼接向量输入到全连接层中进行特征交互,得到特征交互结果;
根据所述特征交互结果进行分类映射,得到所述待处理账户的账户状态信息。
12.一种账户状态信息获取装置,其特征在于,包括:
卷积模块,用于分别对待处理账户的M个文本类别的文本数据进行卷积,得到M个文本类别的文本向量;
匹配模块,用于根据预设的目标文本,分别对所述文本数据中的目标文本进行匹配,得到M个文本统计向量;
拼接模块,用于将所述M个文本向量与所述M个文本统计向量进行向量拼接,得到拼接向量;
评估模块,用于根据所述拼接向量进行账户状态分析,得到所述待处理账户的账户状态信息。
13.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任意一项所述的账户状态信息获取方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的账户状态信息获取方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取并执行所述计算机指令,使得所述计算机设备执行如权利要求1至11中任一项所述的账户状态信息获取方法。
CN202310090407.7A 2023-01-17 2023-01-17 账户状态信息获取方法、装置、电子设备和可读介质 Pending CN116955608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310090407.7A CN116955608A (zh) 2023-01-17 2023-01-17 账户状态信息获取方法、装置、电子设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310090407.7A CN116955608A (zh) 2023-01-17 2023-01-17 账户状态信息获取方法、装置、电子设备和可读介质

Publications (1)

Publication Number Publication Date
CN116955608A true CN116955608A (zh) 2023-10-27

Family

ID=88451741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310090407.7A Pending CN116955608A (zh) 2023-01-17 2023-01-17 账户状态信息获取方法、装置、电子设备和可读介质

Country Status (1)

Country Link
CN (1) CN116955608A (zh)

Similar Documents

Publication Publication Date Title
CN108846520B (zh) 贷款逾期预测方法、装置以及计算机可读存储介质
CN109461070A (zh) 一种风险审批方法、装置、存储介质和服务器
CN108399509A (zh) 确定业务请求事件的风险概率的方法及装置
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN110069545B (zh) 一种行为数据评估方法及装置
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN112561685B (zh) 客户的分类方法和装置
CN107193974A (zh) 基于人工智能的地域性信息确定方法和装置
CN112950359B (zh) 一种用户识别方法和装置
CN108572988A (zh) 一种房产评估数据生成方法和装置
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN112950347A (zh) 资源数据处理的优化方法及装置、存储介质、终端
CN117540803A (zh) 基于大模型的决策引擎配置方法、装置、电子设备及介质
CN113887214B (zh) 基于人工智能的意愿推测方法、及其相关设备
CN113935738B (zh) 交易数据处理方法、装置、存储介质及设备
CN117291722A (zh) 对象管理方法、相关设备及计算机可读介质
CN110213239B (zh) 可疑交易报文生成方法、装置及服务器
CN117993910A (zh) 异常交易应对策略的验证方法及相关装置
CN115482094A (zh) 一种业务处理方法、装置、电子设备及计算机可读介质
CN113568739B (zh) 用户资源额度分配方法、装置及电子设备
CN116955608A (zh) 账户状态信息获取方法、装置、电子设备和可读介质
CN110362981B (zh) 基于可信设备指纹判断异常行为的方法及系统
CN114565460A (zh) 一种基于延迟转化预测模型的信息推送方法及相关设备
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN117670509A (zh) 违约风险预测模型训练和违约风险预测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication