CN111046184B - 文本的风险识别方法、装置、服务器和存储介质 - Google Patents

文本的风险识别方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN111046184B
CN111046184B CN201911272017.1A CN201911272017A CN111046184B CN 111046184 B CN111046184 B CN 111046184B CN 201911272017 A CN201911272017 A CN 201911272017A CN 111046184 B CN111046184 B CN 111046184B
Authority
CN
China
Prior art keywords
risk
text
prediction model
text information
service type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911272017.1A
Other languages
English (en)
Other versions
CN111046184A (zh
Inventor
杨楠
黎相麟
李迅菡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Mingshu Information Co ltd
Original Assignee
Shenzhen Mingshu Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Mingshu Information Co ltd filed Critical Shenzhen Mingshu Information Co ltd
Priority to CN201911272017.1A priority Critical patent/CN111046184B/zh
Publication of CN111046184A publication Critical patent/CN111046184A/zh
Application granted granted Critical
Publication of CN111046184B publication Critical patent/CN111046184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种文本的风险识别方法、装置、服务器和存储介质。该文本的风险识别方法包括:获取多个用户备注的记账类型的文本信息;基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;基于训练好的风险预测模型对第一用户进行风险识别。通过深度挖掘得到的风险标签集合训练风险预测模型进行预测,达到提高风险识别的准确度的效果。

Description

文本的风险识别方法、装置、服务器和存储介质
技术领域
本发明实施例涉及风险识别技术领域,尤其涉及一种文本的风险识别方法、装置、服务器和存储介质。
背景技术
随着互联网的迅速发展,如何利用用户备注的文本信息进行风险识别越来越重要。
目前,现有的一些技术方案中,通过对文本信息进行类别,将分类后的文本信息用于训练分类模型。从而利用训练好的分类模型对目标语句进行风险识别,确定目标语句的风险程度。
然而,目前的风险识别方法,仅停留在文本分类的层面,只是用到了文本浅层的类别信息,而没有向深处挖掘,剖析文本中更深层次的关键信息,仅以浅层的类别信息作为风险识别标准,本身就存在一定风险,特别是一些类别标签的分类边界比较模糊时,更是很难得到一个高置信度的结果。因此,通过分类后的文本信息训练分类模型,风险识别的结果不够准确。
发明内容
本发明实施例提供一种文本的风险识别方法、装置、服务器和存储介质,以实现提高风险识别的准确度的效果。
第一方面,本发明实施例提供了一种文本的风险识别方法,包括:
获取多个用户备注的记账类型的文本信息;
基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
基于训练好的风险预测模型对第一用户进行风险识别。
可选的,所述基于所述文本信息进行深度挖掘以获得风险标签集合,包括:
基于训练好的分类模型对所述文本信息进行分类,确定所述文本信息的分类标签;
根据所述分类标签匹配对应的信息抽取策略;
基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素;
对所述文本要素进行分析,以得到所述风险标签集合。
可选的,所述文本要素包括业务类型、所述业务类型的主体来源和所述业务类型的金额,所述基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素,包括:
基于第一预设正则表达式对所述文本信息进行抽取,得到所述业务类型的主体来源和所述业务类型的金额;
基于关键字匹配的第二预设正则表达式对所述文本信息进行抽取,得到所述业务类型。
可选的,所述对所述文本要素进行分析,以得到所述风险标签集合,包括:
从至少一个维度对文本要素进行集结,以得到所述风险标签集合。
可选的,在所述基于训练好的风险预测模型对第一用户进行风险识别之前,包括:
在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型。
可选的,所述在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型,包括:
对所述风险标签集合中的所有风险标签进行交叉验证;
根据交叉验证的结果获取对不同群体具有区分力的至少一个风险标签;
将对不同群体具有区分力的至少一个风险标签作为入参变量训练所述风险预测模型。
可选的,所述基于训练好的风险预测模型对第一用户进行风险识别,包括:
获取所述第一用户记账的历史信息;
基于训练好的风险预测模型对所述历史信息进行预测,以确定所述第一用户的风险等级。
第二方面,本发明实施例提供了一种文本的风险识别装置,包括:
文本获取模块,用于获取多个用户备注的记账类型的文本信息;
标签获取模块,用于基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
风险识别模块,用于基于训练好的风险预测模型对第一用户进行风险识别。
第三方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的文本的风险识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的文本的风险识别方法。
本发明实施例通过获取多个用户备注的记账类型的文本信息;基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;基于训练好的风险预测模型对第一用户进行风险识别,解决了风险识别的结果不够准确的问题,实现了提高风险识别的准确度的效果。
附图说明
图1是本发明实施例一提供的一种文本的风险识别方法的流程示意图;
图2是本发明实施例二提供的一种文本的风险识别方法的流程示意图;
图3是本发明实施例三提供的一种文本的风险识别装置的结构示意图;
图4是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一预设正则表达式为第二预设正则表达式,且类似地,可将第二预设正则表达式称为第一预设正则表达式。第一预设正则表达式和第二预设正则表达式两者都是预设正则表达式,但其不是同一预设正则表达式。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的一种文本的风险识别方法的流程示意图,可适用于对用户进行风险识别的场景,该方法可以由文本的风险识别装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图1所示,本发明实施例一提供的文本的风险识别方法包括:
S110、获取多个用户备注的记账类型的文本信息。
其中,记账类型是指与记账相关的类型。具体的,用户备注的文本信息与记账相关,即可以认为此文本是记账类型的文本信息。文本信息是指用户在记账时备注的文本内容,例如充话费100元等文本信息,此处不作限制。具体的,随着移动终端的快速发展,也带动了APP(Application,应用程序)的发展。目前,市面上有一些APP是针对于记账使用的,可以通过记账的APP,获取多个用户在日常记账时的文本信息。
S120、基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型。
其中,深度挖掘是指对文本信息的潜在价值进行挖掘,得到一些不仅停留在文本信息表面描述的标签。风险标签集合是指对文本信息进行深度挖掘后得到的多个风险标签的集合。具体的,风险标签集合中的多个风险标签作为风险预测模型的输入变量,对风险预测模型进行训练。优选的,风险标签集合的多个风险标签之间完全独立,则训练出的风险预测模型的效果更佳。在本实施例中,可选的,风险标签集合的多个标签可以参考如下表1:
表1 风险标签集合表
S130、基于训练好的风险预测模型对第一用户进行风险识别。
其中,风险预测模型是指对第一用户的模型。具体的,通过输入第一用户备注的记账类型的文本信息到训练好的风险预测模型后,风险预测模型可以输出第一用户备注的文本信息的风险等级,从而可以确定第一用户的风险等级。第一用户是指需要进行风险识别的用户。在本实施例中,第一用户不特指一个具体的用户。
在一可选的实施方式中,基于训练好的风险预测模型对第一用户进行风险识别,可以包括:
获取所述第一用户记账的历史信息;
基于训练好的风险预测模型对所述历史信息进行预测,以确定所述第一用户的风险等级。
其中,记账的历史信息是指第一用户在预设时间内的记账信息。示例性的,历史信息可以是第一用户一个月内的记账信息,也可以是第一用户一年内的记账信息,此处不作限制。将第一用户的历史信息输入训练好的风险预测模型进行预测,可以输出第一用户的风险等级。示例性的,风险等级可以分为高、中低等多个风险等级,此处不作限制。由于风险预测模型是经过深度挖掘的标签进行训练的,因此输出的第一用户的风险等级的预测结果更准确。
在另一可选的实施方式中,在基于训练好的风险预测模型对第一用户进行风险识别之前,可以包括:
在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型。
具体的,风险标签集合包括多个风险标签。但有一些风险标签对不同群体不具有区分力。如果使用此风险标签进行训练,反而会降低风险预测模型的预测效果。因此,可以在风险标签集合中选择对不同群里具有区分力的至少一个风险标签对风险预测模型进行训练。
在一可选的实施方式中,在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型,可以包括:
对所述风险标签集合中的所有风险标签进行交叉验证;
根据交叉验证的结果获取对不同群体具有区分力的至少一个风险标签;
将对不同群体具有区分力的至少一个风险标签作为入参变量训练所述风险预测模型。
其中,交叉验证是指验证不同风险标签训练的风险预测模型的效果的好坏。区分力是指区分好用户和坏用户的效果的体现。可选的,可以通过判断每一个风险标签的随着数量的增加,坏用户出现的概率,验证该风险标签的好坏。示例性的,对于非银机构贷款失败次数此风险标签,判断随着失败次数的增加,坏用户出现的概率是否对应提高,确定该风险标签的效果好坏。如果随着失败次数的增加,坏用户出现的概率也随之上升,则利用此风险标签训练风险预测模型的效果会比较好。在本实施方式中,经过验证,对不同群体具有区分力的效果包括银行贷款记账条数、第三方支付记账文本数、银行卡月均收入、逾期机构数、信用卡消费记账文本条数、信用卡逾期记账文本条数和非银机构借款平台数等风险标签的区分力较好,则可以选取一个或多个区分力较好的风险标签对风险预测模型进行训练。
本发明实施例的技术方案,通过获取多个用户备注的记账类型的文本信息;基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;基于训练好的风险预测模型对第一用户进行风险识别,由于风险标签集合是更深层次的信息,利用此风险标签集合训练的风险预测模型的预测效果更好,达到提高风险识别的准确度的技术效果。
实施例二
图2是本发明实施例二提供的一种文本的风险识别方法的流程示意图。本实施例是在上述技术方案的进一步细化,适用于构建风险预测模型对用户进行风险识别的场景。该方法可以由文本的风险识别装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图2所示,本发明实施例二提供的文本的风险识别方法包括:
S210、获取多个用户备注的记账类型的文本信息。
其中,记账类型是指与记账相关的类型。具体的,用户备注的文本信息与记账相关,即可以认为此文本是记账类型的文本信息。文本信息是指用户在记账时备注的文本内容,例如充话费100元等文本信息,此处不作限制。具体的,随着移动终端的快速发展,也带动了APP(Application,应用程序)的发展。目前,市面上有一些APP是针对于记账使用的,可以通过记账的APP,获取多个用户在日常记账时的文本信息。
S220、基于训练好的分类模型对所述文本信息进行分类,确定所述文本信息的分类标签。
其中,分类模型是指对文本信息进行分类的模型。在本实施例中,可选的,分类模型包括但不限于朴素贝叶斯、TextCNN、RNN(Recurrent Neural Network,循环神经网络)和FastText等。TextCNN是指用于文本分类的卷积神经网络。在本实施例中,优选的,分类模型为FastText。FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,它作为浅层网络往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。
具体的,经训练好的分类模型确定的文本信息分类标签。在本实施例中,可选的,分类标签包括但不限于手机流量、手机话费、银行贷款、银行流水、银行信用卡、第三方支付、信贷广告、非银行贷款和其他等。具体的,文本信息输入训练好的分类模型后,输出文本信息所属的分类标签。一般的,一个文本信息只有一个分类标签。
S230、根据所述分类标签匹配对应的信息抽取策略。
其中,信息抽取策略是指抽取文本信息的深度信息的方式。具体的,不同分类标签有着不同的抽取策略,因此需要根据分类标签匹配对应的信息抽取策略。
S240、基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素。
其中,对文本信息进行抽取是指提取文本信息的部分内容。文本要素是指构成文本信息的要素。示例性的,文本要素包括但不限于业务类型、所述业务类型的主体来源和所述业务类型的金额。业务类型是指文本信息所属的业务。可选的,业务类型可以包括但不限于支出、收入、充话费、账单、欠款、余额、余额不足、放款、还款、退款、最低还款、已逾期、已结清、申贷和额度提升等,此处不作限制。主体来源是指业务类型的来源。以业务类型是还款为例,如果文本信息是想工商银行还款,则主体来源是工商银行。
具体的,抽取策略的不同,体现在不同的分类标签抽取的业务类型不同。示例性的,如果分类标签为银行信用卡,则抽取的业务类型为支出、账单、欠款、余额、余额不足、放款、还款、最低还款和已逾期;如果分类标签为第三方支付,则抽取的业务类型为支出。可选的,不同的分类标签要抽取的业务类型可以参考如下表2:
表2 不同分类标签对应抽取的业务类型
在一可选的实施方式中,文本要素包括所述业务类型、所述业务类型的主体来源和所述业务类型的金额,基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素,可以包括:
基于第一预设正则表达式对所述文本信息进行抽取,得到所述业务类型的主体来源和所述业务类型的金额;
基于关键字匹配的第二预设正则表达式对所述文本信息进行抽取,得到所述业务类型。
其中,第一预设正则表达式是指用于提取业务类型的主体来源和业务类型的金额的一个基于规则的匹配模板。第二预设正则表达式是指用于提取业务类型的一个基于关键字匹配的匹配模板。具体的,第二预设正则表达式的关键字可以根据用户的记录习惯进行制定,此处不作限制。具体的,第二预设正则表达式的关键词可以是一个或多个。示例性的,第二预设正则表达式的多个关键词构成的关键词集合可以包括消费、支付、支出、支取、代付、代收、预借、取现、成功交易等,则文本信息从左到右命中关键词集合的任意一个关键字,则抽取信息为支出。例如命中“消费”时,抽取信息为“支出”。可选的,对于部分业务类型包括金额,而部分业务类型无金额,则对于包括金额的业务类型采用抽取金额字段的方式抽取业务类型对应的金额;对于无金额的业务类型采用抽取标志位字段的方式,例如已逾期、已结清等业务类型,则可以通过抽取标志位字段的形式对此业务类型进行抽取。抽取标志位对应的值就只有1或者空,1代表触发,也就是命中了这个字段,空代表没有。
对于业务类型来说,情况比较复杂,一是业务类型较多,且单条记账备注文本可能存在多种业务类型,单单采用正则表达式匹配会产生歧义。因此,采用基于关键字匹配的第二预设正则表达式抽取业务类型会更准确。具体的,在确定文本信息所属的分类标签后,可以知道该分类标签对应的业务类型,则可以根据业务类型确定关键字,从而使用关键字匹配的第二预设正则表达式提取业务类型。具体的,由于不同分类标签的业务类型不同,因此信息抽取策略的不同还体现在第二预设正则表达式的关键字不同。
S250、对所述文本要素进行分析,以得到所述风险标签集合,所述风险标签集合用于训练风险预测模型。
其中,对文本要素进行分析,是指对文本要素划分成独立无干扰的多个风险标签。
在一可选的实施方式中,对所述文本要素进行分析,以得到所述风险标签集合,可以包括:
从至少一个维度对文本要素进行集结,以得到所述风险标签集合。
其中,至少一个维度包括但不限于时间维度、数量维度和数值维度其中的一项或多项。集结是指按照至少一个维度对文本要素进行分析总结。时间维度是指从时间层面对文本要素进行分类。示例性的,将银行卡支出按每个月的维度进行集结,得到银行卡月均支出;将已逾期的机构按数量进行集结,得到非银行贷款平台数;将余额按数值维度进行集结,得到银行最大余额等,此处不作限制。
S260、基于训练好的风险预测模型对第一用户进行风险识别。
其中,风险预测模型是指对第一用户的模型。具体的,通过输入第一用户备注的记账类型的文本信息到训练好的风险预测模型后,风险预测模型可以输出第一用户备注的文本信息的风险等级,从而可以确定第一用户的风险等级。第一用户是指需要进行风险识别的用户。在本实施例中,第一用户不特指一个具体的用户。
本发明实施例的技术方案,通过获取多个用户备注的记账类型的文本信息;基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;基于训练好的风险预测模型对第一用户进行风险识别,由于风险标签集合是更深层次的信息,利用此风险标签集合训练的风险预测模型的预测效果更好,达到提高风险识别的准确度的技术效果。
实施例三
图3是本发明实施例三提供的一种文本的风险识别装置的结构示意图,本实施例可适用于对用户进行风险识别的场景,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图3所示,本实施例提供的文本的风险识别装置可以包括文本获取模块310、标签获取模块320和风险识别模块330,其中:
文本获取模块310,用于获取多个用户备注的记账类型的文本信息;
标签获取模块320,用于基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
风险识别模块330,用于基于训练好的风险预测模型对第一用户进行风险识别。
可选的,标签获取模块320包括:
分类单元,用于基于训练好的分类模型对所述文本信息进行分类,确定所述文本信息的分类标签;
匹配单元,用于根据所述分类标签匹配对应的信息抽取策略;
抽取单元,用于基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素;
分析单元,用于对所述文本要素进行分析,以得到所述风险标签集合。
可选的,所述基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素,该抽取单元具体用于基于第一预设正则表达式对所述文本信息进行抽取,得到所述业务类型的主体来源和所述业务类型的金额;基于关键字匹配的第二预设正则表达式对所述文本信息进行抽取,得到所述业务类型。
可选的,分析单元具体用于从至少一个维度对文本要素进行集结,以得到所述风险标签集合。
可选的,该装置还包括:
训练模块,用于在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型。
可选的,该训练模块包括:
验证单元,用于对所述风险标签集合中的所有风险标签进行交叉验证;
第一获取单元,用于根据交叉验证的结果获取对不同群体具有区分力的至少一个风险标签;
训练单元,用于将对不同群体具有区分力的至少一个风险标签作为入参变量训练所述风险预测模型。
可选的,该风险识别模块330可以包括:
第二获取单元,用于获取所述第一用户记账的历史信息;
预测单元,用于基于训练好的风险预测模型对所述历史信息进行预测,以确定所述第一用户的风险等级。
本发明实施例所提供的文本的风险识别装置可执行本发明任意实施例所提供的文本的风险识别方法,具备执行方法相应的功能模块和有益效果。本发明实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。
实施例四
图4是本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器612的框图。图4显示的服务器612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,服务器612以通用服务器的形式表现。服务器612的组件可以包括但不限于:一个或者多个处理器616,存储装置628,连接不同系统组件(包括存储装置628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)630和/或高速缓存存储器632。服务器612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储装置628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
服务器612也可以与一个或多个外部设备614(例如键盘、指向终端、显示器624等)通信,还可与一个或者多个使得用户能与该服务器612交互的终端通信,和/或与使得该服务器612能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器620通过总线618与服务器612的其它模块通信。应当明白,尽管图中未示出,可以结合服务器612使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器616通过运行存储在存储装置628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的一种文本的风险识别方法,该方法可以包括:
获取多个用户备注的记账类型的文本信息;
基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
基于训练好的风险预测模型对第一用户进行风险识别。
本发明实施例的技术方案,通过获取多个用户备注的记账类型的文本信息;基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;基于训练好的风险预测模型对第一用户进行风险识别,由于风险标签集合是更深层次的信息,利用此风险标签集合训练的风险预测模型的预测效果更好,达到提高风险识别的准确度的技术效果。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种文本的风险识别方法,该方法可以包括:
获取多个用户备注的记账类型的文本信息;
基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
基于训练好的风险预测模型对第一用户进行风险识别。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例的技术方案,通过获取多个用户备注的记账类型的文本信息;基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;基于训练好的风险预测模型对第一用户进行风险识别,由于风险标签集合是更深层次的信息,利用此风险标签集合训练的风险预测模型的预测效果更好,达到提高风险识别的准确度的技术效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种文本的风险识别方法,其特征在于,包括:
获取多个用户备注的记账类型的文本信息;
基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
基于训练好的风险预测模型对第一用户进行风险识别;
所述基于所述文本信息进行深度挖掘以获得风险标签集合,包括:
基于训练好的分类模型对所述文本信息进行分类,确定所述文本信息的分类标签;
根据所述分类标签匹配对应的信息抽取策略;
基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素;
对所述文本要素进行分析,以得到所述风险标签集合;
所述文本要素包括业务类型、所述业务类型的主体来源和所述业务类型的金额,不同分类标签抽取的所述业务类型不同,所述基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素,包括:
基于第一预设正则表达式对所述文本信息进行抽取,得到所述业务类型的主体来源和所述业务类型的金额;
基于关键字匹配的第二预设正则表达式对所述文本信息进行抽取,得到所述业务类型;
在所述基于训练好的风险预测模型对第一用户进行风险识别之前,包括:
在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型;
所述在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型,包括:
对所述风险标签集合中的所有风险标签进行交叉验证;
根据交叉验证的结果获取对不同群体具有区分力的至少一个风险标签;
将对不同群体具有区分力的至少一个风险标签作为入参变量训练所述风险预测模型。
2.如权利要求1所述的文本的风险识别方法,其特征在于,所述对所述文本要素进行分析,以得到所述风险标签集合,包括:
从至少一个维度对文本要素进行集结,以得到所述风险标签集合。
3.如权利要求1所述的文本的风险识别方法,其特征在于,所述基于训练好的风险预测模型对第一用户进行风险识别,包括:
获取所述第一用户记账的历史信息;
基于训练好的风险预测模型对所述历史信息进行预测,以确定所述第一用户的风险等级。
4.一种文本的风险识别装置,其特征在于,包括:
文本获取模块,用于获取多个用户备注的记账类型的文本信息;
标签获取模块,用于基于所述文本信息进行深度挖掘以获得风险标签集合,所述风险标签集合用于训练风险预测模型;
风险识别模块,用于基于训练好的风险预测模型对第一用户进行风险识别;
所述标签获取模块,包括:
分类单元,用于基于训练好的分类模型对所述文本信息进行分类,确定所述文本信息的分类标签;
匹配单元,用于根据所述分类标签匹配对应的信息抽取策略;
抽取单元,用于基于所述信息抽取策略对所述文本信息进行抽取,得到文本要素;
分析单元,用于对所述文本要素进行分析,以得到所述风险标签集合;
所述文本要素包括业务类型、所述业务类型的主体来源和所述业务类型的金额,不同分类标签抽取的所述业务类型不同;
所述抽取单元,具体用于:
基于第一预设正则表达式对所述文本信息进行抽取,得到所述业务类型的主体来源和所述业务类型的金额;
基于关键字匹配的第二预设正则表达式对所述文本信息进行抽取,得到所述业务类型;
所述装置还包括:
训练模块,用于在所述风险标签集合中选择至少一个风险标签作为入参变量训练风险预测模型;
所述训练模块包括:
验证单元,用于对所述风险标签集合中的所有风险标签进行交叉验证;
第一获取单元,用于根据交叉验证的结果获取对不同群体具有区分力的至少一个风险标签;
训练单元,用于将对不同群体具有区分力的至少一个风险标签作为入参变量训练所述风险预测模型。
5.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一项所述的文本的风险识别方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的文本的风险识别方法。
CN201911272017.1A 2019-12-12 2019-12-12 文本的风险识别方法、装置、服务器和存储介质 Active CN111046184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272017.1A CN111046184B (zh) 2019-12-12 2019-12-12 文本的风险识别方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272017.1A CN111046184B (zh) 2019-12-12 2019-12-12 文本的风险识别方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN111046184A CN111046184A (zh) 2020-04-21
CN111046184B true CN111046184B (zh) 2024-04-12

Family

ID=70236194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272017.1A Active CN111046184B (zh) 2019-12-12 2019-12-12 文本的风险识别方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN111046184B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753520B (zh) * 2020-06-02 2023-04-18 五八有限公司 一种风险预测方法、装置、电子设备及存储介质
CN113450215A (zh) * 2021-06-25 2021-09-28 中国工商银行股份有限公司 交易数据的风险检测方法、装置和服务器
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置
CN115019328A (zh) * 2022-07-01 2022-09-06 支付宝(杭州)信息技术有限公司 内容风险识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220516A1 (en) * 2017-12-08 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining general text content, server, and storage medium
CN110263157A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据风险预测方法、装置及设备
CN110349009A (zh) * 2019-07-02 2019-10-18 北京淇瑀信息科技有限公司 一种多头借贷违约预测方法、装置和电子设备
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220516A1 (en) * 2017-12-08 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining general text content, server, and storage medium
CN110263157A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据风险预测方法、装置及设备
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备
CN110349009A (zh) * 2019-07-02 2019-10-18 北京淇瑀信息科技有限公司 一种多头借贷违约预测方法、装置和电子设备

Also Published As

Publication number Publication date
CN111046184A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046184B (zh) 文本的风险识别方法、装置、服务器和存储介质
US20230132208A1 (en) Systems and methods for classifying imbalanced data
CN111340616B (zh) 线上贷款的审批方法、装置、设备及介质
CN111192131A (zh) 金融风险预测方法、装置和电子设备
US11531987B2 (en) User profiling based on transaction data associated with a user
CN110633991A (zh) 风险识别方法、装置和电子设备
Liang et al. Analyzing credit risk among Chinese P2P-lending businesses by integrating text-related soft information
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
US11423442B2 (en) Method and system for predicting relevant offerings for users of data management systems using machine learning processes
WO2020102462A1 (en) Predicting entity outcomes using taxonomy classifications of transactions
CN113743111A (zh) 基于文本预训练和多任务学习的金融风险预测方法及装置
CN111783039A (zh) 风险确定方法、装置、计算机系统和存储介质
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
US11580549B2 (en) Transaction tracking and fraud detection using voice and/or video data
Barua et al. Swindle: Predicting the probability of loan defaults using catboost algorithm
CN113554504A (zh) 一种车贷风控模型生成方法、装置及评分卡生成方法
CN110930242B (zh) 一种可信度预测方法、装置、设备和存储介质
CN111695988A (zh) 信息处理方法、装置、电子设备和介质
CN112365352A (zh) 一种基于图神经网络的反套现方法及装置
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN115482094A (zh) 一种业务处理方法、装置、电子设备及计算机可读介质
CN110888987B (zh) 一种贷款中介的识别方法、系统、设备及存储介质
CN113159924A (zh) 授信客户对象的确定方法及装置
CN111681115B (zh) 一种发薪日识别方法、系统、设备和存储介质
CN112785406B (zh) 一种对账方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen Mingshu Information Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Suishou Jinfu Information Technology Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant