具体实施方式
正如背景技术中所描述的,文本描述中经常出现多个风险主体和非风险主体掺杂。以图1所示的文本描述为例,若欺诈风险事件的事件主体的类型为电话号码,该文本描述中的风险主体为“135××××9195”,非风险主体为“132××××0825”。由于文本描述中多个风险主体和非风险主体掺杂,现有的识别方法无法从多个事件主体中准确地识别出风险主体,会出现漏识别和误识别现象。基于此,本说明书实施例提供一种风险主体识别方法以及装置,通过先将所有事件主体识别出来,再识别事件主体是否为风险主体,实现精准识别包括多个事件主体的待处理文本中的风险主体。
为了更好地理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,本说明书实施例提供一种风险主体识别方法。图2是所述风险主体识别方法的流程图,所述风险主体识别方法包括步骤S201和步骤S204。
S201,识别待处理文本中的所有事件主体。
风险事件可以为在真实世界发生的风险事件,也可以为通过互联网发生的风险事件,所述风险事件包括但不限于逾期风险事件和欺诈风险事件等。所述逾期风险事件是指用户使用资源服务平台提供的资源但无法在资源使用期限届满时释放该资源的事件,所述资源服务平台包括但不限于数据资源服务平台、信道资源服务平台以及资金资源服务平台等,相应地,所述资源服务平台提供的资源包括但不限于数据资源、信道资源以及资金资源等;所述欺诈风险事件是指用户故意制造假相或者隐瞒事实真相骗取其他用户或者平台资源的事件。
一个事件由多个事件元素构成,在事件中起关键作用的事件元素可以作为事件的主体,即事件主体。对于不同类型的事件,确定出的事件主体的类型也不一样。以所述欺诈风险事件为例,所述欺诈风险事件的事件主体的类型可以为银行卡账号、电话号码、平台账号或者邮箱地址等。本说明实施例是通过先将所有事件主体识别出来,再识别事件主体是否为风险事件的事件主体,因此,所述所有事件主体可以为银行卡账号、电话号码、平台账号或者邮箱地址等。需要说明的是,所述所有事件主体的类型根据实际应用场景确定,本说明书实施例并不限定所述所有事件主体的具体类型。
所述待处理文本为用于描述风险事件的文本。在本说明书实施例中,所述待处理文本根据数据仓库中存储的业务数据获得。具体地,在所述识别待处理文本中的所有事件主体之前,从数据仓库中提取预设业务数据,所述预设业务数据为风险事件对应的业务数据。所述数据仓库中存储的数据可以是通过网络爬虫方式从互联网中采集的网页数据,也可以是所述数据仓库管理人员通过输入设备录入的本地数据,本说明书实施例对此不进行限定。提取出所述预设业务数据后,对所述预设业务数据进行数据清洗,即从所述数据仓库中清洗出所需要的结构化数据,获得所述待处理文本。
在一种可选实现方式中,可以采用关键词匹配的方式从所述待处理文本中识别出所述所有事件主体。进一步,所述关键词匹配可以为关键词精确匹配、去除特殊字符后的模糊匹配以及组合关键词匹配。以所述所有事件主体为手机号码为例,可以在所述待处理文本中搜索关键词“手机号”或者“手机号码”等,然后匹配出这些关键词后面的数字作为所述事件主体。
在另一种可选实现方式中,可以将所述待处理文本输入根据所述所有事件主体的生成规则预先建立的规则引擎,获得所述所有事件主体。规则引擎是由推理引擎发展而来、嵌入在应用程序中的组件,实现将业务决策从应用程序中分离出来,并使用预定义的语义模块编写业务决策。简单来说,规则引擎可以接受数据输入,根据接受的数据解释业务规则,并根据业务规则做出业务决策。以所述所有事件主体为银行卡账号为例,目前银行卡账号根据位数主要分为两类,一类银行卡账号位数为19位,另一类银行卡账号位数为16位,但无论这些银行卡账号位数为多少,其首位数字都遵循一定的规则。例如,visa银行卡账号以数字4开头,万事达银行卡账号以数字5开头,银联国内银行卡账号以数字9开头,国际标码银行卡账号以数字6开头等等。因此,根据银行卡账号的首位数字和总位数,可以建立所述规则引擎。本领域技术人员知晓如何根据所述所有事件主体的生成规则建立所述规则引擎,本说明书实施例对此不再赘述。所述规则引擎可以识别出所述待处理文本中满足所述生成规则的文本,所有满足所述生成规则的文本即为所述所有事件主体。
通过关键词识别技术进行文本过滤匹配的方法,其过滤匹配的准确性比较低,容错性比较差,很容易产生误判和漏判。而将所述待处理文本输入所述规则引擎,是由所述规则引擎直接识别所述所有事件主体,不需要设置关键词、进行关键词搜索并匹配关键词之后的文本内容,因而能够提高识别事件主体识别的准确性和效率。
S202,根据前置文本和后置文本获得目标主体对应的第一语义文本,其中,所述目标主体为所述所有事件主体中的任意一个,所述前置文本为位于所述目标主体之前的M个字节长度的文本,所述后置文本为位于所述目标主体之后的N个字节长度的文本,M和N为自然数且M和N不同时为0。
由于所述待处理文本中可能出现风险主体(例如,欺诈者的银行卡账号、欺诈者的电话号码以及欺诈者的邮箱地址等)和非风险主体(例如,被欺诈者的银行卡账号、被欺诈者的电话号码以及被欺诈者的邮箱等)掺杂的情况,每个事件主体可能为风险主体,也可能为非风险主体。因而在识别出所述所有事件主体后,需要将所述所有事件主体中的任意一个事件主体作为目标主体进行进一步识别。在本说明书实施例中,根据所述目标主体前后文本的语义确定所述目标主体是否为风险主体。
具体地,从所述待处理文本中提取所述前置文本和所述后置文本,即从所述待处理文本中提取位于所述目标主体之前的M个字节长度的文本和位于所述目标主体之后的N个字节长度的文本。M和N的取值可以为0,但不能同时为0,也就是说,可以只提取位于所述目标主体之前的M个字节长度的文本作为所述第一语义文本,也可以只提取位于所述目标主体之后的N个字节长度的文本作为所述第一语义文本,还可以同时提取位于所述目标主体之前的M个字节长度的文本和位于所述目标主体之后的N个字节长度的文本作为所述第一语义文本。并且,在M和N均不为0时,M和N的取值可以设置为相等,也可以设置为不等。M和N的取值可以根据实验数据统计得到,也可以是根据经验总结得到,本说明书实施例对此不进行限定。
通常,所述目标主体对应的语义由其最接近的文本表述,因而所述前置文本和所述后置文本均与所述目标主体相接,即所述前置文本和所述目标主体之间没有其他文本,所述后置文本与所述目标主体之间没有其他文本。但是,不排除在一些其他特殊应用场景中,所述目标主体对应的语义由其相邻的文本表述,因而所述前置文本和所述后置文本均与所述目标主体相邻,即所述前置文本和所述目标主体之间还有其他文本,所述后置文本与所述目标主体之间还有其他文本。因此,本说明书实施例对所述前置文本和所述后置文本的具体位置不进行限定。进一步,所述前置文本和所述后置文本均不包括其他事件主体,所述其他事件主体为所述所有事件主体中除所述目标主体外的事件主体。
需要说明的是,提取所述前置文本和所述后置文本时,可以先提取所述前置文本,后提取所述后置文本;也可以先提取所述后置文本,后提取所述前置文本;还可以同时提取所述前置文本和所述后置文本,本说明书实施例对提取所述前置文本和所述后置文本的顺序不进行限定。
获得所述前置文本和所述后置文本后,对所述前置文本和所述后置文本进行拼接,获得拼接文本。通常,语义表达是按照先后顺序进行的,因而进行拼接时,可以将所述后置文本拼接在所述前置文本最后一个字节之后。但是,不排除在一些其他特殊应用场景中,语义表达并不是按照先后顺序进行的,因而进行拼接时,可以根据实际应用场景将所述前置文本拼接在所述后置文本最后一个字节之后,或者是将所述前置文本拼接在所述后置文本中的预设位置,或者是将所述后置文本拼接在所述前置文本中的预设位置,本说明书实施例对拼接所述前置文本和所述后置文本的具体方式不进行限定。
所述拼接文本中可能存在一些符号,这些符号不能进行语义表述。因此,在获得所述拼接文本之后,可以剔除所述拼接文本中的符号,获得所述第一语义文本。
S203,将所述第一语义文本输入预先建立的第一文本分类模型中,获得所述目标主体被归类为风险主体的第一概率,所述风险主体为风险事件的事件主体。
所述第一语义文本表征所述目标主体的风险性,通过对所述第一语义文本进行分类,可以确定所述目标主体是否为风险主体。在本说明书实施例中,采用文本卷积神经网络(TextCNN)模型作为所述第一文本分类模型。TextCNN模型相对于传统的文本分类算法在准确率和召回率上都有较好的表现,并且,该模型的自动化和时时化程度较高,满足风险主体实时甄别的需求。当然,也可以采用其他文本分类模型作为所述第一文本分类模型,本说明书实施例对此不进行限定。
需要说明的是,所述第一文本分类模型的生成方法与所述第一文本分类模型的应用方法类似,即采用包括一个以上事件主体的文本作为样本文本,所述样本文本中每个事件主体是具有标签的,即所述样本文本中每个事件主体的风险性是已知的,通过步骤S202获得所述样本文本中每个事件主体对应的第一语义文本,通过将所述样本文本中每个事件主体对应的第一语义文本和所述样本文本中每个事件主体的标签,输入参数待定的TextCNN模型,就可以获得所述第一文本分类模型。本领域技术人员知晓如何对所述第一文本分类模型进行训练,在此不再赘述。
S204,根据所述第一概率确定所述目标主体是否为所述风险主体。
具体地,可以直接将所述第一概率与预设概率阈值进行比较。若所述第一概率大于所述预设概率阈值,则可以确定所述目标主体为风险主体;反之,若所述第一概率不大于所述预设概率阈值,则可以确定所述目标主体为非风险主体。当然,也可以对所述第一概率进行某种映射,根据映射后获得的数据确定所述目标主体是否为风险主体。
本说明书实施例提供的风险主体识别方法,通过先将所有事件主体识别出来,再识别所述事件主体是否为风险主体,能够精准识别包括多个事件主体的所述待处理文本中的风险主体,提升风险主体识别的准确率、召回率以及自动化水平,从而为风控系统提供可靠的数据分析依据,提高风控系统数据分析处理的准确性。
针对所述待处理文本中多个事件主体之间文本距离较近的情况,通过步骤S201至步骤S204获得的识别结果具有一定的误识率。针对该种情况,本说明书实施例通过单独截取前后两个事件主体中间的文本建立文本模型,来识别前后两个事件主体间的主动(风险主体)和被动关系(非风险主体),最终通过对模型输出结果进行融合的方式对风险主体进行识别。具体地,在执行步骤S204之前,即在根据所述第一概率确定所述目标主体是否为所述风险主体之前,还包括:
S205,判断是否存在相邻主体,所述相邻主体为所述所有事件主体中与所述目标主体之间的字节长度小于预设阈值的事件主体。
在执行步骤S201之后,可以获得每两个事件主体之间的字节长度。若某个事件主体与所述目标主体之间的字节长度小于所述预设阈值,则该事件主体为所述目标主体的相邻主体。所述预设阈值可以根据实验数据统计得到,也可以是根据经验总结得到,本说明书实施例对此不进行限定。
需要说明的是,所述相邻主体可以为0个,也可以为一个以上。若不存在所述相邻主体,则执行S204,即根据所述第一概率确定所述目标主体是否为所述风险主体,否则执行S206,根据中间文本获得所述目标主体对应的第二语义文本,其中,所述中间文本为所述目标主体和所述相邻主体之间的文本。
具体地,从所述待处理文本中提取所述中间文本,即从所述待处理文本中提取所述目标主体和所述相邻主体之间的文本。所述中间文本中可能存在一些符号,这些符号不能进行语义表述。因此,在获得所述中间文本之后,可以剔除所述中间文本中的符号,获得所述第二语义文本。
S207,将所述第二语义文本输入预先建立的第二文本分类模型中,获得所述目标主体被归类为所述风险主体的第二概率。
所述第二语义文本表征前后两个事件主体间的主动和被动关系,若所述第二语义文本表征前后两个事件主体间为主动关系且所述目标主体位于所述中间文本之前,则所述目标主体为风险主体;若所述第二语义文本表征前后两个事件主体间为主动关系且所述目标主体位于所述中间文本之后,则所述目标主体为风险主体为非风险主体;若所述第二语义文本表征前后两个事件主体间为被动关系且所述目标主体位于所述中间文本之前,则所述目标主体为非风险主体;若所述第二语义文本表征前后两个事件主体间为被动关系且所述目标主体位于所述中间文本之后,则所述目标主体为风险主体为风险主体。因此,可以通过对所述第二语义文本进行分类,判断前后两个事件主体间的主动和被动关系,从而确定所述目标主体是否为风险主体。在本说明书实施例中,采用文本卷积神经网络(TextCNN)模型作为所述第二文本分类模型。当然,也可以采用其他文本分类模型作为所述第一文本分类模型,本说明书实施例对此不进行限定。
需要说明的是,所述第二文本分类模型的生成方法与所述第二文本分类模型的应用方法类似,即采用包括两个事件主体的文本作为样本文本,所述两个事件主体之间的字节长度小于所述预设阈值,所述样本文本中每个事件主体是具有标签的,即所述样本文本中每个事件主体的风险性是已知的,通过步骤S206获得所述样本文本中两个事件主体对应的第二语义文本,通过将所述样本文本中两个事件主体对应的第二语义文本和所述样本文本中每个事件主体的标签,输入参数待定的TextCNN模型,就可以获得所述第二文本分类模型。本领域技术人员知晓如何对所述第二文本分类模型进行训练,在此不再赘述。
S208,根据所述第一概率和所述第二概率确定所述目标主体是否为所述风险主体。
具体地,可以根据所述第一概率和所述第二概率的加权和,确定所述目标主体是否为所述风险主体,所述第一概率的权重以及所述第二概率的权重可以根据实际应用场景进行设置。以所述第一概率为0.8,所述第二概率为0.1为例,若所述第一概率的权重为0.5,所述第二概率的权重也为0.5,则所述目标主体为风险主体的最终概率为(0.5×0.8+0.5×0.1)=0.45。若所述预设概率阈值为0.5,最终确定所述目标主体为非风险主体。需要说明的是,根据所述第一概率和所述第二概率确定所述目标主体是否为风险主体,还可以有其他实现方式,本实施例对此不进行限定。
在所述目标主体存在相邻主体时,通过将所述目标主体对应的第二语义文本输入所述第二文本分类模型,并将所述第二文本分类模型的分类结果和所述第一文本分类模型的分类结果进行融合,解决因主体相距较近导致分类模型准确性低的情况,进一步提升风险主体识别的准确率。
第二方面,基于同样的发明构思,本说明书实施例提供一种风险主体识别装置。图3是所述风险主体识别装置的结构示意图,所述风险主体识别装置包括:
识别模块31,用于识别待处理文本中的所有事件主体;
第一文本获得模块32,用于根据前置文本和后置文本获得目标主体对应的第一语义文本,其中,所述目标主体为所述所有事件主体中的任意一个,所述前置文本为位于所述目标主体之前的M个字节长度的文本,所述后置文本为位于所述目标主体之后的N个字节长度的文本,M和N为自然数且M和N不同时为0;
第一概率获得模块33,用于将所述第一语义文本输入预先建立的第一文本分类模型中,获得所述目标主体被归类为风险主体的第一概率,所述风险主体为风险事件的事件主体;
第一确定模块34,用于根据所述第一概率确定所述目标主体是否为所述风险主体。
在一种可选实现方式中,所述风险主体识别装置还包括:
第一提取模块,用于从数据仓库中提取预设业务数据;
数据清洗模块,用于对所述预设业务数据进行数据清洗,获得所述待处理文本。
在一种可选实现方式中,所述识别模块31用于将所述待处理文本输入根据所述所有事件主体的生成规则预先建立的规则引擎中,获得所述所有事件主体。
在一种可选实现方式中,所述第一文本获得模块32包括:
第二提取模块,用于从所述待处理文本中提取所述前置文本和所述后置文本;
文本拼接模块,用于对所述前置文本和所述后置文本进行拼接,获得拼接文本;
第一剔除模块,用于剔除所述拼接文本中的符号,获得所述第一语义文本。
在一种可选实现方式中,所述前置文本和所述后置文本均与所述目标主体相接。
在一种可选实现方式中,所述前置文本和所述后置文本均不包括其他事件主体,所述其他事件主体为所述所有事件主体中除所述目标主体外的事件主体。
在一种可选实现方式中,所述风险主体识别装置还包括:
判断模块35,用于判断是否存在相邻主体,所述相邻主体为所述所有事件主体中与所述目标主体之间的字节长度小于预设阈值的事件主体;
第二文本获得模块36,用于在存在所述相邻主体时,根据中间文本获得所述目标主体对应的第二语义文本,其中,所述中间文本为所述目标主体和所述相邻主体之间的文本;
第二概率获得模块37,用于将所述第二语义文本输入预先建立的第二文本分类模型中,获得所述目标主体被归类为所述风险主体的第二概率;
第二确定模块38,用于根据所述第一概率和所述第二概率确定所述目标主体是否为所述风险主体。
在一种可选实现方式中,所述第二文本获得模块36包括:
第三提取模块,从所述待处理文本中提取所述中间文本;
第二剔除模块,用于剔除所述中间文本中的符号,获得所述第二语义文本。
在一种可选实现方式中,所述第二确定模块38用于根据所述第一概率和所述第二概率的加权和,确定所述目标主体是否为所述风险主体。
在一种可选实现方式中,所述第一文本分类模型和所述第二文本分类模型为TextCNN模型。
在一种可选实现方式中,所述所有事件主体为银行卡账号、电话号码、平台账号或者邮箱地址。
第三方面,基于与前述实施例中风险主体识别方法同样的发明构思,本发明还提供一种计算机设备,如图4所示。所述计算机设备包括存储器404、处理器402以及存储在所述存储器404上并可在所述处理器402上运行的计算机程序,所述处理器402执行所述计算机程序时实现前述实施例中风险主体识别方法的步骤。
在图4中,总线架构用总线400来代表,总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口405在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。
第四方面,基于与前述实施例中风险主体识别方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例中风险主体识别方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。