具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
正如背景技术部分陈述的,由于人名的词信息没有固定的格式,容易被直接忽略,使得模型难以学习到人名与上下文之间的语义关系,泛化性低。基于此,本发明提供一种模型训练方法,通过将人名信息统一替换为预设的特殊字符,由此,模型可学习到人名与上下文之间的语义关系。
下面参见图1对本发明的应用场景进行示例性说明。
本应用场景中包括:业务平台和业务平台的用户群体,业务平台包括:业务服务器102和信息分发装置101,其中:
业务服务器102,用于监控用户群体中各用户的业务状态,并生成对应的业务信息,例如:在借贷款业务场景中,若监控到用户A的借贷款到了还款期限,则生成还款通知信息;
信息分发装置101,用于检测业务服务器102生成的业务信息的接收方,即用户,是否为信息内容的受体本人,若是,则允许发送至对应的用户终端,否则过滤掉接收方与受体本人不一致的业务信息。例如:业务信息为‘王旭你老公杨宇的还款账单如下’,显然业务信息内容的受体为‘杨宇’,但业务信息的接收方为‘王旭’,显然接收方与受体本人不一致。
其中,用户终端可以是PC端,也可以是移动终端或者叫移动通信终端是指可以在移动中使用的计算机设备,广义的讲包括手机、笔记本、平板电脑、POS机甚至包括车载电脑。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图2为本说明书一实施例提供的一种模型训练方法的流程示意图,该方法可由图1中的业务平台执行,参见图2,该方法具体可以包括如下步骤:
步骤202、确定样本集中每一条文本信息的接收方;
其中,文本信息可以为从业务平台生成的业务信息中提取出的文本;接收方是指文本信息实际要发送给的对象,该对象可能是文本信息内容的受体本人,也可能是第三方用户。
以借贷款业务场景为例,步骤202具体可以为:
业务平台若监控到‘王旭’的借贷款的还款日期已近,则可能生成该条业务信息对应的文本信息‘王旭你老公杨宇的还款账单如下’,并明确该条文本信息发送的对象,即‘王旭’。基于此,可明确每一条文本信息的接收方。
步骤204、将所述文本信息中的目标人名信息替换为预设的特殊字符,所述目标人名信息与所述接收方的身份相匹配;
其中,预设的特殊字符为预先设定的字符,该字符与文本信息中的其他字符不相同,例如:-per等。
不难理解的是,在步骤204之前,本实施例还包括:查找目标人名信息的本步骤,该步骤的一种实现方式可以为:
确定所述接收方对应的实名认证的用户姓名信息;查找出所述文本信息中的与所述用户姓名信息相匹配的目标人名信息。具体地,
由于一般情况下,业务平台可能会使用手机号、用户账号等信息来表示接收方,例如:手机号187xxxxxxxx,因此,可先查找出基于187xxxxxxxx进行的实名认证信息,从而得到接收方真实的姓名,例如:王旭;然后,将用户姓名(王旭)与文本信息进行匹配,可查找出对应的人名信息(王旭),作为目标人名信息。
基于此以及上述步骤204,业务平台可将所有文本信息中出现的‘王旭’统一替换为‘-per’。
步骤206、基于替换处理后的文本信息,训练接收方本人判断模型,所述接收方本人判断模型用于判断文本信息的接收方是否为文本信息内容的受体本人。其一种实现方式可以为:
对所述替换处理后的文本信息进行分词处理,得到关键词集合;将所述关键词集合输入至接收方本人判断模型,以供所述接收方本人判断模型学习人名信息与上下文的语义关系。具体可以示例为:
假设文本信息包括:‘王旭你老公杨宇的还款账单如下’和‘黄晓菁您好,我是xx金融,您的贷款已逾期,避免逾期影响央行征信及家人朋友正常生活,请立即联系我司处理’,其中,目标人名信息分别为‘王旭’和‘黄晓菁’;基于上述步骤204,得到替换处理后的文本信息‘-per你老公杨宇的还款账单如下’和‘-per您好,我是xx金融,您的贷款已逾期,避免逾期影响央行征信及家人朋友正常生活,请立即联系我司处理’;然后,对其进行分词处理得到包含‘-per’、‘你’、‘老公’、‘杨宇’、‘的’、‘还款’、‘账单’、‘如下’的关键词集合和包含‘-per’,‘您好’,‘xx金融’,‘您’,‘贷款’,‘已经逾期’,‘逾期’,‘影响’,‘央行’,‘征信’,‘家人’,‘朋友’,‘正常’,‘生活’,‘请’,‘立即’,‘联系’,‘我司’,‘处理’,并为之配置负样本的样本标签;以此类推,可得到样本集中的其他文本信息对应的关键词集合;然后,将每个关键词集合中关键词及其样本标签输入至接收方本人判断模型,由于样本集中的人名信息已被统一替换为格式固定的‘-per’,因此,接收方本人判断模型可学习到人名与上下文之间的关系,从而得到训练完成的接收方本人判断模型。
进一步地,本实施例还公开了模型应用步骤,参见图3,该步骤具体可以包括:
步骤302、确定待发送文本信息的目标接收方;
其中,目标接收方为该待发送文本信息实际要发送至的用户对象,可以用用户手机号、用户注册的账号等信息表示。
步骤304、将所述待发送文本信息中的目标人名信息替换为预设的目标特殊字符,所述目标人名信息与所述目标接收方的身份相匹配;
步骤306、将替换处理后的待发送文本信息的关键词集合输入至所述接收方本人判断模型,以确定所述目标接收方是否为所述待发送文本信息内容的受体本人。
若所述目标接收方不是所述待发送文本信息内容的受体本人,则拦截所述待发送文本信息的对外发送并过滤掉。若所述目标接收方是所述待发送信息内容的受体本人,则允许所述待发送文本信息的对外发送。
另外,由于上述步骤302至步骤306的实现方式分别与上述步骤202至步骤206对于相似,故,此处不再对步骤302至步骤306进行展开说明。
可见,本实施例通过确定每个文本信息中与接收方的身份相匹配的目标人名信息,并将其中的目标人名信息统一替换为预设的特殊字符;然后,使用替换处理后的文本信息,训练接收方本人判断模型。与现有技术相比,由于人名信息被统一替换为固定格式的字符,而非泛化性不强的人名信息,因此,接收方本人判断模型能够有效学习到原创信息中的人名信息与上下文之间的语义关系,从而能够到达提高接收方本人判断模型的判断精度的目的,进而能够为相关业务提供数据支持。例如:在安全性要求较高的业务领域,可避免用户的相关业务信息被发送至其他用户处,导致用户的相关业务信息被泄露。
图4为本说明书另一实施例提供的一种模型训练方法的流程示意图,该方法可由图1中的业务平台执行,参见图4,该方法具体可以包括如下步骤:
步骤402、确定样本集中每一条文本信息的接收方和网页链接;
其中,接收方是指文本信息实际要发送至的对象;网页链接是指文本信息中携带的标签定义超链接,例如:上述杨宇的还款账单的链接地址。
步骤404、将所述文本信息中的目标人名信息替换为预设的特殊字符,将所述网页链接中的第一网页链接和第二网页链接分别替换为预设的第一特殊字符和第二特殊字符;
其中,所述目标人名信息与所述接收方的身份相匹配,所述第一网页链接为合法网页链接,所述第二网页链接为非法网页链接,所述第一特殊字符、所述第二特殊字符和所述预设的特殊字符不同且均与文本信息中的其他分词不同,例如:预设的特殊字符为-per,第一特殊字符和第二特殊字符可以为与-per不同的同一字符的两种表达形式,例如:-A和-a。
不难理解的是,在步骤404之前,本实施例还进一步包括:判断网页链接合法性的步骤,具体地:
可提取出文本信息中的网页链接,并将该网页链接与网页链接黑名单中的网页链接进行匹配;若确定该网页链接存在于网页链接黑名单中,则确定该网页里链接为非法网页链接,若确定该网页链接不存在于网页链接黑名单中,则再次匹配该网页链接是否存在于网页链接白名单中,若是,则确定该网页链接为合法网页链接,否则,继续进行深度判断。
步骤406、基于替换处理后的文本信息,训练接收方本人判断模型,以供所述接收方本人判断模型学习人名信息与上下文、网页链接与上下文的语义关系。其一种实现方式可以为:
对样本集中每一条替换处理后的文本信息进行分词处理,得到关键词集合;然后,将关键词集合中的关键词输入至接收方本人判断模型,由于人名信息和网页链接已被替换固定格式的字符,因此,接收方本人判断模型可学习到人名信息与上下文、网页链接与上下文的语义关系。
可见,本实施例在图2对应的实施例的基础上,进一步地通过将文本信息中的合法网页链接和非法网页链接统一替换为对应的特殊字符;然后,使用替换处理后的文本信息,训练接收方本人判断模型。与现有技术相比,由于网页链接被统一替换为固定格式的字符,因此,接收方本人判断模型能够有效学习到网页链接与上下文之间的语义关系,从而能够提高接收方本人判断模型的判断精度的目的,进而能够避免非法链接地传播。
图5为本说明书又一实施例提供的一种模型训练方法的流程示意图,该方法可由图1中的业务平台执行,参见图5,该方法具体可以包括如下步骤:
步骤502、确定文本信息样本中的特定关键词,所述特定关键词为与上下文的语义相关度小于预设阈值的分词;
其中,文本信息样本是指用于训练模型的样本集中的一条条的文本信息;特定关键词一般是指UGC内容中原创的名词信息,例如:‘香菇蓝瘦’、‘怎么这个亚子(样子)’等。
不难理解的是,计算文本信息中的某个分词与其上下文之间的语义相关度的方案有多种,例如:可通过word2vec的余弦语义相关度计算规则确定该分词与其前后的分词之间的语义相关度,此处不做限定。
步骤504、将所述特定关键词替换为预设的特殊字符;
其中,预设的特殊字符为预先配置且与文本信息中的其他分词不同的字符。
基于此,步骤504的一种实现方式可以为:
确定所述特定关键词的词义类型;将所述特定关键词替换为所述词义类型对应的特殊字符;其中,所述特定关键词包括:对象名称类关键词、链接元素类关键词中的至少一个。具体可以示例为:
若特定关键词为人名、地名、公司名等对象名称类关键词,则将该特定关键词替换为对象名称类关键词对应的特殊字符,例如:-per;
若特定关键词为网页链接、超链接等链接元素类关键词,则将该特定关键词替换为链接元素类关键词对应的特殊字符,例如:-A。
步骤506、基于替换处理后的文本信息样本,训练对应的模型,以供所述模型学习特定关键词与上下文的语义关系。其一种实现方式可以为:
对替换处理后的文本信息样本进行分词处理,得到该文本信息样本的关键词集合,以此类推,可得到样本集中每个文本信息样本的关键词集合;然后,将各文本信息样本的关键词集合输入至模型,以供模型学习特定关键词与上下文的语义关系,得到训练完成的模型。
可见,本实施例通过确定每个文本信息中的与上下文语义相关度不高的特定关键词,并将其替换为预设的特殊字符;然后,使用替换处理后的文本信息,训练模型。与现有技术相比,由于特定关键词被统一替换为固定格式的字符,因此,能够有效学习到特定关键词与上下文之间的语义关系,从而能够到达提高模型判断精度的目的,进而为相关业务提供数据支持。例如:在特定关键词为人名时,可学习到人名与上下文之间的语义关系,从而准确判断文本信息的实际接收方是否为文本信息内容的受体本人,从而避免用户的相关业务信息被发送至其他用户处,导致用户的相关业务信息被泄露的问题。
另外,对于上述方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图6为本说明书一实施例提供的一种模型训练装置的结构示意图,参见图6,该装置具体可以包括:确定模块601、处理模块602以及训练模块603,其中:
确定模块601,用于确定样本集中每一条文本信息的接收方;
处理模块602,用于将所述文本信息中的目标人名信息替换为预设的特殊字符,所述目标人名信息与所述接收方的身份相匹配;
训练模块603,用于基于替换处理后的文本信息,训练接收方本人判断模型,所述接收方本人判断模型用于判断文本信息的接收方是否为文本信息内容的受体本人。
可选的,所述预设的特征字符与所述文本信息中的其他字符不同。
可选的,装置还包括:
查找模块,用于确定所述接收方对应的实名认证的用户姓名信息;查找出所述文本信息中的与所述用户姓名信息相匹配的目标人名信息。
可选的,训练模块603,具体用于:
对所述替换处理后的文本信息进行分词处理,得到关键词集合;将所述关键词集合输入至接收方本人判断模型,以供所述接收方本人判断模型学习人名信息与上下文的语义关系。
可选的,装置还包括:
优化模块,用于确定所述文本信息中的网页链接;将所述网页链接中的第一网页链接和第二网页链接分别替换为预设的第一特殊字符和第二特殊字符,以供所述接收方本人判断模型学习网页链接与上下文的语义关系;
其中,所述第一网页链接为合法网页链接,所述第二网页链接为非法网页链接,所述第一特殊字符、所述第二特殊字符和所述预设的特殊字符均不同。
可选的,还包括:
模型应用装置,用于确定待发送文本信息的目标接收方;将所述待发送文本信息中的目标人名信息替换为预设的目标特殊字符,所述目标人名信息与所述目标接收方的身份相匹配;
将替换处理后的待发送文本信息的关键词集合输入至所述接收方本人判断模型,以确定所述目标接收方是否为所述待发送文本信息内容的受体本人。
可选的,模型应用装置,还用于:
若所述目标接收方不是所述待发送文本信息内容的受体本人,则拦截所述待发送文本信息的对外发送。
可见,本实施例通过确定每个文本信息中与接收方的身份相匹配的目标人名信息,并将其中的目标人名信息统一替换为预设的特殊字符;然后,使用替换处理后的文本信息,训练接收方本人判断模型。与现有技术相比,由于人名信息被统一替换为固定格式的字符,因此,接收方本人判断模型能够有效学习到人名信息与上下文之间的语义关系,从而能够到达提高接收方本人判断模型的判断精度的目的,进而能够为相关业务提供数据支持。例如:在安全性要求较高的业务领域,可避免用户的相关业务信息被发送至其他用户处,导致用户的相关业务信息被泄露。
图7为本说明书另一实施例提供的一种模型训练装置的结构示意图,参见图7,该装置具体可以包括:确定模块701、处理模块702以及训练模块,其中:
确定模块701,用于确定样本集中每一条文本信息的接收方;
处理模块702,用于将所述文本信息中的目标人名信息替换为预设的特殊字符,所述目标人名信息与所述接收方的身份相匹配;
训练模块703,用于基于替换处理后的文本信息,训练接收方本人判断模型,所述接收方本人判断模型用于判断文本信息的接收方是否为文本信息内容的受体本人。
可选的,处理模块702,具体用于:
确定所述特定关键词的词义类型;将所述特定关键词替换为所述词义类型对应的特殊字符。
可选的,所述特定关键词包括:对象名称类关键词、链接元素类关键词中的至少一个。
可见,本实施例通过确定每个文本信息中的与上下文语义相关度不高的特定关键词,并将其替换为预设的特殊字符;然后,使用替换处理后的文本信息,训练模型。与现有技术相比,由于特定关键词被统一替换为固定格式的字符,因此,能够有效学习到特定关键词与上下文之间的语义关系,从而能够到达提高模型判断精度的目的,进而为相关业务提供数据支持。例如:在特定关键词为人名时,可学习到人名与上下文之间的语义关系,从而准确判断文本信息的实际接收方是否为文本信息内容的受体本人,从而避免用户的相关业务信息被发送至其他用户处,导致用户的相关业务信息被泄露的问题。
另外,对于上述装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。
图8为本说明书一实施例提供的一种电子设备的结构示意图,参见图8,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成模型训练装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
网络接口、处理器和存储器可以通过总线系统相互连接。总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器可能包含高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器。
处理器,用于执行所述存储器存放的程序,并具体执行:
确定样本集中每一条文本信息的接收方;
将所述文本信息中的目标人名信息替换为预设的特殊字符,所述目标人名信息与所述接收方的身份相匹配;
基于替换处理后的文本信息,训练接收方本人判断模型,所述接收方本人判断模型用于判断文本信息的接收方是否为文本信息内容的受体本人。
上述如本申请图6-7所示实施例揭示的模型训练装置或管理者(Master)节点执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
模型训练装置还可执行图2-5的方法,并实现管理者节点执行的方法。
基于相同的发明创造,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图2-5对应的实施例提供的模型训练方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。