CN111988294A - 基于人工智能的用户身份识别方法、装置、终端及介质 - Google Patents
基于人工智能的用户身份识别方法、装置、终端及介质 Download PDFInfo
- Publication number
- CN111988294A CN111988294A CN202010797381.6A CN202010797381A CN111988294A CN 111988294 A CN111988294 A CN 111988294A CN 202010797381 A CN202010797381 A CN 202010797381A CN 111988294 A CN111988294 A CN 111988294A
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- user
- buried point
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0807—Network architectures or network communication protocols for network security for authentication of entities using tickets, e.g. Kerberos
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/321—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority
- H04L9/3213—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority using tickets or tokens, e.g. Kerberos
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3297—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving time stamps, e.g. generation of time stamps
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Computer Hardware Design (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
Abstract
本发明涉及人工智能,提供一种基于人工智能的用户身份识别方法、装置、终端及介质,包括:将多个用户的埋点序列编码为第一文本序列;对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;根据第一文本序列及对应的多个时间令牌得到第二文本序列并切分为多个文本语句;根据业务分层模型对多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;基于负样本及正样本对BERT预训练模型进行参数微调得到用户身份识别模型;使用用户身份识别模型识别目标用户的目标文本序列,得到目标用户的身份。本发明能够基于埋点数据识别用户的身份。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的用户身份识别方法、装置、终端及介质。
背景技术
在保险及金融领域的一些APP的使用场景中,存在冒用他人的终端、账号或身份进行APP操作进而形成欺诈的风险。比如在寿险的增员场景中,有些准增员在自己不能参加活动的情况下会让其他人代替参加活动并登陆账号进行操作。同一APP账号下的多人操作会存在虚假增员、虚假人力以及骗佣、套佣等欺诈的风险。同样在其它的一些金融类APP,比如手机银行、第三方支付等APP中,同样有需要甄别用户身份唯一性的需求。
因此,有必要提供一种能够识别应用点击行为中的身份的唯一性的方案。
发明内容
鉴于以上内容,有必要提供一种基于人工智能的用户身份识别方法、装置、终端及介质,能够基于埋点数据识别用户的身份。
本发明的第一方面提供一种基于人工智能的用户身份识别方法,所述方法包括:
获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;
对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;
根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;
根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;
基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;
使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。
可选的,所述获取多个用户的埋点序列包括:
针对每一个用户,按照时间顺序获取所述用户的多个埋点数据;
获取所述多个埋点数据中相同埋点数据对应的多个埋点时间戳;
判断所述多个埋点时间戳中每两个相邻的埋点时间戳之间的时间差值是否小于预设时间差阈值;
当确定任意两个相邻的埋点时间戳之间的时间差值小于所述预设时间差阈值时,将所述任意两个相邻的埋点时间戳对应的埋点数据合并为一个埋点数据;
根据合并后的埋点数据得到所述用户的埋点序列。
可选的,所述将每个埋点序列编码为第一文本序列包括:
获取所述埋点序列中的每个埋点数据中的每个字符;
根据预设字符与文本之间的对应关系,将所述埋点序列中的每个埋点数据中的每个字符替换为对应的文本,得到文本序列。
可选的,所述对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌包括:
将每两个相邻的埋点时间戳之间的时间间隔进行第一分箱处理得到第一时间令牌;
将每个埋点时间戳按照预设时间节点进行第二分箱处理得到第二时间令牌;
计算每个埋点时间戳与预设参考时间戳的时间间隔得到第三时间令牌。
可选的,所述根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列包括:
将每个埋点时间戳对应的第一时间令牌、第二时间令牌及第三时间令牌进行拼接得到时间令牌序列;
将与所述埋点时间戳对应的所述时间令牌序列插入所述第一文本序列中与所述埋点时间戳对应的文本语句处,得到第二文本序列。
可选的,所述使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份包括:
将所述目标文本序列切分为多个文本分句;
对所述多个文本分句进行两两组合得到多个文本分句对;
使用所述用户身份识别模型对每个文本分句对进行预测并输出对应文本分句对的得分;
根据最低得分识别所述目标用户的身份。
可选的,所述根据最低得分识别所述目标用户的身份包括:
判断所述最低得分是否低于预设风险阈值;
当确定所述最低得分小于或者等于所述预设风险阈值时,识别所述目标用户为低风险用户;
当确定所述最低得分大于所述预设风险阈值时,识别所述目标用户为高风险用户。
本发明的第二方面提供一种基于人工智能的用户身份识别装置,所述装置包括:
序列编码模块,用于获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;
分箱处理模块,用于对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;
文本切分模块,用于根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;
样本构建模块,用于根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;
模型训练模块,用于基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;
身份识别模块,用于使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。
本发明的第三方面提供一种终端,其特征在于,所述终端包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的基于人工智能的用户身份识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被终端中的处理器执行以实现所述基于人工智能的用户身份识别方法。
本发明所述的基于人工智能的用户身份识别方法、装置、终端及介质,可应用于智慧政务中,促进智慧城市的建设。本发明借助文本处理的思想来处理埋点数据,从而得到能够被自然语言训练模型(BERT预训练模型)进行识别和学习的文本语句。同时,为了使得埋点数据编码后的“文本数据”更加接近于自然语言能够处理的文本数据,通告引入时间戳并通过对时间戳进行分箱处理,丰富了编码后的“文本数据”的内容。基于所述文本语句进行训练得到用户身份识别模型,以对用户的点击行为中身份的唯一性进行判断,对潜在的欺诈行为给出风险的评级。
附图说明
图1是本发明基于人工智能的用户身份识别方法的较佳实施例的流程图。
图2是本发明根据第一文本序列及对应的多个时间令牌得到的第二文本序列的示意图。
图3是本发明基于人工智能的用户身份识别装置的较佳实施例的功能模块图。
图4是本发明实现基于人工智能的用户身份识别方法的较佳实施例的终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明基于人工智能的用户身份识别方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11,获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列。
将在APP中的任意一个页面或者任意一个按钮中埋下一个记录器称之为一个埋点。埋点是指APP中的页面或按钮的统计工具,每当用户点击某个按钮或停留在某个页面上时,该按钮或该页面对应的埋点被触发,被触发的埋点会自动上报埋点数据。
终端可以获取不同角色的用户的埋点数据,例如,业务员的埋点数据,准业务员的埋点数据。
其中,所述埋点数据可以包括,但不限于:埋点ID、埋点时间戳、埋点描述、用户ID、埋点类型。不同的页面及同一个页面中的不同按钮对应不同的埋点ID,所述埋点时间戳为埋点被触发的时间信息。本实施例中的埋点数据为埋点ID。
由于自然语音处理模型主要处理文本类数据,为了使得自然语音处理模型能够对埋点ID这一埋点数据进行学习与训练,则需要将获取的每一个埋点序列编码为文本数据。此外,将埋点数据编码为文本数据,还能对埋点数据进行标准化,标准化的数据有助于提高用户身份识别模型的收敛速度,从而缩短用户身份识别模型的训练时间,提高用户身份识别模型的训练效率。
在一个可选的实施例中,所述获取多个用户的埋点序列包括:
针对每一个用户,按照时间顺序获取所述用户的多个埋点数据;
获取所述多个埋点数据中相同埋点数据对应的多个埋点时间戳;
判断所述多个埋点时间戳中每两个相邻的埋点时间戳之间的时间差值是否小于预设时间差阈值;
当确定任意两个相邻的埋点时间戳之间的时间差值小于所述预设时间差阈值时,将所述任意两个相邻的埋点时间戳对应的埋点数据合并为一个埋点数据;
根据合并后的埋点数据得到所述用户的埋点序列。
将用户在APP上的操作行为通过埋点记录下来,由于用户在实际操作APP时,可能会多次重复的点击或者触摸同一个埋点,导致记录的同一个埋点ID会有多个,但这多个同一埋点ID实际上应当为一个埋点ID。因此,通过埋点ID对应的埋点时间戳对埋点数据进行去重处理,并按照时间的先后顺序将经过去重处理后的埋点数据排列起来,得到埋点序列。
本实施例中,将一个埋点ID看做一个“字”,则埋点序列可看做一句话。
在一个可选的实施例中,所述将每个埋点序列编码为第一文本序列包括:
获取所述埋点序列中的每个埋点数据中的每个字符;
根据预设字符与文本之间的对应关系,将所述埋点序列中的每个埋点数据中的每个字符替换为对应的文本,得到文本序列。
该可选的实施例中,终端可以预先存储字符文本数据表,所述字符文本数据表中存储有字符与文本之间的对应关系,则根据所述字符文本数据表可将每个用户的每个埋点数据转化为文本数据,从而得到文本序列。
示例性的,假设字符“1”对应文本“A”,字符“2”对应文本“B”,字符“7”对应文本“G”,那么可以将埋点数据“127”编码为文本“ABF”,将埋点数据“712”编码为文本“FAB”。
又如,假设将字符从1开始排序,并每隔26个字符分为一组,第一组的26字符(1-26)与每一个英文字母对应,第二组的26个字符(27-52)与每两个英文字母对应,以此类推。具体的,字符“1”对应文本“A”,字符“2”对应文本“B”,字符“26”对应文本“Z”,字符“27”对应文本“AA”,字符“28”对应文本“BB”,字符“52”对应文本“ZZ”,那么可以将埋点数据“29”编码为文本“CC”,将埋点数据“127”编码为文本“WWWWW”。
将用户的埋点数据编码为英文字母进行表示,如此能够避免埋点中的中文以及特殊字符无法被BERT预训练模型识别的问题。
S12,对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌。
除了将每个埋点ID看做一个“字”,还可以将埋点时间戳加工成时间令牌(token),将每个时间令牌也看做文本,从而可以丰富文本序列。丰富了文本序列,相当于增加了训练数据,从而可以防止用户身份识别模型过拟合,提高用户身份识别模型的性能。
在一个可选的实施例中,所述对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌包括:
将每两个相邻的埋点时间戳之间的时间间隔进行第一分箱处理得到第一时间令牌;
将每个埋点时间戳按照预设时间节点进行第二分箱处理得到第二时间令牌;
计算每个埋点时间戳与预设参考时间戳的时间间隔得到第三时间令牌。
其中,所述第一时间令牌又称之为时间间隔令牌,所述第二时间令牌又称之为绝对时间令牌,所述第三时间令牌又称之为相对时间令牌。
在计算时间间隔令牌时,可以预先设置多个时间分箱,例如,“1-5秒”,“5秒-1分钟”,“1分钟-30分钟”,…,“1周-2周”,“2周-1个月”,“1个月以上”等等。计算每两个相邻的埋点时间戳之间的时间间隔,确定所述时间间隔位于哪一个时间分箱中,将所述时间间隔位于的时间分箱确定为前一个埋点时间戳的第一时间令牌。示例性的,假设两个埋点时间戳为“2020-06-06,08:30:32”和“2020-06-06,08:30:43”,则由于这两个埋点时间戳的时间间隔1秒位于第一个时间分箱中,因此,将“时间间隔:1-5秒”确定为埋点时间戳“2020-06-06,08:30:32”的第一时间令牌。
在计算绝对时间令牌时,可以预先设置多个时间节点分箱,例如,“上午”、“中午”、“下午”、“晚上”、“凌晨”并且和是否周末进行组合。则将“绝对时间:周六上午”确定为埋点时间戳“2020-06-06,08:30:32”的第二时间令牌。
在计算相对时间令牌时,可以预先设置参考时间戳,例如,当前时间戳或者提交入司申请时的时间戳。计算每个埋点时间戳与预设参考时间戳之间的时间间隔,作为所述埋点时间戳的第三时间令牌。
该可选的实施例,通过将埋点时间戳进行分箱处理,能够将连续性的时间间隔转化为离散化的时间间隔,并形成时间令牌,仅仅增加了几十个“字”却极大丰富了用户行为习惯的表达。
S13,根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句。
终端可以预先设置切分规则,例如,每128个字符进行切分,或者根据业务需求按照每天或每周对埋点时间戳切分文本语句。将所述第二文本序列进行切分处理(断句处理),能够符合BERT预训练的格式:每个用户的埋点序列为一个文本,每个文本又分为多个段落,每个段落又分为多个文本语句。
需要说明的是,每个文本语句的最大长度必须要小于BERT预训练模型的最大字符长度,否则BERT模型会丢弃剩余的文本语句。
在一个可选的实施例中,所述根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列包括:
将每个埋点时间戳对应的第一时间令牌、第二时间令牌及第三时间令牌进行拼接得到时间令牌序列;
将与所述埋点时间戳对应的所述时间令牌序列插入所述第一文本序列中与所述埋点时间戳对应的文本语句处,得到第二文本序列。
将每个用户的第一文本序列及对应的多个时间令牌进行拼接得到第二文本序列。如图2所示,为根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列示意图。
由于第二文本序列长短不一,且数据量较大,因而需要对所述第二文本序列进行切分处理得到多个文本语句,从而进一步将用户的埋点数据转换为符合自然语言处理模型所能够识别与处理的文本类型的语句。
S14,根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本。
其中,所述业务分层模型为预先训练的用以区分用户活跃度、业务素养、业务能力等的模型。根据所述业务分层模型对用户进行分层,活跃度、业务素养及业务能力相同或者大致相当的用户位于所述业务分层模型中的同一层,活跃度、业务素养及业务能力区别较大的用户位于所述业务分层模型中的不同层。关于业务分层模型的训练过程,为现有技术,本发明在此不再详细阐述。
从同一业务分层(行为类似)的用户中随机选择两个用户,并基于随机选择的两个用户的文本语句构建负样本,在同一用户的文本语句中随机选择两个文本语句构造成上下句,做为正样本。相较于现有技术中,BERT预训练模型中的上下句预测是随机在不同的用户中选择两个文本语句构造负样本及在同一用户中选择时间上连续的上下两个文本语句构造正样本,本实施例加大了构造正负样本的难度,构造出的正负样本更加符合实际应用场景,基于正负样本对BERT预训练模型进行微调得到的用户身份识别模型的可靠性更高。
S15,基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型。
BERT(Bidirectional Encoder Representation from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
将所述负样本及所述正样本作为训练数据输入给BERT预训练模型,BERT预训练模型会自动进行双任务的无监督训练,在达到预设的步数后,自动给出两个子任务的训练效果。比如在代理人增员场景中的代理人APP行为序列的BERT预训练效果:完型填空的准确率可达85%;而上下句预测的准确率可达99.5%。由于上下句预测的样本构造与通过埋点序列构造的正负样本进行身份唯一性判断的任务非常接近,因而上下句任务的高准确率就为下游任务的高精度判断提供了基础。
S16,使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。
若需对某个目标用户进行身份识别,则可以先获取目标用户的目标文本序列,再通过调用所述用户身份识别模型对所述目标文本序列进行预测,以判断所述目标用户是否为高风险用户。
应当理解的是,所述获取目标用户的目标文本序列的过程同上述获取多个用户的埋点序列并将每个埋点序列编码为第一文本序列的过程相同,本发明在此不再详细阐述。
在一个可选的实施例中,所述使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份包括:
将所述目标文本序列切分为多个文本分句;
对所述多个文本分句进行两两组合得到多个文本分句对;
使用所述用户身份识别模型对每个文本分句对进行预测并输出对应文本分句对的得分;
根据最低得分识别所述目标用户的身份。
示例性的,假设对目标用户的埋点数据进行断句处理得到分句a、分句b以及分句c,那么对这些分句进行两两组合得到分句对ab、分句对ac以及分句对bc。然后用所述用户身份识别模型对每个分句对进行预测,输出分句对ab的得分为score(ab),输出分句对ac的得分为score(ac),输出分句对bc的得分为score(bc),然后得分的最小值min{score(ab),score(ac),score(bc)}做为所述目标用户的风险值。
得分score(xy)代表分句x和分句y之间的关联程度,得分score(xy)越高,表明分句x和分句y之间的关联性越强,得分score(xy)越低,表明分句x和分句y之间的关联性越弱。风险值越高则目标用户的身份被盗用的风险越大,风险值越低则目标用户的身份被盗用的风险越小。在一个目标用户的众多分句中,只要有一个分句和其它任意一个分句的得分较低,则这个分句和其他任意一个分句显著不同,则这个目标用户的身份被盗用的风险就较大。
在一个可选的实施例中,所述根据最低得分识别所述目标用户的身份包括:
判断所述最低得分是否低于预设风险阈值;
当确定所述最低得分小于或者等于所述预设风险阈值时,识别所述目标用户为低风险用户;
当确定所述最低得分大于所述预设风险阈值时,识别所述目标用户为高风险用户。
其中,所述预设风险阈值为预先设置的用以表征风险程度的临界值。
可以将潜在用户作为目标用户,也可以将准增员作为目标用户,根据不同的实际应用场景和业务需求,可以选取不同的对象作为目标用户。
对于风险值较高(风险值大于所述预设风险阈值)的目标用户进行标识后并输出,不准予入职,以免增加企业成本;或者辅助保险及金融领域的业务员定向监控,防止骗佣及套佣等现象发生。对于风险值较低(风险值小于或者等于所述预设风险阈值)的目标用户,则准予入职。对于风险值较低的目标用户,还可以进一步进行大数据挖掘与分析,例如,保险推荐等,能够提高推荐效率和推荐质量。
综上所述,本发明通过埋点获取APP用户的长期点击或者触摸等操作行为得到埋点序列,扑捉用户的行为兴趣以及习惯。由于自然语言处理模型只能处理文本类型数据,无法处理埋点类型数据,因此,本案借助文本处理的思想来处理埋点数据,从而得到能够被自然语言训练模型(BERT预训练模型)进行识别和学习的文本语句。同时,为了使得埋点数据编码后的“文本数据”更加接近于自然语言能够处理的文本数据,本案还引入了时间戳并通过对时间戳进行分箱处理,以此丰富编码后的“文本数据”的内容。基于所述文本语句进行训练得到用户身份识别模型,以对用户的点击行为中身份的唯一性进行判断,对潜在的欺诈行为给出风险的评级。通过用户的APP埋点行为序列判断某个行为序列片段和他的点击行为习惯和兴趣明显不同,增加判定身份盗用以及其它欺诈行为的途径。
此外,本发明还可运用于其他APP(比如手机银行、第三方支付)等需要对操作人进行身份甄别判断的场景中。
需要说明的是,为了保证所述用户身份识别模型的私密性和安全性,所述用户身份识别模型可存储于区块链的节点中。
图3是本发明实施例二提供的基于人工智能的用户身份识别装置的结构图。
在一些实施例中,所述基于人工智能的用户身份识别装置30可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的用户身份识别装置30中的各个程序段的计算机程序可以存储于终端的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的用户身份识别的功能。
本实施例中,所述基于人工智能的用户身份识别装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:序列编码模块301、分箱处理模块302、文本切分模块303、样本构建模块304、模型训练模块305及身份识别模块306。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述序列编码模块301,用于获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列。
将在APP中的任意一个页面或者任意一个按钮中埋下一个记录器称之为一个埋点。埋点是指APP中的页面或按钮的统计工具,每当用户点击某个按钮或停留在某个页面上时,该按钮或该页面对应的埋点被触发,被触发的埋点会自动上报埋点数据。
终端可以获取不同角色的用户的埋点数据,例如,业务员的埋点数据,准业务员的埋点数据。
其中,所述埋点数据可以包括,但不限于:埋点ID、埋点时间戳、埋点描述、用户ID、埋点类型。不同的页面及同一个页面中的不同按钮对应不同的埋点ID,所述埋点时间戳为埋点被触发的时间信息。本实施例中的埋点数据为埋点ID。
由于自然语音处理模型主要处理文本类数据,为了使得自然语音处理模型能够对埋点ID这一埋点数据进行学习与训练,则需要将获取的每一个埋点序列编码为文本数据。此外,将埋点数据编码为文本数据,还能对埋点数据进行标准化,标准化的数据有助于提高用户身份识别模型的收敛速度,从而缩短用户身份识别模型的训练时间,提高用户身份识别模型的训练效率。
在一个可选的实施例中,所述序列编码模块301获取多个用户的埋点序列包括:
针对每一个用户,按照时间顺序获取所述用户的多个埋点数据;
获取所述多个埋点数据中相同埋点数据对应的多个埋点时间戳;
判断所述多个埋点时间戳中每两个相邻的埋点时间戳之间的时间差值是否小于预设时间差阈值;
当确定任意两个相邻的埋点时间戳之间的时间差值小于所述预设时间差阈值时,将所述任意两个相邻的埋点时间戳对应的埋点数据合并为一个埋点数据;
根据合并后的埋点数据得到所述用户的埋点序列。
将用户在APP上的操作行为通过埋点记录下来,由于用户在实际操作APP时,可能会多次重复的点击或者触摸同一个埋点,导致记录的同一个埋点ID会有多个,但这多个同一埋点ID实际上应当为一个埋点ID。因此,通过埋点ID对应的埋点时间戳对埋点数据进行去重处理,并按照时间的先后顺序将经过去重处理后的埋点数据排列起来,得到埋点序列。
本实施例中,将一个埋点ID看做一个“字”,则埋点序列可看做一句话。
在一个可选的实施例中,所述序列编码模块301将每个埋点序列编码为第一文本序列包括:
获取所述埋点序列中的每个埋点数据中的每个字符;
根据预设字符与文本之间的对应关系,将所述埋点序列中的每个埋点数据中的每个字符替换为对应的文本,得到文本序列。
该可选的实施例中,终端可以预先存储字符文本数据表,所述字符文本数据表中存储有字符与文本之间的对应关系,则根据所述字符文本数据表可将每个用户的每个埋点数据转化为文本数据,从而得到文本序列。
示例性的,假设字符“1”对应文本“A”,字符“2”对应文本“B”,字符“7”对应文本“G”,那么可以将埋点数据“127”编码为文本“ABF”,将埋点数据“712”编码为文本“FAB”。
又如,假设将字符从1开始排序,并每隔26个字符分为一组,第一组的26字符(1-26)与每一个英文字母对应,第二组的26个字符(27-52)与每两个英文字母对应,以此类推。具体的,字符“1”对应文本“A”,字符“2”对应文本“B”,字符“26”对应文本“Z”,字符“27”对应文本“AA”,字符“28”对应文本“BB”,字符“52”对应文本“ZZ”,那么可以将埋点数据“29”编码为文本“CC”,将埋点数据“127”编码为文本“WWWWW”。
将用户的埋点数据编码为英文字母进行表示,如此能够避免埋点中的中文以及特殊字符无法被BERT预训练模型识别的问题。
所述分箱处理模块302,用于对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌。
除了将每个埋点ID看做一个“字”,还可以将埋点时间戳加工成时间令牌(token),将每个时间令牌也看做文本,从而可以丰富文本序列。丰富了文本序列,相当于增加了训练数据,从而可以防止用户身份识别模型过拟合,提高用户身份识别模型的性能。
在一个可选的实施例中,所述分箱处理模块302对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌包括:
将每两个相邻的埋点时间戳之间的时间间隔进行第一分箱处理得到第一时间令牌;
将每个埋点时间戳按照预设时间节点进行第二分箱处理得到第二时间令牌;
计算每个埋点时间戳与预设参考时间戳的时间间隔得到第三时间令牌。
其中,所述第一时间令牌又称之为时间间隔令牌,所述第二时间令牌又称之为绝对时间令牌,所述第三时间令牌又称之为相对时间令牌。
在计算时间间隔令牌时,可以预先设置多个时间分箱,例如,“1-5秒”,“5秒-1分钟”,“1分钟-30分钟”,…,“1周-2周”,“2周-1个月”,“1个月以上”等等。计算每两个相邻的埋点时间戳之间的时间间隔,确定所述时间间隔位于哪一个时间分箱中,将所述时间间隔位于的时间分箱确定为前一个埋点时间戳的第一时间令牌。示例性的,假设两个埋点时间戳为“2020-06-06,08:30:32”和“2020-06-06,08:30:43”,则由于这两个埋点时间戳的时间间隔1秒位于第一个时间分箱中,因此,将“时间间隔:1-5秒”确定为埋点时间戳“2020-06-06,08:30:32”的第一时间令牌。
在计算绝对时间令牌时,可以预先设置多个时间节点分箱,例如,“上午”、“中午”、“下午”、“晚上”、“凌晨”并且和是否周末进行组合。则将“绝对时间:周六上午”确定为埋点时间戳“2020-06-06,08:30:32”的第二时间令牌。
在计算相对时间令牌时,可以预先设置参考时间戳,例如,当前时间戳或者提交入司申请时的时间戳。计算每个埋点时间戳与预设参考时间戳之间的时间间隔,作为所述埋点时间戳的第三时间令牌。
该可选的实施例,通过将埋点时间戳进行分箱处理,能够将连续性的时间间隔转化为离散化的时间间隔,并形成时间令牌,仅仅增加了几十个“字”却极大丰富了用户行为习惯的表达。
所述文本切分模块303,用于根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句。
终端可以预先设置切分规则,例如,每128个字符进行切分,或者根据业务需求按照每天或每周对埋点时间戳切分文本语句。将所述第二文本序列进行切分处理(断句处理),能够符合BERT预训练的格式:每个用户的埋点序列为一个文本,每个文本又分为多个段落,每个段落又分为多个文本语句。
需要说明的是,每个文本语句的最大长度必须要小于BERT预训练模型的最大字符长度,否则BERT模型会丢弃剩余的文本语句。
在一个可选的实施例中,所述文本切分模块303根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列包括:
将每个埋点时间戳对应的第一时间令牌、第二时间令牌及第三时间令牌进行拼接得到时间令牌序列;
将与所述埋点时间戳对应的所述时间令牌序列插入所述第一文本序列中与所述埋点时间戳对应的文本语句处,得到第二文本序列。
将每个用户的第一文本序列及对应的多个时间令牌进行拼接得到第二文本序列。如图2所示,为根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列示意图。
由于第二文本序列长短不一,且数据量较大,因而需要对所述第二文本序列进行切分处理得到多个文本语句,从而进一步将用户的埋点数据转换为符合自然语言处理模型所能够识别与处理的文本类型的语句。
所述样本构建模块304,用于根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本。
其中,所述业务分层模型为预先训练的用以区分用户活跃度、业务素养、业务能力等的模型。根据所述业务分层模型对用户进行分层,活跃度、业务素养及业务能力相同或者大致相当的用户位于所述业务分层模型中的同一层,活跃度、业务素养及业务能力区别较大的用户位于所述业务分层模型中的不同层。关于业务分层模型的训练过程,为现有技术,本发明在此不再详细阐述。
从同一业务分层(行为类似)的用户中随机选择两个用户,并基于随机选择的两个用户的文本语句构建负样本,在同一用户的文本语句中随机选择两个文本语句构造成上下句,做为正样本。相较于现有技术中,BERT预训练模型中的上下句预测是随机在不同的用户中选择两个文本语句构造负样本及在同一用户中选择时间上连续的上下两个文本语句构造正样本,本实施例加大了构造正负样本的难度,构造出的正负样本更加符合实际应用场景,基于正负样本对BERT预训练模型进行微调得到的用户身份识别模型的可靠性更高。
所述模型训练模块305,用于基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型。
BERT(Bidirectional Encoder Representation from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
将所述负样本及所述正样本作为训练数据输入给BERT预训练模型,BERT预训练模型会自动进行双任务的无监督训练,在达到预设的步数后,自动给出两个子任务的训练效果。比如在代理人增员场景中的代理人APP行为序列的BERT预训练效果:完型填空的准确率可达85%;而上下句预测的准确率可达99.5%。由于上下句预测的样本构造与通过埋点序列构造的正负样本进行身份唯一性判断的任务非常接近,因而上下句任务的高准确率就为下游任务的高精度判断提供了基础。
所述身份识别模块306,用于使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。
若需对某个目标用户进行身份识别,则可以先获取目标用户的目标文本序列,再通过调用所述用户身份识别模型对所述目标文本序列进行预测,以判断所述目标用户是否为高风险用户。
应当理解的是,所述获取目标用户的目标文本序列的过程同上述获取多个用户的埋点序列并将每个埋点序列编码为第一文本序列的过程相同,本发明在此不再详细阐述。
在一个可选的实施例中,所述身份识别模块306使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份包括:
将所述目标文本序列切分为多个文本分句;
对所述多个文本分句进行两两组合得到多个文本分句对;
使用所述用户身份识别模型对每个文本分句对进行预测并输出对应文本分句对的得分;
根据最低得分识别所述目标用户的身份。
示例性的,假设对目标用户的埋点数据进行断句处理得到分句a、分句b以及分句c,那么对这些分句进行两两组合得到分句对ab、分句对ac以及分句对bc。然后用所述用户身份识别模型对每个分句对进行预测,输出分句对ab的得分为score(ab),输出分句对ac的得分为score(ac),输出分句对bc的得分为score(bc),然后得分的最小值min{score(ab),score(ac),score(bc)}做为所述目标用户的风险值。
得分score(xy)代表分句x和分句y之间的关联程度,得分score(xy)越高,表明分句x和分句y之间的关联性越强,得分score(xy)越低,表明分句x和分句y之间的关联性越弱。风险值越高则目标用户的身份被盗用的风险越大,风险值越低则目标用户的身份被盗用的风险越小。在一个目标用户的众多分句中,只要有一个分句和其它任意一个分句的得分较低,则这个分句和其他任意一个分句显著不同,则这个目标用户的身份被盗用的风险就较大。
在一个可选的实施例中,所述根据最低得分识别所述目标用户的身份包括:
判断所述最低得分是否低于预设风险阈值;
当确定所述最低得分小于或者等于所述预设风险阈值时,识别所述目标用户为低风险用户;
当确定所述最低得分大于所述预设风险阈值时,识别所述目标用户为高风险用户。
其中,所述预设风险阈值为预先设置的用以表征风险程度的临界值。
可以将潜在用户作为目标用户,也可以将准增员作为目标用户,根据不同的实际应用场景和业务需求,可以选取不同的对象作为目标用户。
对于风险值较高(风险值大于所述预设风险阈值)的目标用户进行标识后并输出,不准予入职,以免增加企业成本;或者辅助保险及金融领域的业务员定向监控,防止骗佣及套佣等现象发生。对于风险值较低(风险值小于或者等于所述预设风险阈值)的目标用户,则准予入职。对于风险值较低的目标用户,还可以进一步进行大数据挖掘与分析,例如,保险推荐等,能够提高推荐效率和推荐质量。
综上所述,本发明通过埋点获取APP用户的长期点击或者触摸等操作行为得到埋点序列,扑捉用户的行为兴趣以及习惯。由于自然语言处理模型只能处理文本类型数据,无法处理埋点类型数据,因此,本案借助文本处理的思想来处理埋点数据,从而得到能够被自然语言训练模型(BERT预训练模型)进行识别和学习的文本语句。同时,为了使得埋点数据编码后的“文本数据”更加接近于自然语言能够处理的文本数据,本案还引入了时间戳并通过对时间戳进行分箱处理,以此丰富编码后的“文本数据”的内容。基于所述文本语句进行训练得到用户身份识别模型,以对用户的点击行为中身份的唯一性进行判断,对潜在的欺诈行为给出风险的评级。通过用户的APP埋点行为序列判断某个行为序列片段和他的点击行为习惯和兴趣明显不同,增加判定身份盗用以及其它欺诈行为的途径。
此外,本发明还可运用于其他APP(比如手机银行、第三方支付)等需要对操作人进行身份甄别判断的场景中。
需要说明的是,为了保证所述用户身份识别模型的私密性和安全性,所述用户身份识别模型可存储于区块链的节点中。
参阅图4所示,为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中,所述终端4包括存储器41、至少一个处理器42、至少一条通信总线43及收发器44。
本领域技术人员应该了解,图4示出的终端的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述终端4还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述终端4是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式终端等。所述终端4还可包括客户终端,所述客户终端包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控终端等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述终端4仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器41中存储有计算机程序,所述计算机程序被所述至少一个处理器42执行时实现如所述的基于人工智能的用户身份识别方法中的全部或者部分步骤。所述存储器41包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器42是所述终端4的控制核心(ControlUnit),利用各种接口和线路连接整个终端4的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块,以及调用存储在所述存储器41内的数据,以执行终端4的各种功能和处理数据。例如,所述至少一个处理器42执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的用户身份识别方法的全部或者部分步骤;或者实现基于人工智能的用户身份识别装置的全部或者部分功能。所述至少一个处理器42可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线43被设置为实现所述存储器41以及所述至少一个处理器42等之间的连接通信。
尽管未示出,所述终端4还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器42逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机终端(可以是个人计算机,终端,或者网络终端等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的用户身份识别方法,其特征在于,所述方法包括:
获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;
对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;
根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;
根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;
基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;
使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。
2.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述获取多个用户的埋点序列包括:
针对每一个用户,按照时间顺序获取所述用户的多个埋点数据;
获取所述多个埋点数据中相同埋点数据对应的多个埋点时间戳;
判断所述多个埋点时间戳中每两个相邻的埋点时间戳之间的时间差值是否小于预设时间差阈值;
当确定任意两个相邻的埋点时间戳之间的时间差值小于所述预设时间差阈值时,将所述任意两个相邻的埋点时间戳对应的埋点数据合并为一个埋点数据;
根据合并后的埋点数据得到所述用户的埋点序列。
3.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述将每个埋点序列编码为第一文本序列包括:
获取所述埋点序列中的每个埋点数据中的每个字符;
根据预设字符与文本之间的对应关系,将所述埋点序列中的每个埋点数据中的每个字符替换为对应的文本,得到文本序列。
4.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌包括:
将每两个相邻的埋点时间戳之间的时间间隔进行第一分箱处理得到第一时间令牌;
将每个埋点时间戳按照预设时间节点进行第二分箱处理得到第二时间令牌;
计算每个埋点时间戳与预设参考时间戳的时间间隔得到第三时间令牌。
5.如权利要求4所述的基于人工智能的用户身份识别方法,其特征在于,所述根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列包括:
将每个埋点时间戳对应的第一时间令牌、第二时间令牌及第三时间令牌进行拼接得到时间令牌序列;
将与所述埋点时间戳对应的所述时间令牌序列插入所述第一文本序列中与所述埋点时间戳对应的文本语句处,得到第二文本序列。
6.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份包括:
将所述目标文本序列切分为多个文本分句;
对所述多个文本分句进行两两组合得到多个文本分句对;
使用所述用户身份识别模型对每个文本分句对进行预测并输出对应文本分句对的得分;
根据最低得分识别所述目标用户的身份。
7.如权利要求6所述的基于人工智能的用户身份识别方法,其特征在于,所述根据最低得分识别所述目标用户的身份包括:
判断所述最低得分是否低于预设风险阈值;
当确定所述最低得分小于或者等于所述预设风险阈值时,识别所述目标用户为低风险用户;
当确定所述最低得分大于所述预设风险阈值时,识别所述目标用户为高风险用户。
8.一种基于人工智能的用户身份识别装置,其特征在于,所述装置包括:
序列编码模块,用于获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;
分箱处理模块,用于对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;
文本切分模块,用于根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;
样本构建模块,用于根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;
模型训练模块,用于基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;
身份识别模块,用于使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。
9.一种终端,其特征在于,所述终端包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的基于人工智能的用户身份识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被终端中的处理器执行以实现如权利要求1至7中任意一项所述的基于人工智能的用户身份识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010797381.6A CN111988294B (zh) | 2020-08-10 | 2020-08-10 | 基于人工智能的用户身份识别方法、装置、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010797381.6A CN111988294B (zh) | 2020-08-10 | 2020-08-10 | 基于人工智能的用户身份识别方法、装置、终端及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111988294A true CN111988294A (zh) | 2020-11-24 |
CN111988294B CN111988294B (zh) | 2022-04-12 |
Family
ID=73445461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010797381.6A Active CN111988294B (zh) | 2020-08-10 | 2020-08-10 | 基于人工智能的用户身份识别方法、装置、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111988294B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627653A (zh) * | 2021-07-14 | 2021-11-09 | 深圳索信达数据技术有限公司 | 手机银行用户的活跃度预测策略的确定方法及装置 |
CN114154058A (zh) * | 2021-11-02 | 2022-03-08 | 支付宝(杭州)信息技术有限公司 | 一种账号操作者身份的预测方法及装置 |
CN114862420A (zh) * | 2022-05-20 | 2022-08-05 | 拉扎斯网络科技(上海)有限公司 | 身份识别方法、装置、程序产品、介质及设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140059185A1 (en) * | 2010-05-17 | 2014-02-27 | Wal-Mart Stores, Inc. | Processing Data Feeds |
CN107273295A (zh) * | 2017-06-23 | 2017-10-20 | 中国人民解放军国防科学技术大学 | 一种基于文本混乱度的软件问题报告分类方法 |
EP3386143A1 (en) * | 2017-04-08 | 2018-10-10 | Rdw | Method and system for generating a private key for encrypted data transfer between an electronic identity document and a terminal |
CN108880879A (zh) * | 2018-06-11 | 2018-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN109063431A (zh) * | 2018-06-21 | 2018-12-21 | 西安理工大学 | 加权击键特征曲线差异度的用户身份识别方法 |
CN109544267A (zh) * | 2018-10-19 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 资源获取方法、装置、计算机设备和存储介质 |
CN110309514A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种语义识别方法及装置 |
CN110472175A (zh) * | 2019-07-03 | 2019-11-19 | 平安证券股份有限公司 | 用户行为分析方法及终端设备 |
CN110648172A (zh) * | 2019-09-04 | 2020-01-03 | 北京益商慧评网络科技有限公司 | 一种融合多种移动设备的身份识别方法和系统 |
CN110674022A (zh) * | 2019-09-27 | 2020-01-10 | 北京三快在线科技有限公司 | 行为数据获取方法、装置及存储介质 |
CN110968684A (zh) * | 2019-12-18 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及存储介质 |
CN111095259A (zh) * | 2017-10-25 | 2020-05-01 | 谷歌有限责任公司 | 使用n-gram机器的自然语言处理 |
CN111291166A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 基于Bert的语言模型的训练方法及装置 |
-
2020
- 2020-08-10 CN CN202010797381.6A patent/CN111988294B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140059185A1 (en) * | 2010-05-17 | 2014-02-27 | Wal-Mart Stores, Inc. | Processing Data Feeds |
EP3386143A1 (en) * | 2017-04-08 | 2018-10-10 | Rdw | Method and system for generating a private key for encrypted data transfer between an electronic identity document and a terminal |
CN107273295A (zh) * | 2017-06-23 | 2017-10-20 | 中国人民解放军国防科学技术大学 | 一种基于文本混乱度的软件问题报告分类方法 |
CN111095259A (zh) * | 2017-10-25 | 2020-05-01 | 谷歌有限责任公司 | 使用n-gram机器的自然语言处理 |
CN108880879A (zh) * | 2018-06-11 | 2018-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN109063431A (zh) * | 2018-06-21 | 2018-12-21 | 西安理工大学 | 加权击键特征曲线差异度的用户身份识别方法 |
CN109544267A (zh) * | 2018-10-19 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 资源获取方法、装置、计算机设备和存储介质 |
CN110472175A (zh) * | 2019-07-03 | 2019-11-19 | 平安证券股份有限公司 | 用户行为分析方法及终端设备 |
CN110309514A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种语义识别方法及装置 |
CN110648172A (zh) * | 2019-09-04 | 2020-01-03 | 北京益商慧评网络科技有限公司 | 一种融合多种移动设备的身份识别方法和系统 |
CN110674022A (zh) * | 2019-09-27 | 2020-01-10 | 北京三快在线科技有限公司 | 行为数据获取方法、装置及存储介质 |
CN110968684A (zh) * | 2019-12-18 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及存储介质 |
CN111291166A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 基于Bert的语言模型的训练方法及装置 |
Non-Patent Citations (3)
Title |
---|
KEVIN CLARK,MINH-THANG LUONG,QUOC V.LE, CHRISTOPHER D.MAINNING: "ELECTRA:Pre-training Text encoders as discriminators rather than generators", 《ICLR 2020》 * |
姚陈堃: "自然语言处理能力开放平台的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
景鹏: "高风险欺诈识别系统设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627653A (zh) * | 2021-07-14 | 2021-11-09 | 深圳索信达数据技术有限公司 | 手机银行用户的活跃度预测策略的确定方法及装置 |
CN113627653B (zh) * | 2021-07-14 | 2023-10-20 | 深圳索信达数据技术有限公司 | 手机银行用户的活跃度预测策略的确定方法及装置 |
CN114154058A (zh) * | 2021-11-02 | 2022-03-08 | 支付宝(杭州)信息技术有限公司 | 一种账号操作者身份的预测方法及装置 |
CN114862420A (zh) * | 2022-05-20 | 2022-08-05 | 拉扎斯网络科技(上海)有限公司 | 身份识别方法、装置、程序产品、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111988294B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111988294B (zh) | 基于人工智能的用户身份识别方法、装置、终端及介质 | |
CN111950625B (zh) | 基于人工智能的风险识别方法、装置、计算机设备及介质 | |
CN112634889B (zh) | 基于人工智能的电子病例录入方法、装置、终端及介质 | |
CN111639487A (zh) | 基于分类模型的字段抽取方法、装置、电子设备及介质 | |
CN114007131A (zh) | 视频监控方法、装置及相关设备 | |
CN114461777B (zh) | 智能问答方法、装置、设备及存储介质 | |
CN111949708A (zh) | 基于时序特征提取的多任务预测方法、装置、设备及介质 | |
CN111190946A (zh) | 报告生成方法、装置、计算机设备和存储介质 | |
CN112948275A (zh) | 测试数据生成方法、装置、设备及存储介质 | |
CN113762973A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN114978968B (zh) | 微服务的异常检测方法、装置、计算机设备和存储介质 | |
CN113077821A (zh) | 音频质量检测方法、装置、电子设备及存储介质 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
CN113707173A (zh) | 基于音频切分的语音分离方法、装置、设备及存储介质 | |
CN113707157B (zh) | 基于声纹识别的身份验证方法、装置、电子设备及介质 | |
CN117875320A (zh) | 基于人工智能的数据处理方法、装置、设备及存储介质 | |
CN111651652B (zh) | 基于人工智能的情感倾向识别方法、装置、设备及介质 | |
CN117312562A (zh) | 内容审核模型的训练方法、装置、设备及存储介质 | |
CN112330432A (zh) | 风险等级识别模型训练方法、识别方法、终端及存储介质 | |
CN116501846A (zh) | 开放式对话方法、装置、电子设备及介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN113221990B (zh) | 信息录入方法、装置及相关设备 | |
CN113590825A (zh) | 文本质检方法、装置及相关设备 | |
CN114186028A (zh) | 咨诉工单处理方法、装置、设备及存储介质 | |
CN113434697A (zh) | 事件要素抽取方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |