CN114926272B - 基于端到端模型的行为逾期预测方法、系统、设备和介质 - Google Patents

基于端到端模型的行为逾期预测方法、系统、设备和介质 Download PDF

Info

Publication number
CN114926272B
CN114926272B CN202210682477.7A CN202210682477A CN114926272B CN 114926272 B CN114926272 B CN 114926272B CN 202210682477 A CN202210682477 A CN 202210682477A CN 114926272 B CN114926272 B CN 114926272B
Authority
CN
China
Prior art keywords
sequence
question
model
overdue
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210682477.7A
Other languages
English (en)
Other versions
CN114926272A (zh
Inventor
杨翰章
吴育人
庄伯金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210682477.7A priority Critical patent/CN114926272B/zh
Publication of CN114926272A publication Critical patent/CN114926272A/zh
Application granted granted Critical
Publication of CN114926272B publication Critical patent/CN114926272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于端到端模型的行为逾期预测方法、系统、设备和介质,设计合理,特征提取准确,避免了错误累计,预测准确率高。所述预测方法包括,获取面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答集合形式,得到输入文本;利用依次预训练和微调训练后的语言模型BERT,对所述输入文本进行语义特征提取,得到输入文本中问答句对应的句向量;利用训练好的双向循环神经网络Bi‑GRU对所述句向量进行时序特征提取,得到输出向量,所述输出向量通过Bi‑GRU模型的输出层得到所述待审客户逾期的预测概率值;根据所述的预测概率值预测所述待审核客户是否为逾期客户。

Description

基于端到端模型的行为逾期预测方法、系统、设备和介质
技术领域
本发明涉及信息处理和应用领域,具体为基于端到端模型的行为逾期预测方法、系统、设备和介质。
背景技术
近年来,伴随人工智能、大数据、云计算在金融业务中的应用越发广泛,互联网金融业务不断下沉的同时,其风险也在不断扩张。基于新技术和新场景的金融欺诈手段不断升级,欺诈方式更具多样化、专业化、智能化。现有金融系统中常用的通过信息收集后分析的信用评分机制并不能有效地识别欺诈意图,在此背景下,智能化的反欺诈成为目前金融系统中不可缺少的一环。
现有技术中,利用预测模型在预测客户行为是否会逾期时,例如在借贷行业,通常利用客户申请贷款时提供的基本信息构建统计特征,这类方法常因特征的广度或深度不足导致模型预测精度较低。同时,在现有技术中通常采用管道式(pipeline)方法搭建模型,首先基于人工经验对客户相关信息(如人行征信、银行流水、个人基本属性数据、客户操作行为数据以及授权获取的第三方数据等)进行特征工程,再级联式的基于人工构建的特征选用机器学习模型,此类做法需要引入大量的人工经验,同时可能因特征提取不足而导致模型预测精度及泛化性能较差,而且这种级联方式依赖复杂的特征工程,因此常存在因专家经验不足及错误累积导致模型效果较差的问题。从而使得现有技术中无论是从预测数据样本,还是进行预测的模型本身,都无法满足目前金融业务对客户行为进行信用评价的需求。
发明内容
针对现有技术中存在的问题,本发明提供一种基于端到端模型的行为逾期预测方法、系统、设备和介质,设计合理,特征提取准确,避免了错误累计,预测准确率高。
本发明是通过以下技术方案来实现:
本发明一方面提供基于端到端模型的行为逾期预测方法,包括,
获取行为面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答句集合形式,得到输入文本;
将所述输入文本的问答句中的汉字向量化,得到汉字输入向量;所述汉字输入向量融合所述汉字对应的拼音序列、字形序列、字符序列和位置序列;
利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量;
利用训练好的双向循环神经网络Bi-GRU对所述句向量进行时序特征提取,得到输出向量;通过Bi-GRU模型的输出层对所述输出向量进行归一化处理,得到所述待审客户行为逾期的预测概率值;
根据所述的预测概率值预测所述待审核客户是否为行为逾期客户。
可选的,所述利用训练好的双向循环神经网络Bi-GRU对所述句向量进行时序特征提取,包括,
根据最大问答句数量的数量设定值,将输入文本中的问答句数量进行对齐,按照问答句的顺序,将超出数量设定值的进行删除,不足的进行占位符填充,得到数量对齐输入文本;
利用Bi-GRU模型对所述数量对齐输入文本对应的句向量,进行时序特征提取,从正序及逆序两个角度挖掘并整合句向量的时序特征,得到输出向量,用于送入Bi-GRU模型的输出层得到所述待审客户逾期的预测概率值。
可选的,所述利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量,包括,
根据最大问答句长度的长度设定值,将输入文本中的问答句长度进行对齐,将超出长度设定值的进行删除,不足的进行特殊符填充,得到长度对齐输入文本;
利用语言模型对所述长度对齐输入文本对应的问答句,进行语义特征提取,得到输入文本中问答句对应的句向量。
可选的,所述语言模型的训练,包括依次进行的预训练和微调训练;
所述预训练,利用无监督中文文本通过随机掩码进行训练;
所述微调训练,利用真实行为面审过程中的对话文本通过如下掩码方法进行训练,
若输入文本的问答句中不存在字符错误,则采用随机掩码,利用真实面审过程的对话文本进行微调训练;
若输入文本的问答句中存在字符错误,则将问答句中的错误字符全部使用所述错误字符本身进行掩码,并将预测目标设置为正确字符;同时将部分的正确字符使用所述正确字符本身进行掩码,并将预测目标设为所述正确字符本身。
可选的,
所述将所述输入文本的问答句中的汉字向量化,得到汉字输入向量,包括,
将输入文本的问答句中的汉字,转化为罗马化字的字符序列,加入汉字对应的音调,得到拼音序列;
将输入文本的问答句中的汉字对应转化为字符序列;
将所述的拼音序列和字符序列拼接到一起,并且经过一个全连接层处理,得到问答句中的汉字对应的融合嵌入序列;
将所述融合嵌入序列和位置序列进行融合,得到汉字输入向量。
可选的,所述训练好的双向循环神经网络Bi-GRU,包括利用Focal Loss进行损失计算和训练的步骤,所述Focal Loss表示如下,
Figure BDA0003698874440000031
其中,y′表示预测概率值,α表示预设的正负样本权重,γ表示预设的难易样本权重,1表示正样本,0表示负样本,Lfl表示Focal Loss损失函数。
可选的,所述训练好的双向循环神经网络Bi-GRU,包括采用网格搜索所Bi-GRU模型参数进行调整的步骤,所述参数至少包括学习率或批处理数量。
本发明另一方面提供基于端到端模型的行为逾期预测系统,包括,
预处理模块,用于获取行为面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答句集合形式,得到输入文本;
向量化模块,用于将所述输入文本的问答句中的汉字向量化,得到汉字输入向量;所述汉字输入向量融合所述汉字对应的拼音序列、字形序列、字符序列和位置序列;
第一语义提取模块,用于利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量;
第二语义提取模块,用于利用训练好的双向循环神经网络Bi-GRU对所述句向量进行时序特征提取,得到输出向量;通过Bi-GRU模型的输出层对所述输出向量进行归一化处理,得到所述待审客户行为逾期的预测概率值;
预测模块,用于根据所述的预测概率值预测所述待审核客户是否为行为逾期客户。
本发明再一方面还提供一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一项所述的基于端到端模型的行为逾期预测方法。
本发明再一方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权上述任一项所述的基于端到端模型的行为逾期预测方法。
与现有技术相比,本发明具有以下有益的技术效果:
本发明以真实的面审过程中坐席和待审客户的对话文本为预测依据,利用结合有拼音、字形、字符和位置汉字输入向量,能够将面审的真实性进行还原,能够更加接近真实场景,通过语言模型和Bi-GRU模型构建的端到端模型进行语义和时序的两次特征提取,从而对待审客户的行为是否逾期进行准确和高效的预测;利用端到端模型构建对话文本中的深层或潜在语义信息及特征,而非通过人工经验构建特征,不会受限于人工经验缺乏与特征挖掘不足的问题;同时,端到端模型的特征提取,也避免了传统级联方式造成的错误累积问题;本发明中结合了语言与Bi-GRU模型,通过训练后的语言模型提取每对坐席-用户问答句中的语义特征,收集潜在意图,通过Bi-GRU模型捕捉每对句子特征的语义及时序特征的关联,从而能够整合每通面审对话的全局信息得到预测概率值,进行逾期客户的判断,信息提取更加的精准,预测更加客观和准确。
附图说明
图1为本发明实例1中所述的预测方法流程图。
图2为本发明实例1中所述的预训练语言模型结构示意图。
图3为本发明实例1中所述的语言模型进行语义特征提取示意图。
图4为本发明实例1中所述的Bi-GRU模型进行时序特征提取示意图。
图5为本发明实例2中所述的预测方法的流程示意图。
图6为本发明实例3中所述的预测系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实例1
本发明基于端到端模型的行为逾期预测方法,如图1所示,包括,
S1、获取行为面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答句集合形式,得到输入文本;
其中,本发明中输入文本为对应行为的面审过程中经语音识别转译得到的对话文本,本优选实例中,面审时坐席对用户进行视频电话审核,审核过程中对话经过语音识别系统,将语言转换为文本,在本文中称为对话文本;进行预测或者训练时均需要将对话文本进行预处理,本优选实例中,将面审过程中坐席与待审客户的语句整理为一问一答的问答句集合形式,得到输入文本。
S2、将所述输入文本的问答句中的汉字向量化,得到汉字输入向量;所述汉字输入向量融合所述汉字对应的拼音序列、字形序列、字符序列和位置序列;
其中,现有语言模型进行特征提取时,通过字符嵌入序列char embedding、位置序列position embedding以及字段嵌入序列segment embedding的向量拼接方法来表示输入句子中的每个字符向量,但是这种字符向量的表示方法,并未考虑到汉字字音和字形的特性,只是考虑字符本身展现出来的汉字本身的信息。由于汉字是一种典型的意音和形意文字,汉字的字音(拼音)和字形反映了汉字的不同语义,例如,“乐”字有两个读音,lè与yuè,前者表示“快乐”;后者表示“音乐”。“澡”和“噪”的读音都是相同的,但是字形是不同的,前者与水有关,后者与声音有关。
因此本发明中,将汉字的字音和字形信息融入到中文语言模型的训练和特征提取中,字音向量由对应的罗马化拼音字符序列得到。在本发明中,去掉segment embedding部分,转而将字音向量pinyin embedding和字形向量fontembeedding与原始BERT中的charembedding和position embedding进行融合,得到输入句子中每个字符的最终表示向量。
S3、利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量;
其中,在语言模型训练时,借助大规模地外部无监督中文文本数据集,对语言模型BERT进行预训练;本优选实例中,采用和原始BERT一样的无监督中文文本语料,用于预训练的数据规模为约40亿个汉字。
在BERT语言模型预训练后再进行微调训练,通过收集实际业务场景,即真实面审过程中的中对话文本数据,对基于大规模通用预训练后的BERT进行针对本发明所述面审场景的微调训练。
S4、利用训练好的双向循环神经网络Bi-GRU对所述句向量进行时序特征提取,得到输出向量;通过Bi-GRU模型的输出层对所述输出向量进行归一化处理,得到所述待审客户行为逾期的预测概率值;
其中,此步骤通过结合训练好的语言模型与双向循环神经网络Bi-GRU构建了端到端模型,通过端到端模型捕捉多轮对话文本中的语义特征,从而能有效地预测客户逾期的概率;S3和S4相结合,首先通过语言模型捕捉对话文本中每对问答句的潜在语义特征,其次使用双向循环神经网络Bi-GRU将每对问答句的语义特征向量进一步地挖掘及整合,接着基于S1中输出文本对应的汉字输入向量表示,输出预测待审客户逾期的预测概率值。
S5、根据所述的预测概率值预测所述待审核客户是否为行为逾期客户。
其中,通过上述端到端模型进行应用时,输入S2中汉字输入向量对应表示的S1的输入文本,端到端模型将通过S3和S4输出对于待审客户行为逾期的预测概率值,若预测概率值小于阈值threshold,则判定该待审客户为正常客户,若预测概率值大于等于阈值threshold,则判定该待审客户为逾期客户。
如上所述,本发明提出了一种客户行为逾期预测方案,直接基于面审过程中坐席与客户的对话文本构建端到端的预测模型;通过训练预测模型自动学习对话文本中的语义特征,避免了繁杂的特征工程;同时,采用端到端的预测模式,减少了以往级联过程中错误累积对模型效果的影响。
在本优选实例中,所述的行为可以具体为借款、贷款等金融方面的借贷行为,或者是保险等金融行业涉及到有期限逾期风险的各种金融方面的信用行为,本优选实例以贷款为例进行说明。
所述语言模型的训练,包括依次进行的预训练和微调训练;
所述预训练,利用无监督中文文本通过随机掩码进行训练;
所述微调训练,利用真实行为面审过程中的对话文本通过如下掩码方法进行训练,
若输入文本的问答句中不存在字符错误,则采用随机掩码,利用真实面审过程的对话文本进行微调训练;
若输入文本的问答句中存在字符错误,则将问答句中的错误字符全部使用所述错误字符本身进行掩码,并将预测目标设置为正确字符;同时将部分的正确字符使用所述正确字符本身进行掩码,并将预测目标设为所述正确字符本身。
具体的,本发明预训练BERT模型结构如图2所示。
字音嵌入层Pinyin embedding,首先使用pypinyin包将每个汉字的拼音转化为罗马化字的字符序列,其中也包含了音调。比如对汉字“天”,其拼音字符序列就是“tian1”。在获取汉字的拼音序列后,再对该序列使用宽度为2的text-CNN模型,得到最终的拼音序列向量。
融合层fusionlayer,将汉字的字符嵌入char embedding、字形嵌入fontembedding与拼音嵌入pinyin embedding拼接在一起,然后经过一个全连接层,得到了该汉字对应的融合嵌入fusionembedding。将所述融合嵌入fusionembedding和位置嵌入position embedding进行融合,得到预训练过程的汉字输入向量;
将所述汉字输入向量输入到语言模型BERT,通过随机掩码,利用无监督中文文本训练,完成对语言模型BERT的预训练。同时,相比于原始BERT的预训练,本发明中模型的训练仅采用字掩码策略。
预训练时,本发明首先使用字符向量及拼音向量,通过融合字符向量与字音信息进行预训练。对话文本经语音识别转译后得到,其中含有特定类型的识别错误,例如较多含有同音词、多音词的识别错误。为了缓解该类错误生成的文本,对后续模型预测的负面影响,本发明提出了将汉字与其字音(拼音)融合的思想,修改语言模型BERT结构,并基于大规模无监督中文数据重新预训练。进一步地,本发明修改了预训练BERT时使用的掩码策略,使其更加适应业务场景,并基于真实场景中收集的数据集进行了微调训练。
其通过使用真实场景收集的对话文本数据集对上述预训练语言模型BERT进行了微调训练。在预训练中,本优选实例中每个输入句子按15%的概率进行掩码,即对句子中最多15%的字符进行掩码操作。掩码策略如下:
(1)以80%的概率将原始句子中的字符替换为掩码字符[MASK];
(2)以10%的概率将原始句子中的字符替换为随机字符;
(3)以10%的概率将原始句子中的字符保持原样,不进行替换;
掩码操作后,BERT模型通过句子上下文及语义关联关系预测每个掩码位置处可能的候选字符及其概率,以类似于完型填空的方式完成模型参数的学习。举例来说,输入句子为“今天太阳很大”,经过掩码操作后得到的模型输入为“今天[MASK]阳很大”,模型将会预测掩码位置处可能的候选字符及概率,例如{(“太”,0.7),(“艳”,0.2),(“骄”,0.1)},最后通过选择预测概率最大的字符(在此为“太,0.7”)和原始字符(在此也为“太”)计算损失来调整模型中的参数完成模型学习。
由上述可知,预训练语言模型BERT时采用随机掩码的方式。但在具体的业务场景中,随机掩码的结果可能并不适用,因为实际业务中的输入句子并不会有[MASK]字符。因此本方案中,首先人工收集了真实场景中的对话文本数据,并通过音近字词典按照比例prob1将对话句子中的原始字符改为其音近字,构建了数据集。然后采用了一种与实际任务场景更适应的掩码策略。具体如下:
(1)对不存在错误的句子采用BERT中的原始方法进行微调训练,不作改变。
(2)对存在含有字符错误的句子采用两种方式进行微调训练:
21)给定句子,将其中的错误字符全部使用这个字本身进行掩码,并将预测目标设置为正确字。
22)为了防止过拟合,对部分正确的字符使用字符本身进行掩码,并将预测目标设为字符本身。
与预训练方式相比,微调训练使用了基于真实业务场景构建的数据集和适应具体任务的掩码策略,模型后续的训练方法与预训练方法一致,均为MLM。微调训练后得到的BERT模型,用于端到端的整体模型中,提取每次输入的对话文本中语义特征。
本优选实例中,端到端模型包括了上述的BERT模型并结合双向循环神经网络Bi-GRU构成,首先通过语言模型BERT捕捉对话文本中每对问答句的潜在语义特征,其次使用Bi-GRU将每对问答句的语义特征向量进一步地挖掘及整合,接着基于对话文本输出预测该用户逾期概率。在上述的实际应用之前,需要对模型进行训练,验证及参数调整,直至得到当前场景下性能最优模型,才能够用于实际的业务场景中进行批量预测。
具体的模型构建说明如下,其在训练和实际预测过程相同,只是训练是已知输入和输出,对参数进行筛选,而预测则是根据训练好的参数和获取的输入,根据训练好的模型进行输出的过程,因此通过训练过程的描述,实际也是对预测过程的描述。
首先是如上所述的对话文本预处理得到输入文本。首先将坐席与客户的语句整理为一问一答的问答句集合形式{(sent_agentk,sent_customerk)},其中坐席的语句集合为{sent_agentk},客户的语句集合为{sent_customerk},k表示面审过程中坐席及客户语句数量(在本方案中处理为二者数量相等,均为k)。
其次,是对问答句的语义特征提取,其包括,
根据最大问答句长度的长度设定值,将输入文本中的问答句长度进行对齐,将超出长度设定值的进行删除,不足的进行特殊符填充,得到长度对齐输入文本;
利用BERT模型对所述长度对齐输入文本对应的问答句,进行语义特征提取,得到输入文本中问答句对应的句向量。
具体的,对于每个问答句,使用预训练和微调训练后的语言模型BERT进行语义特征提取,整个过程如图3所示。
首先,设定每个问答句的长度和最大为254,若合并后文本长度超过254,则进行截断;若合并后文本长度不超过254,则使用特殊字符[PAD]进行填充。例如一个问答句(sent_agentk,sent_customerk),则将该句子的文本段落构建为[CLS]sent_agentksent_customerk[PAD][PAD]…[SEP]形式的输入数据格式,特别地,对于某要点下文本为空的情况,本方案为了保证后续模型输入的统一,将输入构建为[CLS][PAD][PAD]…[SEP]格式。
接着,如图3所示,每个结合拼音和字符的问答句经过BERT模型后,取位置[CLS]出对应的输出向量e[VLS]作为该句子的句向量sentenceenbedding;因此所有句子的向量依次为esent_1,esent_2,esent_3,……,esent_n
第三,是使用Bi-GRU模型对句向量的进一步特征挖掘和整合,其包括,
根据最大问答句数量的数量设定值,将输入文本中的问答句数量进行对齐,按照问答句的顺序,将超出数量设定值的进行删除,不足的进行占位符填充,得到数量对齐输入文本;
利用Bi-GRU模型对所述数量对齐输入文本对应的句向量,进行时序特征提取,从正序及逆序两个角度挖掘并整合句向量的时序特征,得到输出向量,用于送入Bi-GRU模型的输出层得到所述待审客户逾期的预测概率值。
具体的,Bi-GRU模型整体结构如图4所示。
首先,设定面审对话文本中的最大问答句数量为M,在输入文本中对于超过数量M的问答句进行删除,对于不足数量M的问答句进行占位符[PAD]填充。
接着,利用Bi-GRU模型对上一步提取的各句向量{esent_1,esent_2,esent_3,……,esent_n}进行特征提取,GRU模型考虑句子间的顺序,Bi-GRU进一步地能够从正序及逆序两个角度挖掘和整合句向量特征。
最后,将Bi-GRU输出向量送入Softmax层,输出预测该用户逾期的概率值y′。实际应用过程中,到这一步就得到了预测概率值,但是在实际的训练过程中,实际需要通过损失计算和其他参数的调整来得到最优的模型,因此在训练过程中还包括如下两步。
第四,利用Focal Loss进行损失计算和训练。
由于在真实业务场景中,正常客户数(标签为0)与逾期客户数(标签为1)差距悬殊,这种样本不均衡问题将使模型极易过拟合,导致模型泛化能力低,难以真正应用。本方案中,使用新的损失函数Focal loss替换分类问题中常用的交叉熵损失函数,其中FocalLoss定义如下:
Figure BDA0003698874440000131
其中,y′表示模型预测值,α和γ表示权重值。具体的,α表示预设的正负样本权重,γ表示预设的难易样本权重,1表示正样本,0表示负样本,Lfl表示Focal Loss损失函数。Focal Loss的作用在于:通过参数α对于正样本(y=1)较少的情况下,改变了正负样本权重;通过参数γ降低易分类样本权重,同时增加难分类样本权重。通过引入损失函数FocalLoss,本方案实现了让模型在训练过程中更侧重于少数及难分类样本(即逾期客户样本),抑制了模型过拟合。
第五,采用网格搜索对模型的参数进行调整,得到针对本方案业务的最优模型;其中,所述参数至少包括学习率或批处理数量。
实例2
本发明所述的方法在实际的应用过程中,可以将训练和预测结合在一起,通过每次的预测都可以对模型进行进一步的提高,使得每次的预测都是一次学习的过程,极大的提高端到端模型整体进化和学习的进程,如图5所示。
对待审客户进行预测开始,首先,获取面审对话文本数据,并进行预处理得到输入文本;
其次,判断是否已预训练及微调训练语言模型BERT,如果没有则对其进行如实例1所述的训练,如果已经完成训练,则加载训练好的语言模型BERT;
然后,将输入文本输入基于BERT结合Bi-GRU的端到端模型,使用FocaLoss修改模型损失函数,训练端到端模型及调参得到最优端到端模型,将包含待审客户数据的输入文本输入最优的端到端模型,获取预测概率值;
最后,判断预测概率值与阈值的关系,如果不小于阈值则为逾期客户,如果小于阈值则为正常客户,完成行为逾期的预测。
本发明在整体流程上,基于坐席与客户面审过程中的对话文本进行端到端地分类预测,与现有技术不同的,一是本方案数据来源于面审视频中坐席与客户直接的对话文本而非客户侧面信息。同时,考虑了对话文本中语音识别错误(同音字错误或者近似字错误)对句子语义可能带来的影响。另一方面,本方案设计了双向循环神经网络模型,自动学习对话文本中的深层或潜在语义信息及特征,而非通过人工经验构建特征,不会受限于人工经验缺乏与特征挖掘不足的问题。同时,模型采用端到端的设计思路,避免了传统级联方式造成的错误累积问题。
在端到端的模型构建方面,本方案针对真实业务场景设计了基于语言模型BERT和循环神经网络Bi-GRU的端到端模型,同时也考虑了对话文本的语音识别错误可能造成的影响。在预训练阶段,本方案首先使用将字向量及拼音向量信息融合的方式,在大规模中文数据集上对语言模型BERT进行了预训练,这样做能够缓解因语音识别产生的同音字错误而导致的句子语义特征提取有误的问题。接着使用业务数据对BERT进行了微调训练,使语言模型在提取输入句语义特征时充分考虑领域内的知识与信息。在预测模型搭建阶段,本方案结合了BERT与Bi-GRU模型,通过微调后的BERT模型提取每对坐席-用户句子中的语义和潜在意图特征,通过Bi-GRU模型捕捉每对句子特征的语义及时序关联,最后模型整合每通面审对话的全局信息做出概率预测。
实例3
本发明基于端到端模型的行为逾期预测系统,如图6所示,包括,
预处理模块601,用于获取行为面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答句集合形式,得到输入文本;
所述预处理模块601中,具体进行入如下预处理。首先将坐席与客户的语句整理为一问一答的集合形式{(sent_agentk,sent_customerk)},其中坐席的语句集合为{sent_agentk},客户的语句集合为{sent_customerk},k表示面审过程中坐席及客户语句数量(在本方案中处理为二者数量相等,均为k)。
向量化模块602,用于将所述输入文本的问答句中的汉字向量化,得到汉字输入向量;所述汉字输入向量融合所述汉字对应的拼音序列、字形序列、字符序列和位置序列;
所述向量化模块602中,包括字音嵌入层Pinyin embedding,用于首先使用pypinyin包将每个汉字的拼音转化为罗马化字的字符序列,其中也包含了音调。比如对汉字“天”,其拼音字符序列就是“tian1”。在获取汉字的拼音序列后,再对该序列使用宽度为2的text-CNN模型,得到最终的拼音序列向量。
融合层fusionlayer,用于将汉字的字符嵌入char embedding、字形嵌入fontembedding与拼音嵌入pinyin embedding拼接在一起,然后经过一个全连接层,得到了该汉字对应的融合嵌入fusionembedding。将所述融合嵌入fusionembedding和位置嵌入position embedding进行融合,得到预训练过程的汉字输入向量。
第一语义提取模块603,用于利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量;
所述第一语义提取模块603中,具体进行如下的第一语义提取。首先,设定每个问答句的长度和最大为254,若合并后文本长度超过254,则进行截断;若合并后文本长度不超过254,则使用特殊字符[PAD]进行填充。例如一个问答句(sent_agentk,sent_customerk),则将该句子的文本段落构建为[CLS]sent_agentksent_customerk[PAD][PAD]…[SEP]形式的输入数据格式,特别地,对于某要点下文本为空的情况,本方案为了保证后续模型输入的统一,将输入构建为[CLS][PAD][PAD]…[SEP]格式。
接着,每个结合拼音和字符的问答句经过BERT模型后,取位置[CLS]出对应的输出向量e[CLS]作为该句子的句向量sentenceenbedding;因此所有句子的向量依次为esent_1,esent_2,esent_3,……,esent_n
第二语义提取模块604,用于利用训练好的双向循环神经网络Bi-GRU对所述句向量进行时序特征提取,得到输出向量;通过Bi-GRU模型的输出层对所述输出向量进行归一化处理,得到所述待审客户行为逾期的预测概率值;
所述第二语义提取模块604中,具体进行如下的第二语义提取。首先,设定面审对话文本中的最大问答句数量为M,在输入文本中对于超过数量M的问答句进行删除,对于不足数量M的问答句进行占位符[PAD]填充。
接着,利用Bi-GRU模型对上一步提取的各句向量{esent_1,esent_2,esent_3,……,esent_n}进行特征提取,GRU模型考虑句子间的顺序,Bi-GRU进一步地能够从正序及逆序两个角度挖掘和整合句向量特征。
最后,将Bi-GRU输出向量送入Softmax层,输出预测该用户逾期的概率值y′。
预测模块605,用于根据所述的预测概率值预测所述待审核客户是否为行为逾期客户。
所述预测模块605中,具体执行如下的预测判断。若预测概率值小于阈值threshold,则判定该待审客户为正常客户,若预测概率值大于等于阈值threshold,则判定该待审客户为逾期客户。
实例4
与上述的实例1和2对应,本发明还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如实例1和2中任一项所述的基于端到端模型的行为逾期预测方法。
同时,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如实例1和27中任一项所述的基于端到端模型的行为逾期预测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (9)

1.基于端到端模型的行为逾期预测方法,其特征在于,包括,
获取行为面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答句集合形式,得到输入文本;
将所述输入文本的问答句中的汉字向量化,得到汉字输入向量;所述汉字输入向量融合所述汉字对应的拼音序列、字形序列、字符序列和位置序列;
利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量;
根据最大问答句数量的数量设定值,将输入文本中的问答句数量进行对齐,按照问答句的顺序,将超出数量设定值的进行删除,不足的进行占位符填充,得到数量对齐输入文本;利用训练好的双向循环神经网络Bi-GRU对所述数量对齐输入文本对应的句向量,进行时序特征提取,从正序及逆序两个角度挖掘并整合句向量的时序特征,得到输出向量;通过Bi-GRU模型的输出层对所述输出向量进行归一化处理,得到所述待审客户行为逾期的预测概率值;
根据所述的预测概率值预测所述待审客户是否为行为逾期客户。
2.根据权利要求1所述的基于端到端模型的行为逾期预测方法,其特征在于,所述利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量,包括,
根据最大问答句长度的长度设定值,将输入文本中的问答句长度进行对齐,将超出长度设定值的进行删除,不足的进行特殊符填充,得到长度对齐输入文本;
利用语言模型对所述长度对齐输入文本对应的问答句,进行语义特征提取,得到输入文本中问答句对应的句向量。
3.根据权利要求1所述的基于端到端模型的行为逾期预测方法,其特征在于,所述语言模型的训练,包括依次进行的预训练和微调训练;
所述预训练,利用无监督中文文本通过随机掩码进行训练;
所述微调训练,利用真实行为面审过程中的对话文本通过如下掩码方法进行训练,
若输入文本的问答句中不存在字符错误,则采用随机掩码,利用真实面审过程的对话文本进行微调训练;
若输入文本的问答句中存在字符错误,则将问答句中的错误字符全部使用所述错误字符本身进行掩码,并将预测目标设置为正确字符;同时将部分的正确字符使用所述正确字符本身进行掩码,并将预测目标设为所述正确字符本身。
4.根据权利要求1所述的基于端到端模型的行为逾期预测方法,其特征在于,所述将所述输入文本的问答句中的汉字向量化,得到汉字输入向量,包括,
将输入文本的问答句中的汉字,转化为罗马化字的字符序列,加入汉字对应的音调,得到拼音序列;
将输入文本的问答句中的汉字对应转化为字形序列和字符序列;
将所述的拼音序列、字形序列和字符序列拼接到一起,并且经过一个全连接层处理,得到问答句中的汉字对应的融合嵌入序列;
将所述融合嵌入序列和位置序列进行融合,得到汉字输入向量。
5.根据权利要求1所述的基于端到端模型的行为逾期预测方法,其特征在于,所述训练好的双向循环神经网络Bi-GRU,包括利用Focal Loss进行损失计算和训练的步骤,所述Focal Loss表示如下,
其中,表示预测概率值,表示预设的正负样本权重,表示预设的难易样本权重,1表示正样本,0表示负样本,表示Focal Loss损失函数。
6.根据权利要求1所述的基于端到端模型的行为逾期预测方法,其特征在于,所述训练好的双向循环神经网络Bi-GRU,包括采用网格搜索所述Bi-GRU模型参数进行调整的步骤,所述参数至少包括学习率或批处理数量。
7.基于端到端模型的行为逾期预测系统,其特征在于,包括,
预处理模块,用于获取行为面审过程中坐席和待审客户的对话文本,对所述对话文本预处理为问答句集合形式,得到输入文本;
向量化模块,用于将所述输入文本的问答句中的汉字向量化,得到汉字输入向量;所述汉字输入向量融合所述汉字对应的拼音序列、字形序列、字符序列和位置序列;
第一语义提取模块,用于利用训练后的语言模型,对所述汉字输入向量表示的问答句进行语义特征提取,得到与所述问答句对应的句向量;
第二语义提取模块,用于根据最大问答句数量的数量设定值,将输入文本中的问答句数量进行对齐,按照问答句的顺序,将超出数量设定值的进行删除,不足的进行占位符填充,得到数量对齐输入文本;利用训练好的双向循环神经网络Bi-GRU对所述数量对齐输入文本对应的句向量,进行时序特征提取,从正序及逆序两个角度挖掘并整合句向量的时序特征,得到输出向量;通过Bi-GRU模型的输出层对所述输出向量进行归一化处理,得到所述待审客户行为逾期的预测概率值;
预测模块,用于根据所述的预测概率值预测所述待审客户是否为行为逾期客户。
8.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6中任一项所述的基于端到端模型的行为逾期预测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于端到端模型的行为逾期预测方法。
CN202210682477.7A 2022-06-16 2022-06-16 基于端到端模型的行为逾期预测方法、系统、设备和介质 Active CN114926272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210682477.7A CN114926272B (zh) 2022-06-16 2022-06-16 基于端到端模型的行为逾期预测方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210682477.7A CN114926272B (zh) 2022-06-16 2022-06-16 基于端到端模型的行为逾期预测方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN114926272A CN114926272A (zh) 2022-08-19
CN114926272B true CN114926272B (zh) 2023-05-12

Family

ID=82815494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210682477.7A Active CN114926272B (zh) 2022-06-16 2022-06-16 基于端到端模型的行为逾期预测方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN114926272B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435998A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 贷款逾期预测方法、装置、电子设备及存储介质
CN113988055A (zh) * 2021-10-18 2022-01-28 浙江香侬慧语科技有限责任公司 一种预训练模型的中文训练方法、装置及存储介质
WO2022088672A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088672A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质
CN113435998A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 贷款逾期预测方法、装置、电子设备及存储介质
CN113988055A (zh) * 2021-10-18 2022-01-28 浙江香侬慧语科技有限责任公司 一种预训练模型的中文训练方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BERT的微博谣言检测研究;韩连金;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN114926272A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN108415977B (zh) 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN110210032B (zh) 文本处理方法及装置
CN111881291A (zh) 一种文本情感分类方法及系统
US7412093B2 (en) Hybrid apparatus for recognizing answer type
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN110188781A (zh) 一种基于深度学习的古诗文自动识别方法
CN111930939A (zh) 一种文本检测的方法及装置
CN114860930A (zh) 一种文本分类方法、装置以及存储介质
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
CN114926272B (zh) 基于端到端模型的行为逾期预测方法、系统、设备和介质
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant