CN112463922A - 一种风险用户识别方法及存储介质 - Google Patents

一种风险用户识别方法及存储介质 Download PDF

Info

Publication number
CN112463922A
CN112463922A CN202011342280.6A CN202011342280A CN112463922A CN 112463922 A CN112463922 A CN 112463922A CN 202011342280 A CN202011342280 A CN 202011342280A CN 112463922 A CN112463922 A CN 112463922A
Authority
CN
China
Prior art keywords
user
gate
output
model
user identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011342280.6A
Other languages
English (en)
Inventor
刘晓东
陶坤旺
蓝玉珍
赵阳阳
何望君
仇阿根
石丽红
张福浩
刘振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202011342280.6A priority Critical patent/CN112463922A/zh
Publication of CN112463922A publication Critical patent/CN112463922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种风险用户识别方法及其存储介质,其中所述方法,首先对非结构化的用户文本描述数据预处理,对预处理后的用户信息数据,采用BERT模型进行字向量提取,然后通过LSTM模型捕捉所述关键字特征向量中的语义信息,得到提取用户信息的高级特征向量,利用所述高级特征向量,经过线性公式计算,输出用户违约概率,实现风险用户识别。本发明在于结合BERT模型与LSTM模型对非结构化的用户文本描述数据进行风险用户识别,消除梯度消失问题,提高风险用户识别的速度,采用双向LSTM模型,有效的利用文档信息,从而使特征更具判断力,提高风险用户识别的准确度。

Description

一种风险用户识别方法及存储介质
技术领域
本发明涉及自然语言处理技术领域,具体的,涉及一种风险用户识别方法及存储介质。
背景技术
“互联网+”模式的兴起、运营商之间的竞争白热化,对于金融业、电信运营商、餐饮服务行业以及其他领域,用户风险识别具有举足轻重的作用。互联网和计算领域发展的金融平台提供产品或者服务前,会对用户信息进行全面审核与信用评估,最终根据结果来判断是否提供用户相应服务。用户信息主要有两种存储格式,一种是利用表格或结构化数据库对用户属性进行存储,记录年龄、收入、信用卡额度、违约次数等与信用相关的属性值。一种是非结构化的文本描述,例如:张三性别男,家住北京市丰台区莲花小区,于北京市哈林伟业有限公司工作,信用卡逾期金额三千,逾期九十天,因房屋买卖纠纷赔偿原告李四二十万,移动电话欠费五百元。
目前,各种不良贷款率飙升,各种平台跑路的信息不绝于耳,需要对信用风险的控制进一步探索,采用更加自动化,更为智能的方法来提高平台的审核效率和准确率。传统的信用风险评估审核方法,需要人工审核,过分依赖央行征信系统,已经无法满足平台对于审核效率、质量等风险控制的要求。
因此,如何克服上述不足,快速而高效的对用户进行风险识别成为亟需解决的技术问题。
发明内容
为了克服人工筛选风险用户工作方式中存在的效率不高、工作量大、缺乏科学性等问题,本发明提出一种风险用户识别方法,以提高风险用户识别的速度和准确度。
为达此目的,本发明采用以下技术方案:
一种风险用户识别方法,其特征在于,包括如下步骤:
数据预处理步骤S110:
对非结构化的用户文本描述数据预处理,过滤掉无关信息,主要包括:删除标点符号、删除空格等,在用户数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的用户文本数据中对应的停用词;
用户特征向量提取与处理步骤S120:
对预处理后的用户信息数据,例如非结构化的用户文本描述数据,采用BERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过LSTM模型捕捉所述关键字特征向量中的语义信息,得到提取用户信息的高级特征向量,以表征用户信息;
计算用户违约概率值S130:接收在步骤S120中所提取的用户信息的高级特征向量,经过线性公式计算,输出用户违约概率,实现风险用户识别。
可选的,在步骤S110中,所述非结构化的用户文本描述数据为描述用户经济和个人信息情况的自然文本语言。
可选的,在步骤S120中,所述BERT模型采用表义能力更强的双向编码结构来对语料进行训练,实现语料训练的深度双向表示。
可选的,在步骤S120中,所述LSTM模型为一种双向的改进的循环神经网络。
可选的,在步骤S120中,所述LSTM模型由3个门结构和1个状态单元组成,所述3个门结构包括输入门、遗忘门、输出门;
其中,所述输入门接收两个输入,即上一时刻LSTM模型的输出结果ht-1和当前时刻的输入xt,t时刻的输入门的输出it计算公式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ为sigmoid函数,Wi表示输入门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bi为输入门的偏置项;
所述遗忘门的输出ft同样接收上一时刻LSTM模型的输出结果ht-1和当前时刻的输入xt,并决定是否从状态单元中丢弃信息,输出计算式为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,σ是sigmoid函数,Wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf是遗忘门的偏置项。
当前时刻的即时状态单元值
Figure BDA0002797006390000031
表示为:
Figure BDA0002797006390000032
其中,WC
Figure BDA0002797006390000033
的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,tanh表示双曲正切激活函数,bC
Figure BDA0002797006390000034
的偏置项。
则当前时刻的状态单元Ct接收输入门和遗忘门的值,表示为:
Figure BDA0002797006390000035
其中,Ct-1为上一时刻的单元状态,初始化为1。
输出门ot用于控制LSTM状态单元的输出,表达式为:
ot=σ(Wo[ht-1,xt]+bo)
其中,σ是sigmoid函数,Wo是输出门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bo是输出门的偏置项。
最终所述LSTM模型当前时刻状态单元的输出ht表示为:
ht=ot*tanh(Ct)。
可选的,在步骤S120中,所述BERT模型进行字向量提取,所述字向量通过双向的LSTM模型得到正向LSTM和反向LSTM提取出上下文特征,顺序拼接最终生成得到提取用户信息的高级特征向量。
可选的,在步骤S130中,概率值计算的所述线性公式为:
Y=W1H1+w2H2+…+WnHn+bn
Wn为样本数据调校的权重矩阵,通过所提出的模型对数据进行训练,获得模型的最优参数,bn为调校的偏置项。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的风险用户识别方法。
本发明提供的风险用户识别方法,与现有技术相比,具有如下优势:
1)由于本发明将BERT模型与LSTM神经网络相融合,BERT模型融合当前词左右两侧的语境,获取关键字特征向量,然后通过LSTM层捕捉句子中的语义信息,提取用户信息特征向量,并且消除梯度消失问题,进而提高风险用户识别的速度。
2)由于本发明采用双向LSTM模型,有效的利用文档信息,从而使特征更具判断力,进一步提高风险用户识别的准确度。
附图说明
图1是根据本发明具体实施例的风险用户识别方法的基础流程图;
图2是根据本发明具体实施例的用户识别方法的整体模型图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于结合双向编码器模型(Bidirectional Encoder Representationfrom Transformers,BERT)与长短期记忆网络模型(Long Short-Term Memory,LSTM)对非结构化的用户文本描述数据进行风险用户识别。首先采用BERT层进行字向量提取,获取关键字特征向量,然后通过LSTM层捕捉句子中的语义信息,提取用户信息高级特征向量,从而使特征更具判断力,提高风险用户识别的准确度,最后输出用户违约概率值。
通过概率信息提供风险用户的参考,为进一步的各类生产、经济、以及其他社会化活动的参加提供参考。
参见图1,示出了根据本发明具体实施例的风险用户识别方法的基础流程图。
数据预处理步骤S110:
对非结构化的用户文本描述数据预处理,过滤掉无关信息,主要包括:删除标点符号、删除空格等,在用户数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的用户文本数据中对应的停用词。
其中所述非结构化的用户文本描述数据为描述用户经济和个人信息情况的自然文本语言,例如:张三性别男,家住北京市丰台区莲花小区,于北京市哈林伟业有限公司工作,信用卡逾期金额三千,逾期九十天,因房屋买卖纠纷赔偿原告李四二十万,移动电话欠费五百元。
用户特征向量提取与处理步骤S120:
对预处理后的用户信息数据,例如非结构化的用户文本描述数据,采用BERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过LSTM模型捕捉所述关键字特征向量中的语义信息,得到提取用户信息的高级特征向量,以表征用户信息。
具体的,所述BERT模型采用表义能力更强的双向编码结构来对语料进行训练,实现语料训练的深度双向表示。BERT模型的“掩盖语言模型机制”(masked language model,MLM)可以融合当前词左右两侧的语境,获取关键字特征表示向量。
具体的,长短期记忆网络模型(Long Short-Term Memory,LSTM模型)为一种双向的改进的循环神经网络,可以较好地解决循环神经的长期依赖问题。
具体的,所述LSTM模型由3个门结构和1个状态单元组成,所述3个门结构包括输入门、遗忘门、输出门;
其中,所述输入门接收两个输入,即上一时刻LSTM模型的输出结果ht-1和当前时刻的输入xt,t时刻的输入门的输出it计算公式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ为sigmoid函数,Wi表示输入门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bi为输入门的偏置项;
所述遗忘门的输出ft同样接收上一时刻LSTM模型的输出结果ht-1和当前时刻的输入xt,并决定是否从状态单元中丢弃信息,输出计算式为:
=(·[h-1,]+)
其中,是sigmoid函数,是遗忘门的权重矩阵,[h-1,]表示把两个向量连接成一个更长的向量,是遗忘门的偏置项。
当前时刻的即时状态单元值~,表示为:
~=tanh(·[h-1,]+)
其中,是~的权重矩阵,[h-1,]表示把两个向量连接成一个更长的向量,tanh表示双曲正切激活函数,是~的偏置项。
则当前时刻的状态单元接收输入门和遗忘门的值,表示为:
=*-1+*~
其中,-1为上一时刻的单元状态,初始化为1。
输出门用于控制LSTM状态单元的输出,表达式为:
=([h-1,]+)
其中,是sigmoid函数,是输出门的权重矩阵,[h-1,]表示把两个向量连接成一个更长的向量,是输出门的偏置项。
最终所述LSTM模型当前时刻状态单元的输出h表示为:
h=*tanh()
通过LSTM神经网络,能更有效地利用用户信息,可以更好地提取用户信息特征向量。
更进一步的,所述BERT模型进行字向量提取,所述字向量通过双向的LSTM模型得到正向LSTM和反向LSTM提取出上下文特征,顺序拼接最终生成得到提取用户信息的高级特征向量。
计算用户违约概率值S130:通过输出层接收在步骤S120中所提取的用户信息的高级特征向量,经过线性公式计算,输出用户违约概率,实现风险用户识别。
可选的,输出层的概率值计算的线性公式为:
11+22+…+ +
其中,为样本数据调校的权重矩阵,该权重矩阵利用样本数据为非结构化的用户信息文本描述,通过所提出的模型对数据进行训练,获得模型的最优参数,为调校的偏置项。
参见图2,在本发明中该用户风险识别方法包括相应的风险用户识别处理模型,包括:
输入层,用于输入待处理的用户信息数据,例如非结构化的用户文本描述数据,并进行步骤S110中的数据预处理步骤;
BERT层,用于实现所述BERT模型,对字向量进行提取,获取关键字特征向量;
LSTM层,用于实现双向的所述LSTM模型,得到正向LSTM和反向LSTM提取出上下文特征,顺序拼接最终生成得到提取用户信息的高级特征向量;
输出层,用于接收所提取的用户信息特征向量,经过线性公式计算,输出用户违约概率,实现风险用户识别。
输出层的概率值计算的线性公式为:
11+22+…+ +
其中,为样本数据调校的权重矩阵,该权重矩阵利用样本数据为非结构化的用户信息文本描述,通过所提出的模型对数据进行训练,获得模型的最优参数,为调校的偏置项。
一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的风险用户识别方法。
实施例:
本发明提供了一种风险用户识别方法:首先将对用户信息预处理并组成文本(12,…,),将其输入到BERT层。其中表示输入文本中的第i个字,模型根据文本中的每一个字生成特征向量。基于BERT的字向量表示层中的Transformer(Trm)将转换成字向量=(12,…,)。将作为双向LSTM各个时间步的输入并进行特征计算,通过双向LSTM的正向LSTM=(12,…,)反向LSTM=(12,…,)提取出上下文特征,顺序拼接生成特征矩阵=(12,…,),捕捉句子中双向的语义信息。最后经过线性公式计算,输出用户违约概率。
本发明提供的风险用户识别方法,与现有技术相比,具有如下优势:
1)由于本发明将BERT模型与LSTM模型相融合,BERT模型融合当前词左右两侧的语境,获取关键字特征向量,然后通过LSTM模型捕捉句子中的语义信息,提取用户信息特征向量,并且消除梯度消失问题,进而提高风险用户识别的速度。
2)由于本发明采用双向LSTM模型,有效的利用文档信息,从而使特征更具判断力,进一步提高风险用户识别的准确度。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (8)

1.一种风险用户识别方法,其特征在于,包括如下步骤:
数据预处理步骤S110:
对非结构化的用户文本描述数据预处理,过滤掉无关信息,主要包括:删除标点符号、删除空格等,在用户数据中引入领域词典,对数据作分词处理,利用通用停用词库进行停用词过滤,去掉分词后的用户文本数据中对应的停用词;
用户特征向量提取与处理步骤S120:
对预处理后的用户信息数据,例如非结构化的用户文本描述数据,采用BERT模型进行字向量提取,获取关键字特征向量,然后将所述关键字特征向量作为输入,通过LSTM模型捕捉所述关键字特征向量中的语义信息,得到提取用户信息的高级特征向量,以表征用户信息;
计算用户违约概率值S130:接收在步骤S120中所提取的用户信息的高级特征向量,经过线性公式计算,输出用户违约概率,实现风险用户识别。
2.根据权利要求1所述的风险用户识别方法,其特征在于:
在步骤S110中,所述非结构化的用户文本描述数据为描述用户经济和个人信息情况的自然文本语言。
3.根据权利要求1所述的风险用户识别方法,其特征在于:
在步骤S120中,所述BERT模型采用表义能力更强的双向编码结构来对语料进行训练,实现语料训练的深度双向表示。
4.根据权利要求1所述的风险用户识别方法,其特征在于:
在步骤S120中,所述LSTM模型为一种双向的改进的循环神经网络。
5.根据权利要求1所述的风险用户识别方法,其特征在于:
在步骤S120中,所述LSTM模型由3个门结构和1个状态单元组成,所述3个门结构包括输入门、遗忘门、输出门;
其中,所述输入门接收两个输入,即上一时刻LSTM模型的输出结果ht-1和当前时刻的输入xt,t时刻的输入门的输出it计算公式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ为sigmoid函数,Wi表示输入门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bi为输入门的偏置项;
所述遗忘门的输出ft同样接收上一时刻LSTM模型的输出结果ht-1和当前时刻的输入xt,并决定是否从状态单元中丢弃信息,输出计算式为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,σ是sigmoid函数,Wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf是遗忘门的偏置项。
当前时刻的即时状态单元值
Figure FDA0002797006380000021
表示为:
Figure FDA0002797006380000022
其中,WC
Figure FDA0002797006380000023
的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,tanh表示双曲正切激活函数,bC
Figure FDA0002797006380000024
的偏置项。
则当前时刻的状态单元Ct接收输入门和遗忘门的值,表示为:
Figure FDA0002797006380000025
其中,Ct-1为上一时刻的单元状态,初始化为1。
输出门ot用于控制LSTM状态单元的输出,表达式为:
ot=σ(Wo[ht-1,xt]+bo)
其中,σ是sigmoid函数,Wo是输出门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bo是输出门的偏置项。
最终所述LSTM模型当前时刻状态单元的输出ht表示为:
ht=ot*tanh(Ct)。
6.根据权利要求5所述的风险用户识别方法,其特征在于:
在步骤S120中,所述BERT模型进行字向量提取,所述字向量通过双向的LSTM模型得到正向LSTM和反向LSTM提取出上下文特征,顺序拼接最终生成得到提取用户信息的高级特征向量。
7.根据权利要求1-6中任意一项所述的风险用户识别方法,其特征在于:
在步骤S130中,概率值计算的所述线性公式为:
Y=W1H1+w2H2+…+WnHn+bn
Wn为样本数据调校的权重矩阵,通过所提出的模型对数据进行训练,获得模型的最优参数,bn为调校的偏置项。
8.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的风险用户识别方法。
CN202011342280.6A 2020-11-25 2020-11-25 一种风险用户识别方法及存储介质 Pending CN112463922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342280.6A CN112463922A (zh) 2020-11-25 2020-11-25 一种风险用户识别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342280.6A CN112463922A (zh) 2020-11-25 2020-11-25 一种风险用户识别方法及存储介质

Publications (1)

Publication Number Publication Date
CN112463922A true CN112463922A (zh) 2021-03-09

Family

ID=74808218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342280.6A Pending CN112463922A (zh) 2020-11-25 2020-11-25 一种风险用户识别方法及存储介质

Country Status (1)

Country Link
CN (1) CN112463922A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033887A (zh) * 2021-03-18 2021-06-25 北京云真信科技有限公司 一种用户优先级的确定方法、电子设备及可读存储介质
CN113241135A (zh) * 2021-04-30 2021-08-10 山东大学 一种基于多模态融合的疾病风险预测方法和系统
CN114298806A (zh) * 2021-12-23 2022-04-08 中国农业银行股份有限公司 风险识别方法、设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829671A (zh) * 2018-06-04 2018-11-16 北京百度网讯科技有限公司 基于调查数据的决策的方法、装置、存储介质和终端设备
CN109918649A (zh) * 2019-02-01 2019-06-21 杭州师范大学 一种基于微博文本的自杀风险识别方法
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111402028A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种信息处理方法、装置及设备
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829671A (zh) * 2018-06-04 2018-11-16 北京百度网讯科技有限公司 基于调查数据的决策的方法、装置、存储介质和终端设备
CN111402028A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种信息处理方法、装置及设备
CN109918649A (zh) * 2019-02-01 2019-06-21 杭州师范大学 一种基于微博文本的自杀风险识别方法
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033887A (zh) * 2021-03-18 2021-06-25 北京云真信科技有限公司 一种用户优先级的确定方法、电子设备及可读存储介质
CN113241135A (zh) * 2021-04-30 2021-08-10 山东大学 一种基于多模态融合的疾病风险预测方法和系统
CN114298806A (zh) * 2021-12-23 2022-04-08 中国农业银行股份有限公司 风险识别方法、设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112463922A (zh) 一种风险用户识别方法及存储介质
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN109087163B (zh) 信用评估的方法及装置
CN110929043B (zh) 业务问题提取方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111382565A (zh) 基于多标签的情绪-原因对抽取方法及系统
CN110675269B (zh) 文本审核方法以及装置
CN110390084A (zh) 文本查重方法、装置、设备及存储介质
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN109101489A (zh) 一种文本自动摘要方法、装置及一种电子设备
CN113407677B (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN114579746A (zh) 一种优化的高精度文本分类方法及装置
CN113158656A (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN114818718A (zh) 合同文本识别方法及装置
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
Bhole et al. Extracting named entities and relating them over time based on Wikipedia
CN116882494B (zh) 面向专业文本的无监督知识图构建方法和装置
CN114117041A (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
CN113378090A (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN117235605A (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination