CN112507189B - 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统 - Google Patents
基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统 Download PDFInfo
- Publication number
- CN112507189B CN112507189B CN202011404351.0A CN202011404351A CN112507189B CN 112507189 B CN112507189 B CN 112507189B CN 202011404351 A CN202011404351 A CN 202011404351A CN 112507189 B CN112507189 B CN 112507189B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- bilstm
- node
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 16
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000013475 authorization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000013016 damping Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于BiLSTM‑CRF模型的金融用户画像信息提取方法及系统,其中,所述方法包括:构建金融用户数据仓库;根据所述金融用户数据仓库,提取第一用户关键信息;根据所述第一用户关键信息,构建测试集;将BiLSTM‑CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM‑CRF模型;将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM‑CRF模型,获得输出信息,所述输出信息包括第一用户关键词;根据所述第一用户关键词,获得第一用户画像信息。解决了LSTM模型无法得到约束条件下最优解的问题,大幅提高了现有客户画像方法的准确度。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统。
背景技术
金融用户画像能有效挖掘用户数据特征,为产品营销、个性化推荐提供有利依据。用户画像信息提取方法主要分为基于统计的方法和基于机器学习的方法。基于统计的方法利用统计学对用户数据进行处理分析,提取用户特征;基于机器学习的方法利用大量人工标注的样本训练得到的模型预测结果。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
基于统计学的方法在定量数据样本上分析固然有效,但在定性数据样本上并不适用,基于机器学习的方法对用户社交信息提取并不充分。
发明内容
本申请实施例通过提供基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统,优化了传统使用LSTM模型的客户画像方法,解决了LSTM模型无法得到约束条件下最优解的问题,大幅提高了现有客户画像方法的准确度,达到了为未来的金融策略提供有效依据,进而对金融用户画像的整理和调查分析更可靠、更高效的技术效果。
本申请实施例提供了基于BiLSTM-CRF模型的金融用户画像信息提取方法,其中,所述方法还包括:构建金融用户数据仓库;根据所述金融用户数据仓库,提取第一用户关键信息;根据所述第一用户关键信息,构建测试集;将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;根据所述第一用户关键词,获得第一用户画像信息。
另一方面,本申请还提供了基于BiLSTM-CRF模型的金融用户画像信息提取系统,其中,所述系统包括:第一构建单元:所述第一构建单元用于构建金融用户数据仓库;第一提取单元:所述第一提取单元用于根据所述金融用户数据仓库,提取第一用户关键信息;第二构建单元:所述第二构建单元用于根据所述第一用户关键信息,构建测试集;第一训练单元:所述第一训练单元用于将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;第一输入单元:所述第一输入单元用于将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;第一获得单元:所述第一获得单元用于根据所述第一用户关键词,获得第一用户画像信息。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过充分利用银行内部用户基本数据和交易数据,以及移动互联网三方平台等的社交数据,综合构建金融用户画像,使用BiLSTM-CRF模型进行客户画像,优化了传统使用LSTM模型的客户画像方法,解决了LSTM模型无法得到约束条件下最优解的问题,大幅提高了现有客户画像方法的准确度,构建有效的金融用户画像,达到了为未来的金融策略提供有效依据,相比目前常用的人工整理和调查分析更可靠、更高效的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例基于BiLSTM-CRF模型的金融用户画像信息提取方法的流程示意图;
图2为本申请实施例基于BiLSTM-CRF模型的金融用户画像信息提取系统的结构示意图;
图3为本申请实施例示例性电子设备的结构示意图。
附图标记说明:第一构建单元11,第一提取单元12,第二构建单元13,第一训练单元14,第一输入单元15,第一获得单元16,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305。
具体实施方式
本申请实施例通过提供基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统,优化了传统使用LSTM模型的客户画像方法,解决了LSTM模型无法得到约束条件下最优解的问题,大幅提高了现有客户画像方法的准确度,达到了为未来的金融策略提供有效依据,进而对金融用户画像的整理和调查分析更可靠、更高效的技术效果。
下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
金融用户画像能有效挖掘用户数据特征,为产品营销、个性化推荐提供有利依据。用户画像信息提取方法主要分为基于统计的方法和基于机器学习的方法。然而基于统计学的方法在定量数据样本上分析固然有效,但在定性数据样本上并不适用,基于机器学习的方法对用户社交信息提取并不充分。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例提供了基于BiLSTM-CRF模型的金融用户画像信息提取方法,其中,所述方法还包括:构建金融用户数据仓库;根据所述金融用户数据仓库,提取第一用户关键信息;根据所述第一用户关键信息,构建测试集;将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;根据所述第一用户关键词,获得第一用户画像信息。
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
如图1所示,本申请实施例提供了基于BiLSTM-CRF模型的金融用户画像信息提取方法,其中,所述方法还包括:
步骤S100:构建金融用户数据仓库;
具体而言,所述金融用户数据仓库主要有两大类组成,即银行内部数据和第三方平台的社交数据,其中银行内部数据通过内部授权获取,社交数据可由爬虫技术抓取或三方合作获取,最后清洗获取的数据,构建金融用户数据仓库。
步骤S200:根据所述金融用户数据仓库,提取第一用户关键信息;
具体而言,所述第一用户关键信息包括:在银行内部的包括用户姓名、身份证号、家庭住址等用户基本数据,可直接加入相应用户特征;另一方面,在其他情况下,可运用TextRank算法提取数据的关键信息。TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。和LDA、HMM等模型不同,TextRank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。
步骤S300:根据所述第一用户关键信息,构建测试集;
具体而言,已知提取到所述第一用户的关键信息,可根据所述第一用户的关键信息,构建测试集。所述测试集,用来检验最终选择最优的模型的性能好坏,通过构建测试集,可以对选择的模型进行检验。
步骤S400:将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;
具体而言,所述BiLSTM-CRF模型共有三层:分别为look-up层、双向LSTM层、CRF层。look-up层通过随机的嵌入矩阵将每个词的one-hot向量转换成低维稠密的向量;双向LSTM层通过前向和后向状态得到完整状态,最后固定隐藏向量的维度,该向量中的每个数值为相应词的分值;CRF层通过状态转移矩阵,结合旧标签和结果标签预测当前标签。通过将BiLSTM-CRF模型在所述测试集中进行不断训练,可以获得收敛状态的BiLSTM-CRF模型,所述收敛状态即当训练过程达到预定准确率时的BiLSTM-CRF模型。
步骤S500:将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;
具体而言,需要获得关键词信息,可将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,并运用BiLSTM-CRF模型从所述第一用户关键信息中提取第一用户关键词,所述第一用户关键词为所述第一用户的用户特征信息。
步骤S600:根据所述第一用户关键词,获得第一用户画像信息。
具体而言,用户画像,即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的全貌。则可根据所述第一用户的关键词,获得第一用户画像信息,通过提取用户画像信息,可寻找目标客户和客户的潜在需求,进而进行金融产品推销和设计。
所述构建金融用户数据仓库,步骤S100还包括:
步骤S110:获得第一银行内部数据信息;
步骤S120:获得第一平台社交数据信息;
步骤S130:对所述第一银行内部数据信息和所述第一平台社交数据信息进行数据清洗;
步骤S140:根据清洗后的所述第一银行内部数据信息和所述第一平台社交数据信息,构建金融用户数据仓库。
具体而言,需要构建金融用户数据仓库,可根据所述第一用户的银行内部数据以及平台社交数据获得,所述第一银行内部数据信息包括所述第一用户的基本信息和交易数据等,可通过内部授权来获取,所述第一平台社交数据信息可通过爬虫技术抓取或三方合作获取,所述爬虫技术,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。
进一步,对所述第一银行内部数据信息和所述第一平台社交数据信息进行数据清洗,所述数据清洗,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通过对数据进行清洗,使得数据准确无误,进而根据清洗后的所述第一银行内部数据信息和所述第一平台社交数据信息,构建金融用户数据仓库,达到了使得金融用户数据仓库的数据信息更加准确的技术效果。
所述获得第一银行内部数据信息,步骤S110还包括:
步骤S111:获得第一权限信息;
步骤S112:对所述第一权限信息进行验证;
步骤S113:如果所述第一权限信息通过验证,获得第一授权信息;
步骤S114:根据所述第一授权信息,获得所述第一银行内部数据信息。
具体而言,需要获得第一银行内部数据信息,可获得第一权限信息,所述第一权限信息为获得银行内部数据的权限,进而对所述第一权限信息进行验证,验证所述第一权限信息是否通过,如果所述第一权限信息通过验证,获得第一授权信息,所述第一授权信息为允许对银行内部数据信息进行访问并获取,并根据所述第一授权信息,获得所述第一银行内部数据信息,通过对所述第一权限信息进行验证,达到了确保对银行内部数据信息的获取更安全可靠的技术效果。
所述获得第一平台社交数据信息,步骤S120还包括:
步骤S121:判断是否具有第一合作信息,所述第一合作信息为与所述第一平台的合作关系;
步骤S122:如果具有所述第一合作信息,根据所述第一合作信息,获得所述第一平台社交数据信息;
步骤S123:如果不具有所述第一合作信息,根据爬虫技术获得所述第一平台社交数据信息。
具体而言,需要获得第一平台社交数据信息,可先判断所述第一平台与银行是否具有第一合作信息,所述第一合作信息为银行与所述第一平台的合作关系,如果所述第一平台与银行具有第一合作信息,可根据所述第一合作信息,获得所述第一平台社交数据信息,这是通过合作信息获得的社交数据信息;如果所述第一平台与银行不具有第一合作信息,即所述第一平台与银行不存在合作,还可根据爬虫技术获得所述第一平台社交数据信息,进一步可理解为借助爬虫技术,可自动地抓取万维网信息的程序或者脚本,自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索,这是通过爬虫技术获得的社交数据信息,通过分别借助合作信息和爬虫技术对社交数据信息进行获得,达到了使得第一平台社交数据信息的获得更加全面准确的技术效果。
所述根据所述金融用户数据仓库,提取第一用户关键信息,步骤S200还包括:
步骤S210:获得第一文本信息;
步骤S220:根据所述第一文本信息,获得图模型G=(V,E),其中,V为节点集合,E为有向边集合,节点集合V中包括节点Vi,节点Vi的权重迭代计算公式(1)为:
其中,W(Vi)表示文本i的权重,d为阻尼系数,In(Vi)、Out(Vi)分别表示指向节点Vi的节点集合、节点Vi指向的其它节点集合,wji表示节点Vi与Vj间的权重;
步骤S230:根据所述公式(1)迭代各节点的权重,直到所述公式(1)达到收敛状态;
步骤S240:对节点集合中节点的权重进行倒序排序,获得预定数量的单词,作为第一用户关键信息。
具体而言,所述第一文本信息为通过TextRank算法对数据进行提取获得的文本信息,可通过将文本分割成若干组成单元(单词、句子)并建立图模型G=(V,E),其中,V为节点集合,E为有向边集合,节点集合V中包括节点Vi,可通过公式(1):
对节点Vi进行权重迭代计算,其中,W(Vi)表示文本i的权重,d为阻尼系数,In(Vi)、Out(Vi)分别表示指向节点Vi的节点集合、节点Vi指向的其它节点集合,wji表示节点Vi与Vj间的权重。所述迭代计算,数值计算中一类典型方法,应用于方程求根,方程组求解,矩阵求特征值等方面。其基本思想是逐次逼近,先取一个粗糙的近似值,然后用同一个递推公式,反复校正此初值,直至达到预定精度要求为止。通过对节点Vi进行迭代计算,直到所述公式(1)达到收敛状态,即文本i的权重接近精准数值,并对节点集合中节点的权重进行倒序排序,即按照权重的大小对节点的权重进行倒序排列,获得预定数量的单词,作为第一用户关键信息,即权重较大的节点作为预定数量的单词,并作为第一用户关键信息,通过根据公式(1)对各节点进行迭代计算,达到了使得计算结果即文本i的权重更加准确,进而使得第一用户的关键信息更加精确的技术效果。
所述将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,步骤S500还包括:
步骤S510:所述第一用户关键信息作为输入信息输入所述BiLSTM-CRF模型的look-up层,获得第一输出信息;
步骤S520:将所述第一输出信息作为第一输入信息输入双向LSTM层,获得第二输出信息;
步骤S530:将所述第二输出信息作为第二输入信息输入CRF层,利用公式(2)计算获得输出信息,所述输出信息包括所述第一用户关键词。其中,所述公式(2)具体为:
其中,A是状态转移矩阵,Aij表示标签间的转移分数,pi为LSTM层的第二输出信息;
步骤S540:根据所述公式(2)计算文本x的标签为y的分值,最后在SCORE(x,y)取最大值时求取y的最优解,并将y作为文本x的最终标签。
具体而言,因BiLSTM-CRF模型共有三层分别为look-up层、双向LSTM层、CRF层,可先将所述第一用户关键信息作为输入信息输入所述BiLSTM-CRF模型的look-up层,look-up层可通过随机的嵌入矩阵将每个词的one-hot向量转换成低维稠密的向量,获得第一输出信息;进而将所述第一输出信息作为第一输入信息输入双向LSTM层,双向LSTM层通过前向和后向状态得到完整状态,最后固定隐藏向量的维度,该向量中的每个数值为相应词的分值,并获得第二输出信息;再将所述第二输出信息作为第二输入信息输入CRF层,CRF层通过状态转移矩阵,结合旧标签和结果标签预测当前标签,并利用公式(2)计算获得输出信息,所述输出信息包括所述第一用户关键词。其中,所述公式(2)具体为:
其中,A是状态转移矩阵,Aij表示标签间的转移分数,pi为LSTM层的第二输出信息,可根据所述公式(2)计算文本x的标签为y的分值,当SCORE(x,y)取最大值时,对y的最优解进行求值,并将y作为文本x的最终标签,所述最终标签即为所述第一用户的关键词信息,通过借助公式(2)对所述第一用户的关键词信息进行数值求解,达到了使得计算结果,即所述第一用户的关键词信息更加准确,进而使得金融用户画像的构建更加有效、可靠的技术效果。
综上所述,本申请实施例所提供的基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统具有如下技术效果:
1、通过充分利用银行内部用户基本数据和交易数据,以及移动互联网三方平台等的社交数据,综合构建金融用户画像,使用BiLSTM-CRF模型进行客户画像,优化了传统使用LSTM模型的客户画像方法,解决了LSTM模型无法得到约束条件下最优解的问题,大幅提高了现有客户画像方法的准确度,构建有效的金融用户画像,达到了为未来的金融策略提供有效依据,相比目前常用的人工整理和调查分析更可靠、更高效的技术效果。
2、通过根据公式(1)对各节点进行迭代计算,达到了使得计算结果即文本i的权重更加准确,进而使得第一用户的关键信息更加精确,通过借助公式(2)对所述第一用户的关键词信息进行数值求解,达到了使得计算结果,即所述第一用户的关键词信息更加准确,进而使得金融用户画像的构建更加有效、可靠的技术效果。
实施例二
基于与前述实施例中基于BiLSTM-CRF模型的金融用户画像信息提取方法同样发明构思,本发明还提供了基于BiLSTM-CRF模型的金融用户画像信息提取系统,如图2所示,所述系统包括:
第一构建单元11:所述第一构建单元11用于构建金融用户数据仓库;
第一提取单元12:所述第一提取单元12用于根据所述金融用户数据仓库,提取第一用户关键信息;
第二构建单元13:所述第二构建单元13用于根据所述第一用户关键信息,构建测试集;
第一训练单元14:所述第一训练单元14用于将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;
第一输入单元15:所述第一输入单元15用于将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;
第一获得单元16:所述第一获得单元16用于根据所述第一用户关键词,获得第一用户画像信息。
进一步的,所述系统还包括:
第二获得单元:所述第二获得单元用于获得第一银行内部数据信息;
第三获得单元:所述第三获得单元用于获得第一平台社交数据信息;
第一清洗单元:所述第一清洗单元用于对所述第一银行内部数据信息和所述第一平台社交数据信息进行数据清洗;
第三构建单元:所述第三构建单元用于根据清洗后的所述第一银行内部数据信息和所述第一平台社交数据信息,构建金融用户数据仓库。
进一步的,所述系统还包括:
第四获得单元:所述第四获得单元用于获得第一权限信息;
第一验证单元:所述第一验证单元用于对所述第一权限信息进行验证;
第五获得单元:所述第五获得单元用于如果所述第一权限信息通过验证,获得第一授权信息;
第六获得单元:所述第六获得单元用于根据所述第一授权信息,获得所述第一银行内部数据信息。
进一步的,所述系统还包括:
第一判断单元:所述第一判断单元用于判断是否具有第一合作信息,所述第一合作信息为与所述第一平台的合作关系;
第七获得单元:所述第七获得单元用于如果具有所述第一合作信息,根据所述第一合作信息,获得所述第一平台社交数据信息;
第八获得单元:所述第八获得单元用于如果不具有所述第一合作信息,根据爬虫技术获得所述第一平台社交数据信息。
进一步的,所述系统还包括:
第九获得单元:所述第九获得单元用于获得第一文本信息;
第十获得单元:所述第十获得单元用于根据所述第一文本信息,获得图模型G=(VtE);
第一迭代单元:所述第一迭代单元用于根据所述公式(1)迭代各节点的权重,直到所述公式(1)达到收敛状态;
第一排序单元:所述第一排序单元用于对节点集合中节点的权重进行倒序排序,获得预定数量的单词,作为第一用户关键信息。
进一步的,所述系统还包括:
第二输入单元:所述第二输入单元用于所述第一用户关键信息作为输入信息输入所述BiLSTM-CRF模型的look-up层,获得第一输出信息;
第三输入单元:所述第三输入单元用于将所述第一输出信息作为第一输入信息输入双向LSTM层,获得第二输出信息;
第四输入单元:所述第四输入单元用于将所述第二输出信息作为第二输入信息输入CRF层,利用公式(2)计算获得输出信息,所述输出信息包括所述第一用户关键词。
进一步的,所述系统还包括:
第一计算单元:所述第一计算单元用于根据所述公式(2)计算文本x的标签为y的分值,最后在SCORE(xty)取最大值时求取y的最优解,并将y作为文本x的最终标签。
前述图1实施例一中的基于BiLSTM-CRF模型的金融用户画像信息提取方法的各种变化方式和具体实例同样适用于本实施例的基于BiLSTM-CRF模型的金融用户画像信息提取系统,通过前述对基于BiLSTM-CRF模型的金融用户画像信息提取方法的详细描述,本领域技术人员可以清楚的知道本实施例中基于BiLSTM-CRF模型的金融用户画像信息提取系统的实施方法,所以为了说明书的简洁,再次不再详述。
实施例三
下面参考图3来描述本申请实施例的电子设备。
图3图示了根据本申请实施例的电子设备的结构示意图。
基于与前述实施例中基于BiLSTM-CRF模型的金融用户画像信息提取方法的发明构思,本发明还提供基于BiLSTM-CRF模型的金融用户画像信息提取系统,其上存储有计算机程序,该程序被处理器执行时实现前文所述基于BiLSTM-CRF模型的金融用户画像信息提取方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例提供了基于BiLSTM-CRF模型的金融用户画像信息提取方法,其中,所述方法还包括:构建金融用户数据仓库;根据所述金融用户数据仓库,提取第一用户关键信息;根据所述第一用户关键信息,构建测试集;将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;根据所述第一用户关键词,获得第一用户画像信息。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.基于BiLSTM-CRF模型的金融用户画像信息提取方法,其中,所述方法包括:
构建金融用户数据仓库;
根据所述金融用户数据仓库,提取第一用户关键信息;
根据所述第一用户关键信息,构建测试集;
将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;
将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;
根据所述第一用户关键词,获得第一用户画像信息;
所述根据所述金融用户数据仓库,提取第一用户关键信息,包括:
获得第一文本信息;
根据所述第一文本信息,获得图模型G=(V,E),其中,V为节点集合,E为有向边集合,节点集合V中包括节点Vi,节点Vi的权重迭代计算公式(1)为:
其中,W(Vi)表示文本i的权重,d为阻尼系数,In(Vi)、Out(Vi)分别表示指向节点Vi的节点集合、节点Vi指向的其它节点集合,wji表示节点Vi与Vj间的权重;
根据所述公式(1)迭代各节点的权重,直到所述公式(1)达到收敛状态;
对节点集合中节点的权重进行倒序排序,获得预定数量的单词,作为第一用户关键信息;
所述将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,包括:
所述第一用户关键信息作为输入信息输入所述BiLSTM-CRF模型的look-up层,获得第一输出信息;
将所述第一输出信息作为第一输入信息输入双向LSTM层,获得第二输出信息;
将所述第二输出信息作为第二输入信息输入CRF层,利用公式(2)计算获得输出信息,所述输出信息包括所述第一用户关键词;
所述公式(2)具体为:
其中,A是状态转移矩阵,Aij表示标签间的转移分数,pi为LSTM层的第二输出信息;
根据所述公式(2)计算文本x的标签为y的分值,最后在SCORE(x,y)取最大值时求取y的最优解,并将y作为文本x的最终标签。
2.如权利要求1所述的方法,其中,所述构建金融用户数据仓库,包括:
获得第一银行内部数据信息;
获得第一平台社交数据信息;
对所述第一银行内部数据信息和所述第一平台社交数据信息进行数据清洗;
根据清洗后的所述第一银行内部数据信息和所述第一平台社交数据信息,构建金融用户数据仓库。
3.如权利要求2所述的方法,其中,所述获得第一银行内部数据信息,包括:
获得第一权限信息;
对所述第一权限信息进行验证;
如果所述第一权限信息通过验证,获得第一授权信息;
根据所述第一授权信息,获得所述第一银行内部数据信息。
4.如权利要求2所述的方法,其中,所述获得第一平台社交数据信息,包括:
判断是否具有第一合作信息,所述第一合作信息为与所述第一平台的合作关系;
如果具有所述第一合作信息,根据所述第一合作信息,获得所述第一平台社交数据信息;
如果不具有所述第一合作信息,根据爬虫技术获得所述第一平台社交数据信息。
5.基于BiLSTM-CRF模型的金融用户画像信息提取系统,其中,所述系统包括:
第一构建单元:所述第一构建单元用于构建金融用户数据仓库;
第一提取单元:所述第一提取单元用于根据所述金融用户数据仓库,提取第一用户关键信息;
第二构建单元:所述第二构建单元用于根据所述第一用户关键信息,构建测试集;
第一训练单元:所述第一训练单元用于将BiLSTM-CRF模型在所述测试集中进行训练,获得收敛状态的BiLSTM-CRF模型;
第一输入单元:所述第一输入单元用于将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,所述输出信息包括第一用户关键词;
第一获得单元:所述第一获得单元用于根据所述第一用户关键词,获得第一用户画像信息;
所述根据所述金融用户数据仓库,提取第一用户关键信息,包括:
获得第一文本信息;
根据所述第一文本信息,获得图模型G=(V,E),其中,V为节点集合,E为有向边集合,节点集合V中包括节点Vi,节点Vi的权重迭代计算公式(1)为:
其中,W(Vi)表示文本i的权重,d为阻尼系数,In(Vi)、Out(Vi)
分别表示指向节点Vi的节点集合、节点Vi指向的其它节点集合,wji表示节点Vi与Vj间的权重;
根据所述公式(1)迭代各节点的权重,直到所述公式(1)达到收敛状态;
对节点集合中节点的权重进行倒序排序,获得预定数量的单词,作为第一用户关键信息;
所述将所述第一用户关键信息作为输入信息输入所述收敛状态的BiLSTM-CRF模型,获得输出信息,包括:
所述第一用户关键信息作为输入信息输入所述BiLSTM-CRF模型的look-up层,获得第一输出信息;
将所述第一输出信息作为第一输入信息输入双向LSTM层,获得第二输出信息;
将所述第二输出信息作为第二输入信息输入CRF层,利用公式(2)计算获得输出信息,所述输出信息包括所述第一用户关键词;
所述公式(2)具体为:
其中,A是状态转移矩阵,Aij表示标签间的转移分数,pi为LSTM层的第二输出信息;
根据所述公式(2)计算文本x的标签为y的分值,最后在SCORE(x,y)取最大值时求取y的最优解,并将y作为文本x的最终标签。
6.基于BiLSTM-CRF模型的金融用户画像信息提取系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现权利要求1-4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404351.0A CN112507189B (zh) | 2020-12-04 | 2020-12-04 | 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404351.0A CN112507189B (zh) | 2020-12-04 | 2020-12-04 | 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507189A CN112507189A (zh) | 2021-03-16 |
CN112507189B true CN112507189B (zh) | 2024-08-09 |
Family
ID=74968365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011404351.0A Active CN112507189B (zh) | 2020-12-04 | 2020-12-04 | 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507189B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435202A (zh) * | 2021-06-28 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于用户画像的产品推荐方法、装置、电子设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN111797210A (zh) * | 2020-03-03 | 2020-10-20 | 中国平安人寿保险股份有限公司 | 基于用户画像的信息推荐方法、装置、设备及存储介质 |
-
2020
- 2020-12-04 CN CN202011404351.0A patent/CN112507189B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112507189A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241241B (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
CN111339427B (zh) | 一种图书信息推荐方法、装置、系统及存储介质 | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
CN100583804C (zh) | 基于专家值传播算法的社会网络专家信息处理系统及方法 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN110555148B (zh) | 一种用户行为评估方法、计算设备及存储介质 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN111339249B (zh) | 一种联合多角度特征的深度智能文本匹配方法和装置 | |
CN110532480B (zh) | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 | |
CN112507230B (zh) | 基于浏览器的网页推荐方法、装置、电子设备及存储介质 | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
CN117574915A (zh) | 基于多方数据源的公共数据平台及其数据分析方法 | |
CN116362684A (zh) | 一种基于图书馆集群的图书管理方法、装置、设备及存储介质 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN112507189B (zh) | 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统 | |
US20120059786A1 (en) | Method and an apparatus for matching data network resources | |
CN116361446A (zh) | 一种文本摘要的生成方法、装置和电子设备 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN116680481A (zh) | 搜索排序方法、装置、设备、存储介质及计算机程序产品 | |
CN111753151A (zh) | 一种基于互联网用户行为的服务推荐方法 | |
CN108920492B (zh) | 一种网页分类方法、系统、终端及存储介质 | |
CN103377381A (zh) | 识别图像的内容属性的方法和装置 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |