CN114462414A - 基于嵌套命名实体识别技术的个人信用评估方法及系统 - Google Patents
基于嵌套命名实体识别技术的个人信用评估方法及系统 Download PDFInfo
- Publication number
- CN114462414A CN114462414A CN202210371908.8A CN202210371908A CN114462414A CN 114462414 A CN114462414 A CN 114462414A CN 202210371908 A CN202210371908 A CN 202210371908A CN 114462414 A CN114462414 A CN 114462414A
- Authority
- CN
- China
- Prior art keywords
- named entity
- entity
- text data
- social media
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 41
- 238000011156 evaluation Methods 0.000 title claims description 32
- 239000002131 composite material Substances 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000004140 cleaning Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000014509 gene expression Effects 0.000 claims abstract description 3
- 238000004590 computer program Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 150000001875 compounds Chemical class 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000000153 supplemental effect Effects 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000013475 authorization Methods 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 235000011888 snacks Nutrition 0.000 claims description 2
- 238000011835 investigation Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 241000272525 Anas platyrhynchos Species 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 206010037742 Rabies Diseases 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 208000035472 Zoonoses Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008140 language development Effects 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 206010048282 zoonosis Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的基于嵌套命名实体识别技术的个人信用评估方法及系统,属于个人信用评估技术领域,包括:清洗用户社交媒体文本数据,并对清洗后的数据进行嵌套命名实体识别,得到复合命名实体和简单命名实体;统计复合命名实体和简单命名实体的特征,并按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行建模,获取单条特征的信用贡献;根据信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。本发明最大限度利用用户社交媒体发布的文本数据,方便人工介入排查,不需要人工构建关键词库或规则库,降低了实现成本,利用更多信息,获得更高的效率。
Description
技术领域
本发明涉及个人信用评估技术领域,特别涉及一种基于嵌套命名实体识别技术的个人信用评估方法及系统。
背景技术
传统的个人信用评分仅利用少量的数据,通过人工手段建立规则及审核,或者利用结构化数据建模,而对社交媒体文本数据的利用较少。随着互联网技术的发展,个人在互联网上的活动痕迹越发频繁,存在大量未被利用的社交媒体文本数据。社交媒体文本数据内涵丰富,不仅包含个人的生活细节、兴趣爱好、时事态度、语言习惯,而且还隐含了用户的受教育程度、消费状态、道德水平。针对海量社交媒体文本数据的信用建模,目前大多采用基于文本的向量化技术,建立文本评分模型,或者使用关键词提取技术,提取重要词汇进入规则审核。在利用社交媒体文本数据的技术方案中,基于黑盒模型建模的方案居多,信息抽取类的方案较少。基于黑盒模型的方案,通常是将词汇转化为词向量,利用历史数据训练模型,预测个人的信用分和逾期概率。基于信息抽取的方案,指的是以关键词提取、实体识别、句法分析为主,抽取模型中的关键词汇、关键实体或者关键结构,建立数据库或者词库进行匹配,根据匹配内容生成后续决策或者打分的方案,例如中国专利CN 109558592A和CN111753545A。由于文本数据,尤其是个人在社交媒体中产生的文本数据,具有紧跟时事、聚焦热点、语言灵活、语义变化等特点,因此个人社交媒体文本训练的模型往往不够稳定,具有离线表现尚可、线上在新话题下表现不佳、需要快速迭代等问题,如何对社交媒体文本数据建立具备可解释性的模型,依然是一项有挑战性的工作。
上述现有技术直接应用于个人信用评估,存在如下缺点:1、传统人工评估模式仅考虑少量的结构化数据,无法充分地利用互联网中的海量社交媒体文本信息,存在信用评估不全面的问题;2、在常见的社交媒体文本信息利用中,基于黑盒模型的方式直接对用户的表现进行建模,得出用户信用评分,但无法得知评分的依据,导致该方案的可解释性不强,不利于策略调整时的人工干预;3、基于信息抽取的个人信用评估模型,可解释性强,但需要创建及维护关键词库及规则库,而由于社交媒体文本具有多元、创新、自由、受时事热点驱动等特性,因此需要耗费大量的人工进行词库和规则的创建及维护,维护成本很高。
发明内容
为了解决传统个人信用评估对个人社交信息利用不充分、不易于人工调整及维护成本高等问题,本发明提供了一种基于嵌套命名实体识别技术的个人信用评估方法,包括:
清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
本发明还提供了一种基于嵌套命名实体识别技术的个人信用评估系统,包括:
清洗模块,用于清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计归一化模块,用于统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
建模获取模块,用于根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
评估模块,用于根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现以下步骤:
清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
本发明提供的基于嵌套命名实体识别技术的个人信用评估方法及系统,通过嵌套命名实体识别技术,最大限度地利用用户社交媒体发布的文本数据,使得具备一定的可解释性,方便必要时人工介入排查问题。同时,本发明提供的基于嵌套命名实体识别技术的个人信用评估方法及系统,不需要人工构建关键词库或规则库,解决了海量词库/规则库的创建与维护问题,降低了实现成本,利用更多信息,获得更高的效率。
附图说明
图1是本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法的流程图;
图2是本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法的原理示意图;
图3是本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估系统的结构示意图;
图4是本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面结合附图和实施例,对本发明技术方案作进一步描述。
本发明实例提供的基于嵌套命名实体识别技术的个人信用评估方法,通过嵌套命名实体识别技术充分地获取社交媒体文本数据中的实体,根据获取的实体及嵌套命名实体的组成结构,利用历史数据完成机器学习建模。使用时,先利用训练好的嵌套命名实体识别模型,获取社交媒体文本数据中的实体及实体嵌套结构,然后将实体及实体嵌套结构输入训练好的机器学习模型完成个人信用预测。本发明实施例采用的嵌套命名实体识别技术,是指识别文本中具有特定意义实体的技术,例如识别姓名、地点、组织机构、职业、商品等,是自然语言理解任务中的基础任务。由于自然语言的灵活性与复杂性,命名实体往往存在嵌套现象,即结构复杂的嵌套命名实体包含一个或多个基本命名实体。嵌套命名实体识别技术可以识别文本中的嵌套命名实体及嵌套命名实体中的基本命名实体。通常,嵌套命名实体识别技术被转化为一个序列标注任务,对文本中的每一个字给定一个标签,该标签通常为非实体、某项具体实体的起始位置或内部位置。与传统命名实体识别技术不同,嵌套命名实体识别技术面临同一个字有多个标注的问题,如北京大学的北,既是地名实体的起始位置,又是组织机构实体的起始位置。为了识别多个标签,嵌套命名实体识别技术通常采用分层序列标注、标签组合、逐个状态转换或阅读理解的方案。
参见图1和图2,本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法,包括如下步骤:
S101、清洗获取的用户社交媒体文本数据。
用户社交媒体文本数据是指用户在社交媒体上发布的文本数据,包括用户主动分享的观点见解、用户对他人生产内容的评价。在取得用户授权后,获取用户社交媒体文本数据并对其进行清洗。清洗用户社交媒体文本数据包括:去除社交媒体文本数据中的表情符号,拆分社交媒体文本数据中的链接文本,纠正社交媒体文本数据中的错误文本,判定社交媒体文本数据中的句子、字词和词性,利用字转向量技术将社交媒体文本数据中的字生成字向量。
S102、利用二部平面图网络,对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体。
二部平面图网络(bipartite flat-graph network),包含针对最外层实体的非嵌套模块和针对位于内层的全部实体的嵌套模块。非嵌套模块用于识别社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体。命名实体可为复合命名实体或简单命名实体。所谓具有最大覆盖范围的命名实体指的是未被包含在其它实体中的命名实体,例如:待分析的文本数据“买了全聚德北京烤鸭”,在该文本数据中“全聚德北京烤鸭”是具有最大覆盖范围的命名实体,而虽然“北京烤鸭”是命名实体,但其不具有最大覆盖范围,因此其不是具有最大覆盖范围的命名实体。复合命名实体或简单命名实体至少包括公司名称、旅游景点、美食小吃、职业或疾病等。利用预先标注的数据训练非嵌套模块,使之较容易地识别出具有最大覆盖范围的命名实体。在实际应用中,识别出具有最大覆盖范围的命名实体采用的是双向长短期记忆网络(Bi-LSTM)与条件随机场(CRF)组合的模式,通过如下步骤获得:将标注标签的训练数据和步骤S101生成的字向量,输入双向长短期记忆网络,获得上下文有关的、基于字的命名实体标签向量,再利用条件随机场增添约束,最终获得具有最大覆盖范围的命名实体。
在具有最大覆盖范围的命名实体内部构造实体图G1(未示出)和对整句文本构造邻接图G2(未示出)。在实体图G1中,将字作为节点、将具有最大覆盖范围的命名实体内部的任意两个字连接,作为边。在邻接图G2中,将字作为节点、相邻的字从左到右添加为边。考虑节点在实体图G1和邻接图G2上的传入和传出特征,根据实体图G1和邻接图G2的传入节点及传出节点的属性,构建实体图G1和邻接图G2的当前节点i的特征fi。将实体图G1和邻接图G2的当前节点特征fi整合为fi_12,并根据整合后的具有最大覆盖范围的命名实体内部节点i、j的特征,建立函数M_i,j = F(fi_12,fj_12),M_i,j称为跨度类型概率。跨度类型概率表示为以字符i起始、字符j结束的文字片段构成各类命名实体(或者不构成命名实体)的概率。选择概率最大的类型作为文字片段的可能类型,并将该文字片段可能类型的概率与预设概率阈值进行比较,根据比较结果确定具有最大覆盖范围的命名实体是复合命名实体或简单命名实体;如果具有最大覆盖范围的命名实体是复合命名实体,那么还需要再根据该文字片段可能类型的概率及概率比较结果,确定该文字片段是否为简单命名实体及其类型。例如,假设预设概率阈值为0.5,如果该文字片段可能类型的概率大于0.5,则该文字片段为简单命名实体。
需要说明的是:简单命名实体是无法拆分的实体,例如职业-医生、地名-无锡;复合命名实体内部包含简单命名实体,但其本身作为命名实体出现,例如无锡排骨是美食实体(属于复合命名实体),但其本身包含无锡地名实体(属于简单命名实体);在自然语言中,简单命名实体可以单独存在,复合命名实体内必包含简单命名实体。对于本步骤而言,如果二部平面图网络识别出了具有最大覆盖范围的命名实体是复合命名实体,那么还需要进一步识别出复合命名实体中的简单命名实体。
S103、统计用户提及的复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征。
复合命名实体和简单命名实体的特征包括实体内容、嵌套模式、实体类型、上位词和补充属性。其中,实体内容指的是复合命名实体和简单命名实体的具体内容,例如在机构类命名实体中,某用户被发现提及北京大学,则北京大学为机构类命名实体的具体内容;嵌套模式为复合命名实体和简单命名实体的组成模式,例如北京大学为机构类命名实体,它是由地名类命名实体“北京”与名词组成,则地名后接名词为北京大学的嵌套模式;实体类型指的是用户提及的实体类型为机构类实体或地点类实体;上位词指的是概念上外延更广的词汇,例如北京大学的上位词为大学。补充属性为根据数据库内容对复合命名实体和简单命名实体的补充内容,例如北京大学的补充属性为国内排名top2。需要指出的是:上位词和补充属性为可选特征。例如,选择疾病知识图谱为补充属性,如对识别的疾病“狂犬病”属于“急性传染病”、“人畜共患病”等。
在实际应用中,由于社交媒体文本数据随话题的变化较大,因此需要对统计结果按照时间先后顺序进行归一化处理,具体方法包括:将当月全量用户的所有实体及实体嵌套方式的出现频率作为分母;将当月单个用户的实体及实体嵌套方式的出现频率作为分子;计算分子与分母的比值。在实际应用中,为了方便后续的计算,通常将该比值乘以预设的放大系数。
S104、根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献。
在实际应用中,建模方法可选常规的机器学习方案,例如朴素贝叶斯、基于局部可理解的与模型无关的解释技术(Local Interpretable Model-Agnostic Explanation,LIME)的有监督系列模型、基于特征近似夏普利(Shapley)值的决策树系列模型等。例如,选用朴素贝叶斯建模,该模型提前计算不同特征的先验概率及条件概率,概率分布均来自历史训练数据,当实施人工策略干预时,可以通过调整确定的统计值进行,当人工策略干预结束时,采用模型结果即可。
S105、根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
当新用户触发信用评估时,新用户完成步骤S101所示的社交媒体文本数据的采集及清洗,完成步骤S102所示的实体识别,完成步骤S103所示的统计及归一化处理。利用步骤S104训练的有监督机器学习模型,对用户个人信用进行评分,并生成各项特征的贡献值,即用户的命名实体和实体嵌套方式对最终信用评估结果的贡献。
与现有黑盒模型的技术方案相比,本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法,具有命名实体的中间层,具备一定的可解释性,方便必要时人工介入排查问题。同时,由于命名实体的含义相对其它词汇更加稳定,因此在一定程度上解决了语言发展后语义变化的问题。与现有基于信息抽取的技术方案相比,本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法,不需要人工构建关键词库或规则库,解决了海量词库/规则库的创建与维护问题,而是利用已有的历史信用标签数据,学习信用评分的重要规则与实体权重,降低了实现成本,利用更多信息,获得更高的效率。
本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法,通过嵌套命名实体识别技术,最大限度地利用用户社交媒体发布的文本数据,进行个人信用评估。本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法,分析了传统信用评估方案中难以利用的社交媒体文本数据,补充了信用评估的考量维度,对个人社交媒体文本数据利用更加充分;同时,在不需要人工创建和维护大量词库和规则库构建的前提下,本发明实施例提供了一种具备可解释性又易于人工调整的个人信用评估方案。
参见图3,本发明实施例还提供了一种基于嵌套命名实体识别技术的个人信用评估系统,包括:
清洗模块31,用于清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计归一化模块32,用于统计复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
建模获取模块33,用于根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
评估模块34,用于根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
其中,清洗模块31进一步包括:
获取单元,用于在取得用户授权后,获取用户社交媒体文本数据;
清洗单元,用于去除社交媒体文本数据中的表情符号,拆分社交媒体文本数据中的链接文本,纠正社交媒体文本数据中的错误文本,判定社交媒体文本数据中的句子、字词和词性,利用字转向量技术将社交媒体文本数据中的字生成字向量;
识别单元,用于利用二部平面图网络,识别出社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体;
构建单元,用于在具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图,并根据实体图和邻接图的传入节点及传出节点的属性,构建实体图和邻接图的当前节点的特征;
整合建立单元,用于整合实体图和邻接图的当前节点的特征,并根据整合后的具有最大覆盖范围的命名实体内部当前节点的特征,建立文字片段构成各类命名实体的概率函数;
推断确定单元,用于将概率最大的类型作为文字片段的可能类型,并推断出具有最大覆盖范围的命名实体是复合命名实体或简单命名实体;如果具有最大覆盖范围的命名实体是复合命名实体,那么还需要再根据文字片段可能类型的概率及概率比较结果,确定文字片段是否为简单命名实体及其类型。
基于上述如图1和图2所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;统计复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
基于上述如图1、2所示方法和如图3所示系统的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图4所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上,所述处理器41执行所述程序时实现以下步骤:清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;统计复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
在实际应用中,本发明实施例中所涉及的各个功能模块及单元,均可以由运行在计算机硬件上的计算机程序实现,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的硬件指的是包含一个或者多个处理器和存储介质的服务器或者台式计算机、笔记本电脑等;所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等;所述计算机程序由不限于C、C++等计算机语言实现。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,包括:
清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
2.根据权利要求1所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述清洗获取的用户社交媒体文本数据的步骤具体包括:
在取得用户授权后,获取用户社交媒体文本数据;
去除所述社交媒体文本数据中的表情符号,拆分所述社交媒体文本数据中的链接文本,纠正所述社交媒体文本数据中的错误文本,判定所述社交媒体文本数据中的句子、字词和词性,利用字转向量技术将所述社交媒体文本数据中的字生成字向量。
3.根据权利要求2所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体的步骤具体包括:
利用二部平面图网络,识别出所述社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体;
在所述具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图,并根据所述实体图和邻接图的传入节点及传出节点的属性,构建所述实体图和邻接图的当前节点的特征;
整合所述实体图和邻接图的当前节点的特征,并根据整合后的所述具有最大覆盖范围的命名实体内部当前节点的特征,建立文字片段构成各类命名实体的概率函数;
将概率最大的类型作为所述文字片段的可能类型,并推断出所述具有最大覆盖范围的命名实体是复合命名实体或简单命名实体;如果所述具有最大覆盖范围的命名实体是复合命名实体,那么还需要再根据所述文字片段可能类型的概率及概率比较结果,确定所述文字片段是否为简单命名实体及其类型。
4.根据权利要求3所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述复合命名实体或简单命名实体至少包括公司名称、旅游景点、美食小吃、职业或疾病。
5.根据权利要求3所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述识别出具有最大覆盖范围的命名实体采用的是双向长短期记忆网络与条件随机场组合的模式,通过如下步骤获得:将标注标签的训练数据和所述字向量,输入所述双向长短期记忆网络,获得上下文有关的、基于字的命名实体标签向量,再利用所述条件随机场增添约束,获得具有最大覆盖范围的命名实体。
6.根据权利要求5所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述复合命名实体和简单命名实体的特征包括实体内容、嵌套模式和实体类型;其中,所述实体内容指的是所述复合命名实体和简单命名实体的具体内容;所述嵌套模式为所述复合命名实体和简单命名实体的组成模式;所述实体类型为机构类实体或地点类实体。
7.根据权利要求6所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述复合命名实体和简单命名实体的特征还包括上位词和补充属性;其中,所述上位词指的是概念上外延更广的词汇;所述补充属性为根据数据库内容对所述复合命名实体和简单命名实体的补充内容。
8.根据权利要求7所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述进行归一化处理的步骤具体包括:将当月全量用户的所有实体及实体嵌套方式的出现频率作为分母;将当月单个用户的实体及实体嵌套方式的出现频率作为分子;计算所述分子与分母的比值。
9.根据权利要求8所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述建模方法为机器学习方案,包括朴素贝叶斯、基于局部可理解的与模型无关的解释技术的有监督系列模型、基于特征近似夏普利值的决策树系列模型。
10.一种基于嵌套命名实体识别技术的个人信用评估系统,其特征在于,包括:
清洗模块,用于清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计归一化模块,用于统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
建模获取模块,用于根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
评估模块,用于根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
11.根据权利要求10所述的基于嵌套命名实体识别技术的个人信用评估系统,其特征在于,所述清洗模块包括:
获取单元,用于在取得用户授权后,获取用户社交媒体文本数据;
清洗单元,用于去除所述社交媒体文本数据中的表情符号,拆分所述社交媒体文本数据中的链接文本,纠正所述社交媒体文本数据中的错误文本,判定所述社交媒体文本数据中的句子、字词和词性,利用字转向量技术将所述社交媒体文本数据中的字生成字向量;
识别单元,用于利用二部平面图网络,识别出所述社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体;
构建单元,用于在所述具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图,并根据所述实体图和邻接图的传入节点及传出节点的属性,构建所述实体图和邻接图的当前节点的特征;
整合建立单元,用于整合所述实体图和邻接图的当前节点的特征,并根据整合后的所述具有最大覆盖范围的命名实体内部当前节点的特征,建立文字片段构成各类命名实体的概率函数;
推断确定单元,用于将概率最大的类型作为所述文字片段的可能类型,并推断出所述具有最大覆盖范围的命名实体是复合命名实体或简单命名实体;如果所述具有最大覆盖范围的命名实体是复合命名实体,那么还需要再根据所述文字片段可能类型的概率及概率比较结果,确定所述文字片段是否为简单命名实体及其类型。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371908.8A CN114462414A (zh) | 2022-04-11 | 2022-04-11 | 基于嵌套命名实体识别技术的个人信用评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371908.8A CN114462414A (zh) | 2022-04-11 | 2022-04-11 | 基于嵌套命名实体识别技术的个人信用评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462414A true CN114462414A (zh) | 2022-05-10 |
Family
ID=81417781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210371908.8A Pending CN114462414A (zh) | 2022-04-11 | 2022-04-11 | 基于嵌套命名实体识别技术的个人信用评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462414A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558592A (zh) * | 2018-11-29 | 2019-04-02 | 上海点融信息科技有限责任公司 | 基于人工智能获取客户信用风险评估信息的方法及设备 |
CN110413901A (zh) * | 2019-08-02 | 2019-11-05 | 深圳索信达数据技术有限公司 | 一种基于社交网络分析的信用风险评估方法 |
CN110472237A (zh) * | 2019-07-25 | 2019-11-19 | 中国科学院软件研究所 | 一种基于锚点区域网络的命名实体识别方法和装置 |
CN112348662A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于用户职业预测的风险评估方法、装置和电子设备 |
CN113688631A (zh) * | 2021-07-05 | 2021-11-23 | 广州大学 | 一种嵌套命名实体识别方法、系统、计算机和存储介质 |
-
2022
- 2022-04-11 CN CN202210371908.8A patent/CN114462414A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558592A (zh) * | 2018-11-29 | 2019-04-02 | 上海点融信息科技有限责任公司 | 基于人工智能获取客户信用风险评估信息的方法及设备 |
CN110472237A (zh) * | 2019-07-25 | 2019-11-19 | 中国科学院软件研究所 | 一种基于锚点区域网络的命名实体识别方法和装置 |
CN110413901A (zh) * | 2019-08-02 | 2019-11-05 | 深圳索信达数据技术有限公司 | 一种基于社交网络分析的信用风险评估方法 |
CN112348662A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于用户职业预测的风险评估方法、装置和电子设备 |
CN113688631A (zh) * | 2021-07-05 | 2021-11-23 | 广州大学 | 一种嵌套命名实体识别方法、系统、计算机和存储介质 |
Non-Patent Citations (1)
Title |
---|
西洋樱草X: "论文笔记 Bipartite Flat-graph network for nested named entity recognition|ACL2020", 《BLOG.CSDN.NET/WEIXIN_41297561/ARTICLE/DETAILS/108540507》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN108415953A (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
Pathak et al. | Application of deep learning approaches for sentiment analysis | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
Burdisso et al. | τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams | |
CN109992653A (zh) | 信息处理方法和处理系统 | |
Zulqarnain et al. | An efficient two-state GRU based on feature attention mechanism for sentiment analysis | |
Marcolin et al. | Listening to the voice of the guest: A framework to improve decision-making processes with text data | |
Khodabakhsh et al. | Predicting future personal life events on twitter via recurrent neural networks | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
Lu et al. | Graph‐Based Collaborative Filtering with MLP | |
CN115062139B (zh) | 一种对话文本摘要模型自动搜索方法 | |
Kanakaris et al. | Making personnel selection smarter through word embeddings: A graph-based approach | |
Sasikala et al. | Transfer learning based recurrent neural network algorithm for linguistic analysis | |
van Loon | Three families of automated text analysis | |
Ouamane et al. | Deep reinforcement learning applied to NLP: a brief survey | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
Olsen | Social Statistics Using Strategic Structuralism | |
Kamel et al. | Robust sentiment fusion on distribution of news | |
Ali et al. | Identifying and Profiling User Interest over time using Social Data | |
CN114398905A (zh) | 一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220510 |