CN114462414A

CN114462414A - 基于嵌套命名实体识别技术的个人信用评估方法及系统

Info

Publication number: CN114462414A
Application number: CN202210371908.8A
Authority: CN
Inventors: 龙泉; 林悦贤; 姜辉; 武广柱
Original assignee: Beijing Weijuzhihui Technology Co ltd; Beijing Weiju Future Technology Co ltd
Current assignee: Beijing Weijuzhihui Technology Co ltd; Beijing Weiju Future Technology Co ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-05-10

Abstract

本发明公开的基于嵌套命名实体识别技术的个人信用评估方法及系统，属于个人信用评估技术领域，包括：清洗用户社交媒体文本数据，并对清洗后的数据进行嵌套命名实体识别，得到复合命名实体和简单命名实体；统计复合命名实体和简单命名实体的特征，并按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征；根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行建模，获取单条特征的信用贡献；根据信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。本发明最大限度利用用户社交媒体发布的文本数据，方便人工介入排查，不需要人工构建关键词库或规则库，降低了实现成本，利用更多信息，获得更高的效率。

Description

基于嵌套命名实体识别技术的个人信用评估方法及系统

技术领域

本发明涉及个人信用评估技术领域，特别涉及一种基于嵌套命名实体识别技术的个人信用评估方法及系统。

背景技术

传统的个人信用评分仅利用少量的数据，通过人工手段建立规则及审核，或者利用结构化数据建模，而对社交媒体文本数据的利用较少。随着互联网技术的发展，个人在互联网上的活动痕迹越发频繁，存在大量未被利用的社交媒体文本数据。社交媒体文本数据内涵丰富，不仅包含个人的生活细节、兴趣爱好、时事态度、语言习惯，而且还隐含了用户的受教育程度、消费状态、道德水平。针对海量社交媒体文本数据的信用建模，目前大多采用基于文本的向量化技术，建立文本评分模型，或者使用关键词提取技术，提取重要词汇进入规则审核。在利用社交媒体文本数据的技术方案中，基于黑盒模型建模的方案居多，信息抽取类的方案较少。基于黑盒模型的方案，通常是将词汇转化为词向量，利用历史数据训练模型，预测个人的信用分和逾期概率。基于信息抽取的方案，指的是以关键词提取、实体识别、句法分析为主，抽取模型中的关键词汇、关键实体或者关键结构，建立数据库或者词库进行匹配，根据匹配内容生成后续决策或者打分的方案，例如中国专利CN 109558592A和CN111753545A。由于文本数据，尤其是个人在社交媒体中产生的文本数据，具有紧跟时事、聚焦热点、语言灵活、语义变化等特点，因此个人社交媒体文本训练的模型往往不够稳定，具有离线表现尚可、线上在新话题下表现不佳、需要快速迭代等问题，如何对社交媒体文本数据建立具备可解释性的模型，依然是一项有挑战性的工作。

上述现有技术直接应用于个人信用评估，存在如下缺点：1、传统人工评估模式仅考虑少量的结构化数据，无法充分地利用互联网中的海量社交媒体文本信息，存在信用评估不全面的问题；2、在常见的社交媒体文本信息利用中，基于黑盒模型的方式直接对用户的表现进行建模，得出用户信用评分，但无法得知评分的依据，导致该方案的可解释性不强，不利于策略调整时的人工干预；3、基于信息抽取的个人信用评估模型，可解释性强，但需要创建及维护关键词库及规则库，而由于社交媒体文本具有多元、创新、自由、受时事热点驱动等特性，因此需要耗费大量的人工进行词库和规则的创建及维护，维护成本很高。

发明内容

为了解决传统个人信用评估对个人社交信息利用不充分、不易于人工调整及维护成本高等问题，本发明提供了一种基于嵌套命名实体识别技术的个人信用评估方法，包括：

清洗获取的用户社交媒体文本数据，并对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体；

统计所述复合命名实体和简单命名实体的特征，并对统计结果按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征；

根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行有监督的建模，获取单条特征的信用贡献；

根据各条特征的信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。

本发明还提供了一种基于嵌套命名实体识别技术的个人信用评估系统，包括：

清洗模块，用于清洗获取的用户社交媒体文本数据，并对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体；

统计归一化模块，用于统计所述复合命名实体和简单命名实体的特征，并对统计结果按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征；

建模获取模块，用于根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行有监督的建模，获取单条特征的信用贡献；

评估模块，用于根据各条特征的信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明提供的基于嵌套命名实体识别技术的个人信用评估方法及系统，通过嵌套命名实体识别技术，最大限度地利用用户社交媒体发布的文本数据，使得具备一定的可解释性，方便必要时人工介入排查问题。同时，本发明提供的基于嵌套命名实体识别技术的个人信用评估方法及系统，不需要人工构建关键词库或规则库，解决了海量词库/规则库的创建与维护问题，降低了实现成本，利用更多信息，获得更高的效率。

附图说明

图1是本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法的流程图；

图2是本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法的原理示意图；

图3是本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估系统的结构示意图；

图4是本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下面结合附图和实施例，对本发明技术方案作进一步描述。

本发明实例提供的基于嵌套命名实体识别技术的个人信用评估方法，通过嵌套命名实体识别技术充分地获取社交媒体文本数据中的实体，根据获取的实体及嵌套命名实体的组成结构，利用历史数据完成机器学习建模。使用时，先利用训练好的嵌套命名实体识别模型，获取社交媒体文本数据中的实体及实体嵌套结构，然后将实体及实体嵌套结构输入训练好的机器学习模型完成个人信用预测。本发明实施例采用的嵌套命名实体识别技术，是指识别文本中具有特定意义实体的技术，例如识别姓名、地点、组织机构、职业、商品等，是自然语言理解任务中的基础任务。由于自然语言的灵活性与复杂性，命名实体往往存在嵌套现象，即结构复杂的嵌套命名实体包含一个或多个基本命名实体。嵌套命名实体识别技术可以识别文本中的嵌套命名实体及嵌套命名实体中的基本命名实体。通常，嵌套命名实体识别技术被转化为一个序列标注任务，对文本中的每一个字给定一个标签，该标签通常为非实体、某项具体实体的起始位置或内部位置。与传统命名实体识别技术不同，嵌套命名实体识别技术面临同一个字有多个标注的问题，如北京大学的北，既是地名实体的起始位置，又是组织机构实体的起始位置。为了识别多个标签，嵌套命名实体识别技术通常采用分层序列标注、标签组合、逐个状态转换或阅读理解的方案。

参见图1和图2，本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法，包括如下步骤：

S101、清洗获取的用户社交媒体文本数据。

用户社交媒体文本数据是指用户在社交媒体上发布的文本数据，包括用户主动分享的观点见解、用户对他人生产内容的评价。在取得用户授权后，获取用户社交媒体文本数据并对其进行清洗。清洗用户社交媒体文本数据包括：去除社交媒体文本数据中的表情符号，拆分社交媒体文本数据中的链接文本，纠正社交媒体文本数据中的错误文本，判定社交媒体文本数据中的句子、字词和词性，利用字转向量技术将社交媒体文本数据中的字生成字向量。

S102、利用二部平面图网络，对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体。

二部平面图网络(bipartite flat-graph network)，包含针对最外层实体的非嵌套模块和针对位于内层的全部实体的嵌套模块。非嵌套模块用于识别社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体。命名实体可为复合命名实体或简单命名实体。所谓具有最大覆盖范围的命名实体指的是未被包含在其它实体中的命名实体，例如：待分析的文本数据“买了全聚德北京烤鸭”，在该文本数据中“全聚德北京烤鸭”是具有最大覆盖范围的命名实体，而虽然“北京烤鸭”是命名实体，但其不具有最大覆盖范围，因此其不是具有最大覆盖范围的命名实体。复合命名实体或简单命名实体至少包括公司名称、旅游景点、美食小吃、职业或疾病等。利用预先标注的数据训练非嵌套模块，使之较容易地识别出具有最大覆盖范围的命名实体。在实际应用中，识别出具有最大覆盖范围的命名实体采用的是双向长短期记忆网络(Bi-LSTM)与条件随机场(CRF)组合的模式，通过如下步骤获得：将标注标签的训练数据和步骤S101生成的字向量，输入双向长短期记忆网络，获得上下文有关的、基于字的命名实体标签向量，再利用条件随机场增添约束，最终获得具有最大覆盖范围的命名实体。

在具有最大覆盖范围的命名实体内部构造实体图G1（未示出）和对整句文本构造邻接图G2（未示出）。在实体图G1中，将字作为节点、将具有最大覆盖范围的命名实体内部的任意两个字连接，作为边。在邻接图G2中，将字作为节点、相邻的字从左到右添加为边。考虑节点在实体图G1和邻接图G2上的传入和传出特征，根据实体图G1和邻接图G2的传入节点及传出节点的属性，构建实体图G1和邻接图G2的当前节点i的特征f_i。将实体图G1和邻接图G2的当前节点特征f_i整合为f_i_12，并根据整合后的具有最大覆盖范围的命名实体内部节点i、j的特征，建立函数M_{_i,j} = F(f_i_12,f_j_12)，M__i,j称为跨度类型概率。跨度类型概率表示为以字符i起始、字符j结束的文字片段构成各类命名实体（或者不构成命名实体）的概率。选择概率最大的类型作为文字片段的可能类型，并将该文字片段可能类型的概率与预设概率阈值进行比较，根据比较结果确定具有最大覆盖范围的命名实体是复合命名实体或简单命名实体；如果具有最大覆盖范围的命名实体是复合命名实体，那么还需要再根据该文字片段可能类型的概率及概率比较结果，确定该文字片段是否为简单命名实体及其类型。例如，假设预设概率阈值为0.5，如果该文字片段可能类型的概率大于0.5，则该文字片段为简单命名实体。

需要说明的是：简单命名实体是无法拆分的实体，例如职业-医生、地名-无锡；复合命名实体内部包含简单命名实体，但其本身作为命名实体出现，例如无锡排骨是美食实体（属于复合命名实体），但其本身包含无锡地名实体（属于简单命名实体）；在自然语言中，简单命名实体可以单独存在，复合命名实体内必包含简单命名实体。对于本步骤而言，如果二部平面图网络识别出了具有最大覆盖范围的命名实体是复合命名实体，那么还需要进一步识别出复合命名实体中的简单命名实体。

S103、统计用户提及的复合命名实体和简单命名实体的特征，并对统计结果按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征。

复合命名实体和简单命名实体的特征包括实体内容、嵌套模式、实体类型、上位词和补充属性。其中，实体内容指的是复合命名实体和简单命名实体的具体内容，例如在机构类命名实体中，某用户被发现提及北京大学，则北京大学为机构类命名实体的具体内容；嵌套模式为复合命名实体和简单命名实体的组成模式，例如北京大学为机构类命名实体，它是由地名类命名实体“北京”与名词组成，则地名后接名词为北京大学的嵌套模式；实体类型指的是用户提及的实体类型为机构类实体或地点类实体；上位词指的是概念上外延更广的词汇，例如北京大学的上位词为大学。补充属性为根据数据库内容对复合命名实体和简单命名实体的补充内容，例如北京大学的补充属性为国内排名top2。需要指出的是：上位词和补充属性为可选特征。例如，选择疾病知识图谱为补充属性，如对识别的疾病“狂犬病”属于“急性传染病”、“人畜共患病”等。

在实际应用中，由于社交媒体文本数据随话题的变化较大，因此需要对统计结果按照时间先后顺序进行归一化处理，具体方法包括：将当月全量用户的所有实体及实体嵌套方式的出现频率作为分母；将当月单个用户的实体及实体嵌套方式的出现频率作为分子；计算分子与分母的比值。在实际应用中，为了方便后续的计算，通常将该比值乘以预设的放大系数。

S104、根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行有监督的建模，获取单条特征的信用贡献。

在实际应用中，建模方法可选常规的机器学习方案，例如朴素贝叶斯、基于局部可理解的与模型无关的解释技术(Local Interpretable Model-Agnostic Explanation,LIME)的有监督系列模型、基于特征近似夏普利(Shapley)值的决策树系列模型等。例如，选用朴素贝叶斯建模，该模型提前计算不同特征的先验概率及条件概率，概率分布均来自历史训练数据，当实施人工策略干预时，可以通过调整确定的统计值进行，当人工策略干预结束时，采用模型结果即可。

S105、根据各条特征的信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。

当新用户触发信用评估时，新用户完成步骤S101所示的社交媒体文本数据的采集及清洗，完成步骤S102所示的实体识别，完成步骤S103所示的统计及归一化处理。利用步骤S104训练的有监督机器学习模型，对用户个人信用进行评分，并生成各项特征的贡献值，即用户的命名实体和实体嵌套方式对最终信用评估结果的贡献。

与现有黑盒模型的技术方案相比，本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法，具有命名实体的中间层，具备一定的可解释性，方便必要时人工介入排查问题。同时，由于命名实体的含义相对其它词汇更加稳定，因此在一定程度上解决了语言发展后语义变化的问题。与现有基于信息抽取的技术方案相比，本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法，不需要人工构建关键词库或规则库，解决了海量词库/规则库的创建与维护问题，而是利用已有的历史信用标签数据，学习信用评分的重要规则与实体权重，降低了实现成本，利用更多信息，获得更高的效率。

本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法，通过嵌套命名实体识别技术，最大限度地利用用户社交媒体发布的文本数据，进行个人信用评估。本发明实施例提供的基于嵌套命名实体识别技术的个人信用评估方法，分析了传统信用评估方案中难以利用的社交媒体文本数据，补充了信用评估的考量维度，对个人社交媒体文本数据利用更加充分；同时，在不需要人工创建和维护大量词库和规则库构建的前提下，本发明实施例提供了一种具备可解释性又易于人工调整的个人信用评估方案。

参见图3，本发明实施例还提供了一种基于嵌套命名实体识别技术的个人信用评估系统，包括：

清洗模块31，用于清洗获取的用户社交媒体文本数据，并对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体；

统计归一化模块32，用于统计复合命名实体和简单命名实体的特征，并对统计结果按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征；

建模获取模块33，用于根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行有监督的建模，获取单条特征的信用贡献；

评估模块34，用于根据各条特征的信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。

其中，清洗模块31进一步包括：

获取单元，用于在取得用户授权后，获取用户社交媒体文本数据；

清洗单元，用于去除社交媒体文本数据中的表情符号，拆分社交媒体文本数据中的链接文本，纠正社交媒体文本数据中的错误文本，判定社交媒体文本数据中的句子、字词和词性，利用字转向量技术将社交媒体文本数据中的字生成字向量；

识别单元，用于利用二部平面图网络，识别出社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体；

构建单元，用于在具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图，并根据实体图和邻接图的传入节点及传出节点的属性，构建实体图和邻接图的当前节点的特征；

整合建立单元，用于整合实体图和邻接图的当前节点的特征，并根据整合后的具有最大覆盖范围的命名实体内部当前节点的特征，建立文字片段构成各类命名实体的概率函数；

推断确定单元，用于将概率最大的类型作为文字片段的可能类型，并推断出具有最大覆盖范围的命名实体是复合命名实体或简单命名实体；如果具有最大覆盖范围的命名实体是复合命名实体，那么还需要再根据文字片段可能类型的概率及概率比较结果，确定文字片段是否为简单命名实体及其类型。

基于上述如图1和图2所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：清洗获取的用户社交媒体文本数据，并对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体；统计复合命名实体和简单命名实体的特征，并对统计结果按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征；根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行有监督的建模，获取单条特征的信用贡献；根据各条特征的信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。

基于上述如图1、2所示方法和如图3所示系统的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图4所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上，所述处理器41执行所述程序时实现以下步骤：清洗获取的用户社交媒体文本数据，并对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体；统计复合命名实体和简单命名实体的特征，并对统计结果按照时间先后顺序进行归一化处理，生成基于嵌套命名实体识别的历史用户文本特征；根据历史用户的文本数据、文本特征和逾期表现，对用户信用进行有监督的建模，获取单条特征的信用贡献；根据各条特征的信用贡献，对用户个人信用进行评分，并生成各项特征的贡献值。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

在实际应用中，本发明实施例中所涉及的各个功能模块及单元，均可以由运行在计算机硬件上的计算机程序实现，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的硬件指的是包含一个或者多个处理器和存储介质的服务器或者台式计算机、笔记本电脑等；所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等；所述计算机程序由不限于C、C++等计算机语言实现。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，包括：

2.根据权利要求1所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述清洗获取的用户社交媒体文本数据的步骤具体包括：

在取得用户授权后，获取用户社交媒体文本数据；

去除所述社交媒体文本数据中的表情符号，拆分所述社交媒体文本数据中的链接文本，纠正所述社交媒体文本数据中的错误文本，判定所述社交媒体文本数据中的句子、字词和词性，利用字转向量技术将所述社交媒体文本数据中的字生成字向量。

3.根据权利要求2所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述对清洗后的社交媒体文本数据进行嵌套命名实体识别，得到多种提及的复合命名实体和简单命名实体的步骤具体包括：

利用二部平面图网络，识别出所述社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体；

在所述具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图，并根据所述实体图和邻接图的传入节点及传出节点的属性，构建所述实体图和邻接图的当前节点的特征；

整合所述实体图和邻接图的当前节点的特征，并根据整合后的所述具有最大覆盖范围的命名实体内部当前节点的特征，建立文字片段构成各类命名实体的概率函数；

将概率最大的类型作为所述文字片段的可能类型，并推断出所述具有最大覆盖范围的命名实体是复合命名实体或简单命名实体；如果所述具有最大覆盖范围的命名实体是复合命名实体，那么还需要再根据所述文字片段可能类型的概率及概率比较结果，确定所述文字片段是否为简单命名实体及其类型。

4.根据权利要求3所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述复合命名实体或简单命名实体至少包括公司名称、旅游景点、美食小吃、职业或疾病。

5.根据权利要求3所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述识别出具有最大覆盖范围的命名实体采用的是双向长短期记忆网络与条件随机场组合的模式，通过如下步骤获得：将标注标签的训练数据和所述字向量，输入所述双向长短期记忆网络，获得上下文有关的、基于字的命名实体标签向量，再利用所述条件随机场增添约束，获得具有最大覆盖范围的命名实体。

6.根据权利要求5所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述复合命名实体和简单命名实体的特征包括实体内容、嵌套模式和实体类型；其中，所述实体内容指的是所述复合命名实体和简单命名实体的具体内容；所述嵌套模式为所述复合命名实体和简单命名实体的组成模式；所述实体类型为机构类实体或地点类实体。

7.根据权利要求6所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述复合命名实体和简单命名实体的特征还包括上位词和补充属性；其中，所述上位词指的是概念上外延更广的词汇；所述补充属性为根据数据库内容对所述复合命名实体和简单命名实体的补充内容。

8.根据权利要求7所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述进行归一化处理的步骤具体包括：将当月全量用户的所有实体及实体嵌套方式的出现频率作为分母；将当月单个用户的实体及实体嵌套方式的出现频率作为分子；计算所述分子与分母的比值。

9.根据权利要求8所述的基于嵌套命名实体识别技术的个人信用评估方法，其特征在于，所述建模方法为机器学习方案，包括朴素贝叶斯、基于局部可理解的与模型无关的解释技术的有监督系列模型、基于特征近似夏普利值的决策树系列模型。

10.一种基于嵌套命名实体识别技术的个人信用评估系统，其特征在于，包括：

11.根据权利要求10所述的基于嵌套命名实体识别技术的个人信用评估系统，其特征在于，所述清洗模块包括：

清洗单元，用于去除所述社交媒体文本数据中的表情符号，拆分所述社交媒体文本数据中的链接文本，纠正所述社交媒体文本数据中的错误文本，判定所述社交媒体文本数据中的句子、字词和词性，利用字转向量技术将所述社交媒体文本数据中的字生成字向量；

识别单元，用于利用二部平面图网络，识别出所述社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体；

构建单元，用于在所述具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图，并根据所述实体图和邻接图的传入节点及传出节点的属性，构建所述实体图和邻接图的当前节点的特征；

整合建立单元，用于整合所述实体图和邻接图的当前节点的特征，并根据整合后的所述具有最大覆盖范围的命名实体内部当前节点的特征，建立文字片段构成各类命名实体的概率函数；

推断确定单元，用于将概率最大的类型作为所述文字片段的可能类型，并推断出所述具有最大覆盖范围的命名实体是复合命名实体或简单命名实体；如果所述具有最大覆盖范围的命名实体是复合命名实体，那么还需要再根据所述文字片段可能类型的概率及概率比较结果，确定所述文字片段是否为简单命名实体及其类型。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。