CN115238688A

CN115238688A - 电子信息数据关联关系分析方法、装置、设备和存储介质

Info

Publication number: CN115238688A
Application number: CN202210973829.4A
Authority: CN
Inventors: 徐新忠; 韩冰; 彭风华; 侯旭东; 莫传莹; 赵伟; 寇睿; 李文瑞; 欧荣安; 李庭轩; 程瑞琪; 范晨龙; 轩翔宇
Original assignee: Huangpu District Branch Of Guangzhou Public Security Bureau; Shanghai Xinren Information Technology Co ltd; Guangzhou criminal science and technology research institute
Current assignee: Huangpu District Branch Of Guangzhou Public Security Bureau; Shanghai Xinren Information Technology Co ltd; Guangzhou criminal science and technology research institute
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-10-25
Anticipated expiration: 2042-08-15
Also published as: CN115238688B

Abstract

本发明公开了电子信息数据关联关系分析方法、装置、设备和存储介质，所述方法包括，构建NLP分词模型和NLP语义模型时，包括步骤：对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；将明文文本数据处理为结构化数据或半结构化数据，并根据预设的多层级的数据分类体系结构存储；根据明文文本数据中的特定数据生成关键信息并设定对应的标注信息；构建包括多个资料库的资料库集；以资料库集中的关键信息和明文文本数据为训练语料进行NLP分词模型的训练和NLP语义模型的训练。本发明可以提高针对风控或内审等场景下电子信息数据的关联、分析和研判的效率和分析结果的准确性和有效性。

Description

电子信息数据关联关系分析方法、装置、设备和存储介质

技术领域

本发明涉及数据管理领域，特别涉及电子信息数据关联关系分析方法、装置、设备和存储介质。

背景技术

信息化的高速发展造就了越来越多的人借助于互联网工具进行各类社交活动、支付转账、出行指引等各类便利性举措，同时也实时的产生着各类行之有用的互联网应用的电子信息数据；如，手机内安装的各种社交类、支付类、导航类等各式各样的APP。

各类提供风控服务的公司或很多企业在进行内审的安全事件的过程中，在分析对象许可的情况下，会获取到各类相关的有助于进行以上分析的各类互联网应用的电子信息数据，以便判定、刻画该分析对象的征信级别或安全事件的责任判定。

发明人经过研究发现，现有技术中，由于目前各个互联网工具及应用厂商的各自为阵，以及有些应用的本身注册账号注册、通信机制、数据存储受限，各类应用数据存在严重的孤岛特性；这样就使得在针对分析对象数据关联、分析和研判时，容易被干扰数据影响，造成了分析的严重拖延，甚至存在错判、误判；即，现有技术中心针对电子信息数据的关联、分析和研判存在效率低下和分析结果准确性和有效性较差的问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提高针对电子信息数据的关联、分析和研判的效率和分析结果的准确性和有效性。

本发明提供了一种电子信息数据关联关系分析方法，构建NLP分词模型和NLP语义模型时，包括步骤：

S11、对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；所述电子信息数据包括一种以上的互联网应用生成的数据；

S12、将所述明文文本数据处理为结构化数据或半结构化数据，并根据预设的多层级的数据分类体系结构存储所述明文文本数据；

S13、根据所述明文文本数据中的特定数据生成关键信息并设定对应的标注信息；所述特定数据为能够在跨应用关联分析中发挥作用的数据；所述关键信息包括：实名信息、虚拟账号信息、地理位置信息、支付信息、手机号信息、车牌信息中的一种或多种个人信息，以及，所述个人信息的属性系信息，以及，所述个人信息间的关联信息；

S14、对存储于特定存储位置的所述关键信息进行二次构建，包括：构建至少包括应用信息资料库、虚拟信息资料库、实名资料库、支付账号资料库和地理位置资料库的资料库集；所述资料库集中的各资料库用于分类存储所述关键信息；

S15、以所述资料库集中的关键信息和明文文本数据为训练语料进行NLP分词模型的训练和NLP语义模型的训练；所述NLP分词模型和所述NLP语义模型用于从所述明文文本数据筛选出各所述关键信息，并根据所述关键信息间的关系属性构建三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；所述关系属性包括隶属关系、关联类型、关系次数和关联时间中的一种多或多种。

优选的，在本发明中，还包括，根据所述NLP分词模型和所述NLP语义模型构建关系图谱，包括步骤：

S16、在构建当前分析对象的电子信息数据关联关系时，获取当前分析对象的不同类型的电子信息数据，并对所述当前电子信息数据进行逆向解析和/或数据转换，生成对应的当前明文文本数据；

S17、以所述当前明文文本数据为输入，根据所述NLP分词模型和所述NLP语义模型筛选出各所需关键信息并根据所述关键信息间的关系属性构建三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；

S18、根据所述关键信息间的关系属性和“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系，分别构建各所述当前分析对象的关系图谱。

优选的，在本发明中，还包括：

根据预设的评分规则确定所述关系图谱中各实名信息之间的关系评分，并根据关系评分的评分结果和所述关系图谱生成分析结果；所述评分规则包括：

将结构化数据中直接参与的主体确定为显性结果；将通过字段和文本分析的方式提取的昵称、账号、邮箱、联系方式和卡号确定为半隐性结果；将通过语义分析提取的实体和属性确定为隐性结果；所述主体包括实名认证信息、APP账户信息和关系属性。

优选的，在本发明中，所述互联网应用包括：

社交类应用、出行类应用、导航类应用、支付类应用，订单类应用和消费类应用中的一类或多类。

优选的，在本发明中，所述个人信息还包括：

备注名、昵称、银行账户、虚拟交易账户中的一种或多种，以及，具有账号属性的主体的属性信息、社交聊天中涉及的账号类信息和账户类信息，交易行为中涉及的账号类信息和账户类信息，和，各应用中存在的涉及主体身份的信息。

在本发明的另一面，还提供了一种电子信息数据关联关系分析装置，用于构建NLP分词模型和NLP语义模型的单元包括：

历史数据预处理单元，用于对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；所述电子信息数据包括一种以上的互联网应用的生成数据；

历史数据再处理单元，用于将所述明文文本数据处理为结构化数据或半结构化数据，并根据预设的多层级的数据分类体系结构存储所述明文文本数据；

关键信息确定单元，用于根据所述明文文本数据中的特定数据生成关键信息并设定对应的标注信息；所述特定数据为能够在跨应用关联分析中发挥作用的数据；所述关键信息包括：实名信息、虚拟账号信息、地理位置信息、支付信息、手机号信息、车牌信息中的一种或多种个人信息，以及，所述个人信息的属性系信息，以及，所述个人信息间的关联信息；

资料库集构建单元，用于对存储于特定存储位置的所述关键信息进行二次构建，包括：构建至少包括互联网应用资料资料库、虚拟信息资料库、实名资料库、支付账号资料库和地理位置资料库的资料库集；所述资料库集中的各资料库用于分类存储所述关键信息；

模型训练单元，用于以所述资料库集中的关键信息和明文文本数据为训练语料进行NLP分词模型的训练和NLP语义模型的训练；所述NLP分词模型和所述NLP语义模型用于从所述明文文本数据筛选出各所述关键信息，并根据所述关键信息间的关系属性构建三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；所述关系属性包括隶属关系、关联类型、关系次数和关联时间中的一种多或多种。

优选的，在本发明实施例中，还包括：

当前数据预处理单元，用于在构建当前分析对象的电子信息数据关联关系时，获取当前分析对象的不同类型的电子信息数据，并对所述当前电子信息数据进行逆向解析和/或数据转换，生成对应的当前明文文本数据；

逻辑关系构建单元，用于以所述当前明文文本数据为输入，根据所述NLP分词模型和所述NLP语义模型筛选出各所需关键信息并根据所述关键信息间的关系属性构建三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；

关系图谱生成单元，用于根据所述关键信息间的关系属性和“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系，分别构建各所述当前分析对象的关系图谱。

优选的，在本发明实施例中，还包括：

分析结果生成单元，用于根据预设的评分规则确定所述关系图谱中各实名信息之间的关系评分，并根据关系评分的评分结果和所述关系图谱生成分析结果；所述评分规则包括：

在本发明实施例的另一面，还提供了一种电子信息数据关联关系分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用并执行所述计算机程序，以实现如上任一项所述的取证数据关联关系分析方法的各个步骤。

在本发明实施例的另一面，还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的电子信息数据关联关系分析方法的各个步骤。

所述电子信息数据关联关系分析设备包括存储在介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以上各个方面所述的方法，并实现相同的技术效果。

与现有技术相比，本发明具有如下有益效果：

本发明中，将分析对象的历史的各种类型的电子信息数据作为原始数据，通过逆向解析和数据转换等方式将这些原始数据转换为明文文本数据；然后，再将其处理为通过多层级的数据分类体系结构存储的结构化数据或半结构化数据；基于风控或内审等场景的需要，本发明根据能够在跨应用关联分析中发挥作用的数据生成了关键信息；本发明中的关键信息包括有多种个人信息，以及，所述个人信息的属性系信息，以及，所述个人信息间的关联信息；这样，在将这些关键信息分类存储于对应的资料库并形成资料库集后，就可以以资料库集中的关键信息和明文文本数据为训练语料，进行NLP分词模型的训练和NLP语义模型的训练，进而就可以构建出用于从明文文本数据筛选出各个关键信息，并根据关键信息间的关系属性构建特定的三元组信息的预测模型了；由于本发明中的三元组信息为：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；且其关系属性包括隶属关系、关联类型、关系次数和关联时间中的一种多或多种；这样，只需要获得了当前分析对象的多种类型的电子信息数据，通过自动的数据处理生成对应的明文文本数据后，就可以将该明文文本数据为输入，利用作为预测模型的NLP分词模型和NLP语义模型的预测结果来生成当前分析对象的关系图谱，进而也就提高了征信或内审等场景下数据的关联、分析和研判的效率和分析结果的有效性。

进一步的，为了使关系图谱中的关联关系更加的准确和可靠，在本发明中，还预设了评分规则来根据关系图谱中主体间的关系进行了评价，从而可以标识出关系图谱中各关联关系的准确性和可靠性，进而能够得到更加准确的分析结果。

上述说明仅为本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段并可依据说明书的内容予以实施，同时为了使本发明的上述和其他目的、技术特征以及优点更加易懂，以下列举一个或多个优选实施例，并配合附图详细说明如下。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明中所述电子信息数据关联关系分析方法的步骤图；

图2是本发明中所述三元组信息的逻辑关系示意图；

图3是本发明中所述三元组信息的又一逻辑关系示意图；

图4是本发明中所述关系图谱的示意图；

图5是本发明中所述关系图谱的又一示意图；

图6是本发明中所述电子信息数据关联关系分析装置的结构示意图

图7是本发明中所述电子信息数据关联关系分析设备结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其他明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其他元件或其他组成部分。

在本文中，术语“第一”、“第二”等是用以区别两个不同的元件或部位，并不是用以限定特定的位置或相对关系。换言之，在一些实施例中，术语“第一”、“第二”等也可以彼此互换。

实施例一

为了提高针对征信、风控或内审等场景下应用数据的关联、分析和研判的效率和分析结果的准确性和有效性，如图1所示，在本发明实施例中提供了一种电子信息数据关联关系分析方法，在构建NLP分词模型和NLP语义模型时，包括步骤：

S11、对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；所述电子信息数据包括一种以上的互联网应用的生成数据；

在本发明实施例中，收集以往大量分析对象的不同类型的电子信息数据来作为原始数据；典型的可以是：各种交易类应用的支付转账记录、各种社交应用的聊天记录，以及，各种导航应用的出行记录等；需要说明的是：本发明实施例中的电子信息数据包括但不限于上述三种记录，还可以根据实际的需要，将其他互联网的应用所产生的数据作为原始数据。

在本发明实施例中的互联网应用可以包括但不限于APP应用，具体可以包括：社交类应用、出行类应用、导航类应用、支付类应用，订单类应用，以及，消费类应用等。

初始获得的电子信息数据的类型既可能是明文文本，也可能是加密格式的文件，也可能是无法直接表述内容含义其他格式的文件；为了后续的语义分析，在本发明实施例中，对于非明文文本类型的数据首先通过逆向解析或数据转换来生成可阅读认知的明文文本数据，具体可以包括：

对于各类互联网应用的原始文件，通过对原始的应用数据文件构建一套完整的数据逆向分析方案，把离散的存储于不同位置的基于SQlite、XML、JSON、Plist等数据文件进行反序列化、反向解密等技术，变成明文数据。

对于含结构化文本格式和非结构化文本格式的文本类的数据，构建一套自动化数据处理机制，根据数据文件的表头或行、例特征，进行统一类型化转义，变成系统可用的明文数据。

对于纸质化数据，采用OCR识别技术，把非结构化的图片信息，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，进而根据解析文本结果，生成对应的明文数据；具体包括：对图片中含有的有效的文字信息进行识别，如转账截图所包含的转账金额、交易对象、转账说明等；此外，还需要对图片中含有的有效的二维码信息进行初步识别，针对支付类、收款类二维码进行逆向解析。

对于音频数据，采用语音识别的方式，生成对应的明文数据。

在将原始数据统一处理为明文文本数据后，还需要进一步的将其处理为适用于数据库的结构化数据或半结构化数据，然后，根据数据类别和级别的不同，根据多层级的数据分类体系结构存储。

本发明实施例中，多层级的数据分类体系结构，用于实现各种数据的分层、分类，特别是关联性存储；其中，数据基于实际的应用场景可分为即时通信类数据、电子商务类数据、移动支付类数据、地理信息类数据、网络浏览类数据等多个大类；接着针对不同大类基于不同的数据特征，实现子类存储机制；如，即时通信类又进一步包含主体账号信息、好友账号信息、好友聊天信息、群成员信息、群信息、群聊天信息等；电子商务类又进一步包含账户信息、商品信息、店铺信息、交易信息、搜索记录信息等；移动支付类进一步又包含主体账户信息、好友信息、交易记录信息、交易明细信息等。

其次，通过对上述的多层分类的数据进行二次数据提炼，目的是把能够在跨应用关联分析中发挥作用的数据进行标签化处理，并进行独立的存储。这些数据有可能离散存储于各种类型的不同地方，如好友账号信息的昵称、备注名、简介等；如转账交易信息的交易对象、交易备注；如好友聊天信息的聊天内容中；如收付款二维码的解析信息中等各式各样的地方。

S13、根据所述明文文本数据中的特定数据生成关键信息并设定对应的标注信息；所述特定数据为能够在跨应用关联分析中发挥作用的数据；所述关键信息包括：实名信息、虚拟账号信息、地理位置信息、支付信息、手机号信息、车牌信息中的一种或多种个人信息，以及，所述个人信息的属性系信息，以及，所述个人信息间的关联信息。

本发明实施例中，个人信息还可以包括：备注名、昵称、银行账户、虚拟交易账户中的一种或多种，以及，具有账号属性的主体的属性信息、社交聊天中涉及的账号类信息和账户类信息，交易行为中涉及的账号类信息和账户类信息，和，各应用中存在的涉及主体身份的信息。

基于深度学习，可以利用RNN（循环神经网络）和/或LSTM网络模型，通过建模长序列，从半结构化及非结构化的文本中抽取出与主体相关的属性，以解决主体缺少标注、事件中缺少关键要素信息的问题；通过结构化和非结构化中提取到的各类账号主体与事件建立依存关系。从而实现对关键信息的实体、属性、关系进行抽取。

S14、对存储于特定存储位置的所述关键信息进行二次构建，包括：构建至少包括应用资料资料库、虚拟信息资料库、实名资料库、支付账号资料库和地理位置资料库的资料库集；所述资料库集中的各资料库用于分类存储所述关键信息。

基于关键信息的种类和特性，分别建立对应的资料库，并构建成一个资料库集；根据当前场景构建的分词训练模型和语义训练模型，其模型训练的准确度，往往要借助于应用信息资料库、身份信息资料库、姓氏资料库等进行训练模型的调优，目的是应用场景化的分析训练模型和语义训练模型更加有助于我们快速获取有效的价值性线索和数据，清洗和过滤出更多脏数据、无效数据。本发明实施例中，资料库集的构建是一个长期和有序的积累过程，如应用信息资料库，市场上存在各种各样的互联网应用，有社交聊天的、有导航类的、有支付类的等，通过长期积累，并对各种获取到的互联网应用进行分门别类。

在本发明实施例中，NLP分词模型和NLP语义模型的作用是从由电子信息数据生成的明文文本数据中筛选出各个关键信息，并根据关键信息间的关系属性构建三元组信息；进而为构建由于进行数据分析的关系图谱提供数据依据。

本发明实施例中的NLP分词模型用于借助资料库集中的各种资料库，筛选出附带身份信息的各类账号主体；具体的：通过词性标注（POS）、命名实体识别（NER）和依存句法分析（DP）常用的任务提取资料库集内的资料库中的人名、称谓、账号、电话、地点、时间、机构名称、地理信息等关键信息进行提取，并发现新词。其中，可以基于CRF模型的机器深度学习技术分词，相对于词典分词，该模型不仅考虑了文字词语出现的频率信息，还同时考虑上下文语境，能够提供较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。此外，通过现有中文自然语言训练语料和结合新词汇进行优化，还可以使模型更好适配新的资料库，进而逐步提高其识别率。

上述命名实体识别是指：对非结构化数据中的人、人名、时间、数字、机构名、地名、货币等进行识别，结合上下文依存关系处理不断变动的语法，对上下文中出现的实体进行识别；此外，还可以通过二次分析对卡号、地理坐标、时间等达到更精细化的处理。

建立基于NLP分词信息提取系统，作为构建知识图谱最重要的一个环节。从非结构化数据中抽取出三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系，为关系抽取提供数据支撑。

本发明实施例中的NLP语义模型，用于借助各种资料库及分词引擎分析结果，筛选出附带身份信息的各类账号主体；其中包括：通过分析非结构化上下文，针对分散在各种资料库中的核心的事件信息进行提取（如：交易事件、活动事件或消息事件等）摘要出关键信息，对事件要素进行提取，并对账号进行标签化处理；通过分析对上下文中的各个身份进行标记，基于语义分析出主体间的关系，具体步骤包括：

分析非结构化中文本信息，使用循环神经网络（RNN）Seq2Seq架构，在编码部分使用卷积模型，利用上下文之间的注意力前馈神经网络生成摘要信息，提取事件中的关键信息。

对事件关键信息的主体进行属性抽取，基于深度学习的方法利用循环神经网络(RNN)、长短时记忆网络(LSTM)神经网络模型从非结构化文本中抽取出与主体相关的属性，解决主体缺少标注、事件中缺少关键要素信息，通过结构化和非结构化中提取到的各类账号主体与事件建立依存关系。

结合实体与实体之间的关系抽取，通过预训练模型BERT编码得到句子和两个目标实体的语义信息，使用图卷积网络(R-GCNs)建模标签之间的依赖图，并结合分析指导最终的关系分类，这种方法能对未知的账号、身份主体进行更深层次的挖掘。

本发明实施例中抽取实体关系三元组，关系抽取用于在从未经标注的文本中抽取实体间的关系。通过预训练模型BERT编码得到句子和两个目标实体的语义信息，使用图卷积网络（GCN）建模关系标签之间的依赖图，并结合上述信息指导最终的关系分类，关系抽取既是信息抽取技术的重要环节，也是信息抽取领域重要的基础任务和难点问题之一。其任务是从半结构化及非结构化文本中识别出实体和联系这对实体的语义关系，并构成关系三元组。

为了说明NLP分词模型和NLP语义模型的典型使用方式，本发明实施例中还可以包括以下步骤：

在确定了当前分析对象，并获得了其多种不同类型的电子信息数据后，首先需要将其中的非明文文本数据转换为明文文本数据；具体过程可以参考步骤S11中的相关技术手段。

经由数据训练生成的NLP分词模型和NLP语义模型，能够以明文文本数据为输入，从中筛选出各所需关键信息，进一步的还可以根据这些关键信息间的关系属性构建三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；在实际应用中，三元组信息的内容可以如图2和图3所示。

关键信息间的关系属性和“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系后，可以构建出包括各当前分析对象的关系图谱，在实际应用中，可以基于图卷积网络（GCN）来学习关系标签（标签分类器）的嵌入来表示各主体和属性间的关系结构；在一个具体的实例中，关系图谱的表现形式可以如图4所示。

进一步的，在本发明实施例中，还可以包括根据预设的评分规则来评价关系图谱中各关系的有效性和准确性的步骤，具体的：

将结构化数据中直接参与的主体确定为显性结果；将通过字段和文本分析的方式提取的昵称、账号、邮箱、联系方式和卡号确定为半隐性结果；将通过语义分析提取的实体和属性确定为隐性结果；所述主体包括实名认证信息、APP账户信息和各种的关系属性；所述显性结果、所述半隐性结果和所述隐性结果分别代表不同的关系评分值。

根据关联关系构成方式和获得方式的不同，实体间的关联关系的有效性和准确性也有所不同，为此，在本发明实施例中，还分级定义了多个有效性和准确性也有所不同的关联关系属性，其中，显性结果的有效性和准确性最高，半隐性结果的有效性和准确性较高，隐性结果的有效性和准确性则较低。

在实际应用中，本发明实施例中，直接参与的主体，包括与主体（实名信息）直接绑定的或是直接关联的其他关键信息，如，与身份信息绑定的手机号，或是，实名注册时写的各种信息等；这些关联关系的有效性和准确性最高，可以将这种方式下建立的主体间的关联关系定义为显性结果。在一个具体的实例中，经预设的评分规则进行有效性和准确性评价后的关系图谱的表现形式可以如图5所示。图5中，主体间连接的实线代表评价结果为显性结果，短虚线代表评价结果为隐性结果，长虚线代表评价结果为半隐性结果。

综上所述，本发明实施例，将分析对象的历史的各种类型的电子信息数据作为原始数据，通过逆向解析和数据转换等方式将这些原始数据转换为明文文本数据；然后，再将其处理为通过多层级的数据分类体系结构存储的结构化数据或半结构化数据；基于风控或内审等场景的分析需要，本发明实施例根据能够在跨应用关联分析中发挥作用的数据生成了关键信息；本发明实施例中的关键信息包括有多种个人信息，以及，所述个人信息的属性系信息，以及，所述个人信息间的关联信息；这样，在将这些关键信息分类存储于对应的资料库并形成资料库集后，就可以以资料库集中的关键信息和明文文本数据为训练语料，进行NLP分词模型的训练和NLP语义模型的训练，进而就可以构建出用于从明文文本数据筛选出各个关键信息，并根据关键信息间的关系属性构建特定的三元组信息的预测模型了；由于本发明实施例中的三元组信息为：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；且其关系属性包括隶属关系、关联类型、关系次数和关联时间中的一种多或多种；这样，只需要获得了当前分析对象的多种类型的电子信息数据，通过自动的数据处理生成对应的明文文本数据后，就可以将该明文文本数据为输入，利用作为预测模型的NLP分词模型和NLP语义模型的预测结果来生成当前分析对象的关系图谱，进而也就提高了针对风控或内审等场景下数据的关联、分析和研判的效率和分析结果的有效性。

进一步的，为了使关系图谱中的关联关系更加的准确和可靠，在本发明实施例中，还预设了评分规则来根据关系图谱中主体间的关系进行了评价，从而可以标识出关系图谱中各关联关系的准确性和可靠性，进而能够得到更加准确的分析结果。

实施例二

与方法实施例相对应的，在本发明实施例的另一面，还提供了一种电子信息数据关联关系分析装置，图6示出本发明实施例提供的电子信息数据关联关系分析装置的结构示意图，所述电子信息数据关联关系分析装置为与图1所对应实施例中所述取证数据关联关系分析方法对应的装置，即，通过虚拟装置的方式实现图1所对应实施例中电子信息数据关联关系分析方法，构成所述电子信息数据关联关系分析装置的各个虚拟模块可以由电子设备执行，例如网络设备、终端设备或服务器。具体来说，本发明实施例中取证数据关联关系分析装置包括：

用于构建NLP分词模型和NLP语义模型的单元包括：

历史数据预处理单元01，用于对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；所述电子电子信息数据包括一种以上的互联网应用生成的数据；

历史数据再处理单元02，用于将所述明文文本数据处理为结构化数据或半结构化数据，并根据预设的多层级的数据分类体系结构存储所述明文文本数据；

关键信息确定单元03，用于根据所述明文文本数据中的特定数据生成关键信息并设定对应的标注信息；所述特定数据为能够在跨应用关联分析中发挥作用的数据；所述关键信息包括：实名信息、虚拟账号信息、地理位置信息、支付信息、手机号信息、车牌信息中的一种或多种个人信息，以及，所述个人信息的属性系信息，以及，所述个人信息间的关联信息；

资料库集构建单元04，用于对存储于特定存储位置的所述关键信息进行二次构建，包括：构建至少包括应用资料资料库、虚拟信息资料库、实名资料库、支付账号资料库和地理位置资料库的资料库集；所述资料库集中的各资料库用于分类存储所述关键信息；

模型训练单元05，用于以所述资料库集中的关键信息和明文文本数据为训练语料进行NLP分词模型的训练和NLP语义模型的训练；所述NLP分词模型和所述NLP语义模型用于从所述明文文本数据筛选出各所述关键信息，并根据所述关键信息间的关系属性构建三元组信息：“实体-关系-实体”以及“实体-属性-实体”基本逻辑关系；所述关系属性包括隶属关系、关联类型、关系次数和关联时间中的一种多或多种。

优选的，在本发明实施例中，还包括：

需要说明的是，在本发明实施例中的电子信息数据关联关系分析装置的具体实现方式和技术效果可以参考图1所对应的电子信息数据关联关系分析方法，在此就不再赘述。

实施例三

与方法实施例相对应的，本发明实施例中，还提供了一种电子信息数据关联关系分析设备，如终端、服务器等。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

本发明实施例提供的电子信息数据关联关系分析设备的硬件结构框图的示例图如图7所示，可以包括：

处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器1具体用于执行存储器3中存储的计算机程序，以执行如下步骤：

构建NLP分词模型和NLP语义模型时，包括步骤：

优选的，在本发明实施例中，还包括，根据所述NLP分词模型和所述NLP语义模型构建关系图谱，包括步骤：

还包括，根据所述NLP分词模型和所述NLP语义模型构建关系图谱，包括步骤：

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的电子信息数据关联关系分析方法。

实施例四

本发明实施例中，还提供了一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

构建NLP分词模型和NLP语义模型时，包括步骤：

S11、对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；所述电子取证数据包括一种以上的互联网应用生成的数据；

S14、对存储于特定存储位置的所述关键信息进行二次构建，包括：构建至少包括应用资料资料库、虚拟信息资料库、实名资料库、支付账号资料库和地理位置资料库的资料库集；所述资料库集中的各资料库用于分类存储所述关键信息；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明其他实施例所提供的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电子信息数据关联关系分析方法，其特征在于，构建NLP分词模型和NLP语义模型时，包括步骤：

2.根据权利要求1所述的取证数据关联关系分析方法，其特征在于，还包括，根据所述NLP分词模型和所述NLP语义模型构建关系图谱，包括步骤：

3.根据权利要求3所述的电子信息数据关联关系分析方法，其特征在于，还包括：

4.根据权利要求1或2所述的取证数据关联关系分析方法，其特征在于，所述互联网应用包括：

5.根据权利要求1或2所述的电子信息数据关联关系分析方法，其特征在于，所述个人信息还包括：

6.一种电子信息数据关联关系分析装置，其特征在于，用于构建NLP分词模型和NLP语义模型的单元包括：

历史数据预处理单元，用于对已有的各分析对象的不同类型的电子信息数据，进行逆向解析和/或数据转换，生成对应的明文文本数据；所述电子信息数据包括一种以上的互联网应用生成的数据；

7.根据权利要求6所述的取证数据关联关系分析装置，其特征在于，还包括：

8.根据权利要求7所述的电子信息数据关联关系分析装置，其特征在于，还包括：

将结构化数据中直接参与的主体确定为显性结果；将通过字段和文本分析的方式提取的昵称、账号、邮箱、联系方式和卡号确定为半隐性结果；将通过语义分析提取的实体和属性确定为隐性结果；所述主体包括实名认证信息、应用账户信息和关系属性。

9.一种取证数据关联关系分析设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用并执行所述计算机程序，以实现如权利要求1-5中任一项所述取证数据关联关系分析方法的步骤。

10.一种存储介质，其特征在于，包括软件程序，所述软件程序适于由处理器执行如权利要求1-5中任一所述取证数据关联关系分析方法的步骤。