CN107633081A

CN107633081A - 一种失信用户信息的查询方法及系统

Info

Publication number: CN107633081A
Application number: CN201710881946.7A
Authority: CN
Inventors: 王黎; 丁美香
Original assignee: Zhejiang Win Win Information Technology Co Ltd
Current assignee: Zhejiang Win Win Information Technology Co Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-01-26

Abstract

本申请公开了一种失信用户信息的查询方法，基于Elastic Search，包括：利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据；其中，失信数据中包括中文描述的数据类型及内容数据；利用中文分词工具对数据类型执行分词操作，得到最小长度的中文关键词；利用各中文关键词和与中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库；利用获取到的目标中文关键词在失信数据库中进行匹配查询，得到查询结果。该查询方法能够帮助企业快速判定目标用户是否为失信用户，进而提高贷出资金的质量，扩大企业效益。本申请还同时公开了一种失信用户信息的查询系统，具有上述有益效果。

Description

一种失信用户信息的查询方法及系统

技术领域

本申请涉及数据搜索查询领域，特别涉及一种失信用户信息的查询方法及系统。

背景技术

随着P2P行业的兴起，P2P也越来越受到用户的青睐，近几年出现了越来越多的P2P平台，P2P借贷行业相比传统银行门槛会低很多，导致前来借贷的用户参差不齐。相关企业能够长足发展的前提，建立在如何能够快速的识别用户的征信等级，减少企业风险，因此风险控制成为要解决的首要问题。

风险管理是指如何在项目或者企业一个肯定有风险的环境里把风险可能造成的不良影响减至最低的管理过程，良好的风险管理有助于降低决策错误之机率、避免损失的可能、相对提高企业本身之附加价值。建立各企业自身的风险控制的方式通常通过建立评分卡模型、防欺诈模型来对模型进行控制。这里面风险识别作为其中的重要一部分，我们可以通过已有客户群对其打分来判断其风险，而对于一些新客户，了解信息甚少的情况下，如何对其进行风险的识别，由于我国目前没有建立专门的失信统计机构对所有失信数据进行记录查询，即使有一些也极其分散且各有侧重，无法满足现有需要。

所以，如何结合现有的一些征信数据，结合各企业不同的特殊要求定制最适合其自身使用的失信用户信息查询机制是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种失信用户信息的查询方法及系统，基于ElasticSearch，其能够多途径爬取各分散的失信数据库或黑名单数据库并从中获取失信数据，在经过整理和个性化处理后能够帮助企业快速判定目标用户是否为失信用户，进而提高贷出资金的质量，扩大企业效益。

为解决上述技术问题，本申请提供一种失信用户信息的查询方法，该查询方法包括：

利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据；其中，所述失信数据中包括中文描述的数据类型及内容数据；

利用中文分词工具对所述数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词；

利用各所述中文关键词和与所述中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库；

利用从目标用户处获取到的中文关键词在所述失信数据库中进行匹配查询，得到查询结果。

可选的，利用中文分词工具对所述数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词，包括：

利用IK Analyzer中文分词工具按两个中文字符长度对各所述数据类型执行分词操作，得到均为两个中文字符长度的各中文关键词。

可选的，利用各所述中文关键词和与所述中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库，包括：

获取与各所述中文关键词匹配的各英文关键词，并将各所述英文关键词设置在所述JOSN格式的入库文档的第一匹配序列；

将与各所述英文关键词对应的中文关键词设置在所述JOSN格式的入库文档的第二匹配序列；

将与各所述中文关键词相对应的内容数据设置在所述JOSN格式的入库文档的内容描述处；

依次由各所述英文关键词、对应的中文关键词、对应的内容数据组成所述失信数据库。

可选的，利用从目标用户处获取到的中文关键词在所述失信数据库中进行匹配查询，得到查询结果，包括：

根据外部输入的文字信息确定对应的中文关键词；

利用所述中文关键词和第一匹配序列与第二匹配序列之间的对应关系，查得与所述中文关键词对应的英文关键词；

利用所述英文关键词在所述失信数据库中进行匹配查询，得到查询结果。

可选的，该查询方法还包括；

判断所述查询结果是否非空；

若是，则将与所述英文关键词相匹配的内容数据按预设排序和显示规则显示在WEB界面上；

若否，则显示无相应失信数据的通知信息。

本申请还提供了一种失信用户信息的查询系统，基于Elastic Search，该查询系统包括：

数据爬取单元，用于利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据；其中，所述失信数据中包括中文描述的数据类型及内容数据；

分词处理单元，用于利用中文分词工具对所述数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词；

建立单元，用于利用各所述中文关键词和与所述中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库；

匹配查询单元，用于利用从目标用户处获取到的中文关键词在所述失信数据库中进行匹配查询，得到查询结果。

可选的，所述分词处理单元包括：

IK Analyzer分词处理子单元，用于利用IK Analyzer中文分词工具按两个中文字符长度对各所述数据类型执行分词操作，得到均为两个中文字符长度的各中文关键词。

可选的，所述建立单元包括：

第一设置子单元，用于获取与各所述中文关键词匹配的各英文关键词，并将各所述英文关键词设置在所述JOSN格式的入库文档的第一匹配序列；

第二设置子单元，用于将与各所述英文关键词对应的中文关键词设置在所述JOSN格式的入库文档的第二匹配序列；

第三设置子单元，用于将与各所述中文关键词相对应的内容数据设置在所述JOSN格式的入库文档的内容描述处；

数据库构成子单元，用于依次由各所述英文关键词、对应的中文关键词、对应的内容数据组成所述失信数据库。

可选的，所述匹配查询单元包括：

对应确定子单元，用于根据外部输入的文字信息确定对应的中文关键词；

查询子单元，用于利用所述中文关键词和第一匹配序列与第二匹配序列之间的对应关系，查得与所述中文关键词对应的英文关键词；

匹配子单元，用于利用所述英文关键词在所述失信数据库中进行匹配查询，得到查询结果。

可选的，该查询系统还包括：

查询结果非空判断单元，用于判断所述查询结果是否非空；

内容显示单元，用于将与所述英文关键词相匹配的内容数据按预设排序和显示规则显示在WEB界面上；

通知信息反馈单元，用于显示无相应失信数据的通知信息。

本申请所提供的一种失信用户信息的查询方法，利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据；其中，所述失信数据中包括中文描述的数据类型及内容数据；利用中文分词工具对所述数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词；利用各所述中文关键词和与所述中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库；利用从目标用户处获取到的中文关键词在所述失信数据库中进行匹配查询，得到查询结果。

显然，本申请所提供的技术方案，基于Elastic Search，其能够多途径爬取各分散的失信数据库或黑名单数据库并从中获取失信数据，在经过整理和个性化处理后能够帮助企业快速判定目标用户是否为失信用户，进而提高贷出资金的质量，扩大企业效益。本申请同时还提供了一种失信用户信息的查询系统，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种失信用户信息的查询方法的流程图；

图2为本申请实施例所提供的另一种失信用户信息的查询方法的流程图；

图3为本申请实施例所提供的一种失信用户信息的查询系统的结构框图。

具体实施方式

本申请的核心是提供一种故障信息的排除方法及系统，其通过为故障信息列举出所有具体的故障排除方案，以此来指导工作人员进行故障排除，很大程度上无需求助专门的技术人员，使得故障排除方法更加灵活，时效性更强、运维成本更低，能够显著减少因存储系统异常所造成的损失。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下结合图1，图1为本申请实施例所提供的一种失信用户信息的查询方法的流程图。

其具体包括以下步骤：

S101：利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据；其中，失信数据中包括中文描述的数据类型及内容数据；

本步骤旨在利用利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据。因为当前网络环境上各种征信数据库较为分散和繁杂，例如国家定期公布的一部分征信数据、各大权威网站公布的一些失信执行人(老赖)、黑名单用户以及例如今日头条等新闻网站从各渠道获得的失信数据库等等。

因为如此分散、侧重点不同的征信数据不便于对目标用户是否属于失信用户群体做判定，故本步骤利用多个网络爬虫从预设的目标网络地址上爬取想要的数据，以便后续将爬取来的数据进行再处理，供筛选目标用户是否属于失信用户群体。

其中，网络爬虫是一个自动提取网页内容的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL(Uniform ResourceLocator，统一资源定位符)开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

本申请实际用到的就是聚焦爬虫的一种，因为不是无目的在目标URL上爬取数据，而是有针对性的爬取征信数据相关的内容，例如用户姓名、性别、年龄、身份证号、家庭住址、备注、联系方式等等相关内容。

S102：利用中文分词工具对数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词；

在S101的基础上，本步骤旨在利用中文分词工具对数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词。由于爬取来的数据相对较为独立，同一内容但描述方式各有不同，无法直接使用，本步骤旨在将爬取来的数据内容(使用中文进行描述)按预设长度进行分词处理，以得到最小长度的中文关键词，便于同一内容的不同描述方式。

例如，描述该用户身份证号在各平台上叫法可能存在：身份证号；身份证ID、第二代身份证、中国国民第二代身份证等等，但是我们能发现其中都存在一个身份证的相同关键词，即可以利用这一点，将能够提取出身份证这个中文关键词判定为描述的同一事物。

其中，该中文分词工具有很多种，例如较为常见的IK Analyzer中文分词工具、NLPIR(中科院提供的一款分词工具)汉语分词系统、THULAC(THU Lexical Analyzer forChinese，由清华大学研制)分词工具等等，各工具采用的分词算法不同，各有特点，此处并不具体限定选用哪种中文分词工具，应视实际语言情景结合各分词工具的特点有针对的选择最适合自身的一种。

S103：利用各中文关键词和与中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库；

在S102的基础上，本步骤旨在利用各中文关键词和与中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库。之所以要有与中文关键词相对应的英文关键词，是因为支撑大部分现今使用的搜索引擎的数据库在实际搜素时均使用的是英文，即使我们在搜索界面输入的是中文，但在实际搜索过程中依然使用的与中文对应的英文。

在得到该中文关键词、该中文关键词对应的英文关键词以及两者所描述的同一数据内容后，利用这三者建立一一对应的由JOSN格式的入库文档组成的失信数据库。其中，JOSN是一种较为常见的数据库文件的格式。

S104：利用从目标用户处获取到的中文关键词在失信数据库中进行匹配查询，得到查询结果。

在S103的基础上，本步骤旨在根据从目标用户处获取到的中文关键词在建立在的失信数据库中进行匹配查询，得到是否被包含于该失信数据库的查询结果。例如，根据该目标用户的姓名或身份证号前6位来作为中文关键词进行搜索。

进一步的，在得到查询结构后，还可以进一步对该查询结果进行分析，例如判断该查询结果是否非空，若是，则说明该查询结果中含有数据，以便于进一步的核实是否确定为该目标用户，还可以将该查询结果通过预设路径显示在WEB界面上，以供查询人员获取相关信息；若否，则说明该查询结构内容为空，也就说明该目标用户的这个关键词不被建立起的失信数据库所包含，还可以尝试其它的中文关键词再次进行匹配查询，或根据情况直接发送未查询到的通信信息。

更进一步的，还可以将匹配查询的历史信息记录下来，还可以生成索引文件，以便于加快后续执行相同中文关键词的再次匹配查找。

基于上述技术方案，本申请实施例提供的一种失信用户信息的查询方法，基于Elastic Search，其能够多途径爬取各分散的失信数据库或黑名单数据库并从中获取失信数据，在经过整理和个性化处理后能够帮助企业快速判定目标用户是否为失信用户，进而提高贷出资金的质量，扩大企业效益。

以下结合图2，图2为本申请实施例所提供的另一种失信用户信息的查询方法的流程图。

本实施例是针对上一实施例中除去S101的部分具体如何实现所做出的一个具体限定，其它步骤与上一实施例大体相同，相同部分可参见上一实施例相关部分，在此不再赘述。

其具体包括以下步骤：

S201：利用IK Analyzer中文分词工具按两个中文字符长度对各数据类型执行分词操作，得到均为两个中文字符长度的各中文关键词；

本实施利用IK Analyzer之一中文分词效果表现较好的中文分词工具对爬取来的使用中文描述的数据类型执行分词操作，且以两个中文字符长度为分词单位，以尽可能多的得到执行分词操作后的中文关键词。

S202：获取与各中文关键词匹配的各英文关键词，并将各英文关键词设置在JOSN格式的入库文档的第一匹配序列；

获取与各中文关键词匹配的各英文关键词，并将各英文关键词设置在JOSN格式的入库文档的第一匹配序列。其中，获取与中文关键词匹配的英文关键词的方式多种多样，例如，可以利用各式翻译软件或在线翻译引擎，以获得想要的英文关键词，因为各翻译软件词库不同，可以按实际需要结合中文关键词所处情景选择最合适的翻译软件。

在得到对应的各英文关键词后，将各英文关键词设置在JOSN格式的入库文档的第一匹配序列，即英文关键词是后续建立起来的失信数据库的第一匹配序列，即任何形式的关键词都会转换为该英文关键词后，来进行对应的中文关键词、内容数据的匹配查询。

S203：将与各英文关键词对应的中文关键词设置在JOSN格式的入库文档的第二匹配序列；

S204：将与各中文关键词相对应的内容数据设置在JOSN格式的入库文档的内容描述处；

在S202和S203的基础上，本步骤旨在将英文关键词、中文关键词两者军对应的同一内容数据设置在JOSN格式的入库文档的内容描述处，即目标数据。

S205：依次由各英文关键词、对应的中文关键词、对应的内容数据组成失信数据库；

S206：根据外部输入的文字信息确定对应的中文关键词；

S207：利用中文关键词和第一匹配序列与第二匹配序列之间的对应关系，查得与中文关键词对应的英文关键词；

S208：利用英文关键词在失信数据库中进行匹配查询，得到查询结果；

在S205中的失信数据库建立完毕后，S206、S207以及S208旨在根据应用环境决定输入的查询关键词为中文关键词(目标用户姓名等)，并利用第一匹配序列和第二匹配序列之间的对应关系，找到对应第一匹配序列的英文关键词，并最终利用该第一匹配序列在对应的内容描述处找到目标数据，并根据该目标数据得到查询结果。

S209：将判断查询结果是否非空；

S210：将与英文关键词相匹配的内容数据按预设排序和显示规则显示在WEB界面上；

S211：显示无相应失信数据的通知信息。

S209、S210以及S211与S104中部分内容大体相同，相关描述内容可参见S104相关部分，此处不再赘述。

因为情况复杂，无法一一列举进行阐述，本领域技术人员应能意识到更具本申请提供的基本方法原理结合实际情况可以存在很多的例子，在不付出足够的创造性劳动下，应均在本申请的保护范围内。

下面请参见图3，图3为本申请实施例所提供的一种故障信息的排除系统的结构框图。

该查询系统可以包括：

数据爬取单元100，用于利用网络爬虫从各公共失信数据库或黑名单数据库中爬取失信数据；其中，失信数据中包括中文描述的数据类型及内容数据；

分词处理单元200，用于利用中文分词工具对数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词；

建立单元300，用于利用各中文关键词和与中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库；

匹配查询单元400，用于利用从目标用户处获取到的中文关键词在失信数据库中进行匹配查询，得到查询结果。

其中，分词处理单元200包括：

IK Analyzer分词处理子单元，用于利用IK Analyzer中文分词工具按两个中文字符长度对各数据类型执行分词操作，得到均为两个中文字符长度的各中文关键词。

其中，建立单元300包括：

第一设置子单元，用于获取与各中文关键词匹配的各英文关键词，并将各英文关键词设置在JOSN格式的入库文档的第一匹配序列；

第二设置子单元，用于将与各英文关键词对应的中文关键词设置在JOSN格式的入库文档的第二匹配序列；

第三设置子单元，用于将与各中文关键词相对应的内容数据设置在JOSN格式的入库文档的内容描述处；

数据库构成子单元，用于依次由各英文关键词、对应的中文关键词、对应的内容数据组成失信数据库。

其中，匹配查询单元400包括：

查询子单元，用于利用中文关键词和第一匹配序列与第二匹配序列之间的对应关系，查得与中文关键词对应的英文关键词；

匹配子单元，用于利用英文关键词在失信数据库中进行匹配查询，得到查询结果。

进一步的，该查询系统还可以包括：

查询结果非空判断单元，用于判断查询结果是否非空；

内容显示单元，用于将与英文关键词相匹配的内容数据按预设排序和显示规则显示在WEB界面上；

通知信息反馈单元，用于显示无相应失信数据的通知信息。

以上各单元可以应用于以下的一个具体的实际例子中：

利用Elasticsearch(是一个搜索服务器，它提供了一个分布式多用户能力的全文搜索引擎)构造的失信用户信息查询系统的构造具体过程如下：

1、通过爬虫1，爬虫2...爬虫n,从不同渠道收集黑名单数据；

2、将数据库以JOSN格式统一入库文档、采用IK Analyzer分词入库最终将句子分成一个一个词句；

3、通过Elastic Search，建立索引规则，搜索引擎，这里我们建立index(目录)为balcklist(黑名单)，type(类型)为promise(诚信),每条记录建立不同的id(编号)，source(材料)里包括的字段信息如下表1：

表1source中各字段信息表

involved_amt	涉案金额
		ID_card_no_pre	身份证号前六位
address	家庭住址
		ID_card_no	身份证号
case_code	案号
		qq	QQ号
name	姓名
		gender	性别
notes	备注
		filling_time	立案时间
Phone_no	手机号
		from_platform	来源平台

4、通过关键字向ELasticsearch发送搜索请求，这里我们以查询用户姓名或者身份证号前六位两个中的任意一个可以模糊匹配，通过搜索请求，如果失败，说明该用户不在黑名单库里，结束操作。如果匹配成功，转步骤5；

5、返回相应数据，并以WEb页面的形式呈现出来，主要结果信息统一为(1)姓名；(2)身份证号/机构代码；(3)QQ号码/E_mail微信号；(4)地址/执行法院；(5)性别(6)涉案金额；(7)立案金额；(8)立案时间/逾期时间；(9)案号；(10)备注；(11)来源平台。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种失信用户信息的查询方法，基于Elastic Search，其特征在于，包括：

2.根据权利要求1所述的查询方法，其特征在于，利用中文分词工具对所述数据类型按预设分词规则执行分词操作，得到最小长度的中文关键词，包括：

3.根据权利要求1或2所述的查询方法，其特征在于，利用各所述中文关键词和与所述中文关键词匹配的英文关键词以及对应的内容数据建立由JOSN格式的入库文档组成的失信数据库，包括：

4.根据权利要求3所述的查询方法，其特征在于，利用从目标用户处获取到的中文关键词在所述失信数据库中进行匹配查询，得到查询结果，包括：

根据外部输入的文字信息确定对应的中文关键词；

5.根据权利要求4所述的查询方法，其特征在于，还包括；

判断所述查询结果是否非空；

若否，则显示无相应失信数据的通知信息。

6.一种失信用户信息的查询系统，基于Elastic Search，其特征在于，包括：

7.根据权利要求6所述的查询系统，其特征在于，所述分词处理单元包括：

8.根据权利要求7所述的查询系统，其特征在于，所述建立单元包括：

9.根据权利要求8所述的查询系统，其特征在于，所述匹配查询单元包括：

10.根据权利要求9所述的查询系统，其特征在于，还包括：

查询结果非空判断单元，用于判断所述查询结果是否非空；

通知信息反馈单元，用于显示无相应失信数据的通知信息。