CN113987108B

CN113987108B - 一种基于电力数据进行企业身份识别的方法及装置

Info

Publication number: CN113987108B
Application number: CN202111311044.2A
Authority: CN
Inventors: 邓志东; 刘鲲鹏; 朱克; 朱青; 宫立华; 刘莉莉; 汪莉; 丁毛毛; 张会磊; 修乐天
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2021-11-07
Filing date: 2021-11-07
Publication date: 2024-05-14
Anticipated expiration: 2041-11-07
Also published as: CN113987108A

Abstract

本发明公开了一种基于电力数据进行企业身份识别的方法及装置，分析了电力数据特性，使用了地址标准化、地址拼接、非关键词过滤、Simhash编码、Simhash编码子串倒排索引、相似企业名称查询和相似企业地址查询操作，进行企业身份识别，提高了企业电力数据匹配率，解决一个企业多个用电账户情况下数据统计不全的问题，为基于电力数据进行关于企业的分析提供有效支撑。

Description

一种基于电力数据进行企业身份识别的方法及装置

技术领域

本发明涉及电力数据处理技术领域，特别涉及一种基于电力数据进行企业身份识别的方法及装置。

背景技术

电网资产管理是一项复杂的工作，既涉及电力系统和设备的可靠性，又与系统规划、在线监测、故障诊断技术和运行、调度、检修、资产全寿命周期管理等有关，直接影响到电网公司的运营和管理，在电力市场环境下还会影响到电网公司的收益。

电力数据中的客户基础档案数据和工单数据以客户用电账户作为唯一标识，记录了该用电账户的客户名称和客户地址。然而电力数据中记录的客户名称和客户地址没有与企业信息存在严格对应关系，且存在电力数据中记录的客户名称、客户地址不完整以及一个企业多个用电账户的情况，导致企业匹配率低，企业电力数据统计不全等问题。亟需要一种企业身份识别的方法，提高企业匹配率，完善企业电力数据统计结果，提高数据质量，为基于电力数据进行关于企业的分析提供支撑。

发明内容

本发明提供一种基于电力数据进行企业身份识别的方法及装置，解决一个企业多个用电账户情况下数据统计不全的问题，为基于电力数据进行关于企业的分析提供有效支撑。

根据本发明的一个方面，提供了一种基于电力数据进行企业身份识别的方法，包括以下步骤：

根据电力数据中的标记字段，筛选出企业电力数据；所述电力数据包括基础档案数据和工单数据；

构建行政地址库，对所述企业电力数据中的企业地址信息进行标准化，并对标准化后的企业地址进行地址拼接，得到标准化的企业地址信息；

根据所述标准化的企业地址信息构建非关键词词库，并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词，得到企业用电地址及用电账户名称信息；

对所述企业用电地址及用电账户名称信息进行文本切分，并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码；

将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码；根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离；当所述海明距离小于等于预设阈值时，确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似；

将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

所述方法还包括：

若所述电力数据为基础档案数据，则汇总与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户，得到与要识别的企业名称相似的电力数据的用电账户，汇总将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户；

若所述电力数据为是工单数据，则汇总与要识别的企业名称相似的工单数据中的企业名称对应的用电账户，得到与要识别的企业名称相似的电力数据的用电账户，汇总将与要识别的企业地址相似的工单数据中的企业地址对应的用电账户。

所述方法还包括：

将所述企业用电地址及用电账户名称信息的Simhash编码进行子串拆分，并根据所述子串基于抽屉原理创建倒排索引表；

将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码后，将所述对应的Simhash编码同样进行子串拆分后，在所述倒排索引表中查询对应的企业地址或企业名称作为相似企业地址或企业名称。

所述方法还包括：

对所述企业电力数据进行清洗，剔除已经销户的用电账户、基础档案和工单中均无企业名称或用电地址的用电账户以及重复记录的用电账户。

所述构建行政地址库，对所述企业电力数据中的企业地址信息进行标准化，并对标准化后的企业地址进行地址拼接，具体包括：

构建行政地址库，从国家统计局获取全国行政地址库，构建行政地址库数据表；台区编号与行政地址的映射，行政地址详细到区县一级；将基础档案数据和工单数据中的用电地址剔除掉区县级以上的这部分地址；将台区编号映射的行政地址与地址标准化的地址进行拼接，中间用分隔符隔开。

所述构建非关键词词库，并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词，具体包括：

所述非关键词包括地址中存在描述不规范且去掉该词不会明显改变地址的词；基于非关键词词库，将拼接后的用电地址、用电账户名称进行非关键词过滤，得到过滤后的用电地址、用电账户名称。

所述对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码，具体包括：

通过hash算法计算1-gram切分后的每个字符变成hash值；所述hash值是只包含0和1的一串数字；

将hash值为0的替换为-1，hash值为1的保持不变；

将非关键词过滤后的文本中的每个字符的hash值相加；

把相加的结果转换成0,1串，每一位大于0的记为1，小于0的记为0，得到Simhash编码。

所述确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似，具体包括：

将要识别的企业名称进行非关键词过滤，计算非关键词过滤后的企业名称的Simhash编码；

依次计算要识别的企业名称的Simhash编码与电力数据中的用电账户名称的Simhash编码的海明距离，如果海明距离小于等于阈值，则判定为该电力数据的用电账户与要识别的企业相似；

要识别的企业名称的Simhash编码为：(a₁,a₂...a_K)；

电力数据的用电账户名称的Simhash编码为：(b₁,b₂...b_K)；

其中，HE_a,b为要识别的企业名称的Simhash编码与电力数据中的用户账户名称的Simhash编码的海明距离；

将要识别的企业地址切分成两部分，第一部分是区县及其之前的地址，第二部分是区县之后的地址，进行非关键词过滤，计算非关键词过滤后的第二部分企业地址的Simhash编码；

依次计算要识别的企业地址与电力数据中的用电地址之间的综合距离，如果综合距离小于等于阈值，则判定为该电力数据的用电账户与要识别的企业相似，综合距离计算方法如下；

识别的企业地址分成两部分，第一部分为a_part1，第二部分为a_part2；

电力数据的用电地址分成两部分，第一部分为b_part1，第二部分为b_part2；

要识别的企业地址的第二部分的Simhash编码为：(a₁,a₂...a_K)；

电力数据的用电地址的第二部分的Simhash编码为：(b₁,b₂...b_K)；

HA_a,b＝d₁×d₂

其中，HA_a,b是要识别的企业地址与电力数据中的用电地址的综合距离；d₁是第一部分地址的距离；d₂是第二部分地址的距离，这部分距离是Simhash编码的海明距离。

根据本发明的另一个方面，提供了一种基于电力数据进行企业身份识别的装置，包括：

预处理单元，用于根据电力数据中的标记字段，筛选出企业电力数据；所述电力数据包括基础档案数据和工单数据；

标准化单元，用于构建行政地址库，对所述企业电力数据中的企业地址信息进行标准化，并对标准化后的企业地址进行地址拼接，得到标准化的企业地址信息；

非关键词过滤单元，用于根据所述标准化的企业地址信息构建非关键词词库，并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词，得到企业用电地址及用电账户名称信息；

Simhash编码单元，用于对所述企业用电地址及用电账户名称信息进行文本切分，并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码；

相似识别单元，用于将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码；根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离；当所述海明距离小于等于预设阈值时，确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似；

账户识别单元，用于将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

所述装置还包括：

子串拆分单元，用于将所述企业用电地址及用电账户名称信息的Simhash编码进行子串拆分，并根据所述子串基于抽屉原理创建倒排索引表；

所述相似识别单元，还用于将要识别的企业名称或企业地址对应的Simhash编码同样进行子串拆分后，在所述倒排索引表中查询对应的企业地址或企业名称作为相似企业地址或企业名称。

本发明的技术方案，提出了一种从电力数据中的客户基础档案数据和工单数据中识别企业的方法。该方法分析了电力数据特性，使用了地址标准化、地址拼接、非关键词过滤、Simhash编码、Simhash编码子串倒排索引、相似企业名称查询和相似企业地址查询操作，进行企业身份识别，提高了企业电力数据匹配率，解决一个企业多个用电账户情况下数据统计不全的问题，为基于电力数据进行关于企业的分析提供有效支撑。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中基于电力数据进行企业身份识别的原理流程图；

图2为本发明实施例中一个具体基于电力数据的企业身份识别方法实例流程图；

图3为本发明实施例中基于电力数据进行企业身份识别的装置结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例目的是通过数据预处理和相似度计算，实现企业身份的识别。

图1为本发明实施例中基于电力数据进行企业身份识别的流程图。如图1所示，该基于电力数据进行企业身份识别的流程包括以下步骤：

步骤11、根据电力数据中的标记字段，筛选出企业电力数据；所述电力数据包括基础档案数据和工单数据；所述基础档案数据和工单数据包括企业用电账户下的所有注册信息。

本发明实施例中，实现企业身份识别的方法所需的基础档案数据和工单数据，所属的基础档案数据和工单数据包括用电账户下的各个注册信息；根据电力数据中的标记字段，筛选出企业的电力数据，本发明专门针对企业电力数据展开进行企业身份识别。

步骤12、构建行政地址库，对所述企业电力数据中的企业地址信息进行标准化，并对标准化后的企业地址进行地址拼接，得到标准化的企业地址信息。

本发明实施例中，构建行政地址库，从国家统计局获取全国行政地址库，构建行政地址库数据表；台区编号与行政地址的映射，行政地址详细到区县一级；地址标准化，将基础档案数据和工单数据中的用电地址剔除掉区县级以上的这部分地址；地址拼接，将台区编号映射的行政地址与地址标准化的地址进行拼接，中间用分隔符隔开，分隔符包括但不限于’SEP’,’delim’,’&’,’|’。

步骤13、根据所述标准化的企业地址信息构建非关键词词库，并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词，得到企业用电地址及用电账户名称信息。

本发明实施例中，构建非关键词词库，将地址中存在描述不规范且去掉该词不会明显改变地址的词称为非关键词，构建非关键词词库；非关键词过滤，基于非关键词词库，将拼接后的用电地址、用电账户名称进行非关键词过滤，得到过滤后的用电地址、用电账户名称。

步骤14、对所述企业用电地址及用电账户名称信息进行文本切分，并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码。

本发明实施例中，采用1-gram方法进行文本切分，将非关键词过滤后电地址、用电账户名称进行1-gram切分，如‘天津市东丽区国家电网客户服务中心’采用1-gram方法切分为‘天/津/市/东/丽/区/国/家/电/网/客/户/服/务/中/心’。

通过hash算法计算1-gram切分后的每个字符变成hash值，hash值是只包含0和1的一串数字，将hash值为0的替换为-1，hash值为1的保持不变，然后将非关键词过滤后的文本中的每个字符的hash值相加，最后把相加的结果转换成0,1串，每一位大于0的记为1，小于0的记为0，得到Simhash编码。

步骤15、将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码；根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离；当所述海明距离小于等于预设阈值时，确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似。

本发明实施例中，相似企业名称查询，将要识别的企业名称进行非关键词过滤，计算非关键词过滤后的企业名称的Simhash编码，依次计算要识别的企业名称的Simhash编码与电力数据中的用电账户名称的Simhash编码的海明距离，如果海明距离小于等于阈值，则判定为该电力数据的用电账户与要识别的企业相似；

假设要识别的企业名称的Simhash编码为：(a₁,a₂...a_K)

假设电力数据的用电账户名称的Simhash编码为：(b₁,b₂...b_K)

HE_a,b代表要识别的企业名称的Simhash编码与电力数据中的用户账户名称的Simhash编码的海明距离。

相似企业地址查询，要识别的企业地址与电力数据中的用电地址的距离拆分成两部分进行计算，第一部分是区县及以前的这部分的地址，第二部分是区县之后的地址。将要识别的企业地址切分成两部分，第一部分是区县及其之前的地址，第二部分是区县之后的地址，进行非关键词过滤，计算非关键词过滤后的第二部分企业地址的Simhash编码，依次计算要识别的企业地址与电力数据中的用电地址之间的综合距离，如果综合距离小于等于阈值，则判定为该电力数据的用电账户与要识别的企业相似，综合距离计算方法如下；

识别的企业地址分成两部分，第一部分为a_part1，第二部分为a_part2

电力数据的用电地址分成两部分，第一部分为b_part1，第二部分为b_part2

要识别的企业地址的第二部分的Simhash编码为：(a₁,a₂...a_K)

电力数据的用电地址的第二部分的Simhash编码为：(b₁,b₂...b_K)

HA_a,b＝d₁×d₂

HA_a,b是要识别的企业地址与电力数据中的用电地址的综合距离；d₁是第一部分地址的距离，只有二者完全相等距离才为1，二者不等距离为无穷大，这是因为如果第一部分的地址不相同，则表示标准化及非关键词过滤后的区县级以上的地址不同，二者不可能是相同的地址；d₂是第二部分地址的距离，这部分距离是二者Simhash编码的海明距离。

步骤16、将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

本发明实施例中，企业名称包括客户基础档案数据中的企业名称和工单数据中的企业名称，用电地址包括客户基础档案数据中的用电地址和工单数据中的用电地址。将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

本发明实施例中，若所述电力数据为基础档案数据，则汇总与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户，得到与要识别的企业名称相似的电力数据的用电账户，汇总将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户；

本发明实施例中，还包括将所述企业用电地址及用电账户名称信息的Simhash编码进行子串拆分，并根据所述子串基于抽屉原理创建倒排索引表；

本发明实施例中，还包括对所述企业电力数据进行清洗，剔除已经销户的用电账户、基础档案和工单中均无企业名称或用电地址的用电账户以及重复记录的用电账户。

本发明实施例中，还可以包括一个子串拆分和构建子串倒排索引表的步骤。基于抽屉原理创建倒排索引，抽屉原理的一般含义为：如果每个抽屉代表一个集合，假如有n+1个元素放到n个集合中去，其中必定有一个集合里至少有两个元素。抽屉原理有时也被称为鸽巢原理。在本方案中，判断企业名称或企业地址相似的距离有一个阈值n，当两个企业或地址判定为相似，那么二者的Simhash编码最多有n个位置是不相等的，换句话说，如果二者的Simhash编码的海明距离小于等于n，那么认为二者是相似的，假设Simhash编码是64位，可以分成n+1组连续的数字，只有包含了要识别的企业或地址的Simhash的n+1个子串中的一个的电力数据用电账户名称或地址，二者才有可能相似。创建Simhash子串的倒排索引，将Simhash编码拆分成n+1个大小相等且连续的二进制码子串，将子串作为key，value保存了用电账户，由于可能对应多个用电账户，因此value是一个链表，链表中保存了该子串对应的所有用电账户。

相似企业名称查询，将要识别的企业名称进行非关键词过滤，计算非关键词过滤后的企业名称的Simhash编码，将该Simhash编码拆分成n+1个子串，依次判断n+1个子串在步骤19中创建的倒排索引表对应的用电账户，得到的用电账户就是与要识别的企业名称相似的电力数据中的企业。

相似企业地址查询，要将要识别的企业地址进行非关键词过滤，计算非关键词过滤后的企业地址的Simhash编码，将该Simhash编码拆分成n+1个子串，依次判断n+1个子串在步骤19中创建的倒排索引表对应的用电账户，得到的用电账户就是与要识别的企业地址相似的电力数据中的企业。

企业名称包括客户基础档案数据中的企业名称和工单数据中的企业名称，用电地址包括客户基础档案数据中的用电地址和工单数据中的用电地址。将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

具体的，参见图2，为本发明一个实施例提供的企业身份识别方法原理流程图。基于图2，本发明提供如下实施例来解决具体的企业身份识别问题。

实施例一：

步骤101：筛选出企业的基础档案数据和工单数据：本发明的处理对象是企业，根据电力数据中的标记字段，筛选出关于企业的电力数据。

步骤102：对数据进行清洗：剔除已经销户的用电账户、基础档案和工单中均无企业名称或用电地址的用电账户以及重复记录的用电账户。

步骤103：构建行政地址库：从国家统计局获取全国行政地址库，构建行政地址库数据表，数据表格式如下：

add_no	String	序号
			province_code	String	省份编码
province_name	String	省份名称
			city_code	String	城市编码
city_name	String	城市名称
			county_code	String	区县编码
county_name	String	区县名称

步骤104：台区编号与行政地址的映射：根据基础档案数据和工单数据中的台区编号和台区名称，构建台区编号与行政地址的映射表，行政地址详细到区县一级，一个台区编号只能对应一个区县，一个区县可能存在多个台区编号。这步操作的原因是台区名称中有准确的详细到区县一级的地址，可以用于后续标准化地址以及缩小地址相似度的计算范围。

步骤105：地址标准化：根据台区编号将步骤4中详细到区县的行政地址整合到基础档案数据和工单数据中，并将基础档案数据和工单数据中的用电地址剔除区县及以上的行政区划的这部分地址，因为区县及以上行政区划的这部分地址已在由步骤4统一规范到了行政地址，基础档案和工单数据中的用电地址已不需要区县及以上的行政区划的这部分地址，减小这部分地址不规范带来的影响。

步骤106：地址拼接：将台区编号映射的行政地址与剔除区县及以上行政区划后的地址进行拼接，二者拼接后中间以指定分隔符标注，分隔符包括但不限于’SEP’,’delim’,’&’,’|’。

步骤107：构建非关键词词库：基础档案数据和工单数据的企业名称和用电地址，存在一些非关键词，这些词在企业名称和用电地址中不规则，并且通常这些词的增加或减少并不影响我们判断这个地址，如有限公司、有限责任公司、自治区、市、自治县等等。因此针对企业名称和用电地址，构建非关键词词库，非关键词词库如下表所示：

步骤108：非关键词过滤：基于非关键词词库，将拼接后的用电地址、用电账户名称进行非关键词过滤，剔除出现在非关键词词库中的非关键词得到过滤后的用电地址、用电账户名称。

步骤109：文本切分：对用电地址和用电账户名称进行分词的效果通常差于常见文本的分词，同时分词的结果也会影响文本相似度的计算，本方案采用1-gram进行文本切分，将非关键词过滤后电地址、用电账户名称进行1-gram切分，如‘天津市东丽区国家电网客户服务中心’采用1-gram方法切分为‘天/津/市/东/丽/区/国/家/电/网/客/户/服/务/中/心’。

步骤110：Simhash编码：通过hash算法计算1-gram切分后的每个字符变成hash值，hash值是只包含0和1的一串数字，共计64位，将hash值为0的替换为-1，hash值为1的保持不变，然后将非关键词过滤后的文本中的每个字符的hash值相加，最后把相加的结果转换成0,1串，每一位大于0的记为1，小于0的记为0，得到Simhash编码，示例如下：

步骤110-1：要编码的字符串：‘天津市东丽区国家电网客户服务中心’

步骤110-2：1-gram文本切分后的字符串：‘天/津/市/东/丽/区/国/家/电/网/客/户/服/务/中/心’

步骤110-3：通过hash算法计算1-gram切分后的每个字符变成hash值

/>

步骤110-4：hash值转换，把hash值中的0统一替换成-1，这样做的目的是将映射后的词语放置在整个空间中，而不是某一个象限，这样可以让数据点分布得更均匀。

序号	hash值
		1.	1,-1,1,-1....-1,1
2.	-1,1,-1,1....1,1
		...	...
16.	-1,-1,1,1....1,-1

步骤110-5：把字符串中每个字符对应位的转换后的编码值相加，得到合并后的编码。

序号	合并后的编码
		1.	6,2,1,-5....-2,3

步骤110-6：将合并后的编码变成0，1串，如果数值大于0替换为1，数值小于0替换为0，得到字符串的Simhash编码。

序号	合并后的编码
		1.	1,1,1,0....0,1

步骤111：相似企业名称查询，将要识别的企业名称进行非关键词过滤，计算非关键词过滤后的企业名称的Simhash编码，依次计算要识别的企业名称的Simhash编码与电力数据中的用电账户名称的Simhash编码的海明距离，海明距离阈值设置为3，如果海明距离小于等于3，则判定为该电力数据的用电账户与要识别的企业相似。

假设要识别的企业名称的Simhash编码为：(a₁,a₂...a_K)

假设电力数据的用电账户名称的Simhash编码为：(b₁,b₂...b_K)

步骤112：相似企业地址查询，要识别的企业地址与电力数据中的用电地址的距离拆分成两部分进行计算，第一部分是区县及以前的这部分的地址，第二部分是区县之后的地址。将要识别的企业地址切分成两部分，第一部分是区县及其之前的地址，第二部分是区县之后的地址，进行非关键词过滤，计算非关键词过滤后的第二部分企业地址的Simhash编码，依次计算要识别的企业地址与电力数据中的用电地址之间的综合距离，综合距离阈值为3，如果综合距离小于等于3，则判定为该电力数据的用电账户与要识别的企业相似，综合距离计算方法如下；

要识别的企业地址的第二部分的Simhash编码为：(a₁,a₂...a_K)

HA_a,b＝d₁×d₂

HA_a,b是要识别的企业地址与电力数据中的用电地址的综合距离；d₁是第一部分地址的距离，只有二者完全相等距离才为1，二者不等距离为无穷大，这是因为如果第一部分的地址不相同，则表示标准化及非关键词过滤后的区县级以上的地址不同，二者不可能是相同的地址；d₂是第二部分地址的距离，这部分距离是二者Simhash编码的海明距离；

步骤113：企业名称包括客户基础档案数据中的企业名称和工单数据中的企业名称，用电地址包括客户基础档案数据中的用电地址和工单数据中的用电地址。将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

实施例二：

步骤201：同步骤101-步骤110。

步骤202：基于抽屉原理创建倒排索引，Simhash编码是64位，阈值设置为3，也就是说海明距离小于等于3的时候就判定为相似文本，因此将Simhash编码拆分成4个子串，这4个子串连续的，每个子串16位，按Simhash编码依次切分，将子串作为key，value是用电账户，由于可能对应多个用电账户，因此value设计为一个链表，链表中保存了该子串对应的所有用电账户，创建倒排索引表的时候，如果该key原来没有用电账户，则添加到链表中，如果已经存在用电账户，则新的用电账户追加到链表尾端，以此构建倒排索引表。抽屉原理的一般含义为：如果每个抽屉代表一个集合，假如有n+1个元素放到n个集合中去，其中必定有一个集合里至少有两个元素。抽屉原理有时也被称为鸽巢原理。在本方案中，判断企业名称或企业地址相似的距离有一个阈值，该阈值为3，当两个企业或地址判定为相似，那么二者的Simhash编码最多有3个位置是不相等的，换句话说，如果二者的Simhash编码的海明距离小于等于3，那么认为二者是相似的，假设Simhash编码是64位，可以分成4组连续的数字，只有包含了要识别的企业或地址的Simhash的4个子串中的一个的电力数据用电账户名称或地址，二者才有可能相似。

步骤203：相似企业名称查询，将要识别的企业名称进行非关键词过滤，计算非关键词过滤后的企业名称的Simhash编码，将该Simhash编码拆分成4个子串，依次判断4个子串在倒排索引表对应的用电账户，得到的用电账户就是与要识别的企业名称相似的电力数据中的企业。

步骤204：相似企业地址查询，要将要识别的企业地址进行非关键词过滤，计算非关键词过滤后的企业地址的Simhash编码，将该Simhash编码拆分成4个子串，依次判断4个子串在倒排索引表对应的用电账户，得到的用电账户就是与要识别的企业地址相似的电力数据中的企业。

步骤205：企业名称包括客户基础档案数据中的企业名称和工单数据中的企业名称，用电地址包括客户基础档案数据中的用电地址和工单数据中的用电地址。将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

为了实现上述流程，本发明技术方案还提供基于电力数据进行企业身份识别的装置，如图3所示，该基于电力数据进行企业身份识别的装置包括：

预处理单元21，用于根据电力数据中的标记字段，筛选出企业电力数据；所述电力数据包括基础档案数据和工单数据；所述基础档案数据和工单数据包括企业用电账户下的所有注册信息；

标准化单元22，用于构建行政地址库，对所述企业电力数据中的企业地址信息进行标准化，并对标准化后的企业地址进行地址拼接，得到标准化的企业地址信息；

非关键词过滤单元23，用于根据所述标准化的企业地址信息构建非关键词词库，并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词，得到企业用电地址及用电账户名称信息；

Simhash编码单元24，用于对所述企业用电地址及用电账户名称信息进行文本切分，并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码；

相似识别单元25，用于将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码；根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离；当所述海明距离小于等于预设阈值时，确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似；

账户识别单元26，用于将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集，得到与要识别的企业名称相似的电力数据的用电账户；将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集，得到与要识别的企业地址相似的电力数据的用电账户。

所述装置还包括：

子串拆分单元27，用于将所述企业用电地址及用电账户名称信息的Simhash编码进行子串拆分，并根据所述子串基于抽屉原理创建倒排索引表；

所述相似识别单元25，还用于将要识别的企业名称或企业地址对应的Simhash编码同样进行子串拆分后，在所述倒排索引表中查询对应的企业地址或企业名称作为相似企业地址或企业名称。

综上所述，本发明的技术方案，提出了一种基于电力数据进行企业身份识别的方案，一种从电力数据中的客户基础档案数据和工单数据中识别企业的方法。该方法分析了电力数据特性，使用了地址标准化、地址拼接、非关键词过滤、Simhash编码、Simhash编码子串倒排索引、相似企业名称查询和相似企业地址查询操作，进行企业身份识别，提高了企业电力数据匹配率，解决一个企业多个用电账户情况下数据统计不全的问题，为基于电力数据进行关于企业的分析提供有效支撑。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于电力数据进行企业身份识别的方法，其特征在于，包括以下步骤：

对所述企业用电地址及用电账户名称信息进行文本切分，并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码；具体包括：

将hash值为0的替换为-1，hash值为1的保持不变；

将非关键词过滤后的文本中的每个字符的hash值相加；

把相加的结果转换成0,1串，每一位大于0的记为1，小于0的记为0，得到Simhash编码；

将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码；根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离；当所述海明距离小于等于预设阈值时，确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似；具体包括：

要识别的企业名称的Simhash编码为：(a₁,a₂...a_K)；

电力数据的用电账户名称的Simhash编码为：(b₁,b₂...b_K)；

HA_a,b＝d₁×d₂

其中，HA_a,b是要识别的企业地址与电力数据中的用电地址的综合距离；d₁是第一部分地址的距离；d₂是第二部分地址的距离，这部分距离是Simhash编码的海明距离；

2.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法，其特征在于，所述构建行政地址库，对所述企业电力数据中的企业地址信息进行标准化，并对标准化后的企业地址进行地址拼接，具体包括：

6.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法，其特征在于，所述构建非关键词词库，并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词，具体包括：

7.一种基于电力数据进行企业身份识别的装置，其特征在于，所述装置包括：

Simhash编码单元，用于对所述企业用电地址及用电账户名称信息进行文本切分，并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码；具体包括：

将hash值为0的替换为-1，hash值为1的保持不变；

将非关键词过滤后的文本中的每个字符的hash值相加；

相似识别单元，用于将要识别的企业名称或企业地址进行非关键词过滤，并计算对应的Simhash编码；根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离；当所述海明距离小于等于预设阈值时，确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似；具体包括：

要识别的企业名称的Simhash编码为：(a₁,a₂...a_K)；

电力数据的用电账户名称的Simhash编码为：(b₁,b₂...b_K)；

HA_a,b＝d₁×d₂

8.根据权利要求7所述的一种基于电力数据进行企业身份识别的装置，其特征在于，所述装置还包括：