CN113268568A

CN113268568A - 一种基于分词技术的电力工单重复诉求分析方法

Info

Publication number: CN113268568A
Application number: CN202110710087.1A
Authority: CN
Inventors: 魏清; 庄建; 惠光艳
Original assignee: Jiangsu Zhongkun Data Technology Co ltd
Current assignee: Jiangsu Zhongkun Data Technology Co ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-08-17
Anticipated expiration: 2041-06-25
Also published as: CN113268568B

Abstract

一种基于分词技术的电力工单重复诉求分析方法，1)电力工单数据获取，电力工单包括非抢修工单和抢修工单，具体为从非抢修工单中获取工单编号，从抢修工单表中获取工单编号等，其中非抢修工单中的联系地址和抢修工单中的故障地址为需要拆分的地址信息，电力工单包括省所有地级市的非抢修工单和抢修工单；2)对电力工单地址信息进行预处理，具体为对于地址信息缺失而有客户编号的工单，通过客户编号关联客户信息表获取地址信息；将地址信息处理成连续无空格的文本形式，去掉地址信息中的特殊字符；3)地址分词知识库构建，过程是通过训练样本输出一个基于条件随机场的地理实体名词识别模型，4)对工单中的故障地址和联系地址进行切分。

Description

一种基于分词技术的电力工单重复诉求分析方法

技术领域

本发明属于人工智能自然语言处理与工单重复诉求分析领域，具体涉及一种基于分词技术的电力工单重复诉求分析方法。

背景技术

随着电力市场改革纵深推进和客户期望持续提升，优质服务工作的系统性、局域性特点愈加凸显，而一定区域内的非抢修工单和抢修工单重复诉求问题作为不可忽视的隐患问题，需格外重视。本发明以设定时间范围内小区或者村等区域范围为分析对象，以重复诉求问题为切入点，挖掘客户服务热点难点，提升服务意识、强化问题管控，实现客户诉求的真正落地。

现有工单重复诉求分析多是分析一个月内同一客户、同一电话号码对同一事件重复致电两次及以上的事件数，而忽略了电力问题的周期性和区域性，本发明利用分词技术从客户提供的联系地址或者故障地址中提取小区或者村庄等最小区域单位的地址信息，然后以小区或者村庄为分析对象，分析小范围区域内重复诉求事件，但是客户提供的地址描述字段过于随意，存在信息缺失、记录错误等问题，此外歧义现象和未登录词识别也是中文地址分词中的难点，解决这两大难点对分词结果的准确性至关重要，本发明根据中文地址组成特点设计了标准地址模型，并在标准地址模型的基础上构建了行政区划等级库和特征词库，利用条件随机场模型设计识别中文地址分词中未登录词的模型，将以上的行政区划等级库、特征词库以及实体识别模型作为中文地址分词的数据支撑，从而实现工单地址的准确分词，进而对工单进行重复诉求分析。

发明内容

为解决现有技术存在的问题，本发明的目的是能够正确对客户提供的联系地址和故障地址进行分词，提取小区或者村庄等区域性地址信息，从而能够分析基于小区或者村庄的重复诉求问题，利于电力业务推行网格化服务，便于对薄弱区域的重点监视，及时发现潜在隐患。

本发明技术方案具体如下：一种基于分词技术的电力工单重复诉求分析方法，

步骤1：电力工单数据获取，电力工单包括非抢修工单和抢修工单，具体为从非抢修工单中获取工单编号、联系地址、所属地市编码、接单时间、客户编号、业务类型和业务子类型等，从抢修工单表中获取工单编号、故障报修时间、客户编号、所属地市编码、故障地址和故障原因等，其中非抢修工单中的联系地址和抢修工单中的故障地址为本发明中需要拆分的地址信息，本发明中电力工单包括江苏省13个地市的非抢修工单和抢修工单；

步骤2：对地址信息进行预处理，具体为对于地址信息缺失而有客户编号的工单，通过客户编号关联客户信息表获取地址信息，剔除客户编号和地址信息都缺失的工单；将地址信息处理成连续无空格的文本形式，去掉地址信息中的特殊字符，包括“、”、“-”、“()”等；

步骤3：地址分词知识库构建

步骤3.1：标准地址模型的设计，通过对历史工单中地址数据组成规律的分析，将地址划分为13个等级，每个等级设置对应的关键字，分别是A-省，B-市，C-区、县，D-乡、镇、街道、街道办，E-村、新村、社区，F-道、路、街、巷、弄、大街、大道、公路、国道，G-号，H-小区、大厦、广场、大楼、公司、饭店、公寓、酒店、工业园，工业区、科技园、创业园、产业园、园、苑、坊、阁，I-栋、幢、舍，J-单元，K-楼、层，L-室、舍、房，UN表示不能识别的部分，

步骤3.2：获取行政区划等级库，从国家统计局爬取2020年江苏省行政区划分数据，具体到村级，数据示例：

1)江苏省-省-A

2)无锡市-市-B

3)锡山区-县-C

4)东亭街道-乡-D

5)门楼社区居委会-村-E

6)柏庄社区居委会-村-E

7)春星社区居委会-村-E

8)春合社区居委会-村-E

9)庄桥社区居委会-村-E

10)新屯社区居委会-村-E

11)北街社区居委会-村-E

12)东亭社区居委会-村-E

13)东街社区居委会-村-E

14)……

步骤3.3：采用基于条件随机场的统计学模型来训练样本数据识别出每条地址中的地理实体名词，通过训练样本输出一个识别模型，然后用一部分测试数据对模型的识别结果做评估，如果识别结果高于一定的阈值，即可将待分词的地址数据交付给建好的模型进行处理，然后将某条地址中的实体名词识别结果作为该地址分词的知识库，为该地址后面分词流程做准备；否则就要修改特征模板，直到输出识别率符合要求的识别模型为止；

步骤3.4：特征选取，在利用条件随机场建立模型时，需要针对特定的问题选择有效的特征，通过对历史工单中地址组成规律的分析，选取主要特征有后缀词、左界词、全文信息，主要的后缀词有：园、寓、厂、站、所、校、队、局、房、城、苑、店、队等，主要的双字后缀词有：公司、家园、嘉园、花园、花苑、人家、新城、名苑、华府、雅苑、雅居、酒店、宾馆、学校、大学、社区、校区等；

步骤4：对工单中的故障地址和联系地址进行切分，根据中文地址的特点并结合对中文地址组成规律的研究，中文地址比较适合采用基于字符串匹配的分词方法。考虑到中文地址分词的词典是一轻量级的知识库，因此采用正向最大匹配法(FMM)对中文地址进行分词处理，并将经过FMM分词后的地址单元挂载到对应的等级上去，对于等级是UN的单元作处理：如果当前地址单元不为UN,则将该地址单元挂载到他自身对应的等级上去；如果当前地址单元为UN，下一个地址单元不为UN，则将当前地址单元和它的下一个地址一起挂载到对应的等级，如果当前地址单元为UN，下一个地址单元已经不存在，将当前UN的地址单元作为独立的单元；

步骤5：利用地址信息分词结果结合抢修工单故障原因和非抢修工单业务子类型，分析电力工单重复诉求情况。由于不同市辖区的小区名称可能相同，所以在分析时加上市辖区，具体为对于地址分词结果中存在等级E而没有等级H的情况，分析等级E+等级C+等级B+抢修工单故障原因或非抢修工单业务子类型两种情况，对于地址分词结果中存在等级H的情况，分析地址分词结果中等级H+等级C+等级B+抢修工单故障原因或非抢修工单业务子类型两种情况，统计设定时间段内所选范围中同种抢修工单故障原因或非抢修工单业务子类型的重复次数，以此来反应所选区域内被频繁反应的问题。

步骤S4中：采用正向最大匹配法对中文地址进行分词处理，并将经过FMM分词后的地址单元挂载到对应的等级上去；确认待分词地址；将步骤S3识别结果、行政区划等级库和特征词库结合后，存在地址分词知识库；然后利用FMM对待分词地址进行分词处理：

从地址分词知识库的内容[1]开始至内容[n]，先切分出前面最大的词——"江苏省"；采用正向最大匹配法配出的词将保证下一个扫描不是词表中的词或词的前缀才结束。

有益效果：与现有技术相比，其显著优点以及形成的效果，1)本发明建立基于条件随机场的统计学模型识别出每条地址中的地理实体名称，构建地理实体名词知识库，用于后续地址的分词，条件随机场不存在强独立性假设，还克服了等条件概率行的标记偏置的缺点，在序列标注的问题上取得较好的性能；电力工单重复诉求分析能够地理实体名词知识库，用于后续的工单的地址的分词准确定位；2)本发明通过基于地址信息中最小区域单位的地址信息+所属市辖区+地级市+抢修工单故障原因/非抢修工单业务子类型，分析设定时段段内所选区域下同种抢修工单故障原因或非抢修工单业务子类型被重复反应的次数，以此来反应所选区域内被频繁反应的问题，帮助建立和健全问题发现及时、监督有效、服务到位的管理服务机制。

附图说明

图1为本发明实施例中一种基于分词技术的电力工单重复诉求分析方法实现的流程图；

图2所示为实施例的低压计量设备故障次数图示；

图3所示为实施例的非抢修工单分析结果示例图。

具体实施方式

图1为本发明实施例中一种基于分词技术的电力工单重复诉求分析方法实现的流程图，具体步骤有：

步骤S1：从非抢修工单中获取工单编号、联系地址、所属地市编码、接单时间、客户编号、业务类型和业务子类型等，从抢修工单表中获取工单编号、故障报修时间、客户编号、所属地市编码、故障地址和故障原因等，其中非抢修工单中的联系地址和抢修工单中的故障地址为本发明中需要拆分的地址信息，本发明中电力工单包括江苏省13个地市的非抢修工单和抢修工单

步骤S2：对地址信息进行预处理，具体为对于地址信息缺失而有客户编号的工单，通过客户编号关联客户信息表获取地址信息，剔除客户编号和地址信息都缺失的工单；将地址信息处理成连续无空格的文本形式，去掉地址信息中的特殊字符，包括“、”、“-”、“()”等；

步骤S3：构建地址分词知识库，包括根据地址组成特点设计标准地址模型，并在标准地址模型的基础上构建了行政区划等级库和特征词库，还利用条件随机场模型设计出了识别中文地址分词中未登录词的模型，并将以上的行政区划等级库、特征词库以及实体识别模型作为中文地址分词的数据支撑。

待分词地址：江苏省苏州市吴中区碧堤雅苑59幢403室，利用条件随机场模型识别出地址中未登录地理实体名词“碧提雅苑”，并加入到地址分词知识库中。

步骤S4：采用正向最大匹配法(FMM)对中文地址进行分词处理，并将经过FMM分词后的地址单元挂载到对应的等级上去；

待分词地址：content＝“江苏省苏州市吴中区碧堤雅苑59幢403室”

将步骤S3识别结果、行政区划等级库和特征词库结合后，存在地址分词知识库：dict＝[‘江苏’，’江苏省’，’苏州’，’苏州市’，’吴中区’，’碧提雅苑’，‘号’，‘栋’，‘室’，‘幢’……]，然后利用FMM对待分词地址进行分词处理：

(1)从content[1]开始，当扫描到content[2]的时候，发现"江苏"已经在词表dict中了，但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)；

(2)继续扫描content[3]，发现"江苏省"是dict中的词，继续扫描下去；

(3)扫描content[4]，发现"江苏省苏"不是dict中的词，也不是词的前缀，因此可以切分出前面最大的词——"江苏省"；

(4)按照上述步骤的逻辑对剩下的地址部分继续进行分词处理。

采用正向最大匹配法配出的词将保证下一个扫描不是词表中的词或词的前缀才可以结束：最终分词结果为：江苏省/苏州市/吴中区/碧堤雅苑/59/幢/403/室

按照标准地址模型(A-省，B-市，C-区、县，D-乡、镇、街道、街道办，E-村、新村、社区，F-道、路、街、巷、弄、大街、大道、公路、国道，G-号，H-小区、大厦、广场、大楼、公司、饭店、公寓、酒店、工业园，工业区、科技园、创业园、产业园、园、苑、坊、阁，I-栋、幢、舍，J-单元，K-楼、层，L-室、舍、房，UN表示不能识别的部分)将经过FMM分词后的地址单元挂载到对应的等级上去，结果为：江苏省/A，苏州市/B,吴中区/C,碧堤雅苑/H,59/UN,幢/I,403/UN,室/L；

步骤S5：根据地址信息分词结果，结合抢修工单故障原因和非抢修工单业务子类型，分析电力工单重复诉求情况，具体为基于地址信息中最小区域单位的地址信息等级E或者等级H+等级C+等级B+抢修工单故障原因或者非抢修工单业务子类型，分析所选时间段和设定区域内同种抢修工单故障原因或者非抢修工单业务子类型的重复次数。

抢修单分析结果示例：从2019年5月1日到2021年5月1日，无锡市北塘区/沁园新村反应的低压计量设备故障次数有11次，结果如图2所示：

非抢修工单分析结果示例：从2019年5月1日到2021年5月1日，无锡市北塘区/新惠家园，工单业务子类型为欠费复电登记重复诉求次数达97次，结果如图3所示。

Claims

1.一种基于分词技术的电力工单重复诉求分析方法，其特征是，步骤如下，

步骤1：电力工单数据获取，电力工单包括非抢修工单和抢修工单，具体为从非抢修工单中获取工单编号、联系地址、所属地市编码、接单时间、客户编号、业务类型和业务子类型，从抢修工单表中获取工单编号、故障报修时间、客户编号、所属地市编码、故障地址和故障原因，其中非抢修工单中的联系地址和抢修工单中的故障地址为需要拆分的地址信息，电力工单包括省所有地级市的非抢修工单和抢修工单；

步骤2：对电力工单地址信息进行预处理，具体为对于地址信息缺失而有客户编号的工单，通过客户编号关联客户信息表获取地址信息，剔除客户编号和地址信息都缺失的工单；将地址信息处理成连续无空格的文本形式，去掉地址信息中的特殊字符，包括“、”、“-”、“()”；

步骤3：地址分词知识库构建

步骤3.1：标准地址模型的设计，通过对历史工单中地址数据组成规律的分析，将地址划分为13个等级，每个等级设置对应的关键字，分别是A-省，B-市，C-区、县，D-乡、镇、街道、街道办，E-村、新村、社区，F-道、路、街、巷、弄、大街、大道、公路、国道，G-号，H-小区、大厦、广场、大楼、公司、饭店、公寓、酒店、工业园，工业区、科技园、创业园、产业园、园、苑、坊、阁，I-栋、幢、舍，J-单元，K-楼、层，L-室、舍、房，UN表示不能识别的部分；

步骤3.2：获取行政区划等级库，从国家统计局省行政区划分数据，具体到E等级(村级)名称的数据库；

步骤3.3：采用基于条件随机场的统计学模型来训练样本数据识别出每条电力工单地址信息中的地理实体名词。

过程是通过训练样本输出一个基于条件随机场的地理实体名词识别模型，然后用一部分测试数据对模型的识别结果做评估，如果识别结果高于一定的阈值，即可将待分词的地址数据交付给建好的模型进行处理，然后将某条地址中的地理实体名词识别结果作为该地址的知识库，为该电力工单地址后面分词流程做准备；否则就要修改识别模型的特征模板，直到输出识别率符合要求的识别模型为止；

步骤3.4：识别模型的特征模板特征选取，在利用条件随机场建立模型时，需要针对特定的问题选择有效的特征，通过对历史工单中地址组成规律的分析，选取主要特征有后缀词、左界词、全文信息，主要的后缀词有：园、寓、厂、站、所、校、队、局、房、城、苑、店、队等，主要的双字后缀词有：公司、家园、嘉园、花园、花苑、人家、新城、名苑、华府、雅苑、雅居、酒店、宾馆、学校、大学、社区、校区等；

步骤4：对工单中的故障地址和联系地址进行切分，根据中文地址的特点并结合对中文地址组成规律的研究，中文地址比较适合采用基于字符串匹配的分词方法；考虑到中文地址分词的词典是一轻量级的知识库，因此采用正向最大匹配法FMM对中文地址进行分词处理，并将经过FMM分词后的地址单元挂载到对应的等级上去，对于等级是UN的单元作处理：如果当前地址单元不为UN,则将该地址单元挂载到他自身对应的等级上去；如果当前地址单元为UN，下一个地址单元不为UN，则将当前地址单元和它的下一个地址一起挂载到对应的等级，如果当前地址单元为UN，下一个地址单元已经不存在，将当前UN的地址单元作为独立的单元；

步骤5：利用地址信息分词结果结合抢修工单故障原因和非抢修工单业务子类型，分析电力工单重复诉求情况；由于不同市辖区的小区名称可能相同，所以在分析时加上市辖区，具体为对于地址分词结果中存在等级E而没有等级H的情况，分析等级E+等级C+等级B+抢修工单故障原因或非抢修工单业务子类型两种情况，对于地址分词结果中存在等级H的情况，分析地址分词结果中等级H+等级C+等级B+抢修工单故障原因或非抢修工单业务子类型两种情况，统计设定时间段内所选范围中同种抢修工单故障原因或非抢修工单业务子类型的重复次数，以此来反应所选区域内被频繁反应的问题。

2.根据权利要求1所述的基于分词技术的电力工单重复诉求分析方法，其特征是，步骤S4中：采用正向最大匹配法对中文地址进行分词处理，并将经过FMM分词后的地址单元挂载到对应的等级上去；确认待分词地址；将步骤S3识别结果、行政区划等级库和特征词库结合后，存在地址分词知识库；然后利用FMM对待分词地址进行分词处理：从地址分词知识库的内容[1]开始至内容[n]，先切分出前面最大的词——"江苏省"；采用正向最大匹配法配出的词将保证下一个扫描不是词表中的词或词的前缀才结束。