CN102323950B

CN102323950B - 基于投诉信息的地点识别的方法和装置

Info

Publication number: CN102323950B
Application number: CN 201110264143
Authority: CN
Inventors: 孔令伟; 揭英虎; 裴福平; 孙乐
Original assignee: SHENZHEN MASTERCOM TECHNOLOGY Co Ltd
Current assignee: Shenzhen Mastercom Technology Corp
Priority date: 2011-09-07
Filing date: 2011-09-07
Publication date: 2013-07-31
Anticipated expiration: 2031-09-07
Also published as: CN102323950A

Abstract

本发明揭示了一种基于投诉信息的地点识别的方法，包括：接收投诉地点信息；在预设的地点库中逐级查找与投诉地点信息相匹配的地点信息；输出所述相匹配的地点信息。本发明还提出了对应的装置。本发明提供的一种投诉信息的地点识别的方法和装置，可准确识别投诉地点。

Description

基于投诉信息的地点识别的方法和装置

技术领域

本发明涉及到通信领域，特别涉及到一种基于投诉信息的地点识别的方法和装置。

背景技术

用户类投诉的地点定位与问题跟踪在网络优化及投诉处理中是必不可少的工作环节，为保证准确地定位客户投诉地点，及时获取地点信息与投诉原因，需建立对集中投诉地点的跟踪机制，以便采取相应措施并制定解决方案。其中，集中投诉地点需要具备几类信息：投诉地点名称、累计发生次数、持续天数、投诉用户数等，而主要以投诉地点名称进行汇总统计。另外，地点中的经纬度信息对于集中投诉的跟踪处理带来更大的便利，建立地点信息的管理机制对其起到不可替换的作用。因此，投诉地点的模糊识别、准确定位是对建立健全投诉热点跟踪机制的重要因素之一。

针对上述的问题，目前投诉处理人员通常采用的做法是：根据投诉内容中所描述的地点信息进行筛选，由于地点的描述不规范，还需要对同一地方不同名称的地点进行规范化整理，最后以EXCEL的方式记录所有的投诉信息。关于地点识别技术，网络上也有较多的地点识别技术，但都只是通过对地点的关键字进行模糊匹配，把所有符合条件的信息未经过滤全部呈现出来。上述地点信息汇聚方法与地点识别技术存在很多欠陷：

（1）地点定位不准确，由于所描述的地点信息为人工录入，难以避免地点信息中错字、别字、漏字、谐音字等，以致对人工分析和传统识别技术造成误导等问题；

（2）地点描述不规范，用户描述地点时往往以别名、简称替换全名，以造成在进行地点定位中，出现同一地点不同描述方式等不规范现象，致使无法实现地点唯一性定位的目标；

（3）处理效率低下，对于从海量的数据中提取集中投诉地点，无法快速对投诉点进行跟踪处理；

（4）工作量较大，从大量的投诉工单中筛选出集中投诉的地点，需要耗费大量的人力。

发明内容

本发明的主要目的为提供一种投诉信息的地点识别的方法和装置，可准确识别投诉地点。

本发明提出一种基于投诉信息的地点识别的方法，包括：

接收投诉地点信息；

在预设的地点库中逐级查找与投诉地点信息相匹配的地点信息；

通过二维模型和预设的标准回复统计所述匹配的地点信息的匹配率；所述二维模型的横坐标为投诉地点信息的名称，纵坐标为地点库中标准地点信息的名称，其中数字代表纵向的每一个字符在横向的字符中第几次被命中；所述标准回复，表示在回复中以标准的规则进行地点描述；该步骤进一步包括：

加载标准回复的地点信息至所述地点库，将投诉地点信息的名称和所述标准回复的地点信息的名称建立多个二维模型，计算各二维模型的命中率和最优路径，结合所述命中率和最优路径，得到所述标准回复的地点信息的匹配率；

将匹配率最高的地点信息设置为与所述投诉地点信息相匹配的地点信息；

输出所述相匹配的地点信息。

优选地，所述在预设的地点库中查找与接收的投诉地点信息相匹配的地点信息，包括：

根据预设的地点优先级、地点关键字、地点别名和/或地点简称进行匹配。

优选地，在执行所述通过二维模型和预设的标准回复统计匹配率之后，还包括：

同步所述地点库和标准回复。

优选地，所述同步所述地点库和标准回复，包括：

加载标准回复中出现预设第一次数，且未被命中或命中低于预设第二次数的高频地点信息；

根据高频地点信息与地点库内其它地点信息的关联度，以最大相似原则将所述高频地点信息归类；

统计每类地点信息中所述高频地点信息的名称出现的几率；

将出现几率最大的高频地点信息的名称作为标准地点信息的名称输入所述地点库。优选地，在执行所述将出现几率最大的高频地点信息的名称作为标准地点信息的名称输入地点库同时，还包括：

将出现几率最大的高频地点信息的名称以外的其它名称作为所述标准地点信息的别名输入所述地点库。

本发明还提出一种基于投诉信息的地点识别的装置，包括：

接收模块，用于接收投诉地点信息；

匹配模块，用于在预设的地点库中逐级查找与投诉地点信息相匹配的地点信息；

二次校正模块，用于通过二维模型和预设的标准回复统计所述匹配的地点信息的匹配率；以及将匹配率最高的地点信息设置为与所述投诉地点信息相匹配的地点信息；所述二维模型的横坐标为投诉地点信息的名称，纵坐标为地点库中标准地点信息的名称，其中数字代表纵向的每一个字符在横向的字符中第几次被命中；所述标准回复，表示在回复中以标准的规则进行地点描述；所述二次校正模块包括：

第一加载单元，用于加载标准回复的地点信息至所述地点库；

建立二维模型单元，用于将投诉地点信息的名称和所述标准回复的地点信息的名称建立多个二维模型；

第一计算单元，用于计算各二维模型的命中率和最优路径；

第二计算单元，用于结合所述命中率和最优路径，得到所述标准回复的地点信息的匹配率；

输出模块，用于输出所述相匹配的地点信息。

优选地，所述匹配模块具体用于：

优选地，所述二次校正模块包括：

第一计算单元，用于计算各二维模型的命中率和最优路径；

第二计算单元，用于结合所述命中率和最优路径，得到所述标准回复的地点信息的匹配率。

优选地，所述装置还包括：

自学习模块，用于同步所述地点库和标准回复。

优选地，所述自学习模块包括：

第二加载单元，用于加载标准回复中出现预设第一次数，且未被命中或命中低于预设第二次数的高频地点信息；

归类单元，用于根据高频地点信息与地点库内其它地点信息的关联度，以最大相似原则将所述高频地点信息归类；

几率统计单元，用于统计每类地点信息中所述高频地点信息的名称出现的几率；

第一输入单元，用于将出现几率最大的高频地点信息的名称作为标准地点信息的名称输入所述地点库。

优选地，所述自学习模块包括:

第二输入单元，用于将出现几率最大的高频地点信息的名称以外的其它名称作为所述标准地点信息的别名输入所述地点库。

本发明提出的一种投诉信息的地点识别的方法和装置，实现对投诉信息的地点识别和精确定位，该方法建立健全了地点库的管理机制，并充分考虑到投诉内容中的别名称、错别字、关键字和描述不一致等情况。科学分析投诉内容中的地点信息，并对其进行多次的确认与校正，实现地点信息自学习的方式，循环利用，使投诉定位更精确。

附图说明

图1为本发明投诉信息的地点识别的方法一实施例的流程示意图；

图2为本发明投诉信息的地点识别的方法一实施例中匹配步骤的流程示意图；

图3为本发明投诉信息的地点识别的方法一实施例中二次校正的流程示意图；

图4为本发明投诉信息的地点识别的方法一实施例中二维模型图；

图5为本发明投诉信息的地点识别的方法一实施例中路径图；

图6为本发明投诉信息的地点识别的方法一实施例中自学习步骤的流程示意图；

图7为本发明投诉信息的地点识别的装置一实施例的结构示意图；

图8为本发明投诉信息的地点识别的装置一实施例中二次校正模块的结构示意图；

图9为本发明投诉信息的地点识别的装置一实施例中自学习模块的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，提出本发明投诉信息的地点识别的方法一实施例，包括：

步骤S101、建立地点库。

为说明方便，本文将用户投诉内容中包括的地点信息称为投诉地点信息，将地点库内的地点信息称为标准地点信息。投诉地点信息的来源，主要是用户以电话方式向10086客服反馈，对于投诉地点的描述往往是周围的学校、建筑物、道路或者景观，难以与实际的地理信息进行关联。通过建立地点库，将县市、镇乡、大型住宅小区、高校、村庄、公共设施点、机关单位、宾馆酒店、大型购物、旅游景点、工厂、休闲娱乐、大型餐饮、中小学、山名、水系等信息纳入地点库进行管理。通过识别投诉数据中的地点信息，定位投诉发生的准确地点。为后续投诉的分析和处理，打下坚实的基础。

地点信息库的来源是多样的，可以是MAPINFO中的地点信息、CQT测试的地点信息、基站数据库信息、优化设备中地点信息，以及大量人工积累的投诉地点信息等。地点信息包括名称、关键字、别名、简称、地点类型、所属县市（乡镇）、经纬度，优先级，详细地址描述等等。

首先设置地点库内标准地点信息之间的归属关系和级别：按照地市->乡镇->街道->具体地点来设置标准地点信息。

其次设置标准地点信息的优先级，根据不同场景的地点进行优先级设置，越容易定位的地点，级别编号越低（如1-10级）。

再次按照地点关键字识别，对相同地点信息而不同实际地点进行关键字识别，如长安大学，根据投诉信息中包含的关键字，可匹配为长安大学（小寨）或长安大学（渭水），以达到地点的准确定位。

最后设置标准地点信息的别名或简称，按照用户的称呼习惯设置别名或简称，如西北工业大学，可将“西工大”作为西北工业大学的别名或简称。

步骤S102、投诉地点信息匹配。

参照图2，步骤S102可进一步包括：

步骤S1021、按县市、乡镇信息进行匹配，逐级搜索，缩小查询范围；

步骤S1022、按地点优先级的顺序进行分别识别，当命中率达到一定时则定位；

步骤S1023、按照完全匹配->拼音匹配->模糊匹配->拼音模糊匹配->自定义匹配的顺序对投诉地点信息进行识别；

步骤S1024、通过标准地点信息中的地点关键字和简称进行分析，区分对相同名称不同地点；

步骤S1025、输出已匹配到的标准地点信息。

步骤S103、二维数据模型校正分析。

根据投诉内容进行地点匹配时，由于存在多个标准地点信息致使适配不够准确，导致最终匹配得到的标准地点信息与实际的地点信息可能存在偏差，同时由于投诉内容中的投诉地点信息毫无规则，不能达到地点信息自学习的目的。为了避免地点信息适配的不准确性，提高适配的命中率，对投诉地点信息进行二次校正分析具有很大的必要性，而进行校正分析是以投诉地点的标准回复为前提的。

地点信息的标准回复，表示在回复中以标准的规则进行地点描述，规则如下：

{集中投诉地点(关键字1|关键字2|...)、集中投诉地点...}

集中投诉地点用于TOP集中投诉分析，地点级别为居民小区、学校、村庄等。关键字用于区分同一地点，地理位置不同的地点，若地点唯一的可不填。

参照图3，步骤S103进一步包括：

步骤S1031、加载标准回复的地点信息，按场景（学校、城中村、写字楼、居民住宅小区等）顺序对各个地点进行遍历；

步骤S1032、将投诉地点信息的名称与标准回复的内容建立二维模型；

投诉地点以西安西北大学为例，按优先级关系遍历地点库中的标准地点信息，若标准地点信息中包括有相同字（包括同音字）便进行标记。建立如图4所示的二维模型，横坐标为投诉地点信息的名称，纵坐标为地点库中标准地点信息的名称，其中数字代表纵向的每一个字符在横向的字符中第几次被命中，数字的大小先后不影响。

步骤S1033、分析每一二维模型的命中率

命中率M(X)，指匹配的多个标准地点信息的名称与实际地点信息的名称的同字或同音的字数，与匹配的多个标准地点信息的数目之比。图4所示二维模型中实际的地点信息的名称为西安西北大学，而匹配的标准地点信息中西安北三环大明宫命中率为50%，西安西北大学为100%，西北工业大学为67%。

步骤S1034、计算同一模型的最优路径；

如图4所示，如果投诉地点信息和标准地点信息是完全匹配，则该标准地点信息的二维模型的标记便是对角的斜线，该线路即为最优路径，因此匹配投诉地点信息的过程即是寻找最优路径的过程。对二维模型图进行分解，以标记所属的坐标值，计算与前一坐标的差值，并取绝对值求和，其结果便是路径值F(X)，该越小则越优，计算公式如下：

F (X) = Σ_{i = 1}^{n} (| X_{i} - X_{i - 1} |) + Σ_{j = 1}^{m} (| X_{j} - X_{j - 1} |)

n(m):表示二维模型的行数，i表示当前标记中的行坐标，j表示当前标记的列坐标,i-1表示前一个标记中的行坐标，j-1表示前一个标记中的列坐标，F(X)表示路径值，X₀为默认值0。

按行取样，即每次统计时每行只取一个标记值参加上述公式统计，同一行中若有多个值，则以排列组合的方式，经遍历得到的路径值的最小值则为一次匹配的最优路径。按该取样机制，以西安西北大学为例，将有四种不同的路径，如图5，从左至右，按公式计算得到的路径值F(X)分别是12，14，16，18。

步骤S1035、结合每一模型的命中率与最优路径，计算每一匹配的标准地点信息的匹配率

每个实际地点都有唯一的最优路径值H(X)，用该值与每个匹配的标准地点信息的路径值F(X)进行对比分析，求出每一匹配的标准地点信息的最优率R(X)，计算公式为：

当F(X)>=H(X)时，R(X)=H(X)/F(X)；当F(X)<H(X)时，R(X)=F(X)/H(X)。

结合命中率M(X)和最优率R(X)，得出每一匹配的标准地点信息的匹配率P(X)=R(X)*M(X)，其中，匹配率最大值的标准地点信息则为最大似然的地点，即为与投诉地点信息真正匹配的实际地点。

步骤S1036、将匹配率最高的标准地点信息输出。

步骤S104、地点信息自学习。

通过上述二次校正，有效提高投诉地点信息识别的准确性。为对标准回复中频繁出现却未曾被命中或命中率较低的投诉地点信息进行自学习，即将上述投诉地点信息同步至地点库中，通过如图6所示之步骤将地点库完善：

步骤S1041、加载标准回复中频繁出现却未曾被命中或命中率较低的地点信息至地点库；

步骤S1042、按地点信息的名称的关联度，以最大似然的准则将地点信息进行分类。分析每个地点信息与其他地点库内的地点信息的关联度，查看是否存在同一地点不同的描述方式，然后对关联度大的地点进行归类；

步骤S1043、分析每类中各个地点信息所出现的比例，若该地点信息的比例能达到一定程度，则将该地点信息作为实际地点信息，其它名称作为别名，同共包含的字符作为备选的关键字。按以上方式进行自学习后，由相关分析人员进行审核，把归类正确的地点信息导入地点库中，丰富地点库信息，实现地点信息循环利用，提高地点匹配的命中率，当地点库达到一定的规模后有利于实现相关的专题分析功能。

上述二次校正和地点自学习提高了投诉地点信息识别的准确率，并逐步完善地点库，随着地点库越来越完善，从而促使地点的匹配准确率得到提高，当达到一预设程度如95%时，二次校正可淡出不再需要，即二次校正适用于地点库的成长阶段，同时也是必不可少的一个阶段。

本发明提出的一种投诉信息的地点识别的方法，实现对投诉信息的地点识别和精确定位，该方法建立健全了地点库的管理机制，并充分考虑到投诉内容中的别名称、错别字、关键字和描述不一致等情况。科学分析投诉内容中的地点信息，并对其进行多次的确认与校正，实现地点信息自学习的方式，循环利用，使投诉定位更精确。

参照图7，提出本发明一种基于投诉信息的地点识别的装置一实施例，包括：

接收模块10，用于接收投诉地点信息；

匹配模块20，用于在预设的地点库中逐级查找与投诉地点信息相匹配的地点信息；

输出模块30，用于输出所述相匹配的地点信息。

二次校正模块40，用于通过二维模型和预设的标准回复统计所述匹配的地点信息的匹配率；以及将匹配率最高的地点信息设置为与所述投诉地点信息相匹配的地点信息。

自学习模块50，用于同步所述地点库和标准回复。

参照图8，二次校正模块40包括：

第一加载单元41，用于加载标准回复的地点信息至所述地点库；

建立二维模型单元42，用于将投诉地点信息的名称和所述标准回复的地点信息的名称建立多个二维模型；

第一计算单元43，用于计算各二维模型的命中率和最优路径；

第二计算单元44，用于结合所述命中率和最优路径，得到所述标准回复的地点信息的匹配率。

参照图9，自学习模块50包括：

第二加载单元51，用于加载标准回复中出现预设第一次数，且未被命中或命中低于预设第二次数的高频地点信息；

归类单元52，用于根据高频地点信息与地点库内其它地点信息的关联度，以最大相似原则将所述高频地点信息归类；

几率统计单元53，用于统计每类地点信息中所述高频地点信息的名称出现的几率；

第一输入单元54，用于将几率最大的高频地点信息的名称作为标准地点信息的名称输入所述地点库。

第二输入单元55，用于将除几率最大的高频地点信息的名称以外的其它名称作为所述标准地点信息的别名输入所述地点库。

为说明方便，本实施例将用户投诉内容中包括的地点信息称为投诉地点信息，将地点库内的地点信息称为标准地点信息。投诉地点信息的来源，主要是用户以电话方式向10086客服反馈，对于投诉地点的描述往往是周围的学校、建筑物、道路或者景观，难以与实际的地理信息进行关联。通过建立地点库，将县市、镇乡、大型住宅小区、高校、村庄、公共设施点、机关单位、宾馆酒店、大型购物、旅游景点、工厂、休闲娱乐、大型餐饮、中小学、山名、水系等信息纳入地点库进行管理。通过识别投诉数据中的地点信息，定位投诉发生的准确地点。为后续投诉的分析和处理，打下坚实的基础。

地点库的来源是多样的，可以是MAPINFO中的地点信息、CQT测试的地点信息、基站数据库信息、优化设备中地点信息，以及大量人工积累的投诉地点信息等。地点信息包括名称、关键字、别名、简称、地点类型、所属县市（乡镇）、经纬度，优先级，详细地址描述等等。

接收模块10接收到用户投诉的投诉地点信息后，匹配模块20对投诉地点信息进行匹配，具体为：

按县市、乡镇信息进行匹配，逐级搜索，缩小查询范围；

按地点优先级的顺序进行分别识别，当命中率达到一预设值时则定位；

按照完全匹配->拼音匹配->模糊匹配->拼音模糊匹配->自定义匹配的顺序对投诉地点信息进行识别；

通过标准地点信息中的地点关键字和简称进行分析，区分相同名称不同地点；

当匹配完成后，由输出模块30输出已匹配到的标准地点信息。

匹配模块20根据投诉内容进行地点匹配时，由于存在多个标准地点信息致使适配不够准确，导致最终匹配得到的标准地点信息与实际的地点信息可能存在偏差，同时由于投诉内容中的投诉地点信息毫无规则，不能达到地点信息自学习的目的。为了避免地点信息适配的不准确性，提高适配的命中率，二次校正模块40对投诉地点信息进行二次校正分析，而校正分析是以投诉地点的标准回复为前提的。

{集中投诉地点(关键字1|关键字2|...)、集中投诉地点...}

二次校正模块40进行校正的过程如下：

第一加载单元41加载标准回复的地点信息，按场景（学校、城中村、写字楼、居民住宅小区等）顺序对各个地点进行遍历；

建立二维模型单元42将投诉地点信息的名称与标准回复的内容建立二维模型。投诉地点以西安西北大学为例，按优先级关系遍历地点库中的标准地点信息，若标准地点信息中包括有相同字（包括同音字）便进行标记。建立如图4所示的二维模型，横坐标为投诉地点信息的名称，纵坐标为地点库中标准地点信息的名称，其中数字代表纵向的每一个字符在横向的字符中第几次被命中，数字的大小先后不影响。

第一计算单元43分析每一二维模型的命中率和同一模型下的最优路径。

F (X) = Σ_{i = 1}^{n} (| X_{i} - X_{i - 1} |) + Σ_{j = 1}^{m} (| X_{j} - X_{j - 1} |)

第二计算单元44结合每一模型的命中率与最优路径，计算每一匹配的标准地点信息的匹配率

当F(X)>=H(X)时，R(X)=H(X)/F(X)；当F(X)<H(X)时，R(X)=F(X)/H(X)。

输出模块30将匹配率最高的标准地点信息输出。

通过上述二次校正，有效提高投诉地点信息识别的准确性。为对标准回复中频繁出现却未曾被命中或命中率较低的投诉地点信息进行自学习，即将上述投诉地点信息同步至地点库中，自学习模块50通过如下过程将地点库完善：

第二加载单元51加载标准回复中频繁出现却未曾被命中或命中率较低的地点信息至地点库；

归类单元52按地点信息的名称的关联度，以最大似然的准则将地点信息进行分类。分析每个地点信息与其他地点库内的地点信息的关联度，查看是否存在同一地点不同的描述方式，然后对关联度大的地点进行归类。

几率统计单元53分析每类中各个地点信息所出现的比例，若该地点信息的比例能达到一定程度，则第一输入单元54将该地点信息作为实际地点信息，而第二输入单元55将其它名称作为别名，同共包含的字符作为备选的关键字。按以上方式进行自学习后，由相关分析人员进行审核，把归类正确的地点信息导入地点库中，丰富地点库信息，实现地点信息循环利用，提高地点匹配的命中率，当地点库达到一定的规模后有利于实现相关的专题分析功能。

上述二次校正模块40和自学习模块50提高了投诉地点信息识别的准确率，并逐步完善地点库，随着地点库越来越完善，从而促使地点的匹配准确率得到提高，当达到一预设程度如95%时，二次校正模块40和自学习模块50可取消不再需要，即二次校正适用于地点库的成长阶段，同时也是必不可少的一个阶段。

本发明提出的一种投诉信息的地点识别装置，实现对投诉信息的地点识别和精确定位，该方法建立健全了地点库的管理机制，并充分考虑到投诉内容中的别名称、错别字、关键字和描述不一致等情况。科学分析投诉内容中的地点信息，并对其进行多次的确认与校正，实现地点信息自学习的方式，循环利用，使投诉定位更精确。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于投诉信息的地点识别的方法，其特征在于，包括：

接收投诉地点信息；

输出所述相匹配的地点信息。

2.如权利要求1所述的方法，其特征在于，所述在预设的地点库中查找与接收的投诉地点信息相匹配的地点信息，包括：

3.如权利要求1所述的方法，其特征在于，在执行所述通过二维模型和预设的标准回复统计匹配率之后，还包括：

同步所述地点库和标准回复。

4.如权利要求3所述的方法，其特征在于，所述同步所述地点库和标准回复，包括：

统计每类地点信息中所述高频地点信息的名称出现的几率；

将出现几率最大的高频地点信息的名称作为标准地点信息的名称输入所述地点库。

5.如权利要求4所述的方法，其特征在于，在执行所述将出现几率最大的高频地点信息的名称作为标准地点信息的名称输入地点库同时，还包括：

6.一种基于投诉信息的地点识别的装置，其特征在于，包括：

接收模块，用于接收投诉地点信息；

第一计算单元，用于计算各二维模型的命中率和最优路径；

输出模块，用于输出所述相匹配的地点信息。

7.如权利要求6所述的装置，其特征在于，所述匹配模块具体用于：

8.如权利要求6所述的装置，其特征在于，还包括：

自学习模块，用于同步所述地点库和标准回复。

9.如权利要求8所述的装置，其特征在于，所述自学习模块包括：

10.如权利要求9所述的装置，其特征在于，所述自学习模块还包括: