CN109583744A

CN109583744A - 一种基于中文分词的跨系统台账匹配系统及方法

Info

Publication number: CN109583744A
Application number: CN201811418916.3A
Authority: CN
Inventors: 李志�; 夏同飞; 章玉龙; 王超; 郭振; 张学敏; 费晓璐; 岳想想
Original assignee: State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-04-05

Abstract

本发明提供一种基于中文分词的跨系统台账匹配系统，包括业务场景定义模块，用于从业务对象源获得相应业务对象，同时对所述业务对象的业务场景进行定义，通过定义业务需求确定数据源及数据范围，根据所述业务对象及特征属性确定匹配算法模型对所述业务场景进行标准化；分词模块，用于对所述业务对象进行中文分词，包括经典中文分词、改进型Trie索引树分词和双数组Trie分词；特征提取模块，用于提取得到所述业务对象的业务对象特征；匹配引擎实现模块，用于根据所述业务场景，将分词算法与匹配模型相结合，并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果，存储所述结果并将所述结果反馈至所述匹配引擎。

Description

一种基于中文分词的跨系统台账匹配系统及方法

技术领域

本发明涉及台账系统技术领域，具体涉及一种基于中文分词的跨系统台账匹配系统及方法。

背景技术

配用电是电网企业的核心业务，营配台账是配用电业务开展的重要基础。由于电网营配调业务关联性强、营配台账(例如线路、台区、变压器、用户等)分属不同专业管理且存在交集，故营配调基础台账的贯通、对应问题一直是电力业务难点之一。公司营配调数据贯通专项治理工作已取得阶段性成果，依靠辅助工具加人工梳理方式实现存量台账数据匹配，再结合两端业务系统定制开发数据集成接口方式持续维护台账匹配关系，主要存在以下不足：

1.工具对现有数据结构设计依赖性强，自动化程度有限。目前主要使用营配贯通等工具，指定两端系统表和字段辅助台账匹配，对于设计时未考虑不同系统间台账匹配关系、或实际数据不满足不同系统间匹配需要的情况则无能为力或作用有限；

2.台账数据匹配关系需通过专用数据同步接口维护。一方面需要结合源端业务系统进行定制开发和集成联调，存在较大的开发工作量；另一方面接口同步一般采用定时、批量方式，业务连续性受到影响；同时台账数据模型的升级、维护需充分考虑相关业务系统，曾出现过因升级导致同步失败、影响相关系统运行的情况；

3.目前营配调台账数据匹配问题依然存在且目前缺乏有效监测手段。站-线-变-户拓扑关系复杂多变，跨系统间台账匹配问题“前清后乱”，严重影响了同期线损计算考核等工作，个别地区模型配置率和线损可算率甚至低于80％。

发明内容

针对现有技术的不足，本发明提供一种基于中文分词的跨系统台账匹配系统及方法，能够在提高营配基础数据质量的同时，有效降低人工查验工作量，维持基础台账的真实有效性，有效地提升公司管理水平。

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于中文分词的跨系统台账匹配系统，包括：

业务场景定义模块，用于从业务对象源获得相应业务对象，同时对所述业务对象的业务场景进行定义，通过定义业务需求确定数据源及数据范围，根据所述业务对象及特征属性确定匹配算法模型对所述业务场景进行标准化；

分词模块，用于对所述业务对象进行中文分词，包括经典中文分词、改进型Trie索引树分词和双数组Trie分词；

特征提取模块，用于提取得到所述业务对象的业务对象特征；

匹配引擎实现模块，用于根据所述业务场景，将分词算法与匹配模型相结合，并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果，存储所述结果并将所述结果反馈至所述匹配引擎；

结果显示模块，用于根据所述业务场景执行匹配操作，展示匹配结果及相关关键指标；同时对匹配结果依据匹配概率进行排序，并对可疑的匹配情况进行标示。

进一步地，所述系统包括：

匹配对接模块，用于所述业务对象特征上传至所述匹配引擎。

进一步地，所述分词模块包括：规范化及预处理子模块、中文分词子模块和其他属性特征提取子模块。

一种基于中文分词的跨系统台账匹配的方法，其特征在于，所述方法包括步骤：

步骤一、从业务对象源获得相应业务对象，同时对所述业务对象的业务场景进行定义，通过定义业务需求确定数据源及数据范围，根据所述业务对象及特征属性确定匹配算法模型对所述业务场景进行标准化；

步骤二、对所述业务对象进行中文分词，包括经典中文分词、改进型Trie索引树分词和双数组Trie分词；

步骤三、提取得到所述业务对象的业务对象特征；

步骤四、根据所述业务场景，将分词算法与匹配模型相结合，并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果，存储所述结果并将所述结果反馈至所述匹配引擎；

步骤五、根据所述业务场景执行匹配操作，展示匹配结果及相关关键指标；同时对匹配结果依据匹配概率进行排序，并对可疑的匹配情况进行标示。

进一步地，所述方法包括：

步骤六、将所述业务对象特征上传至所述匹配引擎。

进一步地，所述步骤二具体包括规范化及预处理、中文分词和其他属性特征提取。

进一步地，所述匹配模型包括VSM向量空间模型、布尔模型和概率模型。

进一步地，所述匹配模型的建立，包括：

样本数据提取、训练集和验证集设定、中文分词特征提取、业务对象其他特征选取、匹配度计算、匹配效果验证和匹配模型的优化。

与现有技术相比，本发明具有以下有益效果：

本发明提出多种非结构化文本分词方法，在经典的词典分词方法基础上提出改进TRIE索引树、双数组Trie(double2array trie)两种分词方法，更能适应电力业务环境；本发明提出多种非结构化文本匹配算法，基于VSM向量空间模型、布尔模型和概率模型等计算不同系统间电力业务对象的特征匹配度；本发明基于自然语言处理(NLP)的跨系统台账对应原型应用，实现分词算法、建立分词匹配模型并构建匹配引擎，结合营配调数据贯通场景进行验证。

本发明应用自然语言处理进行中文分词、模型匹配，能够依据各地、各系统设备台账命名习惯，提取标志性分词，加上台账关键属性在不同系统间进行台账匹配或缩小台账匹配范围；同时能够依据匹配规则实时监测、核查台账匹配情况，发现可疑的、匹配错误的台账数据，辅助工作人员核实台账，在大大提高营配基础数据质量的同时，可有效降低人工查验工作量，对维持基础台账的真实有效性、提升公司管理水平具有十分重要的意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明整体架构原理图；

图2为本发明系统框架结构图；

图3为本发明方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于中文分词的跨系统台账匹配系统，包括：

业务场景定义模块201，用于从业务对象源获得相应业务对象，同时对业务对象的业务场景进行定义，通过定义业务需求确定数据源及数据范围，根据业务对象及特征属性确定匹配算法模型对业务场景进行标准化；

分词模块202，用于对业务对象进行中文分词，包括经典中文分词、改进型Trie索引树分词和双数组Trie分词；

特征提取模块203，用于提取得到业务对象的业务对象特征；

匹配引擎实现模块204，用于根据业务场景，将分词算法与匹配模型相结合，并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果，存储结果并将结果反馈至匹配引擎；

结果显示模块205，用于根据业务场景执行匹配操作，展示匹配结果及相关关键指标；同时对匹配结果依据匹配概率进行排序，并对可疑的匹配情况进行标示。

匹配对接模块206，用于业务对象特征上传至匹配引擎。

具体地，分词模块202包括：规范化及预处理子模块、中文分词子模块和其他属性特征提取子模块。

本发明还提供了一种基于中文分词的跨系统台账匹配的方法，包括步骤：

步骤一、从业务对象源获得相应业务对象，同时对业务对象的业务场景进行定义，通过定义业务需求确定数据源及数据范围，根据业务对象及特征属性确定匹配算法模型对业务场景进行标准化；

步骤二、对业务对象进行中文分词，包括经典中文分词、改进型Trie索引树分词和双数组Trie分词；

步骤三、提取得到业务对象的业务对象特征；

步骤四、根据业务场景，将分词算法与匹配模型相结合，并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果，存储结果并将结果反馈至匹配引擎；

步骤五、根据业务场景执行匹配操作，展示匹配结果及相关关键指标；同时对匹配结果依据匹配概率进行排序，并对可疑的匹配情况进行标示。

步骤六、将业务对象特征上传至匹配引擎。

具体地，步骤二包括规范化及预处理、中文分词和其他属性特征提取。

具体地，匹配模型包括VSM向量空间模型、布尔模型和概率模型，匹配模型的建立包括：

使用数学方法对非结构化的文本建立模型，结合各业务场景下应用中文分词方法提取的业务对象特征数据，加上业务对象其他关键属性，计算不同系统间模型匹配概率，辅助工作人员快速缩小台账匹配范围，提高匹配精度。主要包括VSM向量空间模型、布尔模型和概率模型：

本发明分别选取配电线路命名在调度、运检和营销系统中的命名匹配，变电站在调度和营销系统中的命名匹配，配电台区在电力运检和营销系统中的命名匹配等不同场景，结合不同中文分词方法进行向量空间模型定义，评价向量空间模型对特定业务场景的适应情况，研究工作包括：样本数据提取、训练集和验证集设定、中文分词特征提取、业务对象其他特征选取、匹配度计算、匹配效果验证、匹配模型优化与完善等。

本发明结合各业务场景，评估布尔模型对向量空间模型的建模过程简化度和匹配效率提升效果，同时与向量空间模型进行比对，从匹配识别率和匹配精确度的下降等方面，确认概率模型在各电力业务场景下的实用度。

本发明结合各业务场景，并提出各种概率计算算法，评估各种概率计算算法下，概率模型对向量空间模型的建模过程简化度，同时与向量空间模型进行比对，从匹配识别率和匹配精确度的下降等方面，确认概率模型在各电力业务场景下的实用度。

本发明以典型电力业务场景下设备台账匹配为实例，研究各种分词技术、匹配技术实现，原型系统包括如下主要功能：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于中文分词的跨系统台账匹配系统，其特征在于，所述系统包括：

2.根据权利要求1所述的一种基于中文分词的跨系统台账匹配系统，其特征在于，所述系统包括：

3.根据权利要求1所述的一种基于中文分词的跨系统台账匹配系统，其特征在于，所述分词模块包括：规范化及预处理子模块、中文分词子模块和其他属性特征提取子模块。

4.一种基于中文分词的跨系统台账匹配的方法，其特征在于，所述方法包括步骤：

步骤三、提取得到所述业务对象的业务对象特征；

5.根据权利要求4所述的一种基于中文分词的跨系统台账匹配方法，其特征在于，所述方法包括：

步骤六、将所述业务对象特征上传至所述匹配引擎。

6.根据权利要求4所述的一种基于中文分词的跨系统台账匹配方法，其特征在于：所述步骤二具体包括规范化及预处理、中文分词和其他属性特征提取。

7.根据权利要求4所述的一种基于中文分词的跨系统台账匹配方法，其特征在于：所述匹配模型包括VSM向量空间模型、布尔模型和概率模型。

8.根据权利要求7所述的一种基于中文分词的跨系统台账匹配方法，其特征在于，所述匹配模型的建立，包括：