CN113420564A

CN113420564A - 一种基于混合匹配的电力铭牌语义结构化方法及系统

Info

Publication number: CN113420564A
Application number: CN202110684942.6A
Authority: CN
Inventors: 尹奎龙; 滕杰; 翟季青; 张勇; 孙学武; 孙宏志; 任社宜; 王安东; 陈令英; 许光可; 赵富强; 李星
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; Materials Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; Materials Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-09-21
Anticipated expiration: 2041-06-21
Also published as: CN113420564B

Abstract

本公开提出了一种基于混合匹配的电力铭牌语义结构化方法即系统，包括：获取待识别的电力铭牌识别文本；利用设置的分词特殊符，将输入的电力铭牌识别文本分割成不同的词语；利用电力铭牌词库，对分割的词语进行混合匹配校准，进行词的标准化，输出校准后的分词数据；获取校准后的分词数据中的标签，利用标签库及与标签词关联的值库，在标签库中选取标签前后邻近的词进行匹配，获取其最可能的值，建立标签词与值的对应关系，即结构化文本；根据词义关系库，匹配结构化文本中主关联词与其关联的个子关联词之间的关系，最终标准化结构文本的关系。基于混合匹配的电力铭牌语义结构化方法相较传统的结构化准确率更高，适用性更好。

Description

一种基于混合匹配的电力铭牌语义结构化方法及系统

技术领域

本公开属于电力铭牌语义识别技术领域，尤其涉及一种基于混合匹配的电力铭牌语义结构化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

电力铭牌信息是识别电力设备信息及性能参数的重要途经，但是铭牌信息主要是以图像的形式或者是人工录入的形式进行获取，其中人工录入的方式人工耗费比较大、工作效率低，容易发生错误，因此基于OCR识别技术的铭牌信息自动录入技术逐渐兴起，但是由于电力铭牌的材质、文体特点及布局负责等特性，基于图像和OCR技术的铭牌文字识别不像文本识别那样的准确，同时其识别内容难以实现自动的规则化信息。因此实现OCR识别的铭牌文字的规格化变成了一个重要的工作。

发明人在研究中发现，传统的铭牌文字规格化主要是通过分词及邻近词组配对的方式进行建立规结构化的数据，这样处理的规格化信息缺少准确性，在应用中往往适用效果比较差。部分方法通过建立标准库来实现对标签的校准，由于其标签的匹配方法比较单一，其匹配的正确率比较低，导致整个其结构化数据匹配的正确率比较低。

发明内容

为克服上述现有技术的不足，本公开提供了一种基于混合匹配的电力铭牌语义结构化方法，提升了结构化的准确率。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了一种基于混合匹配的电力铭牌语义结构化方法，包括：

获取待识别的电力铭牌识别文本；

利用设置的分词特殊符，将输入的电力铭牌识别文本分割成不同的词语；

利用电力铭牌词库，对分割的词语进行混合匹配校准，进行词的标准化，输出校准后的分词数据；

获取校准后的分词数据中的标签，利用标签库及与标签词关联的值库，在标签库中选取标签前后邻近的词进行匹配，获取其最可能的值，建立标签词与值的对应关系，即结构化文本；

根据词义关系库，匹配结构化文本中主关联词与其关联的个子关联词之间的关系，最终标准化结构文本的关系；

输出标准化结构文本的关系即电力铭牌数据结构化文本。

进一步的技术方案，将输入的电力铭牌识别文本分割成不同的词语时，包括：

统计电力铭牌识别文本中所有的特殊字符的数量；

选取排名在前的若干个特殊字符作为本次的分词符；

按照确定的分词符，对电力铭牌识别文本进行分词划分；

对上述分词去除掉所有的特殊字符，之后输出分词结果。

进一步的技术方案，所述特殊字符为在对电力铭牌识别文本进行分词之前设置的。

进一步的技术方案，对分割的词语进行校准即词义校对时，使用不同的匹配方式针对分词结果的每一个词语与标准词库进行匹配，获得对应匹配结果，将得到的结果赋以不同的权重值，选取最优的匹配结果，代替分词结果中的原来的词，输出标准词库。

进一步的技术方案，利用标签库依次标识校准后的分词数据是否是标签，若是，则通过标签库，获取该标签词对应的所有的值库，将标签与标准值建立映射关系，处理完所有的分词数据并输出所有映射关系，即结构化文本。

作为优选的方案，获取该标签词对应的所有的值库之后，如果值库不存在标准值，对校准后的分词数据中标签词前后若干个词与标准值组依次进行匹配，选取其中可能性最大的，如果存在可能性相同的，按照邻近优先和后优先于前的原则选取标准值；

如果值库存在标准值，选取标签词后一个非标签词作为标准值。

进一步的技术方案，依次遍历结构化文本中所有的映射关系，匹配关联关系表，在结构化文本中查询出标签为主关联词的所有子关联词；

以子关联词为特征值，匹配所有的主关联词的所有枚举词的子关联词，选取匹配率最高的主关联词取代结构化文本中的主关联词，否则主关联词不变；

主关联词的所有标准子关联词代替结构文本中的所有子关联词；

输出关系校准后的结构化文本。

第二方面，公开了一种基于混合匹配的电力铭牌语义结构化系统，包括：

电力铭牌识别文本获取模块，被配置为：获取待识别的电力铭牌识别文本；

分词模块，被配置为：利用设置的分词特殊符，将输入的电力铭牌识别文本分割成不同的词语；

分词校准模块，被配置为：利用电力铭牌词库，对分割的词语进行混合匹配校准，进行词的标准化，输出校准后的分词数据；

结构化文本模块，被配置为：获取校准后的分词数据中的标签，利用标签库及与标签词关联的值库，在标签库中选取标签前后邻近的词进行匹配，获取其最可能的值，建立标签词与值的对应关系，即结构化文本；

标准结构化文本模块，被配置为：根据词义关系库，匹配结构化文本中主关联词与其关联的个子关联词之间的关系，最终标准化结构文本的关系；

输出模块，被配置为：输出标准化结构文本的关系即电力铭牌数据结构化文本。

以上一个或多个技术方案存在以下有益效果：

本发明提出了一种基于混合匹配的电力铭牌语义匹配方法，实现对电力铭牌识别文字的规格化。其根据铭牌的特点通过建立词库、语义库及词义关系库，分别进行分词、词语校准、结构化、关系矫正等处理，最后实现对电力铭牌文本的规格化。

本发明利用多种匹配方法进行相互校验后确定其标签值，同时根据电力铭牌的特点也建立了值库实现对固定数值的匹配，并采用了邻近词匹配方法，即解决了铭牌识别后文字换行的问题，也减少了全文匹配的时间消耗，另一方面，根据铭牌标签的关联特点，建立关系校准机制，进一步提升了结构化的准确率。

本发明相较于传统的电力铭牌识别文本结构化方法，充分考虑了识别文本的复杂性采用多元的匹配方法，并充分考虑到铭牌文字识别的特点和铭牌标签信息之间的关联性和制作标准，选取了对应的匹配方法，并实现了关系的校准。

本发明通过基于混合匹配的电力铭牌语义结构化方法结构化的铭牌识别文本，相校传统的铭牌识别文本结构化方法，其文本识别率较高的情况下，其准确率提升了约8％，而面对识别文本准确率不高的情况下，其准确率相较传统提升13％。因此，基于混合匹配的电力铭牌语义结构化方法相较传统的结构化准确率更高，适用性更好。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例基于混合匹配的电力铭牌语义结构化方法流程图；

图2为本公开实施例文本分词流程图；

图3为本公开实施例词义校对流程图；

图4为本公开实施例文本结构化流程图；

图5为本公开实施例词义关系校对流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本发明实施例的流程图如下图1所示，为基于混合匹配的电力铭牌语义机构化方法，包括：

S1：获取电力铭牌识别文本；

S2：利用设置的分词特殊符，将输入的文本分割成不同的词语；

S3：利用电力铭牌词库，对分割的词语进行校准，实现词的标准化；

S4：利用标签库及与标签词关联的值库，选取标签词前后邻近的词进行匹配，获取其最可能的值，建立标签词与值的对应关系；

S5：根据词义关系库，匹配主关联词与其关联的个子关联词之间的关系，最终标准化结构文本的关系；

S6：最后输出电力铭牌数据结构化文本。

在具体实施例中中，获取电力铭牌识别文本的方式可以为通过拍照或者选择图片的方式获得其对应的图像。

对S2文本分词通过如下方式实现：参见附图2所示：

S21：获取S1的铭牌文本；

S22：对文本中所有的特殊字符(预先设置特殊字符，例如为：“#”“～”“|”)进行统计数量；

S23：在S22的统计中，选取排名前4的特殊字符(如果少于4个全部选取)，作为本次的分词符；

S24：按照S23确定的分词符，对S1的文本进行分词划分；

S25：因为在文字识别中会因为铭牌上的光线、划痕迹、遮挡等因素产生大量的非正常字符，严重影响词语的分割，因此，对S24中的分词去除掉所有的特殊字符(预先设置特殊字符)；

S26：输出分词结果F。

通过上述方式充分利用铭牌历史数据特点建立特殊字符库，降低光影、划痕在OCR识别中产生的大量无用字符。

对S3中词义校对，通过如下方式实现，在该步骤中，因为电力铭牌的结构和用词相对标准，根据历史铭牌特点，构建了铭牌词语的标准库，明确了铭牌识别文字的取词范围：参见附图3所示：

S31：获取S2中的分词结果F；

S32：依次遍历每一个词语，与标准词库进行一下匹配，标准词库包括：“产品型号”“SBH15-M-400/10-NX1”“额定容量”“标准代码”“额定电压”“阻抗电压“。将历史的铭牌上出现的标准词语全部整合再标准词库里面，构建铭牌用词的全量词库；

S33：利用Edit Distance算法得到匹配结果M1；

原理：是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。利用递归及动态规划实现。

公式：

X和Y是两个比较的字符串，长度分别为n、m，D(i，j)为X的前i个字符X[1...i]与Y的前j个字符Y[1...j]之间的距离，其中0＜i＜n，0＜j＜m，X与Y的距离可以用D(n，m)来表示；字符间进行比较时，基本操作有插入、替换、删除，上述公式中采用的是LevenshteinDistance即替换的成本为2。

S34：利用Jaro Winkler算法得到匹配结果M2；

原理：该算法是Jaro distance算法的变种，适合于串(如名字)这样较短的字符之间计算相似度，最后得分越高说明相似度越大，0分表示没有任何相似度，1分则代表完全匹配。

Jaro distance算法得分公式：

其中S₁、S₂是要比对的两个字符，d_j是最后得分，m是匹配的字符数，t是换位的数目；

Jaro-Winkler distance算法公式：d_w＝d_j+L×P×(1-d_j)

其中：d_j是Jaro distance最后得分，L是前缀部分匹配的长度，P是一个范围因子常量，用来调整前缀匹配的权值，Winkler的标准默认值为0.1。

S35：利用N-Gram算法得到匹配结果M3；

原理：N-Gram模型是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构广泛应用于文本挖掘和自然语言处理任务。

公式：|G_N(s)|+|G_N(t)|-2×|G_N(s)∩|G_N(t)|

其中s和t是要比对的两个字符串，N值一般取2或3，|G_N(s)|为字符串s进行N分词后长度，|G_N(t)|为字符串t进行N分词后长度；

需要说明的是，上述三个算法同时进行。

S36：将得到的结果赋以不同的权重值，M1计3分、M2计4分、M3计3分。

在一具体例子中：用户输入的“北203机房”，经过标准化后仍为“北203机房”，在精准匹配的失败的情况下，用混合模糊匹配，在Edit Distance、Jaro Winkle、N-Gram三个算法下得到的结果M1为南203机房、M2为北综203机房、M3为北一楼203机房，根据权重值M1计3分、M2计4分、M3计3分，就选取M2为最终结果。

S37：选取最高得分的匹配结果，代替F中的原来的词；

S38：全部处理完成，输出标准词组F1。

对S4中文本结构化说明，通过如下方式实现，该步骤利用铭牌设计中的标准，进行键值对的划分，实现文本的快速结构化：参见附图4所示：

S41：获取S3的标准词库F1；

S42：利用标签库，用于标识电力铭牌中有哪些是标签如“型号”等，定义了文本中那些词可以用来作为将一段文字划分为不同的健值对，依次标识标准词库F1的词是否是标签，如果是执行下面S43，否则跳过；

例如：“产品型号：SBH15-M-400/10-NX1“，一个键值对，前者“产品型号”就是标签词，标志着这是什么标签，后面跟着的是值；

S43：通过标签库，获取该标签词对应的所有的值库；

S44：如果值库不存标准值执行S46，否则执行S45；

S45：选取标签词后一个非标签词作为值作为标准值，然后执行S47；

S46：对F1中标签词前后N个词(N为总词语数的1/12取整)，与标准值组依次按照N-Gram匹配，选取其中可能性最大的，如果存在可能性相同的，按照邻近优先和后优先于前的原则选取标准值；然后执行S47。

S47：将标准词组中的标签与标准值建立映射关系；

S48：处理完所有的词最终输出所有映射关系，即结构化文本F2。

需要说明的是，“标准词组”是经过S3之后将识别文本转化成的用词标准的文本。标签词是定义哪些词是说明属性名称的即“产品型号”这类词。

作为具体的实施例子，对S5中词义关系校对进行说明，通过如下方式实现：参见附图5所示：

S51：获取S4中的结构化文本F2；

S52：依次遍历F2中所有的映射关系，匹配关联关系表(如主关联词“型号：SM1”子关联词“电压等级：220KV；额定电压：220V；额定电流：10A；等)，如果标签为结构化文本中的标签，作为主关联词，执行S53，否则分析下一个映射关系；

例如如果铭牌中出现“产品型号：SBH15-M-400/10”的词，那标志着它的“额定容量：400kVA”，“额定电压：10±2*2.5％0.4k。

S53：将S52中的主关联词在F2中的所有子关联词查询出来；

在该步骤中，通过主关联词和子关联词相互校核一下识别的是否正确，主关联词和子关联词的计算权值，最终替换词语。确保识别的内容不存在逻辑错误。

S54：以子关联词为特征值，匹配所有的主关联词的所有枚举词的子关联词，每匹配成功一个计1分，最后得到分值Q，并计算其匹配率y＝Q/P(P为子关系词数量)；

S55：如果存在y＞80％，则选取匹配率最高的主关联词取代结构化文本中的主关联词，否则主关联词不变；

S56：主关联词的所有标准子关联词代替结构文本中的所有子关联词。

S57：输出关系校准后的结构化文本F3。

在该步骤中，铭牌识别中存在着部分识别因为光线等原因不准确，但是铭牌中各种值之间存在着关联关系，通过关联关系可以进一步矫正识别内容的正确性。

实施例二

本实施例的目的是提供一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供了一种基于混合匹配的电力铭牌语义结构化系统，包括：

标准结构化文本模块，被配置为：根据词义关系库，匹配结构化文本中主关联词与其关联的个子关联词之间的关系，最终标准化结构文本的关系；输出模块，被配置为：输出标准化结构文本的关系即电力铭牌数据结构化文本。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于混合匹配的电力铭牌语义结构化方法，其特征是，包括：

获取待识别的电力铭牌识别文本；

输出标准化结构文本的关系即电力铭牌数据结构化文本。

2.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法，其特征是，将输入的电力铭牌识别文本分割成不同的词语时，包括：

统计电力铭牌识别文本中所有的特殊字符的数量；

选取排名在前的若干个特殊字符作为本次的分词符；

按照确定的分词符，对电力铭牌识别文本进行分词划分；

对上述分词去除掉所有的特殊字符，之后输出分词结果。

3.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法，其特征是，所述特殊字符为在对电力铭牌识别文本进行分词之前设置的。

4.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法，其特征是，对分割的词语进行校准即词义校对时，使用不同的匹配方式针对分词结果的每一个词语与标准词库进行匹配，获得对应匹配结果，将得到的结果赋以不同的权重值，选取最优的匹配结果，代替分词结果中的原来的词，输出标准词库。

5.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法，其特征是，利用标签库依次标识校准后的分词数据是否是标签，若是，则通过标签库，获取该标签词对应的所有的值库，将标签与标准值建立映射关系，处理完所有的分词数据并输出所有映射关系，即结构化文本。

6.如权利要求5所述的一种基于混合匹配的电力铭牌语义结构化方法，其特征是，获取该标签词对应的所有的值库之后，如果值库不存在标准值，对校准后的分词数据中标签词前后若干个词与标准值组依次进行匹配，选取其中可能性最大的，如果存在可能性相同的，按照邻近优先和后优先于前的原则选取标准值；

7.如权利要求1所述的一种基于混合匹配的电力铭牌语义结构化方法，其特征是，依次遍历结构化文本中所有的映射关系，匹配关联关系表，在结构化文本中查询出标签为主关联词的所有子关联词；

输出关系校准后的结构化文本。

8.一种基于混合匹配的电力铭牌语义结构化系统，其特征是，包括：

9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。