CN115719059B

CN115719059B - 一种莫尔斯分组纠错方法

Info

Publication number: CN115719059B
Application number: CN202211510943.XA
Authority: CN
Inventors: 张乐乐; 冯少辉; 张建业
Original assignee: Beijing Iplus Teck Co ltd
Current assignee: Beijing Iplus Teck Co ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-08-08
Anticipated expiration: 2042-11-29
Also published as: CN115719059A

Abstract

本发明涉及一种莫尔斯分组纠错方法，属于报文识别技术领域，解决了现有技术中分词算法对莫尔斯自动识别后的报文数据分组不准确的问题。通过基于历史积累的分组数据构建词典和n‑gram语言模型，对待分组的莫尔斯码数据进行多轮次的分组扫描和纠错处理，提高了自动分组的准确率；通过分组时考虑相邻分组和错位分组对分组正确性的影响，纠错时考虑插入、删除和替换错误对分组的影响，并考虑了噪声影响和人工可读性的影响，在保证分组准确率的同时提高了分组率，减轻了人工抄收的工作量，提高了抄收效率。

Description

一种莫尔斯分组纠错方法

技术领域

本发明涉及报文识别技术领域，尤其涉及一种莫尔斯分组纠错方法。

背景技术

莫尔斯码是一种早期的数字化通信形式，其编码方式是利用不同时长的高低电平组合表示不同的符号、数字和英文字母。莫尔斯码的发送方式通常分为人工发送和机器发送。机器发送的莫尔斯码不受发报人员的影响，发报频率固定；人工发送的莫尔斯码，受发报员的手法、业务熟练程度等因素的影响，随机性较强。由于人工发送的莫尔斯码通常存在发报频率不固定，码字间隔不一致，长短音的长度不统一等问题，很难根据其编码规则对其进行自动识别。

随着深度学习技术的不断发展，利用深度学习技术可以对人工莫尔斯数据进行自动识别，形成单一分离的字符数据。但是在军事情报通信中，考虑到加密方式、信道等因素以及携带足够多有效信息的要求，发送的莫尔斯码通常以四位一组、五位一组或六位一组的组合表示信息，因此需要将自动识别后的字符数据进行组合、分割、纠错等处理，形成四位一组、五位一组或六位一组的有效信息。受发报人员的手法、信道、环境、算法模型等因素影响，自动识别之后的字符数据常常会存在插入、删除和替换错误，导致使用传统的分词算法(如正向匹配、逆向匹配等)对其分组的准确率不高。由于该领域的研究人员相对较少，通用领域几乎没有解决方案，因此亟需针对莫尔斯码自动识别后的分组纠错方法，提高自动分组的准确率和分组率，以减轻人工抄收的劳动强度，提高抄收效率。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种莫尔斯分组纠错方法，用以解决现有分词算法模型对莫尔斯码自动识别后的数据分组不准确的问题。

一方面，本发明实施例提供了一种莫尔斯分组纠错方法，包括如下步骤：

获取待分组莫尔斯码数据，对待分组莫尔斯码数据进行预处理，得到预处理后的数据D_p；

设置滑动窗口对数据D_p分组扫描，使用词典V确定候选分组A；使用词典V和n-gram语言模型对所述候选分组A进行正确性验证得到正确分组A_a；逐轮减小滑动窗口大小并对前一轮未分组的连续字符进行分组扫描遍历，直到得到所有的正确分组A_a，生成分组后的数据D_g；

使用词典V和n-gram语言模型对分组后的数据D_g中的未分组字符进行纠错处理得到正确分组A_b，生成纠错后的数据D_c；

基于纠错后的数据D_c得到最终的分组结果数据D_f。

进一步的，所述n-gram语言模型预测连续分组的概率，通过以下步骤训练得到：

获取历史积累的分组数据，构建训练集；

设置待训练的语言模型的gram数n和过滤阈值；

利用所述训练集对待训练的语言模型进行训练，得到包含多个gram列表的n-gram语言模型。

进一步的，所述词典V包括以分组字符表征的词和对应的词频，通过对历史积累的分组数据统计得到。

进一步的，所述分组后的数据D_g，通过以下步骤得到：

S1.设置滑动窗口大小为N×m个字符，其中N为n-gram语言模型的gram数n，m为每个分组中的字符数，对所述分组后的数据D_g扫描遍历；

S2.以一个字符长度为步长从起始位置向右移动滑动窗口，当滑动窗口中以m位分割的字符全部属于词典V时，即将该m位字符作为候选分组A；

S3.对所述候选分组A进行正确性验证，确定正确分组A_a；

S4.逐轮减小滑动窗口m个字符长度，使其每轮的大小分别为(N-1)×m个字符长度、(N-2)×m个字符长度、……，对前一轮未分组的连续字符扫描遍历，重复S2.、S3.从未分组的连续字符中得获得正确分组A_a，多轮遍历直至剩余连续字符中不再包含正确分组A_a，得到所有轮次的正确分组A_a的位置信息，生成分组后的数据D_g。

更进一步的，所述剩余连续字符中不再包含正确分组A_a的判定条件为：

所述剩余连续字符的字符串长度小于m或者，

所述剩余连续字符经过N轮扫描遍历。

更进一步的，所述正确性验证，包括：

当遍历轮数小于N时，根据以下四种情况确认正确分组A_a：

1)存在与所述候选分组A相距一个滑动窗口长度的相邻分组B，满足B中以m位分割的字符全部属于词典V，则确定候选分组A为正确分组A_a；

2)不存在所述相邻分组B，同时存在与所述候选分组A相距1个字符长度的错位分组A^*和与所述错位分组A^*相距一个滑动窗口长度的相邻错位分组B^*，满足A^*中以m位分割的字符全部属于词典V，B^*中以m位分割的字符全部属于词典V，则确定A^*和B^*为正确分组A_a；

3)不存在所述相邻分组B和所述相邻错位分组B^*，存在所述错位分组A^*，则需通过训练好的n-gram语言模型，查找计算A和A^*的n-gram概率，判断A和A^*的概率，选择概率大的为正确分组A_a，其公式为：

A_a＝max(P_A，P_A*)，其中A_a为正确分组，P为分组概率；

4)不存在所述相邻分组B、所述相邻错位分组B^*以及所述错位分组A^*，则确定所述候选分组A为正确分组A_a。

当遍历轮数等于N时，根据以下两种情况确认正确分组A_a：

1)存在与所述候选分组A相距小于一个滑动窗口长度的交叠分组C，满足C中以m位分割的字符全部属于词典V，则查找A和C的在词典V中的词频，选择词频高的为正确分组A_a，其公式为：

A_a＝max(F_A，F_C)，其中A_a为正确分组，F为分组概率；

2)不存在C，则确定所述候选分组A为正确分组A_a。

进一步的，所述纠错处理，包括：

1)当未分组连续字符的长度为m或m-1时，在词典V中找到与其编辑距离为1的字符串作为候选分组g_i，列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合，并计算n-gram概率，选择概率最大的候选分组作为正确分组A_b；否则，按原字符输出；其中，所述编辑距离，指当前字符串通过选择修改方式修改到目标字符串的最少修改次数；修改方式包括增加一个字符、删除一个字符或者修改一个字符；其公式为：

G＝{g₁，g₂，g₃，…g_n}

A_b＝max(P(G_ij))

其中，G为候选分组集合，A_b为正确分组，P(G_ij)为将候选分组g_i与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率。

2)当未分组连续字符的长度为m+1或m+2时，列出其长度为m的连续子字符串，将属于词典V的子字符串作为候选分组g_i，列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合，并计算n-gram概率，选择概率最大的候选分组作为正确分组A_b；否则，按原字符输出；其公式为：

G＝{g₁，g₂，g₃，…g_n}

A_b＝max(P(G_ij))

其中，G为候选分组集合，A_b为正确分组，P(G_ij)为将候选分组g_i与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率；

3)当未分组连续字符的长度小于m-2时，直接删除；

4)其他未分组字符，直接按原字符字符输出。

进一步的，所述预处理包括：将待分组的莫尔斯码数据中片段式的字符按时间顺序排序；将排序后的字符片段拼接在一起。

进一步的，所述基于纠错后的数据D_c得到最终的分组结果数据D_f，包括：对纠错后的数据D_c去噪；对去噪后的数据格式化。

更进一步的，所述去噪，包括：将所述纠错后的数据D_c中长度大于30的未分组连续字符作为噪音字串，作删除处理，得到去噪后的数据D_f’。

所述格式化，包括：将去噪后的数据D_f’以固定组数作换行处理，得到所述最终的分组结果数据D_f。

与现有技术相比，本发明可实现如下有益效果：

1、通过基于历史积累的分组数据构建词典和n-gram语言模型，对待分组的莫尔斯码数据进行多轮次的分组和纠错处理，提高了自动分组的准确率。

2、分组时考虑了相邻分组和错位分组对分组正确性的影响，纠错时考虑了插入、删除和替换错误对分组的影响，并考虑了噪声影响和人工可读性的影响，在保证分组准确率的同时提高了分组率，减轻了人工抄收的工作量。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的莫尔斯分组纠错方法流程图。

图2为本发明实施例的莫尔斯自动识别全流程示意图。

图3为本发明实施例通过滑动窗口进行第二轮和第三轮分组扫描遍历的示意图。

图4为本发明实施例的候选分组A正确性验证时相邻分组B、错位分组A^*、相邻错位分组B^*的示意图。

图5为本发明实施例中需要进行纠错处理的数据的示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围；本发明实施例中出现的示例性莫尔斯报文字符只限于阐述本发明实施例，与真实场景数据无关。

本发明的一个具体实施例，如图1所示，公开了莫尔斯分组纠错方法，包括以下步骤：

步骤S110、获取待分组莫尔斯码数据，对待分组莫尔斯码数据进行预处理，得到预处理后的数据D_p。通过预处理将所有的字符根据时间排序拼接在一起，以便进行分组。

步骤S120、设置滑动窗口对数据D_p分组扫描，使用词典V确定候选分组A；使用词典V和n-gram语言模型对所述候选分组A进行正确性验证得到正确分组A_a；逐轮减小滑动窗口大小并对前一轮未分组的连续字符进行分组扫描遍历，直到得到所有的正确分组A_a，生成分组后的数据D_g。词典V中包括词表和对应的词频；通过词典V初步确定出候选分组A。n-gram语言模型用于在候选分组A中确定正确分组A_a；通过词典V和n-gram语言模型结合排除了分组错位的影响，实现对候选分组A的正确性验证。

步骤S130、使用词典V和n-gram语言模型对分组后的数据D_g中的未分组字符进行纠错处理得到正确分组A_b，生成纠错后的数据D_c。通过纠错处理对未分组的连续字符进行再次纠错分组；纠错后的数据D_c中包括正确分组A_a和正确分组A_b。

步骤S140、基于纠错后的数据D_c得到最终的分组结果数据D_f。

在一个具体的实施例中，上述步骤S110中对待分组字符进行预处理，包括：将待分组的片段式的字符按时间顺序排序；将排序后的字符片段拼接在一起；其中，所述待分组字符为自动识别后的莫尔斯码。

示例性的，预处理后的数据结构如下：

在一个具体的实施例中，如图2所示，上述步骤S120中的n-gram语言模型用于预测连续分组的概率，通过以下步骤训练得到：

步骤210：获取历史积累的分组数据，构建训练集；历史积累的分组数据可以是人工分组数据集。

步骤220：设置待训练的语言模型的gram数n和过滤阈值；优选的，gram数n设为3；优选的，过滤阈值设为2，以过滤掉低频率的字符片段。

步骤230：利用所述训练集对待训练的语言模型进行训练，得到包含多个gram列表的n-gram语言模型；可选的，所述待训练的语言模型为Kenlm语言模型训练工具；优选的，当gram数n设为3时，得到包含3-gram、2-gram和1-gram列表文件的3-gram语言模型。

示例性的，以五位一组的莫尔斯码为例，所述历史积累的分组数据结构如下：

示例性的，使用Kenlm语言模型训练工具训练3-gram语言模型，形成的Lm.arpa文件结构如下：

在一个具体的实施例中，上述步骤S120中的词典V，包括以分组字符表征的词和对应的词频，通过对历史积累的分组数据统计得到。

示例性的，五位一组的莫尔斯码的词典结构如下：

在一个具体的实施例中，上述步骤S120还可以优化为以下步骤：

步骤S310：设置滑动窗口大小为N×m个字符，其中N为n-gram语言模型的gram数n，m为每个分组中的字符数，对所述分组后的数据D_g扫描遍历；

步骤S320：以一个字符长度为步长从起始位置向右移动滑动窗口，当滑动窗口中以m位分割的字符全部属于词典V时，即将该m位字符作为候选分组A；

步骤S330：对所述候选分组A进行正确性验证，确定正确分组A_a；

步骤S340：逐轮减小滑动窗口m个字符长度，使其每轮的大小分别为(N-1)×m个字符长度、(N-2)×m个字符长度、……，对前一轮未分组的连续字符扫描遍历，重复S320.、S330.从未分组的连续字符中得获得正确分组A_a，多轮遍历直至剩余连续字符中不再包含正确分组A_a，得到所有轮次的正确分组A_a的位置信息，生成分组后的数据D_g。

具体的，所述剩余连续字符中不再包含正确分组A_a的判定条件为：

所述剩余连续字符的字符串长度小于m或者，

所述剩余连续字符经过N轮扫描遍历。

示例性的，图3展示了每个分组字符数m为5，n-gram语言模型的gram数n为3的情况下，如何通过滑动窗口进行第二轮和第三轮的分组扫描遍历。

示例性的，根据所有正确分组A_a的位置信息，得到所述分组后的数据D_g结构如下：

具体的，所述正确性验证，包括：

当遍历轮数小于N时，根据以下四种情况确认正确分组A_a：

A_a＝max(P_A，P_A*)，其中A_a为正确分组，P为分组概率；

4)不存在所述相邻分组B、所述相邻错位分组B^*以及所述错位分组A^*，则确定所述候选分组A为正确分组A_a；

当遍历轮数等于N时，根据以下两种情况确认正确分组A_a：

A_a＝max(F_A，F_C)，其中A_a为正确分组，F为分组概率；

2)不存在C，则确定所述候选分组A为正确分组A_a。

示例性的，所述候选分组A、所述相邻分组B、所述相邻错位分组B^*以及所述错位分组A^*的相对位置关系如图4所示，其中S为设置的滑动窗口扫描分组的起始位置。

示例性的，图4中的候选分组A、相邻分组B、相邻错位分组B^*以及错位分组A^*需满足的条件如下：

其中，V为词典，上式中的S_3-8,S_8-13…S_14-19用S_i-j表示，则S_i-j为滑动窗口内以5位分割的字符串，i和j均为数据D_p字符间隔的位置信息，i-j为滑动窗口内以5位分割的字符串的首尾位置信息；

示例性的，所述交叠分组C满足的条件如下：

A＝S_3-8∈V，C＝{S_4-9∈V，S_5-10∈V，S_6-11∈V，S_7-12∈V}

其中，V为词典，上式中的S_3-8,S_8-13…S_14-19用S_i-j表示，则S_i-j为滑动窗口内以5位分割的字符串，i和j均为数据D_p字符间隔的位置信息，i-j为滑动窗口内以5位分割的字符串的首尾位置信息。

在一个具体的实施例中，上述步骤S130中的纠错处理，包括：

1)当未分组连续字符的长度为m或m-1时，在词典V中找到与其编辑距离为1的字符串作为候选分组g_i，列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合，并计算n-gram概率，选择概率最大的候选分组作为正确分组A_b；优选的，如不存在n-gram组合，则计算所有候选分组G与所有与其连续的分组组成(n-1)-gram组合或者2-gram组合的概率，选择概率最大的候选分组作为正确分组A_b；否则，按原字符输出；其中，所述编辑距离，指当前字符串通过选择修改方式修改到目标字符串的最少修改次数；修改方式包括增加一个字符、删除一个字符或者修改一个字符；其公式为：

G＝{g₁，g₂，g₃，…g_n}

A_b＝max(P(G_ij))

按原字符输出后，可以人工进行校正。

2)当未分组连续字符的长度为m+1或m+2时，列出其长度为m的连续子字符串，将属于词典V的子字符串作为候选分组g_i，列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合，并计算n-gram概率，选择概率最大的候选分组作为正确分组A_b；优选的，如不存在n-gram组合，则计算所有候选分组G与所有与其连续的分组组成(n-1)-gram组合或者2-gram组合的概率，选择概率最大的候选分组作为正确分组A_b；否则，按原字符输出；其公式为：

G＝{g₁，g₂，g₃，…g_n}

A_b＝max(P(G_ij))

其中，G为候选分组集合，A_b为正确分组，P(G_ij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率。

3)当未分组连续字符的长度小于m-2时，直接删除；

4)其他未分组字符，直接按原字符字符输出。

示例性的，分组完成以后，需要进行纠错处理的数据如图5所示，其中方框里的数据为需要进行纠错处理的数据。

在一个具体的实施例中，上述步骤S140还可以优化为以下步骤：

对纠错后的数据D_c去噪；对去噪后的数据格式化。

具体的，所述去噪，包括：将所述纠错后的数据D_c中长度大于30的未分组连续字符作为噪音字串，作删除处理，得到去噪后的数据D_f’。其中，所述长度大于30是根据统计历史数据得到的经验数值。

所述格式化，包括：将去噪后的数据D_f’以固定组数作换行处理，得到所述最终的分组结果数据D_f。其中，通过固定组数换行以方便人工读取。

示例性的，最终的分组结果数据D_f如图所示：

与现有技术相比，本实施例提供的莫尔斯分组纠错方法，通过基于历史积累的分组数据构建词典和n-gram语言模型，对待分组的莫尔斯码数据进行多轮次的分组和纠错处理，提高了自动分组的准确率(分组准确率达90％以上)；分组时考虑了相邻分组和错位分组对分组正确性的影响，纠错时考虑了插入、删除和替换错误对分组的影响，并考虑了噪声影响和人工可读性的影响，在保证分组准确率的同时提高了分组率，减轻了人工抄收的工作量。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种莫尔斯分组纠错方法，其特征在于，包括如下步骤：

所述n-gram语言模型用于预测连续分组的概率，通过以下步骤训练得到，包括：获取历史积累的分组数据，构建训练集；设置待训练的语言模型的gram数n和过滤阈值；利用所述训练集对待训练的语言模型进行训练，得到包含多个gram列表的n-gram语言模型；

所述正确性验证，包括：当遍历轮数小于N时，根据以下四种情况确认正确分组A_a：

3)不存在所述相邻分组B和所述相邻错位分组B^*，存在所述错位分组A^*，则需通过训练好的n-gram语言模型，查找计算A和A^*的n-gram概率，判断A和A^*的概率，选择概率大的为正确分组A_a，其公式为：A_a＝max(P_A，P_A*)，其中A_a为正确分组，P为分组概率；

当遍历轮数等于N时，根据以下两种情况确认正确分组A_a：

1)存在与所述候选分组A相距小于一个滑动窗口长度的交叠分组C，满足C中以m位分割的字符全部属于词典V，则查找A和C的在词典V中的词频，选择词频高的为正确分组A_a，其公式为：A_a＝max(F_A，F_C)，其中A_a为正确分组，F为分组概率；

2)不存在C，则确定所述候选分组A为正确分组A_a；

所述分组后的数据D_g，通过以下步骤得到，包括：S1.设置滑动窗口大小为N×m个字符，对所述分组后的数据D_g扫描遍历；其中N为n-gram语言模型的gram数n，m为每个分组中的字符数；S2.以一个字符长度为步长从起始位置向右移动滑动窗口，当滑动窗口中以m位分割的字符全部属于词典V时，即将该m位字符作为候选分组A；S3.对所述候选分组A进行正确性验证，确定正确分组A_a；S4.逐轮减小滑动窗口m个字符长度，使其每轮的大小分别为(N-1)×m个字符长度、(N-2)×m个字符长度、……，对前一轮未分组的连续字符扫描遍历，重复S2、S3从未分组的连续字符中得获得正确分组A_a；多轮遍历直至剩余连续字符中不再包含正确分组A_a，得到所有轮次的正确分组A_a的位置信息，生成分组后的数据D_g；

所述纠错处理，包括：

1)当未分组连续字符的长度为m或m-1时，在词典V中找到与其编辑距离为1的字符串作为候选分组g_i，列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合，并计算n-gram概率，选择概率最大的候选分组作为正确分组A_b；否则，按原字符输出；其中，所述编辑距离，指当前字符串通过选择修改方式修改到目标字符串的最少修改次数；修改方式包括增加一个字符、删除一个字符或者修改一个字符；其公式为：G＝{g₁，g₂，g₃，…g_n}

A_b＝max(P(G_ij))

2)当未分组连续字符的长度为m+1或m+2时，列出其长度为m的连续子字符串，将属于词典V的子字符串作为候选分组g_i，列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合，并计算n-gram概率，选择概率最大的候选分组作为正确分组A_b；否则，按原字符输出；其公式为：G＝{g₁，g₂，g₃，…g_n}

A_b＝max(P(G_ij))

3)当未分组连续字符的长度小于m-2时，直接删除；

4)其他未分组字符，直接按原字符字符输出；

基于纠错后的数据D_c得到最终的分组结果数据D_f。

2.根据权利要求1的方法，其特征在于，所述词典V包括以分组字符表征的词和对应的词频，通过对历史积累的分组数据统计得到。

3.根据权利要求1的方法，所述剩余连续字符中不再包含正确分组A_a的判定条件为：

所述剩余连续字符的字符串长度小于m或者，

所述剩余连续字符经过N轮扫描遍历。

4.根据权利要求1的方法，其特征在于，所述预处理包括：

将待分组的莫尔斯码数据中片段式的字符按时间顺序排序；将排序后的字符片段拼接在一起。

5.根据权利要求1的方法，其特征在于，所述基于纠错后的数据D_c得到最终的分组结果数据D_f，包括：对纠错后的数据D_c去噪；对去噪后的数据格式化。

6.根据权利要求5的方法，其特征在于，所述去噪，包括：将所述纠错后的数据D_c中长度大于30的未分组连续字符作为噪音字串，作删除处理，得到去噪后的数据D_f’；