CN115719059B - 一种莫尔斯分组纠错方法 - Google Patents

一种莫尔斯分组纠错方法 Download PDF

Info

Publication number
CN115719059B
CN115719059B CN202211510943.XA CN202211510943A CN115719059B CN 115719059 B CN115719059 B CN 115719059B CN 202211510943 A CN202211510943 A CN 202211510943A CN 115719059 B CN115719059 B CN 115719059B
Authority
CN
China
Prior art keywords
packet
grouping
characters
data
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211510943.XA
Other languages
English (en)
Other versions
CN115719059A (zh
Inventor
张乐乐
冯少辉
张建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202211510943.XA priority Critical patent/CN115719059B/zh
Publication of CN115719059A publication Critical patent/CN115719059A/zh
Application granted granted Critical
Publication of CN115719059B publication Critical patent/CN115719059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种莫尔斯分组纠错方法,属于报文识别技术领域,解决了现有技术中分词算法对莫尔斯自动识别后的报文数据分组不准确的问题。通过基于历史积累的分组数据构建词典和n‑gram语言模型,对待分组的莫尔斯码数据进行多轮次的分组扫描和纠错处理,提高了自动分组的准确率;通过分组时考虑相邻分组和错位分组对分组正确性的影响,纠错时考虑插入、删除和替换错误对分组的影响,并考虑了噪声影响和人工可读性的影响,在保证分组准确率的同时提高了分组率,减轻了人工抄收的工作量,提高了抄收效率。

Description

一种莫尔斯分组纠错方法
技术领域
本发明涉及报文识别技术领域,尤其涉及一种莫尔斯分组纠错方法。
背景技术
莫尔斯码是一种早期的数字化通信形式,其编码方式是利用不同时长的高低电平组合表示不同的符号、数字和英文字母。莫尔斯码的发送方式通常分为人工发送和机器发送。机器发送的莫尔斯码不受发报人员的影响,发报频率固定;人工发送的莫尔斯码,受发报员的手法、业务熟练程度等因素的影响,随机性较强。由于人工发送的莫尔斯码通常存在发报频率不固定,码字间隔不一致,长短音的长度不统一等问题,很难根据其编码规则对其进行自动识别。
随着深度学习技术的不断发展,利用深度学习技术可以对人工莫尔斯数据进行自动识别,形成单一分离的字符数据。但是在军事情报通信中,考虑到加密方式、信道等因素以及携带足够多有效信息的要求,发送的莫尔斯码通常以四位一组、五位一组或六位一组的组合表示信息,因此需要将自动识别后的字符数据进行组合、分割、纠错等处理,形成四位一组、五位一组或六位一组的有效信息。受发报人员的手法、信道、环境、算法模型等因素影响,自动识别之后的字符数据常常会存在插入、删除和替换错误,导致使用传统的分词算法(如正向匹配、逆向匹配等)对其分组的准确率不高。由于该领域的研究人员相对较少,通用领域几乎没有解决方案,因此亟需针对莫尔斯码自动识别后的分组纠错方法,提高自动分组的准确率和分组率,以减轻人工抄收的劳动强度,提高抄收效率。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种莫尔斯分组纠错方法,用以解决现有分词算法模型对莫尔斯码自动识别后的数据分组不准确的问题。
一方面,本发明实施例提供了一种莫尔斯分组纠错方法,包括如下步骤:
获取待分组莫尔斯码数据,对待分组莫尔斯码数据进行预处理,得到预处理后的数据Dp
设置滑动窗口对数据Dp分组扫描,使用词典V确定候选分组A;使用词典V和n-gram语言模型对所述候选分组A进行正确性验证得到正确分组Aa;逐轮减小滑动窗口大小并对前一轮未分组的连续字符进行分组扫描遍历,直到得到所有的正确分组Aa,生成分组后的数据Dg
使用词典V和n-gram语言模型对分组后的数据Dg中的未分组字符进行纠错处理得到正确分组Ab,生成纠错后的数据Dc
基于纠错后的数据Dc得到最终的分组结果数据Df
进一步的,所述n-gram语言模型预测连续分组的概率,通过以下步骤训练得到:
获取历史积累的分组数据,构建训练集;
设置待训练的语言模型的gram数n和过滤阈值;
利用所述训练集对待训练的语言模型进行训练,得到包含多个gram列表的n-gram语言模型。
进一步的,所述词典V包括以分组字符表征的词和对应的词频,通过对历史积累的分组数据统计得到。
进一步的,所述分组后的数据Dg,通过以下步骤得到:
S1.设置滑动窗口大小为N×m个字符,其中N为n-gram语言模型的gram数n,m为每个分组中的字符数,对所述分组后的数据Dg扫描遍历;
S2.以一个字符长度为步长从起始位置向右移动滑动窗口,当滑动窗口中以m位分割的字符全部属于词典V时,即将该m位字符作为候选分组A;
S3.对所述候选分组A进行正确性验证,确定正确分组Aa
S4.逐轮减小滑动窗口m个字符长度,使其每轮的大小分别为(N-1)×m个字符长度、(N-2)×m个字符长度、……,对前一轮未分组的连续字符扫描遍历,重复S2.、S3.从未分组的连续字符中得获得正确分组Aa,多轮遍历直至剩余连续字符中不再包含正确分组Aa,得到所有轮次的正确分组Aa的位置信息,生成分组后的数据Dg
更进一步的,所述剩余连续字符中不再包含正确分组Aa的判定条件为:
所述剩余连续字符的字符串长度小于m或者,
所述剩余连续字符经过N轮扫描遍历。
更进一步的,所述正确性验证,包括:
当遍历轮数小于N时,根据以下四种情况确认正确分组Aa
1)存在与所述候选分组A相距一个滑动窗口长度的相邻分组B,满足B中以m位分割的字符全部属于词典V,则确定候选分组A为正确分组Aa
2)不存在所述相邻分组B,同时存在与所述候选分组A相距1个字符长度的错位分组A*和与所述错位分组A*相距一个滑动窗口长度的相邻错位分组B*,满足A*中以m位分割的字符全部属于词典V,B*中以m位分割的字符全部属于词典V,则确定A*和B*为正确分组Aa
3)不存在所述相邻分组B和所述相邻错位分组B*,存在所述错位分组A*,则需通过训练好的n-gram语言模型,查找计算A和A*的n-gram概率,判断A和A*的概率,选择概率大的为正确分组Aa,其公式为:
Aa=max(PA,PA*),其中Aa为正确分组,P为分组概率;
4)不存在所述相邻分组B、所述相邻错位分组B*以及所述错位分组A*,则确定所述候选分组A为正确分组Aa
当遍历轮数等于N时,根据以下两种情况确认正确分组Aa
1)存在与所述候选分组A相距小于一个滑动窗口长度的交叠分组C,满足C中以m位分割的字符全部属于词典V,则查找A和C的在词典V中的词频,选择词频高的为正确分组Aa,其公式为:
Aa=max(FA,FC),其中Aa为正确分组,F为分组概率;
2)不存在C,则确定所述候选分组A为正确分组Aa
进一步的,所述纠错处理,包括:
1)当未分组连续字符的长度为m或m-1时,在词典V中找到与其编辑距离为1的字符串作为候选分组gi,列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合,并计算n-gram概率,选择概率最大的候选分组作为正确分组Ab;否则,按原字符输出;其中,所述编辑距离,指当前字符串通过选择修改方式修改到目标字符串的最少修改次数;修改方式包括增加一个字符、删除一个字符或者修改一个字符;其公式为:
G={g1,g2,g3,…gn}
Ab=max(P(Gij))
其中,G为候选分组集合,Ab为正确分组,P(Gij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率。
2)当未分组连续字符的长度为m+1或m+2时,列出其长度为m的连续子字符串,将属于词典V的子字符串作为候选分组gi,列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合,并计算n-gram概率,选择概率最大的候选分组作为正确分组Ab;否则,按原字符输出;其公式为:
G={g1,g2,g3,…gn}
Ab=max(P(Gij))
其中,G为候选分组集合,Ab为正确分组,P(Gij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率;
3)当未分组连续字符的长度小于m-2时,直接删除;
4)其他未分组字符,直接按原字符字符输出。
进一步的,所述预处理包括:将待分组的莫尔斯码数据中片段式的字符按时间顺序排序;将排序后的字符片段拼接在一起。
进一步的,所述基于纠错后的数据Dc得到最终的分组结果数据Df,包括:对纠错后的数据Dc去噪;对去噪后的数据格式化。
更进一步的,所述去噪,包括:将所述纠错后的数据Dc中长度大于30的未分组连续字符作为噪音字串,作删除处理,得到去噪后的数据Df’
所述格式化,包括:将去噪后的数据Df’以固定组数作换行处理,得到所述最终的分组结果数据Df
与现有技术相比,本发明可实现如下有益效果:
1、通过基于历史积累的分组数据构建词典和n-gram语言模型,对待分组的莫尔斯码数据进行多轮次的分组和纠错处理,提高了自动分组的准确率。
2、分组时考虑了相邻分组和错位分组对分组正确性的影响,纠错时考虑了插入、删除和替换错误对分组的影响,并考虑了噪声影响和人工可读性的影响,在保证分组准确率的同时提高了分组率,减轻了人工抄收的工作量。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的莫尔斯分组纠错方法流程图。
图2为本发明实施例的莫尔斯自动识别全流程示意图。
图3为本发明实施例通过滑动窗口进行第二轮和第三轮分组扫描遍历的示意图。
图4为本发明实施例的候选分组A正确性验证时相邻分组B、错位分组A*、相邻错位分组B*的示意图。
图5为本发明实施例中需要进行纠错处理的数据的示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围;本发明实施例中出现的示例性莫尔斯报文字符只限于阐述本发明实施例,与真实场景数据无关。
本发明的一个具体实施例,如图1所示,公开了莫尔斯分组纠错方法,包括以下步骤:
步骤S110、获取待分组莫尔斯码数据,对待分组莫尔斯码数据进行预处理,得到预处理后的数据Dp。通过预处理将所有的字符根据时间排序拼接在一起,以便进行分组。
步骤S120、设置滑动窗口对数据Dp分组扫描,使用词典V确定候选分组A;使用词典V和n-gram语言模型对所述候选分组A进行正确性验证得到正确分组Aa;逐轮减小滑动窗口大小并对前一轮未分组的连续字符进行分组扫描遍历,直到得到所有的正确分组Aa,生成分组后的数据Dg。词典V中包括词表和对应的词频;通过词典V初步确定出候选分组A。n-gram语言模型用于在候选分组A中确定正确分组Aa;通过词典V和n-gram语言模型结合排除了分组错位的影响,实现对候选分组A的正确性验证。
步骤S130、使用词典V和n-gram语言模型对分组后的数据Dg中的未分组字符进行纠错处理得到正确分组Ab,生成纠错后的数据Dc。通过纠错处理对未分组的连续字符进行再次纠错分组;纠错后的数据Dc中包括正确分组Aa和正确分组Ab
步骤S140、基于纠错后的数据Dc得到最终的分组结果数据Df
在一个具体的实施例中,上述步骤S110中对待分组字符进行预处理,包括:将待分组的片段式的字符按时间顺序排序;将排序后的字符片段拼接在一起;其中,所述待分组字符为自动识别后的莫尔斯码。
示例性的,预处理后的数据结构如下:
在一个具体的实施例中,如图2所示,上述步骤S120中的n-gram语言模型用于预测连续分组的概率,通过以下步骤训练得到:
步骤210:获取历史积累的分组数据,构建训练集;历史积累的分组数据可以是人工分组数据集。
步骤220:设置待训练的语言模型的gram数n和过滤阈值;优选的,gram数n设为3;优选的,过滤阈值设为2,以过滤掉低频率的字符片段。
步骤230:利用所述训练集对待训练的语言模型进行训练,得到包含多个gram列表的n-gram语言模型;可选的,所述待训练的语言模型为Kenlm语言模型训练工具;优选的,当gram数n设为3时,得到包含3-gram、2-gram和1-gram列表文件的3-gram语言模型。
示例性的,以五位一组的莫尔斯码为例,所述历史积累的分组数据结构如下:
示例性的,使用Kenlm语言模型训练工具训练3-gram语言模型,形成的Lm.arpa文件结构如下:
在一个具体的实施例中,上述步骤S120中的词典V,包括以分组字符表征的词和对应的词频,通过对历史积累的分组数据统计得到。
示例性的,五位一组的莫尔斯码的词典结构如下:
在一个具体的实施例中,上述步骤S120还可以优化为以下步骤:
步骤S310:设置滑动窗口大小为N×m个字符,其中N为n-gram语言模型的gram数n,m为每个分组中的字符数,对所述分组后的数据Dg扫描遍历;
步骤S320:以一个字符长度为步长从起始位置向右移动滑动窗口,当滑动窗口中以m位分割的字符全部属于词典V时,即将该m位字符作为候选分组A;
步骤S330:对所述候选分组A进行正确性验证,确定正确分组Aa
步骤S340:逐轮减小滑动窗口m个字符长度,使其每轮的大小分别为(N-1)×m个字符长度、(N-2)×m个字符长度、……,对前一轮未分组的连续字符扫描遍历,重复S320.、S330.从未分组的连续字符中得获得正确分组Aa,多轮遍历直至剩余连续字符中不再包含正确分组Aa,得到所有轮次的正确分组Aa的位置信息,生成分组后的数据Dg
具体的,所述剩余连续字符中不再包含正确分组Aa的判定条件为:
所述剩余连续字符的字符串长度小于m或者,
所述剩余连续字符经过N轮扫描遍历。
示例性的,图3展示了每个分组字符数m为5,n-gram语言模型的gram数n为3的情况下,如何通过滑动窗口进行第二轮和第三轮的分组扫描遍历。
示例性的,根据所有正确分组Aa的位置信息,得到所述分组后的数据Dg结构如下:
具体的,所述正确性验证,包括:
当遍历轮数小于N时,根据以下四种情况确认正确分组Aa
1)存在与所述候选分组A相距一个滑动窗口长度的相邻分组B,满足B中以m位分割的字符全部属于词典V,则确定候选分组A为正确分组Aa
2)不存在所述相邻分组B,同时存在与所述候选分组A相距1个字符长度的错位分组A*和与所述错位分组A*相距一个滑动窗口长度的相邻错位分组B*,满足A*中以m位分割的字符全部属于词典V,B*中以m位分割的字符全部属于词典V,则确定A*和B*为正确分组Aa
3)不存在所述相邻分组B和所述相邻错位分组B*,存在所述错位分组A*,则需通过训练好的n-gram语言模型,查找计算A和A*的n-gram概率,判断A和A*的概率,选择概率大的为正确分组Aa,其公式为:
Aa=max(PA,PA*),其中Aa为正确分组,P为分组概率;
4)不存在所述相邻分组B、所述相邻错位分组B*以及所述错位分组A*,则确定所述候选分组A为正确分组Aa
当遍历轮数等于N时,根据以下两种情况确认正确分组Aa
1)存在与所述候选分组A相距小于一个滑动窗口长度的交叠分组C,满足C中以m位分割的字符全部属于词典V,则查找A和C的在词典V中的词频,选择词频高的为正确分组Aa,其公式为:
Aa=max(FA,FC),其中Aa为正确分组,F为分组概率;
2)不存在C,则确定所述候选分组A为正确分组Aa
示例性的,所述候选分组A、所述相邻分组B、所述相邻错位分组B*以及所述错位分组A*的相对位置关系如图4所示,其中S为设置的滑动窗口扫描分组的起始位置。
示例性的,图4中的候选分组A、相邻分组B、相邻错位分组B*以及错位分组A*需满足的条件如下:
其中,V为词典,上式中的S3-8,S8-13…S14-19用Si-j表示,则Si-j为滑动窗口内以5位分割的字符串,i和j均为数据Dp字符间隔的位置信息,i-j为滑动窗口内以5位分割的字符串的首尾位置信息;
示例性的,所述交叠分组C满足的条件如下:
A=S3-8∈V,C={S4-9∈V,S5-10∈V,S6-11∈V,S7-12∈V}
其中,V为词典,上式中的S3-8,S8-13…S14-19用Si-j表示,则Si-j为滑动窗口内以5位分割的字符串,i和j均为数据Dp字符间隔的位置信息,i-j为滑动窗口内以5位分割的字符串的首尾位置信息。
在一个具体的实施例中,上述步骤S130中的纠错处理,包括:
1)当未分组连续字符的长度为m或m-1时,在词典V中找到与其编辑距离为1的字符串作为候选分组gi,列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合,并计算n-gram概率,选择概率最大的候选分组作为正确分组Ab;优选的,如不存在n-gram组合,则计算所有候选分组G与所有与其连续的分组组成(n-1)-gram组合或者2-gram组合的概率,选择概率最大的候选分组作为正确分组Ab;否则,按原字符输出;其中,所述编辑距离,指当前字符串通过选择修改方式修改到目标字符串的最少修改次数;修改方式包括增加一个字符、删除一个字符或者修改一个字符;其公式为:
G={g1,g2,g3,…gn}
Ab=max(P(Gij))
其中,G为候选分组集合,Ab为正确分组,P(Gij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率。
按原字符输出后,可以人工进行校正。
2)当未分组连续字符的长度为m+1或m+2时,列出其长度为m的连续子字符串,将属于词典V的子字符串作为候选分组gi,列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合,并计算n-gram概率,选择概率最大的候选分组作为正确分组Ab;优选的,如不存在n-gram组合,则计算所有候选分组G与所有与其连续的分组组成(n-1)-gram组合或者2-gram组合的概率,选择概率最大的候选分组作为正确分组Ab;否则,按原字符输出;其公式为:
G={g1,g2,g3,…gn}
Ab=max(P(Gij))
其中,G为候选分组集合,Ab为正确分组,P(Gij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率。
3)当未分组连续字符的长度小于m-2时,直接删除;
4)其他未分组字符,直接按原字符字符输出。
示例性的,分组完成以后,需要进行纠错处理的数据如图5所示,其中方框里的数据为需要进行纠错处理的数据。
在一个具体的实施例中,上述步骤S140还可以优化为以下步骤:
对纠错后的数据Dc去噪;对去噪后的数据格式化。
具体的,所述去噪,包括:将所述纠错后的数据Dc中长度大于30的未分组连续字符作为噪音字串,作删除处理,得到去噪后的数据Df’。其中,所述长度大于30是根据统计历史数据得到的经验数值。
所述格式化,包括:将去噪后的数据Df’以固定组数作换行处理,得到所述最终的分组结果数据Df。其中,通过固定组数换行以方便人工读取。
示例性的,最终的分组结果数据Df如图所示:
与现有技术相比,本实施例提供的莫尔斯分组纠错方法,通过基于历史积累的分组数据构建词典和n-gram语言模型,对待分组的莫尔斯码数据进行多轮次的分组和纠错处理,提高了自动分组的准确率(分组准确率达90%以上);分组时考虑了相邻分组和错位分组对分组正确性的影响,纠错时考虑了插入、删除和替换错误对分组的影响,并考虑了噪声影响和人工可读性的影响,在保证分组准确率的同时提高了分组率,减轻了人工抄收的工作量。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种莫尔斯分组纠错方法,其特征在于,包括如下步骤:
获取待分组莫尔斯码数据,对待分组莫尔斯码数据进行预处理,得到预处理后的数据Dp
设置滑动窗口对数据Dp分组扫描,使用词典V确定候选分组A;使用词典V和n-gram语言模型对所述候选分组A进行正确性验证得到正确分组Aa;逐轮减小滑动窗口大小并对前一轮未分组的连续字符进行分组扫描遍历,直到得到所有的正确分组Aa,生成分组后的数据Dg
所述n-gram语言模型用于预测连续分组的概率,通过以下步骤训练得到,包括:获取历史积累的分组数据,构建训练集;设置待训练的语言模型的gram数n和过滤阈值;利用所述训练集对待训练的语言模型进行训练,得到包含多个gram列表的n-gram语言模型;
所述正确性验证,包括:当遍历轮数小于N时,根据以下四种情况确认正确分组Aa
1)存在与所述候选分组A相距一个滑动窗口长度的相邻分组B,满足B中以m位分割的字符全部属于词典V,则确定候选分组A为正确分组Aa
2)不存在所述相邻分组B,同时存在与所述候选分组A相距1个字符长度的错位分组A*和与所述错位分组A*相距一个滑动窗口长度的相邻错位分组B*,满足A*中以m位分割的字符全部属于词典V,B*中以m位分割的字符全部属于词典V,则确定A*和B*为正确分组Aa
3)不存在所述相邻分组B和所述相邻错位分组B*,存在所述错位分组A*,则需通过训练好的n-gram语言模型,查找计算A和A*的n-gram概率,判断A和A*的概率,选择概率大的为正确分组Aa,其公式为:Aa=max(PA,PA*),其中Aa为正确分组,P为分组概率;
4)不存在所述相邻分组B、所述相邻错位分组B*以及所述错位分组A*,则确定所述候选分组A为正确分组Aa
当遍历轮数等于N时,根据以下两种情况确认正确分组Aa
1)存在与所述候选分组A相距小于一个滑动窗口长度的交叠分组C,满足C中以m位分割的字符全部属于词典V,则查找A和C的在词典V中的词频,选择词频高的为正确分组Aa,其公式为:Aa=max(FA,FC),其中Aa为正确分组,F为分组概率;
2)不存在C,则确定所述候选分组A为正确分组Aa
所述分组后的数据Dg,通过以下步骤得到,包括:S1.设置滑动窗口大小为N×m个字符,对所述分组后的数据Dg扫描遍历;其中N为n-gram语言模型的gram数n,m为每个分组中的字符数;S2.以一个字符长度为步长从起始位置向右移动滑动窗口,当滑动窗口中以m位分割的字符全部属于词典V时,即将该m位字符作为候选分组A;S3.对所述候选分组A进行正确性验证,确定正确分组Aa;S4.逐轮减小滑动窗口m个字符长度,使其每轮的大小分别为(N-1)×m个字符长度、(N-2)×m个字符长度、……,对前一轮未分组的连续字符扫描遍历,重复S2、S3从未分组的连续字符中得获得正确分组Aa;多轮遍历直至剩余连续字符中不再包含正确分组Aa,得到所有轮次的正确分组Aa的位置信息,生成分组后的数据Dg
使用词典V和n-gram语言模型对分组后的数据Dg中的未分组字符进行纠错处理得到正确分组Ab,生成纠错后的数据Dc
所述纠错处理,包括:
1)当未分组连续字符的长度为m或m-1时,在词典V中找到与其编辑距离为1的字符串作为候选分组gi,列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合,并计算n-gram概率,选择概率最大的候选分组作为正确分组Ab;否则,按原字符输出;其中,所述编辑距离,指当前字符串通过选择修改方式修改到目标字符串的最少修改次数;修改方式包括增加一个字符、删除一个字符或者修改一个字符;其公式为:G={g1,g2,g3,…gn}
Ab=max(P(Gij))
其中,G为候选分组集合,Ab为正确分组,P(Gij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率;
2)当未分组连续字符的长度为m+1或m+2时,列出其长度为m的连续子字符串,将属于词典V的子字符串作为候选分组gi,列出所有候选分组G与所有与其连续的分组组成连续分组的n-gram组合,并计算n-gram概率,选择概率最大的候选分组作为正确分组Ab;否则,按原字符输出;其公式为:G={g1,g2,g3,…gn}
Ab=max(P(Gij))
其中,G为候选分组集合,Ab为正确分组,P(Gij)为将候选分组gi与所有与其连续的分组组成n-gram或2-gram的第j个组合的概率;
3)当未分组连续字符的长度小于m-2时,直接删除;
4)其他未分组字符,直接按原字符字符输出;
基于纠错后的数据Dc得到最终的分组结果数据Df
2.根据权利要求1的方法,其特征在于,所述词典V包括以分组字符表征的词和对应的词频,通过对历史积累的分组数据统计得到。
3.根据权利要求1的方法,所述剩余连续字符中不再包含正确分组Aa的判定条件为:
所述剩余连续字符的字符串长度小于m或者,
所述剩余连续字符经过N轮扫描遍历。
4.根据权利要求1的方法,其特征在于,所述预处理包括:
将待分组的莫尔斯码数据中片段式的字符按时间顺序排序;将排序后的字符片段拼接在一起。
5.根据权利要求1的方法,其特征在于,所述基于纠错后的数据Dc得到最终的分组结果数据Df,包括:对纠错后的数据Dc去噪;对去噪后的数据格式化。
6.根据权利要求5的方法,其特征在于,所述去噪,包括:将所述纠错后的数据Dc中长度大于30的未分组连续字符作为噪音字串,作删除处理,得到去噪后的数据Df’
所述格式化,包括:将去噪后的数据Df’以固定组数作换行处理,得到所述最终的分组结果数据Df
CN202211510943.XA 2022-11-29 2022-11-29 一种莫尔斯分组纠错方法 Active CN115719059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211510943.XA CN115719059B (zh) 2022-11-29 2022-11-29 一种莫尔斯分组纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211510943.XA CN115719059B (zh) 2022-11-29 2022-11-29 一种莫尔斯分组纠错方法

Publications (2)

Publication Number Publication Date
CN115719059A CN115719059A (zh) 2023-02-28
CN115719059B true CN115719059B (zh) 2023-08-08

Family

ID=85257058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211510943.XA Active CN115719059B (zh) 2022-11-29 2022-11-29 一种莫尔斯分组纠错方法

Country Status (1)

Country Link
CN (1) CN115719059B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011942A (zh) * 2019-02-15 2019-07-12 中国人民解放军战略支援部队信息工程大学 基于深度学习的莫尔斯报文智能检测识别方法
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110866376A (zh) * 2020-01-20 2020-03-06 长沙深之瞳信息科技有限公司 电码的自动识别方法及存储介质
CN111092832A (zh) * 2019-12-20 2020-05-01 长沙深之瞳信息科技有限公司 莫尔斯电码深度学习训练数据制作方法
CN111832257A (zh) * 2019-04-16 2020-10-27 三星电子株式会社 编码数据的条件转码
CN112149406A (zh) * 2020-09-25 2020-12-29 中国电子科技集团公司第十五研究所 一种中文文本纠错方法及系统
CN114036930A (zh) * 2021-10-28 2022-02-11 北京明略昭辉科技有限公司 文本纠错方法、装置、设备及计算机可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011942A (zh) * 2019-02-15 2019-07-12 中国人民解放军战略支援部队信息工程大学 基于深度学习的莫尔斯报文智能检测识别方法
CN111832257A (zh) * 2019-04-16 2020-10-27 三星电子株式会社 编码数据的条件转码
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN111092832A (zh) * 2019-12-20 2020-05-01 长沙深之瞳信息科技有限公司 莫尔斯电码深度学习训练数据制作方法
CN110866376A (zh) * 2020-01-20 2020-03-06 长沙深之瞳信息科技有限公司 电码的自动识别方法及存储介质
CN112149406A (zh) * 2020-09-25 2020-12-29 中国电子科技集团公司第十五研究所 一种中文文本纠错方法及系统
CN114036930A (zh) * 2021-10-28 2022-02-11 北京明略昭辉科技有限公司 文本纠错方法、装置、设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向司法文书的文本智能纠错与质量估计方法研究;白明骏;中国优秀硕士学位论文全文数据库 ,社会科学Ⅰ辑(第2022年第3期期);全文 *

Also Published As

Publication number Publication date
CN115719059A (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
US10460029B2 (en) Reply information recommendation method and apparatus
CN101371253B (zh) 生成拼写建议的方法和系统
CN1179323C (zh) 适用于自动语音识别系统的n最佳列表的基于知识的策略
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN108363701B (zh) 命名实体识别方法及系统
US8532988B2 (en) Searching for symbol string
CN1457041A (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
CN1667699A (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN1097883A (zh) 字典检索装置
CN112784581B (zh) 文本纠错方法、装置、介质及电子设备
CN112507190B (zh) 一种财经快讯的关键词提取方法和系统
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN1916941A (zh) 一种字符识别的后处理方法
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN112951211B (zh) 一种语音唤醒方法及装置
CN110414524B (zh) 一种航空线缆编码的字符识别结果推理纠错方法
CN115719059B (zh) 一种莫尔斯分组纠错方法
JP6406988B2 (ja) 音声認識誤り修正装置
JP6508808B2 (ja) 音声認識誤り修正装置
CN112580303A (zh) 标点符号的添加系统
EP3663890B1 (en) Alignment method, device and system
CN1141100A (zh) 带有简单纠错的数字传输和记录系统
CN112668581A (zh) 一种文书标题识别方法和装置
CN1254903A (zh) 文书识别装置和信件分检机
CN112667768A (zh) 标点符号的校正系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant