CN109062888B

CN109062888B - 一种出现错误文本输入时的自纠正方法

Info

Publication number: CN109062888B
Application number: CN201810561235.6A
Authority: CN
Inventors: 邵玉斌; 高凌云志; 张琪; 龙华; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2023-03-31
Anticipated expiration: 2038-06-04
Also published as: CN109062888A

Abstract

本发明涉及一种出现错误文本输入时的自纠正方法，属于文本分析技术领域。接收待检测的文本信息，记录到数据流中；进行文本进行单一化字符处理，将文本进行解析，处理为一个个单一的字符信息；创建双字符关联词库表，将每一个单一字符，此处命名为key字符，其后都建立一张关联表格，用以存放关联字符表；统计key字符之后的词库表中每个字符出现的条件概率为多少；再次从数据流中获取待纠错文本信息；运用字符表进行对比，当出现比预定阈值小的字符关联时，按照字符表中概率由高到低的顺序进行推送纠正。

Description

一种出现错误文本输入时的自纠正方法

技术领域

本发明涉及一种出现错误文本输入时的自纠正方法，属于文本分析技术领域。

背景技术

大量文本输入和编辑的时候，难免会出现输入错误的情况，主要的错误为音相似错误和形似错误方式。现有的纠错方式为，人工的方式，在文本成稿之后，通常是由人力的方式，通过全文阅读文章来进行错误文本的改正工作，这样的方式其效率非常低下，同时，在错误文本为形似错误的时候，通过人力的方式，以阅读的手段来解决问题，往往很难被发现出来。

发明内容

本发明要解决的技术问题是提供一种出现错误文本输入时的自纠正方法，用以解决上述问题。

本发明的技术方案是：一种出现错误文本输入时的自纠正方法，首先接收待纠正的文本信息，在获取到待纠错文本信息之后，将其存储于数据流中，以便多次使用待纠错文本信息，从数据流中获取文本信息，将其进行单一化处理，处理为单一化的文本字符信息。

将每一个字符后建立一张关联性字符表，其中被创建表的字符取名为key字符，其表格特点为，记录关联性字符出现的条件概率，即以全文本信息为范围，计算出当key字符出现后，下一可能字符出现的在全文范围内的条件概率。

再次从数据流中获取待纠错文本信息，与字符表中的文本信息进行对比，同时，结合预定阈值，对疑似错误输入部分进行甄别，当大于阈值时，判定关联性强，为正确关联输入，当小于阈值时，判定其为错误的文本关联性信息；从当前key字符表格中，筛选出大于阈值的关联字符，按照条件概率的大小排序推送出纠正选项。

具体为：

第一步：接收待纠正的文本信息；

第二步：储存待纠正文本信息于数据流中，待重复使用文本信息；

第三步：将数据流中的待纠错文本信息进行单一化字符处理，当前字符用key字符代指；将文本中的key字符后建立关联性词库表，用于存放key字符后出现的所有字符，并存放其出现的条件概率值为多少，其计算方式为；

第四步：再次读取数据流中的待纠错文本信息，与关联性词库进行比对，同时，与预定阈值进行比对，产生比对结果；

第五步：当大于阈值时，判定关联性强，为正确关联输入，当小于阈值时，判定其为错误的文本关联性信息；

第六步：从当前key字符表格中，筛选出大于阈值的关联字符，按照条件概率的大小排序推送出纠正选项。

本发明的有益效果是：用概率的方式，将全文本中的字符条件概率进行建立关联性表统计，使用全文本的数据量来对个别偶发错误输入文本进行甄别，大大的提高了纠错的效率，同时，提高了纠错的精准度，适合现在的实际使用要求。

附图说明

图1是本发明的流程图；

图2是本发明关键字概率关系矩阵图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种出现错误文本输入时的自纠正方法，具体为：

第一步：接收待纠正的文本信息，从外部接收到待检测的文本信息；如图1中所示流程图，在第一步中，将待查错的文本信息进行接收。储存待纠正文本信息与数据流中，待重复使用文本信息。

第二步：将数据流中的待纠错文本信息进行单一化字符处理，如图1流程图所示，将文本中的所有字符信息，全部按照单个的字符形式进行表示，同时，当前字符用key字符代指，如表1所示，当文本信息为“中间名族”时，将其处理为“中”“间”“名”“族”；将文本中的key字符后建立关联性词库表。

表1

第三步：计算条件概率，如图1流程图所示，统计key字符之后的词库表中每一个字符出现的概率，并存放入相对应表格中，其计算方式为；如表1所示，其中“中国”这一文本信息，在表中的展示结构为，key字符为“中”字，其后出现“国”字在全文范围内的概率为0.351。

第四步：再次获取数据中的文本数据，用于和第三步中建立的关联性表格进行比对，甄别出可能的错别输出文本信息，如图1流程图所示，再次获取数据流中的文本信息；并处理为单一字符信息。如表1所示，当文本信息为“中间名族”时，将其处理为“中”“间”“名”“族”；

第五步：当大于阈值时，判定关联性强，为正确关联输入，当小于阈值时，判定其为错误的文本关联性信息；如图1流程图所示，对于比对的结果进行判定，由阈值来控制，是否判定为错误文本输入。如表1实例来看，例如：待纠错文本中的部分文本为“中间名族”，有表中数据可以得到，“中”字之后出现“间”字的全文本中的条件概率为0.092，如若给定的阈值为0.2，可见，其条件概率是小于阈值的，此时，将会判定其为错误的文本输入，对于原文本中的“名族”，有表1中数据可知，其出现的概率为0.001，其概率远远小于阈值，故而判定其为错误的文本关联性输入。

第六步：根据概率，从key字符后的关联性表格中选取出，大于阈值的字符信息进行推送，以表中的数据为例，此时，“中”字后的关联性表格中，出现“国”字的概率为0.351，出现“央”字的概率为0.385，出现“华”字的概率为0.405，这些字符的概率是大于阈值的，此时，按照其概率的大小来进行排序，按照顺序进行推送，其最终的推送方式为“华”，“央”，“国”。从关联性表格中可以知道，此时，“民”字后出现“族”的概率为0.425，照其概率的大小来进行排序，按照顺序进行推送，其最终的推送方式为“民”字。

第七步：按照提示的纠错提示性字符，可以将抉择出最高概率的正确语句为“中华民族”。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种出现错误文本输入时的自纠正方法，其特征在于：

第一步：接收待纠正的文本信息；

第二步：储存待纠正的文本信息于数据流中，以便多次使用所述待纠正的文本信息；

第三步：将数据流中的待纠正的文本信息进行单一化字符处理，其中，单一化字符处理指将文本中的所有字符信息，全部按照单个的字符形式进行表示；选择一字符设定为key字符，针对key字符及其后面出现的所有字符建立关联性字符表，关联性字符表中存放有key字符后出现的所有字符及各个字符出现的条件概率值，条件概率值的计算方式为

第四步：读取所述数据流中的待纠正的文本信息及第三步中建立的关联性字符表，将字符表中key字符后出现字符的条件概率值与预设阈值进行比对，产生比对结果，甄别出可能的错误输入文本信息；

第五步：当关联性字符表中的条件概率值大于阈值时，判定关联性强，为正确关联输入；当关联性字符表中的条件概率值小于阈值时，判定其为错误的文本关联性信息，转至第六步；具体的，当关联性字符表中key字符后出现A字符的条件概率为P_A，且P_A小于预设阈值时，判定key字符后出现A字符的情况为错误的文本关联性输入；

第六步：从当前key字符的关联性字符表中，筛选出条件概率值大于阈值的字符，按照条件概率的大小对字符进行排序，按照排序顺序推送纠正选项。