CN114936549B

CN114936549B - 一种人工智能的文字校对方法及系统

Info

Publication number: CN114936549B
Application number: CN202210631536.8A
Authority: CN
Inventors: 邓晨曦
Original assignee: Hunan Environment Biological Polytechnic
Current assignee: Hunan Environment Biological Polytechnic
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2024-02-13
Anticipated expiration: 2042-06-06
Also published as: CN114936549A

Abstract

本发明公开了一种人工智能的文字校对方法及系统，所述方法包括：建立并训练相邻词概率预测模型，其中，所述相邻词概率预测模型的输入为2个输入词，所述相邻词概率预测模型的输出为2个输入词对应的相邻概率值；本发明提出的人工智能的文字校对方法，通过对待校对文档进行分词，分词后依次组合形成多个输入词，然后将输入词输入相邻词概率预测模型，以获得每组输入词对应的相邻概率值，基于相邻概率值对输入词进行判断，以判断输入词是否异常，然后将异常的输入词进行标记，然后由操作人员进行后续的排查校对；即本发明能够自动对待校对文档进行初步校对，大大减少了人工校对的工作量，大大提升了文字校对效率。

Description

一种人工智能的文字校对方法及系统

技术领域

本发明涉及文字校对技术领域，具体涉及一种人工智能的文字校对方法及系统。

背景技术

在中文文字处理中，录入、编辑和排版都已经有相当成熟的电脑应用系统，但文本校对这一中间环节尚停留主要依靠人工处理阶段，并已成为新闻、出版、办公室文印等领域制约整个行业发展，影响工作效率的瓶颈。

校对是保证录入文档内容准确性的重要一环，如果文稿校对不准确，一字之差就会造成读者的困惑或不满，严重时会造成重大事故。因此需增强对校对工作的认识，提高校对工作的技巧，使校对更好地发挥消灭差错保证质量的作用。目前的文字校对工作仍以人工校对为主，校对效率十分低下。

发明内容

本发明的主要目的是提供一种人工智能的文字校对方法及系统，旨在解决目前文字校对工作仍以人工校对为主，校对效率十分低下的问题。

本发明提出的技术方案为：

一种人工智能的文字校对方法，包括：

建立并训练相邻词概率预测模型，其中，所述相邻词概率预测模型的输入为2个输入词，所述相邻词概率预测模型的输出为2个输入词对应的相邻概率值；

获取用户通过用户终端撰写的待校对文档，以及存储于云服务器的词语数据库；

基于词语数据库对待校对文档进行分词；

将分词后的待校对文档中每个词和后面相邻的词标记为一组输入词；

按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值；

将小于第一预设值的相邻概率值所对应的一组输入词标记为异常词组；

在用户终端的显示界面上，将待校对文档中的所述异常词组进行标记。

优选的，所述建立并训练相邻词概率预测模型，包括：

建立相邻词概率预测模型；

获取训练文档库，并基于训练文档库得到多个训练文档；

基于词语数据库将各所述训练文档分词，并获得训练词集；

获取训练词集中每个词在各训练文档中的相邻词，并放入第一连接词集合中，其中，所述相邻词包括前一相邻词和后一相邻词；

计算训练词集中每个词与对应的第一连接词集合中任一个连接词之间的相邻概率值：

式中，P_i,j为训练词集中第i个词与对应的第一连接词集合中第j个连接词的相邻概率值；L_i,j为训练词集中第i个词与所对应的第一连接词集合中第j个连接词在各个训练文档中彼此相邻的次数；Z_i为训练词集中第i个词在各训练文档中出现的总次数；i≥1,j≥1，且i和j均为正整数；

将训练词集中每个词与对应的第一连接词集合中任一个连接词组合为输入词组；

将训练词集中每个词与对应的第一连接词集合中任一个连接词之间的相邻概率值作为与所述输入词组对应的输出概率；

将所述输入词组作为相邻词概率预测模型的输入，将所述输入词组对应的输出概率作为相邻词概率预测模型的的输出以进行训练。

优选的，所述在用户终端的显示界面上，将待校对文档上中的所述异常词组进行标记，之后还包括：

获取用户基于所述异常词组输入的核对指令，其中，所述核对指令为校对结果错误或校对结果正确；

当所述核对指令为校对结果正确时，将所述核对指令对应的异常词组标记为正常词组；

判断待核对文档中是否还存在与所述正常词组一致的异常词组；

若是，在用户终端的显示界面上，将与所述正常词组一致的异常词组去除标记。

优选的，所述获取用户基于所述异常词组输入的核对指令，之后还包括：

当所述核对指令为校对结果错误时，将所述核对指令对应的异常词组标记为错误词组；

获取用户针对所述异常词组进行删除的词，并标记为删除词；

获取用户针对所述异常词组进行新增的词，并标记为新增词；

判断用户修改后的待校对文档是否还具有与所述错误词组一致的异常词组；

若是，在用户终端的显示界面上，将待校对文档的与所述错误词组一致的异常词组中的删除词高亮显示，并于删除词旁生成并显示新增词。

获取第二预设值，其中，所述第二预设值大于所述第一预设值；

获取异常词组中第1个词在各训练文档中的相邻词，并放入第二连接词集合中；

计算异常词组中第1个词与对应的第二连接词集合中任一个连接词之间的相邻概率值；

判断第二连接词集合中是否存在与异常词组中第1个词之间的相邻概率值大于所述第二预设值的连接词；

若是，将与异常词组中第1个词之间的相邻概率值大于所述第二预设值的第二连接词集合中的连接词放入第一词组；

获取所述第一词组中，拼音与所述异常词组中第2个词一致的词，并标记为第一同音词；

在用户终端的显示界面上，于所述异常词组中第1个词之后生成并显示所述第一同音词；

若否，获取异常词组中第2个词在各训练文档中的相邻词，并放入第三连接词集合中；

计算异常词组中第2个词与对应的第三连接词集合中任一个连接词之间的相邻概率值；

判断第三连接词集合中是否存在与异常词组中第2个词之间的相邻概率值大于所述第二预设值的连接词；

若存在，将与异常词组中第2个词之间的相邻概率值大于所述第二预设值的第三连接词集合中的连接词放入第二词组；

获取所述第二词组中，拼音与所述异常词组中第1个词一致的词，并标记为第二同音词；

在用户终端的显示界面上，于所述异常词组中第2个词之前生成并显示所述第二同音词。

优选的，所述按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值，之后还包括：

将不小于第一预设值的相邻概率值所对应的一组输入词标记为正常词组；

判断是否存在拼音一致且文字不完全一致的2个正常词组；

若是，将拼音一致且文字不完全一致的2个正常词组标记为目标词组对；

在用户终端的显示界面上，将待校对文档中的所述目标词组对进行联系标记。

优选的，所述获取用户通过用户终端撰写的待校对文档，以及基于存储于云服务器的词语数据库和所述基于词语数据库对待校对文档进行分词，之间还包括：

判断待校对文档的字数是否大于预设字数；

若是，将待校对文档分割为第一文档和第二文档，其中，所述第一文档的字数小于所述第二文档的字数；

基于词语数据库对第一文档和第二文档分别进行分词；

将第一文档中每个词和后面相邻的词标记为第一相邻词组；

将第一相邻词组按照第一文档中文字排列顺序依次输入至所述相邻词概率预测模型，以获得第一相邻词组对应的相邻概率值；

当第一相邻词组对应的相邻概率值小于第一预设值时，将第一相邻词组标记为异常词组；

当第一文档中异常词组的数量与第一文档的总字数的数量的比值大于预设比值时，生成第三预设值，其中，所述第三预设值大于所述第一预设值；

当第一文档中异常词组的数量与第一文档的总字数的数量的比值不大于预设比值时，生成第四预设值，其中，所述第四预设值小于所述第一预设值；

将第二文档中每个词和后面相邻的词标记为第二相邻词组；

将第二相邻词组按照第二文档中文字排列顺序依次输入至所述相邻词概率预测模型，以获得第二相邻词组对应的相邻概率值；

当第二相邻词组对应的相邻概率值小于所述第三预设值或所述第四预设值时，将第一相邻词组标记为异常词组；

若否，执行所述基于词语数据库对待校对文档进行分词，及之后的步骤。

基于待校对文档的字数和撰写时长计算待校对文档的撰写速度；

当撰写速度大于预设速度时，生成第五预设值，其中，所述第五预设值大于所述第一预设值；

将小于第五预设值的相邻概率值所对应的一组输入词标记为异常词组；

获取待校对文档的作者对应的已完成校对的文档的准确率；

当准确率小于预设准确率时，生成第六预设值，其中，所述第六预设值大于所述第一预设值；

将小于第六预设值的相邻概率值所对应的一组输入词标记为异常词组；

本发明还提出了一种人工智能的文字校对系统，应用于如上述中任一项所述的人工智能的文字校对方法；所述系统包括：

云服务器，用于存储词语数据库，并用于建立并训练相邻词概率预测模型，其中，所述相邻词概率预测模型的输入为2个输入词，所述相邻词概率预测模型的输出为2个输入词对应的相邻概率值；

处理模块，用于获取用户通过用户终端撰写的待校对文档，以及存储于云服务器的词语数据库；基于词语数据库对待校对文档进行分词；将分词后的待校对文档中每个词和后面相邻的词标记为一组输入词；按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值，将小于第一预设值的相邻概率值所对应的一组输入词标记为异常词组；

用户终端，用于在显示界面上，将待校对文档中的所述异常词组进行标记。

通过上述技术方案，能实现以下有益效果：

本发明提出的人工智能的文字校对方法，通过对待校对文档进行分词，分词后依次组合形成多个输入词，然后将输入词输入相邻词概率预测模型，以获得每组输入词对应的相邻概率值，基于相邻概率值对输入词进行判断，以判断输入词是否异常，然后将异常的输入词进行标记，然后由操作人员进行后续的排查校对；即本发明能够自动对待校对文档进行初步校对，大大减少了人工校对的工作量，大大提升了文字校对效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提出的一种人工智能的文字校对方法第一实施例的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提出一种人工智能的文字校对方法及系统。

如附图1所示，在本发明提出的一种人工智能的文字校对方法的第一实施例中，本实施例包括如下步骤：

步骤S110：建立并训练相邻词概率预测模型，其中，所述相邻词概率预测模型的输入为2个输入词，所述相邻词概率预测模型的输出为2个输入词对应的相邻概率值。

具体的，这里的相邻概率值即为2个输入词在文档中彼此相邻的概率，相邻概率值越大，则2个输入词彼此相邻的情况越多。

步骤S120：获取用户通过用户终端撰写的待校对文档，以及存储于云服务器的词语数据库。

步骤S130：基于词语数据库对待校对文档进行分词。

步骤S140：将分词后的待校对文档中每个词和后面相邻的词标记为一组输入词。

具体的，例如待校对文档为：“今天天气非常好”，则分词后包括“今天”、“天气”、“非常”和“好”；那么这里的待校对文档包括3组输入词，分别为“今天天气”、“天气非常”和“非常好”。

步骤S150：按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值。

步骤S160：将小于第一预设值的相邻概率值所对应的一组输入词标记为异常词组。

具体的，这里的第一预设值优选为5％。若低于第一预设值，则说明该组输入词彼此相邻的概率比较小，那么这组输入词在文档中出现的情况比较少，则这组输入词有可能出现了输入错误，需要进行进一步确认是否正确。

步骤S170：在用户终端的显示界面上，将待校对文档中的所述异常词组进行标记。

具体的，将异常词组进行标记(例如高亮显示)，以便于操作人员对异常词组进行进一步确认校对。

在本发明提出的一种人工智能的文字校对方法的第二实施例中，基于第一实施例，步骤S110包括如下步骤：

步骤S210：建立相邻词概率预测模型。

步骤S220：获取训练文档库，并基于训练文档库得到多个训练文档。

具体的，这里的训练文档为多个不同领域，且字数较多(例如单个训练文档超过10万个字)的文档，且文档中的内容是严格筛选校对后的，语句通顺，表述清楚的；这样的训练文档才能用来训练模型。

步骤S230：基于词语数据库将各所述训练文档分词，并获得训练词集。

步骤S240：获取训练词集中每个词在各训练文档中的相邻词，并放入第一连接词集合中，其中，所述相邻词包括前一相邻词和后一相邻词。

具体的，例如训练文档中存在如下表述：“今天天气非常好”，则分词后的训练词集中包括“今天”、“天气”、“非常”和“好”；那么这里的第一连接词集合为：“今天天气”、“天气非常”和“非常好”。

步骤S250：计算训练词集中每个词与对应的第一连接词集合中任一个连接词之间的相邻概率值：

式中，P_i,j为训练词集中第i个词与对应的第一连接词集合中第j个连接词的相邻概率值；L_i,j为训练词集中第i个词与所对应的第一连接词集合中第j个连接词在各个训练文档中彼此相邻的次数；Z_i为训练词集中第i个词在各训练文档中出现的总次数；i≥1,j≥1，且i和j均为正整数。

具体的，例如：P_1,1为训练词集中第1个词与对应的第一连接词集合中第1个连接词的相邻概率值，第1个词为“今天”，设第1个词“今天”对应的第一连接词集合中第1个连接词为“天气”，则P_1,1为“今天”和“天气”之间的相邻概率值；L_1,1为“今天”和“天气”在各个训练文档中彼此相邻的次数；Z₁为“今天”在各训练文档中出现的总次数。

步骤S260：将训练词集中每个词与对应的第一连接词集合中任一个连接词组合为输入词组。

步骤S270：将训练词集中每个词与对应的第一连接词集合中任一个连接词之间的相邻概率值作为与所述输入词组对应的输出概率。

步骤S280：将所述输入词组作为相邻词概率预测模型的输入，将所述输入词组对应的输出概率作为相邻词概率预测模型的的输出以进行训练。

本实施例的目的在于给出了建立并训练相邻词概率预测模型的具体方案。

在本发明提出的一种人工智能的文字校对方法的第三实施例中，基于第二实施例，步骤S170，之后还包括如下步骤：

步骤S310：获取用户基于所述异常词组输入的核对指令，其中，所述核对指令为校对结果错误或校对结果正确。

具体的，用户在步骤S170后，可对待校对文档进行进一步的人工校对。

步骤S320：当所述核对指令为校对结果正确时，将所述核对指令对应的异常词组标记为正常词组。

具体的，当核对指令为校对结果正确时，证明该异常词组的表述没有错误，故将核对指令对应的异常词组标记为正常词组。

步骤S330：判断待核对文档中是否还存在与所述正常词组一致的异常词组。

若是，执行步骤S340：在用户终端的显示界面上，将与所述正常词组一致的异常词组去除标记。

具体的，若待核对文档中还存在与正常词组一致的异常词组，则直接将与正常词组一致的异常词组去除标记，以省去校对人员重复校对的操作，更加快捷方便。

在本发明提出的一种人工智能的文字校对方法的第四实施例中，基于第三实施例，步骤S310，之后还包括如下步骤：

步骤S410：当所述核对指令为校对结果错误时，将所述核对指令对应的异常词组标记为错误词组。

具体的，当核对指令为校对结果错误时，证明该异常词组确实存在错误，故将核对指令对应的异常词组标记为错误词组。

步骤S420：获取用户针对所述异常词组进行删除的词，并标记为删除词。

具体的，针对错误词组，用户需要进行修改，而修改包括删除操作，故直接获取用户针对所述异常词组进行删除的词，并标记为删除词。

例如，当错误词组为“每月事情”时，则删除词为：“每月”。

步骤S430：获取用户针对所述异常词组进行新增的词，并标记为新增词。

具体的，针对错误词组，用户需要进行修改，而修改还包括新增操作，故直接获取用户针对所述异常词组进行新增的词，并标记为新增词。

例如，当错误词组为“每月事情”时，则新增词为：“没有”。

步骤S440：判断用户修改后的待校对文档是否还具有与所述错误词组一致的异常词组。

若是，执行步骤S450：在用户终端的显示界面上，将待校对文档的与所述错误词组一致的异常词组中的删除词高亮显示，并于删除词旁生成并显示新增词。

具体的，若待校对文档之后还具有错误词组：“每月事情”，则直接将后续的每个“每月事情”处，将“每月”高亮显示，并在“每月”旁生成“没有”；这样免去了校对人员打字的操作，提高校对效率。

在本发明提出的一种人工智能的文字校对方法的第五实施例中，基于第一实施例，步骤S170，之后还包括如下步骤：

步骤S501：获取第二预设值，其中，所述第二预设值大于所述第一预设值。

例如，第二预设值为60％。

步骤S502：获取异常词组中第1个词在各训练文档中的相邻词，并放入第二连接词集合中。

具体的，这里针对异常词组“非常票量”进行分析，即获取“非常”在各训练文档中的相邻词，放入第二连接词集合中。

步骤S503：计算异常词组中第1个词与对应的第二连接词集合中任一个连接词之间的相邻概率值。

具体的，即计算“非常”与对应的第二连接词集合中任一个连接词之间的相邻概率值，这里的计算方式为第二实施例中的步骤S250一致，故不再详细介绍。

步骤S504：判断第二连接词集合中是否存在与异常词组中第1个词之间的相邻概率值大于所述第二预设值的连接词。

具体的，若相邻概率值大于第二预设值，则说明对应的2个词之间相邻的概率比较大，也就是说对应的2个词经常组合在一起出现于训练文档中。

若是，执行步骤S505：将与异常词组中第1个词之间的相邻概率值大于所述第二预设值的第二连接词集合中的连接词放入第一词组。

具体的，若是，则将与异常词组中第1个词之间的相邻概率值大于第二预设值的第二连接词集合中的连接词放入第一词组，例如：这里的第一词组包括“漂亮”和“快乐”；因为这2个词均经常与“非常”进行组合。

步骤S506：获取所述第一词组中，拼音与所述异常词组中第1个词一致的词，并标记为第一同音词。

具体的，这里的第一同音词为：“漂亮”。

步骤S507：在用户终端的显示界面上，于所述异常词组中第1个词之后生成并显示所述第一同音词。

具体的，因为第一同音词和异常词组中的第2个词的拼音一致，且第一同音词又经常和异常词组中的第1个词组合在一起使用，故很大概率这里是拼音输入错误，故直接于异常词组中第1个词之后生成并显示第一同音词，即在“非常”之后紧跟着显示“漂亮”，以简化校对人员的打字操作。

若否，执行步骤S508：获取异常词组中第2个词在各训练文档中的相邻词，并放入第三连接词集合中。

步骤S509：计算异常词组中第2个词与对应的第三连接词集合中任一个连接词之间的相邻概率值。

步骤S510：判断第三连接词集合中是否存在与异常词组中第2个词之间的相邻概率值大于所述第二预设值的连接词。

步骤S511：若存在，将与异常词组中第2个词之间的相邻概率值大于所述第二预设值的第三连接词集合中的连接词放入第二词组。

步骤S512：获取所述第二词组中，拼音与所述异常词组中第1个词一致的词，并标记为第二同音词。

步骤S513：在用户终端的显示界面上，于所述异常词组中第2个词之前生成并显示所述第二同音词。

具体的，步骤步骤S508-步骤S513的操作方案和步骤S501-步骤S507类似，至少步骤S501-步骤S507的步骤是针对异常词组的第1个词进行分析，以获取正确的第2个词；而步骤S508-步骤S513是针对异常词组的第2个词进行分析，以获取正确的第1个词。

例如，针对异常词组“倒的品质”来分析，这里的第二词组包括“道德”和“思想”；因为这2个词均经常与“品质”进行组合；这里的第二同音词为“道德”，故直接于异常词组中第2个词之前生成并显示第二同音词，即在“品质”之前紧跟着显示“道德”，以简化校对人员的打字操作。

在本发明提出的一种人工智能的文字校对方法的第六实施例中，基于第一实施例，步骤S150，之后还包括如下步骤：

步骤S610：将不小于第一预设值的相邻概率值所对应的一组输入词标记为正常词组。

步骤S620：判断是否存在拼音一致且文字不完全一致的2个正常词组。

例如：“一本易经”和“一本医经”；这两个正常词组是拼音完成一致，但文字不完全一致，且这2个词组又均是正常词组；但实际上，对于同一文档而言，不太可能同时出现这2个词组；很大概率是输入人员不小心写错了其中一个，需要进行进一步确认校对。

若是，执行步骤S630：将拼音一致且文字不完全一致的2个正常词组标记为目标词组对。

步骤S640：在用户终端的显示界面上，将待校对文档中的所述目标词组对进行联系标记。

具体的，故直接将“一本易经”和“一本医经”标记为目标词组对，且将目标词组对进行联系标记(例如将字体显示为同一颜色)，以便于校对人员同时发现目标词组对，并进行确认校对。

步骤S650：基于待校对文档的字数计算得到预设次数。

具体的，这里的预设次数和待校对文档的字数呈正相关关系，待校对文档的字数越多，则预设次数越大，本实施例取2次为例。

步骤S660：判断待校对文档中所述目标词组对中的任一正常词组的出现次数是否小于预设次数。

若是，执行步骤S670：将待校对文档中出现次数小于预设次数的目标词组对中的任一正常词组标记为嫌疑词组，将目标词组对中除嫌疑词组之外的另一正常词组标记为优选词组。

具体的，即将待校对文档中出现次数小于2次的目标词组对中的任一正常词组标记为嫌疑词组，例如：若“一本医经”的出现次数仅为1词，则将“一本医经”标记为嫌疑词组，将“一本易经”标记为优选词组。

步骤S680：在用户终端的显示界面上，将待校对文档中的嫌疑词组旁生成并显示所述优选词组。

具体的，很明显，优选词组出现的次数更多，则嫌疑词组是输入错误的概率更大，则在用户终端的显示界面上，将待校对文档中的嫌疑词组旁生成并显示优选词组，以帮助校对人员提升校对效率。

在本发明提出的一种人工智能的文字校对方法的第七实施例中，基于第一实施例，步骤S120和步骤S130，之间还包括如下步骤：

步骤S701：判断待校对文档的字数是否大于预设字数。

具体的，本实施例中将预设字数设为1万字。

若是，执行步骤S702：将待校对文档分割为第一文档和第二文档，其中，所述第一文档的字数小于所述第二文档的字数。

具体的，待校对文档超过预设字数，说明文档较大，可以将待校对文档分割为2个文档，分别为第一文档和第二文档，且第一文档的字数小于第二文档的字数，先对第一文档进行校对分析，然后基于第一文档的校对结果，再调整对第二文档的校对方案。

步骤S703：基于词语数据库对第一文档和第二文档分别进行分词。

步骤S704：将第一文档中每个词和后面相邻的词标记为第一相邻词组。

步骤S705：将第一相邻词组按照第一文档中文字排列顺序依次输入至所述相邻词概率预测模型，以获得第一相邻词组对应的相邻概率值。

步骤S706：当第一相邻词组对应的相邻概率值小于第一预设值时，将第一相邻词组标记为异常词组。

步骤S707：当第一文档中异常词组的数量与第一文档的总字数的数量的比值大于预设比值时，生成第三预设值，其中，所述第三预设值大于所述第一预设值。

具体的，这里的预设比值优选为0.01；若第一文档中异常词组的数量与第一文档的总字数的数量的比值大于0.01，说明第一文档中出现的异常词组较多，则证明该待校对文档需要进行更加严格的校对，故生成第三预设值，且第三预设值大于第一预设值，这里的第三预设值优选为10％。

步骤S708：当第一文档中异常词组的数量与第一文档的总字数的数量的比值不大于预设比值时，生成第四预设值，其中，所述第四预设值小于所述第一预设值。

具体的，若第一文档中异常词组的数量与第一文档的总字数的数量的比值小于0.01，说明第一文档中出现的异常词组较少，则证明该待校对文档进行较为宽松的校对即可，故生成第是预设值，且第四预设值小于第一预设值，这里的第四预设值优选为3％。

步骤S709：将第二文档中每个词和后面相邻的词标记为第二相邻词组。

步骤S710：将第二相邻词组按照第二文档中文字排列顺序依次输入至所述相邻词概率预测模型，以获得第二相邻词组对应的相邻概率值。

步骤S711：当第二相邻词组对应的相邻概率值小于所述第三预设值或所述第四预设值时，将第一相邻词组标记为异常词组。

若否，执行步骤S130，及之后的步骤。

本实施例的目的，在于将待校对文档分割为第一文档和第二文档，且第一文档的字数小于第二文档的字数，先对第一文档进行校对分析，然后基于第一文档的校对结果，再调整对第二文档的校对方案；具体为当第一文档错误较少时，则可以放松对第二文档的校对，而当第一文档错误较多时，则相应的要加强对第二文档的校对。

在本发明提出的一种人工智能的文字校对方法的第八实施例中，基于第一实施例，步骤S150，之后还包括如下步骤：

步骤S810：基于待校对文档的字数和撰写时长计算待校对文档的撰写速度。

具体的，撰写速度的单位为字/每秒。

步骤S820：当撰写速度大于预设速度时，生成第五预设值，其中，所述第五预设值大于所述第一预设值。

步骤S830：将小于第五预设值的相邻概率值所对应的一组输入词标记为异常词组。

步骤S840：在用户终端的显示界面上，将待校对文档中的所述异常词组进行标记。

本实施例的目的，在于基于待校对文档的撰写速度来调整校对方案；具体为当待校对方案的撰写速度较快时，则相应的可能出现的错误越多，则需要加强对待校对文档的校对，故生成第五预设值，并基于第五预设值进行校对。

在本发明提出的一种人工智能的文字校对方法的第九实施例中，基于第一实施例，步骤S150，之后还包括如下步骤：

步骤S910：获取待校对文档的作者对应的已完成校对的文档的准确率。

步骤S920：当准确率小于预设准确率时，生成第六预设值，其中，所述第六预设值大于所述第一预设值。

步骤S930：将小于第六预设值的相邻概率值所对应的一组输入词标记为异常词组。

步骤S940：在用户终端的显示界面上，将待校对文档中的所述异常词组进行标记。

本实施例的目的，在于基于待校对文档的作者对应的已完成校对的文档的准确率来调整校对方案；具体为当待校对文档的作者对应的已完成校对的文档的准确率小于预设准确率时，则相应的可能出现的错误越多，则需要加强对待校对文档的校对，故生成第六预设值，并基于第五预设值进行校对。

在本发明提出的一种人工智能的文字校对方法的第十实施例中，基于第三实施例，步骤S110，之后还包括如下步骤：

步骤S1010：当所述核对指令为校对结果正确时，判断所述核对指令对应的异常词组所对应的相邻概率值是否为0。

具体的，当核对指令为校对结果正确，且核对指令对应的异常词组所对应的相邻概率值为0时，说明这个异常词组虽然是没有见过的新词组，但是并没有出现语法错误，是一个正常的词组，故需要重新对该异常词组进行评估，以防止后续校对其他文档时再次将此词组标记为异常词组。

若是，执行步骤S1020：将所述核对指令对应的异常词组标记为新兴词组。

步骤S1030：获取待校对文档中所述新兴词组出现的次数。

步骤S1040：获取待校对文档中所述新兴词组中第1个词出现的次数。

步骤S1050：获取待校对文档中所述新兴词组中第2个词出现的次数。

步骤S1070：计算所述新兴词组的组合率：

式中，P_x为所述新兴词组的组合率；C_x为待校对文档中所述新兴词组出现的次数；C₁为待校对文档中所述新兴词组中第1个词出现的次数，C₂为待校对文档中所述新兴词组中第2个词出现的次数。

步骤S1080：将所述新兴词组对应的相邻概率值设置为所述组合率。

具体的，本实施例中，基于待校对文档来计算新兴词组的组合率，并直接将组合率作为新兴词组对应的相邻概率值，这样即可使得新兴词组的相邻概率值不再为0，且因新兴词组为在待校对文档中首次出现，故直接基于待校对文档来计算新兴词组的组合率并作为其相邻概率值更加合理。

在本发明提出的一种人工智能的文字校对方法的第十一实施例中，基于第一实施例，步骤S120，之后还包括如下步骤：

步骤S1110：判断待校对文档的字数是否大于预设字数。

具体的，本实施例中将预设字数设为1万字。

若是，执行步骤S1120：获取待校对文档的作者对应的已完成校对的文档的所对应的异常词组，并标记为历史词组集。

步骤S1130：在用户终端的显示界面上，将待校对文档中包含的所述历史词组集中的所有异常词组进行标记。

执行步骤S130，及之后的步骤。

具体的，若待校对文档的字数大于预设字数，则说明待校对文档的字数校对，若直接进行后续的输入相邻词概率预测模型进行校对的步骤，则耗费的时间较长，用户需要等待的时长较长，因此，可以直接获取待校对文档的作者对应的已完成校对的文档的所对应的异常词组，并标记为历史词组集。然后在用户终端的显示界面上，直接将待校对文档中包含的历史词组集中的所有异常词组进行标记，即可快速显示待校对文档中确定存在的异常词组，校对人员可先针对这些确定存在的异常词组进行修改，然后在修改的过程中等待正式校对(即步骤S130，及之后的步骤)结果，这样能够实现更加高效的文本校对。

本发明还提出一种人工智能的文字校对系统，本系统应用于如上述中任一项所述的人工智能的文字校对方法；所述系统包括：

云服务器，用于存储词语数据库，并用于建立并训练相邻词概率预测模型，其中，所述相邻词概率预测模型的输入为2个输入词，所述相邻词概率预测模型的输出为2个输入词对应的相邻概率值。

处理模块，用于获取用户通过用户终端撰写的待校对文档，以及存储于云服务器的词语数据库；基于词语数据库对待校对文档进行分词；将分词后的待校对文档中每个词和后面相邻的词标记为一组输入词；按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值，将小于第一预设值的相邻概率值所对应的一组输入词标记为异常词组。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种人工智能的文字校对方法，其特征在于，包括：

基于词语数据库对待校对文档进行分词；

在用户终端的显示界面上，将待校对文档中的所述异常词组进行标记；

所述在用户终端的显示界面上，将待校对文档上中的所述异常词组进行标记，之后还包括：

2.根据权利要求1所述的一种人工智能的文字校对方法，其特征在于，所述建立并训练相邻词概率预测模型，包括：

建立相邻词概率预测模型；

获取训练文档库，并基于训练文档库得到多个训练文档；

基于词语数据库将各所述训练文档分词，并获得训练词集；

3.根据权利要求2所述的一种人工智能的文字校对方法，其特征在于，所述在用户终端的显示界面上，将待校对文档上中的所述异常词组进行标记，之后还包括：

4.根据权利要求3所述的一种人工智能的文字校对方法，其特征在于，所述获取用户基于所述异常词组输入的核对指令，之后还包括：

5.根据权利要求1所述的一种人工智能的文字校对方法，其特征在于，所述按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值，之后还包括：

判断是否存在拼音一致且文字不完全一致的2个正常词组；

6.根据权利要求1所述的一种人工智能的文字校对方法，其特征在于，所述获取用户通过用户终端撰写的待校对文档，以及基于存储于云服务器的词语数据库和所述基于词语数据库对待校对文档进行分词，之间还包括：

判断待校对文档的字数是否大于预设字数；

基于词语数据库对第一文档和第二文档分别进行分词；

将第一文档中每个词和后面相邻的词标记为第一相邻词组；

将第二文档中每个词和后面相邻的词标记为第二相邻词组；

7.根据权利要求1所述的一种人工智能的文字校对方法，其特征在于，所述按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值，之后还包括：

8.根据权利要求1所述的一种人工智能的文字校对方法，其特征在于，所述按照待校对文档的文字排列顺序依次将所述输入词输入至所述相邻词概率预测模型，以获得每组输入词对应的相邻概率值，之后还包括：

获取待校对文档的作者对应的已完成校对的文档的准确率；

9.一种人工智能的文字校对系统，其特征在于，应用于如权利要求1-8中任一项所述的人工智能的文字校对方法；所述系统包括：