CN113033186B

CN113033186B - 一种基于事件分析的纠错预警方法及系统

Info

Publication number: CN113033186B
Application number: CN202110596526.0A
Authority: CN
Inventors: 宋永生; 张翔; 刘杰
Original assignee: Jiangsu United Industrial Ltd By Share Ltd
Current assignee: Wenling Technology Beijing Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-17
Anticipated expiration: 2041-05-31
Also published as: CN113033186A

Abstract

本发明提供了一种基于事件分析的纠错预警方法及系统，所述方法包括：获得第一识别主体的第一词向量和第一关联主体；得第一关联主体对于第一识别主体的第一反馈值；第一识别主体、第一反馈值输入第一语义识别模型，获得第一语义识别结果，包括第一同义替换词；获得第一句子和第二句子；第一置换指令用于依据第一同义替换词对第一识别主体进行置换，获得第三句子，第三句子为置换后的第一句子；得第二句子与第三句子的第一关联概率，其不处于第一预设阈值，得第一标记信息，依据第一标记信息对第一同义替换词进行标记，发送至云端纠错系统，解决了现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。

Description

一种基于事件分析的纠错预警方法及系统

技术领域

本发明涉及语义识别相关技术领域，尤其涉及一种基于事件分析的纠错方法及系统。

背景技术

文本数据中错误信息的纠正属于自然语言处理研究的一个领域。随着信息量的不断增加，纠正错误信息以及筛除冗余信息也愈显得重要，文本纠错技术的研究以及应用也得到了越来越多的关注。文本数据中出现的错误信息，很大程度上会导致资源的浪费，或是无法收到理想的信息反馈。利用文本纠错技术来查找数据中的错误信息并纠正，提高信息准确度与质量，如今已成为自然语言处理技术中面临的重要问题。

目前文本数据纠错的研究主要分为规则纠错和深度学习纠错。规则纠错虽然仍是当下主流使用的纠错方法，但是其存在误判率较高和准确率较低的缺陷；深度学习纠错是目前主要的研究方向，从很多成熟的方案例如序列标注模型、翻译模型可以看出，目前主要的应用仍然是有监督学习。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。

发明内容

本申请实施例通过提供一种基于事件分析的纠错方法及系统,解决了现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。通过使用同义词数据库构建语义识别模型，根据需识别主题的相邻词汇确定词性和连接规则，进一步利用语义识别模型智能化分析得到识别主体的同义替换词，使用同义替换词后若是判断相邻词句的关联性被破坏，则对此词进行标记并发送至云端纠错系统，达到了降低纠错学习中的替换错误率，进而得到更高的准确率和召回率的技术效果。

鉴于上述问题，本申请实施例提供了一种基于事件分析的纠错方法及系统。

第一方面，本申请实施例提供了一种基于事件分析的纠错预警方法，应用于一种云端纠错系统，其中，所述方法包括：获得第一识别主体的第一词向量；由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；以所述第一同义词数据库作为训练数据集构建第一语义识别模型；获得所述第一识别主体的第一关联主体；获得所述第一关联主体对于所述第一识别主体的第一反馈值；将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；获得所述第二句子信息与所述第三句子信息的第一关联概率；判断所述第一关联概率是否处于第一预设阈值；若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；将所述第一标记信息发送至所述云端纠错系统。

另一方面，本申请实施例提供了一种基于事件分析的纠错预警系统，其中，所述系统包括：第一获得单元，所述第一获得单元用于获得第一识别主体的第一词向量；第二获得单元，所述第二获得单元用于由云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；第一构建单元，所述第一构建单元用于以所述第一同义词数据库作为训练数据集构建第一语义识别模型；第三获得单元，所述第三获得单元用于获得所述第一识别主体的第一关联主体；第四获得单元，所述第四获得单元用于获得所述第一关联主体对于所述第一识别主体的第一反馈值；第五获得单元，第五获得单元用于将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；第六获得单元，所述第六获得单元用于获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；第七获得单元，第七获得单元用于获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；第八获得单元，所述第八获得单元用于获得所述第二句子信息与所述第三句子信息的第一关联概率；第一判断单元，所述第一判断单元用于判断所述第一关联概率是否处于第一预设阈值；第一标记单元，所述第一标记单元用于若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；第一发送单元，所述第一发送单元用于将所述第一标记信息发送至所述云端纠错系统。

第三方面，本申请实施例提供了一种基于事件分析的纠错预警系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了获得第一识别主体的第一词向量；由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；以所述第一同义词数据库作为训练数据集构建第一语义识别模型；获得所述第一识别主体的第一关联主体；获得所述第一关联主体对于所述第一识别主体的第一反馈值；将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；获得所述第二句子信息与所述第三句子信息的第一关联概率；判断所述第一关联概率是否处于第一预设阈值；若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；将所述第一标记信息发送至所述云端纠错系统的技术方案，通过使用同义词数据库构建语义识别模型，根据需识别主题的相邻词汇确定词性和连接规则，进一步利用语义识别模型智能化分析得到识别主体的同义替换词，使用同义替换词后若是判断相邻词句的关联性被破坏，则对此词进行标记并发送至云端纠错系统，达到了降低纠错学习中的替换错误率，进而得到更高的准确率和召回率的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下提供本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于事件分析的纠错预警方法的流程示意图；

图2为本申请实施例一种基于事件分析的纠错预警系统的结构示意图；

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第一构建单元13，第三获得单元14，第四获得单元15，第五获得单元16，第六获得单元17，第七获得单元18，第八获得单元19，第一判断单元20，第一标记单元21，第一发送单元22，总线300，接收器301，处理器302，发送器303，存储器304，总线接口305。

具体实施方式

本申请实施例通过提供一种基于事件分析的纠错方法及系统,解决了现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。通过使用同义词数据库构建语义识别模型，根据需识别主题的相邻词汇确定词性和连接规则，进一步利用语义识别模型智能化分析得到识别主体的同义替换词，使用同义替换词后若是判断相邻词句的关联性被破坏，则对此词进行标记并发送至云端纠错系统，达到了降低纠错学习中的替换错误率，进而得到更高的准确率和召回率的技术效果。下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

文本数据中错误信息的纠正属于自然语言处理研究的一个领域。随着信息量的不断增加，纠正错误信息以及筛除冗余信息也愈显得重要，文本纠错技术的研究以及应用也得到了越来越多的关注。文本数据中出现的错误信息，很大程度上会导致资源的浪费，或是无法收到理想的信息反馈。利用文本纠错技术来查找数据中的错误信息并纠正，提高信息准确度与质量，如今已成为自然语言处理技术中面临的重要问题。目前文本数据纠错的研究主要分为规则纠错和深度学习纠错。规则纠错虽然仍是当下主流使用的纠错方法，但是其存在误判率较高和准确率较低的缺陷；深度学习纠错是目前主要的研究方向，从很多成熟的方案例如序列标注模型、翻译模型可以看出，目前主要的应用仍然是有监督学习。但是现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于事件分析的纠错预警方法，应用于一种云端纠错系统，其中，所述方法包括：获得第一识别主体的第一词向量；由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；以所述第一同义词数据库作为训练数据集构建第一语义识别模型；获得所述第一识别主体的第一关联主体；获得所述第一关联主体对于所述第一识别主体的第一反馈值；将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；获得所述第二句子信息与所述第三句子信息的第一关联概率；判断所述第一关联概率是否处于第一预设阈值；若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；将所述第一标记信息发送至所述云端纠错系统。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于事件分析的纠错预警方法，应用于一种云端纠错系统，其中，所述方法包括：

S100：获得第一识别主体的第一词向量；

具体而言，所述第一识别主体指的是需进行纠错的文本数据；所述第一词向量指的是将需要进行纠错的文本数据使用词向量这个工具转换为计算机可以识别的语言信息。进一步的，词向量又称词嵌入，是自然语言处理NLP中一组语言建模和特征学习的统称，将词汇表的字或词从每个一维的高维空间映射到较低维连续向量空间，以便计算机进行处理及建模。将每个词语映射成一个定维度的向量，维度在几十到上百维之间，每个向量就代表着这个词语，词语的语义和语法相似性通过向量之间的相似度来判断。

S200：由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；

具体而言，所述云端纠错系统指的是一个对海量文本数据存储、管理、调用的数据库，且，已标识的文本纠错信息也会上传至所述云端纠错系统进行存储，再遇到相同的语义情境下，就会将已标识的文本纠错信息排除在外。进一步的，云数据库是部署和虚拟化在云计算环境中的数据库，云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易，云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。更进一步的，依据所述第一词向量的维度在所述云端系统中进行筛选，维度差值处于一定阈值之内的为第一同义词向量，再获得所述第一同义词向量对应的文本数据信息，构成的数据库即为所述第一同义词数据库，便于后步的信息反馈处理。

S300：以所述第一同义词数据库作为训练数据集构建第一语义识别模型；

具体而言，所述第一语义识别模型是基于神经网络模型训练的得到的智能化分析模型，即深度学习纠错，基于深度学习纠错的神经网络模型因为训练数据过于庞大，所以很难落地，但所述第一语义识别模型使用所述第一同义词数据库作为训练数据集，即在已经确定了所述第一识别主体的前提下进行训练数据的筛选，大大缩小了获取训练数据的范围，提高了深度学习纠错的可行性，且没有其他冗杂数据的干扰，增强了在同义替换语义分析时的准确性。

S400：获得所述第一识别主体的第一关联主体；

S500：获得所述第一关联主体对于所述第一识别主体的第一反馈值；

具体而言，所述第一关联主体指的是所述第一识别主体的左右相邻的词汇；所述第一反馈值指的是依据所述第一识别主体和所述第一关联主体之间的语义关系转换成的数据信息，该数据信息反映了所述第一识别主体的词性数据；所述第一识别主体和所述第一关联主体语义关系，实现方式可举例为设置一种连接规则将所述第一词向量和所述第一关联主体的词向量相联系，该连接规则对应于所述第一识别主体和所述第一关联主体语义关系。

S600：将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；

具体而言，所述第一语义识别结果信息是将所述第一识别主体信息和所述第一反馈值信息结合反馈至所述第一语义识别模型智能化分析得到的结果，所述第一语义识别模型是以神经网络模型为基础建立，具有神经网络模型的特性，其中，人工神经网络是在现代神经科学的基础上提出和发展起来的，旨在反映人脑结构及功能的一种抽象数学模型，神经网络是一种运算模型，由大量的节点（或称神经元）之间相互连接构成，每个节点代表一种特定的输出函数称为激励函数，每两个节点之间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依照网络的连接方式，是对一种逻辑策略的表达，基于神经网络模型建立的所述第一语义识别模型能够输出准确的所述第一语义识别结果信息，且，所述第一同义替换词指的是所述第一语义识别模型分析得到可以对所述第一识别主体进行替换的最佳词汇，其包含于第一语义识别结果信息，从而具备了较强的分析计算能力，达到了准确而高效的技术效果。

S700：获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；

具体而言，所述第一句子信息为包含所述第一识别主体在内的句子，所述第二句子信息指的是与所述第一句子相邻的前后句子信息，通过调用包含所述第一识别主体在内的前后三句话，可具体的了解所述第一识别主体的含义，并将相应含义转换为相应的词向量，依据这些含义对应的词向量可以对筛选得到的所述第一同义替换词进行评估，即制定了所述第一识别主体所在的整个句子的语义规则，进一步的计算所述第二句子的词向量和所述第一句子的词向量的关联概率。

S800：获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；

具体而言，在获取所述第一置换指令信息之后，将所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，进一步的，将所述第一同义替换词所在的第三句子信息，即置换后的所述第一句子信息返回至所述第二句子信息之中，即将所述第三句子信息和相邻的两个句子相连接，具体了解所述第一同义替换词的含义，并将相应含义转换为对应的词向量，进一步的计算所述第二句子的词向量和所述第三句子的词向量的关联概率。

S900：获得所述第二句子信息与所述第三句子信息的第一关联概率；

S1000：判断所述第一关联概率是否处于第一预设阈值；

S1100：若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；

S1200：将所述第一标记信息发送至所述云端纠错系统。

具体而言，所述第一关联概率，即通过所述第二句子的词向量和所述第三句子的词向量计算得到的关联概率数据，关联概率越高，句子连接性越强；所述第一预设阈值指的是计算所述第一关联概率和所述第一句子与所述第二句子关联概率之间的概率差值，当超过某个概率差值时，具体语义发生变化时的概率差值；若是所述第一关联概率和所述第一句子与所述第二句子计算的关联概率的概率差值超过了所述第一预设阈值，即认为所述第一同义替换词破坏了所述第一句子和所述第二句子的关联性，即其作为所述第一识别主体的同义替换词是不合格的，于是调用所述第一标记信息，对所述第一同义替换词进行标记，所述第一标记信息发送至所述云端纠错系统进行存储，计算机识别对应的标识信息即可在相似于语境时排除所述第一同义替换词，进而实现文本数据的纠错，达到了降低纠错学习中的替换错误率，进而得到更高的准确率和召回率的技术效果。

进一步的，所述方法还包括步骤S1300，具体为：

S1310：获得所述第一识别主体的第一多词义集合；

S1320：对所述第一识别主体进行情感分析，获得所述第一识别主体的第一情感权重值；

S1330：依据所述第一情感权重值对所述第一多词义集合进行筛选，获得第二多词义集合；

S1340：获得所述第二多词义集合的第一词向量集合；

S1350：对所述第一词向量进行聚类分析，获得第一聚类结果；

S1360：依据所述第一聚类结果，获得第一有效词向量集合；

S1370：获得第一修正指令，依据所述第一有效词向量集合对所述第一词向量进行修正，获得第一有效词向量。

具体而言，所述第一词义集合指的是所述第一识别主体的全部词义集合；进一步的，所述第一情感权重值指的是依据所述第一识别主体在所在语境中的情感分析，进一步得到所述第一识别主体在语义中的含义，情感权重越大就越是接近语义，基于所述第一情感权重值对所述第一词义集合进行筛选，得到所述第二多词义集合，若是对同一个词的不同含义采用同一个词向量，将降低识别效果，所以将所述第一识别主体的筛选出的所述第二多词义集合中的每个词义都用不同的词向量进行映射，得到所述第一词向量集合；对所述第一词向量进行聚类分析，聚类分析是一组将研究对象分为相对同质的群组的统计分析技术，即将性质相近的事物归于一类的一种分析方法，取得的结果即为所述第一聚类结果。进一步的，依据所述第一聚类结果，对所述第一词向量集合进行筛选，将词向量不相似的词向量集合筛除得到所述第一有效词向量集合。更进一步的，所述第一有效词向量指的是依据所述第一有效词向量集合中增加的词义添加进所述第一词向量之中，即使用多个词向量表达所述第一识别主体在语义中的含义。通过对符合语义的所述第一识别主体的多个词义进行聚类分析，进而利用得到所述第一有效词向量集合修正所述第一词向量得到含义表达更加准确和全面的所述第一有效词向量。

进一步而言，所述方法还包括步骤S1400：

S1410：依据所述第一有效词向量获得所述第一识别主体的第二同义词数据库；

S1420：将所述第二同义词数据库作为第一缺失数据；

S1430：将所述第一缺失数据输入所述第一语义识别模型中，生成第二语义识别模型，所述第二语义识别模型为所述第一语义识别模型进行增量学习后的新模型。

具体而言，所述第一识别主体的第二同义词数据库是基于所述第一有效词向量在所述云端纠错系统中进行筛选获得的对应数据库，所述第一语义识别模型是基于引入缺失函数完成数据缺失的分析进而获得的新模型，其中，所述第一缺失数据是代表所述第一语义识别模型对于所述同义词数据库的相关知识的缺失数据，再基于所述第一缺失数据完成对所述第一语义识别模型的增量学习，其中，增量学习是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。增量学习非常类似于人类自身的学习模式。随着数据库以及互联网技术的快速发展和广泛应用，社会各部门积累了大量数据。进一步的，所述第一语义识别模型是多个神经元相互连接组成构成神经网络获得的，因此，通过缺失数据的训练使得所述第二语义识别模型保留了所述第一语义识别模型的基本功能，并维持模型不断更新的性能，从而提高了语义识别准确性，保证语义分析得到同义替换词准确性的技术效果。

更进一步的，步骤S1320还包括：

S1321：对所述第一句子信息进行拆分处理，获得第一分词信息；

S1322：获得第一情感词典；

S1323:将所述第一分词信息输入至所述第一情感词典进行匹配，获得第一匹配结果；

S1324：获得所述第一匹配结果中所述第一分词信息的第一情感特征；

S1325：获得第一情感权重计算规则；

S1326：依据所述第一情感权重计算规则，对所述第一情感特征进行情感权重计算，获得所述第一句子信息的第一情感权重特征；

S1327：依据所述第一情感权重特征确定所述第一识别主体的所述第一情感权重值。

具体而言，所述第一识别主体的所述第一情感权重值的确定方式可选为：所述第一分词信息指的是将所述第一句子进行拆分，分为多个分词，将分词按照含义映射为对应词向量信息集合；所述第一情感词典指的是文本进行字符串匹配，从而挖掘正面和负面信息的词汇分析模型，情感词典包含正面词语词典、负面词语词典、否定词语词典、程度副词词典等四部分。一般词典包含两部分，词语和权重，可以利用词料训练构建词典，也可以直接选用开源的词典，举例如知网情感词典；所述第一匹配结果指的是将所述第一分词信息输入至所述第一情感词典进行遍历的得到的结果，所述第一情感特征为所述分词的词性和在句子中的具体含义。更进一步，具体的遍历方式可选为逐个遍历所述第一分词前后的句子中的词语，如果词语命中词典，则进行相应权重的处理，所述第一情感权重计算规则为正面词权重为加法，负面词权重为减法，否定词权重取相反数，程度副词权重则和它修饰的词语权重相乘，利用最终输出的权重值，就可以区分是正面、负面或者中性情感，其中所述输出的权重值即为所述第一句子信息的第一情感权重特征，更进一步，基于所述第一情感权重特征进行筛选得到所述第一识别主体的所述第一情感权重值。基于词典对所述第一识别的所述第一情感权重值进行计算，进而获得贴合语义的词义集合，获得较准确的所述第一有效词向量，增加文本数据纠错的准确性。

进一步的，基于所述将所述第一标记信息发送至所述云端纠错系统，所述方法步骤S1500还包括：

S1510：获得第一文本信息；

S1520：由所述云端纠错系统获得所述第一文本信息的第一标记信息集合；

S1530：获得第一标记判定规则；

S1540：依据所述第一标记判定规则对所述第一标记信息集合进行评估，获得所述第一文本信息的第一评估值；

S1550：判断所述第一评估值是否超过第一阈值；

S1560：若所述第一评估值超过所述第一阈值，获得第二标记信息，所述第二标记信息用于将所述第一文本信息标记为合格。

具体而言，所述第一文本信息指的是需要进行纠错的文本信息；所述第一标记信息集合指的是通过所述第一语义识别模型分析得到的所述第一同义替换信息的集合；所述第一标记判定规则指的是对所述第一文本的语义识别结果进行评估的既定规则，具体举例为，若是所述第一标记信息不符合所述第一标记判定规则，则认为所述第一标记信息不合格，将不合格的数目进行累计，得到结果就是所述第一评估值。进一步的，所述第一阈值指的是评判所述第一文本信息是否合格的评估标准，具体可以根据所述文本信息第一评估值，即不合格标记信息的数量评判，可举例为若是以标注信息的5％为所述第一阈值，所述文本信息有100个标注信息，则如所述第一评估值低于5，即认为所述第一评估值超过所述第一阈值，更进一步的，所述第二标记信息用于将所述第一文本信息标记为合格。

更进一步的，步骤S1530还包括：

S1531：若所述第一关联概率不处于所述第一预设阈值，获得第一关联概率等级；

S1532：获得所述第一关联概率等级与第一标记方式的第一映射关系；

S1533：获得第一文本识别要求；

S1534：依据所述第一文本识别要求及所述第一映射关系，确定所述第一标记判定规则。

具体而言，所述第一关联概率等级指的是将不处于所述第一预设阈值的所述第一关联概率进行分级，根据计算得到的概率从大到小进行排序，可选的设置概率等级区间；所述第一映射关系指的是不同的所述第一关联概率等级可对应的设置不同的所述第一标记方式，举例为等级区间≤30％、30％-50％、50％-70％、70％-90％，其中90％为所述第一预设阈值，则对应分别设置所述第一标记方式举例为红、蓝、绿、橙各色；所述第一文本识别要求文本识别要求为对于文本的各句子之间的关联性要求，对应为文本中标记信息的方式及数量要求，根据标记的颜色信息可以直观的甄别文本各句子之间的关联性；进一步的，则可确定所述第一标记判定规则，举例为设定等级区间在70％-90％则认为合格，＜70％的区间都为不合格，则具体的呈现形式为标记为红、蓝、绿各色的信息都为不合格信息。

进一步的，所述方法步骤S600包括：

S610：将所述第一识别主体、所述第一反馈值分别作为所述第一输入数据、所述第二输入数据输入至所述第一语义识别模型，所述第一语义识别模型通过多组训练数据训练获得，其中，所述多组训练数据均包含所述第一输入数据、所述第二输入数据以及用于标识所述第一语义识别结果的标识信息；

S620：获得所述第一语义识别模型的第一输出结果，所述第一输出结果包括所述第一语义识别结果。

具体而言，所述第一语义识别模型为神经网络模型，所述神经网络模型即机器学习中的神经网络模型，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。其中，它能根据训练数据进行不断的自我训练学习，所述多组训练数据均包含所述第一输入数据、所述第二输入数据以及用于标识所述第一语义识别结果的标识信息，所述第一语义识别模型不断地自我的修正，当所述第一语义识别模型的输出信息达到预定的准确率/收敛状态时，则监督学习过程结束。通过对所述第一语义识别模型进行数据训练，使得所述第一语义识别模型处理输入数据更加准确，进而使得输出的所述第一语义识别结果信息也更加准确，达到了准确获得数据信息，提高评估结果智能化的技术效果。

综上所述，本申请实施例所提供的一种基于事件分析的纠错预警方法及系统具有如下技术效果：

1、由于采用了获得第一识别主体的第一词向量；由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；以所述第一同义词数据库作为训练数据集构建第一语义识别模型；获得所述第一识别主体的第一关联主体；获得所述第一关联主体对于所述第一识别主体的第一反馈值；将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；获得所述第二句子信息与所述第三句子信息的第一关联概率；判断所述第一关联概率是否处于第一预设阈值；若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；将所述第一标记信息发送至所述云端纠错系统。解决了现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。通过使用同义词数据库构建语义识别模型，根据需识别主题的相邻词汇确定词性和连接规则，进一步利用语义识别模型智能化分析得到识别主体的同义替换词，使用同义替换词后若是判断相邻词句的关联性被破坏，则对此词进行标记并发送至云端纠错系统，达到了降低纠错学习中的替换错误率，进而得到更高的准确率和召回率的技术效果。

2、通过对符合语义的所述第一识别主体的多个词义进行聚类分析，进而利用得到所述第一有效词向量集合修正所述第一词向量得到含义表达更加准确和全面的所述第一有效词向量。

3、通过缺失数据的训练使得所述第二语义识别模型保留了所述第一语义识别模型的基本功能，并维持模型不断更新的性能，从而提高了语义识别准确性，保证语义分析得到同义替换词准确性的技术效果。

实施例二

基于与前述实施例中一种基于事件分析的纠错预警方法相同的发明构思，如图2所示，本申请实施例提供了一种基于事件分析的纠错预警系统，其中，所述系统包括：

第一获得单元11，所述第一获得单元11用于获得第一识别主体的第一词向量；

第二获得单元12，所述第二获得单元12用于由云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；

第一构建单元13，所述第一构建单元13用于以所述第一同义词数据库作为训练数据集构建第一语义识别模型；

第三获得单元14，所述第三获得单元14用于获得所述第一识别主体的第一关联主体；

第四获得单元15，所述第四获得单元15用于获得所述第一关联主体对于所述第一识别主体的第一反馈值；

第五获得单元16，第五获得单元16用于将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；

第六获得单元17，所述第六获得单元17用于获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；

第七获得单元18，第七获得单元18用于获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；

第八获得单元19，所述第八获得单元19用于获得所述第二句子信息与所述第三句子信息的第一关联概率；

第一判断单元20，所述第一判断单元20用于判断所述第一关联概率是否处于第一预设阈值；

第一标记单元21，所述第一标记单元21用于若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；

第一发送单元22，所述第一发送单元22用于将所述第一标记信息发送至所述云端纠错系统。

进一步的，所述系统还包括：

第九获得单元，所述第九获得单元用于获得所述第一识别主体的第一多词义集合；

第十获得单元，所述第十获得单元用于对所述第一识别主体进行情感分析，获得所述第一识别主体的第一情感权重值；

第十一获得单元，所述第十一获得单元用于依据所述第一情感权重值对所述第一多词义集合进行筛选，获得第二多词义集合；

第十二获得单元，所述第十二获得单元用于获得所述第二多词义集合的第一词向量集合；

第十三获得单元，所述第十三获得单元用于对所述第一词向量进行聚类分析，获得第一聚类结果；

第十四获得单元，所述第十四获得单元用于依据所述第一聚类结果，获得第一有效词向量集合；

第十五获得单元，所述第十五获得单元用于获得第一修正指令，依据所述第一有效词向量集合对所述第一词向量进行修正，获得第一有效词向量。

进一步的，所述系统还包括：

第十六获得单元，所述第十六获得单元用于依据所述第一有效词向量获得所述第一识别主体的第二同义词数据库；

第一确定单元，所述第一确定单元用于将所述第二同义词数据库作为第一缺失数据；

第一生成单元，所述第一生成单元用于将所述第一缺失数据输入所述第一语义识别模型中，生成第二语义识别模型，所述第二语义识别模型为所述第一语义识别模型进行增量学习后的新模型。

进一步的，所述系统还包括：

第十七获得单元，所述第十七获得单元用于对所述第一句子信息进行拆分处理，获得第一分词信息；

第十八获得单元，所述第十八获得单元用于获得第一情感词典；

第十九获得单元，所述第十九获得单元用于将所述第一分词信息输入至所述第一情感词典进行匹配，获得第一匹配结果；

第二十获得单元，所述第二十获得单元用于获得所述第一匹配结果中所述第一分词信息的第一情感特征；

第二十一获得单元，所述第二十一获得单元用于获得第一情感权重计算规则；

第二十二获得单元，所述第二十二获得单元用于依据所述第一情感权重计算规则，对所述第一情感特征进行情感权重计算，获得所述第一句子信息的第一情感权重特征；

第二确定单元，所述第二确定单元用于依据所述第一情感权重特征确定所述第一识别主体的所述第一情感权重值。

进一步的，所述系统还包括：

第二十三获得单元，所述第二十三获得单元用于获得第一文本信息；

第二十四获得单元，第二十四获得单元用于由所述云端纠错系统获得所述第一文本信息的第一标记信息集合；

第二十五获得单元，所述第二十五获得单元用于获得第一标记判定规则；

第二十六获得单元，所述第二十六获得单元用于依据所述第一标记判定规则对所述第一标记信息集合进行评估，获得所述第一文本信息的第一评估值；

第二判断单元，所述第二判断单元用于所述第一评估值是否超过第一阈值；

第二十七获得单元，所述第二十七获得单元用于若所述第一评估值超过所述第一阈值，获得第二标记信息，所述第二标记信息用于将所述第一文本信息标记为合格。

进一步的，所述系统还包括：

第二十八获得单元，所述第二十八获得单元用于若所述第一关联概率不处于所述第一预设阈值，获得第一关联概率等级；

第二十九获得单元，所述第二十九获得单元用于获得所述第一关联概率等级与第一标记方式的第一映射关系；

第三十获得单元，所述第三十获得单元用于获得第一文本识别要求；

第三确定单元，所述第三确定单元用于依据所述第一文本识别要求及所述第一映射关系，确定所述第一标记判定规则。

进一步的，所述系统还包括：

第一训练单元，所述第一训练单元用于将所述第一识别主体、所述第一反馈值分别作为所述第一输入数据、所述第二输入数据输入至所述第一语义识别模型，所述第一语义识别模型通过多组训练数据训练获得，其中，所述多组训练数据均包含所述第一输入数据、所述第二输入数据以及用于标识所述第一语义识别结果的标识信息；

第一输出单元，所述第一输出单元用于获得所述第一语义识别模型的第一输出结果，所述第一输出结果包括所述第一语义识别结果。

示例性电子设备

下面参考图3来描述本申请实施例的电子设备。

基于与前述实施例中一种基于事件分析的纠错预警方法相同的发明构思，本申请实施例还提供了一种基于事件分析的纠错预警系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

其中，在图3中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本申请实施例提供了一种基于事件分析的纠错预警方法，应用于一种云端纠错系统，其中，所述方法包括：获得第一识别主体的第一词向量；由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；以所述第一同义词数据库作为训练数据集构建第一语义识别模型；获得所述第一识别主体的第一关联主体；获得所述第一关联主体对于所述第一识别主体的第一反馈值；将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；获得所述第二句子信息与所述第三句子信息的第一关联概率；判断所述第一关联概率是否处于第一预设阈值；若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；将所述第一标记信息发送至所述云端纠错系统。解决了现有技术中存在深度学习纠错主要的错误都是替换错误，进而导致准确率和召回率无法提高的技术问题。通过使用同义词数据库构建语义识别模型，根据需识别主题的相邻词汇确定词性和连接规则，进一步利用语义识别模型智能化分析得到识别主体的同义替换词，使用同义替换词后若是判断相邻词句的关联性被破坏，则对此词进行标记并发送至云端纠错系统，达到了降低纠错学习中的替换错误率，进而得到更高的准确率和召回率的技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于事件分析的纠错预警方法，应用于一种云端纠错系统，其中，所述方法包括：

获得第一识别主体的第一词向量；所述第一识别主体指的是需进行纠错的文本数据；

由所述云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；

以所述第一同义词数据库作为训练数据集构建第一语义识别模型；

获得所述第一识别主体的第一关联主体；所述第一关联主体指的是所述第一识别主体的左右相邻的词汇；

获得所述第一关联主体对于所述第一识别主体的第一反馈值；所述第一反馈值指的是依据所述第一识别主体和所述第一关联主体之间的语义关系转换成的数据信息，所述数据信息反映了所述第一识别主体的词性数据；

将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；

获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；

获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；

获得所述第二句子信息与所述第三句子信息的第一关联概率；所述第一关联概率，即通过所述第二句子的词向量和所述第三句子的词向量计算得到的关联概率数据，关联概率越高，句子连接性越强；

判断所述第一关联概率是否处于第一预设阈值；

若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；

将所述第一标记信息发送至所述云端纠错系统。

2.如权利要求1所述的方法，其中，所述方法包括：

获得所述第一识别主体的第一多词义集合；所述第一多词义集合指的是所述第一识别主体的全部词义集合；

对所述第一识别主体进行情感分析，获得所述第一识别主体的第一情感权重值；所述第一情感权重值指的是依据所述第一识别主体在所在语境中的情感分析；得到所述第一识别主体在语义中的含义，情感权重越大就越是接近语义；

依据所述第一情感权重值对所述第一多词义集合进行筛选，获得第二多词义集合；所述第二多词义集合是基于所述第一情感权重值对所述第一多词义集合进行筛选得到；

获得所述第二多词义集合的第一词向量集合；

对所述第一词向量进行聚类分析，获得第一聚类结果；

依据所述第一聚类结果，获得第一有效词向量集合；

获得第一修正指令，依据所述第一有效词向量集合对所述第一词向量进行修正，获得第一有效词向量。

3.如权利要求2所述的方法，其中，所述方法包括：

依据所述第一有效词向量获得所述第一识别主体的第二同义词数据库；

将所述第二同义词数据库作为第一缺失数据；

将所述第一缺失数据输入所述第一语义识别模型中，生成第二语义识别模型，所述第二语义识别模型为所述第一语义识别模型进行增量学习后的新模型。

4.如权利要求2所述的方法，其中，所述方法包括：

对所述第一句子信息进行拆分处理，获得第一分词信息；

获得第一情感词典；

将所述第一分词信息输入至所述第一情感词典进行匹配，获得第一匹配结果；

获得所述第一匹配结果中所述第一分词信息的第一情感特征；

获得第一情感权重计算规则；

依据所述第一情感权重计算规则，对所述第一情感特征进行情感权重计算，获得所述第一句子信息的第一情感权重特征；

依据所述第一情感权重特征确定所述第一识别主体的所述第一情感权重值。

5.如权利要求1所述的方法，其中，所述将所述第一标记信息发送至所述云端纠错系统，所述方法还包括：

获得第一文本信息；

由所述云端纠错系统获得所述第一文本信息的第一标记信息集合；所述第一标记信息集合指的是通过所述第一语义识别模型分析得到的所述第一同义替换信息的集合；

获得第一标记判定规则；所述第一标记判定规则指的是对所述第一文本的语义识别结果进行评估的既定规则；

依据所述第一标记判定规则对所述第一标记信息集合进行评估，获得所述第一文本信息的第一评估值；

判断所述第一评估值是否超过第一阈值；

若所述第一评估值超过所述第一阈值，获得第二标记信息，所述第二标记信息用于将所述第一文本信息标记为合格。

6.如权利要求5所述的方法，其中，所述获得第一标记判定规则，所述方法还包括：

若所述第一关联概率不处于所述第一预设阈值，获得第一关联概率等级；

获得所述第一关联概率等级与第一标记方式的第一映射关系；所述第一标记方式为不同的颜色标记；

获得第一文本识别要求；

依据所述第一文本识别要求及所述第一映射关系，确定所述第一标记判定规则。

7.如权利要求1所述的方法，其中，所述方法包括：

将所述第一识别主体、所述第一反馈值分别作为所述第一输入数据、所述第二输入数据输入至所述第一语义识别模型，所述第一语义识别模型通过多组训练数据训练获得，其中，所述多组训练数据均包含所述第一输入数据、所述第二输入数据以及用于标识所述第一语义识别结果的标识信息；

获得所述第一语义识别模型的第一输出结果，所述第一输出结果包括所述第一语义识别结果。

8.一种基于事件分析的纠错预警系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于获得第一识别主体的第一词向量；所述第一识别主体指的是需进行纠错的文本数据；

第二获得单元，所述第二获得单元用于由云端纠错系统依据所述第一词向量获得所述第一识别主体的第一同义词数据库；

第一构建单元，所述第一构建单元用于以所述第一同义词数据库作为训练数据集构建第一语义识别模型；

第三获得单元，所述第三获得单元用于获得所述第一识别主体的第一关联主体；所述第一关联主体指的是所述第一识别主体的左右相邻的词汇；

第四获得单元，所述第四获得单元用于获得所述第一关联主体对于所述第一识别主体的第一反馈值；所述第一反馈值指的是依据所述第一识别主体和所述第一关联主体之间的语义关系转换成的数据信息，所述数据信息反映了所述第一识别主体的词性数据；

第五获得单元，第五获得单元用于将所述第一识别主体、所述第一反馈值分别作为第一输入数据、第二输入数据输入至所述第一语义识别模型，获得第一语义识别结果，其中，所述第一语义识别结果包括所述第一识别主体的第一同义替换词；

第六获得单元，所述第六获得单元用于获得第一句子信息和第二句子信息，其中，所述第一句子信息为包含所述第一识别主体的句子信息，所述第二句子信息为与所述第一句子信息相邻的句子信息；

第七获得单元，第七获得单元用于获得第一置换指令，所述第一置换指令用于依据所述第一同义替换词对所述第一识别主体进行置换，获得第三句子信息，所述第三句子信息为置换后的所述第一句子信息；

第八获得单元，所述第八获得单元用于获得所述第二句子信息与所述第三句子信息的第一关联概率；所述第一关联概率，即通过所述第二句子的词向量和所述第三句子的词向量计算得到的关联概率数据，关联概率越高，句子连接性越强；

第一判断单元，所述第一判断单元用于判断所述第一关联概率是否处于第一预设阈值；

第一标记单元，所述第一标记单元用于若所述第一关联概率不处于所述第一预设阈值，获得第一标记信息，依据所述第一标记信息对所述第一同义替换词进行标记；

第一发送单元，所述第一发送单元用于将所述第一标记信息发送至所述云端纠错系统。

9.一种基于事件分析的纠错预警系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。