CN112434131A

CN112434131A - 基于人工智能的文本错误检测方法、装置、计算机设备

Info

Publication number: CN112434131A
Application number: CN202011329034.7A
Authority: CN
Inventors: 回艳菲; 王健宗; 吴天博; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-02
Anticipated expiration: 2040-11-24
Also published as: WO2021208727A1; CN112434131B

Abstract

本发明公开了基于人工智能的文本错误检测方法、装置、计算机设备，可应用于智慧城市中文本错误检测的应用场景。方法包括：根据模型配置信息及初始化的检测模型构建得到多个错误检测模型；对多个错误检测模型分别进行训练，将待检测文本输入训练后的多个错误检测模型获取多个模型检测信息，从模型检测信息中筛选得到满足条件的筛选检测数据；对筛选检测数据进行集成处理得到文本检测结果。本发明基于智能决策技术，属于人工智能领域。本发明涉及区块链技术，可将文本检测结果上传至区块链中，构建多个错误检测模型分别获取多个模型检测信息，对模型检测信息进行筛选并集成处理得到文本检测结果，可大幅提升对中文文本进行错误检测的效率及准确性。

Description

基于人工智能的文本错误检测方法、装置、计算机设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的文本错误检测方法、装置、计算机设备。

背景技术

中文一直被认为是世界上最难学的语言之一。在其漫长的使用历史中，它积累了许多不同于其他语言的地方，比如与英语不同的是，汉语既没有单复数变化，也没有动词的时态变化。表达更灵活，语法结构松散，短句较多，从句较少，在中文中通常存在多种表达同一意思的方式。在日常使用过程中，企业会通过自动语音识别技术(Automatic SpeechRecognition，ASR)对语音信息进行识别得到相应文字信息，文字信息中可能包含文本错误，企业还可能接收到用户通过键盘或触摸屏等设备输入的近音字错误(读音相同但文字输入错误)，文本错误会影响阅读理解，甚至对企业在为客户办理业务过程中产生重要影响，给企业带来巨大损失。

传统技术方法中均是采用固定模板匹配的方式对中文文本进行错误检测，然而这一技术方法在实现过程中必须构建庞大的匹配模板库，通过海量匹配模块对文本错误进行匹配检测，导致检测效率较低；并且由于中文文本表达方式灵活，不同语境下对相同文本进行判断会存在截然相反的结果，因此这一技术方法难以获取准确的错误检测结果。因此，现有技术方法中的中文文本错误检测方法存在检测效率及检测准确率较低的问题。

发明内容

本发明实施例提供了一种基于人工智能的文本错误检测方法、装置、计算机设备及存储介质，旨在解决现有技术方法中所存在的中文文本错误检测效率及检测准确率较低的问题。

第一方面，本发明实施例提供了一种基于人工智能的文本错误检测方法，其包括：

接收用户输入的模型配置信息，根据所述模型配置信息对初始化的检测模型中的参数值进行配置以得到多个错误检测模型；

根据预设的转换词典及预存的训练语料数据库分别对多个所述错误检测模型进行训练，得到训练后的多个错误检测模型；

若接收到用户所输入的待检测文本，将所述待检测文本分别输入多个所述错误检测模型以获取对应的多个模型检测信息；

从多个所述模型检测信息中筛选得到满足预置筛选条件的筛选检测数据；

对所述筛选检测数据进行集成处理得到与所述待检测文本相匹配的文本检测结果。

第二方面，本发明实施例提供了一种基于人工智能的文本错误检测装置，其包括：

检测模型配置单元，用于接收用户输入的模型配置信息，根据所述模型配置信息对初始化的检测模型中的参数值进行配置以得到多个错误检测模型；

检测模型训练单元，用于根据预设的转换词典及预存的训练语料数据库分别对多个所述错误检测模型进行训练，得到训练后的多个错误检测模型；

模型检测信息获取单元，用于若接收到用户所输入的待检测文本，将所述待检测文本分别输入多个所述错误检测模型以获取对应的多个模型检测信息；

模型检测信息筛选单元，用于从多个所述模型检测信息中筛选得到满足预置筛选条件的筛选检测数据；

集成处理单元，用于对所述筛选检测数据进行集成处理得到与所述待检测文本相匹配的文本检测结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于人工智能的文本错误检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的文本错误检测方法。

本发明实施例提供了一种基于人工智能的文本错误检测方法、装置、计算机设备及存储介质。根据模型配置信息及初始化的检测模型构建得到多个错误检测模型；对多个错误检测模型分别进行训练，将待检测文本输入训练后的多个错误检测模型获取多个模型检测信息，从模型检测信息中筛选得到满足预置筛选条件的筛选检测数据；对筛选检测数据进行集成处理得到文本检测结果。通过上述方法，通过构建多个错误检测模型分别获取与待检测文本对应的多个模型检测信息，对模型检测信息进行筛选并集成处理得到文本检测结果，相比采用固定模板匹配的方式，可大幅提升对中文文本进行错误检测的效率及准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于人工智能的文本错误检测方法的流程示意图；

图2为本发明实施例提供的基于人工智能的文本错误检测方法的子流程示意图；

图3为本发明实施例提供的基于人工智能的文本错误检测方法的另一子流程示意图；

图4为本发明实施例提供的基于人工智能的文本错误检测方法的另一子流程示意图；

图5为本发明实施例提供的基于人工智能的文本错误检测方法的另一子流程示意图；

图6为本发明实施例提供的基于人工智能的文本错误检测方法的另一子流程示意图；

图7为本发明实施例提供的基于人工智能的文本错误检测方法的另一子流程示意图；

图8为本发明实施例提供的基于人工智能的文本错误检测装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的基于人工智能的文本错误检测方法的流程示意图，该基于人工智能的文本错误检测方法应用于用户终端中，该方法通过安装于用户终端中的应用软件进行执行，用户终端即是用于对用户输入的待检测文本进行错误检测的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等，用户终端也可以是企业所构建的企业服务器。如图1所示，该方法包括步骤S110～S150。

S110、接收用户输入的模型配置信息，根据所述模型配置信息对初始化的检测模型中的参数值进行配置以得到多个错误检测模型。

具体的，用户可输入模型配置信息对初始化的检测模型中的参数值进行配置，以得到多个错误检测模型，初始化的检测模型中包括长短期记忆网络(LSTM，Long Short-Term Memory)权重层及状态转移矩阵，模型配置信息中可包括模型配置数量、权重层配置信息及转移矩阵配置信息，通过转移矩阵配置信息对初始化的检测模型中的状态转移矩阵进行配置、通过权重层配置信息对初始化的检测模型中的权重层进行配置，并根据模型配置数量创建得到多个错误检测模型，则每一错误检测模型均包括一个长短期记忆网络、一个配置后的权重层及一个配置后的状态转移矩阵。

其中，长短期记忆网络用于对输入的文本信息进行计算以获取记忆网络输出信息，权重层用于对记忆网络输出信息进行加权计算得到加权后的记忆网络输出信息，状态转移矩阵用于对加权后的记忆网络输出信息进行状态转移处理得到模型检测信息，通过对模型检测信息进行分析即可获取与该文本信息对应的文件检测结果。

S120、根据预设的转换词典及预存的训练语料数据库分别对多个所述错误检测模型进行训练，得到训练后的多个错误检测模型。

在使用多个错误检测模型对中文文本进行错误检测之前，还需分别对多个错误检测模型进行训练，具体的，可根据转换词典及训练语料数据库对多个错误检测模型进行训练，在训练过程中还需使用到预存的损失函数计算公式及梯度计算公式，训练语料数据库中包含多条训练语料，每一条训练语句由语料信息及目标检测信息所组成，语料信息即为语料文本信息，目标检测信息即为与语料信息对应的正确检测信息，目标检测信息可基于语料信息进行人工判断并对应添加得到。

在一实施例中，如图2所示，步骤S120包括子步骤S121、S122及S123。

S121、根据所述错误检测模型的数量对所述训练语料数据库的训练语料进行随机分配，得到与所述数量相同的多个训练语料集合。

确定错误检测模型的数量，根据数量对训练语料数据库中的多条训练语料进行随机分配，得到多个训练语料集合，一个训练语料集合所包含的训练语料即可完成对一个错误检测模型进行训练。

例如，错误检测模型的数量为10个，训练语料数据库中训练语料的数量为2000条，对训练语料进行随机分配，得到10个训练语料集合，每一训练语料集合中包含200条训练语料。

S122、根据所述转换词典对多个所述训练语料集合中的语料信息进行转换，得到与每一所述语料信息对应的一条语料编码。

根据所述转换词典对多个所述训练语料集合中的语料信息进行转换，得到与每一所述语料信息对应的一条语料编码。每一字符均可在转换词典中匹配到对应的一个特征码，特征码为一个1×M维的向量，则可根据转换词典将训练语料集合中每一语料信息所包含的字符进行转换，将每一字符对应的特征码进行组合得到对应的语料编码，所得到的语料编码将该语料信息的特征采用向量方式进行表示，语料编码的大小为(N，M)，其表示语料编码为N行M列的特征向量，语料编码的长度为N(如N＝39)，语料信息的特征码作为数值填充得到语料编码，若语料信息中的字符数大于N，则截取前N个字符并对应转换成N个1×M维的向量，若语料信息中字符数小于N，则将不足的字符采用“0”作为特征码进行补齐后对应转换得到N个1×M维的向量。

S123、根据多个所述训练语料集合分别对每一所述训练语料集合对应的一个所述错误检测模型进行迭代训练，得到与每一所述训练语料集合对应的一个训练后的错误检测模型，其中，所述训练语料集合中每一语料编码对应一条预置的目标检测信息。

根据一个训练语料集合中的语料编码及与每一语料编码对应的目标检测信息对错误检测模型进行迭代训练，并结合预存的损失函数计算公式及梯度计算公式对该错误检测模型进行迭代训练，直至训练语料集合中的语料编码及目标检测信息被全部用于模型训练后停止训练，即可得到一个训练后的错误检测模型。

在一实施例中，如图3所示，步骤S123包括子步骤S1231、S1232、S1233及S1234。

S1231、将一个所述训练语料集合中的一条语料编码输入所述错误检测模型获取与所述语料编码对应的训练检测信息。

具体的，一条语料编码即为一个N×M维的向量，计算某一语料编码的记忆网络输出信息可包含以下四个步骤，①计算遗忘门输出信息：f(t)＝σ(Wf×h(t_1)+Uf×X(t)+bf)，其中f(t)为遗忘门参数值，0≤f(t)≤1；σ为激活函数计算符号，σ可具体表示为f(x)＝(e^x-e^(-x))/(e^x+e^(-x))，则将Wf×h(t_1)+Uf×X(t)+bf的计算结果作为x输入激活函数σ即可计算得到f(t)；Wf、Uf及bf均为本细胞中公式的参数值；h(t_1)为上一细胞的输出门信息；X(t)为该语料编码中输入当前细胞的1×M维的向量，若当前细胞为长短期记忆网络中的第一个细胞，则h(t_1)为零。②计算输入门信息：i(t)＝σ(Wi×h(t_1)+Ui×X(t)+bi)；a(t)＝tanh(Wa×h(t-1)+Ua×X(t)+ba)，其中i(t)为输入门参数值，0≤i(t)≤1；Wi、Ui、bi、Wa、Ua及ba均为本细胞中公式的参数值，a(t)为所计算得到的输入门向量值，a(t)为一个1×M维的向量。③更新细胞记忆信息：C(t)＝C(t_1)⊙f(t)+i(t)⊙a(t)，C为每一次计算过程所累计的细胞记忆信息，C(t)为当前细胞所输出的细胞记忆信息，C(t_1)为上一细胞所输出的细胞记忆信息，⊙为向量运算符，C(t_1)⊙f(t)的计算过程为将向量C(t_1)中每一维度值分别与f(t)相乘，所计算的得到的向量维度与向量C(t_1)中的维度相同。④计算输出门信息：o(t)＝σ(Wo×h(t_1)+Uo×X(t)+bo)；h(t)＝o(t)⊙tanh(C(t))，o(t)为输出门参数值，0≤o(t)≤1；Wo、Uo及bo均为本细胞中公式的参数值，h(t)为本细胞的输出门信息，h(t)为一个1×M维的向量。每一个细胞均计算得到一个输出信息h(t)，综合N个细胞的输出信息即可得到一条语料编码的记忆网络输出信息S，一条语料编码的记忆网络输出信息为一个N×M维的向量，权重层中所包含权重值的数量与M相等，将一条语料编码的记忆网络输出信息与权重层进行相乘(记忆网络输出信息中每一个1×M维向量均与权重层相乘)，即可得到附加权重值的记忆网络输出信息P，其中P_ij为语料编码对应的语料信息中第i个字符与第j个错误类型标签的发射分数，i∈[1,N]且i为正整数，j∈[1,M]且j为正整数，M为语料编码对应的语料信息中字符对应的错误类型标签的数量，例如，i＝1且j＝1，则P₁₁表示第i个字符与替换错误的错误类型标签对应一个发射分数，j＝2，则P₁₂表示第i个字符与插入错误的错误类型标签对应一个发射分数。错误检测模型中还包括状态转移矩阵A，A为一个M×M大小的矩阵，A_rt为第r个错误类型标签转移到第t个错误类型标签的转移分数，其中，r∈[1,M]，t∈[1,M]；若r＝t，则A_rt＝0。附加权重值的记忆网络输出信息P与状态转移矩阵A即为训练检测信息。

S1232、根据预存的损失函数计算公式计算所述训练检测信息与所述语料编码的目标检测信息之间的损失值。

具体的，损失函数计算公式可采用公式(1)进行表示：

其中，L为计算得到的损失值，S(X,Y)为目标检测信息的得分，S(X,Y')为训练检测信息的得分，X为输入的语料编码，Y为目标检测信息包含的错误类型标签，Y'为训练检测信息包含的错误类型标签，Y_X为所有可能的错误类型标签。具体的，得分可采用公式(2)进行计算得到；

S1233、根据预存的梯度计算公式、所述损失值及所述训练检测信息的计算值计算得到所述错误检测模型中转移矩阵的更新值，更新所述转移矩阵的参数值。

根据梯度计算公式、所计算得到的损失值及训练检测信息的计算值计算得到转移矩阵的更新值，并通过更新值对转移矩阵中的参数值进行更新，这一对错误检测模型进行训练的过程也即为梯度下降计算。

具体的，梯度计算公式可采用公式(3)进行表示：

其中，

为计算得到的某一转移分数的更新值，ω_t为转移分数的原始参数值，γ为梯度计算公式中预置的学习率，

为基于损失值及转移分数对应的计算值(训练检测信息的计算值中相邻两个错误类型标签的发射得分之差)对该转移分数的偏导值。

S1234、获取所述训练语料集合中的下一条语料编码信息输入所述错误检测模型并重复上述步骤，直至所述训练语料集合包含的所有语料编码信息全部用于训练。

对错误检测模型中的转移矩阵进行一次更新也即是对错误检测模型进行了一次训练，可根据上述过程对错误检测模型进行多次迭代训练。

S130、若接收到用户所输入的待检测文本，将所述待检测文本分别输入多个所述错误检测模型以获取对应的多个模型检测信息。

若接收到用户所输入的待检测文本，可将待检测文本分别输入每一个错误检测模型进行计算，对应获取得到每一错误检测模型的模型检测信息，具体的，将待检测文本输入一个错误检测模型，可得到该模型的输出信息，模型的输出信息包括附加权重值的记忆网络输出信息与状态转移矩阵，根据状态转移矩阵对附加权重值的记忆网络输出信息进行状态转移，得到模型检测信息。

在一实施例中，如图4所示，步骤S130包括子步骤S131及S132。

S131、根据所述转换词典将所述待检测文本转换为对应的文本编码；S132、将所述文本编码分别输入多个所述错误检测模型进行计算，以获取每一所述错误检测模型输出的模型检测信息。

具体的，可通过上述转换词典获取待检测文本对应的文本编码，待检测文本为一句中文文本信息，文本编码即为对待检测文本进行转换所得到的一个N×M维的向量，将文本编码分别输入多个错误检测模型进行计算，具体计算过程与对语料编码进行计算的过程相同，在此不作赘述。将一个错误检测模型的状态转移矩阵对应累加至该错误检测模型附加权重值的记忆网络输出信息中，即可实现对附加权重值的记忆网络输出信息进行状态转移，得到相应模型检测信息。一个错误检测模型计算得到的模型检测信息为N×M维的向量，N表示字符总数，M表示错误类型标签数，用于表示待检测文本中每一字符与每一错误类型标签对应的分数值。

S140、从多个所述模型检测信息中筛选得到满足预置筛选条件的筛选检测数据。

在对所得到的多个模型检测信息进行分析的过程中，首先需要对模型检测信息中的数据进行筛选，可从模型检测信息中筛选得到满足预置筛选条件的筛选检测数据，具体的，所述筛选条件包括检测数据筛选比例及模型筛选比例，所述筛选检测数据包含多组检测数据信息。

在一实施例中，如图5所示，步骤S140包括子步骤S141、S142及S143。

S141、获取每一模型检测信息的综合检测分数，并根据所述综合检测分数对多个模型检测信息进行排序。

计算每一模型检测信息的综合检测分数，对一个模型检测信息中所有的分数值进行累加，即可得到该模型检测信息的综合检测分数，根据综合检测分数对模型检测信息进行排序。

S142、根据所述模型筛选比例截取排序靠前的多个模型检测信息，作为多组备选模型检测信息。

根据模型筛选比例截取综合检测分数排序靠前的多个模型检测信息，得到多组备选模型检测信息。例如，模型筛选比例为80％，模型检测信息为10个，将综合检测分数排序倒数的两个模型检测信息进行剔除，得到剩余8个备选模型检测信息。

S143、根据所述检测数据筛选比例对每一组所述备选模型检测信息进行筛选，获取每一组备选模型检测信息中排序靠前的多个检测数据作为一组所述检测数据信息。

根据检测数据筛选比例对每一组备选模型检测信息进行筛选，获取排序靠前的多个检测数据作为该组备选模型检测信息的检测数据信息。例如，一组备选模型检测信息中包含N×M个分数值，检测数据筛选比例为40％，则获取N×M个分数值中前40％的分数值进行保留，将保留的40％分数值作为该组备选模型检测信息的检测数据信息。

S150、对所述筛选检测数据进行集成处理得到与所述待检测文本相匹配的文本检测结果。

可对筛选检测数据进行集成处理，得到与待检测文本相匹配的文本检测结果。具体的，筛选检测数据包含多组检测数据信息，可根据每一组检测数据信息确定对应的文本错误位置及文本错误类型，并对多组检测数据信息的文本错误位置及文本错误类型进行集成处理，得到统一的文本错误位置及文本错误类型作为待检测文本的文本检测结果。

此外，可将所得到的文本检测结果上传至区块链中进行存储。具体的，可基于文本检测结果得到对应的摘要信息，具体来说，摘要信息由文本检测结果进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可通过用户终端从区块链中下载得该摘要信息，以便查证文本检测结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一实施例中，如图6所示，步骤S150包括子步骤S151、S152、S153、S154、S155及S156。

S151、根据筛选检测数据中的每一组检测数据信息确定每一组检测数据信息的文本错误位置及文本错误类型。

具体的，获取一组检测数据信息中一个字符的多个分数值，获取该字符多个分数值中最高的一个分数值对应的错误类型标签作为该组检测数据信息的文本错误类型，若某一字符在检测数据信息中不包含分数值，则认为该字符不包含错误，根据多个字符的文本错误类型确定该组检测数据信息对应的文本错误位置，获取与文本错误类型相匹配的所有字符在待检测文本中的位置，作为该组检测数据信息的文本错误位置。

S152、判断所有所述文本错误位置是否均相同。

判断所有组检测数据信息的文本错误位置是否均相同，例如，某一组检测数据信息的文本错误位置为字符5至字符9，另一组检测数据信息的文本错误位置为为字符6至字符10，则两组检测数据信息的文本错误位置不相同。

S153、若所有所述文本错误位置不均相同，根据预置的判断规则判断所有所述文本错误位置是否包含单词切分错误；S154、将包含单词切分错误的文本错误位置进行删除并返回执行所述判断所有所述文本错误位置是否均相同的步骤。

具体的，可获取一组检测数据信息的文本错误位置，可根据判断规则判断该文本错误位置中是否包含被切分的词组，若文本错误位置中包含被切分的词组，则判断得到该文本错误位置包含单词切分错误。

例如，某一组检测数据信息的文本错误位置为字符5至字符9；获取待检测文本中第4个字符、5个字符及第6个字符，根据判断规则判断第4个字符与第5个字符组合成为词组的概率是否大于第5个字符与第6个字符组合成为词组的概率，若大于，则该文本错误位置包含被切分的词组，若不大于，则以同样方法获取待检测文本中第8个字符、9个字符及第10个字符并继续判断是否包含被切分的词组。将包含单词切分错误的文本错误文字进行删除，并再次对剩余的文本错误位置是否均相同进行判断。

S155、若所有所述文本错误位置均相同，判断所有所述文本错误类型是否均相同。S156、若所有所述文本错误类型均相同，将所述文本错误位置及所述文本错误类型作为所述文本检测结果进行输出。

若文本错误位置均相同，判断文本错误位置中每一字符对应的多个文本错误类型是否均相同。若文本错误位置中每一字符对应的多个文本错误类型均相同，则可将当前得到的文本错误位置及文本错误类型作为文本检测结果进行输出。若所有所述文本错误类型不均相同，则可发送无法获取文本检测结果的提示信息以对用户进行提示。

在一实施例中，如图7所示，步骤S152之前还包括步骤S1521和S1522。

S1521、根据预置的语法模板与每一组所述检测数据信息的文本错误位置及文本错误类型进行匹配；S1522、将与所述语法模板相匹配的文本错误位置及文本错误类型进行剔除。

具体的，还可根据预置的语法模板对每一组检测数据信息的文本错误位置及文本错误类型进行匹配，若某一组测数据信息的文本错误位置及文本错误类型与任意一个语法模板相匹配，则将该组组测数据信息的文本错误位置及文本错误类型进行剔除。

具体的，预置的语法模板中包含错误检测模型无法检测到的部分语法规则，可预先配置数百个语法模板，并依次判断每一语法模板是否与一组检测数据信息的文本错误位置及文本错误类型相匹配。

例如“高兴地玩耍”中“高兴”是形容词，“玩耍”是动词，两者需要用“地”来进行连接，若某一组测数据信息的文本错误位置及文本错误类型判断得到“高兴地玩耍”存在语法错误，则该组测数据信息的文本错误位置及文本错误类型与“X地D”(其中X表示形容词，D表示动词)这一语法模板相匹配，将该组检测数据信息的文本错误位置及文本错误类型进行剔除。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对中文文本进行错误检测的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的基于人工智能的文本错误检测方法中，根据模型配置信息及初始化的检测模型构建得到多个错误检测模型；对多个错误检测模型分别进行训练，将待检测文本输入训练后的多个错误检测模型获取多个模型检测信息，从模型检测信息中筛选得到满足预置筛选条件的筛选检测数据；对筛选检测数据进行集成处理得到文本检测结果。通过上述方法，通过构建多个错误检测模型分别获取与待检测文本对应的多个模型检测信息，对模型检测信息进行筛选并集成处理得到文本检测结果，相比采用固定模板匹配的方式，可大幅提升对中文文本进行错误检测的效率及准确性。

本发明实施例还提供一种基于人工智能的文本错误检测装置，该基于人工智能的文本错误检测装置用于执行前述基于人工智能的文本错误检测方法的任一实施例。具体地，请参阅图8，图8是本发明实施例提供的文本错误检测装置的示意性框图。该基于人工智能的文本错误检测装置可以配置于用户终端中。

如图8所示，基于人工智能的文本错误检测装置100包括检测模型配置单元110、检测模型训练单元120、模型检测信息获取单元130、模型检测信息筛选单元140和集成处理单元150。

检测模型配置单元110，用于接收用户输入的模型配置信息，根据所述模型配置信息对初始化的检测模型中的参数值进行配置以得到多个错误检测模型。

检测模型训练单元120，用于根据预设的转换词典及预存的训练语料数据库分别对多个所述错误检测模型进行训练，得到训练后的多个错误检测模型。

在一实施例中，所述检测模型训练单元120包括子单元：训练语料集合获取单元、语料编码获取单元及迭代训练单元。

训练语料集合获取单元，用于根据所述错误检测模型的数量对所述训练语料数据库的训练语料进行随机分配，得到与所述数量相同的多个训练语料集合；语料编码获取单元，用于根据所述转换词典对多个所述训练语料集合中的语料信息进行转换，得到与每一所述语料信息对应的一条语料编码；迭代训练单元，用于据多个所述训练语料集合分别对每一所述训练语料集合对应的一个所述错误检测模型进行迭代训练，得到与每一所述训练语料集合对应的一个训练后的错误检测模型，其中，所述训练语料集合中每一语料编码对应一条预置的目标检测信息。

在一实施例中，所述迭代训练单元包括子单元：训练检测信息获取单元、损失值计算单元、转移矩阵参数更新单元和重复单元。

训练检测信息获取单元，用于将一个所述训练语料集合中的一条语料编码输入所述错误检测模型以获取与所述语料编码对应的训练检测信息；损失值计算单元，用于根据预存的损失函数计算公式计算所述训练检测信息与所述语料编码的目标检测信息之间的损失值；转移矩阵参数更新单元，用于根据预存的梯度计算公式、所述损失值及所述训练检测信息的计算值计算得到所述错误检测模型中转移矩阵的更新值，更新所述转移矩阵的参数值；重复单元，用于获取所述训练语料集合中的下一条语料编码信息输入所述错误检测模型并重复上述步骤，直至所述训练语料集合包含的所有语料编码信息全部用于训练。

模型检测信息获取单元130，用于若接收到用户所输入的待检测文本，将所述待检测文本分别输入多个所述错误检测模型以获取对应的多个模型检测信息。

在一实施例中，所述模型检测信息获取单元130包括子单元：文本编码获取单元及文本编码计算单元。

文本编码获取单元，用于根据所述转换词典将所述待检测文本转换为对应的文本编码；文本编码计算单元，用于将所述文本编码分别输入多个所述错误检测模型进行计算，以获取每一所述错误检测模型输出的模型检测信息。

模型检测信息筛选单元140，用于从多个所述模型检测信息中筛选得到满足预置筛选条件的筛选检测数据。

在一实施例中，所述模型检测信息筛选单元140包括子单元：模型检测信息排序单元、模型检测信息截取单元及检测数据筛选单元。

模型检测信息排序单元，用于获取每一模型检测信息的综合检测分数，并根据所述综合检测分数对多个模型检测信息进行排序；模型检测信息截取单元，用于根据所述模型筛选比例截取排序靠前的多个模型检测信息，作为多组备选模型检测信息；检测数据筛选单元，用于根据所述检测数据筛选比例对每一组所述备选模型检测信息进行筛选，获取每一组备选模型检测信息中排序靠前的多个检测数据作为一组所述检测数据信息。

集成处理单元150，用于对所述筛选检测数据进行集成处理得到与所述待检测文本相匹配的文本检测结果。

在一实施例中，所述集成处理单元150包括子单元：错误位置类型确定单元、文本错误位置判断单元、单词切分错误判断单元、删除单元、文本错误类型判断单元及文本检测结果获取单元。

错误位置类型确定单元，用于根据筛选检测数据中的每一组检测数据信息确定每一组检测数据信息的文本错误位置及文本错误类型；文本错误位置判断单元，用于判断所有所述文本错误位置是否均相同；单词切分错误判断单元，用于若所有所述文本错误位置不均相同，根据预置的判断规则判断所有所述文本错误位置是否包含单词切分错误；删除单元，用于将包含单词切分错误的文本错误位置进行删除并返回执行所述判断所有所述文本错误位置是否均相同的步骤；文本错误类型判断单元，用于若所有所述文本错误位置均相同，判断所有所述文本错误类型是否均相同；文本检测结果获取单元，用于若所有所述文本错误类型均相同，将所述文本错误位置及所述文本错误类型作为所述文本检测结果进行输出。

在一实施例中，所述集成处理单元150还包括子单元：语法模板匹配单元及剔除单元。

语法模板匹配单元，用于根据预置的语法模板与每一组所述检测数据信息的文本错误位置及文本错误类型进行匹配；剔除单元，用于将与所述语法模板相匹配的文本错误位置及文本错误类型进行剔除。

在本发明实施例所提供的基于人工智能的文本错误检测装置应用上述基于人工智能的文本错误检测方法，根据模型配置信息及初始化的检测模型构建得到多个错误检测模型；对多个错误检测模型分别进行训练，将待检测文本输入训练后的多个错误检测模型获取多个模型检测信息，从模型检测信息中筛选得到满足预置筛选条件的筛选检测数据；对筛选检测数据进行集成处理得到文本检测结果。通过上述方法，通过构建多个错误检测模型分别获取与待检测文本对应的多个模型检测信息，对模型检测信息进行筛选并集成处理得到文本检测结果，相比采用固定模板匹配的方式，可大幅提升对中文文本进行错误检测的效率及准确性。

上述文本错误检测装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于人工智能的文本错误检测方法以对中文文本进行错误检测的用户终端。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于人工智能的文本错误检测方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于人工智能的文本错误检测方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于人工智能的文本错误检测方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于人工智能的文本错误检测方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的文本错误检测方法，应用于用户终端中，其特征在于，所述方法包括：

2.根据权利要求1所述的基于人工智能的文本错误检测方法，其特征在于，所述根据预设的转换词典及预存的训练语料数据库分别对多个所述错误检测模型进行训练，包括：

根据所述错误检测模型的数量对所述训练语料数据库的训练语料进行随机分配，得到与所述数量相同的多个训练语料集合；

根据所述转换词典对多个所述训练语料集合中的语料信息进行转换，得到与每一所述语料信息对应的一条语料编码；

据多个所述训练语料集合分别对每一所述训练语料集合对应的一个所述错误检测模型进行迭代训练，得到与每一所述训练语料集合对应的一个训练后的错误检测模型，其中，所述训练语料集合中每一语料编码对应一条预置的目标检测信息。

3.根据权利要求2所述的基于人工智能的文本错误检测方法，其特征在于，所述据多个所述训练语料集合分别对每一所述训练语料集合对应的一个所述错误检测模型进行迭代训练，包括：

将一个所述训练语料集合中的一条语料编码输入所述错误检测模型以获取与所述语料编码对应的训练检测信息；

根据预存的损失函数计算公式计算所述训练检测信息与所述语料编码的目标检测信息之间的损失值；

根据预存的梯度计算公式、所述损失值及所述训练检测信息的计算值计算得到所述错误检测模型中转移矩阵的更新值，更新所述转移矩阵的参数值；

获取所述训练语料集合中的下一条语料编码信息输入所述错误检测模型并重复上述步骤，直至所述训练语料集合包含的所有语料编码信息全部用于训练。

4.根据权利要求1所述的基于人工智能的文本错误检测方法，其特征在于，所述将所述待检测文本分别输入多个所述错误检测模型以获取对应的多个模型检测信息，包括：

根据所述转换词典将所述待检测文本转换为对应的文本编码；

将所述文本编码分别输入多个所述错误检测模型进行计算，以获取每一所述错误检测模型输出的模型检测信息。

5.根据权利要求1所述的基于人工智能的文本错误检测方法，其特征在于，所述筛选条件包括检测数据筛选比例及模型筛选比例，所述筛选检测数据包含多组检测数据信息，所述从多个所述模型检测信息中筛选得到满足预置筛选条件的筛选检测数据，包括：

获取每一模型检测信息的综合检测分数，并根据所述综合检测分数对多个模型检测信息进行排序；

根据所述模型筛选比例截取排序靠前的多个模型检测信息，作为多组备选模型检测信息；

根据所述检测数据筛选比例对每一组所述备选模型检测信息进行筛选，获取每一组备选模型检测信息中排序靠前的多个检测数据作为一组所述检测数据信息。

6.根据权利要求1所述的基于人工智能的文本错误检测方法，其特征在于，所述对所述筛选检测数据进行集成处理得到与所述待检测文本相匹配的文本检测结果，包括：

根据筛选检测数据中的每一组检测数据信息确定每一组检测数据信息的文本错误位置及文本错误类型；

判断所有所述文本错误位置是否均相同；

若所有所述文本错误位置不均相同，根据预置的判断规则判断所有所述文本错误位置是否包含单词切分错误；

将包含单词切分错误的文本错误位置进行删除并返回执行所述判断所有所述文本错误位置是否均相同的步骤；

若所有所述文本错误位置均相同，判断所有所述文本错误类型是否均相同；

若所有所述文本错误类型均相同，将所述文本错误位置及所述文本错误类型作为所述文本检测结果进行输出。

7.根据权利要求1所述的基于人工智能的文本错误检测方法，其特征在于，所述判断所有所述文本错误位置是否均相同，之前包括：

根据预置的语法模板与每一组所述检测数据信息的文本错误位置及文本错误类型进行匹配；

将与所述语法模板相匹配的文本错误位置及文本错误类型进行剔除。

8.一种基于人工智能的文本错误检测装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于人工智能的文本错误检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于人工智能的文本错误检测方法。