CN109753640A

CN109753640A - 一种基于人工智能的文本纠错方法

Info

Publication number: CN109753640A
Application number: CN201910009244.9A
Authority: CN
Inventors: 康岚兰
Original assignee: College Of Applied Science Jiangxi University Of Science And Technology
Current assignee: College Of Applied Science Jiangxi University Of Science And Technology
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-14

Abstract

本发明属于计算机技术领域，尤其涉及一种基于人工智能的文本纠错方法，对于给定的一个通信网络，根据信宿满秩得到一般性的卷积网络编码；对于给定集合的任意错误模型，计算信宿等效错误；求逆将其等效为信宿端的错误，在信宿端得到纠正此错误的纠错编码；将经过初步纠错的文本信息输入人工智能纠错系统；基于人工智能的文本纠错方法中人工智能系统包括校验信息计算模块、译码总控模块、训练模块、知识库模块、综合评估模块、识别与纠正模块。本发明使用卷积纠错网络编码，高速率、高可靠性、低时延等优异特性。

Description

一种基于人工智能的文本纠错方法

技术领域

本发明属于计算机应用技术领域，尤其涉及一种基于人工智能的文本纠错方法。

背景技术

卷积网络编码是一种重要的网络编码，对编码域大小没有限制，并且可以适应任意时延情况。然而网络在传输过程中，边上信息发生错误不可避免。

此外，为了使机器理解人类自然语言，人们在长期研究的基础上形成了两种基本的方法：基于规则的方法和基于统计的方法。两种方法都难以独立解决问题。基于全信息的自然语言理解方法论，从“全信息理论”的观点出发，同时发挥规则方法和统计方法两者的优势。事物运动状态及状态变化方式的形式是事物的语法信息；一旦这种抽象的“状态及其变化方式”的形式与它的“客体事物”联系起来，就会具有具体的含义，这就是语义信息；而“状态及其变化方式”的形式以及它的含义一旦与特定的“认识主体”联系起来，就会表现出对主体目的的效用，这就是语用信息。

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着互联网技术的普及和人工智能化的发展,人类生活越来越依赖于搜索引擎、语音识别、语义理解等技术。而这些技术应用中,文本错误识别和纠错任务也变得及其重要。

现有的文本自动纠错方法,大多采用机器学习的方法,将自动纠错任务当成噪声信道模型,利用分类的思想完成纠错任务,或者利用传统的统计机器翻译方式,处理待纠错文本以达到纠错的目的。

上述方法,纠错任务的完成依靠特征的设计,是以数据驱动的,模型面临着对数据规范性要求高、数据稀疏和模型通用性差,无法大规模使用等问题,且由于缺少上下文的句法信息,使得纠错的准确性差,无法达到用户的期望。

综上所述，现有技术存在以下问题：

现有技术中，错误信号容易导致网络卷积扩散；数据规范性要求高；数据稀疏和模型通用性差,无法大规模使用。

发明内容

本发明的目的在于提供一种基于人工智能的文本纠错方法，旨在解决现有技术考虑错误容易导致网络卷积扩散的问题。

本发明是这样实现的，一种基于人工智能的文本纠错方法，所述基于人工智能的文本纠错方法包括：

步骤一，对于给定的通信网络，根据信宿满秩得到卷积网络编码；

步骤二，对于给定集合的任意错误模型，计算信宿等效错误；

步骤三，将信宿等效求逆为信宿端的错误，在信宿端得到纠正此错误的纠错编码；

步骤四，将经过初步纠错的文本信息输入人工智能纠错系统。

进一步，步骤一得到卷积网络编码的方法包括：

步骤S1，在节点接收通信网络广播包时，提取其中关于卷积网络编码的信息通信网络_qos,并根据本节点维持的所有邻居节点的滑动窗口信息计算出本节点到对应邻居节点的本地卷积网络编码；

步骤S2，在维持的滑动窗口周期内根据可靠性、跳数、链路非对称惩罚和链路评价因子计算出节点到该邻居节点的总卷积网络编码；

步骤S3，对步骤S2中计算出的总卷积网络编码的大小进行排序，选择其中最大值作为最佳下一跳节点，选择其中次大值作为备选的下一跳节点。

进一步，所述步骤S1中计算本地卷积网络编码的过程为：

节点从邻居节点收到通信网络广播包后提取数据包中源节点项信息和卷积网络编码信息通信网络_qos；若源节点项是节点自身的MAC地址，说明该通信网络广播包是该源节点自己发出去的，则将维持的该邻居节点的滑动窗口对应位置填1；否则说明该通信网络包来自其它节点，将滑动窗口对应位置填0；最后统计滑动窗口中1和0的数目，从而计算出本节点到滑动窗口对应的邻居节点的本地卷积网络编码。

进一步，所述步骤S2中的链路评价因子包括网络分配矢量参数、接收缓存队列参数、平均时延和丢包率参数、信号强度参数。

进一步，所述步骤S1中的本地卷积网络编码计算公式为：

其中，qoe为节点收到的自己的广播包数量；qor为来自其它节点的广播包数量。

进一步，所述步骤S2中总卷积网络编码的计算公式为：

Qos＝new_qos-data_len-skb_size-rtt-pacloss-signal

其中，Qos为总卷积网络编码，data_len为发送数据长度，skb_size为接收缓冲队列长度，rtt为平均时延，pacloss为丢包率，signal为信号强度的绝对值；

其中，node_number_punishment为中间路径上设置的跳数惩罚，

combined_qos＝hello_qos×qos_own×qos_different_lq_punishment

其中，通信网络_qos为通信网络广播包中关于卷积网络编码的信息，

qos_different_lq_punishment为链路非对称惩罚，其算法为：

进一步，步骤二计算信宿等效错误的方法包括：

采用非线性最小二乘法进行曲线拟合，得到错误模型中的参数初值，并编写正则方程组对参数进行修正，最终得到满足既定要求的参数；再根据信宿等效错误信号与其相位噪声幂律模型的关系，将求得的参数代入相位噪声幂律模型中，进而得到信宿等效错误信号的相位噪声结果。

进一步，所述采用非线性最小二乘法确定参数初值的方法具体包括：

依据式采用非线性最小二乘法，确定参数的初值，取即需要选择a_β的初值，将式表示为如下的矩阵形式：

FA＝S；

其中：

A＝[a₀ a₁ … a₄]^T S＝[S₀ S₁ … S₄]^T；

矩阵F中所要用的数据点是从N个{(f_i,S_i)}i＝1,2,…,N中选取五个频率点，选取的数值应保证矩阵F是满秩可逆；

由此得表示参数a_β初值的矩阵A的初值为：

以为初始值进行迭代对矩阵A的值进行估计，l表示迭代次数，此时l＝0。

进一步，所述参数估计的误差由以下方程估算：

其中系数和为：

其中S_k表示频率f_k处的错误测量值，表示频率f_k处对应的错误的第l次迭代值，即：

所述噪声模型参数估计的判断方法为：

判断如不满足误差要求，令：

l＝l+1；

并将修正后的和对应的错误测量数据代入正则方程组进行求解，得到各参数的修正值重新判断直至误差满足测量要求或达到设定的迭代次数；

满足误差要求，则将参数值作为的值代入式中，即得到信宿等效错误信号的相位噪声结果，并由此绘制相位噪声曲线。

本发明另一目的在于提供一种实现所述基于人工智能的文本纠错方法的基于人工智能的文本纠错方法系统，所述基于人工智能的文本纠错方法的初步纠错系统和人工智能纠错系统包括：

校验信息计算模块：接受文本信息，通过一定的运算来更新校验信息，将变量信息和校验信息送入循环移位模块；

循环移位缓存模块：根据译码总控模块送来的循环移位位数对数据进行循环移位；

译码总控模块：当迭代次数达到预定次数时，从循环移位缓存读出数据经过判决后给循环移位缓存模块发送一个满信号；循环移位缓存模块接收到满信号后，按照一定规律输出初步纠错的文本信息；

训练模块：比较正确的语句和出现大量错误的语句，集中发现容易出错的部分并训练纠正的方法和纠正速度，即在知识库模块中建立语法知识库、语用知识库、语义知识库；

知识库模块：存储并整理语法知识库、语用知识库、语义知识库；

综合评估模块：用于评估文本的语法、语用、语用等信息健康指标，达标即输出已纠错的文本信息，未达标即将信息退回识别和纠正模块重新纠错；

识别与纠正模块：调用知识库模块中语法知识库、语用知识库、语义知识库识别并纠正文本错误。

本发明的积极效果为：

本发明提供的基于人工智能的文本纠错方法，对于给定的一个通信网络，先根据信宿满秩要求设计一个一般性的卷积网络编码，然后对于给定集合的任意错误模型，计算其信宿等效错误，再对其求逆将其等效为信宿端的错误，从而在信宿端设计一个可以纠正此错误的纠错编码；将网络错误等效到信源的好处是避免考虑错误由于网络卷积导致扩散问题，使得设计简单。卷积纠错网络编码具有高速率、高可靠性、低时延和普适性等优势。

使用卷积纠错网络编码，高速率、高可靠性、低时延等优异特性。使用人工智能训练模块，使文本纠错具有可发展性，系统的纠错能力越来越强。二级系统设计便于系统维护。

本发明每个源节点只需保存到目的节点的最优下一跳和潜在下一跳节点，而不需要计算、确定出整个网络的拓扑及路由信息，因此网络开销小，占用网络资源低；

考虑跳数和链路非对称等因素，更加全面准确的计算出到目的节点的最优下一跳；

增加了一些额外的评价因子(网络分配矢量参数、接收缓存队列参数、平均时延和丢包率参数、信号强度参数)，避开重负载节点，实现负载均衡。

采用以上技术方案，还可以用于普通无线局域网中，以提高数据传输速率、降低时延和提高网络性能；其可以寻找到最佳邻居节点，有效降低时延，提高网络建立和更新的速度以及网络编码性能。

本发明得到卷积网络编码的方法包括：在节点接收通信网络广播包时，提取其中关于卷积网络编码的信息通信网络_qos,并根据本节点维持的所有邻居节点的滑动窗口信息计算出本节点到对应邻居节点的本地卷积网络编码；在维持的滑动窗口周期内根据可靠性、跳数、链路非对称惩罚和链路评价因子计算出节点到该邻居节点的总卷积网络编码；对计算出的总卷积网络编码的大小进行排序，选择其中最大值作为最佳下一跳节点，选择其中次大值作为备选的下一跳节点。可获得准确的编码信息；

本发明计算信宿等效错误的方法包括：采用非线性最小二乘法进行曲线拟合，得到错误模型中的参数初值，并编写正则方程组对参数进行修正，最终得到满足既定要求的参数；再根据信宿等效错误信号与其相位噪声幂律模型的关系，将求得的参数代入相位噪声幂律模型中，进而得到信宿等效错误信号的相位噪声结果。

本发明提取被测信号的相位信息，而是利用振荡器信号功率谱与其相位噪声幂律谱模型的关系，通过非线性最小二乘法实现参数计算，从而基于相位噪声数学模型实现了信号相位测量。回避了硬件对测量性能的影响。

本发明解决现有技术错误信号容易导致网络卷积扩散；数据规范性要求高；数据稀疏和模型通用性差,无法大规模使用的问题。

附图说明

图1是本发明实施例提供的基于人工智能的文本纠错方法流程图。

图2是本发明实施例提供的基于人工智能的文本纠错系统示意图。

图中：1、校验信息计算模块；2、译码总控模块；3、循环移位缓存模块；4、识别和纠正模块；5、知识库模块；6、综合评估模块；7、训练模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中，错误容易导致网络卷积扩散；数据规范性要求高；数据稀疏和模型通用性差,无法大规模使用。

为解决上述技术问题，下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于人工智能的文本纠错方法包括以下步骤：

S101：对于给定的一个通信网络，先根据信宿满秩要求设计一个一般性的卷积网络编码；

S102：然后对于给定集合的任意错误模型，计算其信宿等效错误；

S103：再对其求逆将其等效为信宿端的错误，从而在信宿端设计一个可以纠正此错误的纠错编码；

S104：将经过初步纠错的文本信息输入人工智能纠错系统。

本发明实施例中，步骤S101得到卷积网络编码的方法包括：

本发明实施例中，所述步骤S1中计算本地卷积网络编码的过程为：

本发明实施例中，所述步骤S2中的链路评价因子包括网络分配矢量参数、接收缓存队列参数、平均时延和丢包率参数、信号强度参数。

进一步，所述步骤S1中的本地卷积网络编码计算公式为：

进一步，所述步骤S2中总卷积网络编码的计算公式为：

Qos＝new_qos-data_len-skb_size-rtt-pacloss-signal

其中，node_number_punishment为中间路径上设置的跳数惩罚，

combined_qos＝hello_qos×qos_own×qos_different_lq_punishment

qos_different_lq_punishment为链路非对称惩罚，其算法为：

本发明实施例中，步骤S102计算信宿等效错误的方法包括：

本发明实施例中，所述采用非线性最小二乘法确定参数初值的方法具体包括：

FA＝S；

其中：

A＝[a₀ a₁ … a₄]^T S＝[S₀ S₁ … S₄]^T；

由此得表示参数a_β初值的矩阵A的初值为：

本发明实施例中，所述参数估计的误差由以下方程估算：

其中系数和为：

所述噪声模型参数估计的判断方法为：

判断如不满足误差要求，令：

l＝l+1；

并将修正后的和对应的错误测量数据代入正则方程组进行求解，得到各参数的修正值重新判断直至误差满足测量要求或达到设定的迭代次数。

满足误差要求，则将参数值作为(β＝0,1,2,3,4)的值代入式中，即得到信宿等效错误信号的相位噪声结果，并由此绘制相位噪声曲线。

如图2所示，本发明实施例提供的基于人工智能的文本纠错方法的初步纠错系统和人工智能纠错系统包括：

校验信息计算模块1；译码总控模块2；循环移位缓存模块3；识别和纠正模块4；知识库模块5；综合评估模块6；训练模块7。

校验信息计算模块1、译码总控模块2、循环移位缓存模块3两两相连；

循环移位模块3与训练模块7相连；识别与纠正模块4与综合评估模块6、知识库模块5相连；训练模块7与综合评估模块6和知识库模块5相连。

校验信息计算模块1：接收文本信息，通过一定的运算来更新校验信息，将变量信息和校验信息送入循环移位模块；

循环移位缓存模块3：根据译码总控模块送来的循环移位位数对数据进行循环移位；

译码总控模块2：当迭代次数达到预定次数时，从循环移位缓存读出数据经过判决后给循环移位缓存模块发送一个满信号；循环移位缓存模块接收到满信号后，按照一定规律输出初步纠错的文本信息；

训练模块7：比较正确的语句和出现大量错误的语句，集中发现容易出错的部分并训练纠正的方法和纠正速度，即在知识库模块中建立语法知识库、语用知识库、语义知识库；

知识库模块5：存储并整理语法知识库、语用知识库、语义知识库；所述的知识库模块是用来存储知识数据和对知识数据进行更新的模块，包括知识数据存储模块，知识数据提取模块，知识数据更新模块。

所述的知识数据存储模块是一个存储知识数据的数据库系统，知识数据会由不同类型的数据整合而成，有结构化的数据，也有大量的图片、XML、HTML、图像和音频、视频信息等非结构化数据。可以利用HBase技术搭建起大规模存储集群。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，非常适合用于具有键/值对形式的半结构化及非结构化数据存储。HBase对列簇(column family)处理机制，不需要为存储的变量预先制定一个类型，只需要告诉想要把数据存储到HBase的哪个列簇中，不需要指定它的具体类型。HBase采用基于列簇的数据存储模型。每个列簇中可以包含不同自定义列，同一列簇在同一个TableRegion中存储在同一个文件中，存储结构更紧凑，更利于横向扩展。所述的知识数据提取模块是根据当前用户的职位信息和学习进度，在知识数据存储模块中抽取适合其学习的知识数据。考虑到如视频这类存储于知识数据存储模块中的大文件，在提取时会耗费系统较多的时间和资源，采用内存映射文件机制，通过内存映射文件保留一个地址空间的区域，同时将物理存储器提交给知识数据提取模块。使用内存映射文件时，不必再对文件执行I/O操作，即在对文件进行处理时不必再为文件申请并分配缓存，所有的文件缓存操作均直接管理，提高了系统的执行速度。所述的知识数据更新模块存储知识数据存储模块中的可更新知识部分的最新数据信息，知识数据更新模块采用堆栈(Stack)存储模式。所述的知识数据更新模块从物联网-培训系统数据分析模块每获得一则更新数据，将其压入(Push)堆栈中；在对知识数据库进行定期更新时，从堆栈中压出(Pop)更新数据，如检测到知识数据存储模块中某一则信息已在本次进行更新，则丢弃知识数据更新模块中的这则更新数据。采用堆栈存储模式，使得知识数据存储模块中的数据总是最新的且不被重复改动，提高了知识库模块的准确性和实时性。所述的知识数据更新模块在整个系统中扮演着极其重要的角色，实现了知识数据的自动更新，也是本发明的创新点之一。

综合评估模块6：用于评估文本的语法、语用、语用等信息健康指标，达标即输出已纠错的文本信息，未达标即将信息退回识别和纠正模块重新纠错；

识别与纠正模块4：调用知识库模块中语法知识库、语用知识库、语义知识库识别并纠正文本错误。

在本发明实施例中，人工智能文本纠错系统运行过程包括：

系统运行时(有文本纠错任务):识别与纠正模块4调用知识库信息分析文本信息语法、语用、语义，对文本智能纠错，纠错后发送给综合评估模块6，达标即输出，否则，退回识别和纠正模块重新纠错；训练模块在循环移位缓存模块中读取初步纠错文本信息，在综合评估模块读取已纠错文本信息，进行对比分析，不断完善知识库模块中的三个知识库；

系统空闲时(无文本纠错任务)：外部输入训练模块正确语料和错误语料，进行对比分析，不断完善知识库模块中的三个知识库。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的文本纠错方法，其特征在于，所述基于人工智能的文本纠错方法包括：

2.如权利要求1所述的基于人工智能的文本纠错方法，其特征在于，步骤一得到卷积网络编码的方法包括：

3.如权利要求2所述的基于人工智能的文本纠错方法，其特征在于，所述步骤S1中计算本地卷积网络编码的过程为：

4.如权利要求2所述的基于人工智能的文本纠错方法，其特征在于，所述步骤S2中的链路评价因子包括网络分配矢量参数、接收缓存队列参数、平均时延和丢包率参数、信号强度参数。

5.如权利要求2所述的基于人工智能的文本纠错方法，其特征在于，所述步骤S1中的本地卷积网络编码计算公式为：

6.如权利要求2所述的基于人工智能的文本纠错方法，其特征在于，所述步骤S2中总卷积网络编码的计算公式为：

Qos＝new_qos-data_len-skb_size-rtt-pacloss-signal

其中，node_number_punishment为中间路径上设置的跳数惩罚，

combined_qos＝hello_qos×qos_own×qos_different_lq_punishment

其中，通信网络_qos为通信网络广播包中关于卷积网络编码的信息，qos_different_lq_punishment为链路非对称惩罚，其算法为：

7.如权利要求1所述的基于人工智能的文本纠错方法，其特征在于，

步骤二计算信宿等效错误的方法包括：

8.如权利要求7所述的基于人工智能的文本纠错方法，其特征在于，所述采用非线性最小二乘法确定参数初值的方法具体包括：

FA＝S；

其中：

A＝[a₀ a₁ … a₄]^T S＝[S₀ S₁ … S₄]^T；

由此得表示参数a_β初值的矩阵A的初值为：

9.如权利要求8所述的基于人工智能的文本纠错方法，其特征在于，所述参数估计的误差由以下方程估算：

其中系数和为：

所述噪声模型参数估计的判断方法为：

判断如不满足误差要求，令：

l＝l+1；

10.一种实现权利要求1所述基于人工智能的文本纠错方法的基于人工智能的文本纠错方法系统，其特征在于，所述基于人工智能的文本纠错方法的初步纠错系统和人工智能纠错系统包括：