CN114611494B - 文本纠错方法、装置、设备及存储介质 - Google Patents

文本纠错方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114611494B
CN114611494B CN202210262506.4A CN202210262506A CN114611494B CN 114611494 B CN114611494 B CN 114611494B CN 202210262506 A CN202210262506 A CN 202210262506A CN 114611494 B CN114611494 B CN 114611494B
Authority
CN
China
Prior art keywords
text
error correction
model
character
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210262506.4A
Other languages
English (en)
Other versions
CN114611494A (zh
Inventor
姜鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210262506.4A priority Critical patent/CN114611494B/zh
Priority to PCT/CN2022/089175 priority patent/WO2023173533A1/zh
Publication of CN114611494A publication Critical patent/CN114611494A/zh
Application granted granted Critical
Publication of CN114611494B publication Critical patent/CN114611494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语言处理技术领域,公开了一种文本纠错方法、装置、设备及存储介质。该方法通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整。

Description

文本纠错方法、装置、设备及存储介质
技术领域
本发明涉及语言处理技术领域,尤其涉及一种文本纠错方法、装置、设备及存储介质。
背景技术
文本纠错指的是利用机器学习与自然语言处理技术自动对文本信息进行纠错处理。现有技术中所采用的文本纠错模型分为大体量模型和小体量模型,其中大体量模型通常设计地较大,内存要求高,而且实际纠错过程上具有时延;小体量模型只能输出最后的修正结果,但是没有给出具体的错误位置和错误类型。
综上所述,现有的文本纠错技术存在着在纠错过程中无法给出具体的错误位置和错误类型,不能对纠错内容直观显示的技术问题。
发明内容
本申请的主要目的是提供一种文本纠错方法、装置、设备及存储介质,以解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
本发明第一方面提供了一种文本纠错方法,所述文本纠错方法包括:获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息;将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,其中,所述文本纠错模型为混合架构的序列到序列模型,编码器部分采用Transformer模型架构,解码器部分采用长短时记忆模型架构;根据最小编辑距离算法,计算所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对所述文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照所述最小编辑距离进行映射处理,得到文本纠错意见。
可选地,在本发明第一方面的第一种实现方式中,所述将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,其中,所述文本纠错模型为混合架构的序列到序列模型,编码器部分采用Transformer模型架构,解码器部分采用长短时记忆模型架构,包括:将所述文本信息输入至所述预先训练得到的文本纠错模型,通过采用所述Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值;根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合,得到注意力值集合;通过长短时记忆模型调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;通过所述长短时记忆模型,根据所述困惑度对文本编码进行概率预测,得到概率预测结果;通过所述长短时记忆模型,基于所述概率预测结果对所述文本编码进行解码,得到文本纠错结果。
可选地,在本发明第一方面的第二种实现方式中,所述根据最小编辑距离算法,计算所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离,包括:提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集;按照预设的拆分方法对所述字符集进行拆分,形成字符串;根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵,其中,所述字符矩阵包含所述字符串中所有字符的字符特征值;根据预设的编辑操作类型,构建动态规划方程;基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离。
可选地,在本发明第一方面的第三种实现方式中,所述对所述文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照所述最小编辑距离进行映射处理,得到文本纠错意见,包括:按照预设的分类方式对所述字符集中的字符进行分类,得到字符子集,其中,字符子集包括所述文本信息对应的字符子集和所述文本纠错结果对应的字符子集;按照最小编辑距离对所述文本信息对应的字符子集和所述文本纠错结果对应的字符子集进行映射处理,得到由文本信息对应的字符和文本纠错结果对应的字符基于最小编辑距离这一映射关系构成的字符对集合;根据预设的编辑操作类型,将所述最小编辑距离转换成编辑操作序列,按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列,得到文本纠错意见。
可选地,在本发明第一方面的第四种实现方式中,在所述获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息之前,还包括:提取Transformer模型框架中的编码器和长短时记忆模型框架中的解码器;在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;对所述初始训练模型进行量化处理,得到文本纠错模型。
可选地,在本发明第一方面的第五种实现方式中,所述从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型,包括:采集文本数据,按照预设方式构建训练数据集;通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型,通过待训练模型的编码解码运算,得到对应的训练结果;判断所述训练结果是否满足预设的条件;若是,则终止循环,输出初始训练模型。
本发明第二方面提供了一种文本纠错装置,包括:预处理模块,用于获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息;文本纠错处理模块,用于将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果;最小编辑距离计算模块,用于计算所述文本信息和与之对应的所述文本纠错结果之间的最小编辑距离;映射处理模块,用于对所述文本信息和与之对应的所述文本纠错结果按照所述最小编辑距离进行映射处理,得到文本纠错意见。
可选地,在本发明第二方面的第一种实现方式中,所述文本纠错模块包括:文本编码单元,用于通过采用Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;第一计算单元,用于根据注意力机制对文本编码进行线性变换和投影处理,计算文本编码对应的注意力值;第二计算单元,用于调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;概率预测单元,用于根据困惑度对文本编码进行概率预测,得到概率预测结果;文本解码单元,用于根据概率预测结果对所述文本编码进行解码,得到文本纠错结果。
可选地,在本发明第二方面的第二种实现方式中,所述最小编辑距离计算模块包括:字符转换单元,用于提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集,按照预设的拆分方法对所述字符集进行拆分,形成字符串;并根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵;动态规划单元,用于根据预设的编辑操作类型,构建动态规划方程;第三计算单元,用于对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离。
可选地,在本发明第二方面的第三种实现方式中,所述映射处理模块包括:映射单元,用于根据所述最小编辑距离,对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理,得到字符串对应组;序列生成单元,用于根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离,按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向,构建编辑操作序列;意见输出单元,用于按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列,得到文本纠错意见。
可选地,在本发明第二方面的第四种实现方式中,所述文本纠错处理装置还包括模型训练模块,其具体用于:提取Transformer模型框架中的编码器和长短时记忆模型框架中的解码器;在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;对所述初始训练模型进行量化处理,得到文本纠错模型。
可选地,在本发明第二方面的第五种实现方式中,所述模型训练模块包括:训练数据集生成单元,用于采集文本数据,按照预设方式构建训练数据集;训练单元,用于通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型,通过待训练模型的编码解码运算,得到对应的训练结果,并判断所述训练结果是否满足预设的条件,若是,则终止循环,输出初始训练模型。
本发明第三方面提供了一种计算机设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行上述的文本纠错方法的各个步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文本纠错方法的各个步骤。
本发明的技术方案中,该方法具体是通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
附图说明
图1为本发明实施例中为文本纠错方法的第一个实施例示意图;
图2为本发明实施例中为文本纠错方法的第二个实施例示意图;
图3为本发明实施例中为文本纠错方法的第三个实施例示意图;
图4为本发明实施例中文本纠错装置的一个实施例示意图;
图5为本发明实施例中文本纠错装置的另一个实施例示意图;
图6为本发明实施例中计算机设备的一个实施例示意图。
具体实施方式
为了解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题,本申请提供了一种文本纠错方法。该方法具体是通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中文本纠错方法的第一个实施例,该方法的实现步骤如下:
101、获取待纠错数据,并对待纠错数据进行预处理,得到文本信息;
该步骤中,所述预处理包括清洗和分类等操作,具体地:
对待纠错数据进行数据清洗,得到经过数据清洗后的文本数据;
对经过数据清洗后的文本数据按照预设的文本类别进行分类,得到不同类别的文本信息。
102、将文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;
其中,所述文本纠错模型为混合架构的序列到序列模型,编码器部分采用Transformer模型架构,解码器部分采用长短时记忆模型架构。
在本实施例中,包括:
将所述文本信息输入至所述预先训练得到的文本纠错模型,通过采用所述Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;
根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值;
根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合,得到注意力值集合;
通过长短时记忆模型调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;
通过所述长短时记忆模型,根据所述困惑度对文本编码进行概率预测,得到概率预测结果;
通过所述长短时记忆模型,基于所述概率预测结果对所述文本编码进行解码,得到文本纠错结果。
在本实施例中,对于根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值,包括:
通过所述编码器中的子层对所述文本编码进行残差链接,将输入的文本编码进行基于非线性变换的线性叠加,并对处理结果进行归一化处理;
在本实施例中,对于根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值,包括:
采用多头自注意力机制(multi-head self-attention mechanism)对所述文本编码进行线性变换,并面向注意力机制下的不同维度进行投影,具体地,采用以下公式进行处理:
Zl=Lin(Yl)+T
Xl=SoftMax(Zl*ET)*(E+S)
Cl=Lin(Xl)
其中,Zl是简单线性层运算,Lin是一个线性组合,用于编码的线性变换,Y1是对应于文本编码的参数,T是对应修改的词向量,Xl是当前输出的预测的字,Cl配合参与运算以确定输出到下一层卷积层的信息,ET是待纠错句子对应的文本编码在编码器隐藏层中的转置,E是待纠错句子编码器的输出结果,S是输入的词向量,SoftMax是激活层,在上述公式中表示其后接括号内的运算过程通过激活层来实现。
当然,在实际应用中,也可以采用注意力机制(Attention)对所述文本编码进行处理。
在本实施例中,对于根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合,得到注意力值集合,包括:
根据多头注意力机制,将编码向量对所述多头注意力机制的预设维度Q,K,V进行投影,最后将不同的注意力值(attention)结果拼接起来,得到注意力值集合,表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,head1,...,headh表示多头注意力机制中各注意力头(head),WO表示将各注意力头(head)的投影结果进行转换的预设参数。
在本实施例中,进一步地,通过长短时记忆模型调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度,包括采用以下方式计算困惑度(perplexity):
PP(W)表示句子W的困惑度值,Wω1、ω2以及ωN均表示句子W对应的词向量的注意力值,其中,ωN的下标N表示当前迭代计算所选取的注意力值编号,P(ω1ω2…ωN)表示通过注意力值计算的句子概率。通过公式所表示的计算方式对所有注意力值进行迭代计算得出困惑度值。
在本实施例中,进一步地,通过所述长短时记忆模型,根据所述困惑度对文本编码进行概率预测,得到概率预测结果,包括:
将所述待纠错文本中的各语句的困惑度与预设困惑度阈值进行比较;
若所述待纠错文本中的各语句的困惑度小于所述预设困惑度阈值,则判断所述待纠错文本中的各语句为无需纠错的语句;
若所述待纠错文本中的各语句的困惑度大于或者等于所述预设困惑度阈值,则判断所述待纠错文本中的各语句为需要纠错的语句;
当所述待纠错文本中的各语句为需要纠错的语句时,通过所述长短时记忆模型对文本编码进行概率预测,得到概率预测结果。
在本实施例中,对于预先训练得到的文本纠错模型,通过如下方式训练得到:
提取Transformer模型框架中的编码器和长短时记忆模型(LSTM)框架中的解码器;
在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;
从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;
对所述初始训练模型进行量化处理,得到文本纠错模型。
在本实施例中,对于嵌入层参数进行因式分解,包括:
在嵌入层(Embedding Layer)和隐藏层之间加入一个项目层(Project),其中,项目层分别与嵌入层和隐藏层进行连接;
降低嵌入层的维度,使得嵌入层的维度不与隐藏层的维度一致,对嵌入层参数进行因式分解,例如:设词汇表的大小为V,词嵌入的维度为E,隐藏层的维度为H,则分解之前的参数量为V*H,此处的V是词汇表的大小,通常为几万,H是隐藏层大小,通常为几百到几千,进行因式分解之后,因为词嵌入维度E远小于隐藏层的维度H,所以分解后的参数量会远小于分解前的参数量。
在本实施例中,对于从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型,包括:
采集具有纠错信息的文本数据,其中,具有纠错信息的文本数据包括文本;
对具有纠错信息的文本数据按照预设的方式进行分类,例如,将文本数据按照语言分类,分为中文、英文和特殊符号;
对具有纠错信息的文本数据按照预设的方式进行拆分和组合,构建训练数据集,例如,将文本信息拆分成句子,将纠错信息与对原文文本按照对应关系进行组合,得到训练数据集;
基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型。
在本实施例中,对于对所述初始训练模型进行量化处理,得到文本纠错模型,包括:
通过预设的量化算法模型对所述初始训练模型进行量化处理,例如:Deepcompression、Binary-Net、Tenary-Net和Dorefa-Net;
在实际应用中,对初始训练模型进行量化处理后,可以使用8位存储每个32位浮点权重,虽然这意味着每个权重都以较低的保真度存储,但模型的质量并未受到重大影响。
103、根据最小编辑距离算法,计算文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离;
该步骤中,包括:
提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集;
按照预设的拆分方法对所述字符集进行拆分,形成字符串;
根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵,其中,所述字符矩阵包含所述字符串中所有字符的字符特征值;
根据预设的编辑操作类型,构建动态规划方程;
基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离。
在本实施例中,对于按照预设的拆分方法对所述字符集进行拆分,形成字符串,包括:
对字符集根据字符与文本中句子间的对应关系进行拆分,得到字符串,其中,一个字符串中所包含的字符属于同一个句子。
在实际应用中,也可以根据基于特定语法所构成的短语对所述字符集进行拆分,例如:以包含至少一个动词和至少一个名词的短语为单位对所述字符集进行拆分。
在本实施例中,对于根据预设的编辑操作类型,构建动态规划方程,包括:
当编辑操作类型设置为:删除一个字符、插入一个字符和修改一个字符时,可用以下方式构建动态规划方程:
用edit[i][j]表示A串和B串的编辑距离。edit[i][j]表示A串从第0个字符开始到第i个字符和B串从第0个字符开始到第j个字符,这两个字串的编辑距离;字符串的下标从1开始;
dis[0][0]表示word1和word2都为空的时候,此时两者间的Edit Distance(编辑距离)为0。可以得出,dis[0][j]就是word1为空,word2长度为j的情况,此时他们的EditDistance为j,也就是从空,添加j个字符转换成word2的最小Edit Distance为j;同理dis[i][0]就是,word1长度为i,word2为空时,word1需要删除i个字符才能转换成空,所以转换成word2的最小Edit Distance为i;
根据以上说明,构建动态规划方程如下:
其中:
上式中的min()函数中的三个部分,对应三种字符操作方式:
edit[i-1][j]+1相当于给word2的最后插入了word1的最后的字符,插入操作使得edit+1,之后计算edit[i-1][j];
edit[i][j-1]+1相当于将word2的最后字符删除,删除操作edit+1,之后计算edit[i][j-1];
edit[i-1][j-1]+flag相当于通过将word2的最后一个字符替换为word1的最后一个字符;flag标记代表替换的有效次数。
104、对文本信息包含的字符串和文本纠错结果包含的字符串按照最小编辑距离进行映射处理,得到文本纠错意见;
该步骤中,具体地,包括:
获取所述文本信息包含的字符串和所述文本纠错结果包含的字符串,并遍历字符串之间的最小编辑距离,并对最小编辑距离对应代价值进行比较,选取使得代价值最小的字符串组合,构造字符串对应组;
根据预设的编辑操作类型和字符串对应组中字符串之间的最小编辑距离,按照把所述文本信息中的字符串编辑成所述文本纠错结果中的字符串的编辑方向,将所述最小编辑距离转换成编辑操作序列,其中,编辑操作序列中包含对字符串中字符进行编辑时所涉及的编辑位置、编辑操作类型和编辑顺序,例如,当预设的编辑操作类型为删除一个字符、插入一个字符和修改一个字符时,将所述最小编辑距离转换成包含删除一个字符、插入一个字符和修改一个字符的编辑操作所作用的编辑位置、编辑操作类型和编辑顺序的编辑操作序列;
按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列,得到文本纠错意见,例如,以交互式的方式将编辑操作序列内容进行输出,供用户选择性纠正,具体地,可以使用箭头连接待纠错文本和纠错结果,两个句子基于最小编辑语法得到映射关系,使用不同颜色的箭头代表不同的编辑操作,可选地,黑色箭头表示无需处理,黄色箭头表示需要修改,红色表示该词应该被删掉,绿色表示应该添加的内容,得到文本纠错意见,给出各种修正意见供用户参考。
通过对上述方法的实施,通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图2,本发明实施例中文本纠错方法的第二个实施例,该方法的实现步骤如下:
201、获取待纠错数据,并对待纠错数据进行预处理,得到文本信息;
在本实施例中,对于该步骤,具体通过去除文本数据中的噪声,得到去除噪声后的文本数据;将去除噪声后的文本数据的文本形式转换成预设的文本形式,得到转换格式后的文本数据;对转换格式后的文本数据按照预设的类别和特征进行分类和筛选,得到文本信息。
202、将文本信息输入至采用Transformer模型架构的编码器进行编码处理,得到文本编码;
在本实施例中,对于该步骤,包括:
将文本信息输入至采用Transformer模型架构的编码器后,可以采用压缩编码的编码方式进行编码处理,其中,压缩编码是一种可压缩数据大小的编码方式,比如BPE编码(byte pairencoder,双字节编码)。BPE编码,也可以叫做双字母组合编码(digramcoding),主要目的是为了数据压缩。BPE编码的方式主要是,将字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。例如,当初始文本中的词为“student”,可用字符“A”替代字符“stu”,用字符“B”替代“dent”,那么该词“student”可被编码为“AB”。在实际应用中,可以词、词组、句子等为单位进行压缩编码,以得到整个文本信息对应的文本编码。
当然,也可以采用基于注意力机制的编码方式,具体地,通过提取文本信息中的特征信息并转换成特征向量,并对特征向量进行基于注意力机制的编码处理,以得到整个文本信息对应的文本编码。
203、将文本编码输入至长短时记忆模型进行预测计算,并通过预测计算结果进行文本纠错处理,得到文本纠错结果;
在本实施例中,对于该步骤,包括:
采集包含纠错信息的文本信息,建立训练数据集,并基于训练数据集训练长短时记忆模型,生成纠错词汇表,其中,纠错词汇表包含具有错误的语句的文本编码以及对应的纠错文本的文本编码;
通过长短时记忆模型获取文本编码,并对文本编码的各部分进行困惑度计算,得到困惑度值;
判断文本编码各部分的困惑度值是否大于设定阈值,若大于,则将该部分文本编码替换成纠错词汇表中对应的纠错文本的文本编码;
对替换后的文本编码进行困惑度计算,得到困惑度值;
比较替换前后的文本编码困惑度值,若替换后的文本编码困惑度值较大,则撤销替换操作;
将文本编码按照长短时记忆模型的解码规则进行解码,得到文本纠错结果。
204、根据最小编辑距离算法,计算文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离;
在本实施例中,对于该步骤,包括:
分别获取文本信息和文本纠错结果,并分别按照句子进行拆分,并转换成字符串集合,其中,字符串集合包括文本信息包含的句子对应的字符串集合和文本纠错结果包含的句子对应的字符串集合;
根据预设的编辑操作类型,构建动态规划方程,并对字符串集合进行编辑距离运算,得到字符串之间的最小编辑距离,该最小编辑距离表示文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离。
205、对文本信息中的句子和与之对应的文本纠错结果中句子按照句子之间的最小编辑距离进行映射处理,得到文本纠错意见;
在本实施例中,对于该步骤,包括:
根据预设的编辑操作类型,将所述最小编辑距离转换成编辑操作序列,例如,当预设的编辑操作类型为删除一个字符、插入一个字符和修改一个字符时,将所述最小编辑距离转换成包含删除一个字符、插入一个字符和修改一个字符的编辑操作的编辑操作序列;
按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列,得到文本纠错意见,例如,以交互式的方式将编辑操作序列内容进行输出,供用户选择性纠正,具体地,可以使用箭头连接待纠错文本和纠错结果,两个句子基于最小编辑语法得到映射关系,使用不同颜色的箭头代表不同的编辑操作,可选地,黑色箭头表示无需处理,黄色箭头表示需要修改,红色表示该词应该被删掉,绿色表示应该添加的内容,得到文本纠错意见,给出各种修正意见供用户参考。
通过对上述方法的实施,通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图3,本发明实施例中文本纠错方法的第三个实施例,该方法的实现步骤如下:
301、获取待纠错数据,并对待纠错数据进行预处理,得到文本信息;
对于该步骤,在本实施例中,具体地,包括:
对待纠错数据进行数据清洗,得到经过数据清洗后的文本数据;
对经过数据清洗后的文本数据按照预设的文本类别进行分类,得到不同类别的文本信息;
302、将文本信息输入至采用Transformer模型架构的编码器进行编码处理,得到文本编码;
对于该步骤,在本实施例中,包括:
采用基于注意力(Attention)机制的编码方式,通过提取文本信息中的特征信息(Source)并转换成特征向量,并通过注意力机制表示为包含地址(Key)和值(Value)的数据对<Key,Value>,此时给定目标(Target)中的某个查询元素(Query),通过计算Query和各个Key的相关度(Similarity),得到每个Key对应Value的权重系数,然后对Value进行加权求和,得到Attention数值;在实际应用中,利用Attention机制,采用以下公式对Source中元素的Value值进行加权求和,其中,Query和Key用来计算对应Value的权重系数。
其中,Attention(Query,Source)表示通过Attention机制将特征信息(Source)转换成目标(Target)中的Query元素的过程中,需要计算的Attention值,Similarity表示Query和各个Key的相关度,Lx代表Source的长度,Key和Value的下标i代表其在数据对<Key,Value>中的编号,便于加权求和。
根据特征向量对应的Attention数值,进行基于注意力机制的编码处理,得到整个文本信息对应的文本编码。
303、将文本编码输入至采用长短时记忆模型框架的解码器进行解码,得到文本纠错结果;
对于该步骤,在本实施例中,具体地,包括:
通过长短时记忆模型调用困惑度值计算算法,计算文本编码对应的困惑度值,包括采用以下公式计算困惑度值(perplexity):
PP(W)表示句子W的困惑度值,Wω1、ω2以及ωN均表示句子W所包含的词语所对应的文本编码,其中,ωN的下标N表示当前迭代计算所选取的词语对应的文本编码范围,P(ω1ω2…ωN)表示包含句子概率。
将所述待纠错文本中的各语句的困惑度与预设困惑度阈值进行比较;
若所述待纠错文本中的各语句的困惑度小于所述预设困惑度阈值,则判断所述待纠错文本中的各语句为无需纠错的语句;
若所述待纠错文本中的各语句的困惑度大于或者等于所述预设困惑度阈值,则判断所述待纠错文本中的各语句为需要纠错的语句;
当所述待纠错文本中的各语句为需要纠错的语句时,通过所述长短时记忆模型对文本编码进行概率预测,并替换成预测的文本编码,得到概率预测结果;
基于概率预测结果,将文本编码解码成文本的形式,得到文本纠错结果。
304、根据最小编辑距离算法,计算文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离;
在本实施例中,对于该步骤,包括:
分别获取文本信息和文本纠错结果,并分别按照句子进行拆分,并转换成字符串集合,其中,字符串集合包括文本信息包含的句子对应的字符串集合和文本纠错结果包含的句子对应的字符串集合;
根据预设的编辑操作类型,构建动态规划方程,并对字符串集合进行编辑距离运算,得到字符串之间的最小编辑距离,该最小编辑距离表示文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离。
305、对文本信息中的句子和与之对应的文本纠错结果中句子按照句子之间的最小编辑距离进行映射处理,得到文本纠错意见;
在本实施例中,对于该步骤,包括:
根据预设的编辑操作类型,将所述最小编辑距离转换成编辑操作序列,例如,当预设的编辑操作类型为删除一个字符、插入一个字符和修改一个字符时,将所述最小编辑距离转换成包含删除一个字符、插入一个字符和修改一个字符的编辑操作的编辑操作序列;
按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列,得到文本纠错意见,例如,以交互式的方式将编辑操作序列内容进行输出,供用户选择性纠正,具体地,可以以待纠错文本为基础进行呈现,对于其中的纠错内容,在用户界面上显示不同的颜色或者字体,并将对应的编辑操作序列信息以链接或者箭头的形式输出,得到文本纠错意见;
在实际应用中,也可以采用以文本纠错结果为基础,在用户界面上将与待纠错文本有区别的地方突出显示,并将并将对应的编辑操作序列信息以链接或者箭头的形式输出,得到文本纠错意见。
通过对上述方法的实施,通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
上面对本发明实施例中的文本纠错方法进行了描述,下面对本发明实施例中的文本纠错装置进行描述,请参照图4,本发明实施例中的文本纠错装置的一个实施例包括:
预处理模块401,用于获取待纠错数据,并对待纠错数据进行预处理,得到文本信息;
文本纠错处理模块402,用于将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果;
最小编辑距离计算模块403,用于根据最小编辑距离算法,计算所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离;
映射处理模块404,用于对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理,得到文本纠错意见。
通过对上述装置的实施,通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
请参阅图5,本发明实施例中的文本纠错装置的另一个实施例包括:
预处理模块401,用于获取待纠错数据,并对待纠错数据进行预处理,得到文本信息;
文本纠错模块402,用于判断文本信息的长度是否大于预设长度阈值;
最小编辑距离计算模块403,用于在判断长度大于预设长度阈值时,调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据;
映射处理模块404,用于将摘要数据输入至预先训练得到的文本纠错模型进行文本纠错处理,得到待纠错数据中的情感信息;
模型训练模块405,用于提取Transformer模型框架中的编码器和长短时记忆模型框架中的解码器;在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;对所述初始训练模型进行量化处理,得到文本纠错模型。
其中,所述文本纠错模块402包括:
文本编码单元4021,用于通过采用Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;
第一计算单元4022,用于根据注意力机制对文本编码进行线性变换和投影处理,计算文本编码对应的注意力值;
第二计算单元4023,用于调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;
概率预测单元4024,用于根据困惑度对文本编码进行概率预测,得到概率预测结果;
文本解码单元4025,用于根据概率预测结果对所述文本编码进行解码,得到文本纠错结果;
在本实施例中,所述最小编辑距离计算模块403包括:
字符转换单元4031,用于提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集,按照预设的拆分方法对所述字符集进行拆分,形成字符串;并根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵;
动态规划单元4032,用于根据预设的编辑操作类型,构建动态规划方程;
第三计算单元4033,用于对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离;
在本实施例中,所述映射处理模块404包括:
映射单元4041,用于根据所述最小编辑距离,对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理,得到字符串对应组;
序列生成单元4042,用于根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离,按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向,构建编辑操作序列;
意见输出单元4043,用于按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列,得到文本纠错意见;
在本实施例中,所述模型训练模块405包括:
训练数据集生成单元4051,用于采集文本数据,按照预设方式构建训练数据集;
训练单元4052,用于通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型,通过待训练模型的编码解码运算,得到对应的训练结果,并判断所述训练结果是否满足预设的条件,若是,则终止循环,输出初始训练模型。
通过对上述装置的实施,通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整,解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
请参阅图6,下面从硬件处理的角度对本发明实施例中的计算机设备的一个实施例进行详细描述。
图6是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在计算机设备600上执行存储介质630中的一系列指令操作。
计算机设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的计算机设备结构并不构成对本申请提供的计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述文本纠错方法的步骤。
在实际应用中,上述提供的方法可以基于人工智能技术来实现,其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其具体可以是基于服务器来执行,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:
提取Transformer模型框架中的编码器和长短时记忆模型框架中的解码器;
在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;
从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;
对所述初始训练模型进行量化处理,得到文本纠错模型;
获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息;
将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,其中,所述文本纠错模型中的编码器的架构为Transformer模型架构,所述文本纠错模型中的解码器架构为长短时记忆模型架构;
根据最小编辑距离算法,计算所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离;
对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理,得到文本纠错意见;
所述将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,包括:
将所述文本信息输入至所述预先训练得到的文本纠错模型,通过采用所述Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;
根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值;
根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合,得到注意力值集合;
通过长短时记忆模型调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;
通过所述长短时记忆模型,根据所述困惑度对文本编码进行概率预测,得到概率预测结果;
通过所述长短时记忆模型,基于所述概率预测结果对所述文本编码进行解码,得到文本纠错结果。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述根据最小编辑距离算法,计算所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离,包括:
提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集;
按照预设的拆分方法对所述字符集进行拆分,形成字符串;
根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵,其中,所述字符矩阵包含所述字符串中所有字符的字符特征值;
根据预设的编辑操作类型,构建动态规划方程;
基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离。
3.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理,得到文本纠错意见,包括:
根据所述最小编辑距离,对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理,得到字符串对应组,其中,每一个所述字符串对应组包括一个文本信息中的字符串和一个文本纠错结果中的字符串;
根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离,按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向,构建编辑操作序列;
按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列,得到文本纠错意见。
4.根据权利要求1所述的文本纠错方法,其特征在于,所述从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型,包括:
采集文本数据,按照预设方式构建训练数据集;
通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型,通过待训练模型的编码解码运算,得到对应的训练结果;
判断所述训练结果是否满足预设的条件;
若是,则终止循环,输出初始训练模型。
5.一种文本纠错处理装置,其特征在于,所述文本纠错处理装置包括:
模型训练模块,用于提取Transformer模型框架中的编码器和长短时记忆模型框架中的解码器;
在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;
从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;
对所述初始训练模型进行量化处理,得到文本纠错模型
预处理模块,用于获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息;
文本纠错处理模块,用于将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果;
最小编辑距离计算模块,用于计算所述文本信息和与之对应的所述文本纠错结果之间的最小编辑距离;
映射处理模块,用于对所述文本信息和与之对应的所述文本纠错结果按照所述最小编辑距离进行映射处理,得到文本纠错意见;
所述文本纠错模块包括:
文本编码单元,用于将所述文本信息输入至所述预先训练得到的文本纠错模型,通过采用Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;
第一计算单元,用于根据注意力机制对文本编码进行线性变换和投影处理,计算文本编码对应的注意力值;
第二计算单元,用于调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;
概率预测单元,用于根据困惑度对文本编码进行概率预测,得到概率预测结果;
文本解码单元,用于根据概率预测结果对所述文本编码进行解码,得到文本纠错结果。
6.根据权利要求5所述的文本纠错处理装置,其特征在于,所述最小编辑距离计算模块包括:
字符转换单元,用于提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集,按照预设的拆分方法对所述字符集进行拆分,形成字符串;并根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵;
动态规划单元,用于根据预设的编辑操作类型,构建动态规划方程;第三计算单元,用于对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离。
7.根据权利要求5所述的文本纠错处理装置,其特征在于,所述映射处理模块包括:
映射单元,用于根据所述最小编辑距离,对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理,得到字符串对应组;
序列生成单元,用于根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离,按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向,构建编辑操作序列;
意见输出单元,用于按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列,得到文本纠错意见。
8.根据权利要求5所述的文本纠错处理装置,其特征在于,所述模型训练模块包括:
训练数据集生成单元,用于采集文本数据,按照预设方式构建训练数据集;
训练单元,用于通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型,通过待训练模型的编码解码运算,得到对应的训练结果,并判断所述训练结果是否满足预设的条件,若是,则终止循环,输出初始训练模型。
9.一种计算机设备,其特征在于,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行如权利要求1-4中任一项所述的文本纠错方法的各个步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项的所述文本纠错方法的各个步骤。
CN202210262506.4A 2022-03-17 2022-03-17 文本纠错方法、装置、设备及存储介质 Active CN114611494B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210262506.4A CN114611494B (zh) 2022-03-17 2022-03-17 文本纠错方法、装置、设备及存储介质
PCT/CN2022/089175 WO2023173533A1 (zh) 2022-03-17 2022-04-26 文本纠错方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210262506.4A CN114611494B (zh) 2022-03-17 2022-03-17 文本纠错方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114611494A CN114611494A (zh) 2022-06-10
CN114611494B true CN114611494B (zh) 2024-02-02

Family

ID=81862921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210262506.4A Active CN114611494B (zh) 2022-03-17 2022-03-17 文本纠错方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114611494B (zh)
WO (1) WO2023173533A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293139B (zh) * 2022-08-03 2023-06-09 北京中科智加科技有限公司 一种语音转写文本纠错模型的训练方法和计算机设备
CN115204151A (zh) * 2022-09-15 2022-10-18 华东交通大学 中文文本纠错方法、系统及可读存储介质
CN116468577B (zh) * 2023-03-20 2024-03-08 中慧云启科技集团有限公司 一种基于b/s架构的教学实训管理系统
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置
CN116757184B (zh) * 2023-08-18 2023-10-20 昆明理工大学 融合发音特征的越南语语音识别文本纠错方法及系统
CN117634473B (zh) * 2023-12-12 2024-06-18 郑州大学 一种融入源信息的语法纠错早停多轮解码方法和系统
CN117744787B (zh) * 2024-02-20 2024-05-07 中国电子科技集团公司第十研究所 一阶研判规则知识合理性的智能度量方法
CN118052627A (zh) * 2024-04-15 2024-05-17 辽宁省网联数字科技产业有限公司 一种招标方案智能填充方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
US10878335B1 (en) * 2016-06-14 2020-12-29 Amazon Technologies, Inc. Scalable text analysis using probabilistic data structures
CN113076739A (zh) * 2021-04-09 2021-07-06 厦门快商通科技股份有限公司 一种实现跨领域的中文文本纠错方法和系统
CN113935317A (zh) * 2021-09-26 2022-01-14 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN114154486A (zh) * 2021-11-09 2022-03-08 浙江大学 一种针对中文语料拼写错误的智能纠错系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464736B (zh) * 2014-12-15 2018-02-02 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
US11017167B1 (en) * 2018-06-29 2021-05-25 Intuit Inc. Misspelling correction based on deep learning architecture
CN110852087B (zh) * 2019-09-23 2022-02-22 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN113297833A (zh) * 2020-02-21 2021-08-24 华为技术有限公司 文本纠错方法、装置、终端设备及计算机存储介质
CN112000805A (zh) * 2020-08-24 2020-11-27 平安国际智慧城市科技股份有限公司 基于预训练模型的文本匹配方法、装置、终端及存储介质
CN113836935A (zh) * 2021-09-09 2021-12-24 海信视像科技股份有限公司 服务器及文本纠错方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878335B1 (en) * 2016-06-14 2020-12-29 Amazon Technologies, Inc. Scalable text analysis using probabilistic data structures
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN113076739A (zh) * 2021-04-09 2021-07-06 厦门快商通科技股份有限公司 一种实现跨领域的中文文本纠错方法和系统
CN113935317A (zh) * 2021-09-26 2022-01-14 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN114154486A (zh) * 2021-11-09 2022-03-08 浙江大学 一种针对中文语料拼写错误的智能纠错系统

Also Published As

Publication number Publication date
CN114611494A (zh) 2022-06-10
WO2023173533A1 (zh) 2023-09-21

Similar Documents

Publication Publication Date Title
CN114611494B (zh) 文本纠错方法、装置、设备及存储介质
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN113011189A (zh) 开放式实体关系的抽取方法、装置、设备及存储介质
CN110781306B (zh) 一种英文文本的方面层情感分类方法及系统
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN110032638B (zh) 一种基于编码器-解码器的生成式摘要提取方法
CN111428467A (zh) 生成阅读理解的问题题目的方法、装置、设备及存储介质
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN110929476B (zh) 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法
CN112069295A (zh) 相似题推荐方法、装置、电子设备和存储介质
CN112487135A (zh) 将文本转化为结构化查询语言的方法及装置
CN111382574A (zh) 一种虚拟现实与增强现实场景下结合句法的语义解析系统
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN114297220A (zh) 一种数据处理方法、装置、计算机设备以及存储介质
CN112765201A (zh) 一种sql语句解析为特定领域查询语句的方法及装置
CN112035627A (zh) 自动问答方法、装置、设备及存储介质
WO2023108981A1 (zh) 文本生成模型的训练方法、装置、存储介质及计算机设备
CN114638905B (zh) 图像生成方法、装置、设备及存储介质
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115048926A (zh) 一种实体关系抽取方法、装置、电子设备及存储介质
CN114625759A (zh) 模型训练方法、智能问答方法、设备、介质及程序产品
CN110852112B (zh) 词向量嵌入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant