CN114782958A - 文本检错模型训练方法、文本检错方法及装置 - Google Patents

文本检错模型训练方法、文本检错方法及装置 Download PDF

Info

Publication number
CN114782958A
CN114782958A CN202210461630.3A CN202210461630A CN114782958A CN 114782958 A CN114782958 A CN 114782958A CN 202210461630 A CN202210461630 A CN 202210461630A CN 114782958 A CN114782958 A CN 114782958A
Authority
CN
China
Prior art keywords
text
sample
error detection
initial
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210461630.3A
Other languages
English (en)
Inventor
赵硕丰
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202210461630.3A priority Critical patent/CN114782958A/zh
Publication of CN114782958A publication Critical patent/CN114782958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供文本检错模型训练方法、文本检错方法及装置,其中所述文本检错模型训练方法包括:获取测试集,其中,测试集包括多个无标签的测试文本,将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。

Description

文本检错模型训练方法、文本检错方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种文本检错模型训练方法。本申请同时涉及一种文本检错模型训练装置,一种文本检错方法,一种文本检错装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,日常办公中对文本检错越来越多地依赖于互联网进行,文本检错是对文本进行智能检测,从而获得该文本中的错误数据,可以有效提高办公效率。
当前,通常采用基于规则匹配的方法进行文本检错:人工预先搜集大量的错字、正确字构建规则库,将待处理文本与预先构建的规则库进行匹配,获得待处理文本中的错字。然而,上述基于规则匹配的方法中,需要人工设置大量规则,人工势必会引入不确定因素,导致文本检错的准确性较差。
发明内容
有鉴于此,本申请实施例提供了一种文本检错模型训练方法及一种文本检错方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本检错模型训练装置,一种文本检错装置、一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本检错模型训练方法,包括:
获取测试集,其中,测试集包括多个无标签的测试文本;
将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签;
根据各测试文本以及各测试文本对应的错误标签,生成目标样本集;
利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
可选地,标签确定模型的训练方式,包括:
获取初始样本集,其中,初始样本集包括多个样本文本以及各样本文本对应的错误标签;
提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本;
根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值;
若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤;
若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
可选地,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集的步骤,包括:
在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
可选地,获取初始样本集的步骤,包括:
获取多个样本文本;
分别对多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片;
识别各样本图片的文本内容;
针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签;
根据各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。
可选地,获取初始样本集的步骤,包括:
获取多个样本文本;
利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频;
识别各样本音频的文本内容;
针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签;
根据各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
可选地,获取初始样本集的步骤,包括:
获取多个样本文本;
将多个样本文本和预设错误数据库进行匹配,对多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本;
针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签;
根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集。
可选地,初始文本检错模型通过对初始标签确定模型进行裁剪得到。
可选地,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型的步骤,包括:
从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息,其中,第二样本文本为目标样本集中的任一文本;
根据第二预测错误信息和第二样本文本对应的错误标签,计算第二损失值;
若第二损失值大于第二预设阈值,则调整初始文本检错模型的模型参数,并返回执行从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息的步骤;
若第二损失值小于或等于第二预设阈值,则停止训练,获得训练后的文本检错模型。
根据本申请实施例的第二方面,提供了一种文本检错方法,包括:
获取待处理文本;
将待处理文本输入利用本申请实施例第一方面提供的方法训练得到的文本检错模型,得到待处理文本的检错结果。
根据本申请实施例的第三方面,提供了一种文本检错模型训练装置,包括:
测试集获取模块,被配置为获取测试集,其中,测试集包括多个无标签的测试文本;
错误标签生成模块,被配置为将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签;
目标样本集生成模块,被配置为根据各测试文本以及各测试文本对应的错误标签,生成目标样本集;
模型生成模块,被配置为利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
可选地,该装置还包括:
标签确定模型训练模块,被配置为获取初始样本集,其中,初始样本集包括多个样本文本以及各样本文本对应的错误标签;
提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本;
根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值;
若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤;
若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
可选地,目标样本集生成模块,进一步被配置为在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
可选地,标签确定模型训练模块,进一步被配置为获取多个样本文本;
分别对多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片;
识别各样本图片的文本内容;
针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签;
根据各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。
可选地,标签确定模型训练模块,进一步被配置为获取多个样本文本;
利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频;
识别各样本音频的文本内容;
针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签;
根据各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
可选地,标签确定模型训练模块,进一步被配置为获取多个样本文本;
将多个样本文本和预设错误数据库进行匹配,对多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本;
针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签;
根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集。
可选地,初始文本检错模型通过对初始标签确定模型进行裁剪得到。
可选地,模型生成模块,进一步被配置为从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息,其中,第二样本文本为目标样本集中的任一文本;
根据第二预测错误信息和第二样本文本对应的错误标签,计算第二损失值;
若第二损失值大于第二预设阈值,则调整初始文本检错模型的模型参数,并返回执行从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息的步骤;
若第二损失值小于或等于第二预设阈值,则停止训练,获得训练后的文本检错模型。
根据本申请实施例的第四方面,提供了一种文本检错装置,包括:
待处理文本获取模块,被配置为获取待处理文本;
检错结果生成模块,被配置为将待处理文本输入利用本申请实施例第一方面提供的方法训练得到的文本检错模型,得到待处理文本的检错结果。
根据本申请实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
存储器用于存储计算机可执行指令,处理器执行计算机可执行指令时实现本申请实施例第一方面或第二方面所提供方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现本申请实施例第一方面或第二方面所提供方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现本申请实施例第一方面或第二方面所提供方法的步骤。
本申请提供的文本检错模型训练方法,获取测试集,其中,测试集包括多个无标签的测试文本,将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
附图说明
图1是本申请一实施例提供的一种文本检错系统下的处理流程图;
图2是本申请一实施例提供的一种文本检错模型训练方法的流程图;
图3是本申请一实施例提供的一种标签确定模型的训练方式的流程图;
图4是本申请一实施例提供的第一种文本检错模型训练方法的流程图;
图5是本申请一实施例提供的第二种文本检错模型训练方法的流程图;
图6是本申请一实施例提供的第三种文本检错模型训练方法的流程图;
图7是本申请一实施例提供的第四种文本检错模型训练方法的流程图;
图8是本申请一实施例提供的第五种文本检错模型训练方法的流程图;
图9是本申请一实施例提供的一种文本检错方法的流程图;
图10是本申请一实施例提供的一种文本检错模型训练方法和文本检错方法的流程图;
图11是本申请一实施例提供的一种文本检错模型训练装置的结构示意图;
图12是本申请一实施例提供的一种文本检错装置的结构示意图;
图13是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
光学字符识别(OCR,Optical Character Recognition):是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
BERT模型:BERT(Bidirectional Encoder Representation from Transformers)是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(MLM,masked language model),以致能生成深度的双向语言表征。
ELECTRA模型:ELECTRA(Efficiently Learning an Encoder that ClassifiesToken ReplacementsAccurately)是高效地学习对Token替换进行准确分类的编码器。
在本申请中,提供了一种文本检错模型训练方法和文本检错方法。本申请同时涉及一种文本检错模型训练装置、一种文本检错装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种文本检错系统下的处理流程图。
本申请可以分为服务器和应用终端两个执行主体,其中,预先训练的标签确定模型和初始文本检错模型在服务器运行。
服务器获取应用终端提供的测试集,将测试集中的多个无标签的测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,生成训练后的文本检错模型,并将训练后的文本检错模型发送至应用终端。
需要说明的是,初始文本检错模型是包含初始模型参数的文本检错模型,利用目标样本集对初始文本检错模型进行迭代训练,调整初始文本检错模型中的初始模型参数,可以生成训练后的文本检错模型;也即是说,初始文本检错模型为未训练的文本检错模型,训练后的文本检错模型是对初始文本检错模型中模型参数进行优化调整后获得的文本检错模型。
应用终端不仅向服务器提供测试集,还能接收服务器发送的训练后的文本检错模型,将待处理文本输入训练后的文本检错模型中,获得待处理文本的检错结果。
应用本申请实施例的方案,通过获取测试集,其中,测试集包括多个无标签的测试文本,将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
图2示出了根据本申请一实施例提供的一种文本检错模型训练方法的流程图,具体包括以下步骤:
S202:获取测试集,其中,测试集包括多个无标签的测试文本。
在本申请实施例中,测试集中的多个无标签的测试文本是指未检错的文本,其文本类型包括但不限于文本文件类型、图片文件格式类型,文本文件类型的格式包括但不限于txt、doc、docx,测试文本可以是各种语言的文本,如中文文本、英文文本等。一般情况下,获取测试集的方式可以是人工输入大量测试文本组成测试集,也可以是从其他数据获取设备或者数据库中读取大量测试文本组成测试集,获取测试集的方式具体根据实际情况进行选择,本申请实施例对此不作任何限定。
实际应用中,由于测试文本包括多种文本类型,后续对测试文本进行处理时,需要将不同的文本类型转化为同一文本类型,以适应预先训练的标签确定模型。因而,若测试文本是图片文件格式类型,预先训练的标签确定模型的识别类型为文本文件类型,则可以对该图片文件格式的测试文本进行OCR识别,得到该测试文本的文本文件。当然,还可以采用其他图片识别方法,以得到该测试文本的文本文件,本申请实施例对此不作任何限定。
S204:将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签。
在本申请实施例中,获取包括多个无标签的测试文本的测试集之后,为了得到各测试文本对应的错误标签,需要将各测试文本分别输入预先训练的标签确定模型中,一般情况下,标签确定模型是基于少量的训练文本训练得到的模型,该标签确定模型进行文本检错能力较弱,标签确定模型包括但不限于BERT模型、ELECTRA模型,本申请实施例对此不作任何限定。
实际应用中,标签确定模型的训练方式可参考图3,图3示出了根据本申请一实施例提供的一种标签确定模型的训练方式的流程图,具体包括以下步骤:
S302:获取初始样本集,其中,初始样本集包括多个样本文本以及各样本文本对应的错误标签。
在本申请实施例中,训练标签确定模型时,需要获取包括多个样本文本以及各样本文本对应的错误标签,各样本文本对应的错误标签用来表示各样本文本中错误字的位置。一般情况下,获取初始样本集的方式可以是人工输入的大量样本文本组成初始样本集,也可以是从其他数据获取设备或者数据库中读取大量样本文本组成初始样本集,各样本文本对应的错误标签可以是工作人员事先进行标注,具体根据实际情况进行选择,本申请实施例对此不做任何限定。
例如,样本文本为“我们去池饭”,其对应的错误标签为“000F 0”,“0”表示对应位置的字符正确,字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。“F”表示对应位置的字符错误,根据样本文本“我们去池饭”对应的错误标签“000F 0”可知,该样本文本中的第四个字符错误,也就是对应的字符“池”错误。
S304:提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本。
在本申请实施例中,初始标签确定模型是包含初始模型参数的标签确定模型,可以对包含初始模型参数的初始标签确定模型进行迭代训练,调整初始标签确定模型中的初始模型参数,生成训练后的标签确定模型;也即是说,初始标签确定模型为未训练的标签确定模型,训练后的标签确定模型是对初始标签确定模型中模型参数进行优化调整后获得的标签确定模型。
具体地,获得初始样本集后,提取第一样本文本,此处的第一样本文本为初始样本集中的任一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,初始标签确定模型是指能够对文本进行文字识别和分析的模型,包括但不限于BERT模型、ELECTRA模型,本申请实施例对此不作任何限定。
S306:根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值。
S308:若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数。
并返回执行步骤S304。
S310:若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
需要说明的是,可以基于第一预测错误信息和第一样本文本对应的错误标签计算第一损失值,第一样本文本对应的错误标签指示第一样本文本中错误字的位置,该错误标签也表征真实想要初始标签确定模型输出的结果,即第一样本文本对应的错误标签表示的错误字符位置为真实结果,而将第一样本文本输入初始标签确定模型,输出的第一预测错误信息就是初始标签确定模型的预测结果,在预测结果和真实结果之间的差异足够小时,即第一损失值足够小,说明预测结果足够接近真实结果,此时初始标签确定模型训练完成,得到训练后的标签确定模型。
在本申请实施例中,通过计算第一损失值可以直观的示出初始标签确定模型的预测结果与真实结果之间的差异,后续可以基于该差异对初始标签确定模型进行针对性训练,调整初始标签确定模型的参数,可以有效提高初始标签确定模型训练的速率及初始标签确定模型训练的效果。
一种可能的实现方式中,可以仅基于第一损失值和第一预设阈值之间的关系,确定是否停止训练。具体的,若第一损失值大于第一预设阈值,则说明第一预测错误信息和第一样本文本对应的错误标签的差异较大,初始标签确定模型的检错能力较差,此时可以调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤,继续对初始标签确定模型进行训练,直至第一损失值小于或等于第一预设阈值,说明第一预测错误信息和第一样本文本对应的错误标签的差异较小,停止训练,获得训练后的标签确定模型。
其中,第一预设阈值为第一损失值的临界值,在第一损失值大于第一预设阈值的情况下,说明初始标签确定模型的预测结果与真实结果之间仍存在一定偏差,仍需调整初始标签确定模型的模型参数,并获取初始样本集中的样本文本继续对该初始标签确定模型进行训练;在第一损失值小于或等于第一预设阈值的情况下,说明预设的初始标签确定模型的预测结果与真实结果的接近程度已经足够,可以停止训练。第一预设阈值的数值具体根据实际情况进行选择,本申请实施例对此不作任何限定。
另一种可能的实现方式中,除了比较第一损失值和第一预设阈值的关系之外,还可以结合迭代次数,确定当前的初始标签确定模型是否训练完成。具体的,若第一损失值小于或等于第一预设阈值,则说明第一预测错误信息和第一样本文本对应的错误标签的差异较小,停止训练,获得训练后的标签确定模型,即第一损失值小于或等于第一预设阈值时,无需结合迭代次数即可停止训练以获得训练后的标签确定模型;若第一损失值大于第一预设阈值,判断此刻的迭代次数是否达到第一预设迭代次数,若此刻的迭代次数并未达到第一迭代次数,则调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤,继续对初始标签确定模型进行训练,直至达到第一预设迭代次数的情况下,停止迭代,得到训练后的标签确定模型。
其中,第一预设迭代次数根据实际情况进行设置,本申请实施例对此不作任何限定,在训练次数达到第一预设迭代次数时,说明初始标签确定模型的训练次数已经足够,此时初始标签确定模型的预测结果与真实结果的接近程度已经足够,可以停止训练。
在本申请实施例中,可以根据第一损失值判断初始标签确定模型的具体训练情况,并在训练未合格的情况下根据第一损失值反向调整初始标签确定模型的模型参数,以提高该模型的检错能力,训练速率高,且训练效果好。
实际应用中,计算第一损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本申请中,不对计算第一损失值的函数的选择做限定。
优选的,可以利用交叉熵损失函数计算第一损失值,交叉熵损失函数为:
Figure BDA0003621936070000101
其中,C代表类别数,pi为真实,qi为预测。
通过利用交叉熵损失函数,计算第一预测错误信息和第一样本文本对应的错误标签之间的交叉熵作为第一损失值,提高了计算第一损失值的效率和准确率,使训练后的标签确定模型更加准确。
S206:根据各测试文本以及各测试文本对应的错误标签,生成目标样本集。
需要说明的是,在获得各测试文本对应的错误标签后,可以根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,其中,生成目标样本集的方式具体根据实际情况进行选择,本申请实施例对此不作任何限定。
实际应用中,可以预先获取基础样本集,在获得各测试文本对应的错误标签后,可以将各测试文本以及各测试文本对应的错误标签组成扩充样本集,然后可以结合该扩充样本集以及预先获取到的基础样本集生成目标样本集,以此扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
一种可能实现的方式中,预先获取到的基础样本集可以是训练初始标签确定模型的初始样本集,也就是说,可以在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
另一种可能实现的方式中,基础样本集和初始样本集可以不同,可以在重新获取的基础样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
S208:利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
需要说明的是,一种情况下,初始文本检错模型和初始标签确定模型可以是两个不同的模型,为了使扩充得到的目标样本集更为准确,促进初始文本检错模型的训练,可以采取比初始文本检错模型检错能力更强的初始标签确定模型。例如,初始标签确定模型为ELECTRA模型,初始文本检错模型为BERT模型。
另一种情况下,初始文本检错模型和初始标签确定模型也可以是两个相同的模型,但模型体积可以不同,一般情况下,模型的体积越大,其模型性能越好。也就是说,初始文本检错模型的模型体积可以小于初始标签确定模型的体积,利用体积更大的初始标签确定模型训练得到标签确定模型的模型检错能力更强,扩充更准确的样本,能够促进初始文本检错模型的训练。例如,初始标签确定模型为ELECTRA-base模型,初始文本检错模型为ELECTRA-small模型。
应用本申请实施例的方案,通过获取测试集,其中,测试集包括多个无标签的测试文本,将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
图4示出了根据本申请一实施例提供的第一种文本检错模型训练方法的流程图,具体包括以下步骤:
S402:获取测试集,其中,测试集包括多个无标签的测试文本。
S404:将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签。
S406:根据各测试文本以及各测试文本对应的错误标签,生成目标样本集。
其中,S402、S404、S406与S202、S204、S206相同,本实施例便不再进行赘述。
S408:从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息,其中,第二样本文本为目标样本集中的任一文本。
在本申请实施例中,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集后,提取第二样本文本,此处的第二样本文本为目标样本集中的任一样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息,其中,初始文本检错模型通过对初始标签确定模型进行裁剪得到。
需要说明的是,一般情况下,可以由人工依据经验对初始标签确定模型进行裁剪获得初始文本检错模型,还可以利用向量角分析法对初始标签确定模型进行裁剪。
其中,向量角分析法就是分析不同隐藏神经元对在相同输入样本时输出结果的相似性,也就是分析向量角大小,从而判断其相似性。相似的数据说明对应的两个隐藏神经元提取类似的特征,其作用是相似的,因此可以将这两个隐藏神经元合并;完全相反的数据说明对应的两个隐藏神经元的结果相互抵消,因此可以同时将两者删去,其中,向量角可以利用如下公式进行计算:
angle(u,v)=arccos(u·v/(||u||·||v||)) (2)
其中,u和v分别代表需要对比的两个隐藏神经元输出的向量。
实际应用中,计算出向量角后,可选的处理规则是:向量角小于15度的两个向量,认为其作用是相似的,也就是说它们满足线性相关,所以可以删去其中一个隐藏神经元,并把它的参数加到另一个隐藏神经元中;向量角大于165度的两个向量,认为其作用是相斥的,其作用在计算过程中相互抵消,所以可以直接删去这两个隐藏神经元。
本申请实施例中,可以对体积较大的初始标签确定模型进行训练,使得基于初始标签确定模型训练得到的标签确定模型可以较为准确地识别各测试文本的错误标签,给后续训练文本检错模型提供准确的训练样本,从而可以扩充文本检错模型的训练样本,提高了利用初始文本检错模型训练得到的文本检错模型的检错能力。另外,基于初始文本检错模型训练的文本检错模型是最终进行文本检错要使用的模型,若该文本检错模型较为复杂,则可能会影响文本检错的效率,因而选择体积较小的初始文本检错模型训练得到最终进行文本检错的文本检错模型,提高了文本检错模型训练效率以及后续的文本检错的效率。
S410:根据第二预测错误信息和第二样本文本对应的错误标签,计算第二损失值。
S412:若第二损失值大于第二预设阈值,则调整初始文本检错模型的模型参数。
并返回执行步骤S408。
S414:若第二损失值小于或等于第二预设阈值,则停止训练,获得训练后的文本检错模型。
需要说明的是,可以基于第二预测错误信息和第二样本文本对应的错误标签计算第二损失值,第二样本文本对应的错误标签指示第二样本文本中错误字符的位置,该错误标签也表征真实想要初始文本检错模型输出的结果,也即第二样本文本对应的错误标签表示的错误字符位置为真实结果,而将第二样本文本输入初始文本检错模型,输出的第二预测错误信息就是初始文本检错模型的预测结果,在预测结果和真实结果之间的差异足够小时,即第二损失值足够小,说明预测结果足够接近真实结果,此时初始文本检错模型训练完成,得到训练后的文本检错模型。
在本申请实施例中,通过计算第二损失值可以直观的示出初始文本检错模型的预测结果与真实结果之间的差异,后续可以基于该差异对初始文本检错模型进行针对性训练,调整初始文本检错模型的参数,可以有效提高初始文本检错模型训练的速率及初始文本检错模型训练的效果。
一种可能的实现方式中,可以仅基于第二损失值和第二预设阈值之间的关系,确定是否停止训练。具体的,若第二损失值大于第二预设阈值,则说明第二预测错误信息和第二样本文本对应的错误标签的差异较大,初始文本检错模型的检错能力较差,此时可以调整初始文本检错模型的模型参数,并返回执行提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息的步骤,继续对初始文本检错模型进行训练,直至第二损失值小于或等于第二预设阈值,说明第二预测错误信息和第二样本文本对应的错误标签的差异较小,停止训练,获得训练后的文本检错模型。
其中,第二预设阈值为第二损失值的临界值,在第二损失值大于第二预设阈值的情况下,说明初始文本检错模型的预测结果与真实结果之间仍存在一定偏差,仍需调整初始文本检错模型的模型参数,并获取目标样本集中的样本文本继续对该初始文本检错模型进行训练;在第二损失值小于或等于第二预设阈值的情况下,说明预设的初始文本检错模型的预测结果与真实结果的接近程度已经足够,可以停止训练。第二预设阈值的数值具体根据实际情况进行选择,本申请实施例对此不作任何限定。
另一种可能的实现方式中,除了比较第二损失值和第二预设阈值的关系之外,还可以结合迭代次数,确定当前的初始文本检错模型是否训练完成。具体的,若第二损失值小于或等于第二预设阈值,则说明第二预测错误信息和第二样本文本对应的错误标签的差异较小,停止训练,获得训练后的文本检错模型,即第一损失值小于或等于第一预设阈值时,无需结合迭代次数即可停止训练以获得训练后的标签确定模型;若第二损失值大于第二预设阈值,判断此刻的迭代次数是否达到第二预设迭代次数,若此刻的迭代次数并未达到第二迭代次数,则调整初始文本检错模型的模型参数,并返回执行提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息的步骤,继续对初始文本检错模型进行训练,直至达到第二预设迭代次数的情况下,停止迭代,得到训练后的文本检错模型。
其中,第二预设迭代次数根据实际情况进行设置,本申请实施例对此不作任何限定,在训练次数达到第二预设迭代次数时,说明初始文本检错模型的训练次数已经足够,此时初始文本检错模型的预测结果与真实结果的接近程度已经足够,可以停止训练。
在本申请实施例中,可以根据第二损失值判断初始文本检错模型的具体训练情况,并在训练未合格的情况下根据第二损失值反向调整初始文本检错模型的模型参数,以提高该模型的检错能力,训练速率高,且训练效果好。
实际应用中,计算第二损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本申请中,不对计算第二损失值的函数的选择做限定。
图5示出了根据本申请一实施例提供的第二种文本检错模型训练方法的流程图,具体包括以下步骤:
S502:获取测试集,其中,测试集包括多个无标签的测试文本。
S504:将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签。
其中,S502、S504与S202、S204相同,本实施例便不再进行赘述。
S506:在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
在本申请实施例中,初始样本集包括多个样本文本以及各样本文本对应的错误标签,在获得各测试文本对应的错误标签后,可以将各测试文本以及各测试文本对应的错误标签添加到初始样本集中,扩充初始文本检错模型的训练数据,进一步提高文本检错模型的准确性。
示例的,初始样本集中包括样本文本“我们去池饭”和其对应的错误标签“0 0 0 F0”、样本文本“我门去吃饭”和其对应的错误标签“0 F 0 0 0”,将测试文本“穿流不息”输入预先训练的标签确定模型,获得该测试文本对应的错误标签“F 0 0 0”,在初始样本集中,添加测试文本“穿流不息”和其对应的错误标签“F 0 0 0”,生成包括三个样本文本以及三个样本文本对应的错误标签的目标样本集。对比初始样本集和目标样本集,目标样本集比初始样本集中的数据量大,利用大量样本数据对初始文本检错模型进行训练,可以提高文本检错模型的准确性。
S508:利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
其中,S508与S208相同,本实施例便不再进行赘述。
图6示出了根据本申请一实施例提供的第三种文本检错模型训练方法的流程图,具体包括以下步骤:
S602:获取多个样本文本。
S604:分别对多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片。
S606:识别各样本图片的文本内容。
S608:针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签。
S610:根据各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。
在本申请实施例中,初始样本集的获取方式有很多种,通常情况下,由人工对多个样本文本进行标注,如样本文本“令人恐布”,人工识别其中错误的字符为“布”,对该样本文本进行标注,获得该样本文本的错误标签“0 0 0 F”。
实际应用中,文本中的错误包括形近字错误,如“己”和“已”、“七”和“匕”。人工搜集这些错误数据量大,因此,可以将多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片,分别对各样本图片进行光学字符识别(OCR,Optical CharacterRecognition),获得各样本图片的文本内容,之后可以将各样本图片的文本内容与各样本图片对应的样本文本进行对齐处理,此处,对齐处理是指将样本图片的文本内容与样本图片对应的样本文本进行字符与字符的对齐,对齐处理通过动态规划算法,对错误句子进行插入一个字,删除一个字,替换一个字等操作,每进行一步操作,则代价加一,找到最小代价的操作顺序,在对应位置进行标注,获得无法实现对齐的错误字符、该错误字符的位置及对应的正确字符,如将“好好学习”和“好女子学习”进行对齐处理,确定“女子”为无法对齐的错误字符,该错误字符的位置为“好女子学习”中的第二、第三字符,对应的正确字符为“好”。
需要说明的是,将多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片的方式有多种,包括但不限于截图、预设图片转换工具,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
示例的,将样本文本“预设阈值”截图获得其对应的图片,对该图片进行光学字符识别,获得该图片的文本内容“预设阀值”,对齐“预设阈值”和“预设阀值”,获得该图片的文本内容“预设阀值”对应的错误标签“0 0 F 0”。将样本文本“匕首”截图获得其对应的图片,对该图片进行光学字符识别,获得该图片的文本内容“七首”,对齐“匕首”和“七首”,获得该图片的文本内容“七首”对应的错误标签“F 0”,根据文本内容“预设阀值”和该文本内容对应的错误标签“0 0 F 0”、文本内容“七首”和该文本内容对应的错误标签“F 0”生成初始样本集。
S612:提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本。
S614:根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值。
S616:若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数。
并返回执行步骤S612。
S618:若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
其中,S612、S614、S616、S618与S304、S306、S308、S310相同,本实施例便不再进行赘述。
应用本申请的实施例,通过将多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片,识别各样本图片的文本内容,针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对齐,确定该样本图片的文本内容(存在错误的文本内容)对应的错误标签,根据各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集,对初始标签确定模型进行训练,获得训练后的标签确定模型,使标签确定模型能够识别形近字错误,提高模型检错的准确性。
图7示出了根据本申请一实施例提供的第四种文本检错模型训练方法的流程图,具体包括以下步骤:
S702:获取多个样本文本。
S704:利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频。
S706:识别各样本音频的文本内容。
S708:针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签。
S710:根据各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
实际应用中,文本中的错误包括音近字错误,如“到”和“道”、“气”和“汽”。人工搜集这些错误数据量大,因此,可以利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频,分别对各样本音频进行识别,获得各样本音频的文本内容,可以将各样本音频的文本内容与各样本音频对应的样本文本进行对齐处理,其中,对齐处理与图6中的对齐处理相同,本实施例便不再进行赘述,预设音频转换工具是指能够将文本转换为音频的各种工具,获得样本音频后,利用能够将音频转换为文本的工具识别各样本音频的文字内容,具体实现方式根据实际情况进行选择,本申请实施例对此不作任何限定。
举例说明对齐处理:用I表示插入一个字、D表示删除一个字、R表示替换一个字、0表示该字不变,对错误句子“我去池饭”和正确句子“我去吃饭”进行对齐操作,“0 0 DI 0”的情况表示将“池”字进行删除并插入“吃”,此时进行了两步操作,故代价为2;“0 0 R 0”的情况表示将“池”字替换成“吃”,此时进行了一步操作,故代价为1,比较这两种情况,“0 0 R0”的情况下代价最小,即选择将“池”字直接替换为“吃”的操作顺序,在“R”对应的字符位置标注为错位字的位置,因此将“0 0 F 0”作为错误句子“我去池饭”的错误标签。需要说明的是,可以将代价超过预设比例的数据进行删除,具体实现方式根据实际情况进行选择,本申请实施例对此不作任何限定。
示例的,将样本文本“我知道你”利用预设音频转换工具获得其对应的音频,对该音频进行识别,获得该音频的文本内容“我知到你”,对齐“我知道你”和“我知到你”,获得该音频的文本内容“我知到你”对应的错误标签“0 0 F 0”。将样本文本“汽车”利用预设音频转换工具获得其对应的音频,对该音频进行识别,获得该音频的文本内容“气车”,对齐“汽车”和“气车”,获得该音频的文本内容“气车”对应的错误标签“F 0”,根据文本内容“我知到你”和该文本内容对应的错误标签“0 0 F 0”、文本内容“气车”和该文本内容对应的错误标签“F 0”生成初始样本集。
S712:提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本。
S714:根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值。
S716:若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数。
并返回执行步骤S712。
S718:若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
其中,S712、S714、S716、S718与S304、S306、S308、S310相同,本实施例便不再进行赘述。
应用本申请的实施例,通过利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频,识别各样本音频的文本内容,针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容(存在错位的文本内容)对应的错误标签,根据各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集,对初始标签确定模型进行训练,获得训练后的标签确定模型,使标签确定模型能够识别音近字错误,提高模型检错的准确性。
图8示出了根据本申请一实施例提供的第五种文本检错模型训练方法的流程图,具体包括以下步骤:
S802:获取多个样本文本。
S804:将多个样本文本和预设错误数据库进行匹配,对多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本。
S806:针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签。
S808:根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集。
实际应用中,预设错误数据库中包括海量的相似字,如“气-汽”、“坐-作”、“清-青”,对多个样本文本分别进行随机错字替换时,可以将样本文本中的字替换成预设错误数据库中的相似字,生成该样本文本对应的错字替换文本。
示例的,将样本文本“我们很幸福”和预设错误数据库进行匹配,将样本文本中80%的字替换成预设错误数据库中的相似字,其余20%的字在预设错误数据库中,随机选择一个不同字进行替换,即,将“我”替换成相似字“武”、“们”替换成相似字“扪”、“很”替换成相似字“狠”、“幸”替换成相似字“辛”,在预设错误数据库中,随机选择一个与“福”不同字“棒”进行替换,获得错字替换文本“武扪狠辛棒”,对比“武扪狠辛棒”和“我们很幸福”,获得“武扪狠辛棒”对应的错误标签“F F F F F”,根据“武扪狠辛棒”和“F F F F F”生成初始样本集。
S810:提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本。
S812:根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值。
S814:若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数,并返回执行步骤S810。
S816:若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
其中,S810、S812、S814、S816与S304、S306、S308、S310相同,本实施例便不再进行赘述。
应用本申请的实施例,通过将多个样本文本和预设错误数据库进行匹配,对多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本,针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签,根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集,对初始标签确定模型进行训练,获得训练后的标签确定模型,提高模型检错的准确性。
图9示出了根据本申请一实施例提供的一种文本检错方法的流程图,具体包括以下步骤:
S902:获取待处理文本。
S904:将待处理文本输入文本检错模型,得到待处理文本的检错结果。
其中,文本检错模型利用图2到图8所示的任意文本检错模型训练方法训练得到。
具体的,待处理文本的文本类型包括但不限于文本文件类型、图片文件格式类型,文本文件类型的格式包括但不限于txt、doc、docx,待处理文本可以是各种语言的文本,如中文文本、英文文本等,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
另外,待处理文本的检错结果为待处理文本的错误标签,如待处理文本为“你今天真飘亮”,将待处理文本输入文本检错模型,得到待处理文本的检错结果为“0 0 0 0 F 0”。
需要说明的是,可以将待处理文本输入利用图2到图8所示的任意文本检错模型训练方法训练得到的文本检错模型中,获得待处理文本的检错结果。如此,由于文本检错模型是基于扩展后的目标样本集训练得到的,文本检错模型进行文本检错的准确率较高,因而将待处理文本输入该文本检错模型中,可以获得准确的检错结果,提高了文本检错的正确率,进一步提高了用户体验。
图10示出了根据本申请一实施例提供的一种文本检错模型训练方法和文本检错方法的流程图,具体包括以下步骤:
训练标签确定模型:利用人工标注数据、随机错误数据、形近错误数据和音近错误数据生成初始样本集,利用初始样本集对初始标签确定模型进行迭代训练,获得训练后的标签确定模型;
生成各测试文本对应的错误标签:将多个无标签的测试文本输入训练后的标签确定模型中,生成各测试文本对应的错误标签;
生成目标样本集:在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集;
训练文本检错模型:利用目标样本集对初始文本检错模型进行迭代训练,生成训练后的文本检错模型;
文本检错:将待处理文本输入训练后的文本检错模型中,生成待处理文本的检错结果。
应用本申请实施例的方案,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
与上述方法实施例相对应,本申请还提供了文本检错模型训练装置实施例,图11示出了本申请一实施例提供的一种文本检错模型训练装置的结构示意图。
如图11所示,该装置包括:
测试集获取模块1102,被配置为获取测试集,其中,测试集包括多个无标签的测试文本;
错误标签生成模块1104,被配置为将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签;
目标样本集生成模块1106,被配置为根据各测试文本以及各测试文本对应的错误标签,生成目标样本集;
模型生成模块1108,被配置为利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
可选地,该装置还包括:
标签确定模型训练模块,被配置为获取初始样本集,其中,初始样本集包括多个样本文本以及各样本文本对应的错误标签;提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本;根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值;若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤;若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
可选地,目标样本集生成模块1106,进一步被配置为在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
可选地,标签确定模型训练模块,进一步被配置为获取多个样本文本;分别对多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片;识别各样本图片的文本内容;针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签;根据各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。
可选地,标签确定模型训练模块,进一步被配置为获取多个样本文本;利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频;识别各样本音频的文本内容;针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签;根据各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
可选地,标签确定模型训练模块,进一步被配置为获取多个样本文本;将多个样本文本和预设错误数据库进行匹配,对多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本;针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签;根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集。
可选地,初始文本检错模型通过对初始标签确定模型进行裁剪得到。
可选地,模型生成模块1108,进一步被配置为从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息,其中,第二样本文本为目标样本集中的任一文本;根据第二预测错误信息和第二样本文本对应的错误标签,计算第二损失值;若第二损失值大于第二预设阈值,则调整初始文本检错模型的模型参数,并返回执行从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息的步骤;若第二损失值小于或等于第二预设阈值,则停止训练,获得训练后的文本检错模型。
应用本申请实施例的方案,通过获取测试集,其中,测试集包括多个无标签的测试文本,将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
上述为本实施例的一种文本检错模型训练装置的示意性方案。需要说明的是,该文本检错模型训练装置的技术方案与上述的文本检错模型训练方法的技术方案属于同一构思,文本检错模型训练装置的技术方案未详细描述的细节内容,均可以参见上述文本检错模型训练方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
与上述方法实施例相对应,本申请还提供了文本检错装置实施例,图12示出了本申请一实施例提供的一种文本检错装置的结构示意图。如图12所示,该装置包括:
待处理文本获取模块1202,被配置为获取待处理文本;
检错结果生成模块1204,被配置为将待处理文本输入文本检错模型,得到待处理文本的检错结果,其中,文本检错模型利用上述任意文本检错模型训练方法训练得到。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入利用上述文本检错模型训练方法训练得到的文本检错模型,得到待处理文本的检错结果,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。
上述为本实施例的一种文本检错装置的示意性方案。需要说明的是,该文本检错装置的技术方案与上述的文本检错方法的技术方案属于同一构思,文本检错装置的技术方案未详细描述的细节内容,均可以参见上述文本检错方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图13示出了根据本申请一实施例提供的一种计算设备的结构框图。该计算设备1300的部件包括但不限于存储器1310和处理器1320。处理器1320与存储器1310通过总线1330相连接,数据库1350用于保存数据。
计算设备1300还包括接入设备1340,接入设备1340使得计算设备1300能够经由一个或多个网络1360通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备1340可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,Network InterfaceCard))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本申请的一个实施例中,计算设备1300的上述部件以及图13中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图13所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1300可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1300还可以是移动式或静止式的服务器。
其中,处理器1320用于执行上述文本检错模型训练方法或者上述文本检错方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本检错模型训练方法或者上述文本检错方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本检错模型训练方法或者上述文本检错方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以实现上述文本检错模型训练方法或者上述文本检错方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本检错模型训练方法或者上述文本检错方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本检错模型训练方法或者上述文本检错方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现上述文本检错模型训练方法或者上述文本检错方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种文本检错模型训练方法,其特征在于,包括:
获取测试集,所述测试集包括多个无标签的测试文本;
将各测试文本分别输入预先训练的标签确定模型,获得所述各测试文本对应的错误标签;
根据所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集;
利用所述目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
2.根据权利要求1所述的方法,其特征在于,所述标签确定模型的训练方式,包括:
获取初始样本集,所述初始样本集包括多个样本文本以及各样本文本对应的错误标签;
提取第一样本文本,将所述第一样本文本输入初始标签确定模型,获得所述第一样本文本的第一预测错误信息,其中,所述第一样本文本为所述初始样本集中的任一样本文本;
根据所述第一预测错误信息和所述第一样本文本对应的错误标签,计算第一损失值;
若所述第一损失值大于第一预设阈值,则调整所述初始标签确定模型的模型参数,并返回执行所述提取第一样本文本,将所述第一样本文本输入初始标签确定模型,获得所述第一样本文本的第一预测错误信息的步骤;
若所述第一损失值小于或等于所述第一预设阈值,则停止训练,获得训练后的标签确定模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集的步骤,包括:
在所述初始样本集中,添加所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集。
4.根据权利要求2所述的方法,其特征在于,所述获取初始样本集的步骤,包括:
获取多个样本文本;
分别对所述多个样本文本进行图片转换,获得所述多个样本文本分别对应的样本图片;
识别各样本图片的文本内容;
针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签;
根据所述各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。
5.根据权利要求2所述的方法,其特征在于,所述获取初始样本集的步骤,包括:
获取多个样本文本;
利用预设音频转换工具,将所述多个样本文本分别转换为对应的样本音频;
识别各样本音频的文本内容;
针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签;
根据所述各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
6.根据权利要求2所述的方法,其特征在于,所述获取初始样本集的步骤,包括:
获取多个样本文本;
将所述多个样本文本和预设错误数据库进行匹配,对所述多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本;
针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签;
根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集。
7.根据权利要求2所述的方法,其特征在于,所述初始文本检错模型通过对所述初始标签确定模型进行裁剪得到。
8.根据权利要求1-7所述的方法,其特征在于,所述利用所述目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型的步骤,包括:
从所述目标样本集中提取第二样本文本,将所述第二样本文本输入初始文本检错模型,获得所述第二样本文本的第二预测错误信息,其中,所述第二样本文本为所述目标样本集中的任一文本;
根据所述第二预测错误信息和所述第二样本文本对应的错误标签,计算第二损失值;
若所述第二损失值大于第二预设阈值,则调整所述初始文本检错模型的模型参数,并返回执行所述从所述目标样本集中提取第二样本文本,将所述第二样本文本输入初始文本检错模型,获得所述第二样本文本的第二预测错误信息的步骤;
若所述第二损失值小于或等于所述第二预设阈值,则停止训练,获得训练后的文本检错模型。
9.一种文本检错方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入利用如权利要求1-8任一项所述方法训练得到的文本检错模型,得到所述待处理文本的检错结果。
10.一种文本检错模型训练装置,其特征在于,包括:
测试集获取模块,被配置为获取测试集,所述测试集包括多个无标签的测试文本;
错误标签生成模块,被配置为将各测试文本分别输入预先训练的标签确定模型,获得所述各测试文本对应的错误标签;
目标样本集生成模块,被配置为根据所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集;
模型生成模块,被配置为利用所述目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
11.一种文本检错装置,其特征在于,包括:
待处理文本获取模块,被配置为获取待处理文本;
检错结果生成模块,被配置为将所述待处理文本输入利用如权利要求1-8任一项所述方法训练得到的文本检错模型,得到所述待处理文本的检错结果。
12.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至8任意一项或者权利要求9所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8任意一项或者权利要求9所述方法的步骤。
CN202210461630.3A 2022-04-28 2022-04-28 文本检错模型训练方法、文本检错方法及装置 Pending CN114782958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210461630.3A CN114782958A (zh) 2022-04-28 2022-04-28 文本检错模型训练方法、文本检错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210461630.3A CN114782958A (zh) 2022-04-28 2022-04-28 文本检错模型训练方法、文本检错方法及装置

Publications (1)

Publication Number Publication Date
CN114782958A true CN114782958A (zh) 2022-07-22

Family

ID=82435878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210461630.3A Pending CN114782958A (zh) 2022-04-28 2022-04-28 文本检错模型训练方法、文本检错方法及装置

Country Status (1)

Country Link
CN (1) CN114782958A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306576A (zh) * 2023-05-24 2023-06-23 山东成信彩印有限公司 一种书刊印刷检错系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306576A (zh) * 2023-05-24 2023-06-23 山东成信彩印有限公司 一种书刊印刷检错系统及其方法
CN116306576B (zh) * 2023-05-24 2023-08-15 山东成信彩印有限公司 一种书刊印刷检错系统及其方法

Similar Documents

Publication Publication Date Title
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN111950528B (zh) 图表识别模型训练方法以及装置
CN110705206A (zh) 一种文本信息的处理方法及相关装置
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN111767883A (zh) 一种题目批改方法及装置
CN114936565A (zh) 主旨信息提取方法及装置
CN114120342A (zh) 简历文档识别方法、装置、计算设备及存储介质
CN114782958A (zh) 文本检错模型训练方法、文本检错方法及装置
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
Hoxha et al. Remote sensing image captioning with SVM-based decoding
CN115617961A (zh) 问题解答方法及装置
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置
CN114077655A (zh) 一种答案抽取模型的训练方法及装置
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115687917A (zh) 样本处理方法以及装置、识别模型训练方法及装置
CN115757723A (zh) 文本处理方法及装置
CN114266308A (zh) 检测模型训练方法及装置、图像检测方法及装置
CN114492410A (zh) 合约信息提取方法及装置
CN115617959A (zh) 问题解答方法及装置
Joshi et al. Optical Text Translator from Images using Machine Learning
Yap et al. Enhancing BISINDO Recognition Accuracy Through Comparative Analysis of Three CNN Architecture Models
Sable et al. Doc-handler: Document scanner, manipulator, and translator based on image and natural language processing
CN113971399A (zh) 识别模型的训练方法及装置、文本识别方法及装置
CN117689963B (zh) 一种基于多模态预训练模型的视觉实体链接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination