CN115130463A - 纠错方法、模型训练方法、计算机介质以及设备 - Google Patents

纠错方法、模型训练方法、计算机介质以及设备 Download PDF

Info

Publication number
CN115130463A
CN115130463A CN202210412721.8A CN202210412721A CN115130463A CN 115130463 A CN115130463 A CN 115130463A CN 202210412721 A CN202210412721 A CN 202210412721A CN 115130463 A CN115130463 A CN 115130463A
Authority
CN
China
Prior art keywords
feature
character
model
sequence
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210412721.8A
Other languages
English (en)
Inventor
郑岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210412721.8A priority Critical patent/CN115130463A/zh
Publication of CN115130463A publication Critical patent/CN115130463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种纠错方法、模型训练方法、计算机介质以及设备,可应用于人工智能、计算机视觉、光学字符识别等各种场景。纠错方法包括:获取包括多个字符的待纠错文本序列;针对多个字符中的各字符,根据字符与预设的数据库信息确定字符对应的特征向量组,特征向量组包括多种特征向量:字形特征向量、字音特征向量以及字符特征向量;将字符对应的多种特征向量进行特征融合处理,以确定字符对应的融合向量;根据融合向量确定字符对应的一组参数向量,得到多个字符对应的多组参数向量;基于目标纠错模型对多组参数向量进行纠错处理,以确定待纠错文本序列对应的纠错结果,从文字的多个维度对文本进行分析与纠错,以提高纠错的准确度。

Description

纠错方法、模型训练方法、计算机介质以及设备
技术领域
本申请涉及人工智能技术领域,具体涉及一种纠错方法、模型训练方法、计算机介质以及设备。
背景技术
相关技术中,对文本的纠错方法,一般依赖于需要错误文本及其标注文本作为训练数据的纠错模型进行纠错,而需要错误文本及其标注文本作为训练数据的纠错模型获取数据的成本较高,以及需要人工标注,较浪费时间,纠错模型训练的效率较低,并且,相关技术中,一般仅从字符层面对文本进行纠错,纠错的准确度较低。
发明内容
本申请实施例提供一种纠错方法、模型训练方法、计算机介质以及设备,可以从文本的字音、字形,以及字符多个维度对文本进行分析与纠错,提高了纠错的准确度。
一方面,提供一种纠错方法,所述方法包括:获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
另一方面,提供一种模型训练方法,所述方法包括:获取样本文本序列,所述样本文本序列包括多个样本字符;确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述初始纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
另一方面,还提供一种纠错设备,所述纠错设备包括:
获取单元,用于获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
第一确定单元,用于针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
融合单元,用于将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
第二确定单元,用于根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
纠错单元,用于基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
另一方面,还提供一种模型训练设备,所述模型训练设备包括:
获取单元,用于获取样本文本序列,所述样本文本序列包括多个样本字符;
确定单元,用于确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
处理单元,用于针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;
第一训练单元,用于针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述初始纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
第二训练单元,用于根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的方法中的步骤。
另一方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上任一实施例所述的纠错方法或模型训练方法中的步骤。
另一方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上任一实施例所述的纠错方法或模型训练方法中的步骤。
本申请实施例通过获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果的方案,可以从文本的字音、字形,以及字符多个维度对文本进行分析与纠错,提高了纠错的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的纠错系统的结构示意图。
图1b为本申请实施例提供的纠错方法的应用场景的一示意图。
图2a为本申请实施例提供的纠错方法的流程示意图。
图2b至图2c为本申请实施例提供的第一特征向量的生成方法的流程示意图。
图2d为本申请实施例提供的第一融合向量的确定过程的流程示意图。
图3a为本申请实施例提供的模型训练方法的流程示意图。
图3b为本申请实施例提供的目标模型训练的流程示意图。
图3c为本申请实施例提供的第二特征向量的生成方法的流程示意图。
图3d为本申请实施例提供的第二融合向量的确定过程的流程示意图。
图4为本申请实施例提供的纠错设备的结构示意图。
图5为本申请实施例提供的模型训练设备的结构示意图。
图6为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
神经网络(Neural Network,NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
NLP,Nature Language processing,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
BERT:Bidirectional Encoder Representations from Transformers,——基于Transformer的双向编码表示法模型。
全连接层,是每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。
嵌入层:是一种专门用在NLP领域的单词编码技术,目的就是减少资源的浪费,或者调整感知野的大小。它用低维向量表示了编码,这种编码方式通过神经网络优化可以表达出单词间的关系。
本申请实施例提供一种纠错方法、装置、计算机设备和存储介质。具体地,本申请实施例的纠错方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、智能车载终端等设备,终端还可以包括客户端,该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例可应用于人工智能、计算机视觉、光学字符识别等各种场景。
相关技术中,对文本的纠错方法,一般仅从字符层面对文本进行纠错,纠错的准确度较低。
发明人通过研究发现,由于中文的特殊性,字音和字形也是中文字符的重要组成部分,在语义理解上发挥重大作用。例如同一个字符在不同的语境中可以有多种发音,“乐”在表示快乐时读le(四声),在表示音乐时读yue(四声),所以如果加入字音信息,则更容易理解“乐”在特定语境下的语义。同样的,如“榴”,“松”,“桃”,各表示一种果树,都有偏旁“木”,在语义上表明这些都与树木有关,而果树就是一种树木。本申请提出了可有效提高文本纠错的纠错准确度的方案。
另外,针对于相关技术中,对文本的纠错方法,一般依赖于需要错误文本及其标注文本作为训练数据的纠错模型进行纠错,而需要错误文本及其标注文本作为训练数据的纠错模型获取数据的成本较高,以及需要人工标注,较浪费时间,纠错模型训练的效率较低,本申请还提供一种模型训练方法,以提高纠错模型的训练效率。
本申请的方案可运用于多种纠错场景,例如:服务器在接收到用户的数据请求后,服务器可根据本申请的纠错方法对数据请求对应的反馈数据中的文本进行纠错,并将包括纠错结果的反馈数据反馈至终端。又例如,用户将待纠错对象上传至终端,终端根据待纠错对象确定出待纠错文本序列,并根据本申请中的纠错方法对待纠错文本序列进行纠错,并展示相应的纠错结果。又例如,终端将待纠错文本发送至服务器,使得服务器根据本申请中的纠错方法对待纠错文本进行纠错,并将纠错结果反馈至终端供终端展示。又例如,终端或服务器在获取到待纠错文本序列后,直接对待纠错文本序列进行纠错,并根据纠错结果进行进一步的数据处理等等。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
请参考图1a,图1a为本申请实施例提供的纠错系统的结构示意图。该纠错系统包括终端10和服务器20等;终端10和服务器20之间通过网络连接,比如,通过有线或无线网络连接等。
其中,终端10,可以用于显示图形用户界面。其中,该终端用于通过图形用户界面与用户进行交互,例如通过终端下载安装相应的客户端并运行,例如通过调用相应的小程序并运行,例如通过登录网站呈现相应的图像用户界面等。在本申请实施例中,该终端10可以为用户用于上传待纠错对象和显示纠错结果的终端设备。其中,在进行纠错时,通过用户所使用的终端设备上传待纠错对象,并将该待纠错对象发送至服务器20,使服务器20根据待纠错对象确定出对应的待纠错文本序列,根据待纠错文本序列确定出纠错结果。服务器20会将确定出的纠错结果发送至终端10进行显示。
其中,本申请中的纠错结果为对待纠错文本序列进行纠错后得到的正确的结果。
在本申请的一些可选的实施例中,服务器20可以具体用于:
获取待纠错对象;根据所述待纠错对象确定对应的待纠错文本序列;
所述待纠错文本序列包括多个第一字符;
针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
可选地,前述待纠错对象可以为包括文本信息的图像、文档、票据、证件照等。
可选地,前述待纠错文本序列可以为经过OCR识别技术,对待纠错对象进行识别,识别出的文本序列。
可选地,前述待纠错文本序列还可以为基于相关技术中的其它文本识别技术识别出的文本序列,如,前述待纠错文本序列还可以为使用YOLO(You Only Look Once,你只需看一次)或其它检测方法检测出文本区域后,将该文本区域输入识别模型进行识别,得出的识别结果,其中,识别模型可以为CRNN(Convolutional Recurrent Neural Network,卷积递归神经网络)等。
可选地,如图1b所示,前述待纠错文本序列还可以是对待纠错对象进行文本检测、文本识别后得出的文本序列,本申请的纠错方法可以对经过对待纠错对象进行文本检测、文本识别后得出的文本序列进行纠错,得出纠错结果,并输出纠错结果。
可选地,前述待纠错对象还可以为语音信息,前述待纠错文本序列还可以为基于语音识别技术识别出的文本序列。
相应地,终端10用于:获取待纠错对象,将所述待纠错对象发送至服务器20。其中,待纠错对象可以由用户上传,也可以接收自其它设备,也可以通过相关的获取功能获取,获取功能可以为拍摄功能,录音功能等。其中,获取功能可以在得到用户和/或被获取方的授权后获取。
在本申请的另一些可选的实施例中,终端10还可以在获取到待纠错对象后,根据待纠错对象确定出待纠错文本序列,并将待纠错文本序列发送至服务器20,使服务器20根据待纠错文本序列确定出纠错结果。例如:服务器20还可用于:
获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
在本申请的一些可选的实施例中,前述纠错方法的具体执行过程,还可以通过目标模型实现,可选地,前述终端10或服务器20,或者其它设备还可以用于训练该目标模型,具体地,前述终端10或服务器20,或者其它设备在作为模型训练设备时,具体用于:
获取样本文本序列,所述样本文本序列包括多个样本字符;
确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;
针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述目标纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
以下对前述纠错方法的具体实施方式进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
本申请各实施例提供了一种纠错方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以纠错方法由服务器执行为例来进行说明。图2a为本申请实施例提供的纠错方法的流程示意图,该方法包括:
S201、获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
S202、针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
S203、将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
S204、根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
S205、基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
可选地,前述待纠错文本序列还可以是对待纠错对象进行文本检测、文本识别后得出的文本序列,本申请的纠错方法可以对经过对待纠错对象进行文本检测、文本识别后得出的文本序列进行纠错,得出纠错结果,并输出纠错结果。
可选地,前述待纠错对象还可以为语音信息,前述待纠错文本序列还可以为基于语音识别技术识别出的文本序列。
可选地,前述预设的第一数据库信息中,存储有多个字符以及各字符对应的字形信息、字音信息,以及字符信息。
可选地,前述预设的第一数据库信息可包括:预设的字形信息库、字音信息库,以及字符信息库。
可选地,前述字形信息库可以为pywubi的python包,前述字音信息库可以为pypinyin的python包,前述字符信息库可以为字符词表,其中,字符词表可以为所有常用汉字及数字符号等组成的词。字音信息库可以为字符信息库中的字符词表转换字音后去重得到的。这里字形信息库可以为字符信息库中的字符词表转换字形后去重得到的。
在本申请的一些可选的实施例中,前述步骤S202中,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,包括:
S2021,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征信息组,所述第一特征信息组包括多种第一特征信息:第一字形特征信息、第一字音特征信息以及第一字符特征信息;
S2022,基于所述第一字符对应的第一特征信息组确定所述第一字符对应的第一特征向量组。
例如,若待纠错文本序列为:“你不也役有吗”中,包括:“你”、“不”、“也”、“役”,“有”“吗”6个第一字符,针对第一字符“不”,根据所述第一字符与预设的第一数据库信息,可确定出第一字符对应的多种第一特征信息为:第一字形特征信息“gii”、第一字音特征信息“bu4”,以及第一字符特征信息“不”。
可选地,S2022中,基于所述第一字符对应的第一特征信息组确定所述第一字符对应的第一特征向量组包括:针对所述第一字符对应的第一特征信息组中的各第一特征信息,根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定对应的第一特征向量,得到所述第一字符对应的第一特征向量组。
由于各第一字符对应的字音、字形长度不一,在确定第一特征信息的过程中,可首先对所述第一特征信息进行预处理,获取预设的标准长度信息,按照所述标准长度信息对所述第一特征信息进行预处理得到预处理后的第一特征信息。
基于此,根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定对应的第一特征向量,包括:
针对所述第一特征信息,确定所述第一特征信息的长度是否达到预设长度;
若所述第一特征信息的长度达到预设长度,则根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量;或者
若所述第一特征信息的长度未达到预设长度,则利用预设填充标识对所述第一特征信息进行填补,将所述第一特征信息填补至长度达到所述预设长度后,根据填补后的第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量。
其中,前述预设长度可以由相关人员设定。
例如,针对前述待纠错文本序列为:“你不也役有吗”中的第一字符“也”的第一字形特征信息“bnhn”,若预设长度为8,第一字形特征信息“bnhn”的长度为4,4<8,因此,需利用预设填充标识对所述第一字形特征信息进行填补,将所述第一字形特征信息填补至长度达到所述预设长度,其中,预设填充标识可以为:“*”,此时,利用预设填充标识对所述第一字形特征信息进行填补,将所述第一字形特征信息填补至长度达到所述预设长度后,第一字形特征信息为“bnhn****”。
又例如,针对前述待纠错文本序列为:“你不也役有吗”中的第一字符“也”的第一字音特征信息“ye3”,若预设长度为8,第一字音特征信息“ye3”的长度为3,3<8,因此,需利用预设填充标识对所述第一字音特征信息进行填补,将所述第一字音特征信息填补至长度达到所述预设长度,其中,预设填充标识可以为:“*”,此时,利用预设填充标识对所述第一字音特征信息进行填补,将所述第一字音特征信息填补至长度达到所述预设长度后,第一字音特征信息为“ye3*****”。
可选地,将所述第一特征信息填补至长度达到所述预设长度后,根据填补后的第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量可具体包括:通过目标嵌入层模块将第一特征信息映射为第一预设维度大小(例如128)的向量,然后通过目标第一全连接层模块将映射后的向量对齐至预设的隐层参数大小(如768)。具体过程可参见图2b与图2c所示,图2b与图2c中的“embedding”指目标嵌入层模块,“Fc”指目标第一全连接层模块。
在本申请的一些可选的实施例中,前述步骤S203中,将所述第一字符对应的多个第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量,包括:
步骤S2031、将所述第一字符对应的所述第一字形特征向量、所述第一字音特征向量以及所述第一字符特征向量在隐藏层维度上进行拼接,得到第一拼接结果;
步骤S2032、获取所述目标纠错模型对应的目标维度信息;
步骤S2033、基于所述目标维度信息对所述第一拼接结果进行向量维度调整,得到第一字符对应的第一融合向量,其中,所述第一融合向量对应的第一隐藏层维度与所述目标维度信息对应的第二隐藏层维度相同。
其中,前述目标维度信息与目标纠错模型对应的隐层参数的数量相同,若目标纠错模型的隐层参数为768时,目标维度信息则为768。
在本申请的一些可选的实施例中,前述步骤S2031至所述S2033可以由预设的目标特征融合模型实现,其中,目标特征融合模型中可包括目标第二全连接层模块,例如,针对前述待纠错文本序列为:“你不也役有吗”中的第一字符“也”的第一字形特征信息“bnhn”对应第一字形特征特征向量,第一字音特征信息“ye3”对应的第一字音特征特征向量,第一字符特征信息“也”对应的第一字符特征特征向量,生成第一融合向量的过程可参见图2d所示,其中,图2d中的“Fc”为目标第二全连接层模块。
在本申请的一些可选的实施例中,所述方法还包括:根据所述待纠错文本序列确定所述各第一字符对应的第一位置向量与第一分段向量;
所述根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,包括:根据所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量,确定所述第一字符对应的一组第一参数向量。
其中,前述第一位置向量为用于反映第一字符在待纠错序列中的索引位置的向量;前述第一分段向量为用于反映待纠错序列的分段信息的向量。
可选地,前述根据所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量,确定所述第一字符对应的一组第一参数向量包括:
对所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量进行求和,得到所述第一字符对应的一组第一参数向量。
可选地,本申请中的目标纠错模型可以为bert模型,该bert模型的网络架构为一多层双向transformer编码器。
可选地,bert模型可以为以下任一种:
bert:12层transformer,768个隐层参数,12个注意力头,总参数量约110M;
bert-large:24层transformer,1024个隐层参数,24个注意力头,总参数量约340M。
可选地,上述方法还包括:展示所述纠错结果。
可选地,上述方法还包括:将所述纠错结果发送至目标设备,使所述目标设备展示所述纠错结果。其中,目标设备可以为终端,也可以为其它的管理类设备。
本申请实施例通过获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果的方案,可以从文本的字音、字形,以及字符多个维度对文本进行分析与纠错,提高了纠错的准确度。
在申请的一些可选的实施例中,前述纠错方法还可以基于预设的目标模型实现,针对该目标模型,输入信息可以为待纠错文本序列;输出信息可以为待纠错文本序列对应的纠错结果。
可选地,前述S201至S205,或S202至S205,可通过前述预设的目标模型实现,具体地,该目标模型可包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。具体地,在执行前述纠错方法时,可具体包括:
S1、在获取到包括多个第一字符的待纠错文本序列后,通过目标特征提取模型,针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
S2、通过目标特征提取模型确定出第一字符对应的第一特征向量组后,通过目标特征融合模型,将所述第一字符对应的多种第一特征向量进行特征融合处理,确定出所述第一字符对应的第一融合向量;
S3、通过目标参数生成模型,根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
S4、通过目标纠错模型,基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
可选地,前述目标嵌入层模块,以及目标第一全连接层模块都可以为该目标模型中的模块,以及前述隐藏层维度为该目标模型对应的隐藏层维度。
基于此,本申请还提供一种模型训练方法,图3a为该模型训练方法的流程示意图,该方法包括:
S301、获取样本文本序列,所述样本文本序列包括多个样本字符;
S302、确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
S303、针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;其中,掩码序列中包含的多个特征信息即为掩码序列中的中间特征信息。
S304、针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述目标纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
S305、根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
其中,目标模型的训练需要多个样本文本序列,前述步骤S301中的样本文本序列可以为该多个样本文本序列中的其中一个样本文本序列。
可选地,前述步骤S302中,确定所述样本文本序列对应的多个特征序列可具体包括:
获取预设的多个特征类型:字形类、字音类以及字符类;
根据所述多个特征类型确定所述样本文本序列对应的多个特征序列,其中,一个特征类型对应一个特征序列,一个特征序列包括多个第二特征信息。
其中,第二特征信息为样本字符对应的真实特征信息,例如,第二特征信息包括对应样本字符的真实字符特征信息、真实字音特征信息和真实字形字形信息。
例如,针对样本文本序列:“美吸引一切事物”,包括多个样本字符:“美”、“吸”、“引”、“一”、“切”、“事”,以及“物”。
针对字形类,样本文本序列“美吸引一切事物”,对应的字形特征序列为:“ugdu,keyy,xhh,ggll,avn,gkvh,trqr”;其中,ugdu、keyy、xhh、ggll、avn、gkvh,以及trqr分别为:“美”、“吸”、“引”、“一”、“切”、“事”,以及“物”的第二字形特征信息。
针对字音类,样本文本序列“美吸引一切事物”,对应的字音特征序列为:“mei3,xi1,yin3,yi1,qie4,shi4,wu4”。1,2,3,4表示一~四声的音调。其中,mei3、xi1、yin3、yi1、qie4、shi4,以及wu4分别为:“美”、“吸”、“引”、“一”、“切”、“事”,以及“物”的第二字音特征信息。
针对字符类,样本文本序列“美吸引一切事物”,对应的字符特征序列为:“美吸引一切事物”,其中,美、吸、引、一、切、事,以及物分别为:“美”、“吸”、“引”、“一”、“切”、“事”,以及“物”的第二字符特征信息。
可选地,前述步骤S303中,针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列过程中,针对每个特征序列进行掩码处理,得到所述特征序列对应的掩码序列时,包括:
获取预设掩码比例信息;
获取所述特征序列中的多个第二特征信息的总数量;
根据所述预设掩码比例信息与所述多个第二特征信息的总数量确定所述特征序列中待掩码的第二特征信息的目标数量;
对所述特征序列中,所述目标数量的第二特征信息进行掩码处理,除所述目标数量的第二特征信息外的其他第二特征信息不变,得到所述特征序列对应的掩码序列。
可选地,根据所述预设掩码比例信息与所述多个第二特征信息的总数量确定所述特征序列中待掩码的第二特征信息的目标数量包括:
计算所述预设掩码比例信息与所述多个第二特征信息的总数量的乘积,得到乘积结果,根据该乘积结果确定所述特征序列中待掩码的第二特征信息的目标数量。
具体地,根据该乘积结果确定所述特征序列中待掩码的第二特征信息的目标数量可包括:将所述乘积结果进行四舍五入后的结果,作为所述特征序列中待掩码的第二特征信息的目标数量。
可选地,对所述特征序列中,所述目标数量的第二特征信息进行掩码处理,除所述目标数量的第二特征信息外的其他第二特征信息不变,得到所述特征序列对应的掩码序列包括:在所述特征序列中包含的多个第二特征信息中,任意选择所述目标数量的第二特征信息进行掩码处理,除所述目标数量的第二特征信息外的其他第二特征信息不变,得到所述特征序列对应的掩码序列。
在本申请的一些可选的实施例中,任意选择所述目标数量的第二特征信息进行掩码处理,除所述目标数量的第二特征信息外的其他第二特征信息不变,得到所述特征序列对应的掩码序列包括:任意选择所述目标数量的第二特征信息,将任意选择的所述目标数量的第二特征信息替换为目标码,除所述目标数量的第二特征信息外的其他第二特征信息不变,得到所述特征序列对应的掩码序列。
其中,所述目标码为预设码的概率为第一概率,所述目标码为随机信息的概率为第二概率,所述目标码为原第二特征信息的概率为第三概率。
可选地,前述预设码可以为0,前述随机信息与特征序列对应的特征类型相关,例如,当特征序列对应的特征类型为字形类型时,随机信息为随机字形特征信息,当特征序列对应的特征类型为字音类型时,随机信息为随机字音特征信息,当特征序列对应的特征类型为字符类型时,随机信息为随机字符特征信息。
可选地,前述第一概率为80%,前述第二概率为10%,前述第三概率为10%。
可选地,根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,包括:
根据所述字形特征序列中掩码位置对应的预测字形特征信息,与所述掩码位置对应的第二字形特征信息确定字形预测损失值;
根据所述字音特征序列中掩码位置对应的预测字音特征信息,与所述掩码位置对应的第二字音特征信息确定字音预测损失值;
根据所述字符特征序列中掩码位置对应的预测字符特征信息,与所述掩码位置对应的第二字符特征信息确定字符预测损失值;
根据所述字形预测损失值、所述字音预测损失值和所述字符预测损失值,对所述初始模型进行训练,得到目标模型。
可选地,根据所述字形特征序列中掩码位置对应的预测字形特征信息,与所述掩码位置对应的第二字形特征信息确定字形预测损失值,包括:根据所述字形特征序列中掩码位置对应的预测字形特征信息,与所述掩码位置对应的第二字形特征信息确定所述掩码位置对应的预测字形特征信息与所述掩码位置对应的第二字形特征信息的交叉熵损失值;
可选地,根据所述字音特征序列中掩码位置对应的预测字音特征信息,与所述掩码位置对应的第二字音特征信息确定字音预测损失值,包括:根据所述字音特征序列中掩码位置对应的预测字音特征信息,与所述掩码位置对应的第二字音特征信息确定所述掩码位置对应的预测字音特征信息与所述掩码位置对应的第二字音特征信息的交叉熵损失值;
可选地,根据所述字符特征序列中掩码位置对应的预测字符特征信息,与所述掩码位置对应的第二字符特征信息确定字形预测损失值,包括:根据所述字符特征序列中掩码位置对应的预测字符特征信息,与所述掩码位置对应的第二字符特征信息确定所述掩码位置对应的预测字符特征信息与所述掩码位置对应的第二字符特征信息的交叉熵损失值。
具体地,根据所述字形预测损失值、所述字音预测损失值和所述字符预测损失值,对所述初始模型进行训练,得到目标模型,包括:
对所述字形预测损失值、所述字音预测损失值,以及所述字符预测损失值进行求和,得到求和结果;
若所述求和结果小于预设阈值,则将所述初始模型作为目标模型;
若所述求和结果不小于所述预设阈值,则基于所述求和结果对所述初始模型的模型参数进行更新,得到模型参数进行更新后的初始模型,并返回执行针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息的步骤,直至所述求和结果小于所述预设阈值时为止,其中,所述模型参数包括:所述初始特征提取模型、所述初始特征融合模型、所述初始参数生成模型以及所述初始纠错模型中的至少之一对应的参数。
本申请中的训练方法充分学习了中文字符字音字形的融合对齐及语义信息。例如在预测字符时,模型利用字符左右的融合嵌入预测字符,此时更关注融合嵌入中字符嵌入的语义信息,预测字音时则更关注融合嵌入中字音嵌入的语义信息,使得模型对于中文语义学习的更好从而在处理纠错这种强语义任务上有较大优势。
可选地,针对前述样本文本序列“美吸引一切事物”,若确定出待掩码的第二特征信息的目标数量为2时,图3b提供了一种相应的目标模型训练的示意图,“美吸引一切事物”对应的多个掩码序列可依次为:对应的字形特征序列的掩码序列、对应字音特征序列的掩码序列,以及对应字符特征序列的掩码序列。
例如,样本文本序列“美吸引一切事物”对应的字音特征序列为:“mei3,xi1,yin3,yi1,qie4,shi4,wu4”,对应字音特征序列的掩码序列为:“mei3,0,0,yi1,qie4,shi4,wu4”;
样本文本序列“美吸引一切事物”对应的字形特征序列为:“ugdu,keyy,xhh,ffll,avn,gkvh,trqr”,对应字形特征序列的掩码序列为:“ugdu,0,0,ffll,avn,gkvh,trqr”;
样本文本序列“美吸引一切事物”对应的字符特征序列为:“美,吸,引出,一,切,事,物”,对应字符特征序列的掩码序列为:“美,mask,mask,一,切,事,物”,其中,mask可以为除0之外的其他目标码。
前述初始特征提取模型具体用于确定所述多个掩码序列中各掩码序列中的每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量。
例如,针对对应字形特征序列的掩码序列:“ugdu,0,0,ffll,avn,gkvh,trqr”中的各中间特征信息对应的第二特征向量组时,分别确定ugdu、0、0、ffll、avn、gkvh,以及trqr对应的第二字形特征向量、第二字音特征向量以及第二字符特征向量。
具体地,针对各中间特征信息,初始特征提取模型可通过图3b中的字形嵌入模块、字音嵌入模块,以及字符嵌入模块分别确定中间特征信息对应的第二字形特征向量、第二字音特征向量以及第二字符特征向量。
针对各中间特征信息,所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,具体地,初始特征融合模型可具体对将中间特征信息对应的第二字形特征向量、第二字音特征向量以及第二字符特征向量在隐藏层维度上进行拼接,得到第二拼接结果;获取所述初始纠错模型对应的目标维度信息;基于所述目标维度信息对所述第二拼接结果进行向量维度调整,得到中间特征信息对应的第二融合向量,其中,所述第二融合向量对应的隐藏层维度与所述目标维度信息对应的隐藏层维度相同。
具体地,前述初始特征提取模型还可根据所述中间特征信息、初始嵌入层模块,以及初始第一全连接层模块确定中间特征信息对应的各第二特征向量,初始特征提取模型在用于根据所述中间特征信息、初始嵌入层模块,以及初始第一全连接层模块确定对应的第二特征向量时,具体用于:
针对所述中间特征信息,确定所述中间特征信息的长度是否达到预设长度;
若所述中间特征信息的长度达到预设长度,则根据所述中间特征信息、初始嵌入层模块,以及初始第一全连接层模块确定所述中间特征信息对应的第二特征向量;或者
若所述中间特征信息的长度未达到预设长度,则利用预设填充标识对所述中间特征信息进行填补,将所述中间特征信息填补至长度达到所述预设长度后,根据填补后的中间特征信息、初始嵌入层模块,以及初始第一全连接层模块确定所述中间特征信息对应的第二特征向量。
图3c为针对中间特征信息mei3与ugdu,确定对应的第二特征向量的过程的示意图,针对mei3,若预设长度为8,mei3的长度为4,4<8,因此,需利用预设填充标识对所述mei3进行填补,将所述mei3填补至长度达到所述预设长度,其中,预设填充标识可以为:“*”,此时,利用预设填充标识对所述mei3进行填补,将所述mei3填补至长度达到所述预设长度后,中间特征信息为“mei3****”。
又例如,针对前述中间特征信息ugdu,若预设长度为8,ugdu的长度也为4,4<8,因此,需利用预设填充标识对所述ugdu进行填补,将所述ugdu填补至长度达到所述预设长度,其中,预设填充标识可以为:“*”,此时,利用预设填充标识对所述ugdu进行填补,将所述ugdu填补至长度达到所述预设长度后,中间特征信息为“ugdu****”。
图3c中的“embedding”指初始嵌入层模块,“Fc”指初始第一全连接层模块。具体可通过embeding层将中间特征信息映射为128维的向量,再通过初始第一全连接层模块对齐隐层参数大小768。
在本申请的一些可选的实施例中,初始特征融合模型中可包括初始第二全连接层模块,例如,针对前述掩码序列中的中间特征信息“美”的第二字形特征信息“ugdu”对应第二字形特征向量,“美”的第二字音特征信息“mei3”对应的第二字音特征向量,“美”的第二字符特征信息“美”对应第二字符特征向量,初始特征融合模型根据第二字形特征向量、第二字音特征向量,以及第二字符特征向量生成第二融合向量的过程可参见图3d所示,其中,图3d中的“Fc”为初始第二全连接层模块。
例如,若各第二特征向量的维度是[2,32,768](这里三个维度依次是批,输入序列长度,隐层大小),拼接后向量维度为[2,32,2304]。然后输入初始第二全连接层转换维度到隐层参数大小:768,即得到的第二融合向量维度为[2,32,768]。
所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息时,具体用于:针对掩码序列中的各中间特征信息,根据所述第二融合向量确定所述中间特征信息对应的一组第二参数向量,得到所述多个中间特征信息对应的多组第二参数向量;
将所述多组第二参数向量作为所述初始纠错模型的输入信息。
所述初始参数生成模型还用于:根据所述掩码序列确定所述各中间特征信息对应的第二位置向量与第二分段向量;
针对各中间特征信息,所述根据所述第二融合向量确定所述中间特征信息对应的一组第二参数向量,包括:
根据所述第二融合向量、所述中间特征信息对应的第二位置向量,以及所述中间特征信息对应的第二分段向量,确定所述中间特征信息对应的一组第二参数向量。
可选地,初始参数生成模型在用于根据所述第二融合向量、所述中间特征信息对应的第二位置向量,以及所述中间特征信息对应的第二分段向量,确定所述中间特征信息对应的一组第二参数向量时,具体用于:
对所述第二融合向量、所述中间特征信息对应的第二位置向量,以及所述中间特征信息对应的第二分段向量进行求和,得到所述中间特征信息对应的一组第二参数向量。
可选地,初始参数生成模型可具体通过图3b中的位置嵌入模块与分段嵌入模块分别确定所述各中间特征信息对应的第二位置向量与第二分段向量。
所述初始纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息,预测特征信息与掩码序列对应的特征类型匹配,例如,掩码序列为对应字形特征序列的掩码序列时,预测特征信息可以为:keyy,xhh。
又例如,掩码序列为对应字音特征序列的掩码序列时,预测特征信息可以为:xi1,yin3。
又例如,掩码序列为对应字符特征序列的掩码序列时,预测特征信息可以为:吸,引。
其中,前述预测特征信息在模型训练过程中,可能未预测出正确的结果,此处仅为示例说明。
可选地,针对前述各中间特征信息,前述初始特征提取模型还可根据所述中间特征信息、初始嵌入层模块,以及初始第一全连接层模块确定中间特征信息对应的各第二特征向量,得到所述中间特征信息对应的第二特征向量组。
本申请中的字形的表示方式除了五笔可以有多种,如笔画,郑码,仓颉等,训练任务除了对字符进行掩码处理并预测,还可以增加多种训练任务:如句子顺序预测等,对此,本申请不做限定。
本申请的目标模型为自监督模型,节省了模型训练的时间,提高了模型训练的效率,并且,模型训练设备可搭载GPU芯片,使模型更高效的进行收敛。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
为便于更好的实施本申请实施例的纠错方法,本申请实施例还提供一种纠错设备40,图4为该纠错设备的结构示意图,该纠错设备40包括:
获取单元41,用于获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
第一确定单元42,用于针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
融合单元43,用于将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
第二确定单元44,用于根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
纠错单元45,用于基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
可选地,前述纠错设备40还用于:
根据所述待纠错文本序列确定所述各第一字符对应的第一位置向量与第一分段向量;
纠错设备在用于根据所述第一融合向量确定所述第一字符对应的一组第一参数向量时,具体用于:
根据所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量,确定所述第一字符对应的一组第一参数向量。
可选地,前述纠错设备40在用于根据所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量,确定所述第一字符对应的一组第一参数向量时,具体用于:
对所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量进行求和,得到所述第一字符对应的一组第一参数向量。
可选地,前述纠错设备40在用于将所述第一字符对应的多个第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量时,具体用于:
将所述第一字符对应的所述第一字形特征向量、所述第一字音特征向量以及所述第一字符特征向量在隐藏层维度上进行拼接,得到第一拼接结果;
获取所述目标纠错模型对应的目标维度信息;
基于所述目标维度信息对所述第一拼接结果进行向量维度调整,得到第一字符对应的第一融合向量,其中,所述第一融合向量对应的第一隐藏层维度与所述目标维度信息对应的第二隐藏层维度相同。
可选地,前述纠错设备40根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组时,具体用于:
根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征信息组,所述第一特征信息组包括多种第一特征信息:第一字形特征信息、第一字音特征信息以及第一字符特征信息;
基于所述第一字符对应的第一特征信息组确定所述第一字符对应的第一特征向量组。
可选地,前述纠错设备40用于基于所述第一字符对应的第一特征信息组确定所述第一字符对应的第一特征向量组时,具体用于:
针对所述第一字符对应的第一特征信息组中的各第一特征信息,根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定对应的第一特征向量,得到所述第一字符对应的第一特征向量组。
可选地,前述纠错设备40在用于根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定对应的第一特征向量时,具体用于:
针对所述第一特征信息,确定所述第一特征信息的长度是否达到预设长度;
若所述第一特征信息的长度达到预设长度,则根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量;或者
若所述第一特征信息的长度未达到预设长度,则利用预设填充标识对所述第一特征信息进行填补,将所述第一特征信息填补至长度达到所述预设长度后,根据填补后的第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量。
上述纠错设备中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行上述各个单元对应的操作。
纠错设备40,可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中,或者该纠错设备40为该终端或服务器。
为便于更好的实施本申请实施例的模型训练方法,本申请实施例还提供一种纠模型训练设备50,图5为该模型训练设备的结构示意图,该模型训练设备50包括:
获取单元51,用于获取样本文本序列,所述样本文本序列包括多个样本字符;
确定单元52,用于确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
处理单元53,用于针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;
第一训练单元54,用于针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述目标纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
第二训练单元55,用于根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
可选地,前述模型训练设备50在用于根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练时,具体用于:
根据所述字形特征序列中掩码位置对应的预测字形特征信息,与所述掩码位置对应的第二字形特征信息确定字形预测损失值;
根据所述字音特征序列中掩码位置对应的预测字音特征信息,与所述掩码位置对应的第二字音特征信息确定字音预测损失值;
根据所述字符特征序列中掩码位置对应的预测字符特征信息,与所述掩码位置对应的第二字符特征信息确定字符预测损失值;
根据所述字形预测损失值、所述字音预测损失值和所述字符预测损失值,对所述初始模型进行训练,得到目标模型。
可选地,前述模型训练设备50在用于根据所述字形预测损失值、所述字音预测损失值和所述字符预测损失值,对所述初始模型进行训练,得到目标模型时,具体用于:
对所述字形预测损失值、所述字音预测损失值,以及所述字符预测损失值进行求和,得到求和结果;
若所述求和结果小于预设阈值,则将所述初始模型作为目标模型;
若所述求和结果不小于所述预设阈值,则基于所述求和结果对所述初始模型的模型参数进行更新,得到模型参数进行更新后的初始模型,并返回执行针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息的步骤,直至所述求和结果小于所述预设阈值时为止,其中,所述模型参数包括:所述初始特征提取模型、所述初始特征融合模型、所述初始参数生成模型以及所述初始纠错模型中的至少之一对应的参数。
上述模型训练设备中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行上述各个单元对应的操作。
模型训练设备50,可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中,或者该模型训练设备50为该终端或服务器。
可选的,本申请还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
图6为本申请实施例提供的计算机设备的结构示意图,该计算机设备可以是图1a所示的终端或服务器。如图6所示,该计算机设备600可以包括:通信接口601,存储器602,处理器603和通信总线604。通信接口601,存储器602,处理器603通过通信总线604实现相互间的通信。通信接口601用于装置700与外部设备进行数据通信。存储器602可用于存储软件程序以及模块,处理器603通过运行存储在存储器602的软件程序以及模块,例如前述方法实施例中的相应操作的软件程序。
可选的,该处理器603可以调用存储在存储器602的软件程序以及模块执行如下操作:
获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
可选的,该处理器603还可以调用存储在存储器602的软件程序以及模块执行如下操作:
获取样本文本序列,所述样本文本序列包括多个样本字符;
确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;
针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述目标纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
本申请还提供了一种计算机可读存储介质,用于存储计算机程序。该计算机可读存储介质可应用于计算机设备,并且该计算机程序使得计算机设备执行本申请实施例中的纠错方法中的相应流程,为了简洁,在此不再赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的纠错方法中的相应流程,为了简洁,在此不再赘述。
本申请还提供了一种计算机程序,该计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的纠错方法中的相应流程,为了简洁,在此不再赘述。
应理解,本申请实施例的处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (15)

1.一种纠错方法,其特征在于,所述方法包括:
获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待纠错文本序列确定所述各第一字符对应的第一位置向量与第一分段向量;
所述根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,包括:
根据所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量,确定所述第一字符对应的一组第一参数向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量,确定所述第一字符对应的一组第一参数向量,包括:
对所述第一融合向量、所述第一字符对应的第一位置向量,以及所述第一字符对应的第一分段向量进行求和,得到所述第一字符对应的一组第一参数向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述第一字符对应的多个第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量,包括:
将所述第一字符对应的所述第一字形特征向量、所述第一字音特征向量以及所述第一字符特征向量在隐藏层维度上进行拼接,得到第一拼接结果;
获取所述目标纠错模型对应的目标维度信息;
基于所述目标维度信息对所述第一拼接结果进行向量维度调整,得到第一字符对应的第一融合向量,其中,所述第一融合向量对应的第一隐藏层维度与所述目标维度信息对应的第二隐藏层维度相同。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,包括:
根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征信息组,所述第一特征信息组包括多种第一特征信息:第一字形特征信息、第一字音特征信息以及第一字符特征信息;
基于所述第一字符对应的第一特征信息组确定所述第一字符对应的第一特征向量组。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一字符对应的第一特征信息组确定所述第一字符对应的第一特征向量组,包括:
针对所述第一字符对应的第一特征信息组中的各第一特征信息,根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定对应的第一特征向量,得到所述第一字符对应的第一特征向量组。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定对应的第一特征向量,包括:
针对所述第一特征信息,确定所述第一特征信息的长度是否达到预设长度;
若所述第一特征信息的长度达到预设长度,则根据所述第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量;或者
若所述第一特征信息的长度未达到预设长度,则利用预设填充标识对所述第一特征信息进行填补,将所述第一特征信息填补至长度达到所述预设长度后,根据填补后的第一特征信息、目标嵌入层模块,以及目标第一全连接层模块确定所述第一特征信息对应的第一特征向量。
8.一种模型训练方法,其特征在于,所述方法包括:
获取样本文本序列,所述样本文本序列包括多个样本字符;
确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;
针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述初始纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,包括:
根据所述字形特征序列中掩码位置对应的预测字形特征信息,与所述掩码位置对应的第二字形特征信息确定字形预测损失值;
根据所述字音特征序列中掩码位置对应的预测字音特征信息,与所述掩码位置对应的第二字音特征信息确定字音预测损失值;
根据所述字符特征序列中掩码位置对应的预测字符特征信息,与所述掩码位置对应的第二字符特征信息确定字符预测损失值;
根据所述字形预测损失值、所述字音预测损失值和所述字符预测损失值,对所述初始模型进行训练,得到目标模型。
10.根据权利要求9所述的方法,其特征在于,所述根据所述字形预测损失值、所述字音预测损失值和所述字符预测损失值,对所述初始模型进行训练,得到目标模型,包括:
对所述字形预测损失值、所述字音预测损失值,以及所述字符预测损失值进行求和,得到求和结果;
若所述求和结果小于预设阈值,则将所述初始模型作为目标模型;
若所述求和结果不小于所述预设阈值,则基于所述求和结果对所述初始模型的模型参数进行更新,得到模型参数进行更新后的初始模型,并返回执行针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息的步骤,直至所述求和结果小于所述预设阈值时为止,其中,所述模型参数包括:所述初始特征提取模型、所述初始特征融合模型、所述初始参数生成模型以及所述初始纠错模型中的至少之一对应的参数。
11.一种纠错设备,其特征在于,所述纠错设备包括:
获取单元,用于获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
第一确定单元,用于针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
融合单元,用于将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;
第二确定单元,用于根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;
纠错单元,用于基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
12.一种模型训练设备,其特征在于,所述模型训练设备包括:
获取单元,用于获取样本文本序列,所述样本文本序列包括多个样本字符;
确定单元,用于确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;
处理单元,用于针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;
第一训练单元,用于针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述初始纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;
第二训练单元,用于根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-7中任一项所述的纠错方法,或权利要求8-10中任一项所述的模型训练方法的步骤。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行权利要求1-7中任一项所述的纠错方法,或权利要求8-10中任一项所述的模型训练方法的步骤。
15.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-7中任一项所述的纠错方法,或权利要求8-10中任一项所述的模型训练方法的步骤。
CN202210412721.8A 2022-04-19 2022-04-19 纠错方法、模型训练方法、计算机介质以及设备 Pending CN115130463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210412721.8A CN115130463A (zh) 2022-04-19 2022-04-19 纠错方法、模型训练方法、计算机介质以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210412721.8A CN115130463A (zh) 2022-04-19 2022-04-19 纠错方法、模型训练方法、计算机介质以及设备

Publications (1)

Publication Number Publication Date
CN115130463A true CN115130463A (zh) 2022-09-30

Family

ID=83376241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210412721.8A Pending CN115130463A (zh) 2022-04-19 2022-04-19 纠错方法、模型训练方法、计算机介质以及设备

Country Status (1)

Country Link
CN (1) CN115130463A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438650A (zh) * 2022-11-08 2022-12-06 深圳擎盾信息科技有限公司 融合多源特征的合同文本纠错方法、系统、设备及介质
CN116187304A (zh) * 2023-04-26 2023-05-30 中国传媒大学 一种基于改进bert的自动文本纠错算法及系统
CN116306596A (zh) * 2023-03-16 2023-06-23 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116306598A (zh) * 2023-05-22 2023-06-23 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438650A (zh) * 2022-11-08 2022-12-06 深圳擎盾信息科技有限公司 融合多源特征的合同文本纠错方法、系统、设备及介质
CN115438650B (zh) * 2022-11-08 2023-04-07 深圳擎盾信息科技有限公司 融合多源特征的合同文本纠错方法、系统、设备及介质
CN116306596A (zh) * 2023-03-16 2023-06-23 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116306596B (zh) * 2023-03-16 2023-09-19 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116187304A (zh) * 2023-04-26 2023-05-30 中国传媒大学 一种基于改进bert的自动文本纠错算法及系统
CN116306598A (zh) * 2023-05-22 2023-06-23 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN116306598B (zh) * 2023-05-22 2023-09-08 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备

Similar Documents

Publication Publication Date Title
CN115130463A (zh) 纠错方法、模型训练方法、计算机介质以及设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN114972823A (zh) 数据处理方法、装置、设备及计算机介质
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN112132075B (zh) 图文内容处理方法及介质
CN114297220A (zh) 一种数据处理方法、装置、计算机设备以及存储介质
CN111368531B (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN111291221B (zh) 对数据源生成语义描述的方法、设备和电子设备
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN113591493A (zh) 翻译模型的训练方法及翻译模型的装置
CN113254635B (zh) 数据处理方法、装置及存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN113505246B (zh) 数据处理方法、装置、终端设备以及存储介质
CN115712739B (zh) 舞蹈动作生成方法、计算机设备及存储介质
CN116975298B (zh) 一种基于nlp的现代化社会治理调度系统及方法
CN117540221B (zh) 图像处理方法和装置、存储介质及电子设备
CN116976345A (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination