CN116991874B - 一种文本纠错、基于大模型的sql语句生成方法及设备 - Google Patents
一种文本纠错、基于大模型的sql语句生成方法及设备 Download PDFInfo
- Publication number
- CN116991874B CN116991874B CN202311248897.5A CN202311248897A CN116991874B CN 116991874 B CN116991874 B CN 116991874B CN 202311248897 A CN202311248897 A CN 202311248897A CN 116991874 B CN116991874 B CN 116991874B
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- feature vector
- feature extraction
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 234
- 238000000034 method Methods 0.000 title claims abstract description 110
- 239000013598 vector Substances 0.000 claims abstract description 521
- 238000000605 extraction Methods 0.000 claims abstract description 344
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000001514 detection method Methods 0.000 claims description 197
- 238000012549 training Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 8
- 238000010606 normalization Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 240000005499 Sasa Species 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 206010011224 Cough Diseases 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及人工智能技术领域,尤其涉及一种文本纠错、基于大模型的SQL语句生成方法及设备。将待纠错文本的特征向量输入到目标纠错模型,目标纠错模型的至少两个特征提取层与全连接层连接,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量并发送给与其连接的特征提取层和/或全连接层,全连接层对接收到的特征向量进行融合并进行归一化处理,确定待纠错文本中的字符对应的识别概率,即全连接层可以基于不同层次的特征向量确定识别概率,并根据识别概率确定每个字符对应的第一目标标准文字,实现对待纠错文本的纠错处理,提高了文本纠错的准确率。本申请所保护的技术方案具有鲁棒性、可解释性、可靠性特点,符合可信赖特性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本纠错、基于大模型的SQL语句生成方法及设备。
背景技术
在对文本进行纠错处理时,一般会使用文本纠错模型对待纠错文本进行处理,目前,主要的文本纠错模型一部分是采用传统的机器学习算法进行纠错,一部分是采用基于深度学习算法进行纠错。基于传统的机器学习算法往往有着繁琐的人工选择特征,对于人工经验具有严重的依赖性,在算法设计上有着繁琐的流程,耗时费力,而目前的深度学习算法大部分采用深度学习的方法进行,例如BERT(Bidirectional Encoder Representationfrom Transformers)模型。在目前上述的文本纠错模型中,大部分模型着重于对文本的深层语义信息的特征提取,而忽略了文本的浅层语义信息,也就是说,现有的文本纠错一般是使用模型内部的多个特征提取层对接收到的待纠错文本逐级进行特征提取,即第一个特征提取层对待纠错文本进行特征提取,得到特征向量,再将该特征向量输入到下一个特征提取层,该特征提取层对接收到的特征向量进行特征提取,得到另一个特征向量,再将得到的该特征向量输入到下一特征提取层进行特征提取,以此类推,从而得到待纠错文本的深层语义信息特征。但是,文本的浅层语义特征也往往包括了更多的有用信息,如果将文本的浅层语义信息忽略,将降低文本纠错的准确率。
因此,如何提高文本纠错的准确率成为亟待解决的问题。
发明内容
本申请实施例提供了一种文本纠错、基于大模型的SQL语句生成方法及设备,用以解决现有技术中文本纠错准确率较低的问题。
第一方面,本申请提供了一种文本纠错方法,目标纠错模型的至少两个特征提取层与全连接层连接,所述方法包括:
获取待纠错文本,并确定所述待纠错文本对应的特征向量;
将所述特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待纠错文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;
根据所述识别概率,确定所述待纠错文本中的字符对应的第一目标标准文字。
进一步地,所述目标纠错模型包括N个特征提取组,所述特征提取组中包括至少两个特征提取层;任一特征提取组与至少一个其他特征提取组连接;
所述任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量包括:
针对任一特征提取组,若该特征提取组中的首个特征提取层接收到其他特征提取层发送的至少两个特征向量,将所述至少两个特征向量融合,并对融合后的特征向量进行特征提取,得到所述第一特征向量。
进一步地,将所述至少两个特征向量融合的过程包括:
将所述至少两个特征向量进行拼接,得到融合后的特征向量。
进一步地,所述对融合后的特征向量进行特征提取,得到第一特征向量之前,所述方法还包括:
对融合后的特征向量进行降维处理,得到第二特征向量,所述第二特征向量的维度与所述至少两个特征向量的维度一致。
进一步地,所述全连接层对接收到的特征向量进行融合之前,所述方法还包括:
针对任一特征向量,获取发送该特征向量向的特征提取层对应的权重;根据该特征向量以及所述权重,对该特征向量进行更新。
进一步地,所述目标纠错模型中还包括至少一个检错子模型;所述将所述特征向量输入到目标纠错模型中之后,所述任一特征提取层对接收到的特征向量进行特征提取之前,所述方法还包括:
将所述特征向量输入到所述至少一个检错子模型中,得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率,所述检测概率用于标识对应的字符在为非错别字字符的概率;
根据所述检测概率,确定所述待纠错文本中是否存在错别字,若是,则执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤。
进一步地,所述方法还包括:
若所述待纠错文本中不存在错别字,则任一特征提取组不对接收到的特征向量进行特征提取,并获取下一待纠错文本。
进一步地,所述得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率之后,根据所述检测概率,确定所述待纠错文本中是否存在错别字之前,所述方法还包括:
获取针对所述至少一个检错子模型保存的模型准确率;
针对所述待纠错文本中的任一字符,根据该字符对应的检测概率以及所述至少一个检错子模型对应的模型准确率,确定该字符的目标检测概率;使用所述目标检测概率对得到的该字符对应的检测概率进行更新。
进一步地,若确定所述待纠错文本中存在错别字,所述执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤之前,所述方法还包括:
确定所述待纠错文本中包括的字符的第三特征向量;
确定所述待纠错文本中的错别字字符对应的词性特征向量和拼音特征向量;
根据所述错别字字符对应的检测概率、对应的第三特征向量、所述词性特征向量、所述拼音特征向量以及预设阈值,确定所述错别字字符的目标特征向量,并使用所述目标特征向量对所述错别字字符对应的第三特征向量进行更新;
将所述待纠错文本中包括的字符的第三特征向量作为所述待纠错文本的特征向量发送给至少一个特征提取层和/或所述全连接层。
进一步地,所述检错子模型为剪枝后的模型。
进一步地,所述目标纠错模型的训练过程包括:
获取样本集,所述样本集中包括多个样本文本,所述样本文本对应有第一标签,所述第一标签用于标识所述样本文本中的错别字对应的第二目标标准文字;
确定所述样本文本对应的特征向量,并将所述特征向量及对应的第一标签输入到初始纠错模型中,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第四特征向量,将所述第四特征向量发送给与其连接的特征提取层和/或全连接层;其中,所述初始纠错模型的至少两个特征提取层与全连接层连接;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述样本文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;
根据所述识别概率中目标标准文字及所述样本文本中非错别字对应的目标识别概率以及预设超参数,确定第一损失值,根据所述第一损失值对所述初始纠错模型进行训练,得到目标纠错模型。
进一步地,所述初始纠错模型中还包括至少一个初始检错子模型;所述样本集中的样本文本还对应有第二标签,所述第二标签用于标识所述样本文本中每个字符所归属的预设类别,所述预设类别包括错别字字符和非错别字字符;
所述将所述特征向量及对应的第一标签输入到初始纠错模型中之后,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取之前,所述方法还包括:
将所述特征向量及对应的第二标签输入到所述至少一个初始检错子模型中,得到所述样本文本中的字符对应的检测概率,所述检测概率用于标识对应的字符为非错别字字符的概率;
根据所述第二标签标识的样本文本中的字符所归属的预设类别,及对应的检测概率,确定第二损失值;
所述根据所述第一损失值对所述初始纠错模型进行训练包括:
根据所述第一损失值、所述第二损失值以及预设权重,确定目标损失值,根据所述目标损失值对所述初始纠错模型进行训练。
第二方面,本申请还提供了一种基于大模型的SQL语句生成方法,所述方法包括:
将待转换文本输入到目标纠错模型中,得到所述目标纠错模型输出的标准文本;
将所述标准文本输入到大模型中,得到所述大模型输出的目标SQL语句。
第三方面,本申请还提供了一种文本纠错装置,目标纠错模型的至少两个特征提取层与全连接层连接,所述装置包括:
获取模块,用于获取待纠错文本;
确定模块,用于确定所述待纠错文本对应的特征向量;
纠错模块,用于将所述特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层;所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待纠错文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;根据所述识别概率,确定所述待纠错文本中的字符对应的第一目标标准文字。
第四方面,本申请还提供了一种基于大模型的SQL语句生成装置,所述装置包括:
检错纠错模块,用于将待转换文本输入到目标纠错模型中,得到所述目标纠错模型输出的标准文本;
生成模块,用于将所述标准文本输入到大模型中,得到所述大模型输出的目标SQL语句
第五方面,本申请实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述文本纠错方法的步骤,或,基于大模型的SQL语句生成方法的步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述文本纠错方法的步骤,或,基于大模型的SQL语句生成方法的步骤。
由于本申请实施例中,在进行文本纠错时,确定待纠错文本对应的特征向量,并将特征向量输入到目标纠错模型中,该目标纠错模型的至少两个特征提取层与全连接层连接,目标纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,再将该第一特征向量发送给与其连接的特征提取层和/或全连接层,也就是说,全连接层不仅只能接收到最后一个特征提取层发送的第一特征向量,还可以接收到其他特征提取层发送的第一特征向量,全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定待纠错文本中的字符对应的识别概率,即全连接层可以接收到不同层次的特征向量,从而根据不同层次的特征向量确定识别概率,从而根据每个字符对应的识别概率确定每个字符对应的第一目标标准文字,实现对待纠错文本的纠错处理,即在进行文本纠错时是根据不同层次的特征向量确定的识别概率,提高了文本纠错的准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本纠错方法的过程示意图;
图2为本申请实施例提供的一种特征提取组分组示意图;
图3为本申请实施例提供的检测概率的确定过程示意图;
图4为本申请实施例提供的融合模型结构示意图;
图5为本申请实施例提供的一种模型结构示意图1;
图6为本申请实施例提供的一种模型结构示意图2;
图7为本申请实施例提供的一种基于大模型的SQL语句生成方法的过程示意图;
图8为本申请实施例提供的一种数据问答架构图;
图9为本申请实施例提供的另一种数据问答架构图;
图10为本申请实施例提供的文本纠错装置的结构示意图;
图11为本申请实施例提供的基于大模型的SQL语句生成装置的结构示意图;
图12为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图,对本申请的实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中提供了一种文本纠错、基于大模型的SQL语句生成方法及设备,在进行文本纠错时,目标纠错模型的至少两个特征提取层与全连接层连接,获取待纠错文本,并确定待纠错文本对应的特征向量;将该特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将第一特征向量发送给与其连接的特征提取层和/或全连接层;全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定待纠错文本中的字符对应的识别概率,所述识别概率用于标识每个字符分别为多个标准文字的概率;根据识别概率,确定待纠错文本中的字符对应的第一目标标准文字。
为了提高文本纠错的准确率,在本申请实施例中,可以对初始纠错模型进行训练,得到目标纠错模型,该目标纠错模型具有对接收到的待纠错文本进行纠错的能力。由于相关技术中的文本纠错模型,一般都是使用特征提取层对待纠错的文本逐层的进行特征提取的,因此,相关技术中的文本纠错模型一般情况下只能提取到待纠错文本的深层语义信息,而忽略了待纠错文本的浅层语义信息,为了训练得到能够同时提取到待纠错文本的深层语义信息和浅层语义信息的目标纠错模型,在本申请实施例中,初始纠错模型包括了多个特征提取层,其中,两两特征提取层之间连接。其中,至少两个特征提取层与全连接层连接,也就是说有多个特征提取层可以向全连接层发送提取到的特征向量,由于不同的特征提取层文本信息的层次是不同的,因此全连接层可以接收到用于表示不同层次信息的特征向量。训练得到的目标纠错模型同样具有上述特征。
图1为本申请实施例提供的一种文本纠错方法的过程示意图,如图1所示,该过程包括以下步骤:
S101:获取待纠错文本,并确定所述待纠错文本对应的特征向量。
本申请实施例提供的文本纠错方法应用于电子设备,该电子设备可以是服务器、PC等。
在本申请实施例中,可以获取待纠错文本,该待纠错文本可以是电子设备的使用者输入的,电子设备的使用者可以直接输入待纠错文本,也可以输入待纠错文本的语音,电子设备在接收到该语音之后,基于语音识别技术得到待纠错文本;该待纠错文本也可以是电子设备基于图像识别技术从图像中识别获取到的,也就是说,电子设备的使用者也可以输入包含待纠错文本的图像。需要说明的是,对于待纠错文本的获取方式不仅局限于上述示例,本领域的技术人员可以根据需要配置获取待纠错文本的获取方式。
由于电子设备无法直接识别出来文字,因此,在本申请实施例中,在获取到待纠错文本之后,可以对该待纠错文本进行编码处理,得到该待纠错文本对应的编码向量,由于编码向量也是用于表示待纠错文本的内容的向量,因此,为了后续的描述,在本申请实施例中也可以将该编码向量称作特征向量。由于特征提取层所输出来的特征向量的维度是预先知道的,因此,为了便于后续对特征向量的处理,在本申请实施例中,经过编码处理的特征向量的维度可以与特征提取层输出的特征向量的维度一致。需要说明的是,如何对待纠错文本进行编码处理为现有技术,本申请实施例对此不再赘述。
S102:将所述特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层。
为了确定待纠错文本中是否存在错别字,在获取到待纠错文本之后,可以将该待纠错文本输入到目标纠错模型中,得到目标纠错模型输出的待纠错文本中每个字符对应的第一目标标准文字,也就是说,目标纠错模型具有对待纠错文本进行纠错的能力。因此,目标纠错模型的准确率将严重影响着对待纠错文本纠错的准确率,在本申请实施例中,基于预先训练完成的准确率更高的目标纠错模型对待纠错文本进行纠错处理,从而提高文本纠错的准确率。
在确定了待纠错文本对应的特征向量之后,可以将特征向量输入到目标纠错模型中,具体的,可以将得到的特征向量作为第一特征向量发送给至少一个特征提取层和/或全连接层,使对应的特征提取层和/或全连接层对接收到的特征进行处理。
在本申请实施例中,任一特征提取层可以对接收到的特征向量进行特征提取,得到第一特征向量,特征提取层如何对特征向量进行特征提取为现有技术,本申请实施例中对此过程不再赘述。
任一特征提取层在输出第一特征向量之后,可以将该第一特征向量发送给与其连接的特征提取层和/或全连接层,使与其连接的特征提取组和/或全连接层对接收到的特征向量进行处理。也就是说,在本申请实施例中,目标纠错模型的至少两个特征提取层与全连接层连接。
S103:所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待纠错文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率。
全连接层在接收到了每个与其连接的层级发送的特征向量之后,可以对接收到的特征向量进行融合,其中全连接层接收到的特征向量可以是其他特征提取组发送的第一特征向量,也可以是对待纠错文本进行编码处理之后的特征向量。
在对接收到的特征向量进行了融合之后,可以对融合后的特征向量进行归一化处理,并确定待纠错文本中每个字符对应的识别概率,其中,该识别概率表示对应的字符分别为多个标准文字的概率。也就是说,预先保存有多个标准文字,全连接层会针对待纠错文本中的每个字符,确定出该字符可能为该多个标准文字分别对应的概率。也就是说,全连接层会进行N分类任务,分类任务的大小取决于预先保存的标准文字的数量,基于用于保存标准文字的词表的大小,N为词表中含有的标准文字的数量。全连接层如何根据接收到的特征向量进行N分类任务处理为现有技术,本申请实施例对此过程不再赘述。
S104:根据所述识别概率,确定所述待纠错文本中的字符对应的第一目标标准文字。
确定出来了待纠错文本中每个字符对应的识别概率之后,可以根据该识别概率确定待纠错文本中的每个字符对应的第一目标标准文字。由于全连接层进行的是N分类任务,全连接层会针对每个字符,输出该字符对为每个标准文字的概率。示例性地,预先保存的标准文字为A、B、C、D,其中待纠错文本中的字符M为标准文字A的识别概率为20%,为标准文字B的识别概率为10%,为标准文字C的识别概率为30%,为标准文字D的识别概率为40%,那么,在根据识别概率,确定待纠错文本中的字符对应的第一目标标准文字时,则可以将识别概率最高的标准文字确定为待纠错文本中的字符M对应的第一目标标准文字,即字符M对应的第一目标标准文字为标准文字D。
由于本申请实施例中,在进行文本纠错时,确定待纠错文本对应的特征向量,并将特征向量输入到目标纠错模型中,该目标纠错模型的至少两个特征提取层与全连接层连接,目标纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,再将该第一特征向量发送给与其连接的特征提取层和/或全连接层,也就是说,全连接层不仅只能接收到最后一个特征提取层发送的第一特征向量,还可以接收到其他特征提取层发送的第一特征向量,全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定待纠错文本中的字符对应的识别概率,即全连接层可以接收到不同层次的特征向量,从而根据不同层次的特征向量确定识别概率,从而根据每个字符对应的识别概率确定每个字符对应的第一目标标准文字,实现对待纠错文本的纠错处理,即在进行文本纠错时是根据不同层次的特征向量确定的识别概率,提高了文本纠错的准确率。
为了进一步提高文本纠错的准确率,在上述实施例的基础上,在本申请实施例中,所述目标纠错模型包括N个特征提取组,所述特征提取组中包括至少两个特征提取层;任一特征提取组与至少一个其他特征提取组连接;
所述任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量包括:
针对任一特征提取组,若该特征提取组中的首个特征提取层接收到其他特征提取层发送的至少两个特征向量,将所述至少两个特征向量融合,并对融合后的特征向量进行特征提取,得到所述第一特征向量。
为了进一步提高文本纠错的准确率,在本申请实施例中,目标纠错模型包括N个特征提取组,特征提取组中包括至少两个特征提取层,也就是说,对目标纠错模型中的特征提取层进行了分组,不同的特征提取组中所包括的特征提取层的数量可能是相同的也可能是不同的,并且,不同的特征提取组中所包括的特征提取层可能是相同的也可能是不同的。示例性地,特征提取组A中包括了2个特征提取层、特征提取组B中包括了2个特征提取层、特征提取组C中包括了4个特征提取层,其中特征提取组A和特征提取组B中包括的特征提取层是不同的。例如,特征提取组A中包括了特征提取层1和特征提取层2,特征提取组B中包括了特征提取层3和特征提取层4;特征提取组C中包括的特征提取层中存在与特征提取组B中相同的特征提取层,例如特征提取组B中包括的4个特征提取层分别为特征提取层3、特征提取层4、特征提取层5和特征提取层6。
在本申请实施例中,目标纠错模型中的任一特征提取组与至少一个其他特征提取组连接,也就是说,目标纠错模型中的任意一个特征提取组可能与一个或者多个其他特征提取组进行连接。
示例性地,图2为本申请实施例提供的一种特征提取组分组示意图,如图2所示,图2中的目标纠错模型包括了6个特征提取层和1个全连接层,其中,6个特征提取层依次连接,在本申请实施例中,特征提取层可以为解码器(DECODER),在对特征提取层进行分组时,将特征提取层1和特征提取层2作为一个特征提取组1;将特征提取层3和特征提取层4作为一个特征提取组2;将特征提取层5和特征提取层6作为一个特征提取组3;将特征提取层1、特征提取层2、特征提取层3和特征提取层4作为一个特征提取组4;将特征提取层3、特征提取层4、特征提取层5和特征提取层6作为一个特征提取组5;将特征提取层1、特征提取层2、特征提取层3、特征提取层4、特征提取层5和特征提取层6作为一个特征提取组6。其中,特征提取组1与特征提取组2和特征提取组3连接,即特征提取组1输出的特征向量将会分别发送给特征提取组2和特征提取组3;特征提取组2与特征提取组1和特征提取组2连接,并且与全连接层连接,即特征提取组2接收特征提取组1发送的特征向量,并将自身输出的特征向量发送给特征提取组3和全连接层。其他特征提取组的连接方式可以参照上述对图2中包括的线条的表述而确定,本申请实施例不再赘述。通过上述连接方式,可以提高文本信息在特征提取层之间的传递。这种特征向量复用的设计缓解了梯度消失问题,加强了特征向量的传播,可以增加细节信息,提高模型的特征细化提取能力。
当对目标纠错模型中的特征提取层进行了分组处理之后,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量时,对于任一特征提取组来说,若该特征提取组中的首个特征提取层接收到其他特征提取层发送的至少两个特征向量,将该至少两个特征向量融合,并对融合后的特征向量进行特征提取,得到所述第一特征向量。在对该至少两个特征向量进行融合时,可以是将该至少两个特征向量相加,从而得到融合后的特征向量。特征提取层如何对特征向量进行特征提取为现有技术,本申请实施例中对此不再赘述。
示例性地,假设首个特征提取层接收到其他特征提取层发送的两个特征向量,其中,特征向量1为[A,A,A],特征向量B为[B,B,B],那么融合后的向量则可以为[A+B,A+B,A+B]。
为了进一步提高文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,将所述至少两个特征向量融合的过程包括:
将所述至少两个特征向量进行拼接,得到融合后的特征向量。
为了进一步提高文本纠错的准确率,任一特征提取层在对接收到的至少两个特征向量进行融合时,可以将该至少两个特征向量进行拼接,得到融合后的特征向量。
具体的,假设特征提取层A接收到了特征向量1和特征向量2,其中特征向量的维度均为768,那么对特征向量1和特征向量2进行拼接,即可得到768*2维度的融合后的特征向量。
为了进一步提高文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,所述对融合后的特征向量进行特征提取,得到第一特征向量之前,所述方法还包括:
对融合后的特征向量进行降维处理,得到第二特征向量,所述第二特征向量的维度与所述至少两个特征向量的维度一致。
由于通过拼接的方式得到的融合后的特征向量的维度是较高的,因此为了便于特征提取层对接收到的特征向量进行特征提取,在本申请实施例中,可以对融合后的特征向量进行降维处理,得到第二特征向量,也就是说,使融合后的特征向量的维度与接收到的该至少两个特征向量的维度一致。
为了进一步提高文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,所述全连接层对接收到的特征向量进行融合之前,所述方法还包括:
针对任一特征向量,获取发送该特征向量向的特征提取层对应的权重;根据该特征向量以及所述权重,对该特征向量进行更新。
为了进一步提高文本纠错的准确率,在本申请实施例中,可以采用自适应权重系数的方式进行深层特征向量和浅层特征向量的融合,在进行融合之后,在本申请实施例中,全连接层可以针对任一接收到的特征向量,获取发送该特征向量向的特征提取层对应的权重。也就是说,在本申请实施例中每个特征提取层都对应配置有权重,该权重可以是目标纠错模型在训练过程中所固定的权重参数。也就是说,在目标纠错模型的训练过程中,针对每个特征提取层都预先配置有一个权重,后续在进行模型训练时,可以对该权重进行调整。
在获取到发送该特征向量向的特征提取层对应的权重之后,可以根据该特征向量以及该权重,对该特征向量进行更新。
具体的,可以确定权重与对应的特征向量的乘积,使用该乘积对特征向量进行更新。在对每个特征向量进行了更新之后,可以对更新后的特征向量进行融合,融合后的特征向量即可表示为:
其中,a表示对应的特征提取层的权重;x表示某一个特征提取层发送的特征向量,即该某一个特征提取层输出的第一特征向量;n表示特征提取层的层数;那么,其中a1则表示特征提取层1的权重,x1则表示特征提取层1输出的第一特征向量。
为了进一步提高文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,所述目标纠错模型中还包括至少一个检错子模型;所述将所述特征向量输入到目标纠错模型中之后,所述任一特征提取层对接收到的特征向量进行特征提取之前,所述方法还包括:
将所述特征向量输入到所述至少一个检错子模型中,得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率,所述检测概率用于标识对应的字符在为非错别字字符的概率;
根据所述检测概率,确定所述待纠错文本中是否存在错别字,若是,则执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤。
在本申请实施例中,目标纠错模型中还包括至少一个检错子模型,该检错子模型用于检测待纠错文本中是否存在错别字,也就是说,该检错子模型为二分类任务,即确定存在错别字字符,或者不存在错别字字符。由于二分类任务较为容易,为了提升文本检错的速度,在本申请实施例中,检错子模型可以优先选择参数量小,运行速度快的模型。目前,大模型往往针对复杂的文本在处理效果上更优,但对于简单处理任务,例如二分类任务,简单模型往往与复杂模型相差不大。因此,在本申请实施例中,检错子模型可以为剪枝后的Bert模型,即将BERT模型中的12个特征提取层降为6个特征提取层,也可以是剪之后的BiSTLM模型。如何对模型进行剪枝处理为现有技术,本申请实施例中不再赘述。
在将待纠错文本的特征向量输入到目标纠错模型中之后,可以先确定该待纠错文本中是否存在错别字字符,如果确定存在错别字字符,则可以使任一特征提取层对接收到的特征向量进行特征提取,如果确定待纠错文本中不存在错别字,则说明无需对待纠错文本中的字符进行纠错处理,则可以不执行后续特征提取的步骤。在本申请实施例中,可以将待纠错文本的特征向量输入到至少一个检错子模型中,检错子模型将输出待纠错文本中包括的每个字符对应的检测概率,该检测概率用于标识对应的字符为非错别字字符的概率,知道了字符为非错别字字符的概率,也就可以知道字符为错别字字符的概率,其中,错别字字符的概率与非错别字字符的概率的和值为1。
在得到了待纠错文本中每个字符对应的检测概率之后,可以根据该检测概率确定待纠错文本中是否存在错别字。
具体的,当目标纠错模型中只包括一个检错子模型时,那可则只可以得到该检错子模型输出的待纠错文本中的每个字符对应的检测概率,那么,可以根据该检测概率是否大于预设阈值,确定对应的字符是否为错别字字符。示例性地,假设预设阈值为0.8,如果某一个字符的检测概率大于该预设阈值0.8,则可以认为该字符为非错别字字符,否则,则确定该字符为错别字字符。
当目标纠错模型中包括多个检错子模型时,那么每个检错子模型都会输出各自的检测概率,那么,此时待纠错文本中的每个字符将对应得到多个检测概率,在本申请实施例中,则可以针对待纠错文本中的每个字符,根据该字符对应的多个检测概率,确定该字符对应的平均检测概率,如果该平均检测概率大于预设阈值,则可以认为该字符为非错别字字符。
下面结合一个具体的实施例对检测概率的确定过程进行说明,图3为本申请实施例提供的检测概率的确定过程示意图,如图3所示,可以对任意文本进行编码处理(Embedding),得到该文本对应的特征向量,该特征向量是由文本中每个字符对应的字编码组成的,也就是说,文本对应的特征向量中包括n个字编码,示例性地,文本经过编码处理之后得到的特征向量中可以包括字编码1、字编码2、字编码3…字编码n,其中,n即为文本中包括的字符的数量。将该特征向量输入到检错子模型Model中,Model会输出该待纠错文本中的每个字符对应的非错别字字符的检测概率,根据每个字符对应的非错别字字符的检测概率,以及预设阈值,可以确定待纠错文本中的每个字符是否为错别字,在本申请实施例中,使用1标识对应的字符为非错别字字符,使用0标识对应的字符为错别字字符。根据图3所示内容可知,输入为用户输入的文本,通过Embedding将文本中的字符编码成固定长度的特征向量,输出为文本中每个字符的分类,即输出0或者1的二分类任务,若输出1则表示这个文本中的这个字是不存在错误的,无需纠错,为0则表示需要进一步纠错。
在本申请实施例中,若待纠错文本中不存在错别字,则任一特征提取组不对接收到的特征向量进行特征提取,并可以获取下一待纠错文本,对该下一待纠错文本进行纠错处理。
为了提高对文本检错的准确率,在本申请实施例中也可以采用多个单体模型构建了一个融合模型,也就是说包括多个检错子模型,该融合模型不仅保持了较快的检测速度还拥有了比单体模型更高的准确率。在本申请实施例中,可以将文本并行的输入到多个单体模型中,因此,多个模型的运行并不会带来速度上的损失,模型的检测结果近似等于多个单体模型中运行速度最慢的模型。图4为本申请实施例提供的融合模型结构示意图,如图4所示,确定了待纠错文本对应的特征向量之后,将得到的特征向量并行输入到每个检错子模型中,即将特征向量并行输入到检错子模型1、检错子模型2、检错子模型3中,得到每个检错子模型输出的待纠错文本中的每个字符对应的检测概率,并根据每个检错子模型输出的待纠错文本中的每个字符对应的检测概率,综合确定待纠错文本中每个字符对应的最终检测概率,从而根据该最终检测概率是否大于预设阈值,确定每个字符的最终检测结果。根据图4所示内容可知,每个模型的输入输出和图3中单体模型的输入输出一致,值得注意的是在多体异构模型中待纠错文本的特征向量是同时并行的往多个模型中进行输入的,输出是对多个模型计算投票准确率后得到的分类结果。
为了进一步提高文本检错的准确率,在上述各实施例的基础上,在本申请实施例中,所述得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率之后,根据所述检测概率,确定所述待纠错文本中是否存在错别字之前,所述方法还包括:
获取针对所述至少一个检错子模型保存的模型准确率;
针对所述待纠错文本中的任一字符,根据该字符对应的检测概率以及所述至少一个检错子模型对应的模型准确率,确定该字符的目标检测概率;使用所述目标检测概率对得到的该字符对应的检测概率进行更新。
为了进一步提高文本检错的准确率,在本申请实施例中,可以预先为每个检错子模型保存模型准确率。在得到了待纠错文本中的字符对应的检测概率之后,可以获取针对目标纠错模型中包括的至少一个检错子模型保存的模型准确率。
针对待纠错文本中的每个字符,根据该字符对应的检测概率以及对应的检错子模型的模型准确率,确定该字符的目标检测概率。在本申请实施例中每个检错子模型都会输出待纠错文本中每个字符对应的检测概率,在本申请实施例中,可以基于如下公式确定任一字符的目标检测概率:
其中,p(Res)表示目标检测概率;k表示目标纠错模型中包括的检错子模型的数量;i表示检错子模型的标识;pi表示检错子模型i的模型准确率;yj表示检错子模型i对待纠错文本中第j个字符的检测概率。
具体的,假设目标纠错模型中包括2个检错子模型,分别为单模1和单模2,其中,单模1的模型准确率为0.95,单模2的模型准确率为0.98,单模1针对某个字符检测为非错别字字符的检测概率为0.85,模2针对某个字符检测为非错别字字符的检测概率为0.88,则目标检测概率的确定过程可以使用如下公式表示:
在确定了目标检测概率之后可以使用目标检测概率对得到的该字符对应的检测概率进行更新。
下面结合一个具体的实施例对检测概率的确定过程进行说明,图5为本申请实施例提供的一种模型结构示意图1,如图5所示,目标纠错模型中包括的至少一个检错子模型可以是剪枝后的6层BERT模型、也可以是剪枝后的2层BiLSTM模型、也可以是具有自适应权重的剪枝后的6层BERT模型,还可以是其它的预训练模型,上述模型均为预先选择的召回率高,小参数量的模型。上述模型输出来了待纠错文本中每个字符的检测概率之后,可以根据上述目标检测概率公式进行投票,确定待纠错文本中每个字符对应的目标检测概率,从而根据该目标检测概率,确定待纠错文本中是否存在错别字字符。
为了进一步提高文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,若确定所述待纠错文本中存在错别字,所述执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤之前,所述方法还包括:
确定所述待纠错文本中包括的字符的第三特征向量;
确定所述待纠错文本中的错别字字符对应的词性特征向量和拼音特征向量;
根据所述错别字字符对应的检测概率、对应的第三特征向量、所述词性特征向量、所述拼音特征向量以及预设阈值,确定所述错别字字符的目标特征向量,并使用所述目标特征向量对所述错别字字符对应的第三特征向量进行更新;
将所述待纠错文本中包括的字符的第三特征向量作为所述待纠错文本的特征向量发送给至少一个特征提取层和/或所述全连接层。
通常文本中虽然某些字符为错别字,但是该字符的拼音或词性可能是不变的,因此,在本申请实施例中,在待纠错文本对应的词编码向量的基础上增加了词性和拼音的编码。如果待纠错文本在检测子模型中检测到存在错别字,则可以提高拼音和词性的编码权重。
在本申请实施例中,如果确定待纠错文本中存在错别字,则可以在任一特征提取层对接收到的特征向量进行特征提取之前,确定待纠错文本中包括的每个字符对应的第三特征向量,该第三特征向量即对应的字符对应的词编码,即词特征向量。
若确定待纠错文本中存在错别字,则可以确定待纠错文本中的错别字字符对应的词性特征向量和拼音特征向量,如何确定某一个字符的词性特征向量和拼音特征向量为现有技术,本申请实施例对此不再赘述。
根据错别字字符对应的检测概率、对应的第三特征向量、词性特征向量、拼音特征向量以及预设阈值,可以确定目标字符的目标特征向量,在本申请实施例中,可以基于如下公式确定任一字符的目标特征向量:
其中,Eword表示目标特征向量;p表示字符对应的检测概率;Ehanzi表示字符的词特征向量,即第三特征向量;Epinyin表示字符对应的拼音特征向量;Ecixing表示字符对应的词性特征向量;θ表示预设阈值,其取值范围为0-1。
具体的,以p=0.2,θ=0.8进行举例说明。当p=0.2时则Eword=0.2* Ehanzi+0.8*(Epinyin+ Ecixing),不难看出,此时模型将更加在意错别字字符的词性特征和拼音特征,而降低错别字的编码特征,即降低错别字的词特征,将更有利于模型的纠错任务。
确定了错别字字符对应的目标特征向量之后,将使用该目标特征向量对该错别字字符对应的第三特征向量进行更新。
在对每个错别字字符的第三特征向量进行了更新之后,可以将非错别字字符的第三特征向量和错别字字符对应的更新后的第三特征向量,作为待纠错文本的特征向量发送给至少一个特征提取层和/或所述全连接层。也就是说,使用非错别字字符的第三特征向量和错别字字符对应的更新后的第三特征向量构建一个新的特征向量,并使用该新的特征向量对原始的待纠错文本的特征向量进行更新。
另外,与特征向量一起输入到目标纠错模型中的,还可以包括每个字符的位置编码,即标识哪个字符为第一个字符,哪个字符为第二个字符……,其中,第一个字符的标识为0,第二个字符的标识为1,以此类推。
在本申请实施例中,待纠错文本可以包括一句话的文本,也可以包括两句话的文本,因此为了便于区分一句话还是两句话,与特征向量一起输入到目标纠错模型中的还可以包括句子编码,该句子编码用于区分两个句子,可以使用0标识第一个句子,使用1标识第二个句子,例如,待纠错文本中句子B为句子A的下文,那么可以将句子B的句子编码标识为1,将句子A的句子编码标识为0。
下面结合一个具体的实施例对纠错模型的结构进行说明,图6为本申请实施例提供的一种模型结构示意图2,如图6所示,输入到目标纠错模型中的待纠错文本为“以撒科技有限公司的经济地在哪?”该待纠错文本对应的特征向量中包括每个字符对应的特征编码,每个字符对应的特征编码可以表示为:
其中,Ei表示第i个字符对应的特征编码;Eword表示特征向量,当第i个字符为错别字字符时,该特征向量是根据该字符的特征向量、词性特征向量和拼音特征向量确定的,当第i个字符为非错别字字符时,该特征向量即为该字符的第三特征向量;Eposition第i个字符在待纠错文本中的位置;Esegment表示句子编码。
确定了该待纠错文本对应的特征向量之后,将该特征向量发送给第一个特征提取层(DECODER_2)中,该第一个特征提取层会对接收到的特征向量进行特征提取,得到新的第一特征向量,并将该新的第一特征向量发送给与其连接的第二个特征提取层和全连接层;第二个特征提取层会对接收到的特征向量进行特征提取,得到新的第一特征向量并发送给与其连接的第三个特征提取层和全连接层;第三个特征提取层会对接收到的特征向量进行特征提取,得到新的第一特征向量与其连接的第四个特征提取层和全连接层,以此类推。
全连接层在接收到每个与其连接的特征提取层发送的特征向量之后,可以针对每个特征向量,获取发送该特征向量向的特征提取层对应的权重,根据该特征向量以及对应权重,对该特征向量进行更新,并对更新后的特征向量相加,假设每个第一特征向量均为768维度,那么相加之后得到的融合后的第一特征向量也为768维度。图6中的a1、a2…an表示对应的特征提取层的权重。
全连接层对融合后的特征向量进行归一化处理,确定待纠错文本中的字符对应的识别概率,从而根据该识别概率,对接收到的文本进行纠错处理,得到正确文本“以萨科技有限公司经营地在哪”。在本申请实施例中,可以设置了一个容错阈值k,如果针对某一个字符,该字符c出现在预测结果的top-k中,就认为该字符不是错别字字符,否则是错别字字符。
为了进一步提高文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,所述目标纠错模型的训练过程包括:
获取样本集,所述样本集中包括多个样本文本,所述样本文本对应有第一标签,所述第一标签用于标识所述样本文本中的错别字对应的第二目标标准文字;
确定所述样本文本对应的特征向量,并将所述特征向量及对应的第一标签输入到初始纠错模型中,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第四特征向量,将所述第四特征向量发送给与其连接的特征提取层和/或全连接层;其中,所述初始纠错模型的至少两个特征提取层与全连接层连接;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述样本文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;
根据所述识别概率中目标标准文字及所述样本文本中非错别字对应的目标识别概率以及预设超参数,确定第一损失值,根据所述第一损失值对所述初始纠错模型进行训练,得到目标纠错模型。
为了对初始纠错模型进行训练,在本申请实施例中,预先配置有样本集。该样本集中包括多个样本文本,该样本文本可以是工作人员预先编写的;也可以是在已公开的数据集中获取到的;还可以是预先保存了多个不存在错别字的文本,在构建数据集时,使用其他字符对每个文本中的任意字符进行替换,使文本中存在错别字。
示例性地,生活中常见的文本错误可以分为字形相似引起的错误,例如,咳数”对应的正确文本通常为“咳嗽”;或者,语音相似引起的错误两大类,例如,“哈蜜”对应的正确文本通常为“哈密”。 因此在样本集中可以将70%文本中15%的字符替换成与其相同发音的其他常见字符,从而得到样本集中70%的样本文本;将20%文本中10%的字符选择字形相似的字符进行替换,从而得到样本集中20%的样本文本;剩余10%的文本中选择10%的字符动态使用词汇表中的随机字符进行替换,从而得到样本集中10%的样本文本。
为了扩大样本文本的数据量,在本申请实施例中,还可以动态的对样本集中的第一标签和样本文本进行替换,以增加训练难度,例如,每十个epoch为一轮,也就是说,样本集中的全部样本文本均进行了10次训练之后,可以对样本集中的样本文本进行动态更新。
为了便于后续对该初始纠错模型进行训练,样本集中除了包括样本文本以外,还包括各个样本文本对应的第一标签,其中,该第一标签用于标识对应的样本文本中错别字对应的第二目标标准文字,也就是说,第一标签用于标识样本文本中错别字对应的正确文字。例如,样本文本为“我咳数了”,那么该样本文本所对应的第一标签中将标识“数”为错别字,且该错别字对应的目标标准文字应为“嗽”。
为了对初始纠错模型进行训练,在本申请实施例中,在获得样本集后,将该样本集中的每个样本文本及其对应的第一标签,依次输入到初始纠错模型中,使初始纠错模型对接收到的样本文本进行纠错处理。
由于电子设备无法直接识别出来文字,因此,在本申请实施例中,初始纠错模型在接收到样本文本之后,可以对样本文本进行编码处理,得到该样本文本对应编码向量,由于编码向量也是用于表示样本文本的内容的向量,因此,为了后续的描述,在本申请实施例中也可以将该编码向量称作特征向量。由于特征提取层所输出来的特征向量的维度是预先知道的,因此,为了便于后续对特征向量的处理,在本申请实施例中,经过编码处理的特征向量的维度可以与特征提取层输出的特征向量的维度一致。需要说明的是,如何对样本文本进行编码处理为现有技术,本申请实施例对此不再赘述。
在对样本文本进行了编码处理之后,可以将得到的特征向量发送给至少一个特征提取层和/或全连接层,使对应的特征提取层和/或全连接层对接收到的特征进行特征提取。在本申请实施例中,任一特征提取层可以对接收到的特征向量进行特征提取,得到第四特征向量,特征提取层如何对特征向量进行特征提取为现有技术,本申请实施例中对此过程不再赘述。
在得到第四特征向量之后,可以将该第四特征向量发送给与其连接的特征提取层和/或全连接层,使与其连接的特征提取组和/或全连接层对接收到的特征向量进行处理。
全连接层在接收到了每个与其连接的特征提取层发送的特征向量之后,可以对接收到的特征向量进行融合,其中全连接层接收到的特征向量可以是其他特征提取组发送的第一特征向量,也可以是对样本文本进行编码处理之后的特征向量。
在对接收到的特征向量进行了融合之后,可以对融合后的特征向量进行归一化处理,并确定样本文本中每个字符对应的识别概率,其中,该识别概率标识对应的字符分别为多个标准文字的概率。也就是说,预先保存有多个标准文字,全连接层会针对样本文本中的每个字符,确定出该字符可能为该多个标准文字分别对应的概率。也就是说,全连接层会进行N分类任务,分类任务的大小取决于预先保存的标准文字的数量,基于用于保存标准文字的词表的大小,N为词表中含有的标准文字的数量。全连接层如何根据接收到的特征向量进行N分类任务处理为现有技术,本申请实施例对此过程不再赘述。
确定出来了样本文本中每个字符对应的识别概率之后,可以根据识别概率中目标标准文字对应的目标识别概率、样本文本中非错别字对应的目标识别概率以及预设超参数,确定第一损失值。如果目标纠错模型的误判率很高,即将正确的字符“纠正”成错误的字符,会对系统和用户体验有很差的负面效果。因此,文本纠错相对而言更加复杂,分类难度大,在样本文本的某些文字的分类难易程度也不一样,因此,本案在交叉熵损失函数的基础上又加入了字符识别准确率的控制。在计算损失值时,可以基于如下公式进行计算:
其中,Lmodel1表示第一损失值;N表示样本文本中包括的字符的数量;表示预设超参数,该参数为人为设定;pt表示样本文本中第t个字符对应的目标识别概率。
在本申请实施例中,在确定出来了样本文本中的每个字符对应的识别概率之后,可以针对样本文本中的每个字符,确定该字符在样本文本对应的第一标签中是否被标识为了错别字,如果第一标签中被标识为了错别字,则确定第一标签中标识的该字符对应的目标标准文字,在确定了目标标准文字之后,在该字符对应的识别概率中查找该目标标准文字对应的目标识别概率;如果该错别字第一标签中被标识为了非错别字,则可以直接在该字符对应的识别概率中查找该字符对应的目标识别概率。
在确定了第一损失值之后,即可根据该第一损失值对初始纠错模型进行训练,得到目标纠错模型。
由于本申请实施例中,初始纠错模型的至少两个特征提取层与全连接层连接,进行训练时,获取样本集,将样本集中包括的待纠错文本及对应的第一标签输入到初始纠错模型中,初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,再将该第一特征向量发送给与其连接的特征提取层和/或全连接层,也就是说,全连接层不仅只能接收到最后一个特征提取层发送的第一特征向量,还可以接收到其他特征提取层发送的第一特征向量,全连接层对接收到的第一特征向量进行融合,并对融合后的第一特征向量进行归一化处理,确定待纠错文本中的字符对应的识别概率,即全连接层可以接收到不同层次的第一特征向量,从而根据不同层次的第一特征向量确定识别概率,再根据识别概率中目标标准文字对应的目标识别概率以及预设超参数,确定第一损失值,根据第一损失值对所述初始纠错模型进行训练,得到了对文本进行纠错准确率更高的目标纠错模型。
为了进一步提高目标纠错模型对文本纠错的准确率,在上述各实施例的基础上,在本申请实施例中,所述初始纠错模型中还包括至少一个初始检错子模型;所述样本集中的样本文本还对应有第二标签,所述第二标签用于标识所述样本文本中每个字符所归属的预设类别,所述预设类别包括错别字字符和非错别字字符;
所述将所述特征向量及对应的第一标签输入到初始纠错模型中之后,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取之前,所述方法还包括:
将所述特征向量及对应的第二标签输入到所述至少一个初始检错子模型中,得到所述样本文本中的字符对应的检测概率,所述检测概率用于标识对应的字符为非错别字字符的概率;
根据所述第二标签标识的样本文本中的字符所归属的预设类别,及对应的检测概率,确定第二损失值;
所述根据所述第一损失值对所述初始纠错模型进行训练包括:
根据所述第一损失值、所述第二损失值以及预设权重,确定目标损失值,根据所述目标损失值对所述初始纠错模型进行训练。
在本申请实施例中,初始纠错模型中还包括至少一个初始检错子模型,该初始检错子模型用于检测样本文本中是否存在错别字,也就是说,该初始检错子模型为二分类任务,即确定存在错别字字符,或者不存在错别字字符。由于二分类任务较为容易,为了提升文本检错的速度,在本申请实施例中,初始检错子模型可以优先选择参数量小,运行速度快的模型。目前,大模型往往针对复杂的文本在处理效果上更优,但对于简单处理任务,例如二分类任务,简单模型往往与复杂模型相差不大。因此,在本申请实施例中,初始检错子模型可以为剪枝后的Bert模型,即将BERT模型中的12个特征提取层降为6个特征提取层,也可以是剪之后的BiSTLM模型。
由于初始检错子模型用于检测样本文本中是否存在错别字,因此,在本申请实施例中,样本集中包括的样本文本中也可以包括不存在错别字的样本文本,那么,样本集中的样本文本还对应有第二标签,该第二标签即用于标识样本文本中每个字符所归属的预设类别,该预设类别包括错别字字符和非错别字字符,也就是说,第二标签中针对每个字符都进行了标识,如果某一个字符为错别字字符,则可以将该字符表示为0,如果该字符为非错别字字符,则可以将该字符表示为1。需要说明的是,如何使用第二标签对样本文本进行标注,不仅局限于上述示例,本领域的技术人员可以根据需要进行标注。
由于样本集中包括的样本文本可能不均为包含错别字的样本文本,因此,在本申请实施例中,将样本文本及对应的第一标签输入到初始纠错模型中之后,任一特征提取层对接收到的特征向量进行特征提取之前,可以对接收到的样本文本进行编码处理,得到特征向量,该特征向量的维度与第四特征向量的维度相同。如何对样本文本进行编码处理,得到特征向量为现有技术,本申请实施例对此不进行赘述。
将样本文本对应的特征向量及对应的第二标签输入到至少一个初始检错子模型中,初始检错子模型将输出样本文本中包括的每个字符对应的检测概率,该检测概率用于标识对应的字符为非错别字字符的概率,其中,错别字字符的概率与非错别字字符的概率的和值为1,确定了非错别字字符的概率,也就可以确定对饮给的字符为错别字字符的概率。
在得到了样本文本中每个字符对应的检测概率之后,可以根据第二标签标识的样本文本中的字符所归属的预设类别,及对应的检测概率,确定第二损失值。也就是说,针对样本文本中的每个字符,确定该字符在第二标签中被标识为了错别字字符,还是被标识为了非错别字字符,如果该字符在第二标签中被标识为了错别字字符,则可以在该字符对应的检测概率中查找到错别字字符这一预设类别对应的检测概率。根据该查找到的检测概率即可确定第二损失值。
具体的,在文本检错过程中,由于任务较为简单,属于对和错的二分类任务,因此在本申请实施例中可以采用较为简单的二元交叉熵损失函数确定第二损失值:
其中,Lmodel2表示第二损失值;pt表示样本文本中的第t个字符所归属的第二标签中的预设类别对应的检测概率;N表示样本文本中字符的数量。
在确定了第二损失值之后,在对初始纠错模型进行训练时,可以根据第一损失值、所述第二损失值以及预设权重,确定目标损失值,并使用该目标损失值对初始纠错模型进行训练。
具体的,可以基于如下公式确定目标损失值:
其中Lmodel表示目标损失值;λ表示预设权重;Lmodel2表示第二损失值;Lmodel1表示第一损失值。
由于第一损失函数为N分类任务的损失函数,而第二损失函数为二分类任务的损失函数,多分类任务明显更难,而二分类任务明显更简单,因此给第一损失函数配置更大的权重,这样模型才能在更难的多分类学习任务上取得更好的效果,在本申请实施例中,权重λ是由工作人员预先配置的,其取值在0至1之间,在本申请实施例中,λ可以小于0.5。
需要说明的是,目标纠错模型的训练过程与文本纠错时对待纠错文本的处理过程基本一致,本领域的技术人员可以根据对文本纠错的过程明确知道如何对目标模型进行训练,本申请实施例不再赘述。
图7为本申请实施例提供的一种基于大模型的SQL语句生成方法的过程示意图,如图7所示,该过程包括以下步骤:
S701:将待转换文本输入到目标纠错模型中,得到所述目标纠错模型输出的标准文本。
为了使大模型准确的根据接收到的待转换文本生成对应的SQL语句,在本申请实施例中,可以将待转换文本输入到目标纠错模型中,由目标纠错模型确定该待转换文本中是否存在错别字,在存在错别字的情况下对待转换文本进行纠错处理。
在本申请实施例中,目标纠错模型可以是基于上述各实施例所述的模型训练方法训练得到的,当然,目标纠错模型可以是其他的纠错模型,本申请实施例对此不进行限制。
S702:将所述标准文本输入到大模型中,得到所述大模型输出的目标SQL语句。
在得到了目标纠错模型输出的标准文本之后,即可认为该标准文本中不存在错别字,可以将该准文本输入到大模型中,得到大模型输出的目标SQL语句。在本申请实施例中,“大模型”可以理解为是基于转换器(transformer)架构的模型;该“大模型”也可以理解为是具有庞大的参数规模和复杂程度的机器学习模型,例如,具有数百万到数十亿参数或者上百亿参数的神经网络模型;该“大模型”也可以理解为是通过半(弱)监督、全监督、自监督或者无监督等技术,在大规模训练数据上训练得到的一种深度学习模型。在本申请实施例中,“大模型”可以处理多种不同任务,在训练“大模型”时一般是基于某个目标任务领域的训练数据进行训练的,训练得到的“大模型”一般情况下可以被迁移到与目标任务领域相近的其他任务领域中进行使用。
下面结合一个具体的实施例对数据问答任务进行说明,图8为本申请实施例提供的一种数据问答架构图,如图8所示,用户输入问题,该问题可以看做是待转换文本“以撒公司的经济地在哪?”。将该待转换文本输入到文本检错纠错模型中,即将该待转换文本输入到目标纠错模型中,得到目标纠错模型输出的标准文本“以萨公司的经营地在哪?”。通过别名映射的方式,确定标准文本中的“以萨公司”对应的标准名称为“以萨科技有限公司”,可以使用该“以萨科技有限公司”对“以萨公司”进行替换,得到目标待转换文本“以萨科技有限公司的经营地在哪?”,使用该目标待转换文本对标准文本进行替换,并将替换后的标准文本输入到大模型中,使大模型的Text2SQL功能,将文本自动生成SQL语句,例如“SELECTstreet FROM jjyx_std_lingxi_gs_lingxi_enterprise_all_data WHERE entname LIKE‘%以萨科技有限公司%’”。基于生成的该SQL语句即可在数据库中进行查询,得到最终的结果,例如,查询到的结果为“黄岛区”,那么则可以输出待转换文本对应的答案为:以萨科技有限公司的经营地在黄岛区。
在基于ChatGPT的数据问答任务中用户采用语音方式或文本方式进行输入,在用户的语音输入和文本输入过程中往往存在错别字的输入,错别字的输入往往会导致ChatGPT无法生成正确的SQL语句,从而无法为用户提供正确的数据问答服务,尤其是在语音转文字的过程中,存在更多的文本错误的可能性。因此,文本纠错的准确度对数据问答来讲尤为重要。此外,在国内的ChatGPT调用中,存在着接口参数返回慢等问题,过慢的时延性往往会给用户带来不好的体验感,因此,目标纠错模型将不能采用过于冗余的设计。
下面结合一个具体的实施例对目标纠错模型的内部流程进行说明,图9为本申请实施例提供的另一种数据问答架构图,如图9所示,用户入输入了问题,即待转换文本“以撒公司的经济地在哪?”之后,将待转换文本输入到目标纠错模型,为了便于描述可以将目标纠错模型称为两个子模型,其中一个子模型为检错模型,另一个子模型为纠错模型。将待转换文本输入到检错模型中,确定该待转换文本中是否存在错别字,若存在,则将待转换文本输入到纠错模型中,使纠错模型对接收到的待转换文本进行纠错处理,得到标准文本,并对标准文本中包括的名称进行别名映射,得到目标待转换文本;如果待转换文本中不存在错别字,则不将待转换文本输入到纠错模型中,直接对该待转换文本中包括的名称进行别名映射,得到目标待转换文本。得到了目标待转换文本之后,将该目标待转换文本输入到大模型ChatGPT中,使ChatGPT输出目标SQL语句,再基于该目标SQL语句在数据库中查找答案。
本申请所保护的技术方案具有鲁棒性、可解释性、可靠性特点,符合可信赖特性。
图10为本申请实施例提供的文本纠错装置的结构示意图,如图10所示,该装置包括:
获取模块1001,用于获取待纠错文本;
确定模块1002,用于确定所述待纠错文本对应的特征向量;
纠错模块1003,用于将所述特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层;所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待纠错文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;根据所述识别概率,确定所述待纠错文本中的字符对应的第一目标标准文字。
在一种可能的实施方式中,所述目标纠错模型包括N个特征提取组,所述特征提取组中包括至少两个特征提取层;任一特征提取组与至少一个其他特征提取组连接;所述纠错模块1003,具体用于针对任一特征提取组,若该特征提取组中的首个特征提取层接收到其他特征提取层发送的至少两个特征向量,将所述至少两个特征向量融合,并对融合后的特征向量进行特征提取,得到所述第一特征向量。
在一种可能的实施方式中,所述纠错模块1003,具体用于将所述至少两个特征向量进行拼接,得到融合后的特征向量。
在一种可能的实施方式中,所述纠错模块1003,具体用于对融合后的特征向量进行降维处理,得到第二特征向量,所述第二特征向量的维度与所述至少两个特征向量的维度一致。
在一种可能的实施方式中,所述纠错模块1003,还用于针对任一特征向量,获取发送该特征向量向的特征提取层对应的权重;根据该特征向量以及所述权重,对该特征向量进行更新。
在一种可能的实施方式中,所述目标纠错模型中还包括至少一个检错子模型;所述纠错模块1003,还用于将所述特征向量输入到所述至少一个检错子模型中,得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率,所述检测概率用于标识对应的字符在为非错别字字符的概率;根据所述检测概率,确定所述待纠错文本中是否存在错别字,若是,则执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤。
在一种可能的实施方式中,所述纠错模块1003,还用于若所述待纠错文本中不存在错别字,则任一特征提取组不对接收到的特征向量进行特征提取,并获取下一待纠错文本。
在一种可能的实施方式中,所述纠错模块1003,还用于获取针对所述至少一个检错子模型保存的模型准确率;针对所述待纠错文本中的任一字符,根据该字符对应的检测概率以及所述至少一个检错子模型对应的模型准确率,确定该字符的目标检测概率;使用所述目标检测概率对得到的该字符对应的检测概率进行更新。
在一种可能的实施方式中,所述纠错模块1003,还用于确定所述待纠错文本中包括的字符的第三特征向量;确定所述待纠错文本中的错别字字符对应的词性特征向量和拼音特征向量;根据所述错别字字符对应的检测概率、对应的第三特征向量、所述词性特征向量、所述拼音特征向量以及预设阈值,确定所述错别字字符的目标特征向量,并使用所述目标特征向量对所述错别字字符对应的第三特征向量进行更新;将所述待纠错文本中包括的字符的第三特征向量作为所述待纠错文本的特征向量发送给至少一个特征提取层和/或所述全连接层。
在一种可能的实施方式中,所述检错子模型为剪枝后的模型。
在一种可能的实施方式中,所述装置还包括:
训练模块1004,用于获取样本集,所述样本集中包括多个样本文本,所述样本文本对应有第一标签,所述第一标签用于标识所述样本文本中的错别字对应的第二目标标准文字;确定所述样本文本对应的特征向量,并将所述特征向量及对应的第一标签输入到初始纠错模型中,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第四特征向量,将所述第四特征向量发送给与其连接的特征提取层和/或全连接层;其中,所述初始纠错模型的至少两个特征提取层与全连接层连接;所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述样本文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;根据所述识别概率中目标标准文字及所述样本文本中非错别字对应的目标识别概率以及预设超参数,确定第一损失值,根据所述第一损失值对所述初始纠错模型进行训练,得到目标纠错模型。
在一种可能的实施方式中,所述初始纠错模型中还包括至少一个初始检错子模型;所述样本集中的样本文本还对应有第二标签,所述第二标签用于标识所述样本文本中每个字符所归属的预设类别,所述预设类别包括错别字字符和非错别字字符;所述训练模块1004,还用于将所述特征向量及对应的第二标签输入到所述至少一个初始检错子模型中,得到所述样本文本中的字符对应的检测概率,所述检测概率用于标识对应的字符为非错别字字符的概率;根据所述第二标签标识的样本文本中的字符所归属的预设类别,及对应的检测概率,确定第二损失值;所述根据所述第一损失值对所述初始纠错模型进行训练包括:根据所述第一损失值、所述第二损失值以及预设权重,确定目标损失值,根据所述目标损失值对所述初始纠错模型进行训练。
图11为本申请实施例提供的基于大模型的SQL语句生成装置的结构示意图,如图11所示,该装置包括:
检错纠错模块1101,用于将待转换文本输入到目标纠错模型中,得到所述目标纠错模型输出的标准文本;
生成模块1102,用于将所述标准文本输入到大模型中,得到所述大模型输出的目标SQL语句。
图12为本申请实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本申请还提供了一种电子设备,如图12所示,包括:处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信;
所述存储器1203中存储有计算机程序,当所述程序被所述处理器1201执行时,使得所述处理器1201执行如下步骤:
获取待纠错文本,并确定所述待纠错文本对应的特征向量;
将所述特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待纠错文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;
根据所述识别概率,确定所述待纠错文本中的字符对应的第一目标标准文字。
在一种可能的实施方式中,处理器1201,用于针对任一特征提取组,若该特征提取组中的首个特征提取层接收到其他特征提取层发送的至少两个特征向量,将所述至少两个特征向量融合,并对融合后的特征向量进行特征提取,得到所述第一特征向量。
在一种可能的实施方式中,处理器1201,用于将所述至少两个特征向量进行拼接,得到融合后的特征向量。
在一种可能的实施方式中,处理器1201,用于对融合后的特征向量进行降维处理,得到第二特征向量,所述第二特征向量的维度与所述至少两个特征向量的维度一致。
在一种可能的实施方式中,处理器1201,用于针对任一特征向量,获取发送该特征向量向的特征提取层对应的权重;根据该特征向量以及所述权重,对该特征向量进行更新。
在一种可能的实施方式中,处理器1201,用于将所述特征向量输入到所述至少一个检错子模型中,得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率,所述检测概率用于标识对应的字符在为非错别字字符的概率;
根据所述检测概率,确定所述待纠错文本中是否存在错别字,若是,则执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤。
在一种可能的实施方式中,处理器1201,用于若所述待纠错文本中不存在错别字,则任一特征提取组不对接收到的特征向量进行特征提取,并获取下一待纠错文本。
在一种可能的实施方式中,处理器1201,用于获取针对所述至少一个检错子模型保存的模型准确率;
针对所述待纠错文本中的任一字符,根据该字符对应的检测概率以及所述至少一个检错子模型对应的模型准确率,确定该字符的目标检测概率;使用所述目标检测概率对得到的该字符对应的检测概率进行更新。
在一种可能的实施方式中,处理器1201,用于确定所述待纠错文本中包括的字符的第三特征向量;
确定所述待纠错文本中的错别字字符对应的词性特征向量和拼音特征向量;
根据所述错别字字符对应的检测概率、对应的第三特征向量、所述词性特征向量、所述拼音特征向量以及预设阈值,确定所述错别字字符的目标特征向量,并使用所述目标特征向量对所述错别字字符对应的第三特征向量进行更新;
将所述待纠错文本中包括的字符的第三特征向量作为所述待纠错文本的特征向量发送给至少一个特征提取层和/或所述全连接层。
在一种可能的实施方式中,处理器1201,用于获取样本集,所述样本集中包括多个样本文本,所述样本文本对应有第一标签,所述第一标签用于标识所述样本文本中的错别字对应的第二目标标准文字;
确定所述样本文本对应的特征向量,并将所述特征向量及对应的第一标签输入到初始纠错模型中,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第四特征向量,将所述第四特征向量发送给与其连接的特征提取层和/或全连接层;其中,所述初始纠错模型的至少两个特征提取层与全连接层连接;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述样本文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;
根据所述识别概率中目标标准文字及所述样本文本中非错别字对应的目标识别概率以及预设超参数,确定第一损失值,根据所述第一损失值对所述初始纠错模型进行训练,得到目标纠错模型。
在一种可能的实施方式中,处理器1201,用于将所述特征向量及对应的第二标签输入到所述至少一个初始检错子模型中,得到所述样本文本中的字符对应的检测概率,所述检测概率用于标识对应的字符为非错别字字符的概率;
根据所述第二标签标识的样本文本中的字符所归属的预设类别,及对应的检测概率,确定第二损失值;
所述根据所述第一损失值对所述初始纠错模型进行训练包括:
根据所述第一损失值、所述第二损失值以及预设权重,确定目标损失值,根据所述目标损失值对所述初始纠错模型进行训练。
由于上述电子设备解决问题的原理与文本纠错方法和基于大模型的SQL语句生成方法相似,因此上述电子设备的事实可以参见方法的实施例,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口1202用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器,包括中央处理器、网络处理器(Network Processor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在上述各实施例的基础上,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现上述各实施例提供的文本纠错方法的步骤,或,基于大模型的SQL语句生成方法的步骤。
由于上述计算机可读存储介质解决问题的原理与模型训练方法和基于大模型的SQL语句生成方法相似,因此上述电子设备的事实可以参见方法的实施例,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种文本纠错方法,其特征在于,目标纠错模型的至少两个特征提取层与全连接层连接,所述方法包括:
获取待纠错文本,并确定所述待纠错文本对应的特征向量;
将所述特征向量输入到目标纠错模型中,任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待纠错文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;其中,所述全连接层接收到的特征向量包括所述第一特征向量,和/或所述待纠错文本对应的特征向量;
根据所述识别概率,确定所述待纠错文本中的字符对应的第一目标标准文字。
2.根据权利要求1所述的方法,其特征在于,所述目标纠错模型包括N个特征提取组,所述特征提取组中包括至少两个特征提取层;任一特征提取组与至少一个其他特征提取组连接;
所述任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量包括:
针对任一特征提取组,若该特征提取组中的首个特征提取层接收到其他特征提取层发送的至少两个特征向量,将所述至少两个特征向量融合,并对融合后的特征向量进行特征提取,得到所述第一特征向量。
3.根据权利要求2所述的方法,其特征在于,将所述至少两个特征向量融合的过程包括:
将所述至少两个特征向量进行拼接,得到融合后的特征向量。
4.根据权利要求3所述的方法,其特征在于,所述对融合后的特征向量进行特征提取,得到第一特征向量之前,所述方法还包括:
对融合后的特征向量进行降维处理,得到第二特征向量,所述第二特征向量的维度与所述至少两个特征向量的维度一致。
5.根据权利要求1所述的方法,其特征在于,所述全连接层对接收到的特征向量进行融合之前,所述方法还包括:
针对任一特征向量,获取发送该特征向量向的特征提取层对应的权重;根据该特征向量以及所述权重,对该特征向量进行更新。
6.根据权利要求1所述的方法,其特征在于,所述目标纠错模型中还包括至少一个检错子模型;所述将所述特征向量输入到目标纠错模型中之后,所述任一特征提取层对接收到的特征向量进行特征提取之前,所述方法还包括:
将所述特征向量输入到所述至少一个检错子模型中,得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率,所述检测概率用于标识对应的字符在为非错别字字符的概率;
根据所述检测概率,确定所述待纠错文本中是否存在错别字,若是,则执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述待纠错文本中不存在错别字,则任一特征提取组不对接收到的特征向量进行特征提取,并获取下一待纠错文本。
8.根据权利要求6所述的方法,其特征在于,所述得到所述至少一个检错子模型输出的所述待纠错文本中的字符对应的检测概率之后,根据所述检测概率,确定所述待纠错文本中是否存在错别字之前,所述方法还包括:
获取针对所述至少一个检错子模型保存的模型准确率;
针对所述待纠错文本中的任一字符,根据该字符对应的检测概率以及所述至少一个检错子模型对应的模型准确率,确定该字符的目标检测概率;使用所述目标检测概率对得到的该字符对应的检测概率进行更新。
9.根据权利要求6所述的方法,其特征在于,若确定所述待纠错文本中存在错别字,所述执行后续任一特征提取层对接收到的特征向量进行特征提取的步骤之前,所述方法还包括:
确定所述待纠错文本中包括的字符的第三特征向量;
确定所述待纠错文本中的错别字字符对应的词性特征向量和拼音特征向量;
根据所述错别字字符对应的检测概率、对应的第三特征向量、所述词性特征向量、所述拼音特征向量以及预设阈值,确定所述错别字字符的目标特征向量,并使用所述目标特征向量对所述错别字字符对应的第三特征向量进行更新;
将所述待纠错文本中包括的字符的第三特征向量作为所述待纠错文本的特征向量发送给至少一个特征提取层和/或所述全连接层。
10.根据权利要求6所述的方法,其特征在于,所述检错子模型为剪枝后的模型。
11.根据权利要求1所述的方法,其特征在于,所述目标纠错模型的训练过程包括:
获取样本集,所述样本集中包括多个样本文本,所述样本文本对应有第一标签,所述第一标签用于标识所述样本文本中的错别字对应的第二目标标准文字;
确定所述样本文本对应的特征向量,并将所述特征向量及对应的第一标签输入到初始纠错模型中,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第四特征向量,将所述第四特征向量发送给与其连接的特征提取层和/或全连接层;其中,所述初始纠错模型的至少两个特征提取层与全连接层连接;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述样本文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;其中,所述全连接层接收到的特征向量包括所述第四特征向量,和/或所述样本文本对应的特征向量;
根据所述识别概率中目标标准文字及所述样本文本中非错别字对应的目标识别概率以及预设超参数,确定第一损失值,根据所述第一损失值对所述初始纠错模型进行训练,得到目标纠错模型。
12.根据权利要求11所述的方法,其特征在于,所述初始纠错模型中还包括至少一个初始检错子模型;所述样本集中的样本文本还对应有第二标签,所述第二标签用于标识所述样本文本中每个字符所归属的预设类别,所述预设类别包括错别字字符和非错别字字符;
所述将所述特征向量及对应的第一标签输入到初始纠错模型中之后,所述初始纠错模型的任一特征提取层对接收到的特征向量进行特征提取之前,所述方法还包括:
将所述特征向量及对应的第二标签输入到所述至少一个初始检错子模型中,得到所述样本文本中的字符对应的检测概率,所述检测概率用于标识对应的字符为非错别字字符的概率;
根据所述第二标签标识的样本文本中的字符所归属的预设类别,及对应的检测概率,确定第二损失值;
所述根据所述第一损失值对所述初始纠错模型进行训练包括:
根据所述第一损失值、所述第二损失值以及预设权重,确定目标损失值,根据所述目标损失值对所述初始纠错模型进行训练。
13.一种基于大模型的SQL语句生成方法,其特征在于,所述方法包括:
将待转换文本输入到目标纠错模型中,得到所述目标纠错模型输出的标准文本;
将所述标准文本输入到大模型中,得到所述大模型输出的目标SQL语句;
其中,所述目标纠错模型确定待转换文本的标准文本的过程包括:
所述目标纠错模型的任一特征提取层对接收到的特征向量进行特征提取,得到第一特征向量,将所述第一特征向量发送给与其连接的特征提取层和/或全连接层;其中,所述目标纠错模型的至少两个特征提取层与全连接层连接;
所述全连接层对接收到的特征向量进行融合,并对融合后的特征向量进行归一化处理,确定所述待转换文本中的字符对应的识别概率,所述识别概率用于标识所述字符分别为多个标准文字的概率;其中,所述全连接层接收到的特征向量包括所述第一特征向量,和/或所述待转换文本对应的特征向量;
根据所述识别概率,确定所述待转换文本中的字符对应的第一目标标准文字。
14.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-12任一项所述的文本纠错方法的步骤,或,如上述权利要求13所述的基于大模型的SQL语句生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311248897.5A CN116991874B (zh) | 2023-09-26 | 2023-09-26 | 一种文本纠错、基于大模型的sql语句生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311248897.5A CN116991874B (zh) | 2023-09-26 | 2023-09-26 | 一种文本纠错、基于大模型的sql语句生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116991874A CN116991874A (zh) | 2023-11-03 |
CN116991874B true CN116991874B (zh) | 2024-03-01 |
Family
ID=88525171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311248897.5A Active CN116991874B (zh) | 2023-09-26 | 2023-09-26 | 一种文本纠错、基于大模型的sql语句生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116991874B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164310A1 (zh) * | 2020-02-21 | 2021-08-26 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
CN114444479A (zh) * | 2022-04-11 | 2022-05-06 | 南京云问网络技术有限公司 | 一种端到端中文语音文本纠错方法、装置和存储介质 |
CN114781377A (zh) * | 2022-06-20 | 2022-07-22 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
WO2022160447A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114911940A (zh) * | 2022-05-27 | 2022-08-16 | 重庆长安汽车股份有限公司 | 文本情感识别方法及装置、电子设备、存储介质 |
CN115130463A (zh) * | 2022-04-19 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 纠错方法、模型训练方法、计算机介质以及设备 |
CN115757764A (zh) * | 2021-08-27 | 2023-03-07 | 中移(杭州)信息技术有限公司 | 一种信息识别方法、装置、设备及计算机可读存储介质 |
CN115862040A (zh) * | 2022-12-12 | 2023-03-28 | 杭州恒生聚源信息技术有限公司 | 文本纠错方法、装置、计算机设备及可读存储介质 |
CN115858556A (zh) * | 2022-11-11 | 2023-03-28 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置、存储介质及电子设备 |
CN116029261A (zh) * | 2021-10-22 | 2023-04-28 | 合肥本源量子计算科技有限责任公司 | 中文文本语法纠错方法及相关设备 |
CN116127952A (zh) * | 2023-01-16 | 2023-05-16 | 之江实验室 | 一种多粒度中文文本纠错方法和装置 |
CN116665675A (zh) * | 2023-07-25 | 2023-08-29 | 上海蜜度信息技术有限公司 | 语音转写方法、系统、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
-
2023
- 2023-09-26 CN CN202311248897.5A patent/CN116991874B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164310A1 (zh) * | 2020-02-21 | 2021-08-26 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
WO2022160447A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN115757764A (zh) * | 2021-08-27 | 2023-03-07 | 中移(杭州)信息技术有限公司 | 一种信息识别方法、装置、设备及计算机可读存储介质 |
CN116029261A (zh) * | 2021-10-22 | 2023-04-28 | 合肥本源量子计算科技有限责任公司 | 中文文本语法纠错方法及相关设备 |
CN114444479A (zh) * | 2022-04-11 | 2022-05-06 | 南京云问网络技术有限公司 | 一种端到端中文语音文本纠错方法、装置和存储介质 |
CN115130463A (zh) * | 2022-04-19 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 纠错方法、模型训练方法、计算机介质以及设备 |
CN114911940A (zh) * | 2022-05-27 | 2022-08-16 | 重庆长安汽车股份有限公司 | 文本情感识别方法及装置、电子设备、存储介质 |
CN114781377A (zh) * | 2022-06-20 | 2022-07-22 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
CN115858556A (zh) * | 2022-11-11 | 2023-03-28 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置、存储介质及电子设备 |
CN115862040A (zh) * | 2022-12-12 | 2023-03-28 | 杭州恒生聚源信息技术有限公司 | 文本纠错方法、装置、计算机设备及可读存储介质 |
CN116127952A (zh) * | 2023-01-16 | 2023-05-16 | 之江实验室 | 一种多粒度中文文本纠错方法和装置 |
CN116665675A (zh) * | 2023-07-25 | 2023-08-29 | 上海蜜度信息技术有限公司 | 语音转写方法、系统、电子设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
MuCGEC:a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction;Yue Zhang 等;arxiv.org;第1-14页 * |
基于BERT在税务公文系统中实现纠错功能;袁野;朱荣钊;;现代信息科技(13);第19-21页 * |
基于Transformer增强架构的中文语法纠错方法;王辰成;杨麟儿;王莹莹;杜永萍;杨尔弘;;中文信息学报(06);第106-114页 * |
基于上下文语义的新闻人名纠错方法;杨越;黄瑞章;魏琴;陈艳平;秦永彬;;电子科技大学学报(06);第809-814页 * |
基于深度学习技术的语法纠错算法模型构建分析;景艳娥;;信息技术(09);第143-147、152页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116991874A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN117558270B (zh) | 语音识别方法、装置、关键词检测模型的训练方法和装置 | |
CN116991875B (zh) | 一种基于大模型的sql语句生成、别名映射方法及设备 | |
CN112183060B (zh) | 多轮对话系统的指代消解方法 | |
CN117332788A (zh) | 一种基于英语口语文本的语义分析方法 | |
CN112183513B (zh) | 一种图像中文字的识别方法、装置、电子设备及存储介质 | |
CN114462418B (zh) | 事件检测方法、系统、智能终端及计算机可读存储介质 | |
CN112052329A (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN116991874B (zh) | 一种文本纠错、基于大模型的sql语句生成方法及设备 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及系统 | |
CN115713082A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN113177406B (zh) | 文本处理方法、装置、电子设备和计算机可读介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |