CN113378553A - 文本处理方法、装置、电子设备和存储介质 - Google Patents

文本处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113378553A
CN113378553A CN202110431554.7A CN202110431554A CN113378553A CN 113378553 A CN113378553 A CN 113378553A CN 202110431554 A CN202110431554 A CN 202110431554A CN 113378553 A CN113378553 A CN 113378553A
Authority
CN
China
Prior art keywords
pinyin
sequence
text
sample
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110431554.7A
Other languages
English (en)
Inventor
蒋涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Boguan Information Technology Co Ltd
Original Assignee
Guangzhou Boguan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Boguan Information Technology Co Ltd filed Critical Guangzhou Boguan Information Technology Co Ltd
Priority to CN202110431554.7A priority Critical patent/CN113378553A/zh
Publication of CN113378553A publication Critical patent/CN113378553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文本处理方法、装置、电子设备和存储介质,包括:获取待处理的拼音序列;将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。本发明实施例可以将用户输入的包含有错误的模糊音的待处理的拼音序列转换成正确的目标文本序列,提高了用户的输入体验。

Description

文本处理方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,特别是涉及一种文本处理方法、一种文本处理装置、电子设备和存储介质。
背景技术
目前市面上,存在许多将用户输入的完全正确拼音转化为文本的工具,但是,在拼音有错误的情况时,这些工具难以将拼音转换为正确的文本。
为了对拼音进行纠错,涌现出了一些基于统计学习的方法。然而,这些方法存在比较明显的弊端,需要人工手动提取特征,耗费许多人力物力。虽然,后续也陆续出现了一些基于深度学习的方式,但是也只能将错误文本转换为正确文本,无法将错误拼音进行转换,将其转换成正确的文本。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本处理方法和相应的一种文本处理装置、电子设备、存储介质。
为了解决上述问题,本发明实施例公开了一种文本处理方法,所述方法包括:
获取待处理的拼音序列;
将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;其中,所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述待处理的拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
可选地,所述获取待处理的拼音序列,包括:
获取用户的输入信息;
在所述输入信息为拼音序列时,将所述拼音序列作为待处理的拼音序列;
在所述输入信息为文本时,将所述文本转换为对应的拼音序列,并将所述拼音序列作为待处理的拼音序列;
在所述输入信息为语音时,将所述语音转换为文本后,再将所述文本转换为对应的拼音序列作为待处理的拼音序列。
可选地,所述将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列,包括:
在将所述待处理的拼音序列输入至训练完成的拼音纠错模型后,所述拼音纠错模型用于:
确定所述待处理的拼音序列的拼音长度;
将所述待处理的拼音序列按照所述拼音长度进行预排序得到排序结果,并依据排序结果确定所述待处理的拼音序列对应的的排序索引;
将所述拼音长度在指定长度范围内的所述待处理的拼音序列,组合为批处理序列;
依据将所述批处理序列生成批处理结果序列;
按照所述排序索引对所述批处理结果序列进行重新排序得到预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
可选地,所述拼音纠错模型通过如下方式训练:
获取文本样本序列,以及所述文本样本序列对应的第一样本拼音序列;
依据所述第一样本拼音序列生成第二样本拼音序列;所述第二样本拼音序列是将所述第一样本拼音序列中为模糊音的拼音替换为相近模糊音的拼音;
依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型。
可选地,所述依据所述第一样本拼音序列生成第二样本拼音序列,包括:
从所述第一样本拼音序列中随机获取目标第一样本拼音序列;
将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列。
可选地,所述将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,包括:
依据预设编辑距离,将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,所述预设编辑距离为将所述第一样本拼音序列转换为所述第二样本拼音序列所需的操作次数,所述操作至少包括替换、插入和删除的其中一种。
可选地,所述拼音纠错模型包括拼音序列拟合层和文本序列拟合层,所述依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型,包括:
将所述第二样本拼音序列输入所述拼音序列拟合层,得到预测拼音序列,采用所述预测拼音序列和所述第一样本拼音序列计算损失值,依据所述损失值对所述拼音序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件;
将所述预测拼音序列输入所述文本序列拟合层,得到预测文本序列,采用所述预测文本序列和所述文本样本序列计算损失值,依据所述损失值对所述文本序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件。
本发明实施例还公开了一种文本处理装置,所述装置包括:
拼音序列获取模块,用于获取待处理的拼音序列;
拼音序列输入模块,用于将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的文本处理方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的文本处理方法的步骤。
本发明实施例包括以下优点:
在本发明实施例中,在输入的过程中,获取待处理的拼音序列,将待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列。本发明实施例的拼音纠错模型可以将待处理的拼音序列为模糊音的拼音替换为模糊音的相近模糊音得到模糊拼音序列,输出待处理的拼音序列和模糊拼音序列分别对应的预测文本序列和预测文本序列的正确概率,最后依据正确概率从预测文本序列中确定目标文本序列,从而将用户输入的包含有错误的模糊音的拼音序列转换成正确的目标文本序列,提高了用户的输入体验。
附图说明
图1是本发明的一种文本处理方法实施例的步骤流程图;
图2是本发明的一种拼音纠错模型的训练步骤流程图;
图3是本发明的一种拼音纠错模型的示意图;
图4是本发明的一种文本处理装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
相关技术方案1:基于统计学习的方案,主要包括以下步骤:
1、错误检测。错误检测部分,先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况。往往从两种角度去检测错误,分别是字粒度和词粒度。字粒度通过语言模型的困惑度(ppl, Perplexity)检测某字的似然概率低于句子文本平均值,则判定该字是疑似错别字的概率大。词粒度则是将切词后不在词典中的词是疑似错词的概率大。这样从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;2、错误纠正。错误纠正部分,是遍历所有的疑似错误位置,并使用音似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。
相关技术方案2:基于深度学习从文本到文本纠错方案,主要包括以下步骤:
1、预训练文本BERT语言模型。在海量文本数据集上,预训练一个文本BERT模型。其中,Transformer:基于自注意力的序列转换模型;BERT: Bidirectional EncoderRepresentation from Transformers,双向Transformer的编码模型。2、预训练拼音BERT语言模型。在海量拼音数据集上,预训练一个拼音BERT模型。3、输入错误文本,分别经过上述两个预训练BERT模型获取每个token的向量。4、再训练一个BERT纠错模型,将上述获取到的向量再进行训练,对正确数据进行拟合,期望模型学习错误文本到正确文本的转换。
上述的相关技术方案1,主要有以下缺点:
1、依赖于语言模型。需要基于海量数据训练语言模型,耗费时间和算力。2、需要人为制定纠错集和纠错词库,往往这部分集合的完备性对算法纠错能力有很大影响。3、时间复杂度高,对所有疑似错误位置进行相似词遍历,较为耗时。4、没有充分的包含错误拼音的数据集可供训练,容易对现有小量数据过拟合。
上述的相关技术方案2,主要有以下缺点:
1、需要基于海量的文本和拼音,训练两个BERT语言模型,流程复杂,较为耗时。2、需要利用学习的两个语言模型得到固定输入句子的固定向量表示,再训练一个BERT纠错模型,时间复杂度高的同时,由于输入句子的向量表示固定,没有根据具体任务进行调整,灵活性较差。3、纠错过程繁琐,耗时较长。需要经过三个BERT模型,且后一个与前两个BERT模型无法并行。
针对上述问题,本发明实施例提出了一种文本处理方法,将包含有错误拼音的序列转换成正确汉字序列的问题,具体地,首先利用模糊音生成算法解决错误拼音训练数据集不充分的问题,从正确拼音中构造相似错误拼音作为替代,然后利用BERT模型对生成的数据进行训练,前6层学习错误拼音到正确拼音的转换,后6层学习正确拼音到正确汉字的转换,最后利用训练得到的模型对输入拼音序列进行解码转换,获取模型最后一层每个位置的输出概率最大的字即可。此外,还设计解码加速算法,针对解码过程进行加速。
参照图1,示出了本发明的一种文本处理方法实施例的步骤流程图,如图1所示,具体可以包括如下步骤:
步骤101、获取待处理的拼音序列。
本发明实施例可以应用但不限于以下应用场景:用户搜索(用户可能打字出现错误),基于ASR(Automatic Speech Recognition,自动语音识别技术) 的语音识别(语音识别的结果可能出现错误),输入法等。具体地,在用户搜索的应用场景中,用户在搜索栏中输入的拼音或者文本;在语音识别的应用场景中,用户通过自动语音识别技术识别的文本;在输入法的应用场景中,用户通过输入法输入的拼音、文本或者语音。随后,可以获取在这些应用场景下的输入信息,如果输入信息是拼音序列可以直接获取为待处理的拼音序列,如果输入信息不是拼音序列而是文本或者语音等,则可以通过转换得到待处理的拼音序列。
其中,待处理的拼音序列可以由一个或者多个拼音组成。举例来说,假设有待处理的拼音序列“zhong”,该待处理的拼音序列为由“zh”“ong”两个拼音组成。
步骤102、将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
其中,模糊音和相近模糊音是指某些容易混淆的音节对,例如声母模糊音对:“s-sh”,“c-ch”,“z-zh”,“l-n”,“f-h”,“r-l”,韵母模糊音对:“an-ang”,“en-eng”,“in-ing”,“ian-iang”,“uan-uang”。当然,模糊音可以通过根据实际情况,例如地区、年龄、性别等进行优化处理,以更符合实际需求,本发明实施例对此不做限制。
其中,文本序列是指的文本,例如“我是中国人”、“福建”。具体地,将待处理的拼音序列输入至训练完成的拼音纠错模型后,拼音纠错模型可以依据待处理的拼音序列得到预测文本序列和预测文本序列的正确概率,预测文本序列为包含模糊音的拼音序列对应的文本序列,以及包含相近模糊音的拼音序列对应的文本序列。其中,正确概率表示预测文本序列是正确的文本序列的概率。
其中,目标文本序列表示在预测文本序列中,正确概率最大的预测文本序列。具体地,拼音纠错模型在得到预测文本序列和预测文本序列的正确概率后,可以将正确概率最大的预测文本序列作为目标文本序列,并展示给用户,以供用户选择上屏或者直接完成输入。
在上述文本处理方法中,在输入的过程中,获取待处理拼音序列,将待处理拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列。本发明实施例的拼音纠错模型可以将待处理的拼音序列为模糊音的拼音替换为模糊音的相近模糊音得到模糊拼音序列,输出待处理的拼音序列和模糊拼音序列对应的预测文本序列和预测文本序列的正确概率,最后依据正确概率从预测文本序列中确定目标文本序列,从而将用户输入的包含有错误的模糊音的拼音序列转换成正确的目标文本序列,提高了用户的输入体验。
在一示例性实施例中,所述步骤101、获取待处理的拼音序列,包括:
获取用户的输入信息;
在所述输入信息为拼音序列时,将所述拼音序列作为待处理的拼音序列;
在所述输入信息为文本时,将所述文本转换为对应的拼音序列,并将所述拼音序列作为待处理的拼音序列;
在所述输入信息为语音时,将所述语音转换为文本后,再将所述文本转换为对应的拼音序列作为待处理的拼音序列。
其中,输入信息可以是在各种应用场景下用户输入的输入信息,比如输入法上输入的拼音串、输入法上输入的语音、机器翻译后的大段文本以及等等。具体地,在获取到用户的输入信息后,将依据输入信息获取待处理的拼音序列。
如果输入信息不是拼音序列,例如是文本或者语音,则需要将文本或者语音转换为对应的拼音序列,再作为待处理的拼音序列,如果输入信息是拼音序列,则无需处理,直接作为待处理的拼音序列。举例来说,如果输入信息是文本“我是中国人”,则需要将文本转换对应的拼音序列“wo”“shi”“zhong”“guo”“人”,如果输入信息是语音,则需要先将语音通过自动语音识别技术转换为文本,再将转换的文本转换为对应的拼音序列。
在上述示例性实施例中,不管输入信息是否是拼音序列,本发明实施例均可以将输入信息转换为待处理的拼音序列,从而可以进一步利用拼音纠错模型将待处理的拼音序列转换为正确的目标文本序列,而在已有的相关方案中,是从错误的文本序列到正确的文本序列的转换,而本发明实施例从拼音本身出发,既考虑拼音的纠错也考虑拼音到文本之间的转换关系,能够应用于各种应用场景中,适用范围非常广。
在一示例性实施例中,所述步骤102、将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列,包括:
在将所述待处理的拼音序列输入至训练完成的拼音纠错模型后,所述拼音纠错模型用于:
确定所述待处理的拼音序列的拼音长度;
将所述待处理的拼音序列按照所述拼音长度进行预排序得到排序结果,并依据排序结果确定所述待处理的拼音序列对应的的排序索引;
将所述拼音长度在指定长度范围内的所述待处理的拼音序列,组合为批处理序列;
依据将所述批处理序列生成批处理结果序列;
按照所述排序索引对所述批处理结果序列进行重新排序得到预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
其中,拼音长度是指的拼音序列的长度,例如拼音序列“wo”的拼音长度可以是2。预排序是对拼音序列按照拼音长度进行排序。排序索引是指拼音序列的排序的位置,举例来说,对数组[2,3,1]进行降序排序得到排序结果[3,2,1],那么对应的排序索引就是[1,0,2],排序索引意味着排序的结果在初始序列中的位置(下标从0开始)。那利用排序索引[1,0,2]的升序排序索引[1,0,2]作为索引,对排序结果[3,2,1]可以进行还原,得到原始的数组对应的顺序[2,3,1]。
在相关方案中,是将待处理的拼音序列一一经过拼音纠错模型,但是这种处理速度较慢,针对上述问题,本发明实施例进一步提出了解码加速算法,来提高待处理的拼音序列转换为正确的文本序列的速度。
具体地,解码加速算法主要包括两个步骤:首先确定待处理的拼音序列的拼音长度,对待处理的拼音序列进行预排序,保留排序索引,将拼音长度相近,即在同一个指定长度范围内的拼音序列处理成一个batch(批处理序列),输入拼音纠错模型,拼音纠错模型得到批处理序列对应的批处理结果序列,利用保留的排序索引对批处理结果序列进行还原,得到顺序与待处理的拼音序列相同的预测文本序列和预测文本序列的正确概率,然后再依据正确概率从预测文本序列中确定目标文本序列。
在上述示例性实施例中,应用批处理和预排序,不仅可以起到对文本处理加速的效果,还可以将批处理序列内的填充数据量降低到最小,即假设批处理序列中有3和4两种长度,那么也只需要将3填充为4即可,因此填充数据量小,有利于节省时间以及空间开销。在实际中应用解码加速算法后,解码流程从原始的200条解码需耗时50s,降低到仅需1.2s,提升了拼音纠错模型的解码速度。
在一示例性实施例中,参照图2,所述拼音纠错模型通过如下方式序列所得:
步骤201、获取文本样本序列,以及所述文本样本序列对应的第一样本拼音序列;
具体地,利用已有的语料库中包含有大量的文本样本序列,转换为第一样本拼音序列。其中,第一样本拼音序列默认为正确的拼音序列,将文本样本序列和第一样本拼音序列作为训练样本数据在拼音纠错模型的训练过程使用。
步骤202、依据所述第一样本拼音序列生成第二样本拼音序列;所述第二样本拼音序列是将所述第一样本拼音序列中为模糊音的拼音替换为相近模糊音的拼音。
本发明实施例中,设计模糊音生成算法,对于第一样本拼音序列,以一定概率,例如15%的概率使用相近模糊音进行替换,例如,将第一样本拼音序列“wo3 ai4zhong1guo2”,用“zong1”替换“zhong1”,可以得到第二样本拼音序列“wo3 ai4 zong1guo2”。
在一示例性实施例中,所述步骤202、依据所述第一样本拼音序列生成第二样本拼音序列,包括:
从所述第一样本拼音序列中随机获取目标第一样本拼音序列;
将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列。
具体地,对于第一样本拼音序列,本将随机从中选中作为目标第一样本拼音序列,然后将目标第一样本拼音序列中属于模糊音的拼音,例如l,z, r或者f等,替换为对应的相近模糊音,即n,zh,l以及h,从而得到第二样本拼音序列。
在一示例性实施例中,所述将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,包括:
依据预设编辑距离,将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,所述预设编辑距离为将所述第一样本拼音序列转换为所述第二样本拼音序列所需的操作次数,所述操作至少包括替换、插入和删除的其中一种。
其中,编辑距离,即Levenshtein距离,编辑距离可以定义为:两个字符串之间,由一个转换成另外一个所需要的最少的操作次数,其中,在Levenshtein的定义体系中有三种原子操作包括:替换、插入和删除等。举例来说,假设编辑距离为1,则表示只能操作一次,对于第一样本拼音序列“niu2”,可以通过一次的替换操作,将其中的“n”替换为“l”,则可以转换得到第二样本拼音序列“liu2”。
在上述实施例中,利用模糊音生成算法,可以生成大量数据集进行训练。无需人为指定纠错集和纠错词库,通过设定模糊音生成算法,对数据集进行智能生成相似错误拼音,而无需指定纠错集和纠错词库。
步骤203、依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型。
在一示例性实施例中,所述拼音纠错模型包括拼音序列拟合层和文本序列拟合层,所述步骤203、依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型,包括:
将所述第二样本拼音序列输入所述拼音序列拟合层,得到预测拼音序列,采用所述预测拼音序列和所述第一样本拼音序列计算损失值,依据所述损失值对所述拼音序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件;
将所述预测拼音序列输入所述文本序列拟合层,得到预测文本序列,采用所述预测文本序列和所述文本样本序列计算损失值,依据所述损失值对所述文本序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件。
其中,本发明实施例的拼音纠错模型是使用的BERT模型,无需依赖于语言模型,基于BERT的训练模型可以结合上下文,得到的输出结果已经蕴含了上下文的信息,不需要额外的语言模型进行解码计算。模型框架总共包含12层,12层的结构完全一样,对输入数据的处理也是一样的,之所以设置为多层,是因为随着网络结构的加深,网络模型的拟合能力会变得更强。
在本发明实施例中,对BERT模型的12层进行了改进,前6层(拼音序列拟合层)对正确的拼音序列进行拟合,后6层(文本序列拟合层)对正确的文本序列进行拟合。具体地,在模型训练过程中,将第二样本拼音序列输入至前6层的拼音序列拟合层得到预测拼音序列,在第6层采用正确的第一样本拼音序列和预测预测拼音序列进行计算损失值,基于损失值调整拼音序列拟合层的模型参数,直至损失值满足收敛条件,并且,将预测拼音序列输入至后6层的文本序列拟合层得到预测文本序列,在第12层对正确的预测文本序列与预测文本序列进行计算损失值,基于损失值调整文本序列拟合层的模型参数,直至损失值满足收敛条件。
参照图3,为本发明实施例的一种拼音纠错模型的使用示意图,具体过程为,将包含错误“wo3 ai4 zong1 guo2”输入拼音纠错模型,拼音纠错模型的前6层对可以得到正确的拼音序列“wo3 ai4 zhong1 guo2”,然后,将“wo3 ai4 zhong1 guo2”输入到拼音纠错模型的后6层,最终可以输出正确的文本序列“我爱中国”。
需要注意的是,已有的算法虽然在训练阶段也利用了拼音序列,加入了预训练模型的拼音embedding(向量),但是这种设计只是相当于提供了一定辅助信息,且需要预训练两个BERT模型(文本和拼音),再训练一个BERT 纠错模型,可见,流程复杂,时间复杂度高。而本发明实施例的拼音纠错模型,将拼音、文本、纠错三者结合为一体,利用一个无需经过预训练的BERT 模型训练即可,前6层学习错误拼音到正确拼音的转换,后6层学习拼音到文本的映射关系。实验证明,这种训练方式相比于只利用12层进行正确汉字训练,收敛速度更快,且实验损失loss更低。
作为一个具体示例,将错误的文本序列(“我想上去走肘”)的拼音序列作为输入,通过拼音纠错模型可以得到各个位置(各个拼音)的文本以及其对应的正确概率,例如有“我想上去走走”对应的正确概率可以为“0.996 0.995 0.996 0.998 0.991 0.994”,“过先唱区瞅瞅”对应的正确概率可以为“0.0001 0.0001 0.0002 0.0001 0.0001 0.0001”……,其中,“我想上去走走”中各个文本对应的正确概率最高,因此可以作正确的文本序列。
综上,应用本发明实施例,只需将拼音序列输入到拼音纠错模型,获取模型最后一层的每个位置的输出,每个位置正确概率最大的文本即可作为解码输出,无需再利用其他模型,例如语言模型进行复杂计算,提高了输入效率,进而提高用户输入体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种文本处理装置实施例的结构框图,如图 4所示,具体可以包括如下模块:
输入信息获取模块401,用于获取待处理的拼音序列;
拼音序列输入模块402,用于将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述待处理的拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
在一示例性实施例中,所述拼音序列获取模块401,用于获取用户的输入信息;所述输入信息为拼音序列时,将所述拼音序列作为待处理的拼音序列;在所述输入信息为文本时,将所述文本转换为对应的拼音序列,并将所述拼音序列作为待处理的拼音序列;在所述输入信息为语音时,将所述语音转换为文本后,再将所述文本转换为对应的拼音序列作为待处理的拼音序列。。
在一示例性实施例中,所述拼音序列输入模块402,用于确定所述待处理的拼音序列的拼音长度;将所述待处理的拼音序列按照所述拼音长度进行预排序得到排序结果,并依据排序结果确定所述待处理的拼音序列对应的的排序索引;将所述拼音长度在指定长度范围内的所述待处理的拼音序列,组合为批处理序列;依据将所述批处理序列生成批处理结果序列;按照所述排序索引对所述批处理结果序列进行重新排序得到预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
在一示例性实施例中,所述装置还包括拼音序列训练模块,用于获取文本样本序列,以及所述文本样本序列对应的第一样本拼音序列;依据所述第一样本拼音序列生成第二样本拼音序列;所述第二样本拼音序列是将所述第一样本拼音序列中为模糊音的拼音替换为相近模糊音的拼音;依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型。
在一示例性实施例中,所述拼音序列训练模块,用于从所述第一样本拼音序列中随机获取目标第一样本拼音序列;将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列。
在一示例性实施例中,所述拼音序列训练模块,用于依据预设编辑距离,将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,所述预设编辑距离为将所述第一样本拼音序列转换为所述第二样本拼音序列所需的操作次数,所述操作至少包括替换、插入和删除的其中一种。
在一示例性实施例中,所述拼音纠错模型包括拼音序列拟合层和文本序列拟合层,所述拼音序列训练模块,用于将所述第二样本拼音序列输入所述拼音序列拟合层,得到预测拼音序列,采用所述预测拼音序列和所述第一样本拼音序列计算损失值,依据所述损失值对所述拼音序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件;将所述预测拼音序列输入所述文本序列拟合层,得到预测文本序列,采用所述预测文本序列和所述文本样本序列计算损失值,依据所述损失值对所述文本序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上文本处理方法实施例所述的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上文本处理方法实施例所述的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种文本处理方法、一种文本处理装置、电子设备和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理的拼音序列;
将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;其中,所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述待处理的拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的拼音序列,包括:
获取用户的输入信息;
在所述输入信息为拼音序列时,将所述拼音序列作为待处理的拼音序列;
在所述输入信息为文本时,将所述文本转换为对应的拼音序列,并将所述拼音序列作为待处理的拼音序列;
在所述输入信息为语音时,将所述语音转换为文本后,再将所述文本转换为对应的拼音序列作为待处理的拼音序列。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列,包括:
在将所述待处理的拼音序列输入至训练完成的拼音纠错模型后,所述拼音纠错模型用于:
确定所述待处理的拼音序列的拼音长度;
将所述待处理的拼音序列按照所述拼音长度进行预排序得到排序结果,并依据排序结果确定所述待处理的拼音序列对应的的排序索引;
将所述拼音长度在指定长度范围内的所述待处理的拼音序列,组合为批处理序列;
依据将所述批处理序列生成批处理结果序列;
按照所述排序索引对所述批处理结果序列进行重新排序得到预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
4.根据权利要求1所述的方法,其特征在于,所述拼音纠错模型通过如下方式训练:
获取文本样本序列,以及所述文本样本序列对应的第一样本拼音序列;
依据所述第一样本拼音序列生成第二样本拼音序列;所述第二样本拼音序列是将所述第一样本拼音序列中为模糊音的拼音替换为相近模糊音的拼音;
依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型。
5.根据权利要求4所述的方法,其特征在于,所述依据所述第一样本拼音序列生成第二样本拼音序列,包括:
从所述第一样本拼音序列中随机获取目标第一样本拼音序列;
将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列。
6.根据权利要求5所述的方法,其特征在于,所述将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,包括:
依据预设编辑距离,将所述目标第一样本拼音序列中为模糊音的拼音,替换为与所述模糊音相近的相近模糊音,得到第二样本拼音序列,所述预设编辑距离为将所述第一样本拼音序列转换为所述第二样本拼音序列所需的操作次数,所述操作至少包括替换、插入和删除的其中一种。
7.根据权利要求4所述的方法,其特征在于,所述拼音纠错模型包括拼音序列拟合层和文本序列拟合层,所述依据所述文本样本序列、第一样本拼音序列和所述第二样本拼音序列对待训练的拼音纠错模型进行训练,得到训练完成的拼音纠错模型,包括:
将所述第二样本拼音序列输入所述拼音序列拟合层,得到预测拼音序列,采用所述预测拼音序列和所述第一样本拼音序列计算损失值,依据所述损失值对所述拼音序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件;
将所述预测拼音序列输入所述文本序列拟合层,得到预测文本序列,采用所述预测文本序列和所述文本样本序列计算损失值,依据所述损失值对所述文本序列拟合层的模型参数进行调整,直至所述损失值满足收敛条件。
8.一种输入装置,其特征在于,所述装置包括:
拼音序列获取模块,用于获取待处理的拼音序列;
拼音序列输入模块,用于将所述待处理的拼音序列输入至训练完成的拼音纠错模型中,得到目标文本序列;所述拼音纠错模型用于将所述待处理的拼音序列为模糊音的拼音替换为所述模糊音的相近模糊音得到模糊拼音序列,输出所述拼音序列和所述模糊拼音序列分别对应的预测文本序列和所述预测文本序列的正确概率,并依据所述正确概率从所述预测文本序列中确定目标文本序列。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本处理方法的步骤。
CN202110431554.7A 2021-04-21 2021-04-21 文本处理方法、装置、电子设备和存储介质 Pending CN113378553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110431554.7A CN113378553A (zh) 2021-04-21 2021-04-21 文本处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110431554.7A CN113378553A (zh) 2021-04-21 2021-04-21 文本处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113378553A true CN113378553A (zh) 2021-09-10

Family

ID=77569919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110431554.7A Pending CN113378553A (zh) 2021-04-21 2021-04-21 文本处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113378553A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226767A1 (zh) * 2022-05-23 2023-11-30 支付宝(杭州)信息技术有限公司 模型训练方法和装置及语音含义的理解方法和装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297797A (zh) * 2016-07-26 2017-01-04 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111768765A (zh) * 2020-07-30 2020-10-13 华为技术有限公司 语言模型生成方法和电子设备
CN112115706A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297797A (zh) * 2016-07-26 2017-01-04 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111768765A (zh) * 2020-07-30 2020-10-13 华为技术有限公司 语言模型生成方法和电子设备
CN112115706A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226767A1 (zh) * 2022-05-23 2023-11-30 支付宝(杭州)信息技术有限公司 模型训练方法和装置及语音含义的理解方法和装置

Similar Documents

Publication Publication Date Title
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN107315737B (zh) 一种语义逻辑处理方法及系统
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN106503231B (zh) 基于人工智能的搜索方法和装置
US20240005093A1 (en) Device, method and program for natural language processing
CN110377882B (zh) 用于确定文本的拼音的方法、装置、系统和存储介质
CN113380223B (zh) 多音字消歧方法、装置、系统及存储介质
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114548053A (zh) 一种基于编辑方法的文本对比学习纠错系统、方法及装置
CN113378553A (zh) 文本处理方法、装置、电子设备和存储介质
CN112257432A (zh) 一种自适应意图识别方法、装置及电子设备
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
CN113205813B (zh) 语音识别文本的纠错方法
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN111090720B (zh) 一种热词的添加方法和装置
CN114333760A (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
Dinarelli et al. Concept segmentation and labeling for conversational speech
CN114118065B (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN113221967B (zh) 特征抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination