CN113255331A - 文本纠错方法、装置及存储介质 - Google Patents
文本纠错方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113255331A CN113255331A CN202110683143.7A CN202110683143A CN113255331A CN 113255331 A CN113255331 A CN 113255331A CN 202110683143 A CN202110683143 A CN 202110683143A CN 113255331 A CN113255331 A CN 113255331A
- Authority
- CN
- China
- Prior art keywords
- text
- error correction
- corrected
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 287
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 187
- 230000011218 segmentation Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims description 42
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000007667 floating Methods 0.000 claims description 16
- 239000013604 expression vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 244000062793 Sorghum vulgare Species 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 235000019713 millet Nutrition 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供一种文本纠错方法、装置及存储介质,所述方法包括:获取待纠错文本的表示向量,将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果,其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的,所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的,所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果,能够提高文本纠错的准确性。
Description
技术领域
本申请涉及文本识别技术领域,尤其涉及一种文本纠错方法、装置及存储介质。
背景技术
在搜索引擎当中,用户会输入一串文字,让计算机尝试理解这段文字的意义。一般会将文字中的每一个汉字或者词组表示为计算机内存中的一组数字,我们称这组数字为汉字的表示向量。
现有的中文文本表示,主要有两种方法:1. 基于统计信息的词袋模型,2. 基于神经网络的字/词向量模型。
上述两种方法都可以提取汉字每个字符的向量表示。但上述方法主要借鉴了英文的文本表示的方法,上述基于统计信息的n阶语言模型的词袋模型,只能抽取字词的概率信息,基于神经网络的字/词向量模型,只能学习到语义域的信息。
但是在文本纠错领域,一串文字可以有多种可能的纠错结果,由于中文是现存唯一广泛使用的语素文字系统,与英文等字母书写系统不同,中文的每个字符除了语义信息外还包括了发音和字形信息。例如:文本是“美丽的鲜华”,其中因为“鲜艳”是一个常见的单词,所以“美丽的鲜艳”是一种潜在的纠错结果。同时“美丽的鲜花”是一种潜在的纠错结果。因为“华”和“花”的发音相似,所以一般认为“美丽的鲜花”是更好的纠错结果。因此要得到这样的纠错结果需要发音和字形信息,但是上述方法均无法提供有效的支持,无法表示汉字间的发音的相似度和字形的相似度,从而无法得到令人满意的文本纠错结果。
发明内容
针对现有技术存在的上述技术问题,本申请提供一种文本纠错方法、装置及存储介质。
第一方面,本申请提供一种文本纠错方法,包括:
获取待纠错文本的表示向量;
将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。
可选地,根据本申请的文本纠错方法,所述检测模块是基于所述待纠错文本样本以及预先确定的文本纠错类型标签进行预训练后得到的;所述文本纠错类型包括:拼音纠错、中文纠错和英文纠错;
所述分词模块是基于所述待纠错文本样本以及预先确定的分词结果标签进行预训练后得到的;
所述纠错模块包括与所述文本纠错类型对应的拼音纠错子模块、中文纠错子模块和英文纠错子模块;
所述拼音纠错子模块是基于所述待纠错文本样本以及预先确定的拼音纠错结果标签进行预训练后得到的;所述中文纠错子模块是基于所述待纠错文本样本以及预先确定的中文纠错结果标签进行预训练后得到的;所述英文纠错子模块是基于所述待纠错文本样本以及预先确定的英文纠错结果标签进行预训练后得到的。
可选地,根据本申请的文本纠错方法,所述获取待纠错文本的表示向量,包括:
确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量;
将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,输出所述待纠错文本的表示向量;
其中,所述信息抽取模型是基于待纠错文本样本进行训练后得到的。
可选地,根据本申请的文本纠错方法,所述确定所述待纠错文本对应的语言模型向量的步骤,包括:
基于预训练的前向二阶语言模型、前向三阶语言模型、后向二阶语言模型和后向三阶语言模型,确定所述待纠错文本中各字符对应的浮点数概率分布向量;
对各字符对应的浮点数概率分布向量进行压缩处理,获得所述待纠错文本对应的语言模型向量。
可选地,根据本申请的文本纠错方法,所述确定所述待纠错文本对应的字形向量的步骤,包括:
基于新细明字体库将所述待纠错文本中的汉字转换为对应的汉字图片;
基于所述汉字图片及预训练的卷积神经网络,确定所述待纠错文本对应的字形向量。
可选地,根据本申请的文本纠错方法,所述确定所述待纠错文本对应的拼音向量的步骤,包括:
确定所述待纠错文本中的汉字的拼音;
基于所述待纠错文本中的汉字的拼音,确定各汉字的拼音的one-hot向量;
基于各汉字的拼音的one-hot向量,确定所述待纠错文本对应的拼音向量。
可选地,根据本申请的文本纠错方法,所述文本纠错模型为词粒度的纠错模型,所述信息抽取模型采用带有通道注意力机制的卷积神经网络进行信息抽取。
第二方面,本申请还提供一种文本纠错装置,包括:
表示向量获取单元,用于获取待纠错文本的表示向量;
文本纠错单元,用于将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。
第三方面,本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所提供的方法的步骤。
第四方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所提供的方法的步骤。
本申请提供的文本纠错方法、装置及存储介质,通过将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果,所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的,所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果,能够提高文本纠错的准确性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的文本纠错方法的流程示意图;
图2是本申请提供的文本纠错模型的结构示意图;
图3是本申请提供的文本纠错流程示意图;
图4是本申请提供的信息抽取模型的结构示意图;
图5是本申请提供的语言模型向量的获取流程示意图;
图6是本申请提供的字形向量的获取流程示意图;
图7是本申请提供的文本纠错装置的结构示意图;
图8是本申请提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1-图8描述本申请的文本纠错方法、装置及存储介质。
图1为本申请提供的文本纠错方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待纠错文本的表示向量。
具体的,由于中文是现存唯一广泛使用的语素文字系统(logographic writingsystem),与英文等字母书写系统(alphabetic writing system)不同,中文的每个字符除了语义信息外还包括了发音和字形信息。而在文本纠错领域,发音信息和字形信息是识别文本拼写错误的重要文字属性。现有方法往往中文和英文的处理方法相同,导致在中文文字分布式表示中,常常损失了中文作为语素文字系统的特殊信息。发音、字形、声调等信息都在计算机输入阶段被丢失。
目前常用的汉字表示方法有两种:1. 基于统计信息的词袋模型的非分布式表示。2. 基于神经网络的字/词向量模型来构建分布式表示。其中n阶语言模型只考虑了汉字前后的上下文的词频信息,缺少对汉字意义的理解。例如,假设语料中只有“苹果手机”和“小米手机”两个词,那么对于n阶语言模型而言,“苹果”和“小米”就是等价的。因为他们的上下文都只有手机。而对于字/词向量可以通过预训练引入外部知识,让计算机理解“小米”和“苹果”的差别。但是又缺少了对汉字更具象的信息,例如上下文词频、发音、字形等等。
本申请结合n阶语言模型和字/词向量模型的优点,引入字形、发音等信息,将汉字信息划分为语义域(Semantic domain)和符号域(Symbolic domain),分别包含了与汉字上下文关联的语义信息和与汉字上下文无关的发音、字形等字符信息,语义域即是中文文字与文字书写、读音无关的语义信息。符号域则是与文字表意无关的音形等符号信息。例如对于中文单词“苹果”,“落叶乔木,叶子椭圆形。花白色带有红晕。果实也叫苹果,圆形,味甜,是常见水果”是它的一种语义信息。而“苹果”的发音:“píngguǒ”是它的一种符号信息。而苹果除了表示一种水果的语义外,还可以指代“美国苹果电脑公司”等语义。语义域则是指包含了这些意义信息的一个集合,同理,符号域则表示包含字音、字形、平仄等符号信息一个集合。
文本纠错装置对用户输入的文本的每个字符分别提取两个域的向量表示,基于所述两个域的向量表示,即可得到待纠错文本的表示向量。
步骤120,将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。
具体的,文本纠错装置将所述表示向量输入文本纠错模型,即可输出与所述待纠错文本对应的文本纠错结果。
图2是本申请提供的文本纠错模型的结构示意图,如图2所示,所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的。本申请将一次纠错拆分成两个阶段:
1.检测阶段:检测字符是否可能存在拼写错误,以及拼写错误类型(即纠错类型)——中文、英文还是拼音纠错。
2.纠错阶段:如果检测出来某个字符是需要纠错的字符,就会根据拼写错误类型得到相应的输出结果。
其中检测阶段在模型训练阶段会作为一个学习任务:检测任务(对应于检测模块)。每种拼写错误类型都会有一个学习任务:拼音纠错任务、中文纠错任务和英文纠错任务(对应于纠错模块)。检测任务和每个纠错任务都是由激活函数为两层Relu的Dense 层和一层Softmax 层的网络结构组成。
除了检测任务和纠错任务外,本申请还引入了分词任务(对应于分词模块)作为学习任务之一来优化纠错结果,以使得纠错结果更加符合上下文。如图3所示为本申请提供的文本纠错流程示意图,例如输入的原文“一寸光ying一寸金”,纠错结果应该是更符合其原始实体词的“一寸光阴一寸金”,而不是“一寸光影一寸金”,虽然后者相较于原文将拼音转换成了汉字,但是汉字并没有满足这个单词整体。分词的时候,“一寸光影一寸金”会被分为“一寸/光影/一寸/金”,但是“一寸光阴一寸金”为一个单词整体。所以引入分词学习任务后,会更容易产生符合单词整体语境的纠错结果。分词学习任务的结构是一层激活函数为Relu的 Dense层和一层Softmax层的网络结构组成。
文本纠错模型在一次预测中会根据输入序列得到五个输出结果:检测序列、拼音纠错序列、中文纠错序列、英文纠错序列、分词序列。根据检测序列结果会将输入序列、拼音纠错序列、中文纠错序列、英文纠错序列组合为输出序列。这个输出序列即作为纠错结果。
本申请提供的方法,通过将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果,所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的,所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果,能够提高文本纠错的准确性。
基于上述实施例,所述检测模块是基于所述待纠错文本样本以及预先确定的文本纠错类型标签进行预训练后得到的;所述文本纠错类型包括:拼音纠错、中文纠错和英文纠错;
所述分词模块是基于所述待纠错文本样本以及预先确定的分词结果标签进行预训练后得到的;
所述纠错模块包括与所述文本纠错类型对应的拼音纠错子模块、中文纠错子模块和英文纠错子模块;
所述拼音纠错子模块是基于所述待纠错文本样本以及预先确定的拼音纠错结果标签进行预训练后得到的;所述中文纠错子模块是基于所述待纠错文本样本以及预先确定的中文纠错结果标签进行预训练后得到的;所述英文纠错子模块是基于所述待纠错文本样本以及预先确定的英文纠错结果标签进行预训练后得到的。
具体的,对于文本纠错模型所包括的模块和子模块发的功能在前述内容中已经进行了详细阐述,在此不再赘述。值得注意的是,本申请文本纠错模型中的各个模块和子模块采用预训练的方式,能够降低文本纠错模型训练的工作量,同时保证模型输出结果的准确度。
本申请提供的方法,通过所述检测模块是基于所述待纠错文本样本以及预先确定的文本纠错类型标签进行预训练后得到的,所述分词模块是基于所述待纠错文本样本以及预先确定的分词结果标签进行预训练后得到的,所述拼音纠错子模块是基于所述待纠错文本样本以及预先确定的拼音纠错结果标签进行预训练后得到的,所述中文纠错子模块是基于所述待纠错文本样本以及预先确定的中文纠错结果标签进行预训练后得到的,所述英文纠错子模块是基于所述待纠错文本样本以及预先确定的英文纠错结果标签进行预训练后得到的,能够降低文本纠错模型训练的工作量,同时保证模型输出结果的准确度。
基于上述实施例,所述获取待纠错文本的表示向量,包括:
确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量;
将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,输出所述待纠错文本的表示向量;
其中,所述信息抽取模型是基于待纠错文本样本进行训练后得到的。
具体的,文本纠错装置确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量,将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,即可输出所述待纠错文本的表示向量。
在所述信息抽取模型训练阶段,本申请预设一个786维的语义向量作为信息抽取模型的输入,在信息抽取模型训练阶段自适应地学习。除了预设语义向量进行学习外,本申请将n阶语言模型也视为一种语义信息,作为信息抽取模型的输入,来补充上下文信息。
上下文词频分布信息和预设的语义向量作为汉字的语义域表示,作为信息抽取模型的输入特征。
除了文字的语义外,字音、字形等文字符号信息同样是汉字的一种基础属性。本申请主要使用字音和字形两种信息。对于字音信息,通过词典得到字符的拼音之后,类似于语义域表示的方法,将拼音预设一个自适应的向量,让信息抽取模型在大规模语料上学习拼音的向量。本申请通过字体渲染将汉字转换为汉字的图片之后,使用resnet模型从汉字图片中抽取汉字的字形信息输入到信息抽取模型中。
字形向量和预设的拼音向量作为汉字的符号域表示,作为信息抽取模型的输入特征。
图4是本申请提供的信息抽取模型的结构示意图,本申请从汉字的语义域和符号域上分别抽取了4个汉字的向量表示:语义向量、语言模型向量、拼音向量和字形向量。将上述不同属性的向量作为输入,构建基于卷积神经网络的信息抽取模型。
定义带纠错文本样本的序列长度作为输入矩阵的宽,每个向量的长度作为矩阵的长,每个汉字不同的属性作为一个通道(channel),构建信息抽取模型的输入矩阵,然后采用带有通道注意力机制的卷积神经网络进行信息抽取。具体的,输入矩阵依次通过包括调用函数Con2d的输入层、自注意力层(Self-Attention)、包括高斯误差线性单元的线性全连接层(Dense+GeLU)和层标准化处理,即可获得所述待纠错文本的表示向量。所述待纠错文本的表示向量可用于后续的预训练任务(pretrain task)。
本申请提供的方法,通过确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量,将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,输出所述待纠错文本的表示向量,能够更加准确地表示待纠错文本,提高后续文本纠错的准确性。
基于上述实施例,所述确定所述待纠错文本对应的语言模型向量的步骤,包括:
基于预训练的前向二阶语言模型、前向三阶语言模型、后向二阶语言模型和后向三阶语言模型,确定所述待纠错文本中各字符对应的浮点数概率分布向量;
对各字符对应的浮点数概率分布向量进行压缩处理,获得所述待纠错文本对应的语言模型向量。
具体的,如图5所示为本申请提供的语言模型向量的获取流程示意图,文本纠错装置对于所述待纠错文本中的每一个字符前后的字符片段作为语言模型的前缀或者后缀。通过前后缀获得该字符的概率分布向量,由于向量的长度过长,导致在后续处理中对网络IO和磁盘IO造成较大的影响。因此对向量进行压缩,获得所述待纠错文本对应的语言模型向量。在进入到信息抽取模型中后再将其还原回原始长度之后进行特征抽取。具体过程如图5所示:
(a)根据待纠错文本上下文得到前后缀之后根据语料库上预训练好的汉字的前向2阶语言模型、前向3阶语言模型、后向2阶语言模型、后向3阶语言模型,获得当前位置字符的浮点数概率分布向量。
(b)浮点数存储空间较大,而且向量是高维稀疏向量,因此进一步采用等距散化,将每个浮点数离散化为0-255之间的 int8 来降低内存空间,再将int8的向量按位叠加,将多个8819维向量合并为一个8819维向量,降低数据拷贝过程的开销。
(c)在进入到信息抽取模型之后,将向量重新分解为多个8819维向量,之后使用神经网络进行特征抽取,将其转换为一个 786 维的浮点数向量。
本申请提供的方法,通过基于预训练的前向二阶语言模型、前向三阶语言模型、后向二阶语言模型和后向三阶语言模型,确定所述待纠错文本中各字符对应的浮点数概率分布向量,对各字符对应的浮点数概率分布向量进行压缩处理,获得所述待纠错文本对应的语言模型向量,能够准确获取待纠错文本的上下文词频分布信息,提高后续文本纠错的准确性。
基于上述实施例,所述确定所述待纠错文本对应的字形向量的步骤,包括:
基于新细明字体库将所述待纠错文本中的汉字转换为对应的汉字图片;
基于所述汉字图片及预训练的卷积神经网络,确定所述待纠错文本对应的字形向量。
具体的,如图6所示为本申请提供的字形向量的获取流程示意图,对于待纠错文本中的每一个汉字,文本纠错装置通过字体库渲染和压缩,可以得到汉字的JPEG图片,再使用在公开数据集上预训练的卷积神经网络对每张汉字图片抽取长度为784维的向量表示,然后在信息抽取模型中再将其规整为786维向量方便后续纠错。具体过程如图6所示:
(a) 将每个汉字通过新细明字体库,将汉字转换为汉字图片,并压缩为224*224的JPEG 图片。
(b) 将步骤(a)得到的图片加载入计算机内存中用预训练的卷积神经网络进行进一步压缩,压缩为长度为784维的字形向量进行表示。
(c) 通过信息抽取模型的线性全连接层将784维的字形向量规整为786 维向量。
本申请提供的方法,通过基于新细明字体库将所述待纠错文本中的汉字转换为对应的汉字图片,基于所述汉字图片及预训练的卷积神经网络,确定所述待纠错文本对应的字形向量,能够准确获取待纠错文本的字形信息,提高后续文本纠错的准确性。
基于上述实施例,所述确定所述待纠错文本对应的拼音向量的步骤,包括:
确定所述待纠错文本中的汉字的拼音;
基于所述待纠错文本中的汉字的拼音,确定各汉字的拼音的one-hot向量;
基于各汉字的拼音的one-hot向量,确定所述待纠错文本对应的拼音向量。
具体的,本申请根据《通用规范汉字表(2013)》统计了每个汉字的拼音,并将每个拼音抽取one-hot向量表示,每个汉字对应的拼音的one-hot向量之和作为这个汉字的拼音初始向量,约8110维。文本纠错装置基于所述待纠错文本中的汉字的拼音,确定各汉字的拼音的one-hot向量,基于各汉字的拼音的one-hot向量,确定所述待纠错文本对应的拼音向量,在卷积神经网络中经过全连接层压缩为786维的浮点数向量。
获取语言模型向量、拼音向量和字形向量之后,给待纠错文本中的每个汉字分配一个可以训练的786维向量作为其语义向量,再将这4个786维向量进行堆叠,得到一个序列长度* 786 * 4 的三维矩阵。使用多层卷积神经网络对字音、字形、词频分布、语义信息进行抽取,在大规模语料集上进行训练,将每个汉字表示为786 维的浮点数向量(即待纠错文本的表示向量)。
本申请提供的方法,通过基于所述待纠错文本中的汉字的拼音,确定各汉字的拼音的one-hot向量,基于各汉字的拼音的one-hot向量,确定所述待纠错文本对应的拼音向量,能够准确获取待纠错文本的字音信息,提高后续文本纠错的准确性。
基于上述实施例,所述文本纠错模型为词粒度的纠错模型,所述信息抽取模型采用带有通道注意力机制的卷积神经网络进行信息抽取。
具体的,通过带有通道注意力机制的卷积神经网络,信息抽取模型可以学习到不同属性之间的交叉信息。通过MaskLM作为预训练任务,让信息抽取模型学习对不同域信息的抽取,从而进一步应用于下游纠错任务。从信息抽取模型中得到了 786 维向量表示后,将其与bert预训练任务的embedding 进行拼接得到1572维的目标向量作为字符的表示。将所述目标向量作为transformer encoder的输入,结合纠错检测任务和纠错预测任务与分词任务,在纠错平行语料上进行训练,得到最终的词粒度的端到端文本纠错模型。
本申请提供的方法,通过采用带有通道注意力机制的卷积神经网络进行信息抽取,同时,采用词粒度的文本纠错模型进行纠错,能够准确获取待纠错文本的多模态信息,提高文本纠错的准确性。
基于上述任一实施例,图7为本申请提供的文本纠错装置的结构示意图,如图7所示,该装置包括:
表示向量获取单元710,用于获取待纠错文本的表示向量;
文本纠错单元720,用于将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。
基于上述实施例,所述检测模块是基于所述待纠错文本样本以及预先确定的文本纠错类型标签进行预训练后得到的;所述文本纠错类型包括:拼音纠错、中文纠错和英文纠错;
所述分词模块是基于所述待纠错文本样本以及预先确定的分词结果标签进行预训练后得到的;
所述纠错模块包括与所述文本纠错类型对应的拼音纠错子模块、中文纠错子模块和英文纠错子模块;
所述拼音纠错子模块是基于所述待纠错文本样本以及预先确定的拼音纠错结果标签进行预训练后得到的;所述中文纠错子模块是基于所述待纠错文本样本以及预先确定的中文纠错结果标签进行预训练后得到的;所述英文纠错子模块是基于所述待纠错文本样本以及预先确定的英文纠错结果标签进行预训练后得到的。
基于上述实施例,所述表示向量获取单元包括:
中间向量确定子单元,用于确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量;
表示向量获取子单元,用于将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,输出所述待纠错文本的表示向量;
其中,所述信息抽取模型是基于待纠错文本样本进行训练后得到的。
基于上述实施例,所述中间向量确定子单元包括:
概率分布向量确定节点,用于基于预训练的前向二阶语言模型、前向三阶语言模型、后向二阶语言模型和后向三阶语言模型,确定所述待纠错文本中各字符对应的浮点数概率分布向量;
语言模型向量获取节点,用于对各字符对应的浮点数概率分布向量进行压缩处理,获得所述待纠错文本对应的语言模型向量。
基于上述实施例,所述中间向量确定子单元还包括:
汉字转换节点,用于基于新细明字体库将所述待纠错文本中的汉字转换为对应的汉字图片;
字形向量获取节点,用于基于所述汉字图片及预训练的卷积神经网络,确定所述待纠错文本对应的字形向量。
基于上述实施例,所述中间向量确定子单元还包括:
拼音确定节点,用于确定所述待纠错文本中的汉字的拼音;
one-hot向量确定节点,用于基于所述待纠错文本中的汉字的拼音,确定各汉字的拼音的one-hot向量;
拼音向量确定节点,用于基于各汉字的拼音的one-hot向量,确定所述待纠错文本对应的拼音向量。
基于上述实施例,所述文本纠错模型为词粒度的纠错模型,所述信息抽取模型采用带有通道注意力机制的卷积神经网络进行信息抽取。
本申请提供的文本纠错装置可以执行上述文本纠错方法,其具体工作原理和相应的技术效果与上述方法相同,在此不再赘述。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述各方法所提供的文本纠错方法。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法所提供的文本纠错方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种文本纠错方法,其特征在于,包括:
获取待纠错文本的表示向量;
将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述检测模块是基于所述待纠错文本样本以及预先确定的文本纠错类型标签进行预训练后得到的;所述文本纠错类型包括:拼音纠错、中文纠错和英文纠错;
所述分词模块是基于所述待纠错文本样本以及预先确定的分词结果标签进行预训练后得到的;
所述纠错模块包括与所述文本纠错类型对应的拼音纠错子模块、中文纠错子模块和英文纠错子模块;
所述拼音纠错子模块是基于所述待纠错文本样本以及预先确定的拼音纠错结果标签进行预训练后得到的;所述中文纠错子模块是基于所述待纠错文本样本以及预先确定的中文纠错结果标签进行预训练后得到的;所述英文纠错子模块是基于所述待纠错文本样本以及预先确定的英文纠错结果标签进行预训练后得到的。
3.根据权利要求1所述的文本纠错方法,其特征在于,所述获取待纠错文本的表示向量,包括:
确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量;
将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,输出所述待纠错文本的表示向量;
其中,所述信息抽取模型是基于待纠错文本样本进行训练后得到的。
4.根据权利要求3所述的文本纠错方法,其特征在于,所述确定所述待纠错文本对应的语言模型向量的步骤,包括:
基于预训练的前向二阶语言模型、前向三阶语言模型、后向二阶语言模型和后向三阶语言模型,确定所述待纠错文本中各字符对应的浮点数概率分布向量;
对各字符对应的浮点数概率分布向量进行压缩处理,获得所述待纠错文本对应的语言模型向量。
5.根据权利要求3所述的文本纠错方法,其特征在于,所述确定所述待纠错文本对应的字形向量的步骤,包括:
基于新细明字体库将所述待纠错文本中的汉字转换为对应的汉字图片;
基于所述汉字图片及预训练的卷积神经网络,确定所述待纠错文本对应的字形向量。
6.根据权利要求3所述的文本纠错方法,其特征在于,所述确定所述待纠错文本对应的拼音向量的步骤,包括:
确定所述待纠错文本中的汉字的拼音;
基于所述待纠错文本中的汉字的拼音,确定各汉字的拼音的one-hot向量;
基于各汉字的拼音的one-hot向量,确定所述待纠错文本对应的拼音向量。
7.根据权利要求3所述的文本纠错方法,其特征在于,所述文本纠错模型为词粒度的纠错模型,所述信息抽取模型采用带有通道注意力机制的卷积神经网络进行信息抽取。
8.一种文本纠错装置,其特征在于,包括:
表示向量获取单元,用于获取待纠错文本的表示向量;
文本纠错单元,用于将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本纠错方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110683143.7A CN113255331B (zh) | 2021-06-21 | 2021-06-21 | 文本纠错方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110683143.7A CN113255331B (zh) | 2021-06-21 | 2021-06-21 | 文本纠错方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255331A true CN113255331A (zh) | 2021-08-13 |
CN113255331B CN113255331B (zh) | 2021-11-12 |
Family
ID=77188788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110683143.7A Active CN113255331B (zh) | 2021-06-21 | 2021-06-21 | 文本纠错方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255331B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881011A (zh) * | 2022-07-12 | 2022-08-09 | 中国人民解放军国防科技大学 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
WO2024071638A1 (en) * | 2022-09-28 | 2024-04-04 | Samsung Electronics Co., Ltd. | Method and apparatus for correcting errors in outputs of machine learning models |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193921A (zh) * | 2017-05-15 | 2017-09-22 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及系统 |
US20180349327A1 (en) * | 2017-06-05 | 2018-12-06 | Baidu Online Network Technology (Beijing)Co., Ltd. | Text error correction method and apparatus based on recurrent neural network of artificial intelligence |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN110162767A (zh) * | 2018-02-12 | 2019-08-23 | 北京京东尚科信息技术有限公司 | 文本纠错的方法和装置 |
CN111523306A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112966496A (zh) * | 2021-05-19 | 2021-06-15 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
-
2021
- 2021-06-21 CN CN202110683143.7A patent/CN113255331B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193921A (zh) * | 2017-05-15 | 2017-09-22 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及系统 |
US20180349327A1 (en) * | 2017-06-05 | 2018-12-06 | Baidu Online Network Technology (Beijing)Co., Ltd. | Text error correction method and apparatus based on recurrent neural network of artificial intelligence |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN110162767A (zh) * | 2018-02-12 | 2019-08-23 | 北京京东尚科信息技术有限公司 | 文本纠错的方法和装置 |
CN111523306A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112966496A (zh) * | 2021-05-19 | 2021-06-15 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881011A (zh) * | 2022-07-12 | 2022-08-09 | 中国人民解放军国防科技大学 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
WO2024071638A1 (en) * | 2022-09-28 | 2024-04-04 | Samsung Electronics Co., Ltd. | Method and apparatus for correcting errors in outputs of machine learning models |
Also Published As
Publication number | Publication date |
---|---|
CN113255331B (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
CN110674629B (zh) | 标点符号标注模型及其训练方法、设备、存储介质 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN112329447B (zh) | 中文纠错模型的训练方法、中文纠错方法及装置 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN108090044B (zh) | 联系方式的识别方法和装置 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
KR102129575B1 (ko) | 단어 교정 시스템 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN110610006A (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
CN115292495A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
WO2022141855A1 (zh) | 文本正则方法、装置、电子设备及存储介质 | |
CN111930938A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |