CN110489760B - 基于深度神经网络文本自动校对方法及装置 - Google Patents
基于深度神经网络文本自动校对方法及装置 Download PDFInfo
- Publication number
- CN110489760B CN110489760B CN201910873397.8A CN201910873397A CN110489760B CN 110489760 B CN110489760 B CN 110489760B CN 201910873397 A CN201910873397 A CN 201910873397A CN 110489760 B CN110489760 B CN 110489760B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- phrase
- probability
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于深度神经网络文本自动校对方法及装置,方法通过获取语料,并对语料进行分词,得到若干第一词组;根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集;获取训练集,并通过训练集对N‑gram模型进行训练和对BiLSTM‑CRF模型进行训练;接收第一文本,并对第一文本进行预处理得到第二文本;通过训练后的N‑gram模型和BiLSTM‑CRF模型以及混淆集对第二文本进行文本查错和文本纠错。达到了自动生成基于音似词、形似词和同义词的混淆集的目的,从而实现了基于混淆集和BiLSTM‑CRF模型的方法既引入上下文词向量对目标词进行校对,又通过混淆集对方法进行一些限制的效果;且结合N‑gram模型和BiLSTM‑CRF模型进行校对,比单一模型校对效果都好。
Description
技术领域
本申请涉及文本识别及校对技术领域,具体而言,涉及一种基于深度神经网络文本自动校对方法及装置。
背景技术
文本校对指对文本进行查错并提出修改建议,是出版工作的关键环节,在各个行业都有广泛的应用。随着信息技术和出版业电子化的迅速发展,文本校对的工作量大大增加。目前的文本校对工作大部分还采用人工校对的方法,校对工作强度大、成本高、效率低。同时,在如今信息爆炸的时代,媒体的时效性越来越重要,各家媒体都需要第一时间出稿,这对于人工校对的及时性、准确性、全面性是极大的挑战,人工校对的方式已无法适应迅速增长的电子文本数量。
传统的文本自动校对技术大多分为查错和纠错两部分进行,常见的查错方法有基于规则的方法、基于统计的方法和规则与统计相结合的方法,常见的纠错方法则是结合混淆集和查错模型开展。在申请号为201710947261.8的中国专利申请中,提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置,根据依存分析和上下邻接词共现概率建立局部错误模型和全局错误模型进行查错,建立基于音近词和形近词的混淆集词典,根据目标词的混淆词对目标词进行改写,比较改写后的概率进行纠错。基于传统统计模型的方法主要依据局部上下文特征,没有很好的利用词与词间的关系,当上下文共现组合在训练集没有出现时,是否错误无法判断,同时纠错依赖混淆集,当错误不属于混淆集里的词,错误就无法召回。
近两年来,随着相关数据集规模的逐渐增大以及深度学习技术的不断成熟,开始出现了基于seq2seq模型的端到端文本校对。在申请号为201710618374.3的中国专利申请中,公开了一种基于循环神经网络的seq2seq文本纠正方法。在该文本纠正系统中,先利用编码规则确定待纠正文本对应的特征向量,再将特征向量输入文本纠正模型通过解码网络输出与待纠正文本对应的标准文本。该方法的编码网络和解码网络均为循环神经网络,利用词向量直接实现了一个端到端的文本纠正,涵盖了查错和纠错两部分,且不受混淆集的限制。但由于文本校对过程中完全通过上下文词向量判断,输入输出都是序列,可能会输出一些语义奇怪且无法解释的句子。比如对正确的句子“在与韩国队的金牌争夺战中”,模型会输出如“在与韩国队的金牌金牌中”这种不符合语义的结果。所以该方法虽然引入了词向量,但是由于端到端,不可控性较强。
此外,针对于中文文本翻译还存在以下多个难点:
难点1中文语法表达多样:
英文有比较严格的语法规则,规范时态、单复数等语言规则,所以对于英文文本,可以基于一些预先定义的规则来进行校对;但中文的语法特征比较少,语言表达比较随意,往往需要大规模的语料库学习,对模型学习能力也有更高的要求;
难点2要结合长短距离上下文词判断:
自动校对往往需要依据目标词的上下文进行考察;但有时候发生错误的词符合局部语言规则,但与全局语言规则发生冲突,所以需要考虑该词与长距离的词是否搭配进行判断;
难点3现有的自动校对方法没有很好的结合词向量:
基于规则的方法查错准确率比较高,但是错误规则模版比较局限,而中文错误形态多变,因此规则很难覆盖所有错误,从而导致使用规则查错的召回率很低,且只能通过归纳更多的错误规则模版使召回率提高,十分机械;基于传统统计模型的方法主要依据局部上下文特征,没有很好的利用词与词间的关系,当上下文共现组合在训练集没有出现时,是否错误无法判断,因此还需要大规模语料训练,同时纠错依赖混淆集,当错误不属于混淆集里的词,错误就无法召回;基于深度学习不需要设置混淆集,利用了词向量来代替词,但由于文本校对过程中完全通过上下文词向量判断,输入输出都是序列,不可控性较强,可能会输出一些语义奇怪且无法解释的句子。
针对相关技术中存在的若干个问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基于深度神经网络文本自动校对方法及装置,以解决相关技术中存在的至少一个问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于深度神经网络文本自动校对方法。
根据本申请的基于深度神经网络文本自动校对方法包括:
获取语料,并对语料进行分词,得到若干第一词组;
根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集;其中,混淆集中包括一个或多个易混淆词;
获取训练集,并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练;
接收第一文本,并对第一文本进行预处理得到第二文本;
通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。
进一步的,如前述的基于深度神经网络文本自动校对方法,根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集,包括:
确定与每个第一词组中一个或多个字的字形相似的错别字构成的字形易混淆词;
确定与每个第一词组中一个或多个字的音相似的错别字构成的字音易混淆词。
进一步的,如前述的基于深度神经网络文本自动校对方法,通过训练集对N-gram模型进行训练,包括:
统计每个第一词组的上邻接二元概率以及下邻接二元概率,并记wi-1为词组wi的上邻接词组,wi+1为词组wi的下邻接词组;
上邻接二元概率PL(wi|wi-1)计算方法如下:
下邻接二元概率PR(wi|wi-1)计算方法如下:
其中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分别为wi-1wi,wi-1,wiwi+1,wi+1的出现频次;
将上邻接二元概率PL(wi|wi-1)和下邻接二元概率PR(wi|wi-1)加权组合得到二元概率为:
P(wi│wi-1,wi+1)=λ1PL(wi|wi-1)+(1-λ1)PR(wi|wi-1);
其中,λ1是调节上下邻接二元概率重要性的参数。
进一步的,如前述的基于深度神经网络文本自动校对方法,对BiLSTM-CRF模型进行训练,包括:
将训练集中的语句进行拆分,得到分词后的文本;文本中包括语句中的所有第二词组,并按序排列;
通过词向量以及词性特征,确定语句中所有第二词组的结构联系,并输出由词向量和词性特征拼接而成的向量特征;
通过BiLSTM将向量特征按顺序序列和逆序序列分别得到顺序隐藏状态和逆序隐藏状态,以分别捕获前文和后文的信息;然后将顺序隐藏状态和逆序隐藏状态相互连接并作为最终输出;
根据连接后的顺序隐藏状态和逆序隐藏状态确定每个第二词组标记为正确时概率和标记为错误时概率,并输入CRF模型;
通过CRF模型对每个第二词组标注的概率进行优化处理,获得最优的全局标注序列,并输出每个第二词组的标记以及置信概率。
进一步的,如前述的基于深度神经网络文本自动校对方法,对第一文本进行预处理,包括:
对第一文本进行分词,得到由多个第三词组按序排列的第一文本;
再对分词后的第一文本中的第三词组进行替换并得到由第四词组构成的第二文本;其中,替换包括:实体替换、数字替换和标点替换;实体替换指的是对文本中的词组进行实体标注,并对文本中的人名词、地名词和日期词分别采用一个固定人名词、地名词和日期词来替换;对数字替换是将所有的0-9数字替换为一个,同时将多位小数点只保留一位;标点替换是将句子结束词替换为统一的标点符号。
进一步的,如前述的基于深度神经网络文本自动校对方法,第二文本进行文本查错,包括:
通过N-gram模型对第二文本中每个句子的每个第四词组进行判断,并计算每个第四词组的二元概率;
当二元概率小于第一阈值时,判断该第四词组是错误词;并保留N-gram模型判断为错误词,以及二元概率为0的词组的位置和二元概率为0的词组的二元概率;
在BiLSTM-CRF模型中输入第二文本中的句子进行分词后的每个第四词组和第四词组词性标注的结果,并输出每个第四词组标注为正确词的置信概率。
进一步的,如前述的基于深度神经网络文本自动校对方法,对第二文本进行文本纠错,包括:
在第二文本中存在二元概率为0的目标词时,对目标词对应的混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为目标词的第一候选词;其中,目标词为通过N-gram模型进行二元概率的第四词组;
在第一候选词的二元概率也为0的时候,通过BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断;
当第二文本中存在N-gram模型判断得到的错误词时,对错误词对应的混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为错误词的第二候选词;
如果第二候选词的二元概率不为0,通过BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断。
进一步的,如前述的基于深度神经网络文本自动校对方法,通过BiLSTM-CRF模型进行纠错判断,包括:
通过BiLSTM-CRF模型将混淆集中的易混淆词的一一替换后,输出混淆词标注为正确词的置信概率;
取置信概率最高的混淆词作为候选词,比较候选词以及目标词或错误词的置信概率;
如果候选词的置信概率与目标词或错误词的置信概率之差大于第二阈值,则目标词或错误词是错误的,正确的结果是候选词,反之判定目标词或错误词是正确的;其中,第二阈值为0.5。
进一步的,如前述的基于深度神经网络文本自动校对方法,通过N-gram模型进行纠错判断,包括:
通过N-gram模型分别比较第一候选词与目标词或第二候选词与错误词的二元概率;
如果第一候选词与目标词的二元概率或第二候选词与错误词的二元概率大于第三阈值;则判断目标词或错误词是错误的,正确的结果是候选词;反之判定目标词是正确的;其中,第三阈值为0。
为了实现上述目的,根据本申请的另一方面,提供了一种基于深度神经网络文本自动校对装置。
根据本申请的基于深度神经网络文本自动校对装置包括:
语料获取单元,用于获取语料,并对语料进行分词,得到若干第一词组;
混淆集确定单元,用于根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集;其中,混淆集中包括一个或多个易混淆词;
训练单元,用于获取训练集,并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练;
预处理单元,用于接收第一文本,并对第一文本进行预处理得到第二文本;
查错纠错单元,用于通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。
在本申请实施例中,采用基于深度神经网络文本自动校对方法及装置的方式,方法通过获取语料,并对语料进行分词,得到若干第一词组;根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集;其中,混淆集中包括一个或多个易混淆词;获取训练集,并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练;接收第一文本,并对第一文本进行预处理得到第二文本;通过训练后的N-gram模型和BiLSTM-CRF模型对第二文本进行文本查错和文本纠错。达到了自动生成基于音似词、形似词和同义词的混淆集的目的,从而实现了基于混淆集和BiLSTM-CRF模型的方法既引入上下文词向量对目标词进行校对,又通过混淆集对方法进行一些限制,弥补传统的校对方法和现有的基于seq2seq的自动校对模型的一些缺陷;基于N-gram模型和基于BiLSTM-CRF模型结合进行校对,比单一模型的校对效果都好的技术效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的方法流程示意图;
图2是根据本申请一种实施例的处理流程示意图;
图3是根据本申请一种实施例的BiLSTM-CRF模型训练方法示意图;
图4是根据本申请一种实施例的装置的功能模块连接结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了实现上述目的,根据本申请的一个方面,提供了一种基于深度神经网络文本自动校对方法。如图1和图2所示,该方法包括如下的步骤S1至步骤S5:
S1.获取语料,并对语料进行分词,得到若干第一词组。
具体的,语料即为语言材料,语言材料可以是句子或文章;且分词为将句子或文章分为一个个按照原文序列进行排序的词组;举例的,当语料为“我们从小接受爱国主义教育”时,得到的第一词组为“我们从小接收爱国主义教育”共五个。
S2.根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集;其中,混淆集中包括一个或多个易混淆词。
具体的,易混淆词为目标词(此实施例中的第一词组)音相似或形相似的词组,由于一个词组可能存在2个或以上的字数,因此当至少有一个字与目标词中的对应的字构成相似就可以作为易混淆词,所有易混淆词的集合便为混淆集。
S3.获取训练集,并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练。
具体地,通过对N-gram模型和BiLSTM-CRF模型进行训练,可以使N-gram模型和BiLSTM-CRF模型具有更好的查错和纠错的能力。
S4.接收第一文本,并对第一文本进行预处理得到第二文本。
具体的,第一文本为需要进行查错及纠错的文本,预处理可以包括:分词、实体替换、数字替换和标点替换等步骤,使得到的第二文本更易于进行后续的查错和纠错的处理。
S5.通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。
进一步的,步骤S1至S3可以通过离线流程进行实现,步骤S4和S5可以通过线上流程进行处理;因而可以最大化的利用线下计算机以及线上服务器的处理能力,提供最好的处理效率。
进一步的,如前述的基于深度神经网络文本自动校对方法,根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集,包括:
确定与每个第一词组中一个或多个字的字形相似的错别字构成的字形易混淆词;
确定与每个第一词组中一个或多个字的音相似的错别字构成的字音易混淆词。
具体的,音相似主要是计算词与词之间的拼音相似度。根据语料分词后,读入每个词的拼音,通过编辑距离来计算词与词之间的拼音相似度。编辑距离是两个字符串之间,由一个转换成另外一个所需要的最少操作次数,允许的操作包括字符替换,增加字符,减少字符,颠倒字符。例如,“微信”的拼音“weixin”和“威胁”的拼音“weixie”的编辑距离是1,“微信”的拼音“weixin”和“微笑”的拼音“weixiao”的编辑距离是2。
形相似主要是计算词与词之间的字形相似度。我们通过类似编辑距离来计算字形间的相似程度,字的相似度相加得到词的相似度,不过定义的操作和原始的编辑距离定义方法不同,此时的字到字之间的转换操作是在笔顺层面的,允许的操作包括笔顺替换,增加笔顺和减少笔顺。譬如说,“口”字的笔画顺序是“竖横折横”,“日”字的笔画顺序是“竖横折横横”,“口”字可以通过增加笔画“横”来转换成“日”字,所以编辑距离为1。
在计算两个字的字形相似程度时,先对每种笔画都定义为单个字母,包括点、横、竖、撇、捺、横折、横撇、撇折、横折折、横折钩、横折弯钩、横折折撇等。然后根据编号对所有汉字构建笔顺的词典,譬如“日”表示为“fcjj”,“口”字表示为“fcj”,其中“f”表示竖,“c”表示横折,“j”表示横。
语料中的字数量远小于分词的结果,所以先计算字的形近字,对每一个分词的词,替换词中的每个字进行组合,假如替换后的词也在语料中出现了,将替换后的词作为目标词的混淆集。比如“溶化”和“熔化”的编辑距离是3。
最后再添加一些同义词扩展混淆集,比如《同义词词林》中归纳好的同义词。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,通过训练集对N-gram模型进行训练,包括:
统计每个第一词组的上邻接二元概率以及下邻接二元概率,并记wi-1为词组wi的上邻接词组,wi+1为词组wi的下邻接词组;
上邻接二元概率PL(wi|wi-1)计算方法如下:
下邻接二元概率PR(wi|wi-1)计算方法如下:
其中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分别为wi-1wi,wi-1,wiwi+1,wi+1的出现频次;
将上邻接二元概率PL(wi|wi-1)和下邻接二元概率PR(wi|wi-1)加权组合得到二元概率为:
P(wi│wi-1,wi+1)=λ1PL(wi|wi-1)+(1-λ1)PR(wi|wi-1);
其中,λ1是调节上下邻接二元概率重要性的参数。优选的,当认为上邻接二元概率PL(wi|wi-1)和下邻接二元概率PR(wi|wi-1)同样重要的时候,λ1取0.5。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,对BiLSTM-CRF模型进行训练,包括:
将训练集中的语句进行拆分,得到分词后的文本;文本中包括语句中的所有第二词组,并按序排列;
通过词向量以及词性特征,确定语句中所有第二词组的结构联系,并输出由词向量和词性特征拼接而成的向量特征;
通过BiLSTM将向量特征按顺序序列和逆序序列分别得到顺序隐藏状态和逆序隐藏状态,以分别捕获前文和后文的信息;然后将顺序隐藏状态和逆序隐藏状态相互连接并作为最终输出;
根据连接后的顺序隐藏状态和逆序隐藏状态确定每个第二词组标记为正确时概率和标记为错误时概率,并输入CRF模型;
通过CRF模型对每个第二词组标注的概率进行优化处理,获得最优的全局标注序列,并输出每个第二词组的标记以及置信概率。
具体的,BiLSTM-CRF模型的结构框架图如图3所示,输入的是分好词的文本,举例的,当原语句为“我们从小接受爱国主义教育”时,得到的分好词的文本为“我们从小接收爱国主义教育”共五个,输出的是每个词的标注结果及置信概率,分别采用“O”、“W”对正确词和错误词进行标记。
BiLSTM-CRF模型主要分为三个模块:向量特征,BiLSTM模块和CRF模块。首先是向量特征层,输入文本分词后的结果,在词向量的基础上,引入词性特征,能进一步发现语句中词语的结构联系,所以输出的词向量和词性特征拼接而成的向量特征。第二层是BiLSTM层,文本校对的结果取决于目标词的上下文,前后词对预测标签都很重要,所以采用双向LSTM(简称为BiLSTM)将输入的向量特征按顺序序列和逆序序列呈现2个单独的隐藏状态,以分别捕获过去和将来的信息,然后将连接2个隐藏状态作为最终输出。最后一层是CRF层,输入的是BiLSTM层输出的每个词标注的概率,CRF模型对BiLSTM模块的输出结果进行优化处理,获得最优的全局标注序列,输出结果就是文本中每个词的标记以及置信概率。具体的实现方法本领域技术人员在根据上述描述后即可复制重现,在此不进行赘述。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,对第一文本进行预处理,包括:
对第一文本进行分词,得到由多个第三词组按序排列的第一文本;
再对分词后的第一文本中的第三词组进行替换并得到由第四词组构成的第二文本;其中,替换包括:实体替换、数字替换和标点替换;实体替换指的是对文本中的词组进行实体标注,并对文本中的人名词、地名词和日期词分别采用一个固定人名词、地名词和日期词来替换;对数字替换是将所有的0-9数字替换为一个,同时将多位小数点只保留一位;标点替换是将句子结束词替换为统一的标点符号。
因而,由于具体的人名或地名大多不能构成一个词语,因此通过进行纠错后大概率会被判定为错误词,因而经过实体替换后,可以将该类别的词语统一修改为同一个词,在将改词默认设为正确的词的情况下,便不会出现将其误认为错误词的情况;此外,由于数字和标点同样不是通过系统纠错能够实现的,具体的信息只有用户自身知道,因此只能通过用户自身进行判断才能识别纠错。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,第二文本进行文本查错,包括:
通过N-gram模型对第二文本中每个句子的每个第四词组进行判断,并计算每个第四词组的二元概率;
当二元概率小于第一阈值时,判断该第四词组是错误词;并保留N-gram模型判断为错误词,以及二元概率为0的词组的位置和二元概率为0的词组的二元概率;优选的,第一阈值为0.05;
在BiLSTM-CRF模型中输入第二文本中的句子进行分词后的每个第四词组和第四词组词性标注的结果,并输出每个第四词组标注为正确词的置信概率。
例如对“火山暴发了。”这句话,先进行分词,得到“火山暴发了。”,对于“暴发”一词,计算出“暴发”出现在“火山”之后和“了”之前的二元概率小于第一阈值,认为“暴发”一词是错误的。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,对第二文本进行文本纠错,包括:
在第二文本中存在二元概率为0的目标词时,对目标词对应的混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为目标词的第一候选词;其中,目标词为通过N-gram模型进行二元概率的第四词组;
在第一候选词的二元概率也为0的时候,通过BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断;
当第二文本中存在N-gram模型判断得到的错误词时,对错误词对应的混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为错误词的第二候选词;
如果第二候选词的二元概率不为0,通过BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,通过BiLSTM-CRF模型进行纠错判断,包括:
通过BiLSTM-CRF模型将混淆集中的易混淆词的一一替换后,输出混淆词和标注为正确词的置信概率;
具体的,将易混淆词逐一替换到目标词所在的位置,并结合原文得到混淆词标注为正确词的置信概率;
取置信概率最高的混淆词作为候选词,比较候选词以及目标词或错误词的置信概率;
如果候选词的置信概率与目标词或错误词的置信概率之差大于第二阈值,则目标词或错误词是错误的,正确的结果是候选词,反之判定目标词或错误词是正确的;其中,第二阈值为0.5。
具体的,此处的目标词或错误词并不是100%错误的,且标注为错的置信概率最高的候选词也不意味着一定正确,因此将候选词与目标词,或候选词与错误词相互进行置信概率比较,并选择置信概率较高的词组作为正确词,可以进一步提高相应的判断的正确率。
例如还是对“火山暴发了。”这句话,由于“暴发”出现在“火山”之后和在“了”之前的二元概率不为0,而第一候选词“爆发”出现在“火山”中后和在“了”之前的二元概率也不为0,通过BiLSTM-CRF模型得到“爆发”和“暴发”为正确词的概率,认为“暴发”是错误的,正确的应该是“爆发”。
在一些实施例中,如前述的基于深度神经网络文本自动校对方法,通过N-gram模型进行纠错判断,包括:
通过N-gram模型分别比较第一候选词与目标词或第二候选词与错误词的二元概率;
如果第一候选词与目标词的二元概率或第二候选词与错误词的二元概率大于第三阈值;则判断目标词或错误词是错误的,正确的结果是候选词;反之判定目标词是正确的;其中,第三阈值为0。
同样的,此处的目标词或错误词并不是100%错误的,且选择出的第一候选词或第二候选词也不意味着一定正确,因此将第一候选词与目标词或第二候选词与错误词的二元概率比较,并选择二元概率较高的词组作为正确词,可以进一步提高相应的判断的正确率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述基于深度神经网络文本自动校对方法的基于深度神经网络文本自动校对装置,如图4所示,该装置包括:
语料获取单元1,用于获取语料,并对语料进行分词,得到若干第一词组;
混淆集确定单元2,用于根据每个第一词组的易混淆词,自动生成每个第一词组的混淆集;其中,混淆集中包括一个或多个易混淆词;
训练单元3,用于获取训练集,并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练;
预处理单元4,用于接收第一文本,并对第一文本进行预处理得到第二文本;
查错纠错单元5,用于通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (5)
1.一种基于深度神经网络文本自动校对方法,其特征在于,包括:
获取语料,并对所述语料进行分词,得到若干第一词组;
根据每个所述第一词组的易混淆词,自动生成每个所述第一词组的混淆集;其中,所述混淆集中包括一个或多个所述易混淆词;
获取训练集,并通过所述训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练;
接收第一文本,并对所述第一文本进行预处理得到第二文本;
通过训练后的所述N-gram模型和BiLSTM-CRF模型以及所述混淆集对所述第二文本进行文本查错和文本纠错;
通过所述训练集对N-gram模型进行训练,包括:
统计每个所述第一词组的上邻接二元概率以及下邻接二元概率,并记wi-1为词组wi的上邻接词组,wi+1为所述词组wi的下邻接词组;
上邻接二元概率PL(wi|wi-1)计算方法如下所述:
下邻接二元概率PR(wi|wi-1)计算方法如下所述:
其中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分别为wi-1wi,wi-1,wiwi+1,wi+1的出现频次;
将所述上邻接二元概率PL(wi|wi-1)和所述下邻接二元概率PR(wi|wi-1)加权组合得到二元概率为:
P(wi|wi-1,wi+1)=λ1PL(wi|wi-1)+(1-λ1)PR(wi|wi-1);
其中,λ1是调节上下邻接二元概率重要性的参数;
所述对BiLSTM-CRF模型进行训练,包括:
将所述训练集中的语句进行拆分,得到分词后的文本;所述文本中包括语句中的所有第二词组,并按序排列;
通过词向量以及词性特征,确定所述语句中所有第二词组的结构联系,并输出由所述词向量和词性特征拼接而成的向量特征;
通过BiLSTM将所述向量特征按顺序序列和逆序序列分别得到顺序隐藏状态和逆序隐藏状态,以分别捕获前文和后文的信息;然后将所述顺序隐藏状态和逆序隐藏状态相互连接并作为最终输出;
根据连接后的所述顺序隐藏状态和逆序隐藏状态确定每个所述第二词组标记为正确时概率和标记为错误时概率,并输入CRF模型;
通过所述CRF模型对每个所述第二词组标注的概率进行优化处理,获得最优的全局标注序列,并输出每个所述第二词组的标记以及置信概率;
所述对所述第一文本进行预处理,包括:
对所述第一文本进行分词,得到由多个第三词组按序排列的第一文本;
再对分词后的所述第一文本中的第三词组进行替换并得到由第四词组构成的所述第二文本;其中,所述替换包括:实体替换、数字替换和标点替换;所述实体替换指的是对文本中的词组进行实体标注,并对文本中的人名词、地名词和日期词分别采用一个固定人名词、地名词和日期词来替换;对所述数字替换是将所有的0-9数字替换为一个,同时将多位小数点只保留一位;所述标点替换是将句子结束词替换为统一的标点符号;
所述第二文本进行文本查错,包括:
通过N-gram模型对所述第二文本中每个句子的每个所述第四词组进行判断,并计算每个所述第四词组的二元概率;
当所述二元概率小于第一阈值时,判断该第四词组是错误词;并保留所述N-gram模型判断为错误词,以及二元概率为0的词组的位置和二元概率为0的词组的二元概率;
在所述BiLSTM-CRF模型中输入所述第二文本中的句子进行分词后的每个第四词组和所述第四词组词性标注的结果,并输出每个所述第四词组标注为正确词的置信概率;
对所述第二文本进行文本纠错,包括:
在所述第二文本中存在二元概率为0的目标词时,对所述目标词对应的所述混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为所述目标词的第一候选词;其中,所述目标词为通过所述N-gram模型进行二元概率的所述第四词组;
在所述第一候选词的二元概率也为0的时候,通过所述BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断;
当所述第二文本中存在N-gram模型判断得到的错误词时,对所述错误词对应的所述混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为所述错误词的第二候选词;
如果所述第二候选词的二元概率不为0,通过BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断。
2.根据权利要求1所述的基于深度神经网络文本自动校对方法,其特征在于,所述根据每个所述第一词组的易混淆词,自动生成每个所述第一词组的混淆集,包括:
确定与每个所述第一词组中一个或多个字的字形相似的错别字构成的字形易混淆词;
确定与每个所述第一词组中一个或多个字的音相似的错别字构成的字音易混淆词。
3.根据权利要求1所述的基于深度神经网络文本自动校对方法,其特征在于,所述通过BiLSTM-CRF模型进行纠错判断,包括:
通过所述BiLSTM-CRF模型将混淆集中的易混淆词的一一替换后,输出混淆词标注为正确词的置信概率;
取置信概率最高的所述混淆词作为候选词,比较所述候选词以及所述目标词或错误词的置信概率;
如果所述候选词的置信概率与所述目标词或错误词的置信概率之差大于第二阈值,则目标词或错误词是错误的,正确的结果是候选词,反之判定目标词或错误词是正确的。
4.根据权利要求1所述的基于深度神经网络文本自动校对方法,其特征在于,所述通过N-gram模型进行纠错判断,包括:
通过所述N-gram模型分别比较第一候选词与目标词或第二候选词与错误词的二元概率;
如果第一候选词与目标词的二元概率或第二候选词与错误词的二元概率大于第三阈值;则判断所述目标词或错误词是错误的,正确的结果是候选词;反之判定目标词是正确的。
5.一种基于深度神经网络文本自动校对装置,其特征在于,包括:
语料获取单元,用于获取语料,并对所述语料进行分词,得到若干第一词组;
混淆集确定单元,用于根据每个所述第一词组的易混淆词,自动生成每个所述第一词组的混淆集;其中,所述混淆集中包括一个或多个所述易混淆词;
训练单元,用于获取训练集,并通过所述训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练;
预处理单元,用于接收第一文本,并对所述第一文本进行预处理得到第二文本;
查错纠错单元,用于通过训练后的所述N-gram模型和BiLSTM-CRF模型以及所述混淆集对所述第二文本进行文本查错和文本纠错;
通过所述训练集对N-gram模型进行训练,包括:
统计每个所述第一词组的上邻接二元概率以及下邻接二元概率,并记wi-1为词组wi的上邻接词组,wi+1为所述词组wi的下邻接词组;
上邻接二元概率PL(wi|wi-1)计算方法如下所述:
下邻接二元概率PR(wi|wi-1)计算方法如下所述:
其中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分别为wi-1wi,wi-1,wiwi+1,wi+1的出现频次;
将所述上邻接二元概率PL(wi|wi-1)和所述下邻接二元概率PR(wi|wi-1)加权组合得到二元概率为:
P(wi|wi-1,wi+1)=λ1PL(wi|wi-1)+(1-λ1)PR(wi|wi-1);
其中,λ1是调节上下邻接二元概率重要性的参数;
所述对BiLSTM-CRF模型进行训练,包括:
将所述训练集中的语句进行拆分,得到分词后的文本;所述文本中包括语句中的所有第二词组,并按序排列;
通过词向量以及词性特征,确定所述语句中所有第二词组的结构联系,并输出由所述词向量和词性特征拼接而成的向量特征;
通过BiLSTM将所述向量特征按顺序序列和逆序序列分别得到顺序隐藏状态和逆序隐藏状态,以分别捕获前文和后文的信息;然后将所述顺序隐藏状态和逆序隐藏状态相互连接并作为最终输出;
根据连接后的所述顺序隐藏状态和逆序隐藏状态确定每个所述第二词组标记为正确时概率和标记为错误时概率,并输入CRF模型;
通过所述CRF模型对每个所述第二词组标注的概率进行优化处理,获得最优的全局标注序列,并输出每个所述第二词组的标记以及置信概率;
所述对所述第一文本进行预处理,包括:
对所述第一文本进行分词,得到由多个第三词组按序排列的第一文本;
再对分词后的所述第一文本中的第三词组进行替换并得到由第四词组构成的所述第二文本;其中,所述替换包括:实体替换、数字替换和标点替换;所述实体替换指的是对文本中的词组进行实体标注,并对文本中的人名词、地名词和日期词分别采用一个固定人名词、地名词和日期词来替换;对所述数字替换是将所有的0-9数字替换为一个,同时将多位小数点只保留一位;所述标点替换是将句子结束词替换为统一的标点符号;
所述第二文本进行文本查错,包括:
通过N-gram模型对所述第二文本中每个句子的每个所述第四词组进行判断,并计算每个所述第四词组的二元概率;
当所述二元概率小于第一阈值时,判断该第四词组是错误词;并保留所述N-gram模型判断为错误词,以及二元概率为0的词组的位置和二元概率为0的词组的二元概率;
在所述BiLSTM-CRF模型中输入所述第二文本中的句子进行分词后的每个第四词组和所述第四词组词性标注的结果,并输出每个所述第四词组标注为正确词的置信概率;
对所述第二文本进行文本纠错,包括:
在所述第二文本中存在二元概率为0的目标词时,对所述目标词对应的所述混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为所述目标词的第一候选词;其中,所述目标词为通过所述N-gram模型进行二元概率的所述第四词组;
在所述第一候选词的二元概率也为0的时候,通过所述BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断;
当所述第二文本中存在N-gram模型判断得到的错误词时,对所述错误词对应的所述混淆集中的易混淆词一一替换,并计算得到二元概率最高的易混淆词作为所述错误词的第二候选词;
如果所述第二候选词的二元概率不为0,通过BiLSTM-CRF模型进行纠错判断;反之,通过N-gram模型进行纠错判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910873397.8A CN110489760B (zh) | 2019-09-17 | 2019-09-17 | 基于深度神经网络文本自动校对方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910873397.8A CN110489760B (zh) | 2019-09-17 | 2019-09-17 | 基于深度神经网络文本自动校对方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489760A CN110489760A (zh) | 2019-11-22 |
CN110489760B true CN110489760B (zh) | 2023-09-22 |
Family
ID=68558185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910873397.8A Active CN110489760B (zh) | 2019-09-17 | 2019-09-17 | 基于深度神经网络文本自动校对方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489760B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222335A (zh) * | 2019-11-27 | 2020-06-02 | 上海眼控科技股份有限公司 | 语料修正方法、装置、计算机设备和计算机可读存储介质 |
CN111144101B (zh) * | 2019-12-26 | 2021-12-03 | 北大方正集团有限公司 | 错别字处理方法和装置 |
CN113128224B (zh) * | 2019-12-30 | 2024-01-09 | 北京阿博茨科技有限公司 | 一种中文纠错方法、装置、设备以及可读存储介质 |
CN111209740B (zh) * | 2019-12-31 | 2023-08-15 | 中移(杭州)信息技术有限公司 | 文本模型训练方法、文本纠错方法、电子设备及存储介质 |
CN113297833A (zh) * | 2020-02-21 | 2021-08-24 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
CN111460795B (zh) * | 2020-03-26 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种文本纠错方法及系统 |
CN111291552B (zh) * | 2020-05-09 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本内容修正的方法和系统 |
CN111767717B (zh) * | 2020-05-13 | 2023-12-08 | 广东外语外贸大学 | 印尼语的语法纠错方法、装置、设备及存储介质 |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN111444706A (zh) * | 2020-06-15 | 2020-07-24 | 四川大学 | 一种基于深度学习的裁判文书文本纠错方法及系统 |
CN111523302B (zh) * | 2020-07-06 | 2020-10-02 | 成都晓多科技有限公司 | 一种句法分析方法、装置、存储介质及电子设备 |
CN112001169B (zh) * | 2020-07-17 | 2022-03-25 | 北京百度网讯科技有限公司 | 文本纠错的方法、装置、电子设备和可读存储介质 |
CN112016303B (zh) * | 2020-09-07 | 2024-01-19 | 平安科技(深圳)有限公司 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
CN112464650A (zh) * | 2020-11-12 | 2021-03-09 | 创新工场(北京)企业管理股份有限公司 | 一种文本纠错方法和装置 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN112784581B (zh) * | 2020-11-20 | 2024-02-13 | 网易(杭州)网络有限公司 | 文本纠错方法、装置、介质及电子设备 |
CN112420148A (zh) * | 2020-11-24 | 2021-02-26 | 北京一脉阳光医学信息技术有限公司 | 一种基于人工智能的医学影像报告质控系统、方法及介质 |
CN112380850A (zh) * | 2020-11-30 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 错别字识别方法、装置、介质及电子设备 |
CN112528980B (zh) * | 2020-12-16 | 2022-02-15 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112800987B (zh) * | 2021-02-02 | 2023-07-21 | 中国联合网络通信集团有限公司 | 一种汉字处理方法和装置 |
CN112818108B (zh) * | 2021-02-24 | 2023-10-13 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112966506A (zh) * | 2021-03-23 | 2021-06-15 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN112883717A (zh) * | 2021-04-27 | 2021-06-01 | 北京嘉和海森健康科技有限公司 | 一种错别字检测方法及装置 |
CN117113978A (zh) * | 2021-06-24 | 2023-11-24 | 湖北大学 | 使用遮挡语言模型进行查错的文本纠错系统 |
CN113627158A (zh) * | 2021-07-02 | 2021-11-09 | 南京理工大学 | 基于多表征和多预训练模型的中文拼写纠错方法及装置 |
CN113239689B (zh) * | 2021-07-07 | 2021-10-08 | 北京语言大学 | 面向易混淆词考察的选择题干扰项自动生成方法及装置 |
CN114048321B (zh) * | 2021-08-12 | 2024-08-13 | 湖南达德曼宁信息技术有限公司 | 一种多粒度文本纠错数据集生成方法、装置及设备 |
CN113627159B (zh) * | 2021-08-18 | 2024-05-17 | 北京北大方正电子有限公司 | 纠错模型的训练数据确定方法、装置、介质及产品 |
CN114970502B (zh) * | 2021-12-29 | 2023-03-28 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
CN114519345B (zh) * | 2022-01-17 | 2023-11-07 | 广东南方网络信息科技有限公司 | 一种内容校对方法、装置、移动终端及存储介质 |
CN115132208A (zh) * | 2022-07-07 | 2022-09-30 | 湖南三湘银行股份有限公司 | 一种基于ctc算法构建的人工智能催收方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
CN106856092A (zh) * | 2015-12-09 | 2017-06-16 | 中国科学院声学研究所 | 基于前向神经网络语言模型的汉语语音关键词检索方法 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN109800298A (zh) * | 2019-01-29 | 2019-05-24 | 苏州大学 | 一种基于神经网络的中文分词模型的训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009040790A2 (en) * | 2007-09-24 | 2009-04-02 | Robert Iakobashvili | Method and system for spell checking |
-
2019
- 2019-09-17 CN CN201910873397.8A patent/CN110489760B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
CN106856092A (zh) * | 2015-12-09 | 2017-06-16 | 中国科学院声学研究所 | 基于前向神经网络语言模型的汉语语音关键词检索方法 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN109800298A (zh) * | 2019-01-29 | 2019-05-24 | 苏州大学 | 一种基于神经网络的中文分词模型的训练方法 |
Non-Patent Citations (2)
Title |
---|
中文文本真词错误自动校对算法研究;王璐;《中国优秀硕士学位论文全文数据库,信息科技辑》(第第06期期);摘要、第12-47页 * |
基于细粒度词表示的命名实体识别研究;林广和等;《中文信息学报》;20181130(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110489760A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
KR102199835B1 (ko) | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN113591457B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN105279149A (zh) | 一种中文文本自动校正方法 | |
CN109460552B (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
CN109800414A (zh) | 语病修正推荐方法及系统 | |
CN111611810A (zh) | 一种多音字读音消歧装置及方法 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN114818891A (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
KR101072460B1 (ko) | 한국어 형태소 분석 방법 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN117973372A (zh) | 一种基于拼音约束的中文语法纠错方法 | |
CN117852528A (zh) | 融合富语义信息的大语言模型的纠错方法及系统 | |
Yang et al. | Spell Checking for Chinese. | |
CN114896966B (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN115310433A (zh) | 一种针对中文文本校对的数据增强方法 | |
Mohapatra et al. | Spell checker for OCR | |
CN110245331A (zh) | 一种语句转换方法、装置、服务器及计算机存储介质 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Applicant after: Daguan Data Co.,Ltd. Address before: Room 310, Building Y1, No. 112, Liangxiu Road, Pudong New Area, Shanghai, March 2012 Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |