CN114742040A - 文本纠错方法、文本纠错装置及电子设备 - Google Patents
文本纠错方法、文本纠错装置及电子设备 Download PDFInfo
- Publication number
- CN114742040A CN114742040A CN202210644411.9A CN202210644411A CN114742040A CN 114742040 A CN114742040 A CN 114742040A CN 202210644411 A CN202210644411 A CN 202210644411A CN 114742040 A CN114742040 A CN 114742040A
- Authority
- CN
- China
- Prior art keywords
- words
- corrected
- text
- word
- wrong
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本纠错方法、文本纠错装置及电子设备,涉及自然语言处理技术领域,所述方法包括获取目标待纠错文本;将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;基于所述目标错词和所述目标纠正词,得到目标纠正文本。本发明提供的文本纠错方法通过根据历史待纠错文本的专有词纠错和音近词纠错的结果来对目标文本纠错模型进行训练,能够提升目标文本纠错模型针对专有词和音近词的纠错识别准确性和纠正结果的准确性,提高了目标文本纠错模型的识别准确度,进而能更好地满足特定场景下的文本纠错需求。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本纠错方法、文本纠错装置及电子设备。
背景技术
文本纠错是自然语言处理任务的基础,通常用于文本分类、机器翻译等任务前置。对于智能客服系统来说,有效的纠错可以提升客服的回复质量,同时可以对客服的对话质量监督,提升客户体验。
对于客服系统,客服回复文本以及客户对话文本通常涉及产品的专有词以及一些口语化词语。相关技术中,利用现有的纠错模型在对文本进行纠错的过程中难以兼顾专有词和口语化词语的纠错准确度,误识别率高。因此,亟需提高现有的文本纠错方法的准确度。
发明内容
本发明提供一种文本纠错方法、文本纠错装置及电子设备,用以解决现有技术中文本纠错识别准确性不高的缺陷,实现同时对专有词和口语化词语的精准识别与纠错。
本发明提供一种文本纠错方法,包括:
获取目标待纠错文本;
将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;
基于所述目标错词和所述目标纠正词,得到目标纠正文本;
所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;
所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;
所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;
所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。
根据本发明提供的一种文本纠错方法,所述对所述历史待纠错文本进行专有词纠错,包括:
对所述历史待纠错文本进行分词处理,得到待识别词语;
在错词库中查询所述待识别词语,所述错词库包括错词和所述错词对应的纠正词;
在查询到所述待识别词语的情况下,将所述待识别词语确认为所述第一错词,并将所述错词库中与所述第一错词对应的纠正词确定为所述第一纠正词。
根据本发明提供的一种文本纠错方法,所述在错词库中查询所述待识别词语之后,还包括:
在未查询到所述待识别词语的情况下,从所有所述待识别词语中确定第三错词;
基于所述第三错词,确定所述第三错词对应的所述历史待纠错文本的困惑度;
将所述困惑度大于第一预设值的所述第三错词确定为所述第一错词,并对所述第一错词纠错得到所述第一纠正词。
根据本发明提供的一种文本纠错方法,所述从所有所述待识别词语中确定第三错词,包括:
在属性词语词典中查询所有所述待识别词语,所述属性词语词典至少包括人名词语、地名词语和机构团体名词语;
在未查询到所述待识别词语的情况下,将所述待识别词语确定为所述第三错词。
根据本发明提供的一种文本纠错方法,所述对所述历史待纠错文本进行音近词纠错,包括:
确定所述历史待纠错文本的拼音序列;
基于所述历史待纠错文本的拼音序列,确定所述历史待纠错文本的错字和纠正字;
基于所述历史待纠错文本的错字和纠正字,确定所述第二错词和所述第二纠正词。
本发明还提供一种文本纠错装置,包括:
获取模块,用于获取目标待纠错文本;
第一处理模块,用于将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;
第二处理模块,用于基于所述目标错词和所述目标纠正词,得到目标纠正文本;
所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;
所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;
所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;
所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本纠错方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本纠错方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本纠错方法。
本发明提供的文本纠错方法、文本纠错装置及电子设备,通过根据历史待纠错文本的专有词纠错和音近词纠错的结果来对目标文本纠错模型进行训练,能够提升目标文本纠错模型针对专有词和音近词的纠错识别准确性和纠正结果的准确性,提高了目标文本纠错模型的识别准确度,进而能更好地满足特定场景下的文本纠错需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本纠错方法的流程示意图;
图2是本发明提供的文本纠错装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的文本纠错方法、文本纠错装置及电子设备。
本发明实施例的文本纠错方法的执行主体可以是控制器,当然,在另一些实施例中,执行主体还可以是服务器,此处对执行主体的类型不做限制。下面以控制器为执行主体来对本发明实施例的文本纠错方法进行描述。
参照图1,本发明实施例的文本纠错方法主要包括步骤110、步骤120和步骤130。
步骤110,获取目标待纠错文本。
可以理解的是,目标待纠错文本可以是采用各种书面语言或者口语化语言表现的文本。目标待纠错文本可以包含一个句子、一个段落或者一篇文章等,此处对目标待纠错文本的形式不作限制。
对于客服系统,目标待纠错文本可以是人工客服或者机器人客服回复客户的文本,还可以是客户向机器人客服发送的对话文本。
在此种情况下,目标待纠错文本中包含大量的产品或者客户购买的服务相关的专有词。
专有词是在特定的领域被广泛使用的词语。不同的领域具有不同的专有词。
例如,对于出售不粘锅的商家,客服系统的文本中会经常出现“铁氟龙”或者“特氟龙”等与不粘锅材质有关的专有词。
由于相关技术中,纠错词库中专有词的覆盖程度不高,因而无法针对特定场景下专有词进行纠错。即便一些纠错模型可以对专有词进行纠错,但是误识率较高,容易造成误判,纠错结果也不理想。
在一些实施例中,由于人工客服以及客户的文本具有较多的口语化词语,人工客服以及客户在基于拼音输入法输入文本时容易打出很多音近错词。
此外,对于客户的文本“那货什么时候到”,由于文本为口语化表达,现有的纠错模型容易将“那货”识别为错词,并将其纠正为“拿货”,误识率较高。
针对上述情况,本发明实施例的目标文本纠错模型能够考虑到专有词和口语化词语误识别问题,提高纠错准确度。
步骤120,将目标待纠错文本输入至目标文本纠错模型,得到目标文本纠错模型输出的目标错词与目标纠正词。
需要说明的是,目标文本纠错模型是以历史待纠错文本为样本,以历史待纠错文本的历史错词和历史纠正词为标签训练得到的。
可以理解的是,历史待纠错文本为训练样本。历史待纠错文本可以通过收集特定场景下包含错词或者错字的文本来获取。
在客服系统,可以通过监控并自动返回数据的方式来获取历史待纠错文本。例如,客服的输入文本撤回后被认为是错误语料,可以将撤回的文本自动打标签返回。在一些实施例中,可以通过采用此类方法来获取大量历史待纠错文本,以得到目标文本纠错模型的训练样本。
历史错词为历史待纠错文本中识别得到的错词,历史纠正词为对历史措辞进行纠错得到的纠正词。
历史错词包括第一错词和第二错词,历史纠正词包括第一纠正词和第二纠正词。
在本实施方式中,对第一错词进行纠正可以得到第一纠正词,对第二错词进行纠正可以得到第二错词。
需要说明的是,第一错词和第一纠正词为对历史待纠错文本进行专有词纠错确定的。
在一些实施例中,在对历史待纠错文本进行专有词纠错时,可以通过利用n-gram语言模型来进行专有词纠错,n-gram语言模型即为n元语法语言模型。
在一些实施例中,还可以根据错词库中的错词来确定历史待纠错文本中的错误专有词并进行纠错。
当然,在另一些实施例中,还可以采用其他方式来对历史待纠错文本进行专有词纠错,此处对专有词的纠错方式不作限制。
需要说明的是,第二错词和第二纠正词为对历史待纠错文本进行音近词纠错确定的。
在一些实施例中,可以通过利用拼音规则来对音近词进行纠错,进而可以通过使用FST(Finite State Transducer,有限状态机)语言模型来实现对音近词的纠错。
在一些实施例中,还可以通过音近词错词库中的错词来确定历史待纠错文本中的错误音近词并进行纠错。
当然,在另一些实施例中,还可以采用音近词纠错模型来实现对音近词的纠错,此处对音近词的纠错方式不作限制。
在一些实施例中,目标文本纠错模型可以采用LSTM(Long Short-Term Memory,长短时记忆模型),当然,也可以采用其他的深度学习神经网络模型来搭建文本纠错模型,此处对文本纠错模型的具体类型不作限制。
历史错词和历史纠正词包括针对专有词和音近词进行纠错得到的错词和纠正词。在此种情况下,目标文本纠错模型能够针对专有词和音近词进行准确地纠错,进而得到目标待纠错文本的目标错词与目标纠正词。
步骤130,基于目标错词和目标纠正词,得到目标纠正文本。
在一些实施例中,在确定出目标错词和目标纠正词后,通过使用目标纠正词对目标错词进行替换,即可得到目标纠正文本。
在另一些实施例中,通过使用目标纠正词对目标待纠错文本中的目标错词进行替换后,还可以将目标错词放置于目标纠正文本中的目标纠正词后,并进行标记,以便于存档进行查看与复核,并将该目标待纠错文本作为历史待纠错文本进行存储与应用。
根据本发明实施例的文本纠错方法,通过根据历史待纠错文本的专有词纠错和音近词纠错的结果来对目标文本纠错模型进行训练,能够提升目标文本纠错模型针对专有词和音近词的纠错识别准确性和纠正结果的准确性,提高了目标文本纠错模型的识别准确度,进而能更好地满足特定场景下的文本纠错需求。
在一些实施例中,对历史待纠错文本进行专有词纠错的方法还可以包括对历史待纠错文本进行分词处理,得到待识别词语。
需要说明的是,可以根据词粒度对待纠错文本进行分词处理,得到待纠错文本的多个词语。
在此种情况下,可以在错词库中查询待识别词语,进而判断待识别词语是否存在错误。
错词库包括错词和错词对应的纠正词。可以理解的是,错词库中的错词可以包括以下类型:词语中的字序错误、词语为易混淆词、词语中存在错别字等。
需要说明的是,可以根据目标文本纠错模型所应用的领域来设置错词库中相应领域的专有词及专有词的错词,以提高对专有词的纠错效率与准确性。
在查询到待识别词语的情况下,将待识别词语确认为第一错词,并将错词库中与第一错词对应的纠正词确定为第一纠正词。
在此种情况下,通过错词库对分词处理后的历史待纠错文本进行错词识别和纠错,可以在保证纠错准确性的前提下,实现对历史待纠错文本的快速纠错,提高了对历史待纠错文本专有词的纠错速度。
在一些实施例中,在错词库中查询待识别词语之后,还包括:在未查询到待识别词语的情况下,从所有待识别词语中确定第三错词。
可以理解的是,再利用错词库进行错词的初步筛选的过程中,未查询到待识别词语可能是错词,也有可能不是错词。
在此种情况下,需要对待识别词语进行进一步判断,进而确定出第一错词。
在此种情况下,可以利用n-gram语言模型来对待识别词语进行处理,进而进行纠错。
考虑到一些人名词语、地名词语以及机构团名词语容易被n-gram语言模型识别为错词,为降低误识率,可以先将待识别词语中的人名词语、地名词语以及机构团名词语等进行剔除,得到第三错词。
在一些实施例中,从所有待识别词语中确定第三错词,包括:在属性词语词典中查询所有待识别词语。
可以理解的是,属性词语词典至少包括人名词语、地名词语和机构团体名词语。
属性词语词典可以根据相关数据库的内容来进行构建,还可以考虑到特定领域的需求来对属性词语词典进行构建,此处对属性词语词典的构建方式不作限制。
可以理解的是,在属性词语词典中未查询到待识别词语的情况下,将待识别词语确定为第三错词,即实现了将存在于属性词语词典中的待识别词语进行筛除。
在本实施方式中,通过对待识别词语中的人名词语、地名词语和机构团体名词语等进行提前筛除,得到第三错词,进而能够降低对第三错词的误识率,提高纠错效率和准确性。
在确定出第三错词后,可以基于第三错词,确定第三错词对应的历史待纠错文本的困惑度。
在本实施方式中,可以采用n-gram语言模型来计算待纠错文本的困惑度。
在此种情况下,可以针对第三错词中的每一个字来分别计算相对于历史待纠错文本的困惑度。
可以理解的是,困惑度越低,历史待纠错文本的合理性越高,
在确定出困惑度后,将困惑度大于第一预设值的第三错词确定为第一错词,并对第一错词纠错得到第一纠正词。
可以理解的是,第一预设值可以根据实际情况进行设置,此处对第一预设值的具体大小不作限制。
在本实施方式中,在对第一错词纠错得到第一纠正词可以根据预设的形近字列表或者特定场景下专有词字列表来进行纠错。
预设的形近字列表中可以包含预先选取的多个字的形近字。预设的专有词字列表可以包含预先选取的多个专有词中的易错字。
例如,傅的形近字可以是敷、缚以及簿等。
又如,在糕点烘焙领域,烘焙的易错字为焙,容易被错写为培。
在一些实施例中,可以将预设的形近字列表或者专有词字列表中的字计算相对于历史待纠错文本的困惑度,再将困惑度最低的字作为纠正字,进而得到第一错词对应的第一纠正词。
在本实施方式中,在无法通过错词库快速识别错词并进行纠正的情况下,通过进行困惑度计算,进一步判断第三错词是否为第一错词,能够提高错词的识别率。在将第三错词确定为第一错词的情况下,通过对计算历史待纠错文本的困惑度,进一步实现对历史待纠错文本的纠错准确性。
在一些实施例中,对历史待纠错文本进行音近词纠错,包括确定历史待纠错文本的拼音序列。
由于历史待纠错文本中存在多种同音字,通过该字符拼音能够比较好地扩展待纠错文本的纠错方向。
例如,历史待纠错文本为“拿货什么时候能到”,可以确定出该历史待纠错文本的拼音序列为“na huo shen me shi hou dao”。
在此种情况下,可以基于历史待纠错文本的拼音序列,确定历史待纠错文本的错字和纠正字。
在本实施方式中,可以利用FST语言模型来确定历史待纠错文本中的错词。
在本实施方式中,可以预先构建FST语言模型的拼音库。例如针对口语化字,可以构建口语化字的拼音库。针对专有词,可以构建专有词拼音库,并根据最短路径得分得到纠错结果。
口语化字的拼音库中包括口语化字、口语化字对应的拼音以及口语化字对应的错字。
在历史待纠错文本的拼音序列中检测到存在于口语化字的拼音库中存在的拼音字符时,可以将该拼音字符对应的字作为待纠正字。若该待纠正字存在于拼音库中,则将拼音库中的口语化字作为该待纠正字的纠正字。
例如,拼音库中包括口语化字“那”以及“na”,拼音库中还存在“那”对应的错字“拿”。
在历史待纠错文本为“拿货什么时候能到”的情况下,可以确定“拿”为错字,并根据拼音库确定出纠正字为“那”。
在此种情况下,可以基于历史待纠错文本的错字和纠正字,确定第二错词和第二纠正词。
可以理解的是,拼音库在进行构建时,还可以考虑到字与字之间组合成词的关系。可以在拼音库中将口语化字的相关词语的拼音存储于拼音库中。
在确定出错字和纠正字后,可以在拼音库中确定该错字对应的词拼音,进而从历史待检测文本中确定出第二错词,从而确定出第二纠正词。
例如,拼音库中包括“那货”的词拼音,则在历史待检测文本中确定词拼音序列“nahuo”对应的词为“拿货”,则可以将“拿货”作为第二错词,进而再将“那货”确定为第二纠正词,进而能够实现对音近字的纠正。
根据本发明实施例的文本纠错方法,通过基于拼音序列来对历史待纠错文本的音近词进行纠错,能够准确得到音近字纠错结果,进而能够提高文本纠错模型的训练效率。
下面对本发明提供的文本纠错装置进行描述,下文描述的文本纠错装置与上文描述的文本纠错方法可相互对应参照。
如图2所示,本发明实施例的文本纠错装置包括获取模块210、第一处理模块220和第二处理模块230。
获取模块210用于获取目标待纠错文本;
第一处理模块220用于将目标待纠错文本输入至目标文本纠错模型,得到目标文本纠错模型输出的目标错词与目标纠正词;
第二处理模块230用于基于目标错词和目标纠正词,得到目标纠正文本。
根据本发明实施例提供的文本纠错装置,通过根据历史待纠错文本的专有词纠错和音近词纠错的结果来对目标文本纠错模型进行训练,能够提升目标文本纠错模型针对专有词和音近词的纠错识别准确性和纠正结果的准确性,提高了目标文本纠错模型的识别准确度,进而能更好地满足特定场景下的文本纠错需求。
在一些实施例中,本发明实施例的文本纠错装置还包括第一纠错模块,第一纠错模块用于对历史待纠错文本进行分词处理,得到待识别词语;在错词库中查询待识别词语,错词库包括错词和错词对应的纠正词;在查询到待识别词语的情况下,将待识别词语确认为第一错词,并将错词库中与第一错词对应的纠正词确定为第一纠正词。
在一些实施例中,第一纠错模块还用于在未查询到待识别词语的情况下,从所有待识别词语中确定第三错词;基于第三错词,确定第三错词对应的历史待纠错文本的困惑度;将困惑度大于第一预设值的第三错词确定为第一错词,并对第一错词纠错得到第一纠正词。
在一些实施例中,第一纠错模块还用于在属性词语词典中查询所有待识别词语,属性词语词典至少包括人名词语、地名词语和机构团体名词语;在未查询到待识别词语的情况下,将待识别词语确定为第三错词。
在一些实施例中,本发明实施例的文本纠错装置还包括第二纠错模块,第二纠错模块用于确定历史待纠错文本的拼音序列;基于历史待纠错文本的拼音序列,确定历史待纠错文本的错字和纠正字;基于历史待纠错文本的错字和纠正字,确定第二错词和第二纠正词。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行文本纠错方法,该方法包括:获取目标待纠错文本;将目标待纠错文本输入至目标文本纠错模型,得到目标文本纠错模型输出的目标错词与目标纠正词;基于目标错词和目标纠正词,得到目标纠正文本;目标文本纠错模型是以历史待纠错文本为样本,以历史待纠错文本的历史错词和历史纠正词为标签训练得到的;历史错词包括第一错词和第二错词,历史纠正词包括第一纠正词和第二纠正词;第一错词和第一纠正词是对历史待纠错文本进行专有词纠错确定的;第二错词和第二纠正词是对历史待纠错文本进行音近词纠错确定的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本纠错方法,该方法包括:获取目标待纠错文本;将目标待纠错文本输入至目标文本纠错模型,得到目标文本纠错模型输出的目标错词与目标纠正词;基于目标错词和目标纠正词,得到目标纠正文本;目标文本纠错模型是以历史待纠错文本为样本,以历史待纠错文本的历史错词和历史纠正词为标签训练得到的;历史错词包括第一错词和第二错词,历史纠正词包括第一纠正词和第二纠正词;第一错词和第一纠正词是对历史待纠错文本进行专有词纠错确定的;第二错词和第二纠正词是对历史待纠错文本进行音近词纠错确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本纠错方法,该方法包括:获取目标待纠错文本;将目标待纠错文本输入至目标文本纠错模型,得到目标文本纠错模型输出的目标错词与目标纠正词;基于目标错词和目标纠正词,得到目标纠正文本;目标文本纠错模型是以历史待纠错文本为样本,以历史待纠错文本的历史错词和历史纠正词为标签训练得到的;历史错词包括第一错词和第二错词,历史纠正词包括第一纠正词和第二纠正词;第一错词和第一纠正词是对历史待纠错文本进行专有词纠错确定的;第二错词和第二纠正词是对历史待纠错文本进行音近词纠错确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本纠错方法,其特征在于,包括:
获取目标待纠错文本;
将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;
基于所述目标错词和所述目标纠正词,得到目标纠正文本;
所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;
所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;
所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;
所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述历史待纠错文本进行专有词纠错,包括:
对所述历史待纠错文本进行分词处理,得到待识别词语;
在错词库中查询所述待识别词语,所述错词库包括错词和所述错词对应的纠正词;
在查询到所述待识别词语的情况下,将所述待识别词语确认为所述第一错词,并将所述错词库中与所述第一错词对应的纠正词确定为所述第一纠正词。
3.根据权利要求2所述的文本纠错方法,其特征在于,所述在错词库中查询所述待识别词语之后,还包括:
在未查询到所述待识别词语的情况下,从所有所述待识别词语中确定第三错词;
基于所述第三错词,确定所述第三错词对应的所述历史待纠错文本的困惑度;
将所述困惑度大于第一预设值的所述第三错词确定为所述第一错词,并对所述第一错词纠错得到所述第一纠正词。
4.根据权利要求3所述的文本纠错方法,其特征在于,所述从所有所述待识别词语中确定第三错词,包括:
在属性词语词典中查询所有所述待识别词语,所述属性词语词典至少包括人名词语、地名词语和机构团体名词语;
在未查询到所述待识别词语的情况下,将所述待识别词语确定为所述第三错词。
5.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述历史待纠错文本进行音近词纠错,包括:
确定所述历史待纠错文本的拼音序列;
基于所述历史待纠错文本的拼音序列,确定所述历史待纠错文本的错字和纠正字;
基于所述历史待纠错文本的错字和纠正字,确定所述第二错词和所述第二纠正词。
6.一种文本纠错装置,其特征在于,包括:
获取模块,用于获取目标待纠错文本;
第一处理模块,用于将所述目标待纠错文本输入至目标文本纠错模型,得到所述目标文本纠错模型输出的目标错词与目标纠正词;
第二处理模块,用于基于所述目标错词和所述目标纠正词,得到目标纠正文本;
所述目标文本纠错模型是以历史待纠错文本为样本,以所述历史待纠错文本的历史错词和历史纠正词为标签训练得到的;
所述历史错词包括第一错词和第二错词,所述历史纠正词包括第一纠正词和第二纠正词;
所述第一错词和所述第一纠正词是对所述历史待纠错文本进行专有词纠错确定的;
所述第二错词和所述第二纠正词是对所述历史待纠错文本进行音近词纠错确定的。
7.根据权利要求6所述的文本纠错装置,其特征在于,还包括第一纠错模块,所述第一纠错模块用于对所述历史待纠错文本进行分词处理,得到待识别词语;在错词库中查询所述待识别词语,所述错词库包括错词和所述错词对应的纠正词;在查询到所述待识别词语的情况下,将所述待识别词语确认为所述第一错词,并将所述错词库中与所述第一错词对应的纠正词确定为所述第一纠正词。
8.根据权利要求6所述的文本纠错装置,其特征在于,还包括第二纠错模块,所述第二纠错模块用于确定所述历史待纠错文本的拼音序列;基于所述历史待纠错文本的拼音序列,确定所述历史待纠错文本的错字和纠正字;基于所述历史待纠错文本的错字和纠正字,确定所述第二错词和所述第二纠正词。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述文本纠错方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210644411.9A CN114742040A (zh) | 2022-06-09 | 2022-06-09 | 文本纠错方法、文本纠错装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210644411.9A CN114742040A (zh) | 2022-06-09 | 2022-06-09 | 文本纠错方法、文本纠错装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114742040A true CN114742040A (zh) | 2022-07-12 |
Family
ID=82286720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210644411.9A Pending CN114742040A (zh) | 2022-06-09 | 2022-06-09 | 文本纠错方法、文本纠错装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742040A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622054A (zh) * | 2017-09-26 | 2018-01-23 | 科大讯飞股份有限公司 | 文本数据的纠错方法及装置 |
CN110969012A (zh) * | 2019-11-29 | 2020-04-07 | 北京字节跳动网络技术有限公司 | 文本纠错方法、装置、存储介质及电子设备 |
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN112016275A (zh) * | 2020-10-30 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 一种语音识别文本的智能纠错方法、系统和电子设备 |
CN113901797A (zh) * | 2021-10-18 | 2022-01-07 | 广东博智林机器人有限公司 | 文本纠错方法、装置、设备及存储介质 |
-
2022
- 2022-06-09 CN CN202210644411.9A patent/CN114742040A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622054A (zh) * | 2017-09-26 | 2018-01-23 | 科大讯飞股份有限公司 | 文本数据的纠错方法及装置 |
CN110969012A (zh) * | 2019-11-29 | 2020-04-07 | 北京字节跳动网络技术有限公司 | 文本纠错方法、装置、存储介质及电子设备 |
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN112016275A (zh) * | 2020-10-30 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 一种语音识别文本的智能纠错方法、系统和电子设备 |
CN113901797A (zh) * | 2021-10-18 | 2022-01-07 | 广东博智林机器人有限公司 | 文本纠错方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
EP3654258A1 (en) | Automated electronic mail assistant | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN111666761B (zh) | 细粒度情感分析模型训练方法及装置 | |
CN110990546B (zh) | 智能问答语料库更新方法和装置 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN109977203B (zh) | 语句相似度确定方法、装置、电子设备及可读存储介质 | |
CN112036185B (zh) | 一种基于工业企业构建命名实体识别模型的方法及装置 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN112101032A (zh) | 一种基于自蒸馏的命名实体识别与纠错方法 | |
CN113094478A (zh) | 表情回复方法、装置、设备及存储介质 | |
CN111767390A (zh) | 技能词评估方法及装置、电子设备、计算机可读介质 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN111190973A (zh) | 一种申报表的分类方法、装置、设备及存储介质 | |
CN114139537A (zh) | 词向量的生成方法及装置 | |
CN111414732A (zh) | 文本风格转换方法、装置、电子设备及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN111831685A (zh) | 一种查询语句的处理方法、训练模型的方法、装置及设备 | |
CN114742040A (zh) | 文本纠错方法、文本纠错装置及电子设备 | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
CN106815592B (zh) | 文本数据处理方法及装置和错别字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220712 |