CN113361266A - 文本纠错方法、电子设备及存储介质 - Google Patents
文本纠错方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113361266A CN113361266A CN202110711115.1A CN202110711115A CN113361266A CN 113361266 A CN113361266 A CN 113361266A CN 202110711115 A CN202110711115 A CN 202110711115A CN 113361266 A CN113361266 A CN 113361266A
- Authority
- CN
- China
- Prior art keywords
- word
- confusion
- error
- replacement
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及文本纠错技术领域,公开了一种文本纠错方法、电子设备及存储介质。通过线下生成的纠错词典对待纠错语句进行识别,确定语句中是否存在纠错词典中的混淆词;当待纠错语句中包含混淆词,则将该混淆词替换为纠错词典中与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的该语句对应的困惑度值;最后,根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的混淆词纠正为对应的纠正词,并执行相应操作。本方案中,通过在线下预先构建纠错词典,在线上通过该纠错词典以及轻量级的长短时记忆LSTM语言模型进行词语纠错,可以在线上保证低时延前提下,获得更好的纠错准确率。
Description
技术领域
本发明实施例涉及文本纠错技术领域,特别涉及一种文本纠错方法、电子设备及存储介质。
背景技术
智能语音系统中,通过自动语音识别技术(Auto Speech Recognize,ASR)技术进行语音识别时可能会生成错误文本,导致后续的用户意图理解出现偏差。如何利用自然语言处理(Natural Language Processing,NLP)技术对ASR的文本进行纠错成了一个需要关注的问题。
现有的文本纠错方案多是基于深度学习模型,时延较高,并不适用于实时语音对话系统。
发明内容
本发明实施方式的目的在于提供一种文本纠错方法、电子设备及存储介质,可以在保证低时延前提下,获得更好的纠错准确率。
为解决上述技术问题,本发明的实施方式提供了一种文本纠错方法,包括:
对待纠错语句进行识别,确定所述语句中是否存在纠错词典中的混淆词;所述纠错词典中包括多个混淆词以及与所述混淆词对应的纠正词;
当所述语句中包含混淆词,则将该混淆词替换为与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的所述语句对应的困惑度值;
根据所述混淆词替换前后的所述语句对应的困惑度值,确定是否将所述语句中的所述混淆词纠正为对应的纠正词,并执行相应操作。
本发明的实施方式还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本纠错方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的文本纠错方法。
本发明实施方式相对于现有技术而言,在线上如对通过ASR生成的文本进行纠错时,先通过线下生成的纠错词典对待纠错语句进行识别,确定语句中是否存在纠错词典中的混淆词;该纠错词典中包括多个混淆词以及与混淆词对应的纠正词;当待纠错语句中包含混淆词,则将该混淆词替换为纠错词典中与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的该语句对应的困惑度值;最后,根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的混淆词纠正为对应的纠正词,并执行相应操作。本方案中,通过在线下预先构建纠错词典,在线上通过该纠错词典以及轻量级的长短时记忆LSTM语言模型进行词语纠错,可以在线上保证低时延前提下,获得更好的纠错准确率。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式的文本纠错方法的具体流程图;
图2是根据本发明第二实施方式的纠错词典的构建方法的具体流程图;
图3是根据本发明第三实施方式的文本纠错方法的具体流程图;
图4是根据本发明第四实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种文本纠错方法,该方法适用于线上对ASR生成的文本进行纠错的应用场景,如智能语音会话场景,执行主体可以为与用户线上会话的智能终端或者与该智能终端通过网络进行交互的服务器。如图1所示,该文本纠错方法包括如下步骤:
步骤101:对待纠错语句进行识别,确定语句中是否存在纠错词典中的混淆词;纠错词典中包括多个混淆词以及与混淆词对应的纠正词。
其中,待纠错语句可以为线上用户向智能终端输入的语音数据经ASR处理后生成的文本中的语句。终端对待纠错语句中的词语进行识别,以判断这些词语中是否包含了纠错词典中记录的混淆词。本实施例中的纠错词典可以是通过线下方式预先生成的词典。该纠错词典中记录了大量的不同场景中容易出现的混淆词以及混淆词对应的纠正词。其中,混淆词可以认为是会话场景中对原本正确的词在语音、字形等方面容易发生混淆的错误词,而纠正词则是该正确词。
例如,语句“金天天气挺好的呀”中的“金天”可以认为是询问天气的会话场景中对“今天”容易发生语音混淆的错误词,其对应的正确词应该是“今天”。因此,在线下形成纠错词典时,可以“金天”作为一个混淆词,以“今天”作为该混淆词对应的纠正词。在实际会话场景中,不同的混淆词可能会对应同一个纠正词。一个混淆词及其对应的纠正词组成了一个纠错词对。
本实施例,对纠错词典中各纠错词对的获取方法不做限定,例如可以采用人工方式或者借助预先训练的网络模型从现有各会话场景的语料中提取混淆词及对应的纠正词来生成纠错词对,进而构建出纠错词典。
步骤102:当语句中包含混淆词,则将该混淆词替换为与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的语句对应的困惑度值。
其中,困惑度(Perplexity,PPL)是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据句子中每个词语来估计该句子出现的概率,并用句子长度作normalize,公式为:
其中,S代表sentence(句子),N是句子长度,p(wi)是第i个词的概率。第一个词就是p(w1|w0),而w0是START,表示句子的起始,是个占位符。
这个式子可以这样理解,PPL越小,p(wi)则越大,一句我们期望的sentence出现的概率就越高。
具体地,本实施例中采用长短时记忆LSTM模型进行模型训练得到相应的语言模型(LSTM语言模型),该语言模型主要用于预测sentence中第i个词的概率,并基于sentence中各词的概率计算sentence出现的概率,进而根据sentence出现的概率得到sentence对应的PPL值。而在本实施例中上述sentence即对应为本实施例中的待纠错语句。
当待纠错语句中包含纠错词典中的混淆词时,可以将该语句中的混淆词替换为纠错词典中该混淆词对应的纠正词,从而形成了包含该混淆词的替换前的语句,以及包含该纠错词的替换后的语句。将这两个语句分别通过LSTM语言模型进行计算,得到这两个语句(混淆词替换前后的语句)对应的困惑度值。
步骤103:根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的混淆词纠正为对应的纠正词,并执行相应操作。
由于困惑度值可以有效评价一句话出现的概率。PPL越小,一句我们期望的sentence出现的概率就越高。因此,通过比较混淆词替换前后的语句对应的困惑度值,可以确定哪一句更期望被出现。如果更被期望出现的是混淆词替换前的语句,则不需要对待纠错语句中的混淆词采用纠正词进行纠正;如果更被期望出现的是混淆词替换后的语句,则需要对待纠错语句中的混淆词采用纠正词进行纠正。
本实施例与现有技术相比较,在线上如对通过ASR生成的文本进行纠错时,先通过线下生成的纠错词典对待纠错语句进行识别,确定语句中是否存在纠错词典中的混淆词;该纠错词典中包括多个混淆词以及与混淆词对应的纠正词;当待纠错语句中包含混淆词,则将该混淆词替换为纠错词典中与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的该语句对应的困惑度值;最后,根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的混淆词纠正为对应的纠正词,并执行相应操作。本方案中,通过在线下预先构建纠错词典,在线上通过该纠错词典以及轻量级的长短时记忆LSTM语言模型进行词语纠错,可以在线上保证低时延前提下,获得更好的纠错准确率。
本发明的第二实施方式涉及一种纠错词典的构建方法,采用第二实施方式的方法所构建的纠错词典可作为第一实施方式中的纠错词典执行第一实施方式中的方法步骤。如图2所示,该纠错词典的构建方法包括如下步骤:
步骤201:获取多个场景类型中的关键词,以及与关键词易发生混淆的错误词和出现该错误词的原始语句。
对于本实施例,纠错词典中的混淆词和纠正词分别对应为会话场景中的错误词和正确词。关于正确词的获取,可以从不同会话场景类型(简称“场景类型”)中出现的关键词中提取,这就需要先获取多个场景类型中的关键词。由于纠正词为正确词,因此,所获取多个场景类型中的关键词应在语法结构上保证正确。因此,获取这些关键词的来源应当遵循严格的语法规范。关于错误词的获取,为保证错误的多样性,可以从用户的实际会话中获取,同时在获取错误词时,还要同时获取该错误词所在的原始语句。
在一个例子中,有关关键词,错误词的获取方法可通过如下步骤实现:
步骤1:从QA数据库以及实体数据库中,获取各场景类型中出现频率大于预设频率阈值的词语作为相应场景类型中的关键词。
具体地,从不同场景类型语料(如机场、银行、医院等的QA(Question andAnswering,问题-回答)数据库,或是实体数据库(比如人名、地名、产品名等实体库)的词语中提取相应场景类型中关键词。而提取出的关键词大概率是相应场景下的常见词。由于长尾现象,出现频率越高的关键词越少,越低的关键词越多。因此需要设定频率阈值来决定每个场景选取多少关键词。
例如,可分别针对各场景类型设置不同的频率阈值,提取各场景类型中出现频率大于对应频率阈值的词语作为相应场景类型中的关键词。例如,对于大流量会话场景如机场、银行,提取的关键词数量可约为1000-1500个。对于小流量会话场景如家庭,提取的关键词数量可约为300-800个。另外,对于关键词长度的限制:可分别提取二字(值机、登机、唱歌、握手),三字(肯德基、会议室、打印机),四字(核酸检查、太保家园、中国移动)的词语作为关键词。
步骤2:从各关键词所属场景类型的线上日志语料中,获取与关键词的拼音编辑距离小于预设距离阈值的词语作为与关键词对应的错误词。
具体地,可以不同场景类型中的线上日志语料作为提取错误词的语料。从各关键词所属场景类型的线上日志语料中,获取与相应关键词对应的错误词。由于本实施例中是针对ASR生成的文件进行纠错,所以可采用拼音编辑距离的方法,从语料中选择与关键词的拼音编辑距离小于预设距离阈值的词语作为与关键词对应的错误词。
例如:关键词(正确词)为‘值机’,现存在线上日志语料句:‘机器人带我去知己’。
则进行:
1)遍历分割句子为二字词。即将‘机器人带我去知己’分割为‘机器|器人|人带|带我|我去|去知|知己’。
2)根据拼音编辑距离计算distance(机器,值机),distance(器人,值机),distance(知己,值机)。也即:distance(jiqi,zhiji),distance(qiren,zhiji),distance(zhiji,zhiji)。如果预设距离阈值小于2,则选择(知己,值机)中‘知己’作为‘值机’的错误词。
此外,在执行完步骤2,初步得到各场景类型中的关键词及其对应的错误词后,由于关键词-错误词对数量庞大,可以优选的对这些词对进行进一步地数量和质量的过滤。
具体地,在执行完步骤2,得到该关键词及其对应的错误词之后,可进一步继续执行如下步骤:
步骤3:判断该错误词、该关键词的声母是否包含在预设的声母混淆音组合中,和/或判断该错误词、该关键词的韵母是否包含在预设的韵母混淆音组合中;如果判断结果为是,则将该错误词最终作为该关键词对应的错误词;如果判断结果为否,则将该错误词最终不作为该关键词对应的错误词。
其中,声母混淆音组合可包括:(s,sh),(c,ch),(z,zh),(l,n),(f,h),(g,k);韵母混淆音组合可包括:(an,ang),(en,eng),(in,ing),(ian,iang),(uan,uang),(ao,ou)。
具体地,在识别出一组关键词、错误词的声母和韵母部分后,如果该组关键词、错误词的声母和/或韵母包含在上述任一组的声、韵母混淆音组合中,则保留该组关键词、错误词,否则过滤掉该组关键词、错误词。
例如:在错误词所在语料句中查询到错误词‘汉办’,其对应的关键词为‘航班’。该组关键词、错误词的声母分别为(h,b)(h,b),韵母分别为(ang,an)(an,an)。通过比对上述声、韵母混淆音组合可知,该组关键词、错误词中有两个字的韵母对应上了韵母混淆音组合(an,ang),因此保留该组关键词、错误词。
之后,针对每个场景类型中的关键词及其对应的错误词,执行如下步骤:
步骤202:将原始语句中的错误词替换为与该错误词对应的关键词,通过BERT语言模型计算错误词替换前后的原始语句对应的困惑度值。
其中,有关困惑度值的介绍可参见步骤102中的相关内容,在此不做赘述。
具体地,本实施例中采用BERT模型进行模型训练得到相应的语言模型(BERT语言模型),该语言模型主要用于预测sentence中第i个词的概率,并基于sentence中各词的概率计算sentence出现的概率,进而根据sentence出现的概率得到sentence对应的PPL值。而在本实施例中上述sentence即对应为本实施例中的原始语句。
当原始语句中包含错误词时,可以将该原始语句中的错误词替换为对应的关键词,从而形成了包含该错误词的替换前的原始语句,以及包含该关键词的替换后的原始语句。将这两个原始语句分别通过BERT语言模型进行计算,得到这两个语句(错误词替换前后的原始语句)对应的困惑度值。
在一个例子中,本步骤可通过如下步骤实现:
以字为单位分别针对错误词替换前后的所述原始语句中的错误词和关键词进行掩盖,计算错误词替换前后所述原始语句的困惑度值。
具体地,在传统的BERT语言模型中,特别是chinese-bert-wwm-ext语言模型中,通常是对语句中每个完成词进行整体掩盖,计算每个词的概率,再基于每个词的概率计算句子的概率,进而得到语句的困惑度值,其目的是整体评价语句的被期望性。而相比之下,本实施例中侧重对错误词替换前后的两个原始语句的困惑度值的差异进行比对,而这种差异取决于错误词的替换,为了突出错误词替换前后的原始语句的PPL的差异,因此在本实施例中是以一个“字”为单位,分别对错误词替换前后的原始语句中的错误词和关键词进行替换,并基于这种掩盖方式,最终计算得到错误词替换前后原始语句的困惑度值。这样更能凸显错误词替换前后,两个原始语句的被期望性的差异。
在一个例子中,上述计算错误词替换前后原始语句的困惑度值的过程,可包括如下步骤:
步骤1:计算错误词替换前后原始语句中被掩盖字的概率值。
在传统的BERT语言模型中,在计算语句的PPL值时,由于是整体评价语句的被期望性,因此会选择语句中全部词语的概率来计算语句的概率。而本实施例中,仅是通过PPL值来比较错误词替换前后句的被期望性的差异,因此,在计算语句中字的概率时,仅计算被掩盖字的概率值。
步骤2:以错误词中被掩盖字的概率值的乘积值,作为错误词替换前原始语句的概率值;以关键词中被掩盖字的概率值的乘积值,作为错误词替换后原始语句的概率值。
承接步骤1中仅计算被掩盖字的概率值,在计算错误词替换前后原始语句的概率值时,可以仅将各被掩盖字的概率值的乘积值,作为错误词替换前后原始语句的概率值。这样既可以不丢失错误词、关键词在相应原始句子中对句子被期望性的贡献,同时由于无需对语句中其他字计算概率,降低了计算过程的复杂度,提高计算效率。
步骤3:根据错误词替换前后原始语句的概率值,分别计算错误词替换前后原始语句的困惑度值。
步骤203:根据错误词替换前后的原始语句对应的困惑度值,确定是否将该错误词作为混淆词、该关键词作为该混淆词对应的纠正词,添加到当前场景类型对应的纠错词典中,并执行相应操作操作。
由于困惑度值可以有效评价一句话出现的概率。PPL越小,一句我们期望的sentence出现的概率就越高。因此,通过比较错误词替换前后的原始语句对应的困惑度值,可以确定哪一句更期望被出现,且二者被期望程度之间的差异有多大。如果更被期望出现的是错误词替换前的语句,则说明在当前场景类型中不需要将错误词替换为关键词,故也不需要将该组错误词、关键词作为混淆词、纠正词添加到当前场景类型对应的纠错词典中;而如果更被期望出现的是错误词替换后的语句,则说明在当前场景类型中需要将错误词替换为关键词,故需要将该组错误词、关键词作为混淆词、纠正词添加到当前场景类型对应的纠错词典中。
在一个例子中,本步骤可通过如下步骤实现:
步骤1:若替换后的原始语句的困惑度值小于替换前的原始语句的困惑度值,且差值大于第二阈值,则将该错误词作为一个混淆词、该关键词作为该混淆词对应的一个纠正词添加到当前场景类型对应的所述纠错词典中。
具体地,若替换后的原始语句的困惑度值小于替换前的原始语句的困惑度值,且差值大于第二阈值,则说明更被期望出现的是错误词替换后的语句,且这种将错误词替换为关键词的需求程度较大,此时可将该错误词作为一个混淆词、该关键词作为该混淆词对应的一个纠正词添加到当前场景类型对应的纠错词典中,以备线上遇到该场景类型中的混淆词时,根据纠错字典中该混淆词对应的纠正词对其进行纠正。
步骤2:若替换后的原始语句的困惑度值不小于替换前的原始语句的困惑度值,或者替换后的原始语句的困惑度值小于替换前的所述原始语句的困惑度值且差值不大于第二阈值,则丢弃该组错误词和关键词。
具体地,若替换后的原始语句的困惑度值不小于替换前的原始语句的困惑度值,或者替换后的原始语句的困惑度值小于替换前的原始语句的困惑度值且差值不大于第二阈值,则说明错误词替换后的语句较错误词替换前的语句并没有更被期待,或者虽然错误词替换后的语句较错误词替换前的语句更被期待,但期待的需求程度并不高,此时可不将该错误词作为一个混淆词、该关键词作为该混淆词对应的一个纠正词添加到当前场景类型对应的纠错词典中,而是直接丢弃该组错误词和关键词。
相应地,基于对纠错词典按不同场景类型进行分类获取,上述步骤101中,对待纠错语句进行识别所采用的纠错词典可为待纠错语句所属场景类型对应的纠错词典,从而提高纠错词典的纠错准确度。
本发明的第三实施方式涉及一种文本纠错方法。第三实施方式是在第一实施方式基础上做的改进,其改进之处在于:纠错词典还包括:每个混淆词对应的纠错类型;该纠错类型包括类型0和类型1;相应地,当语句中包含混淆词,且该混淆词对应的纠错类型为0,则直接将语句中的所述混淆词纠正为对应的纠正词;或者,当语句中包含混淆词,且该混淆词对应的纠错类型为1,则继续执行步骤102中的步骤,将该混淆词替换为与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的所述语句对应的困惑度值的操作。
此外,根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的所述混淆词纠正为对应的纠正词,包括:若替换后的语句的困惑度值小于替换前的语句的困惑度值,且小于第一阈值,则确定将语句中的混淆词纠正为对应的纠正词;若替换后的语句的困惑度值不小于替换前的语句的困惑度值,或者替换后的语句的困惑度值小于替换前的语句的困惑度值且不小于第一阈值,则确定不对语句中的所述混淆词进行纠正。
如图3所示,图1所示方法步骤中还包括如下步骤:
步骤104:当语句中包含混淆词,且该混淆词对应的纠错类型为0,则直接将语句中的混淆词纠正为对应的纠正词。
其中,纠错类型为0表征相应混淆词到纠正词的纠正等级很高,可直接对语句中的混淆词进行纠正。例如:语句为‘我要坐灰机’,混淆词为‘坐灰机’,纠正词为‘坐飞机’,由于‘坐灰机’在任何场景类型中一般都不会联想到是别的关键词,故可直接对该混淆词进行纠正。
步骤105:当语句中包含混淆词,且该混淆词对应的纠错类型为1,则将该混淆词替换为与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的语句对应的困惑度值。
其中,纠错类型为1表征相应混淆词到纠正词的纠正等级不高,需要继续通过步骤102、103中的步骤,确定以及执行对语句中的混淆词进行纠正。例如:语句为‘要不要去打针台’,混淆词为‘打针台’,纠正词为‘导诊台’,由于‘打针台’在一些场景类型中可能描述的是用于打针的场所,因此需要进一步通过LSTM语言模型计算混淆词替换前后的语句对应的困惑度值,以基于困惑度值判断是否执行纠正操作。
本步骤105可视为在特定条件下执行步骤102的处理过程。
进一步地,在根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的混淆词纠正为对应的纠正词时,具体可通过如下步骤实现:
若替换后的语句的困惑度值小于替换前的语句的困惑度值,且小于第一阈值,则确定将语句中的混淆词纠正为对应的纠正词;若替换后的语句的困惑度值不小于替换前的语句的困惑度值,或者替换后的语句的困惑度值小于替换前的语句的困惑度值且不小于第一阈值,则确定不对语句中的混淆词进行纠正。
具体地,若替换后的语句的困惑度值小于替换前的语句的困惑度值,且同时小于第二阈值,则说明更被期望出现的是错误词替换后的语句,且该错误词替换后的语句作为一句话的期望程度本身也很高,此时可确定将语句中的混淆词纠正为对应的纠正词。
若替换后的语句的困惑度值不小于替换前的语句的困惑度值,或者替换后的语句的困惑度值小于替换前的语句的困惑度值且不小于第一阈值,则说明更被期望出现的是错误词替换前的语句,或者虽然更被期望出现的是错误词替换后的语句,但该错误词替换后的语句作为一句话的期望程度本身并不高,此时可确定不对语句中的混淆词进行纠正。
本实施例与现有技术相比较,在线上如对通过ASR生成的文本进行纠错时,先通过线下生成的纠错词典对待纠错语句进行识别,确定语句中是否存在纠错词典中的混淆词;该纠错词典中包括多个混淆词以及与混淆词对应的纠正词;当待纠错语句中包含混淆词,则将该混淆词替换为纠错词典中与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的该语句对应的困惑度值;最后,根据混淆词替换前后的语句对应的困惑度值,确定是否将语句中的混淆词纠正为对应的纠正词,并执行相应操作。本方案中,通过在线下预先构建纠错词典,在线上通过该纠错词典以及轻量级的长短时记忆LSTM语言模型进行词语纠错,可以在线上保证低时延前提下,获得更好的纠错准确率。
本发明第四实施方式涉及一种电子设备,如图4所示,包括至少一个处理器302;以及,与至少一个处理器302通信连接的存储器;其中,存储器301存储有可被至少一个处理器302执行的指令,指令被至少一个处理器302执行,以使至少一个处理器302能够执行上述任一方法实施例。
其中,存储器301和处理器302采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器302和存储器301的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器302处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器302。
处理器302负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器301可以被用于存储处理器302在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (11)
1.一种文本纠错方法,其特征在于,包括:
对待纠错语句进行识别,确定所述语句中是否存在纠错词典中的混淆词;所述纠错词典中包括多个混淆词以及与所述混淆词对应的纠正词;
当所述语句中包含混淆词,则将该混淆词替换为与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的所述语句对应的困惑度值;
根据所述混淆词替换前后的所述语句对应的困惑度值,确定是否将所述语句中的所述混淆词纠正为对应的纠正词,并执行相应操作。
2.根据权利要求1所述的方法,其特征在于,所述纠错词典采用线下方式构建,构建过程包括:
获取多个场景类型中的关键词,以及与所述关键词易发生混淆的错误词和出现该错误词的原始语句;针对每个场景类型中的关键词及其对应的错误词,执行如下步骤:
将所述原始语句中的错误词替换为与该错误词对应的关键词,通过BERT语言模型计算错误词替换前后的所述原始语句对应的困惑度值;
根据所述错误词替换前后的所述原始语句对应的困惑度值,确定是否将该错误词作为混淆词、该关键词作为该混淆词对应的纠正词,添加到当前场景类型对应的所述纠错词典中,并执行相应操作;
其中,所述对待纠错语句进行识别所采用的纠错词典为所述待纠错语句所属场景类型对应的纠错词典。
3.根据权利要求2所述的方法,其特征在于,所述根据所述错误词替换前后的所述原始语句对应的困惑度值,确定是否将该错误词作为混淆词、该关键词作为该混淆词对应的纠正词,添加到当前场景类型对应的所述纠错词典中,并执行相应操作,包括:
若替换后的所述原始语句的困惑度值小于替换前的所述原始语句的困惑度值,且差值大于第二阈值,则将该错误词作为一个混淆词、该关键词作为该混淆词对应的一个纠正词添加到当前场景类型对应的所述纠错词典中;
若替换后的所述原始语句的困惑度值不小于替换前的所述原始语句的困惑度值,或者替换后的所述原始语句的困惑度值小于替换前的所述原始语句的困惑度值且差值不大于所述第二阈值,则丢弃该组错误词和关键词。
4.根据权利要求2所述的方法,其特征在于,所述获取多个场景类型中的关键词,以及与所述关键词易发生混淆的错误词,包括:
从QA数据库以及实体数据库中,获取各所述场景类型中出现频率大于预设频率阈值的词语作为相应场景类型中的所述关键词;
从各所述关键词所属场景类型的线上日志语料中,获取与所述关键词的拼音编辑距离小于预设距离阈值的词语作为与所述关键词对应的错误词。
5.根据权利要求4所述的方法,其特征在于,所述从各所述关键词所属场景类型的线上日志语料中,获取与所述关键词的拼音编辑距离小于预设距离阈值的词语作为与所述关键词对应的错误词之后,还包括:
判断该错误词、该关键词的声母是否包含在预设的声母混淆音组合中,和/或判断该错误词、该关键词的韵母是否包含在预设的韵母混淆音组合中;
如果判断结果为是,则将该错误词最终作为该关键词对应的错误词;
如果判断结果为否,则将该错误词最终不作为该关键词对应的错误词。
6.根据权利要求2所述的方法,其特征在于,所述通过BERT语言模型计算错误词替换前后的所述原始语句对应的困惑度值,包括:
以字为单位分别针对错误词替换前后的所述原始语句中的错误词和关键词进行掩盖,计算错误词替换前后所述原始语句的困惑度值。
7.根据权利要求6所述的方法,其特征在于,所述计算错误词替换前后所述原始语句的困惑度值,包括:
计算错误词替换前后所述原始语句中被掩盖字的概率值;
以所述错误词中被掩盖字的概率值的乘积值,作为错误词替换前所述原始语句的概率值;以所述关键词中被掩盖字的概率值的乘积值,作为错误词替换后所述原始语句的概率值;
根据所述错误词替换前后所述原始语句的概率值,分别计算所述错误词替换前后所述原始语句的困惑度值。
8.根据权利要求1所述的方法,其特征在于,所述纠错词典还包括:每个所述混淆词对应的纠错类型;所述纠错类型包括类型0和类型1;
所述方法还包括:
当所述语句中包含混淆词,且该混淆词对应的纠错类型为0,则直接将所述语句中的所述混淆词纠正为对应的纠正词;或者,
当所述语句中包含混淆词,且该混淆词对应的纠错类型为1,则执行将该混淆词替换为与该混淆词对应的纠正词,并通过长短时记忆LSTM语言模型计算混淆词替换前后的所述语句对应的困惑度值的操作。
9.根据权利要求1所述的方法,其特征在于,所述根据所述混淆词替换前后的所述语句对应的困惑度值,确定是否将所述语句中的所述混淆词纠正为对应的纠正词,包括:
若替换后的所述语句的困惑度值小于替换前的所述语句的困惑度值,且小于第一阈值,则确定将所述语句中的所述混淆词纠正为对应的纠正词;若替换后的所述语句的困惑度值不小于替换前的所述语句的困惑度值,或者替换后的所述语句的困惑度值小于替换前的所述语句的困惑度值且不小于第一阈值,则确定不对所述语句中的所述混淆词进行纠正。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至9中任一项所述的文本纠错方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711115.1A CN113361266B (zh) | 2021-06-25 | 2021-06-25 | 文本纠错方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711115.1A CN113361266B (zh) | 2021-06-25 | 2021-06-25 | 文本纠错方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361266A true CN113361266A (zh) | 2021-09-07 |
CN113361266B CN113361266B (zh) | 2022-12-06 |
Family
ID=77536493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110711115.1A Active CN113361266B (zh) | 2021-06-25 | 2021-06-25 | 文本纠错方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361266B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779972A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113836921A (zh) * | 2021-11-24 | 2021-12-24 | 北京嘉和海森健康科技有限公司 | 纸质病例数据电子化方法、装置及电子设备 |
CN113938708A (zh) * | 2021-10-14 | 2022-01-14 | 咪咕文化科技有限公司 | 直播的音频纠错方法、装置、计算设备及存储介质 |
CN114065735A (zh) * | 2021-11-24 | 2022-02-18 | 北京房江湖科技有限公司 | 文本纠错方法 |
CN114239553A (zh) * | 2021-12-23 | 2022-03-25 | 佳源科技股份有限公司 | 基于人工智能的日志审核方法、装置、设备及介质 |
CN114611524A (zh) * | 2022-02-08 | 2022-06-10 | 马上消费金融股份有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN114970502A (zh) * | 2021-12-29 | 2022-08-30 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN110633463A (zh) * | 2018-06-22 | 2019-12-31 | 鼎复数据科技(北京)有限公司 | 一种应用于垂直领域的专业词汇纠错方法及系统 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
CN111090991A (zh) * | 2019-12-25 | 2020-05-01 | 北京百度网讯科技有限公司 | 场景纠错方法、装置、电子设备和存储介质 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN111651978A (zh) * | 2020-07-13 | 2020-09-11 | 深圳市智搜信息技术有限公司 | 基于实体的词法检查方法与装置和计算机设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112560450A (zh) * | 2020-12-11 | 2021-03-26 | 科大讯飞股份有限公司 | 一种文本纠错方法及装置 |
CN112861521A (zh) * | 2021-01-29 | 2021-05-28 | 思必驰科技股份有限公司 | 语音识别结果纠错方法、电子设备及存储介质 |
-
2021
- 2021-06-25 CN CN202110711115.1A patent/CN113361266B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
CN110633463A (zh) * | 2018-06-22 | 2019-12-31 | 鼎复数据科技(北京)有限公司 | 一种应用于垂直领域的专业词汇纠错方法及系统 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
CN111090991A (zh) * | 2019-12-25 | 2020-05-01 | 北京百度网讯科技有限公司 | 场景纠错方法、装置、电子设备和存储介质 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN111651978A (zh) * | 2020-07-13 | 2020-09-11 | 深圳市智搜信息技术有限公司 | 基于实体的词法检查方法与装置和计算机设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112560450A (zh) * | 2020-12-11 | 2021-03-26 | 科大讯飞股份有限公司 | 一种文本纠错方法及装置 |
CN112861521A (zh) * | 2021-01-29 | 2021-05-28 | 思必驰科技股份有限公司 | 语音识别结果纠错方法、电子设备及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779972A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
WO2023035525A1 (zh) * | 2021-09-10 | 2023-03-16 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113779972B (zh) * | 2021-09-10 | 2023-09-15 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113938708A (zh) * | 2021-10-14 | 2022-01-14 | 咪咕文化科技有限公司 | 直播的音频纠错方法、装置、计算设备及存储介质 |
CN113938708B (zh) * | 2021-10-14 | 2024-04-09 | 咪咕文化科技有限公司 | 直播的音频纠错方法、装置、计算设备及存储介质 |
CN113836921A (zh) * | 2021-11-24 | 2021-12-24 | 北京嘉和海森健康科技有限公司 | 纸质病例数据电子化方法、装置及电子设备 |
CN114065735A (zh) * | 2021-11-24 | 2022-02-18 | 北京房江湖科技有限公司 | 文本纠错方法 |
CN114239553A (zh) * | 2021-12-23 | 2022-03-25 | 佳源科技股份有限公司 | 基于人工智能的日志审核方法、装置、设备及介质 |
CN114970502A (zh) * | 2021-12-29 | 2022-08-30 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
CN114970502B (zh) * | 2021-12-29 | 2023-03-28 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
CN114611524A (zh) * | 2022-02-08 | 2022-06-10 | 马上消费金融股份有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN114611524B (zh) * | 2022-02-08 | 2023-11-17 | 马上消费金融股份有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113361266B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113361266B (zh) | 文本纠错方法、电子设备及存储介质 | |
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
CN111209740B (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN111177324B (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111177359A (zh) | 多轮对话方法和装置 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
US20220414332A1 (en) | Method and system for automatically generating blank-space inference questions for foreign language sentence | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
CN113343671B (zh) | 一种语音识别后的语句纠错方法、装置、设备及存储介质 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN113779972A (zh) | 语音识别纠错方法、系统、装置及存储介质 | |
CN111539199A (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
CN112541095A (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN110287487B (zh) | 主谓语识别方法、装置、设备及计算机可读存储介质 | |
CN116910218A (zh) | 知识库中扩展问自动挖掘方法及其装置 | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN115525749A (zh) | 语音问答方法、装置、电子设备和存储介质 | |
CN114201953A (zh) | 一种关键词提取、模型训练方法、装置、设备及存储介质 | |
CN109492224B (zh) | 一种词表构建的方法及装置 | |
CN112836522A (zh) | 语音识别结果的确定方法及装置、存储介质及电子装置 | |
CN112765973A (zh) | 评分模型训练方法及装置、作文评分方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 200245 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai Applicant after: Dayu robot Co.,Ltd. Address before: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai Applicant before: Dalu Robot Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |