CN110188353B - 文本纠错方法及装置 - Google Patents

文本纠错方法及装置 Download PDF

Info

Publication number
CN110188353B
CN110188353B CN201910452219.8A CN201910452219A CN110188353B CN 110188353 B CN110188353 B CN 110188353B CN 201910452219 A CN201910452219 A CN 201910452219A CN 110188353 B CN110188353 B CN 110188353B
Authority
CN
China
Prior art keywords
decoding
word
text
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910452219.8A
Other languages
English (en)
Other versions
CN110188353A (zh
Inventor
罗希意
邓卓彬
赖佳伟
付志宏
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910452219.8A priority Critical patent/CN110188353B/zh
Publication of CN110188353A publication Critical patent/CN110188353A/zh
Application granted granted Critical
Publication of CN110188353B publication Critical patent/CN110188353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种文本纠错方法及装置,其中方法包括:将待纠错的文本对应的词向量数组输入预设的编码模块,获取第一隐状态向量数组并输入至解码模块,针对每个解码位置,根据该解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定解码向量;根据解码位置的解码向量、全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果,进而确定文本对应的纠错后文本,该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。

Description

文本纠错方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本纠错方法及装置。
背景技术
目前的端到端纠错模型为基于引入注意力机制的NMT纠错模型。NMT纠错模型是一个基于Encoder-Decoder的Sequence-To-Sequence模型。其中,Encoder模块和Decoder模块的结构为循环神经网络(Recurrent Neural Network,简称RNN)网络结构,二者将文本序列中的字/分词映射至词向量空间时所用的词表相同。但由于词表的量级通常在几万至几十万,使得纠错模型在解码输出的时候解空间太大,模型的复杂度高,模型训练时的收敛速度太慢。且注意力机制没有考虑Encoder模块原始输入序列的顺序,导致纠错结果的准确率较差。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种文本纠错方法,该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
本申请的第二个目的在于提出一种文本纠错装置。
本申请的第三个目的在于提出另一种文本纠错装置。
本申请的第四个目的在于提出一种计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种文本纠错方法,包括:
获取待纠错的文本,以及所述文本中各个字词对应的受限词表;根据所述文本和预设的全局性词表,确定所述文本对应的词向量数组;所述词向量数组包括:所述文本中各个字词对应的向量;将所述词向量数组输入预设的编码模块,获取所述文本对应的第一隐状态向量数组;将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量;所述解码向量根据所述解码位置对应的第二隐状态向量、注意力向量和所述第一隐状态向量数组确定;根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果;根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。
本申请实施例的文本纠错方法,通过获取待纠错的文本,以及所述文本中各个字词对应的受限词表;根据所述文本和预设的全局性词表,确定所述文本对应的词向量数组;所述词向量数组包括:所述文本中各个字词对应的向量;将所述词向量数组输入预设的编码模块,获取所述文本对应的第一隐状态向量数组;将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量;所述解码向量根据所述解码位置对应的第二隐状态向量、注意力向量和所述第一隐状态向量数组确定;根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果;根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
为达上述目的,本申请第二方面实施例提出了一种文本纠错装置,包括:
获取模块,用于获取待纠错的文本,以及所述文本中各个字词对应的受限词表;确定模块,用于根据所述文本和预设的全局性词表,确定所述文本对应的词向量数组;所述词向量数组包括:所述文本中各个字词对应的向量;编码模块,用于将所述词向量数组输入预设的编码模块,获取所述文本对应的第一隐状态向量数组;解码模块,还用于将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量;所述解码向量根据所述解码位置对应的第二隐状态向量、注意力向量和所述第一隐状态向量数组确定;所述确定模块,还用于根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果;所述确定模块,还用于根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。
本申请实施例的文本纠错装置,通过获取待纠错的文本,以及所述文本中各个字词对应的受限词表;根据所述文本和预设的全局性词表,确定所述文本对应的词向量数组;所述词向量数组包括:所述文本中各个字词对应的向量;将所述词向量数组输入预设的编码模块,获取所述文本对应的第一隐状态向量数组;将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量;所述解码向量根据所述解码位置对应的第二隐状态向量、注意力向量和所述第一隐状态向量数组确定;根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果;根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
为达上述目的,本申请第三方面实施例提出了另一种文本纠错装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的文本纠错方法。
为了实现上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本纠错方法。
为了实现上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本纠错方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请第一个实施例的一种文本纠错方法的流程示意图;
图2是根据本申请第二个实施例的一种文本纠错方法的流程示意图;
图3是根据本申请第三个实施例的一种文本纠错方法的流程示意图;
图4是根据本申请一个实施例的一种文本纠错装置的结构示意图;
图5是根据本申请一个实施例的另一种文本纠错装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文本纠错方法及装置。
本申请实施例以文本纠错方法被配置于文本纠错装置中来举例说明,该文本纠错装置具体可以为经过改进的NMT+Attention纠错模型。经过改进的NMT+Attention纠错模型是在现有的NMT+Attention纠错模型的基础上,增加了受限词表,以及将Attention替换成序列化Attention。该文本纠错装置可以应用于任一计算机设备中,以使该计算机设备可以执行文本纠错功能。
图1为根据本申请一个实施例的文本纠错方法的流程示意图。
步骤101,获取待纠错的文本,以及文本中各个字词对应的受限词表。
具体地,待纠错的文本可以为带有错误信息的文本。比如,待纠错的文本为“乾隆曾经除了一个上联,难倒无数大臣”,正确的文本应为“乾隆曾经出了一个上联,难倒无数大臣”。待纠错的文本还可以为带有口语信息等的需要纠错的文本,本实施例中不对待纠错的文本进行具体限定,只是举例进行说明。
在本申请实施例中,待纠错的文本的获取方式可以为:对用户输入至移动终端的文本进行截取以获取;也可以是通过采集语音演讲者的语音进行识别,获得相应的带有错误信息的文本。
在本申请实施例中,在获取待纠错的文本后,获取文本中各个字词对应的受限词表。其中,需要说明的是,文本中的各个字词可包括文本中的各个字或文本中的各个词。另外,针对文本中的每个字词,结合字词的历史错误字词、音近字词以及形近字词,可确定字词对应的受限词表。如图2所示,确定字词对应的受限词表的具体实现过程可包括如下步骤:
步骤201,针对文本中的每个字词,根据字词以及字词的上下文查询短语映射表,获取字词在相应上下文中的历史错误字词。
具体地,短语映射表中包含有字词对应的短语对。短语对中包括:包含字词对应的无错别字的短语,以及包含有字词对应的有错别字的短语。因此,根据字词以及字词的上下文查询短语映射表,可获取字词在相应上下文中的短语对,查询短语对,获取字词对应的历史错误字词。例如,“王者荣耀”在短语映射表对应的短语对包括:“王者荣耀”与“王者荣誉”,因此,“荣耀”的一个历史错误字词可以为“荣誉”。
步骤202,根据字词查询音近字典,获取字词对应的音近字词。
在本申请实施例中,根据当前字词查询音近字典时,可根据与当前字词拼音编辑距离,获取对应的音近字词。例如,音近字典中的字词与当前字词的拼音相同时,拼音编辑距离为0,拼音编辑距离数值越大,代表音近字典中的字词与当前字词拼音差距越大,越不相近。
步骤203,根据字词查询形近字典,获取字词对应的形近字词。
具体地,根据字词查询形近字典时,根据与当前字词的字形上的差异以获取对应的形近字词。
步骤204,按照各个字典以及短语映射表的优先级对字词的历史错误字词、音近字词以及形近字词进行排序,得到候选受限词表;短语映射表的优先级大于音近字典的优先级;音近字典的优先级大于形近字典的优先级。步骤205,将候选受限词表中排序在前的预设数量的字词确定为受限词表中的字词。
在本申请实施例中,在获取待纠错的文本后,根据文本中的每个字词,同时结合其上下文,通过查询短语映射表、音近字典和形近字典,获取相应的历史错误字词、音近字词和形近字词,同时按照短语映射表的优先级大于音近字典的优先级,音近字典的优先级大于形近字典的优先级的排序规则,对字词的历史错误字词、音近字词以及形近字词进行排序,得到候选受限词表,最后,将候选受限词表中排序在前的预设数量的字词确定为受限词表中的字词。
举例而言,假如,预先设置受限词表大小为10,也就是将候选受限词表中排序在前10位的字词确定为受限词表中的字词。待纠错文本为“自己赚的钱一般分给阿哲”,当前“般”字查询短语映射表获得“般”字历史错误字为:“般”、“半”、“本”;当前“般”字查询音近词典获得“般”字的音近字为:“班”、“把”、“板”、“版”、“斑”、“瓣”;当前“般”字查询形近词典获得“般”字形近字为:“搬”,按照短语映射表的优先级大于音近字典的优先级,音近字典的优先级大于形近字典的优先级对字历史错误字、音近字、形近字进行排序,得出“般”、“半”、“本”、“班”、“把”、“板”、“版”、“斑”、“瓣”“搬”即为“般”字对应的候选受限词表。
另外,在上述实施例的基础上,还可以查询短语映射表,获取文本中的各个字词在相应上下文中的历史错误字词的词频,根据词频对历史错误字词进行排序;然后按照各个字典以及短语映射表的优先级对字词的历史错误字词、音近字词以及形近字词进行排序,得到候选受限词表。步骤102,根据文本和预设的全局性词表,确定文本对应的词向量数组;词向量数组包括:文本中各个字词对应的向量。
在本申请实施例中,从大规模无监督语料中,统计出现过的字词,生成全局性词表;另外,在全局性词表中,为每个字词构建向量,向量的维度为字词的数量,在与每个字词对应的向量中,与字词对应的维度数值为1,其他维度为0。由于全局性词表中有大量字词以及对应的向量,通过查询可以得到文本中各个字词对应的向量,文本中各个字词对应的向量进行组合可得到文本对应的词向量数组。
例如,文本中共有5个字词,通过查询全局性词表,获得第一个字词对应的向量为1000000,第二个为0100000,第三个为0010000,第四个为0001000,第五个为0000100,该文本对应的词向量数组为{1000000,0100000,0010000,0001000,0000100},其中需要说明的是,文本中的字词对应的向量的维度数量与全局性词表中字词的数量一致。
步骤103,将词向量数组输入预设的编码模块,获取文本对应的第一隐状态向量数组。
在本申请实施例中,文本纠错装置可包括编码端和解码端。其中,编码端中编码模块和解码端中解码模块的结构可为RNN网络结构或者长短期记忆网络(Long Short-TermMemory,简称LSTM)。确定文本对应的词向量数组后,将词向量数组输入文本纠错装置中的编码模块,获取文本对应的第一隐状态向量数组。其中,第一隐状态向量数组可包括各个编码位置的隐状态向量。
步骤104,将第一隐状态向量数组输入解码模块,针对每个解码位置,获取解码位置对应的解码向量;解码向量根据解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定。
在本申请实施例中,在获得第一隐状态向量数组后,将第一隐状态向量数组输入解码模块,针对每个解码位置,获取解码位置对应的解码向量。例如,一个句子中有5个字词,则对应的编码位置有5个,生成的第一隐状态向量数组中包含5个隐状态向量,对应的解码位置也有5个,与编码位置一一对应。
可选地,各个解码位置对应的解码向量的获取过程具体可如下:将第一隐状态向量数组输入解码模块,针对每个解码位置,获取解码位置对应的第二隐状态向量;根据第二隐状态向量、第一隐状态向量数组以及注意力机制,确定解码位置对应的注意力向量;获取第一隐状态向量数组中与解码位置对应的编码位置的隐状态向量;对编码位置的隐状态向量以及注意力向量进行拼接,得到解码位置对应的序列化注意力向量;对编码位置的序列化注意力向量以及第二隐状态向量进行拼接,得到解码位置对应的解码向量。在本申请实施例中,注意力机制可为注意力算法,其中,注意力算法可以是但不限于加权求和算法。
举例而言,将第一隐状态向量数组{h1,h2,…hN},输入解码模块的RNN网络中,生成第t个解码时刻的解码位置对应的第二隐状态向量st;根据注意力算法,对第一隐状态向量数组和第二隐状态向量进行计算,得出第t个解码时刻的解码位置对应的注意力向量at。然后,将第一隐状态向量数组中与第t个解码时刻的解码位置对应的编码位置的隐状态向量ht和第t个时刻的解码位置对应的注意力向量at进行横向拼接,得到第t个时刻的解码位置对应的序列化注意力向量[ht,at],之后再将第t个时刻的解码位置对应的序列化注意力向量[ht,at]和第t个时刻的解码位置对应的第二隐状态向量st进行横向拼接,得到第t个时刻的解码位置对应的解码向量[ht,st,at]。
步骤105,根据解码位置对应的解码向量、预设的全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果。
可选地,根据解码位置对应的解码向量、预设的全局性词表、以及解码位置的字或分词对应的受限词表,确定解码位置的解码结果,包括:根据解码位置对应的解码向量以及全局性词表,确定解码向量在全局性词表上的第一概率分布;根据解码位置对应的解码向量以及解码位置的字词对应的受限词表,确定解码向量在受限词表上的第二概率分布;将第一概率分布和第二概率分布中概率得分最大的字词,确定为解码位置的解码结果。
在本申请实施例中,如图3所示,将序列化注意力向量和第二隐状态向量进行拼接获得解码位置对应的解码向量之后,根据解码向量和全局性词表,生成解码向量在全局性词表上的第一概率分布,作为当前解码位置的解码参照,然后,根据解码向量和解码位置的字词对应的受限词表,生成解码向量在受限词表上的第二概率分布,作为当前解码位置的解码参照,门限网络将上述两个概率分布中得分最大的字词作为当前解码位置的解码结果。同时,下一个解码位置的向量可结合当前解码位置的解码结果进行获取。
步骤106,根据各个解码位置的解码结果,确定文本对应的纠错后文本。
在本申请实施例中,获取到各个解码位置的结果,然后按照顺序进行拼接,即可获得纠错后的正确文本。
本申请实施例的文本纠错方法,通过获取待纠错的文本,以及文本中各个字词对应的受限词表;根据文本和预设的全局性词表,确定文本对应的词向量数组;词向量数组包括:文本中各个字词对应的向量;将词向量数组输入预设的编码模块,获取文本对应的第一隐状态向量数组;将第一隐状态向量数组输入解码模块,针对每个解码位置,获取解码位置对应的解码向量;解码向量根据解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定;根据解码位置对应的解码向量、预设的全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果;根据各个解码位置的解码结果,确定文本对应的纠错后文本。该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
与上述实施例提供的文本纠错方法相对应,本申请的一种实施例还提供一种文本纠错装置,由于本申请实施例提供的文本纠错装置与上述实施例提供的文本纠错方法相对应,因此在前述文本纠错方法的实施方式也适用于本实施例提供的文本纠错装置,在本实施例中不再详细描述。图4为本申请实施例提供的一种文本纠错装置的结构示意图。如图4所示,该文本纠错装置400包括:获取模块410、确定模块420、编码模块430、解码模块440。
具体地,获取模块410,用于获取待纠错的文本,以及所述文本中各个字词对应的受限词表;确定模块420,用于根据文本和预设的全局性词表,确定文本对应的词向量数组;词向量数组包括:文本中各个字词对应的向量;编码模块430,用于将词向量数组输入预设的编码模块,获取文本对应的第一隐状态向量数组;解码模块440,还用于将第一隐状态向量数组输入解码模块,针对每个解码位置,获取解码位置对应的解码向量;解码向量根据解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定;确定模块420,还用于根据解码位置对应的解码向量、预设的全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果;确定模块420,还用于根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。
作为本申请实施例的一种可能的实现方式,获取模块410具体用于,获取待纠错的文本;针对文本中的每个字词,结合字词的历史错误字词、音近字词以及形近字词,确定字词对应的受限词表。
作为本申请实施例的一种可能的实现方式,确定模块420具体用于,针对文本中的每个字词,根据字词以及字词的上下文查询短语映射表,获取字词在相应上下文中的历史错误字词;根据字词查询音近字典,获取字词对应的音近字词;根据字词查询形近字典,获取字词对应的形近字词;按照各个字典以及短语映射表的优先级对字词的历史错误字词、音近字词以及形近字词进行排序,得到候选受限词表;短语映射表的优先级大于所述音近字典的优先级;音近字典的优先级大于形近字典的优先级;将候选受限词表中排序在前的预设数量的字词确定为受限词表中的字词。
作为本申请实施例的一种可能的实现方式,第一隐状态向量数组包括:各个编码位置的隐状态向量;解码模块440具体用于,将第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的第二隐状态向量;根据第二隐状态向量、第一隐状态向量数组以及注意力机制,确定解码位置对应的注意力向量;获取第一隐状态向量数组中与解码位置对应的编码位置的隐状态向量;对编码位置的隐状态向量以及注意力向量进行拼接,得到解码位置对应的序列化注意力向量;对编码位置的序列化注意力向量以及第二隐状态向量进行拼接,得到解码位置对应的解码向量。
作为本申请实施例的一种可能的实现方式,确定模块420具体用于,根据解码位置对应的解码向量以及所述全局性词表,确定解码向量在所述全局性词表上的第一概率分布;根据解码位置对应的解码向量以及解码位置的字词对应的受限词表,确定解码向量在受限词表上的第二概率分布;将第一概率分布和第二概率分布中概率得分最大的字词,确定为解码位置的解码结果。
本申请实施例的文本纠错装置,通过获取待纠错的文本,以及文本中各个字词对应的受限词表;根据文本和预设的全局性词表,确定文本对应的词向量数组;词向量数组包括:文本中各个字词对应的向量;将词向量数组输入预设的编码模块,获取文本对应的第一隐状态向量数组;将第一隐状态向量数组输入解码模块,针对每个解码位置,获取解码位置对应的解码向量;解码向量根据解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定;根据解码位置对应的解码向量、预设的全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果;根据各个解码位置的解码结果,确定文本对应的纠错后文本。该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
为了实现上述实施例,本申请还提出另一种文本纠错装置。图5为本申请实施例提供的另一种文本纠错装置的结构示意图。该文本纠错装置包括:存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的文本纠错方法。
进一步地,文本纠错装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的文本纠错方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本纠错方法。
本申请还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本纠错方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文本纠错方法,其特征在于,包括:
获取待纠错的文本,以及所述文本中各个字词对应的受限词表;其中,所述受限词表包括所述文本中各个字词的历史错误字词、音近字词以及形近字词;
根据所述文本和预设的全局性词表,确定所述文本对应的词向量数组;所述词向量数组包括:所述文本中各个字词对应的向量;其中,所述预设的全局性词表包括预设数量的字词及所述预设数量的字词对应的向量;
将所述词向量数组输入预设的编码模块,获取所述文本对应的第一隐状态向量数组;
将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量;所述解码向量根据所述解码位置对应的第二隐状态向量、注意力向量和所述第一隐状态向量数组确定;
根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果;其中,所述根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果,包括:根据所述解码位置对应的解码向量以及所述全局性词表,确定所述解码向量在所述全局性词表上的第一概率分布;根据所述解码位置对应的解码向量以及所述解码位置的字词对应的受限词表,确定所述解码向量在所述受限词表上的第二概率分布;将所述第一概率分布和所述第二概率分布中概率得分最大的字词,确定为所述解码位置的解码结果;
根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。
2.根据权利要求1所述的方法,其特征在于,所述获取待纠错的文本,以及所述文本中各个字或分词对应的受限词表,包括:
获取待纠错的文本;
针对所述文本中的每个字词,结合所述字词的历史错误字词、音近字词以及形近字词,确定所述字词对应的受限词表。
3.根据权利要求2所述的方法,其特征在于,所述针对所述文本中的每个字词,结合所述字词的历史错误字词、音近字词以及形近字词,确定所述字词对应的受限词表,包括:
针对所述文本中的每个字词,根据所述字词以及所述字词的上下文查询短语映射表,获取所述字词在相应上下文中的历史错误字词;
根据所述字词查询音近字典,获取所述字词对应的音近字词;
根据所述字词查询形近字典,获取所述字词对应的形近字词;
按照各个字典以及短语映射表的优先级对所述字词的历史错误字词、音近字词以及形近字词进行排序,得到候选受限词表;所述短语映射表的优先级大于所述音近字典的优先级;所述音近字典的优先级大于所述形近字典的优先级;
将所述候选受限词表中排序在前的预设数量的字词确定为所述受限词表中的字词。
4.根据权利要求1所述的方法,其特征在于,所述第一隐状态向量数组包括:各个编码位置的隐状态向量;
所述将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量,包括:
将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的第二隐状态向量;
根据所述第二隐状态向量、所述第一隐状态向量数组以及注意力机制,确定所述解码位置对应的注意力向量;
获取所述第一隐状态向量数组中与所述解码位置对应的编码位置的隐状态向量;
对所述编码位置的隐状态向量以及所述注意力向量进行拼接,得到所述解码位置对应的序列化注意力向量;
对所述编码位置的序列化注意力向量以及所述第二隐状态向量进行拼接,得到所述解码位置对应的解码向量。
5.一种文本纠错装置,其特征在于,包括:
获取模块,用于获取待纠错的文本,以及所述文本中各个字词对应的受限词表;其中,所述受限词表包括所述文本中各个字词的历史错误字词、音近字词以及形近字词;
确定模块,用于根据所述文本和预设的全局性词表,确定所述文本对应的词向量数组;所述词向量数组包括:所述文本中各个字词对应的向量;其中,所述预设的全局性词表包括预设数量的字词及所述预设数量的字词对应的向量;
编码模块,用于将所述词向量数组输入预设的编码模块,获取所述文本对应的第一隐状态向量数组;
解码模块,还用于将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的解码向量;所述解码向量根据所述解码位置对应的第二隐状态向量、注意力向量和所述第一隐状态向量数组确定;
所述确定模块,还用于根据所述解码位置对应的解码向量、所述预设的全局性词表、以及所述解码位置的字词对应的受限词表,确定所述解码位置的解码结果;其中,所述确定模块具体用于:根据所述解码位置对应的解码向量以及所述全局性词表,确定所述解码向量在所述全局性词表上的第一概率分布;根据所述解码位置对应的解码向量以及所述解码位置的字词对应的受限词表,确定所述解码向量在所述受限词表上的第二概率分布;将所述第一概率分布和所述第二概率分布中概率得分最大的字词,确定为所述解码位置的解码结果;
所述确定模块,还用于根据各个解码位置的解码结果,确定所述文本对应的纠错后文本。
6.根据权利要求5所述的装置,其特征在于,所述获取模块具体用于,
获取待纠错的文本;
针对所述文本中的每个字词,结合所述字词的历史错误字词、音近字词以及形近字词,确定所述字词对应的受限词表。
7.根据权利要求6所述的装置,其特征在于,所述确定模块具体用于,
针对所述文本中的每个字词,根据所述字词以及所述字词的上下文查询短语映射表,获取所述字词在相应上下文中的历史错误字词;
根据所述字词查询音近字典,获取所述字词对应的音近字词;
根据所述字词查询形近字典,获取所述字词对应的形近字词;
按照各个字典以及短语映射表的优先级对所述字词的历史错误字词、音近字词以及形近字词进行排序,得到候选受限词表;所述短语映射表的优先级大于所述音近字典的优先级;所述音近字典的优先级大于所述形近字典的优先级;
将所述候选受限词表中排序在前的预设数量的字词确定为所述受限词表中的字词。
8.根据权利要求5所述的装置,其特征在于,所述第一隐状态向量数组包括:各个编码位置的隐状态向量;
所述解码模块具体用于,
将所述第一隐状态向量数组输入解码模块,针对每个解码位置,获取所述解码位置对应的第二隐状态向量;
根据所述第二隐状态向量、所述第一隐状态向量数组以及注意力机制,确定所述解码位置对应的注意力向量;
获取所述第一隐状态向量数组中与所述解码位置对应的编码位置的隐状态向量;
对所述编码位置的隐状态向量以及所述注意力向量进行拼接,得到所述解码位置对应的序列化注意力向量;
对所述编码位置的序列化注意力向量以及所述第二隐状态向量进行拼接,得到所述解码位置对应的解码向量。
9.一种文本纠错装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一所述的文本纠错方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任一所述的文本纠错方法。
CN201910452219.8A 2019-05-28 2019-05-28 文本纠错方法及装置 Active CN110188353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910452219.8A CN110188353B (zh) 2019-05-28 2019-05-28 文本纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910452219.8A CN110188353B (zh) 2019-05-28 2019-05-28 文本纠错方法及装置

Publications (2)

Publication Number Publication Date
CN110188353A CN110188353A (zh) 2019-08-30
CN110188353B true CN110188353B (zh) 2021-02-05

Family

ID=67718264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910452219.8A Active CN110188353B (zh) 2019-05-28 2019-05-28 文本纠错方法及装置

Country Status (1)

Country Link
CN (1) CN110188353B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836495A (zh) * 2019-11-22 2021-05-25 Tcl集团股份有限公司 一种语句的纠错方法及设备
CN111310443B (zh) * 2020-02-12 2023-08-18 新华智云科技有限公司 一种文本纠错方法和系统
CN111539199B (zh) * 2020-04-17 2023-08-18 中移(杭州)信息技术有限公司 文本的纠错方法、装置、终端、及存储介质
CN111710328B (zh) * 2020-06-16 2024-01-12 北京爱医声科技有限公司 语音识别模型的训练样本选取方法、装置及介质
CN112597754B (zh) * 2020-12-23 2023-11-21 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和可读存储介质
CN113066494B (zh) * 2021-03-15 2024-03-08 上海云从汇临人工智能科技有限公司 文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965776B2 (en) * 2012-03-30 2015-02-24 Infinera Corporation Iterative forward error correction (FEC) on segmented words using a soft-metric arithmetic scheme
CN107329960B (zh) * 2017-06-29 2019-01-01 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
CN107977356B (zh) * 2017-11-21 2019-10-25 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN108874174B (zh) * 2018-05-29 2020-04-24 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置

Also Published As

Publication number Publication date
CN110188353A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188353B (zh) 文本纠错方法及装置
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
CN103714048B (zh) 用于校正文本的方法和系统
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN111310447B (zh) 语法纠错方法、装置、电子设备和存储介质
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN109036471B (zh) 语音端点检测方法及设备
CN112489626B (zh) 一种信息识别方法、装置及存储介质
CN111177324A (zh) 基于语音识别结果进行意图分类的方法和装置
CN111767717B (zh) 印尼语的语法纠错方法、装置、设备及存储介质
CN110473527B (zh) 一种语音识别的方法和系统
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN112380841B (zh) 一种中文拼写纠错方法、装置、计算机设备及存储介质
CN112861521A (zh) 语音识别结果纠错方法、电子设备及存储介质
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN108897872B (zh) 对话处理方法、装置、计算机设备和存储介质
CN111353295A (zh) 序列标注方法、装置、存储介质及计算机设备
CN112380333B (zh) 用于问答系统的基于拼音概率的文本纠错方法
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
CN111626059B (zh) 一种信息处理方法及装置
US11341961B2 (en) Multi-lingual speech recognition and theme-semanteme analysis method and device
CN114510925A (zh) 一种中文文本纠错方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant