CN101295293B - 用于对表意字符的输入字符串进行自动纠错的方法 - Google Patents

用于对表意字符的输入字符串进行自动纠错的方法 Download PDF

Info

Publication number
CN101295293B
CN101295293B CN2007101011342A CN200710101134A CN101295293B CN 101295293 B CN101295293 B CN 101295293B CN 2007101011342 A CN2007101011342 A CN 2007101011342A CN 200710101134 A CN200710101134 A CN 200710101134A CN 101295293 B CN101295293 B CN 101295293B
Authority
CN
China
Prior art keywords
character string
character strings
candidate character
word
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101011342A
Other languages
English (en)
Other versions
CN101295293A (zh
Inventor
韩客松
陈桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CN2007101011342A priority Critical patent/CN101295293B/zh
Publication of CN101295293A publication Critical patent/CN101295293A/zh
Application granted granted Critical
Publication of CN101295293B publication Critical patent/CN101295293B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

一种用于对表意字符的输入字符串进行自动纠错的方法能够改善光学字符识别或自动语音识别。所述方法包括使用主题词典将输入字符串分段以提供第一分段的字符串,其中,第一分段的字符串包括至少一个不匹配的主题词典子字符串(步骤305)。然后,使用一般词典对不匹配的主题词典子字符串进行分段,以提供第二分段的字符串(步骤310)。然后,识别第二分段的字符串的目标子字符串(步骤315),并生成目标子字符串的多个纠正候选字符串(步骤320)。然后,根据多个纠正候选字符串确定优选的纠正候选字符串(步骤325)。最后,通过用优选的纠正候选字符串替换目标子字符串,纠正输入字符串中的错误(步骤330)。

Description

用于对表意字符的输入字符串进行自动纠错的方法
技术领域
本发明一般涉及光学字符识别和语音识别系统,具体来说,涉及光学字符和语音识别过程中的纠错。
背景技术
借助于光学字符识别(OCR)和自动语音识别(ASR)系统,可以进行各式各样的重要的数据处理和人机交互。现代的高效率的OCR和ASR系统可以使用复杂性降低的算法来进行操作,这些算法使系统能集成到诸如移动电话和个人数字助理(PDA)之类处理器和的存储器有限的手持设备中。然而,这些OCR和ASR系统有时会产生用户无法接受的识别错误率。因此,后处理纠错技术对于提高识别准确度是很有用的。
对单词进行准确的分段是许多OCR和ASR过程的重要方面。在诸如英语之类的许多语言中,对输入的文本字符串的自动分段是一个简单的过程,因为单词是由轻松地定义的空格符来分隔的。然而,在诸如中文及其他基于表意字符的语言之类的中未分段的语言中,没有使用空格或其他分隔符来分隔文本字符串中的单个单词。因此,这些语言需要在OCR和ASR后处理单词分段纠错中有其他方法,包括形态学和词法技术。
形态学技术包括使用隐藏马尔可夫模型(HMM)的n-gram技术。HMM是统计描述,包括平均和方差矢量,描述了诸如单词和音素之类的语音单位。在使用n-grams对文本字符串进行分析时,单词被模型化,以便每一个n-gram都包括n个单词。然而,在诸如移动电话之类的处理器和存储器有限的手持设备中,n一般被限于非常低的数字,这会抑制分析精确度。
词法技术包括使用上下文特定的词典来实现单词分段纠错。然而,只依赖于个别的上下文特定的词典术语来对文本字符串进行分段会大大地限制OCR或ASR系统的功能。
发明内容
根据本发明的一个方面,提供了一种用于对表意字符的输入字符串进行自动纠错的方法,所述方法包括:使用主题词典将所述输入字符串分段以提供第一分段的字符串,其中,所述第一分段的字符串包括至少一个与所述主题词典不匹配的主题词典子字符串;使用一般词典对所述不匹配的主题词典子字符串进行分段,以提供第二分段的字符串;识别所述第二分段的字符串的目标子字符串;生成所述目标子字符串的多个纠正候选字符串;根据所述多个纠正候选字符串确定优选的纠正候选字符串;以及通过用所述优选的纠正候选字符串替换所述目标子字符串,纠正所述输入字符串中的错误。
附图说明
为了可以轻松地理解本发明并使本发明产生经济效果,现在将参考示范性实施例并参考附图,其中,在各个单独的视图中,类似的参考编号表示相同的或功能上类似的元件。附图与下面的详细描述一起,构成了说明书的一部分,用于进一步显示各个实施例,并说明根据本发明的各种原理和优点,其中:
图1是显示了根据本发明的某些实施例的呈现移动电话的形式的电子设备的示意图。
图2是显示了根据本发明的某些实施例的用于对表意字符的输入字符串的进行自动纠错的方法的流程图;
图3是显示了根据本发明的某些实施例的用于对表意字符的输入字符串的进行自动纠错的方法的一般流程图;
图4是根据本发明的某些实施例的识别目标子字符串的步骤的分步骤的一般流程图;以及
图5显示了根据本发明的某些实施例的根据多个纠正候选字符串确定优选的纠正候选字符串的步骤的分步骤的一般流程图。
本领域技术人员将理解,图中的元素是简明而清晰地显示的,不一定是按比例绘制的。例如,图中的某些元素的维可以相对于其他元素而放大,以帮助改善对本发明的实施例的理解。
具体实施方式
在详细描述根据本发明的实施例之前,应该注意,实施例主要地组合了涉及对表意字符的输入字符串进行自动纠错的方法步骤和设备组件。相应地,设备组件和方法步骤在适当的情况下通过图形中的惯用符号来代表,只显示了与本发明的实施例有关的那些具体细节,以便不会用对对那些精通具有这里的描述的优点的技术的人员显而易见的细节使本说明书模糊。
在此文档中,诸如第一和第二、顶部和底部、之前和之后等等关系术语可以只用于区别一个实体或操作与另一个实体或操作,而不一定需要或暗示这样的实体或操作之间的任何实际这样的关系或顺序。术语“包括”或其任何其他变体,用于涵盖非排他性的包含,以便包括元件列表的过程、方法、产品或设备不只包括那些元件而是可以包括没有明确地列出的其他元件或这样的过程、方法、产品或设备固有的其他元件。前面有“包括一个”的元件没有更多约束地,不排除包括该元件的过程、方法、产品或设备中的另外的相同元件的存在。
请参看图1,示意图显示了根据本发明的某些实施例的呈现移动电话100的形式的电子设备。移动电话100包括与处理器103的公用数据和地址总线117通信的射频通信单元102。电话100还具有与处理器103进行通信的小键盘106和显示屏幕105(如触摸屏)。
处理器103还包括具有用于存储数据的关联的代码只读存储器(ROM)112的编码器/解码器111,用于对可以由移动电话100传输的或接收到的语音或其他信号进行编码和解码。处理器103进一步包括微处理器113,该微处理器通过公用数据和地址总线117连接到编码器/解码器111、字符只读存储器(ROM)114、随机存取存储器(RAM)104、可编程序存储器116和用户身份模块(SIM)接口118。可编程序存储器116和SIM可操作地连接到SIM接口118,它们各自都可以存储,其中,电话号码数据库(TND)(包括电话号码的号码字段,与电话号码中的电话号码唯一地关联的标识符的名称字段)。
射频通信单元102是具有共用天线107的组合接收器和发射器。通信单元102具有通过射频放大器109连接到天线107的收发器108。收发器108还连接到组合调制器/解调器110,而该组合调制器/解调器110又连接到编码器/解码器111。
微处理器113具有用于连接到小键盘106和显示屏幕105的端口。微处理器113进一步具有用于连接到警告模块115(该模块通常包含警告扬声器、振动器电动机和关联的驱动程序)、连接到麦克风120;以及连接到通信扬声器122的端口。字符ROM 114存储了用于对可以由通信单元102传输或接收到的诸如控制信道消息之类的数据进行解码或进行编码的代码。在本发明的某些实施例中,字符ROM 114、可编程序存储器116或SIM还可以存储微处理器113的操作代码(OC)和用于执行与移动电话100关联的功能的代码。例如,可编程序存储器116可以包括自动纠错程序代码组件125,这些组件被配置为导致对表意字符的输入字符串的进行自动纠错的方法的执行。
如此,本发明的某些实施例包括使用移动电话100来自动地纠正表意字符的输入字符串中的错误的方法。例如,这样的输入字符串可以是在移动电话100上执行的光学字符识别(OCR)过程的输出或自动语音识别(ASR)过程的输出。所述方法包括使用主题词典来将输入字符串分段以提供第一分段的字符串,其中,所述第一分段的字符串包括至少一个不匹配的主题词典子字符串。然后,使用一般词典来对不匹配的主题词典子字符串进行分段,以提供第二分段的字符串。然后,识别第二分段的字符串的目标子字符串,并生成目标子字符串的多个纠正候选字符串。然后,根据多个纠正候选字符串确定优选的纠正候选字符串。最后,通过用优选的纠正候选字符串替换目标子字符串,来纠正输入字符串中的错误。
因此,本发明的某些实施例能基于对主题词典和一般词典的内容的考虑,使从光学字符识别(OCR)过程或从自动语音识别(ASR)过程输出的一组表意字符得到纠正。主题词典可以包括与特定OCR或ASR任务关联的单词,如响应在麦克风120中接收到的ASR语音命令,检索存储在移动电话100中的可编程序存储器116中的地址簿项。
请参看图2,流程图显示了根据本发明的某些实施例的对表意字符的输入字符串进行自动纠错的方法200。首先,从识别过程的输出中获取输入字符串205。例如,输入字符串205可以是从光学字符识别过程或从自动语音识别过程输出的表意字符的文本字符串,如多个汉语字符。然后,使用主题词典对输入字符串205进行分段,以提供第一分段的字符串210。第一分段的字符串210包括两个匹配的主题词典子字符串215、220和至少一个不匹配的主题词典子字符串225。
主题词典可以包括各种文件或数据库中的任何一种,大概包括单词或短语,或输入字符串205中包括的表意字符的图像或表述。例如,假设移动电话100的可编程序存储器116包括电子地址簿文件,该文件包括与移动电话100的用户关联的人们的姓名和地址。此外,假设输入字符串205是移动电话100的语音识别过程的输出,该过程对由移动电话100的用户向麦克风120发出的音频命令进行处理。因此,从统计学上来讲,比较可能输入字符串205可以包括来自移动电话100的电子地址簿的单词或短语,而不是来自一般词典的任意单词或短语。因此,从统计学上来讲,两个匹配的主题词典子字符串215、220比只基于一般词典的分段更加可能代表输入字符串205的正确的分段。
然后,使用一般词典来对不匹配的主题词典子字符串225进行分段,以提供第二分段的字符串230。例如,这样的一般词典可以包括存储在移动电话100的可编程序存储器116的压缩的标准词典,并还可以包括表意字符的图像或表述。
接下来,识别第二分段的字符串230的目标子字符串235。如下面比较详细地描述的,可以通过识别与不匹配的主题词典子字符串225相邻的实词表意字符,来识别目标子字符串235。实词表意字符一般包括普通名词和动词;而所有格和定冠词和不定冠词一般被视为非实词表意字符。例如,在中文中,诸如“花”(“flower”)之类的名词和诸如“跳”(“jump”)之类的动词是实词;而诸如“的”(英语中的所有格“s”)被视为非实词。
然后,对于目标子字符串235,生成多个纠正候选字符串240。例如,可以对目标子字符串235进一步进行分段,以生成多个纠正候选字符串240。
然后,根据多个纠正候选字符串240确定优选的纠正候选字符串245。接下来,目标子字符串235被替换为优选的纠正候选字符串245。最后,方法200通过识别新的目标子字符串来进行重复。
请参看图3,一般流程图进一步显示了根据本发明的某些实施例的用于对表意字符的输入字符串205进行自动纠错的方法200。在步骤305中,使用主题词典来对输入字符串205进行分段,以提供第一分段的字符串210,其中,第一分段的字符串210包括至少一个不匹配的主题词典子字符串225。
在步骤310中,使用一般词典来对不匹配的主题词典子字符串225进行分段,以提供第二分段的字符串230。
在步骤315中,识别第二分段的字符串230的目标子字符串235。
在步骤320中,生成目标子字符串235的多个纠正候选字符串240。
在步骤325中,根据多个纠正候选字符串240确定优选的纠正候选字符串245。
在步骤330中,通过用优选的纠正候选字符串245替换目标子字符串235,来纠正输入字符串205中的错误。然后,方法200返回到步骤315,在该步骤中,识别新的目标子字符串。
请参看图4,一般流程图显示了根据本发明的某些实施例的识别目标子字符串235的步骤315的分步骤。在步骤405中,识别至少两个相邻的实词表意字符。
在步骤410中,识别至少两个相邻的实词表意字符之前且相邻的第一观察点单词,以及至少两个相邻的实词表意字符之后且相邻的第二观察点单词。
在步骤415中,目标子字符串235被确定为包括第一观察点单词、至少两个相邻的实词表意字符,以及第二观察点单词。
例如,假设输入字符串205包括下列汉字:我们是摩托罗泣公司。进一步假设使用主题词典的分段结果是:我们|是|摩托|罗泣|公司,而使用一般词典的分段结果是我们|是|摩托|罗|泣|公司。单词“罗”和“泣”是连续的单字符实词,如此,这些单词和它们的左边的邻居“摩托”和右边的邻居“公司”被用来将目标子字符串235识别为“摩托+罗+泣+公司”。
请参看图5,一般流程图显示了根据本发明的某些实施例的根据多个纠正候选字符串确定优选的纠正候选字符串的步骤325的分步骤。在步骤505中,统计多个纠正候选字符串中的每一个纠正候选字符串中的单词数量。例如,再次考虑下列汉字输入字符串205:
摩托+罗+泣+公司
输入字符串205包括下列六个纠正候选字符串:
摩托罗+泣+公司,摩托+罗泣+公司,摩托+罗+泣公司,摩托罗泣+公司,
摩托+罗泣公司,和摩托罗泣公司.
因此,六个纠正候选字符串中的每一个的字数num(p)分别是3,3,3,2,2,和1。
在步骤510中,通过在每一个纠正候选字符串中添加多个单词的最小编辑距离,生成每一个纠正候选字符串的总的编辑距离。根据本发明的某些实施例,最小编辑距离是将纠正候选字符串转换为目标子字符串所需的诸如“插入”、“删除”或“修改”之类的编辑器操作的最小数量。例如,对于纠正候选字符串“ac”和目标子字符串“abc”,最小编辑距离是1。这是因为将“ac”转换为“abc”只需要一个“插入”操作(即,在“a”和“c”之间插入“b”)。
在上文涉及汉字的示例中,假设主题词典包括下列单词:
摩托,公司和摩托罗拉公司.
上文的汉字的输入字符串205的一个可能的分段结果是上文的六个纠正候选字符串240中的第一个:摩托罗+泣+公司,其中,单词摩托罗,泣,和公的最小编辑距离分别是1,1,和0。因此,这些最小编辑距离的总和是1+1+0=2。类似地,上文的汉字的输入字符串205的另一个可能的分段结果是上文的六个纠正候选字符串240中的第二个:摩托+罗泣+公司,其中,单词摩托,罗泣,和公司的最小编辑距离分别是0,2,0。这些最小编辑距离的总和是0+2+0=2。那么,剩余的四个纠正候选字符串的最小编辑距离的总和分别是:0+1+1=2,2+0=2,0+2=2和1。根据本发明的某些实施例,使用主题词典和一般词典两者生成每一个纠正候选字符串240的总的编辑距离。
在步骤515中,基于每一个纠正候选字符串中的单词的数量并基于每一个纠正候选字符串的总的编辑距离,生成包括每一个纠正候选字符串的实用成本的实用成本组。例如,基于每一个纠正候选字符串240中的单词的数量并基于每一个纠正候选字符串240的总的编辑距离,生成包括每一个纠正候选字符串240的实用成本的实用成本组是基于下列公式进行的:
P Best = arg min P ( num ( P ) + Σ i = 1 n min ed ( W i ) ) , (公式1)
其中,P是纠正候选字符串,num(P)和n是P中的单词数量,Wi是P的第i个单词,mined(Wi)是Wi的最小编辑距离。
在步骤520中,通过确定实用成本组中的最小实用成本来确定优选的纠正候选字符串。例如,使用公式1中的函数argpmin,可以确定最小实用成本。考虑上文所描述的汉字的六个纠正候选字符串240中的每一个,分别是:3+2=5,3+2=5,3+2=5,2+2=4,2+2=4和1+1=2。因此,Pbest是2,因此,第六纠正候选字符串240被判断为优选的纠正候选字符串245。
因此,本发明的某些实施例的优点包括改善了光学字符识别(OCR)或自动语音识别(ASR)过程的识别准确度。主题词典可以包括与特定OCR或ASR任务关联的单词,如响应ASR语音命令,检索存储在移动电话中的地址簿项。然后,纠错过程可以使用主题词典和一般词典两者来确定优选的纠正候选字符串并纠正输入字符串中的错误。因此,可以改善总的OCR或ASR性能,特别是在诸如移动电话和个人数字助理(PDA)之类的资源有限的手持设备中。
应该理解,这里所描述的本发明的实施例可以包括一个或多个常规处理器和唯一存储的程序指令,这些指令控制一个或多个处理器与某些非处理器电路一起实现这里所描述的对表意字符的输入字符串的进行自动纠错的某些、大多数或所有功能。非处理器电路可以包括,但不仅限于,无线电接收器、无线电发射器、信号驱动器、时钟电路、电源电路,以及用户输入设备。因此,这些功能可以被解释为对表意字符的输入字符串进行自动纠错的方法的步骤。或者,一些或所有功能可以通过没有存储程序指令的状态机来实现,或以一个或多个专用集成电路(ASIC)来实现,其中,每一个功能或某些功能的某种组合作为自定义逻辑来实现。当然,也可以使用两种方法的组合。如此,这里描述了这些功能的方法和装置。此外,可以预期,本领域技术人员,尽管可能花费大量的努力和可用的时间、当前技术,以及经济方面的考虑所推动的许多设计选择,当由这里所说明的概念和原理来指导时,将轻松地能够用最少量的实验生成这样的软件指令和程序和IC。
在前面的说明中,描述了本发明的特定实施例。然而,那些本领域技术人员将理解,在不偏离如下面的权利要求所阐述的本发明的范围的情况下,可以进行各种修改和更改。相应地,说明和图形应被视为说明性的,而不是限制性的,所有这样的修改方案都包括在本发明的范围内。优点、优势、对问题的解决方案,以及可能导致任何优点、优势,或解决方案发生或变得更加明显的任何元素不应该被理解为任何或所有权利要求的关键的、必需的或基本特点或元素。本发明只由所附权利要求进行定义,包括在本申请的待审批过程中作出的任何修改以及这些权利要求的所有等效内容。

Claims (10)

1.一种用于对表意字符的输入字符串进行自动纠错的方法,所述方法包括:
使用主题词典将所述输入字符串分段以提供第一分段的字符串,其中,所述第一分段的字符串包括至少一个与所述主题词典不匹配的主题词典子字符串;
使用一般词典对所述不匹配的主题词典子字符串进行分段,以提供第二分段的字符串;
识别所述第二分段的字符串的目标子字符串;
生成所述目标子字符串的多个纠正候选字符串;
根据所述多个纠正候选字符串确定优选的纠正候选字符串;以及
通过用所述优选的纠正候选字符串替换所述目标子字符串,纠正所述输入字符串中的错误。
2.根据权利要求1所述的方法,其中,识别所述第二分段的字符串的目标子字符串的步骤包括:
识别至少两个相邻的实词表意字符;
识别在所述至少两个相邻的实词表意字符之前并且与所述至少两个相邻的实词表意字符相邻的第一观察点单词,以及在所述至少两个相邻的实词表意字符之后并且与所述至少两个相邻的实词表意字符相邻的第二观察点单词;以及
将所述目标子字符串识别为包括所述第一观察点单词、所述至少两个相邻的实词表意字符以及所述第二观察点单词。
3.根据权利要求1所述的方法,其中,生成所述目标子字符串的多个纠正候选字符串的步骤包括将所述目标子字符串分段。
4.根据权利要求1所述的方法,其中,根据所述多个纠正候选字符串确定优选的纠正候选字符串的步骤包括:
统计所述多个纠正候选字符串中的每一个纠正候选字符串中的单词数量;
通过在每一个纠正候选字符串中添加多个单词的最小编辑距离,生成每一个纠正候选字符串的总的编辑距离;
基于每一个纠正候选字符串中的单词数量并基于每一个纠正候选字符串的所述总的编辑距离,生成包括每一个纠正候选字符串的实用成本的实用成本组;以及
通过确定所述实用成本组中的最小实用成本确定优选的纠正候选字符串。
5.根据权利要求4所述的方法,其中,基于每一个纠正候选字符串中的单词数量并基于每一个纠正候选字符串的所述总的编辑距离,生成包括每一个纠正候选字符串的实用成本的所述实用成本组是基于下列公式进行的:
P Best = arg min P ( num ( P ) + Σ i = 1 n min ed ( W i ) ) ,
其中,P是纠正候选字符串,num(P)和n  是P中的单词数量,Wi是P的第i个单词,mined(Wi)是Wi的最小编辑距离。
6.根据权利要求4所述的方法,其中,使用所述主题词典和所述一般词典两者,生成每一个纠正候选字符串的所述总的编辑距离。
7.根据权利要求1所述的方法,其中,所述输入字符串包括多个汉语字符。
8.根据权利要求1所述的方法,其中,所述主题词典包括表意字符的图像或表述。
9.根据权利要求1所述的方法,其中,所述一般词典包括表意字符的图像或表述。
10.根据权利要求1所述的方法,其中,所述输入字符串是光学字符识别过程的输出或自动语音识别过程的输出。
CN2007101011342A 2007-04-29 2007-04-29 用于对表意字符的输入字符串进行自动纠错的方法 Expired - Fee Related CN101295293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101011342A CN101295293B (zh) 2007-04-29 2007-04-29 用于对表意字符的输入字符串进行自动纠错的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101011342A CN101295293B (zh) 2007-04-29 2007-04-29 用于对表意字符的输入字符串进行自动纠错的方法

Publications (2)

Publication Number Publication Date
CN101295293A CN101295293A (zh) 2008-10-29
CN101295293B true CN101295293B (zh) 2010-06-02

Family

ID=40065585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101011342A Expired - Fee Related CN101295293B (zh) 2007-04-29 2007-04-29 用于对表意字符的输入字符串进行自动纠错的方法

Country Status (1)

Country Link
CN (1) CN101295293B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710262B (zh) * 2009-12-11 2015-09-30 北京搜狗科技发展有限公司 输入法中编码字符串的字符纠错方法及装置
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US8606577B1 (en) * 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
CN102831177B (zh) * 2012-07-31 2015-09-02 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
CN102937864B (zh) * 2012-10-31 2015-11-25 百度在线网络技术(北京)有限公司 一种用于在触摸终端上确定所选文本的方法与设备
CN103021412B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN103000176B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN103488626B (zh) * 2013-09-03 2017-04-12 深圳Tcl新技术有限公司 一种对终端的与参数名称映射的字符串纠错的方法和装置
CN105468582B (zh) * 2015-11-18 2018-03-02 苏州思必驰信息科技有限公司 一种基于人机交互的数字串的纠正方法及装置
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
WO2019051700A1 (zh) * 2017-09-14 2019-03-21 深圳传音通讯有限公司 字符文件纠错方法与装置
CN109582972B (zh) * 2018-12-27 2023-05-16 信雅达科技股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN109979450B (zh) * 2019-03-11 2021-12-07 海信视像科技股份有限公司 信息处理方法、装置及电子设备
CN110211571B (zh) * 2019-04-26 2023-05-26 平安科技(深圳)有限公司 错句检测方法、装置及计算机可读存储介质
CN112382289B (zh) * 2020-11-13 2024-03-22 北京百度网讯科技有限公司 语音识别结果的处理方法、装置、电子设备及存储介质
CN112820274B (zh) * 2021-01-08 2021-09-28 上海仙剑文化传媒股份有限公司 一种语音信息识别校正方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0555545A1 (en) * 1992-02-10 1993-08-18 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
CN1190205A (zh) * 1996-11-15 1998-08-12 辛纳普蒂克斯有限公司 表意字符的递增输入方法
CN1213794A (zh) * 1997-05-27 1999-04-14 摩托罗拉公司 输入表意字符的装置和方法
CN1272755A (zh) * 1999-05-03 2000-11-08 电话通有限公司 用于双向移动通信设备的拼写纠正系统
CN1607496A (zh) * 2003-10-13 2005-04-20 英业达股份有限公司 声音辅助纠错的文字输入系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0555545A1 (en) * 1992-02-10 1993-08-18 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
CN1190205A (zh) * 1996-11-15 1998-08-12 辛纳普蒂克斯有限公司 表意字符的递增输入方法
CN1213794A (zh) * 1997-05-27 1999-04-14 摩托罗拉公司 输入表意字符的装置和方法
CN1272755A (zh) * 1999-05-03 2000-11-08 电话通有限公司 用于双向移动通信设备的拼写纠正系统
CN1607496A (zh) * 2003-10-13 2005-04-20 英业达股份有限公司 声音辅助纠错的文字输入系统及其方法

Also Published As

Publication number Publication date
CN101295293A (zh) 2008-10-29

Similar Documents

Publication Publication Date Title
CN101295293B (zh) 用于对表意字符的输入字符串进行自动纠错的方法
CN107357778B (zh) 一种变形词的识别验证方法及系统
CN106534548B (zh) 语音纠错方法和装置
US9128922B2 (en) Handheld electronic device and method for performing optimized spell checking during text entry by providing a sequentially ordered series of spell-check algorithms
US7777717B2 (en) Handheld electronic device and method for performing spell checking during text entry and for integrating the output from such spell checking into the output from disambiguation
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US7996769B2 (en) Handheld electronic device and method for performing spell checking during text entry and for providing a spell-check learning feature
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN102156551A (zh) 一种字词输入的纠错方法及系统
CN104166462A (zh) 一种文字的输入方法和系统
CN108121455B (zh) 识别纠正方法及装置
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
CN112489655A (zh) 一种特定领域的语音识别文本纠错方法、系统和存储介质
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
CN111192586B (zh) 语音识别方法及装置、电子设备、存储介质
CN111931491B (zh) 领域词典构建方法及装置
CN113436614B (zh) 语音识别方法、装置、设备、系统及存储介质
CN113255329A (zh) 英文文本拼写纠错方法、装置、存储介质及电子设备
CN110442843B (zh) 字符替换方法、系统、计算机设备及计算机可读存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
EP1843255A1 (en) Handheld electronic device and method for performing spell checking during text entry and for providing a spell-check learning feature
WO2008131509A1 (en) Systems and methods for improving translation systems
CN109614621B (zh) 一种校正文本的方法、装置及设备
CN110781072A (zh) 基于机器学习的代码审核方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATIONS CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20100909

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS, UNITED STATES TO: MASSACHUSETTS, UNITED STATES

TR01 Transfer of patent right

Effective date of registration: 20100909

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: Illinois Instrunment

Patentee before: Motorola Inc.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100602

Termination date: 20210429