CN1918578B - 具有自动校正的手写及语音输入 - Google Patents
具有自动校正的手写及语音输入 Download PDFInfo
- Publication number
- CN1918578B CN1918578B CN2005800046235A CN200580004623A CN1918578B CN 1918578 B CN1918578 B CN 1918578B CN 2005800046235 A CN2005800046235 A CN 2005800046235A CN 200580004623 A CN200580004623 A CN 200580004623A CN 1918578 B CN1918578 B CN 1918578B
- Authority
- CN
- China
- Prior art keywords
- words
- several
- prepare
- possibility
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 10
- 239000000203 mixture Substances 0.000 claims description 67
- 230000008676 import Effects 0.000 claims description 23
- 239000002131 composite material Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 241000519996 Teucrium chamaedrys Species 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 241001272567 Hominoidea Species 0.000 description 1
- 241001233242 Lontra Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000010397 one-hybrid screening Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明揭示一种混合方法以增进数据处理系统中的手写辨识及语音辨识。在一实施例中,一前端被用于辨识笔画、字元及/或音素。该前端传回具有符合该输入的相对或绝对可能性的候选者。依据该语言的语言特征(如正被输入的字词为字母或语意语言、如字词及片语被使用的频率、输入字词的语音的类似部分、该语言的形态、或该字词被输入的上下文),一后端结合该前端自输入字词所判定的候选者以配对已知字词以及在目前上下文中此字词的使用可能性。
Description
技术领域
本发明与使用数据处理系统的人类语言输入的识别有关,如在桌上型电脑、手持电脑、个人数据助理等等的上的手写辨识及语音辨识。
背景技术
由于存储器限制、尺寸外型的严格大小限制以及输入与修正文字的控制(按钮、选单等等)的严格限制,小型装置上的文字输入是一具挑战性的问题。现今接受文字输入的手持电脑装置变得更小。近来从携带电脑、手持电脑与个人数据助理至双向传呼、行动电话以及其他携带无线技术的发展已导出对于一小型携带用户友善的用户界面的需求,以接受文字输入以编辑文件及信息,如用于双向消息传输系统以及尤其是可同时传送及接收电子邮件(e-mail)或短消息的系统。
多年来,携带电脑已变得越来越小。在制造一更小携带电脑的努力中的一项尺寸限制元件为键盘。如果使用标准打字尺寸按键,该携带电脑至少和该键盘一样大。缩小的键盘已被使用在携带电脑上,但该缩小键盘按键太小而无法被一用户以足够的精确性简单或快速的操作。在一携带电脑中加入一全尺寸键盘也会阻碍该电脑的真正携带性效用。多数的携带电脑无法不被置于一平坦工作表面上操作以允许该用户用两手输入。一用户在站立或移动时无法轻易地使用一携带电脑。
手写辨识为已被采用的一种方式,其可解决具备侦测一手指或触控笔的动作的一电子感应屏幕或平板的小型装置上的文字输入问题。在称为个人数位助理(PDAs)的最新世代小型携带电脑中,各公司尝试藉由在该PDA中加入手写辨识软件以解决此问题。一用户可藉由在一触控感应板或显示屏幕上书写而直接地输入文字。该辨识软件随即将此手写文字转换为数位数据。一般,该用户即时写入文字而该PDA即时辨识一字元。在该触控感应板或显示屏幕上的书写建立指出该接触点的一数据输入串。该手写辨识软件分析该数据输入串的几何特征以判定符合该用户正在书写的一字元。该手写辨识软件典型地执行几何外型辨识以判定该手写字元。
不幸地,目前该手写辨识软件的准确度仍不令人满意。目前的手写辨识解决方案具有许多问题,例如即使在强大的个人电脑上,该手写辨识软件并非十分准确;而在小型装置上,存储器限制更进一步限制手写辨识的准确性;而个人书写风格也与用于训练该手写软件的不同。由于这些原因,许多手写或‘graffiti’产品要求该用户学习个别字母的一组特定笔画。这些特定笔画组合被用于简化该系统的几何外型辨识处理并增加辨识率。这些笔画常与书写该字母的自然方式十分不同。以上提出的问题的最终结果为非常低的产品采用度。
语音辨识为被采用以解决文字输入问题的另一方式。一语音辨识系统典型地包括一麦克风以侦测并记录该语音输入。该语音输入被数位化并被分析以取出一语音样本。语音辨识典型地需要一强大系统以处理该语音输入。某些能力有限的语音辨识系统已被用于小型装置上,如用于行动电话上以供语音控制操作。对于语音控制操作而言,一装置仅需识别几种命令。即使对于依有限范围的语音辨识而言,由于语音样本会随着不同用户以及不同情况有所变化,一小型装置典型地并不具有令人满意的语音辨识准确度。
发展出一种更实用的系统以处理人类语言输入是有利的,该系统具有一用户友善方式,如手写辨识系统以供以一自然方式输入手写或语音辨识系统以供以一自然方式说出语音输入,该系统具有改善的准确度以及降低的计算需求,如降低的存储器需求及处理能力需求。
发明内容
此处描述一混合方式以增进数据处理系统上的手写辨识及语音辨识。在一实施例中,一前端被用于识别笔画、字元、音节及/或音素。该前端传回具备符合该输入的相对或绝对可能性的候选者。依据该语言的语言学特征,如字母或表意语言;输入中字词,如正被使用中的字词或片语的频率,该输入字词的语音的可能部分,该语言的型态;或该输入字词的上下文,一后端结合该前端从字词输入所判定的候选者以匹配已知字词以及该些字词在目前上下文中的可能用法。该后端可使用外卡以选择候选字词、使用语言特征以预测一待完成字词或完整的接续字词、呈现候选字词以供用户选择、及/或提供附加输出,如字元的自动重音、自动大写以及自动增加标点及定义符号,以协助该用户。在一实施例中,对多个输入模式同步使用一语言后端,如语音辨识、手写辨识以及键盘输入。
本发明的一实施例包含一种在一数据处理系统上处理语言输入的方法,其包含:对多个字词成分分别接收多个辨识结果已处理一语言的一字词的用户输入,并从多个辨识结果与指出一字词列表的使用可能性中判定该字词的用户输入的一或多个候选字词。该多个辨识结果中至少有一个包含多个候选字词成分以及多个可能性指标。该多个可能性指标指出该多个字词成分符合该用户输入的一部分相对于彼此的可能性程度。在一实施例中,该候选字词成分包含来自手写辨识的一笔画、来自手写辨识的字元以及来自语音辨识的音素。该语言可为字母的或表意的。
在一实施例中,判定一或多个候选字词包含:消除该多个辨识结果的多个候选字词组合、自该语言的一字词列表选择多个候选字词,该多个候选字词含有该多个辨识结果的候选字词成分的组合、从该多个辨识结果及指出一字词列表的使用可能性的数据中对该一或多个候选字词判定一或多个可能性指标以指出符合该字词的用户输入的相对可能性、或依据一或多个可能性指标排序该一或多个候选字词。
在一实施例中,自动地从一或多个候选字词选择一候选者并呈现给该用户。可依据该语言中的任何片语、该语言中的字词对(word pairs)、以及该语言中的三连字串(word trigrams)而执行该自动选择。也可依据该语言的任何形态(morphology)以及该语言的文法规则而执行该自动选择。也可依据所接收的该字词的用户输入的一上下文而执行该自动选择。
在一实施例中,该方法进一步包含依据预料一用户输入接续字词而自动选择的字词而预测多个候选字词。
在一实施例中,该方法包含呈现该一或多个候选字词以供用户选择,并接收一用户输入以选择该多个候选字词其中之一。
在一实施例中,一字词成分的多个辨识结果包含一组候选字词成分的任一者对于符合该用户字词输入的一部分具有相同可能性的一指示。指出该字词列表的使用可能性的数据可包含该语言中的字词使用频率、一用户使用字词的频率以及一文件中使用字词的频率的任一个。
在一实施例中,该方法进一步包含自动重音一或多个字元、自动大写一或多个字元、自动增加一或多个标点符号以及自动增加一或多个定义符号的任一者。
本发明的一实施例包含在一数据处理系统上辨识语言输入的方法,该方法包含:通过样式识别处理一语言的一字词的一用户输入以对多个字词成分个别建立多个辨识结果,并从多个辨识结果及指出一字词列表的使用可能性的数据中判定该用户输入字词的一或多个候选字词。该多个辨识结果的至少一者包含多个候选字词成分以及多个可能性指标。该多个可能性指标指出该多个字词成分符合该用户输入的一部分相对于彼此的可能性程度。该样式辨识可包括手写辨识,其中每个该多个候选字词成分包括一笔画,例如用于一表意语言符号或字母字元;或一字元,例如用于一字母语言。该字词可为一字母字词或一表意语言符号。该样式辨识可包括语音辨识,其中每个候选字词成分包含一音素。
在一实施例中,一字词成分的多个辨识结果的一包含一指示,其指出一组候选字词成分的任一个具有同等的可能性符合该用户输入的该字词的一部分。该组候选字词成分包含该语言的所有字母字元。指出该字词列表的使用可能性的数据可包含该语言中的字词使用频率、一用户使用字词的频率以及一文件中字词使用的频率的任一者。指出字词列表的使用可能性的数据可包表示该语言的形态的数据以及表示该语言的文法规则的数据的任一者。指出该字词列表的使用频率的数据可包含:表示所接收的用户输入字词的上下文的数据。
在一实施例中,该用户输入仅指定该字词的一完整字词成分组合的一部分。该系统判定该候选字词。
在一实施例中,该一或多个候选字词包含一部分该多个辨识结果中的候选字词成分组合所形成的字词以及一部分含有辨识结果中的候选字词成分组合的字词。
在一实施例中,该一或多个候选字词包含多个候选字词。该方法进一步包含:呈现该多个候选字词以供选择,以及接收一用户输入以从该多个候选字词中选择其中之一。
在一实施例中,该方法进一步包含:依据预测一用户所输入的接续字词而选择的一字词而预测一或多个候选字词。在一实施例中,该多个候选字词以符合该用户输入的字词的可能性顺序而加以呈现。
在一实施例中该方法进一步包含:从一或多个候选字词中自动地选择一最有可能者作为该用户所输入的一字词的一辨识字词。
在一实施例中,该方法进一步包含:依据预测一用户所输入的接续字词的一最有可能字词而预测一或多个候选字词。在一实施例中,该方法进一步包含自动重音一或多个字元、自动大写一或多个字元、自动增加一或多个标点符号以及自动增加一或多个定义符号的任一者。
在一实施例中,该多个辨识结果的每一者包含个别与多个候选字词成分有关的可能性指标以指出符合该用户输入的一部分的相对可能性。
附图说明
图1说明依据本发明用于在一数据处理系统上识别用户输入的一系统;
图2为依据本发明用于辨识用户输入的一数据处理系统的一方块图;
图3A及图3B说明依据本发明的一手写辨识软件的非模糊输出的一范例;
图4A-4C说明依据本发明的一用户界面上的手写辨识方案;及
图5为依据本发明处理用户输入的一流程图。
元件代表符号简单说明
101语言输入
103样式辨识引擎
105,111输入
107,113非模糊引擎
109字词列表
115片语列表
117符合
119分析
121用户选择
201处理器
202手写输入装置
203显示器
204语音输入装置
205声音输出装置
210存储器
211作业系统
212笔画/字元辨识引擎
213音素辨识引擎
214字词列表
215片语列表
216以字词为基础的非模糊引擎
217以片语为基础的非模糊引擎
218以上下文为基础的非模糊引擎
219选择模组
220应用程序
401装置
403,405,409区域
407手写输入
501,503,505,507,509,511步骤
具体实施方式
输入方法,如手写辨识及语音辨识,可为传统以键盘为主的输入方法的重要替代方案,尤其是对于小型装置如手持电脑、个人数据助理及行动电话而言。传统手写及语音辨识系统面临着需要超过小型电子装置上可利用的存储器的难题。本发明通过自动校正以降低手写或语音辨识引擎的存储器需求及处理能力需求而改进这些装置上的文字及语音输入技术。
本发明使用一混合方式以增进数据处理系统的手写辨识及语音辨识。在一实施例中,一前端辨识笔画、字元、音节、及/或音素并传回具有符合该输入的相对或绝对可能性的候选者。可传回不同候选者以供一后端进一步处理,而非使用该前端仅选择一候选者。该后端结合该前端从字词输入所判定的候选者以配对已知字词以及在目前上下文中此字词的使用可能性。藉由结合该前端雨后端,本发明提供具有一增进辨识率以及更加用户友善的一系统。因而手写及语音辨识输入的一有效且低存储器/CPU使用成为可行的。
在本发明中,一“字词(word)”是指任何语言物件,如一串形成一字词、词干(word stem)、字首或字尾、音节、片语、缩写、俚语、表情符号(emoticon)、用户ID、URL或表意字元序列的一或多个字元或符号。在本发明的一实施例中,一前端被用于执行该语言输入上的样式辨识,如手写、语音输入等等。许多技术已被用于将该输入与数个目标样式相比较,如笔画、手写字元以及语音输入重音等。典型地,一输入不同程度地与数个目标样式相符合。举例来说,一手写字母可能与字元“a”或“c”、“o”或“e”相似。目前可用的样式辨识技术可判定该手写字母为这些字元的任一者的可能性。然而,一辨识系统典型地被迫仅回报一项符合。因此,具有最高符合可能性的该字元典型地会被回报为辨识结果。在本发明的一实施例中,数个候选者被送进该后端作为可能选择,而非预先排除其他候选者以得到一项可能为错误的符合,因而该后端使用该上下文以对该语言输入整体地判定更为可能的候选者组合,如一字词、一片语、字词对、三连字串、或符合一语句的上下文的一字词,例如依据文法结构。举例来说,可从该用户尝试输入的字词中的不同字元候选者组合中判定不同的候选字词。从该语言中使用该字词的频率以及符合该候选字元的相对或绝对可能性中,该后端可判定该用户最有可能正在输入的字词。此与传统方法不同,后者提供一组独立判定的最有可能字元,其甚至无法组成一有意义字词。
因此,本发明结合精确字词搜寻软件与一手写辨识(HR)引擎或一语音辨识(SR)引擎以提供小型电子装置如个人数位助理、电话或任何该领域产业上用于输入文字及数据的许多特定装置上文字与语音输入的持续问题一种有力的解决方案。
此外,本发明使用一单一后端引擎以有效地服务各种输入型态(标准键盘、手写、语音),而仅有低度的存储器及处理器需求。
图1说明依据本发明在一数据处理系统上辨识用户输入的一系统的一图示。在语言输入101如手写或语音于该样式辨识引擎103被接收后,该样式辨识引擎103处理该输入以提供候选字词成分如字元、音素或笔画以及其符合该输入105的对应部分的可能性。举例来说,一字元输入可与一候选字元列表相符,而造成模糊。在一实施例中,该模糊于该前端层级被容忍而被传送至该语言非模糊后端以供进一步处理。
举例来说,一种以字词为基础的非模糊引擎107比对该字词列表109核对该字元的可能组合以建立候选字词以及其符合该用户输入111的关联可能性。由于较不常使用的字词或未知字词如未列入字词列表109中的字词较不可能符合该用户输入,该些候选字词可被降级而具有较低的符合可能性,即使依据该样式辨识引擎105的结果其看似具有相对较高的符合可能性。该以字词为基础的非模糊引擎107可消除某些较不可能的候选字词因而该用户不会受到一庞大选择清单所烦扰。替代地,该以字词为基础的非模糊引擎可从该候选字词选择一最有可能的字词。
在一实施例中,如果该以字词为基础的非模糊引擎107的输出中具有模糊,一种以片语为基础的非模糊引擎113进一步比对该片语列表115以核对该结果,该列表可包括二连字串、三连字串等等。可将一或多个先前辨识的字词与该目前字词结合以符合该片语列表115中的片语。该片语的使用频率可被用于修改符合该候选字词的可能性以建立该候选片语以及符合117的关联可能性。即使没有模糊,该以片语为基础的非模糊引擎可被用于依据先前辨识的字词以及该片语列表115而预测接续字词。
在一实施例中,如果该依据片语的非模糊引擎113的输出中具有模糊,便执行一上下文及/或文法分析119以消去不太可能的字词/片语。如果无法通过该自动语言非模糊处理解决该模糊,可呈现该选择给该用户以供用户选择121。在该用户选择后,可更新该字词列表109以及该片语列表115以升级该用户选择的字词/片语及/或增加新的字词/片语至该列表中。
图2为依据本发明一种用于辨识用户输入的数据处理系统的一方块图。虽然图2说明一示范数据处理系统的各种元件,已了解依据本发明的一实施例的一数据处理系统一般可包括相较于图2所描述者更多或较少的元件。举例来说,某些系统可能不具有一语音辨识能力而不需要用于处理声音的元件。某些系统可能具有图2中未描述的其他功能,如一行动电话环境上的通信电路。图2说明各种与本发明的至少某些特征密切相关的各种元件。在此说明书中,一习知技艺人士将了解依据本发明的一数据处理系统的配置并不限于图2中描述的特定结构。
显示器203通过适当的界面电路连接至处理器201。一手写输入装置202,如一触控屏幕、一滑鼠、或一数位笔,被连接至该处理器201以接收用户输入以供手写辨识及/或其他用户输入。一语音输入装置如一麦克风被连接至该处理器201以接收用户输入以供语音辨识及/或其他语音输入。选择地,一声音输出装置205如一喇叭亦被连接至该处理器。
该处理器201自该输入装置如该手写输入装置202或该语音输入装置204接收输入并管理输出至该显示器及喇叭。该处理器201被连接至一存储器210。该存储器包括一暂时储存媒体组合如随机存取存储器(RAM)以及永久储存媒体组合如唯读存储器(ROM)、软碟、硬碟或CD-ROMs。该忆体210含有所有管理系统作业所需的软件常式及数据。该存储器典型地含有一作业系统211以及应用程序220。应用程序的范例包括文书处理器、软件辞典以及外语翻译器。亦可提供语音合成软件作为应用程序。
较佳地,该存储器进一步包含一笔画/字元辨识引擎212以供辨识该手写输入中的笔画/字元及/或音素辨识引擎213以供辨识该语音输入中的音素。该音素辨识引擎以及该笔画/字元辨识引擎可使用该领域中已知的任何技术以提供一候选列表以及符合每个输入的笔画、字元或音素的关联可能性。已了解该前端引擎如该笔画/字元辨识引擎212或该音素辨识引擎213中用于样式辨识的特定技术在本发明中并非是适切的。
在本发明的一实施例中,该存储器210进一步包括一语言非模糊后端,其可包括一或多个以字词为基础的非模糊引擎216、以片语为基础的辨识非模糊引擎217、以上下文为基础的非模糊引擎218、一选择模组219以及其他如一字词列表214以及一片语列表215等等。在此实施例中,该以上下文为基础的非模糊引擎应用有助于输入非模糊的用户行动的上下文态样。举例来说,可依据选择的用户位置,如该用户在办公室或在家中;一天中的时间,如工作时间抑或闲暇时间;或接收者等等。
在本发明的一实施例中,用于一非模糊后端的元件多数于不同输入形式中被共用,如用于手写辨识与用于语音辨识。该字词列表214包含一语言中的一已知字词列表。该字词列表214可进一步包含该语言中对应字词的使用频率资讯。在一实施例中,不存在于该语言的字词列表214中的一字词频率被视为零。替代地,可指派一非常小的使用频率给一未知字词。使用该未知字词的预设使用频率,便可以一实际上相同的方式处理该已知及未知字词。该字词列表214可伴随该以字词为基础的非模糊引擎216而被使用以排列、消去及/或选择依据该样式辨识前端(例如该笔画/字元辨识引擎212或该音素辨识引擎213)的结果所判定的候选字词,并且为了完成字词而依据一部分的用户输入而预测字词。类似地,该片语列表215可包含包括两个以上字词的一片语列表以及该使用频率资讯,该片语列表215可被该以片语为基础的非模糊引擎217所使用且可被用于预测字词以完成片语。
在本发明的一实施例中,每个输入序列被参照至一或多个字汇模组而加以处理,每个字汇模组含有一或多个字汇以及关于每个字汇的资讯,包括该字词中的字元数量以及该字词关于其他相同长度的字词的发生频率。替代地,关于该字汇模组或一特定字词为一成员的模组的资讯被伴随每个字词而储存,或一模组可依据语言样式修改或建立字词,如在一特定音节上放至一区别标记,或依据任何用于解译该目前输入序列的其他演算法及/或附近上下文而建立或过滤候选字词。在一实施例中,每个输入序列被一样式辨识前端所处理以提供一连串的候选列表,如笔画、字元、音节、音素等等。该候选者的不同组合提供不同的候选字词。该非模糊后端结合该候选者的符合可能性以及该候选字词的使用频率以排列、消去及/或选择一字词或更多字词作为替代品以供用户选择。具有较高使用频率的字词为高度可能性的候选者。未知字词或较低使用频率的字词为低度可能性的候选者。该选择模组219选择性地自该用户可选择者呈现数个高度可能性的字词。在本发明的另一实施例中,字词的使用频率乃依据该用户的使用或在一特定上下文中该字词的使用,例如在该用户正在编辑的一信息或文章中。因此,常使用的字词成为更有可能的字词。
在另一实施例中,每个字汇模组中存有字词,因而该字词被分类为含有相同长度的字词的档案或丛集。首先藉由搜寻相同长度的字词群组作为该输入序列中的输入数目而处理每个输入序列,并以最佳符合度量分数识别该些候选字词。如果与该输入序列具有相同长度而被识别的候选字词少于一临界数量,则该系统继续比较N输入的输入序列与N+1长度的字词群组中每个字词的前N个字母。此处理持续搜寻越来越长的字词并比较输入的输入序列与每个群组中每个字词的前N个字母,直到识别临界数量的候选字词。长度大于该输入序列的可用候选字词可被提供给该用户作为该输入序列的可能解释,其提供一字词完成的形式。
在安装阶段中,或在收到文字信息或其他数据的持续过程中,在数据档案中搜寻待加入语汇中的字词。用于搜寻此资讯档案的方法已存在于习知技艺中。在搜寻过程中一旦发现新字词,其便被增加至一字汇模组作为低频率字词,且因此被置于该字词相关联的字词列表的末端。依据一扫瞄过程中一特定新字词被侦测到的次数,便藉由在该字词相关列表中升级该字词而指定一相对越来越高的优先度,因而增加资讯输入期间中该字词显示于该字词选择列表中的可能性。
在本发明的一态样中,对于每个输入序列,一字词模组藉由识别具有最高可能性的候选字词成分并且编制由候选字词成分所构成的一字词而建立一候选字词。此“确切类型”字词随后被包含于候选字词列表中,亦可被呈现于一特别指定栏位中。该字词语汇具有冒犯字词的附录,搭配一般可接受状态下的类似字词,因而输入该冒犯字词时,即使该文字的确切输入包含该冒犯字词,仅会产生该确切类型栏位中的相关可接受字词,且在适当情况下作为该字词选择列表中的一建议。此特性可过滤掉冒犯字词的出现,该情形在该用户了解到可能更快地打字而较不注意地触碰该键盘的预期字母的精确位置时将可能偶然地出现。因此,在显示该确切键入字串的前使用习知技艺中熟知的技术,负责显示该字词选择列表的软件常式比较该目前确切键入字串以及冒犯字词附录,若发现两者相符,便以相关可接受字词取代该显示字串。否则,即使将一冒犯字词视为一极低频率字词,当该字词的每个字母被直接触碰时,其仍将被显示为该确切键入字词。即使此情形与意外在一标准键盘上键入一冒犯字词相似,本发明容忍该用户较不准确的输入。此特性可由该用户开启或关闭,例如通过一系统选单选项。
该些习知技艺人士将了解可于该电脑中开启额外字汇模组,例如含有法律术语、医学术语以及其他语言的字汇模组。再者于某些语言如印度语中,该字汇模组可使用有效子字词序列的“样板(template)”以于该先前输入及该候选字词正被考虑时判定何者候选字词成分是可能的或适当的。通过一系统选单,该用户可设定该系统以使该额外字汇字词出现于可能字词列表的最前面或最后面,例如藉由特别着色或高亮度标示,或该系统可自动依据何者字汇模组供应该直接先前选择的字词而自动切换该字词的顺序。因此,在附加申请专利范围中,将了解本发明可以除了此处特别说明的外的方式加以实施。
依据本发明的另一态样,在一用户使用该系统的过程中,一升级演算法自动地调整该语汇,该演算法于每次该用户选择一字词时执行以通过逐渐增加与该字词相关的相对频率而升级该语汇中的字词。在一实施例中,该升级演算法增加与一相对大量增额所选择的字词相关的频率数值,而降低一非常小减额所忽略的该些字词的频率数值。对于相对频率资讯由字词出现于一列表中的连续顺序所指出的一字汇模组而言,藉由将该选择字词向上移动某部分与列表前端间的距离而完成升级。该升级演算法最好避免移动最常使用的字词以及非常不常使用的字词远离其原始位置。举例来说该列表的中间范围中的字词随着每次选择被升级最大的比例。位于该选择字词于该语汇升级中开始与结束之间的字词被有效地以数值1所降级。字词列表整体维持守恒,因而关于该列表中字词的相对频率的资讯可被维护并更新,而无须增加该列表所需的储存。
该升级演算法增加选择字词的频率且于适当处降低未选择字词的频率。举例来说,在相对频率资讯由字词出现于一列表中的连续顺序所指出的一语汇中,于该列表中的IDX位置出现的一选择字词被移动至(IDX/2)位置。相应地,位于该列表中(IDX/2)位置向下至(IDX+1)之间的字词被向下移动该列表中的一个位置。当一连串接触点被处理且一字词选择依据该计算的符合度量分数所建立,且一或多个字词于该列表中出现于该用户所选择的字词的前时时,便将该列表中的字词降级。在该选择列表中出现于更上端但未被选择的字词可被推定将被指派一不适当的高频率,亦即于该列表中其出现过于上方。起初出现于IDX位置的此一字词可被降级,例如被移动至(IDX*2+1)的位置。因此,一字词越常被考虑选择,其被降级地越少,亦即其被移动的阶层数量越少。该升级及降级处理可能仅依据该用户的一动作所触发,或可能依据该用户的输入而被不同地执行。举例来说,仅有在该用户使用一触控笔或滑鼠点选或拖放其预期的字词至一字词选择列表中的最前面位置时,在该选择列表中比该用户所预期的字词更上方出现的字词才会被降级。替代地,被手动拖放至该选择列表中一更上方位置的一选择字词可被升级较一般更大的是数。举例来说,该升级字词从I DX位置被移动至(IDX/3)位置。对于该些习知技艺人士而言,许多此类变化是显而易见的。
依据本发明的另一态样,该前端可侦测系统错误并且依据来自该后端的回授改变其认知。随着该用户重复输入并从该选择列表中选择该字词,该候选文字成分间的不同顺序以及每个选择字词中包含的预期字词成分可被用于改变该前端所建立的可能性。替代地,该后端可维护一自该前端接收关于一或多个笔画、字元、音节或音素的独立调整数值。
第3A及3B图说明依据本发明的手写辨识软件的非模糊输出的一范例。本发明的一实施例结合一手写辨识引擎与一模组,该模组自该手写引擎取得与该用户输入的每个字母有关的所有可能符合,该实施例并结合这些可能性与该语言中的字词可能性以对该用户预测最有可能的字词或该用户尝试输入的字词。习知技术中已知的任何技术可被用于判定该可能符合以及与符合有关的可能性。举例来说,该用户可能尝试输入五字元以输入五个字母的字词“often”。该用户输入可显现为为图3A中301-305所说明者。该手写辨识软件指定以下的字元以及笔画的字元可能性输出:
笔画1(301):′o′60%,′a′24%,′c′12%,′e′4%
笔画2(302):′t′40%,′f′34%,′i′20%,′l′6%
笔画3(303):′t′50%,′f′42%,′l′4%,′i′4%
笔画4(304):′c′40%,′e′32%,′s′15%,′a′13%
笔画5(305):′n′42%,′r′30%,′m′16%,′h′12%
举例来说,该笔画301为‘o’的可能性为60%,笔画302为‘t’的可能性为40%,笔画303为‘t’的可能性为50%,笔画304为‘c’的可能性为40%,笔画305为‘n’的可能性为42%。将该手写辨识软件认为最接近符合该用户的笔画的字母集中在一起,该手写软件模组呈现字串‘ottcn’给用户,其并非该用户预期输入者。其甚至并非英语中的一字词。
本发明的一实施例使用一非模糊字词搜寻模组以依据这些字元、关于该字元的符合可能性以及在英语中使用该字词的频率而找出一最佳预测。在本发明的一实施例中,该结合的手写模组以及该非模糊模组预测该最有可能的字词为‘often’,其为该用户尝试输入的字词。
举例来说,如图3B所示,一后端工具接收所有的候选者并判定一可能字词列表包括:ottcn,attcn,oftcn,aftcn,otfcn,atfcn,offcn,affcn,otten,atten,often,aften,otfen,atfen,offen,affen,ottcr,attcr,oftcr,aftcr,otfcr,atfcr,offcr,affcr,otter,atter,ofter,after,otfer,atfer,offer,affer等等。该可能字词可从该前端判定选择最高符合可能性至最低符合可能性的字元所构成。当一或多个高度可能的字词被找出时,可能性较低的字元便可以不被使用。为了简化该描述,在图3A中假设未知字词的使用频率为0,而已知字词如often,after与offer的使用频率为1。在第A图中,由该使用频率结果以及该字词中使用的候选字词的符合可能性而计算一候选字词的符合指示器。举例来说,在图3A中,字元‘o’,‘f’,‘t’,‘e’及‘n’的的符合可能性分别为0.6,0.34,0.5,0.32,0.42,而该字词‘often’的使用频率为1。因此,符合该字词“often”的一指示器被判定为0.0137。类似地,字词“after”及“offer”的指示器分别为0.0039及0.0082。当该后端工具选择最有可能的字词,便会选择“often”。注意该字词的“指示器”可被正规化以排序该候选字词。
在本发明的一实施例中,一或多个输入为明确的,亦即与单一笔画、字元、音节或音素相关,因而符合每个字元等等的可能性等于100%。在本发明的另一实施例中,一明确输入自该辨识前端产生一特定数值集合,其使得该非模糊后端仅配对该确切字元等等在每个候选字词的对应位置中。在本发明的另一实施例中,明确输入被保留数字、适当的读音符号(diacritics)以及重音标记及/或其他定义符号,并于字词的内与之间被保留标点符号。
第4A-4C图显示依据本发明于一用户界面上的手写辨识的方案。如图4A所示,该装置401包括一区域405以供用户写入该手写输入407。提供一区域403以显示该用户正在输入的信息或文章,如在一网页浏览器上、在一笔记软件程序上、在一电子邮件程序上等等。该装置包括触控屏幕区域以供该用户写入。
如图4B所示,在处理该用户手写输入407的后,该装置于区域409提供一候选字词列表以供该用户选择。该候选字词被以符合可能性加以排序。该装置可选择呈现最前面几个最有可能的候选字词。该用户可使用一传统方法从该列表选择一字词,或使用对应该字词的位置的一数字键。替代地,该用户可选择语音指令以选择该字词,如藉由说出该选择字词或对应该列表中字词位置的编号。在该较佳实施例中,该最有可能字词被自动选择并呈现于区域403。因此,如果该用户接受该候选字词例如藉由开始写入接续字词,便不需要用户选择。如果该用户确实选择一不同字词,该装置便以该用户选择的候选者取代该自动选择候选者。在另一实施例中,该最有可能的字词被高亮度显视作为该预设值,指出该用户目前选择而将被输出或被延伸一后续动作的一字词,而一指定输入改变该高亮度显示至另一候选字词。在另一实施例中,一指定的输入选择一音节或字词以供修正或从已被输入或预测的一多音节序列或多字词片语重新输入。
图4C说明当一上下文及/或文法分析进一步协助解决该模糊的一情形。举例来说,图4C中该用户已输入该字词“It is an”。以一文法分析而言,该装置预测接续字词为一名词。因此,该装置进一步调整该候选字词的顺序而提升属于名词的候选字词。因此,该最有可能的字词成为“offer”而非“often”。然而,由于一形容词也可能位于该名词及该字词“an”之间,该装置仍会呈现其他选项以供用户选择,如“often”及“after”。
第5图为一流程图,其说明依据本发明的用户输入的处理。于步骤501,该系统接收一字词的手写输入。的后于步骤503建立可能符合该字词的手写中的每个字元的一候选字元列表。步骤505自该候选字元列表中判定一候选字词列表。步骤507结合该候选字词的频率指示器以及符合该候选字元的可能性以判定符合该候选字词的可能性。步骤509依据符合该候选字词的可能性而消去一部分的候选字词。步骤511呈现一或多个候选字词以供用户选择。
虽然第5图说明处理手写输入的一流程图,从此说明中可了解语音输入也可以一类似方式加以处理,其中一语音辨识模组对该字词中的每个音素建立候选音素。
小型装置上用于文字及命令输入的语音辨识技术甚至面临更糟的存储器及电脑处理问题。此外,由于现今语音辨识系统的高错误率以及需努力进行修正,故其采用度非常低。本发明的一实施例结合使用一组候选音素以及一语音辨识引擎所回报的相关可能性以及使用这些输出的一后端以及可利用这些音素而形成的字词的已知可能性。该系统自动修正该语音辨识输出。
在本发明的一实施例中,符合该输入序列的候选字词于接收每次输入时在显示器上的一字词选择列表中被呈现给该用户。该候选字词以计算每个候选字词的符合可能性所判定的顺序加以呈现,因而依据该符合度量而被视为最有可能的的字词会出现在该列表的最前面。选择该输入序列的提出解释的其中之一会结束一输入序列,因而随后的输入会起始一新的输入序列。
在本发明的另一态样中,仅有一候选字词显示于该显示器上,最好是位于该文字正被建立的插入点上。显示的候选字词为依据该符合度量而被认为是最有可能者。藉由重复地启动一特别指定的选择输入,该用户可以该符合可能性所判定的顺序中呈现的替代候选字词取代该显示的字词。一输入序列也会在指定选择输入的一或多个启动以及有效地选择该序列的其中一提出解释以供该系统实际输出的后被结束,因而随后的输入起始一新的输入序列。
依据本发明的一混合系统首先于一成分层级如笔画、字母、音节、音素等等执行样式辨识,如手写辨识、语音辨识等等,以提供模糊的结果以及相关的符合可能性,且随后于内部成分层级如字词、片语、字词对、三连字串等等执行非模糊操作。该系统用于解决模糊所使用的语言的特征可为该语言中的任何字词使用频率,该个别用户使用字词的频率、该输入字词的可能语音部分、该语言的型态、该字词被输入的上下文、二连字串(字词对)或三连字串、以及任何可用于解决该模糊的其他语言或上下文资讯。
本发明可伴随字母语言而使用,如英语及西班牙语,其中该手写辨识前端的输出为字母或笔画以及其相关可能性。一字母语言的手写非模糊操作可于该字词层级被执行,其中每个字词典型地包括多个字母。
本发明亦可伴随语意语言而使用,如中文及日文,其中该手写辨识前端的输出为笔画以及其相关可能性。一语意语言的手写非模糊操作可于该词根/成分或字母层级被执行。该非模糊操作可进一步于一更高层级操作,如片语、二连字串、三连字串等等。再者,该语言的文法结构也可被用于该非模糊操作以选择该输入的最佳整体符合。
本发明亦可伴随语意语言的语音或字母表现而使用。该非模糊操作可于音节、语意字母、字词、及/或片语层级被操作。
类似地,本发明也可被用于语音辨识,其中该语音辨识前端的输出包含音素及其相关符合可能性。该候选音素可被结合以供选择一字词、片语、二连字串、三连字串或惯用语的一最佳符合。
本发明的一实施例亦于该用户仅已输入一些笔画时预测字词完成。举例来说,在成功地以高可能性辨识一字词的最初几个字母的后,该系统的后端可提供一字词列表,其中该最初几个字母与该符合的字母相同。一用户可从该列表选择一字词以完成该输入。替代地,该列表中接近某些字词的一指示可提示该用户依据该字词的完成可藉由应用于该列表输入的一指定输入而被显示;该随后弹出的字词列表显示包含该字词的有限字词,且可依序指出进一步的完成。该首先几个字元的每个可仅具有一个高可能性候选者,其被用于选择该待完成字词列表。替代地,一或多个该首先字元可含有模糊,因而该首先几个字元的数个高可能性组合可被用于选择该待完成字词列表。用于完成的字词列表可依据符合该用户正尝试输入的字词的可能性而被排序并显示。举例来说,用于完成的字词可依据该字词于例如该语言中、在该用户正编辑的文章中、在特定上下文中如一对话方块等等被该用户被使用的频率及/或在片语、二连字串、三连字串、惯用语等等中出现的频率而被排序。当位于一片语、二连字串、三连字串或惯用语等等中的一或多个字词紧接于正被处理的字词的前,这些片语、二连字串、三连字串或惯用语的出现频率于判定该待完成字词的排序时可被进一步与该字词的频率相结合。并未位于任何目前已知片语、二连字串、三连字串、惯用语等等中的字词被视为在具有一非常低出现频率的一未知片语中。类似地,并未位于已知字词列表中的字词被视为具有一非常低出现频率的一未知片语。因此,任何字词的输入或一字词的最前面部分可被处理以判定最有可能的输入。
在本发明的一实施例中,该后端持续取得该样式辨识前端所辨识的每个字词、笔画、音素的候选列表,以更新该列表并排序待完成字词。随着该用户提供更多的输入,关于完成的较不可能的字词会被消去。用于完成的字词列表随着该用户提供更多输入而缩小规模,直到模糊不存在或该用户自该列表选择一字词为止。
再者,在该样式辨识前端提供该接续字词的最前面输入一候选列表前,该后端自一或多个的前紧接的字词以及已知片语、二连字串、三连字串、惯用语等等判定待完成字词,以判定一片语、二连字串、三连字串、惯用语等等的待完成字词列表。因此,本发明亦依据该用户最后输入的字词而判定该完整的接续字词
在本发明的一实施例中,该后端使用表示具有相同可能性的任何笔画、字元、音节或音素的外卡。依据该字词输入的一部分的该待完成字词列表可被视为对于该用户即将输入或即将从该样式辨识前端接收的一或多个笔画、字元或音素使用一外卡的一范例。
在本发明的一实施例中,该前端可能无法辨识一笔画、字元或音素。该前端并不会停止该输入处理以迫使用户重新键入该输入,相反地该前端可容忍该结果并传送一外卡至该后端。在一高层级中,该后端可解决该模糊而无须迫使该用户重新键入该输入。此大大地增进该系统的用户友善度。
在本发明的一实施例中,该后端自动地以外卡取代来自于该前端的一或多个输入。举例来说,当从一已知字词列表中未发现任何可能字词时,该后端可以一外卡取代该最模糊输入以扩张候选组合。举例来说,具有大量低可能性候选者的一列表可被一外卡所取代。在一实施例中,该前端提供一候选列表因而该输入符合该列表中的其中一候选者的可能性会高于一临界值。因此,一模糊输入具有大量的低可能性候选者。在其他实施例中,该前端提供一候选列表因而每个候选者符合该输入的可能性会高于一临界值。因此,一模糊输入为其中一候选者的可能性很低。因此,该系统实施外卡,例如适合任何字母的笔画给予所有字母相同的可能性,因而可处理未使用外卡时没有找到可能字词的情况。在本发明的一实施例中,该后端自该样式辨识前端所提供的候选笔画、字元或音素的组合中建立不同的候选字词,举例来说,每个字元输入的候选字元可依据符合该输入的可能性而加以排序。该候选字词的建立从最可能符合的字元开始延伸至较不可能符合的字元。当数个候选字词在已知字词列表中被发现时,较不可能符合的字元便可能不被用于建立进一步的候选字词。在一实施例中,该系统显示最有可能的字词或依据计算过的可能性加以排序的一所有候选字词列表。该系统可自动地增加一输出以帮助用户。此包括例如自动重音字元、自动大写以及自动增加标点符号及定义符号。
本发明的一态样提供一语言后端同时地被用于多个输入形式如语音辨识、手写辨识、在硬式键盘或触控屏幕上的键盘输入。在本发明的另一实施例中,一语言后端被用于去模糊该候选字词。在一后端成分结合来自该前端的候选输入以判定候选字词及其符合可能性的后,一语言后端被用于依据语言特性排序该候选字词。举例来说,该语言后段进一步结合使用该用户于例如该语言中、该用户正编辑的一文章中、需要该输入的一上下文中等等使用该字词的频率以及源自该后端成分的候选字词与其符合可能性以去模糊该候选字词。该语言后端也可依据一二连字串、三连字串、片语等等而执行一去模糊操作。再者,该语言后端可依据该上下文、文法结构等等而执行去模糊操作。由于该语言后端所执行的任务对于各种不同的输入方法如语音辨识、手写辨识或使用硬式键盘或依触控屏幕的键盘输入而言都是相同的,因此该语言后端可于多个输入形式间共享。在本发明的一实施例中,一语言后端同时地服务多个输入形式,因而当一用户结合不同的输入形式以提供一输入时,仅需一单一语言后端以支援混合输入模式。在本发明的另一态样中,来自一特定前端的每个输入被视为一明确的候选字词成分,其若非被记录符合可能性为100%即为该后端将使用的一明确笔画、字元或音节以符合在对应位置中含有其的有限字词。本发明亦包含一混合系统,其使用来自一或多个辨识系统的候选者集合以及相关可能性,且其藉由使用该语言的某些已知特征以解决该集合中的模糊。解决该手写/语音辨识中的模糊可增进该系统的辨识率以增进该用户友善度。
虽然此处伴随该较佳实施例说明本发明,习知技艺人士将可明确地了解其他的应用程序可取代此处所提出者,而不会偏离本发明的精神与范围。因此,本发明应仅受限于的权利要求范围。
Claims (51)
1.一种在数据处理系统中用于识别语言输入的方法,其至少包含以下步骤:
通过样式辨识处理一语言的一字词的用户输入以分别对数个字词成分产生数个辨识结果;
其中该数个辨识结果的至少其中之一包含:
数个候选字词成分以及数个可能性指标;以及
数个可能性指标,其对应至各个所述候选字词成分;以及
结合成一所述候选字词成分的子集合以使用数个可能性指标以及可指出一字词列表的使用可能性的数据两者来判定一或多个可供用户输入的该字词的候选字词。
2.如权利要求1所述的方法,其中该样式辨识包含:
手写辨识。
3.如权利要求2所述的方法,其中该数个候选字词成分的每个包含笔画:且该字词包含语意语言符号。
4.如权利要求2所述的方法,其中该多个候选字词成分的每个包含字元;且该字词包含字母字词。
5.如权利要求1所述的方法,其中该样式辨识包含语音辨识;且该数个候选字词成分的每个包含音素。
6.如权利要求1所述的方法,其中字词成分的该数个辨识结果之一包含指示,其指出一候选字词成分集合中的任何一个具有符合该字词的用户输入的一部分的相同可能性;及该候选字词成分集合包含该语言的字母字元。
7.如权利要求1所述的方法,其中指出该字词列表的使用可能性的数据至少包含下列之一:
该语言中使用字词的频率;
用户使用字词的频率;及
文件中使用字词的频率。
8.如权利要求1所述的方法,其中指出该字词列表的使用可能性的数据至少包含下列之一:
该语言中的片语;
该语言中的字词对;及
该语言中的三连字串。
9.如权利要求1所述的方法,其中指出该字词列表的使用可能性的数据至少包含下列之一:
表示该语言的形式的数据;及
表示该语言的文法规则的数据。
10.如权利要求1所述的方法,其中指出该字词列表的使用可能性的数据至少包含:
表示收到该字词的用户输入的上下文的数据。
11.如权利要求1所述的方法,其中该用户输入仅指定该字词的字词成分的完整集合的一部分。
12.如权利要求1所述的方法,其中该一或多个候选字词包含:
由该候选字词成分的组合所形成的一部分字词。
13.如权利要求1所述的方法,其中该一或多个候选字词包含数个候选字词;并且该方法更包含以下步骤:
呈现该数个候选字词以供选择;及
从该数个候选字词中接收一用户选择。
14.如权利要求13所述的方法,其中更包含以下步骤:
以预计后一字词的方式来预测一或多个候选字词。
15.如权利要求13所述的方法,其中以符合用户字词的可能性顺序来呈现该数个候选字词。
16.如权利要求1所述的方法,其中更包含以下步骤:
从一或多个候选字词中自动选择一最有可能字词作为该字词的用户输入的辨识字词;
依据预期用户的后一字词输入的最有可能字词而预测一或多个候选字词。
17.如权利要求1所述的方法,其中更包含以下步骤:
自动地重音一或多个字元;
自动地大写一或多个字元;
自动地增加一或多个标点符号;及
自动地增加一或多个定义符号。
18.如权利要求1项所述的方法,进一步包含以下步骤:
以预计后一字词的方式来预测一或多个候选字词。
19.一种用于辨识语言输入的方法,该方法至少包含以下步骤:
藉由执行样式辨识处理一语言的一字词的用户输入以分别对数个字词成分产生数个辨识结果,该数个辨识结果的至少其中之一包含数个候选字词成分以及数个可能性指标,该数个可能性指标指出该数个字词成分与该用户输入的一部分相对于彼此为符合的可能性;以及
自该数个辨识结果以及可指出一字词列表的使用可能性的数据中判定一或多个可供用者输入的该字词的候选字词。
20.如权利要求19所述的方法,其中该一或多个候选字词包含多个候选字词;且该方法更包含以下步骤:
呈现该多个候选字词以供选择;
从该数个候选字词中接收用户选择;以及
依据预期用户的后一字词输入的该用户选择而预测一或多个候选字词。
21.如权利要求19所述的方法,其中该方法更包含以下步骤:
从一或多个候选字词中自动选择一最有可能的候选字词作为该字词的用户输入的一辨识字词;
依据预期用户的后一字词输入的可能性而预测一或多个候选字词。
22.一种用于识别语言输入的数据处理系统,其至少包含:
处理装置,其是通过样式辨识用以处理处理一语言的一字词的一用户输入以对数个字词成分产生数个辨识结果,其中该数个辨识结果的至少其中之一包含:
数个候选字词成分;以及
数个可能性指标,其中该数个可能性指标指出该数个字词成分与该用户输入的一部分相对于彼此为符合的可能性;以及
组合装置,其是用以将该数个候选字词成分组成一或多个可预测该用户输入的候选字词。
23.如权利要求22所述的数据处理系统,其中该一或多个候选字词包含数个候选字词;而该系统更包含:
呈现装置,其是用以呈现该数个候选字词以供选择;以及
接收装置,其是用以从该数个候选字词中接收一用户选择,
其中以符合该用户输入的可能性顺序呈现该数个候选字词。
24.如权利要求22所述的数据处理系统,其中该数个辨识结果的每个包含数个分别与数个候选字词成分相关的可能性指标,以指出符合该用户输入的一部分的相对可能性。
25.如权利要求22所述的数据处理系统,其中更包含用于下列的任一格的装置:
自动地重音一或多个字元;
自动地大写一或多个字元;
自动地增加一或多个标点符号;以及
自动地增加一或多个定义符号。
26.如权利要求22所述的数据处理系统,其中该数个候选字词的选择致使该样式辨识对一或多个字词成分调整后续的可能性指标。
27.一种用以在数据处理系统中处理用户语言输入的方法,其中至少包含以下步骤:
接收对应于数个字词成分的数个辨识结果,该数个辨识结果的至少其中之一包含:
数个候选字词成分;以及
数个可能性指标,其中该数个可能性指标指出该数个字词成分与该用户输入的一部分彼此为符合的可能性;以及
使用该数个辨识结果以及使用可指出一字词列表的使用可能性的数据,来判定一或多个预测该供用者输入的候选字词。
28.如权利要求27所述的方法,其中该候选字词成分至少包含以下任何一个:
源自手写辨识或键盘输入的笔画;
源自手写辨识或键盘输入的字元;
源自语音辨识的的音素;及
源自手写辨识或键盘输入的的音节或其他语音表现的音节。
29.如权利要求27项所述的方法,其中该语言为任何一种:
字母的;以及
语意的。
30.如权利要求27所述的方法,其中判定一或多个候选字词的步骤更包含以下步骤:
消去数个辨识结果的数个候选字词成分组合。
31.如权利要求30所述的方法,其中判定一或多个候选字词的步骤更包含以下步骤:
自该语言的一字词列表中选择数个候选字词,该数个候选字词含有该数个辨识结果中的候选字词成分的组合。
32.如权利要求31所述的方法,其中更包含以下步骤:
使用该数个辨识结果以及可指出一字词列表的使用可能性的数据两者,来对一或多个候选字词判定一或多个可能性指标以指出符合该字词的用户输入的可能性。
33.如权利要求32所述的方法,其中更包含以下步骤:
依据该一或多个可能性指标而排序该一或多个候选字词。
34.如权利要求33所述的方法,其中更包含以下步骤:
自动从该一或多个候选字词中选择一字词。
35.如权利要求34所述的方法,其中该自动选择的步骤使用数据于以下任何一个上:
片语;
字词对;
三连字串;以及
成语。
36.如权利要求34所述的方法,其中该自动选择的步骤包含以下任一个的使用:
语言形态;及
该语言的文法规则。
37.如权利要求34所述的方法,其中该自动选择的步骤包含该用户输入的上下文使用。
38.如权利要求34所述的方法,其中更包含以下步骤:
依据该用户输入的后一字词的预测来预测数个候选字词,其中该预测是在任何输入的前从该后一字词的该使用输入所产生。
39.如权利要求33所述的方法,其中更包含以下步骤:
呈现该一或多个候选字词以供用户选择;及
接收该一或多个候选字词的该用户选择。
40.如权利要求39所述的方法,其中该数个候选字词是依序呈现或减少对应至该用户输入的可能性。
41.如权利要求39所述的方法,其中更包含以下步骤:
使用至少该用户选择而预期用户的后一字词输入来预测数个候选字词。
42.如权利要求27所述的方法,其中一字词成分的数个辨识结果之一包含预测,其指出候选字词成分的集合中的任何一个具有符合该用户输入的一部分的相同可能性。
43.如权利要求27所述的方法,其中指出该字词列表的使用可能性的该数据包含至少下列两者:
该语言中使用字词的频率;
用户使用字词的频率;及
文件中使用字词的频率。
44.如权利要求27所述的方法,其中更包含以下任一步骤:
自动地重音一或多个字元;
自动地大写一或多个字元;
自动地增加一或多个标点符号;及
自动地增加一或多个定义符号。
45.一种用于处理一字词的至少一部份的用户语言输入的方法,该方法至少包含以下步骤:
分别接收关联于数个字词成分的数个辨识结果,其中该数个辨识结果的至少其中之一包含:
数个候选字词成分;以及
数个可能性指标,其中该数个可能性指标指出该数个字词成分与该用户输入的一关联部分的符合可能性;以及
使用该数个辨识结果以及从可指出一字词列表的使用可能性的数据中,来判定一或多个供该用户输入的候选字词。
46.如权利要求45所述的方法,其中该判定一或多个候选字词的步骤包含以下步骤:
消去数个辨识结果的数个候选字词成分组合;及
自该语言的一字词列表中选择数个候选字词,该数个候选字词含有该数个辨识结果中的候选字词成分的组合。
47.如权利要求46所述的方法;该方法更包含以下步骤:
自该数个辨识结果以及可指出一字词列表的使用可能性的数据中对一或多个候选字词判定一或多个可能性指标以指出符合该字词的用户输入的可能性;
依据该一或多个可能性指标排序该一或多个候选字词;
自动地从该一或多个候选字词选择其中一字词;以及
依据预期后一用户输入字词输入所自动选择的其中一字词而预测数个候选字词。
48.一种用于处理语言输入的数据处理系统,其至少包含:
接收装置,其是用以接收对应至数个字词成分的数个辨识结果,其中所述辨识结果对应至一用户输入字词的部分,其中该数个辨识结果的至少其中之一包含:
数个候选字词成分;以及
数个可能性指标,该数个可能性指标指出该多个字词成分与该用户输入字词的该对应部分为符合的可能性程度;及
判定装置,其是用以自该数个辨识结果以及可指出一字词列表的使用可能性的数据中判定一或多个候选字词。
49.如权利要求48所述的数据处理系统,其中用于判定一或多个候选字词的装置至少包含:
消去装置,其是用以消去数个辨识结果的数个候选字词成分组合;及
选择装置,其是用以自该字词的一语言的一字词列表中选择数个候选字词,该数个候选字词含有该数个辨识结果中的候选字词成分的组合。
50.如权利要求49所述的数据处理系统,其中更包含:
判定装置,其是用以自该数个辨识结果以及可指出一字词列表的使用可能性的数据中对一或多个候选字词判定一或多个可能性指标以指出符合该用户输入字词的可能性;
排序装置,其是用以依据该一或多个可能性指标排序该一或多个候选字词;
呈现装置,其是用以呈现该一或多个候选字词以供用户选择;及
接收装置,其是用以接收一用户输入以从该数个候选字词中选择其中一个;以及
预测装置,其是用以预期随后用户的后一字词输入而预测数个所预测的候选字词;其中该数个所预测的候选字词以一可能的顺序而被呈现。
51.如权利要求48所述的数据处理系统,其中更包含以下装置:
预测装置,其是预期用户的后一字词输入而预测数个候选字词。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US54417004P | 2004-02-11 | 2004-02-11 | |
US60/544,170 | 2004-02-11 | ||
US11/043,506 US7319957B2 (en) | 2004-02-11 | 2005-01-25 | Handwriting and voice input with automatic correction |
US11/043,506 | 2005-01-25 | ||
US11/043,525 | 2005-01-25 | ||
US11/043,525 US20050192802A1 (en) | 2004-02-11 | 2005-01-25 | Handwriting and voice input with automatic correction |
PCT/US2005/004359 WO2005077098A2 (en) | 2004-02-11 | 2005-02-08 | Handwriting and voice input with automatic correction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1918578A CN1918578A (zh) | 2007-02-21 |
CN1918578B true CN1918578B (zh) | 2012-05-02 |
Family
ID=34865026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800046235A Active CN1918578B (zh) | 2004-02-11 | 2005-02-08 | 具有自动校正的手写及语音输入 |
Country Status (9)
Country | Link |
---|---|
EP (1) | EP1714234A4 (zh) |
JP (1) | JP2007524949A (zh) |
KR (1) | KR100912753B1 (zh) |
CN (1) | CN1918578B (zh) |
AU (1) | AU2005211782B2 (zh) |
BR (1) | BRPI0507577A (zh) |
CA (1) | CA2556065C (zh) |
TW (1) | TW200538969A (zh) |
WO (1) | WO2005077098A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544301B2 (en) | 2020-07-24 | 2023-01-03 | Asustek Computer Inc. | Identification method with multi-type input and electronic device using the same |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076812A (ja) * | 2006-09-22 | 2008-04-03 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
KR100908444B1 (ko) * | 2006-12-05 | 2009-07-21 | 한국전자통신연구원 | 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 |
US8032374B2 (en) | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
US8237665B2 (en) * | 2008-03-11 | 2012-08-07 | Microsoft Corporation | Interpreting ambiguous inputs on a touch-screen |
JP5541166B2 (ja) | 2009-01-20 | 2014-07-09 | 日本電気株式会社 | 入力装置、情報処理装置、入力方法およびプログラム |
JP2011065322A (ja) * | 2009-09-16 | 2011-03-31 | Konica Minolta Holdings Inc | 文字認識システム及び文字認識プログラム、並びに音声認識システム及び音声認識プログラム |
US8543382B2 (en) * | 2010-10-27 | 2013-09-24 | King Abdulaziz City for Science and Technology (KACST) | Method and system for diacritizing arabic language text |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
DE102013009375A1 (de) * | 2012-12-28 | 2014-07-03 | Volkswagen Aktiengesellschaft | Verfahren zum Eingeben und Erkennen einer Zeichenkette |
GB201321927D0 (en) * | 2013-12-11 | 2014-01-22 | Touchtype Ltd | System and method for inputting text into electronic devices |
TWI587281B (zh) * | 2014-11-07 | 2017-06-11 | Papago Inc | Voice control system and its method |
TWI616868B (zh) * | 2014-12-30 | 2018-03-01 | 鴻海精密工業股份有限公司 | 會議記錄裝置及其自動生成會議記錄的方法 |
TWI619115B (zh) * | 2014-12-30 | 2018-03-21 | 鴻海精密工業股份有限公司 | 會議記錄裝置及其自動生成會議記錄的方法 |
CN105810197B (zh) * | 2014-12-30 | 2019-07-26 | 联想(北京)有限公司 | 语音处理方法、语音处理装置和电子设备 |
JP6310155B2 (ja) * | 2015-07-17 | 2018-04-11 | 楽天株式会社 | 文字認識装置、文字認識方法及び文字認識プログラム |
KR101636823B1 (ko) * | 2015-11-27 | 2016-07-07 | (주)인키움 | 자기소개서 자동 제공 서버 및 제공 방법 |
CN106406807A (zh) * | 2016-09-19 | 2017-02-15 | 北京云知声信息技术有限公司 | 一种语音修改文字的方法及装置 |
JP7143665B2 (ja) | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
DE102018213602B3 (de) * | 2018-08-13 | 2019-10-31 | Audi Ag | Verfahren zum Erzeugen einer Sprachansage als Rückmeldung zu einer handschriftlichen Nutzereingabe sowie entsprechende Bedienvorrichtung und Kraftfahrzeug |
CN109584882B (zh) * | 2018-11-30 | 2022-12-27 | 南京天溯自动化控制系统有限公司 | 一种针对特定场景的语音转文字的优化方法及系统 |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN116097347A (zh) * | 2022-09-16 | 2023-05-09 | 英华达(上海)科技有限公司 | 语音实时翻译方法、系统、设备以及存储介质 |
US11726657B1 (en) | 2023-03-01 | 2023-08-15 | Daniel Pohoryles | Keyboard input method, system, and techniques |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5896321A (en) * | 1997-11-14 | 1999-04-20 | Microsoft Corporation | Text completion system for a miniature computer |
US5917941A (en) * | 1995-08-08 | 1999-06-29 | Apple Computer, Inc. | Character segmentation technique with integrated word search for handwriting recognition |
US6363347B1 (en) * | 1996-10-31 | 2002-03-26 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4003025A (en) * | 1975-12-24 | 1977-01-11 | International Business Machines Corporation | Alphabetic character word upper/lower case print convention apparatus and method |
US5244802A (en) * | 1987-11-18 | 1993-09-14 | Phytogen | Regeneration of cotton |
US5828991A (en) * | 1995-06-30 | 1998-10-27 | The Research Foundation Of The State University Of New York | Sentence reconstruction using word ambiguity resolution |
US5926566A (en) * | 1996-11-15 | 1999-07-20 | Synaptics, Inc. | Incremental ideographic character input method |
US6393395B1 (en) * | 1999-01-07 | 2002-05-21 | Microsoft Corporation | Handwriting and speech recognizer using neural network with separate start and continuation output scores |
US20020152075A1 (en) * | 2001-04-16 | 2002-10-17 | Shao-Tsu Kung | Composite input method |
US7444286B2 (en) * | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7225130B2 (en) * | 2001-09-05 | 2007-05-29 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
-
2005
- 2005-02-03 TW TW094103440A patent/TW200538969A/zh unknown
- 2005-02-08 BR BRPI0507577-7A patent/BRPI0507577A/pt not_active IP Right Cessation
- 2005-02-08 AU AU2005211782A patent/AU2005211782B2/en not_active Expired - Fee Related
- 2005-02-08 JP JP2006553258A patent/JP2007524949A/ja active Pending
- 2005-02-08 EP EP05722955A patent/EP1714234A4/en not_active Withdrawn
- 2005-02-08 CN CN2005800046235A patent/CN1918578B/zh active Active
- 2005-02-08 WO PCT/US2005/004359 patent/WO2005077098A2/en active Application Filing
- 2005-02-08 CA CA2556065A patent/CA2556065C/en active Active
- 2005-02-08 KR KR1020067018544A patent/KR100912753B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5917941A (en) * | 1995-08-08 | 1999-06-29 | Apple Computer, Inc. | Character segmentation technique with integrated word search for handwriting recognition |
US6363347B1 (en) * | 1996-10-31 | 2002-03-26 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US5896321A (en) * | 1997-11-14 | 1999-04-20 | Microsoft Corporation | Text completion system for a miniature computer |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544301B2 (en) | 2020-07-24 | 2023-01-03 | Asustek Computer Inc. | Identification method with multi-type input and electronic device using the same |
Also Published As
Publication number | Publication date |
---|---|
JP2007524949A (ja) | 2007-08-30 |
CA2556065C (en) | 2012-07-03 |
CN1918578A (zh) | 2007-02-21 |
WO2005077098A3 (en) | 2005-11-03 |
BRPI0507577A (pt) | 2007-07-03 |
WO2005077098B1 (en) | 2005-12-08 |
WO2005077098A8 (en) | 2007-05-10 |
KR100912753B1 (ko) | 2009-08-18 |
EP1714234A4 (en) | 2012-03-21 |
TW200538969A (en) | 2005-12-01 |
CA2556065A1 (en) | 2005-08-25 |
AU2005211782A1 (en) | 2005-08-25 |
KR20070090075A (ko) | 2007-09-05 |
AU2005211782B2 (en) | 2009-01-22 |
WO2005077098A2 (en) | 2005-08-25 |
EP1714234A2 (en) | 2006-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1918578B (zh) | 具有自动校正的手写及语音输入 | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
US7395203B2 (en) | System and method for disambiguating phonetic input | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
JP4829901B2 (ja) | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 | |
CN102272827B (zh) | 利用语音输入解决模糊的手工输入文本输入的方法和装置 | |
KR100656736B1 (ko) | 표음 입력 모호성 제거 시스템 및 방법 | |
US7319957B2 (en) | Handwriting and voice input with automatic correction | |
TWI266280B (en) | Multimodal disambiguation of speech recognition | |
CN1205572C (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
EP1686493A2 (en) | Dictionary learning method and device using the same, input method and user terminal device using the same | |
US20050192802A1 (en) | Handwriting and voice input with automatic correction | |
CN102455845B (zh) | 一种文字输入方法和装置 | |
CA2313968A1 (en) | A method for correcting the error characters in the result of speech recognition and the speech recognition system using the same | |
CA2487614A1 (en) | Method for entering text | |
CN102915122B (zh) | 基于语言模型的智能移动平台拼音输入法 | |
US20090192991A1 (en) | Network information searching method by speech recognition and system for the same | |
CN101667099B (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN1965349A (zh) | 多形式的非歧意性语音识别 | |
Liang et al. | Error correction using long context match for smartphone speech recognition | |
JPH08221408A (ja) | 文字認識方法、仮名漢字変換方法及び情報処理装置 | |
JP2000036008A (ja) | 文字認識装置及び記憶媒体 | |
CN113722447A (zh) | 一种基于多策略匹配的语音搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |