CN101276245B - 一种输入过程中编码纠错的提示方法和系统 - Google Patents

一种输入过程中编码纠错的提示方法和系统 Download PDF

Info

Publication number
CN101276245B
CN101276245B CN2008101042171A CN200810104217A CN101276245B CN 101276245 B CN101276245 B CN 101276245B CN 2008101042171 A CN2008101042171 A CN 2008101042171A CN 200810104217 A CN200810104217 A CN 200810104217A CN 101276245 B CN101276245 B CN 101276245B
Authority
CN
China
Prior art keywords
candidate item
user
string
coding
equivalent way
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101042171A
Other languages
English (en)
Other versions
CN101276245A (zh
Inventor
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008101042171A priority Critical patent/CN101276245B/zh
Publication of CN101276245A publication Critical patent/CN101276245A/zh
Application granted granted Critical
Publication of CN101276245B publication Critical patent/CN101276245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种输入过程中编码纠错的提示方法和装置,该方法可以包括以下步骤:接收用户输入的编码字符串;依据所接收的编码字符串,转换得到相应的候选项;判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;如果是,则提示编码纠错信息。本发明为了帮助用户输入正确的编码字符串,创新性的提出在混淆的情况下,自动向用户提供包括正确编码字符串的提示信息,以帮助用户在使用过程中主动提高编码字符串的输入准确度,降低用户对模糊音的依赖。

Description

一种输入过程中编码纠错的提示方法和系统
技术领域
本发明涉及计算机信息输入技术领域,特别是涉及一种在信息输入过程中编码纠错的提示方法和系统。
背景技术
对于中文、日文、韩文等用户而言,一般都需要通过输入法程序与计算机进行交互:用户通过键盘输入编码字符串,然后由输入法程序会依据其预置的标准映射规则将其变换为相应语言的候选项,进而由用户确认输入所需信息。
但是由于人们语言习惯、地域区别等各种问题,人们在输入编码字符串时,可能会输入错误的编码字符串(与输入法程序所应用的标准映射规则不同),进而难以得到该用户所需的候选项结果。
例如,对于中文拼音输入法而言,由于中国幅员辽阔,不同的地区存在各种方言。受方言影响,特别是南方一些地区的用户,普遍存在平卷舌音(z/zh、s/sh、c/ch)不分、前后鼻音(an/ang、en/eng、in/ing)不分、(l/n)不分等问题。少数地区还存在h/f不分、l/r不分、eng和ong不分等等。当涉及这些声母/韵母时,由于用户无法确认汉字的准确读音,给输入带来很大不便。例如当用户无法区分前后鼻音时,用户难以区分在拼音输入法的标准映射规则中,汉字“风”和“分”究竟读“fen”还是“feng”,只能通过反复尝试的手段来输入。
为了方便这些用户的输入,很多现有的输入法都提供了“模糊音”功能。即将某些用户可能混淆的音节视为等同(需要将哪些音节视为等同,可以由用户自行设置,见图1的界面图),从而允许用户使用自己更加习惯的方式进行输入。例如,对于不习惯后鼻音的用户,在等同的情况下,只要输入“fen”就能同时获得“分”和“风”,并参与词频调整(将较常用的字放在前面);从而大大方便了这类用户的输入,请见图2。
但是,从上述的应用过程可以看出,为了实现对模糊音的支持(即对可能混淆的音节的等同),使得本来具有不同拼音的候选项合在了一起供用户选择(如,“分”和“风”),即使得重码候选项的问题更加严重,让用户选词选字更加困难。而由于同音字/词存在,重码一直是拼音输入法所面临和需要解决的问题,但是由于输入法对模糊音的支持显然使得重码的问题更加严重。
上面的例子仅仅是针对拼音输入法而言的,其实对于其他输入法而言,该问题同样存在,只要是支持易混淆编码等同功能的输入法,都会存在强化重码问题的技术缺陷。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够在输入法支持易混淆编码等同功能的情况下,降低重码问题,降低用户对模糊音的依赖。
发明内容
本发明所要解决的技术问题是提供一种输入过程中编码纠错的提示方法和系统,能够向用户提示各种编码纠错信息,以帮助用户在使用过程中主动提高编码字符串的输入准确度,从而降低由于输入法支持易混淆编码等同功能而带来的增加重码的影响。
为了解决上述问题,本发明公开了一种输入过程中编码纠错的提示方法,包括:接收用户输入的编码字符串;依据所接收的编码字符串,转换得到相应的候选项;判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;如果是,则提示编码纠错信息。
优选的,可以通过以下方式提示编码纠错信息:在展现该候选项的同时,展现其相应的正确编码字符串。
优选的,当存在多个通过易混淆编码等同方式得到的候选项时,还包括:依据预置规则对上述多个候选项进行筛选,仅对其中符合条件的部分候选项及其相应的正确编码字符串进行展现提示。
优选的,在提示编码纠错信息之前还包括:进一步判断该通过易混淆编码等同方式而得到的特定候选项的出现次数或者出现频率是否大于等于预定阈值,如果是,则提示编码纠错信息。
优选的,所述出现次数或者出现频率是针对输入法当前用户的;或者,所述出现次数或者出现频率是针对整个输入法用户群的。
优选的,所述的方法还可以包括:收集编码纠错信息,生成纠错记录表,所述纠错记录表包括用户输入串、标准字符串和相应候选项。
优选的,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则确定该候选项为通过易混淆编码等同方式得到的。
优选的,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则进一步判断其是否满足正常转换规则,如果不满足,则确定该候选项为通过易混淆编码等同方式得到的。
优选的,当应用拼音输入法时,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:在从用户输入的编码字符串得到候选项的过程中,记录音节生成规则的属性,如果应用了特定易混淆编码等同方式,则确定该候选项为通过易混淆编码等同方式得到的。
优选的,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串作为一个映射关系,在输入法的映射规则表中检索其是否满足特定易混淆编码等同方式,如果是,则确定该候选项为通过易混淆编码等同方式得到的。
依据本发明的另一优选实施例,还公开了一种输入过程中编码纠错的提示装置,包括:
接口单元,用于接收用户输入的编码字符串;
编码转换单元,用于依据所接收的编码字符串,转换得到相应的候选项;
混淆判断单元,用于判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;如果是,则通知信息展示单元;
信息展示单元,用于提示编码纠错信息。
优选的,可以通过以下方式提示编码纠错信息:在展现该候选项的同时,展现其相应的正确编码字符串。
优选的,当存在多个通过易混淆编码等同方式得到的候选项时,在混淆判断单元和信息展示单元之间还可以包括:第一筛选模块,用于依据预置规则对上述多个候选项进行筛选,仅对其中符合条件的部分候选项及其相应的正确编码字符串通知信息展示单元进行展现提示。
优选的,在混淆判断单元和信息展示单元之间还可以包括:第二筛选模块,用于判断该通过易混淆编码等同方式而得到的特定候选项的出现次数或者出现频率是否大于等于预定阈值,如果是,则通知信息展示单元进行展现提示。
优选的,所述的装置还可以包括:纠错记录表生成单元,用于收集编码纠错信息,生成纠错记录表,所述纠错记录表包括用户输出编码字符串、标准字符串和相应的候选项。
优选的,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则确定该候选项为通过易混淆编码等同方式得到的。
优选的,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则进一步判断其是否满足正常转换规则,如果不满足,则确定该候选项为通过易混淆编码等同方式得到的。
优选的,当应用拼音输入法时,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:在从用户输入的编码字符串得到候选项的过程中,记录音节生成规则的属性,如果应用了特定易混淆编码等同方式,则确定该候选项为通过易混淆编码等同方式得到的。
优选的,可以通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串作为一个映射关系,在输入法的映射规则表中检索其是否满足特定易混淆编码等同方式,如果是,则确定该候选项为通过易混淆编码等同方式得到的。
与现有技术相比,本发明具有以下优点:
本发明可以从根源上降低重码,即当特定用户能够更加准确的输入编码字符串时,输入法的易混淆编码等同功能就可以比较少的用到,进而可以降低用户对模糊音的依赖,降低重码影响。但是如何才能帮助用户输入正确的编码字符串?
由于输入法的易混淆编码等同功能实际上是在迁就用户的情况下混淆了具有不同编码字符串的候选项(如,混淆了不同读音的汉字),使得用户在使用过程中无需对混淆编码字符串进行区分,从而可能永远也不知道其准确的编码字符串(如,模糊音的正确读音)。因此,用户不会在输入过程中主动改进编码字符串的准确度,进而导致重码问题一直存在,甚至被助长。
于是本发明为了帮助用户输入正确的编码字符串,创新性的提出在混淆的情况下,自动向用户提供正确编码字符串的提示信息,以帮助用户在使用过程中主动提高编码字符串的准确度,降低用户对模糊音的依赖。
附图说明
图1是现有的模糊音功能设置界面示意图;
图2是现有应用模糊音功能的候选项选择界面示意图;
图3是本发明一种输入过程中编码纠错的提示方法的具体实施例1的步骤流程图;
图4是本发明对应用模糊音功能的候选项进行纠错提示的界面示意图;
图5是本发明一种输入过程中编码纠错的提示方法的具体实施例2的步骤流程图;
图6是本发明一种输入过程中编码纠错的提示方法的具体实施例3的步骤流程图;
图7是拼音输入的过程示意图;
图8是一种音节切分的网络示意图;
图9是另一种更复杂音节切分的网络示意图;
图10本发明一种输入过程中编码纠错的提示装置实施例1的结构框图;
图11是本发明一种输入过程中编码纠错的提示装置实施例2的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统以及包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图3,示出了本发明一种输入过程中编码纠错的提示方法的具体实施例1,可以包括:
步骤301、接收用户输入的编码字符串;
步骤302、依据所接收的编码字符串,转换得到相应的候选项;
步骤303、判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;
步骤304、如果是,则提示编码纠错信息。
本实施例中的步骤301和302,对于现有的各种输入法,都是比较公知的,因此在此不再赘述。步骤302中具体的转换规则有很多,例如,对于汉字输入就可以包括五笔、简拼、全拼、双拼等等;本发明并不需要对此加以限定。对于各种转换规则,都可能存在其相应的易混淆编码等同应用的情况。在下面的说明书中主要针对拼音输入法中的模糊音混淆情况进行举例说明,其他混淆情况参照即可。
对于步骤303的具体判断方式,可能存在很多种,本发明在后面会详细叙述。下面先对步骤304的具体实现方式进行详细介绍。
步骤304中提示编码纠错信息的实现方式也可以有多种,如下:
例1
通过以下方式提示编码纠错信息:在展现该候选项的同时,展现其相应的正确编码字符串。假设用户输入编码字符串“fen”,通过模糊音等同方式得到了候选项“风”,则依据本发明需要向用户提示“风”的正确编码字符串“feng”。所述的展现可以包括视觉展示,还可以包括听觉展示等方式。
当然,具体的展现方式就更多了。例如,简单的,参照图4,可以在候选项中增加显示汉字的准确拼音,以提示用户正确的汉字读音。再例如,通过弹出式消息或者气泡等方式提示用户。又例如,还可以增加其他的显示区域,以提示用户正确的汉字读音;如在候选项窗口下方增加一行提示信息:输入汉字“风”、“封”应用使用拼音“feng”。
为了避免干扰用户的输入,则可以先给出错误提示,然后由用户选择是否需要查看正确编码字符串。例如,简单的,可以通过针对该候选项“风”设置不同的颜色或者字体等,提示用户该候选项的读音需要纠正,如果用户需要查看,则点击该候选项“风”附近的按钮或者链接等触发组件,然后由输入法向用户展示“风”的正确编码字符串“feng”。
例2
当存在多个通过易混淆编码等同方式得到的候选项时,还可以依据预置规则对上述多个候选项进行筛选,仅对其中符合条件的部分候选项及其相应的正确编码字符串进行展现提示。
例如,参照图4,在显示的前5个候选项中,有两个候选项“风”、“封”是通过模糊音等同技术得到的,因此,应该对二者的纠错信息都进行提示;但是为了减小对用户输入过程的干扰,优选的,可以仅仅对上述两个候选项中排序在前的“风”进行提示(或者,第一个错误读音候选项),而不对后面的“封”进行提示。
再例如,当用户的选择焦点到达候选项“风”时,才对其加以纠错信息的提示,否则,不予提示,以提高纠错提示的针对性。
参照图5,示出了本发明一种输入过程中编码纠错的提示方法的具体实施例2,可以包括:
步骤501、接收用户输入的编码字符串;
步骤502、依据所接收的编码字符串,转换得到相应的候选项;
步骤503、判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;
步骤504、如果是,则进一步判断该通过易混淆编码等同方式而得到的特定候选项的出现次数或者出现频率是否大于等于预定阈值;
步骤505、如果是,则提示编码纠错信息。
本实施例与图4所示实施例的主要区别在于,本例需要统计特定模糊音的出现次数或者出现频率,例如,对于模糊音而言,本例需要统计用户输入各个模糊音的出现次数或者出现频率,仅仅对超过一定次数或者频率的模糊音候选项进行提示,对于用户偶尔出现混淆输入,则可以不予提示,避免过多的干扰用户输入。
本例中所述的出现次数或者出现频率可以是针对输入法当前用户的,即用于适应当前用户的个性习惯的,因为实际中各个用户需要纠正的模糊音可能并不相同;本例中所述的出现次数或者出现频率也可以针对整个输入法用户群的,即统计各个用户的共性习惯。
参照图6,示出了本发明一种输入过程中编码纠错的提示方法的具体实施例3,可以包括:
步骤601、接收用户输入的编码字符串;
步骤602、依据所接收的编码字符串,转换得到相应的候选项;
步骤603、判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;
步骤604、如果是,则提示编码纠错信息;
步骤605、收集编码纠错信息,生成纠错记录表,所述纠错记录表可以包括用户输入串、标准字符串和相应的候选项。
本实施例可以收集用户曾经出现的错误信息(如针对一段时间),汇总成表,以供用户查看、学习或者作为统计数据以作他用。
下面对本发明中的一个核心或难点:如何识别易混淆编码等同方式的应用(例如,如何识别模糊音的使用)进行详细说明。具体实现方式可能较多,由于篇幅限制,在此仅仅示出几个典型例子。
识别方案1
通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则确定该候选项为通过易混淆编码等同方式得到的。
以拼音输入为例,该方案的基本思想是,将用户输入的拼音与汉字的正确读音进行对比,识别其是否是模糊音。例如用户输入了“fen”,并检索得到候选“风feng”,可以通过对输入拼音串“fen”和正确的拼音串“feng”进行比较,判断用户使用了模糊音。该方案的基础是,输入法记录了单个汉字所对应的用户输入串和其读音。
优选的,当用户一次性输入多个汉字(词或句子)时,输入法需要能够对拼音串进行正确的切分以找到对应该汉字的输入串,而现有输入法技术基本都能够满足词或句子的输入。并且,在输入法词库中会存储有各个汉字及其对应的正确读音,因此,输入法在生成候选项时可以记录候选项所对应汉字的准确读音。
例如,用户输入“fenge”给出选项“风格”,输入法通过音节切分(如被切分成音节“fen’ge”)可以知悉对应汉字“风”的用户输入串是“fen”,通过词库可以知悉汉字“风”的准确读音是“feng”。再通过对这两个字符串进行比较,即可判断用户是否使用了模糊音。对输入串和标准拼音串进行比较时,最简单的手段是看二者是否相同。如果要求不高,只要二者不同,则就可以视为模糊音,进行正确读音的提示。
大多数情况下,输入法会出于词频调整、学词(如用户词库)等目的主动记录用户输入拼音串的分隔信息以及候选项中汉字的正确读音。因此除了增加显示模块,只要增加一个比较过程(比较二者是否相同)即可。因此,这是一个非常简单和容易实现的方案。
但是,在实际应用中发现,用户输入的拼音串和标准拼音串不同,并不一定就属于模糊音,例如,可能还包括简拼、双拼等情况。为了能够仅仅对模糊音进行提示,本发明给出了另一识别方案:
识别方案2
通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则进一步判断其是否满足正常转换规则,如果不满足,则确定该候选项为通过易混淆编码等同方式得到的。即,本识别方案中需要采用已知的正常转换规则对输入串和标准编码串进行筛选,以提高纠错提示的精确度。
假设正常转换规则包括简拼,即通过使用不完全的拼音完成候选项转换。
在简拼转换规则中,由于音节没有输入完全,因此输入串和标准拼音之间也是不相同的。例如,用户可能直接输入“fg”得到候选项“风格”或者“分隔”。对于“格”或者“隔”,用户实际用“g”输入了拼音“ge”,但这并不是模糊音,不应提示,因为对于简拼而言,“fg”对应“fengge”属于正常转换模式。另外,某些以卷舌音(zh、ch、sh)为声母的音节,某些用户习惯输入完整的声母;例如zhong的简拼为zh。即在正常的简拼转换规则中,用户可以通过“zh”输入“中zhong”,但是如果用户仅使用单个字母“z”输入“中zhong”,则应当视为模糊音加以提示。
假设正常转换规则包括双拼。
在双拼转换规则中,拼音通常用两个字母表示。例如用ff表示fen,fg表示feng。如果用户用ff输入了“风”,而“风”的标准音应该为“fg”,则应当认为用户使用了模糊音。
即对于不同的转换规则,判断标准会有所不同,因此,在双拼模式下应当使用双拼的标准表示方法来对用户输入进行比较。即优选的,可以通过输入法状态获悉具体的转换规则,或者,在候选项显示前根据音节反查获悉具体的转换规则。当然,在向用户展示纠错信息时,可以展示该候选项的准确全拼,也可以展示该候选项在双拼方式下的准确拼写。
上述识别方案2可以在一定程度上保证模糊音提示的准确性,避免对一些非模糊音的应用进行提示,干扰用户输入过程。但是其仍然可能存在一些偏差,例如:
击键容错。为了便于用户输入,某些输入法具有击键容错功能。例如搜狗拼音允许用户使用“tign”输入“听ting”。这也会导致输入串与拼音串不相同,但不应视为模糊音。(当然,在本发明的识别方案1和2中,也可以对该情况进行提示,但是如果专项针对模糊音提示,则可以使用不同的提示方式)。
ong问题。大多数情况下,当用户输入串和标准读音仅在末尾相差一个字母g,通常是平卷舌音模糊导致的(an/ang、en/eng、in/ing)。但有例外。大部分输入法为了便于用户输入,仅输入“ton”就能够得到“同tong”。由于“ton”并不是一个合法音节,因此这不应被看作模糊音。某些输入法甚至允许用户仅输入“to”得到“同tong”,同样不应视为模糊音。
通过以上对识别方案1和2的介绍,可以得知,具体的识别方案取决于拼音规则,以及对提示所要求的精度。精度不高,则只要比较输入串与标准拼音是否相同即可。简拼通常可以通过识别音节长度得到部分的解决(模糊音涉及的音节长度通常不小于2,而一般简拼仅包含一个字符)。如果要求更高,则需要对输入串和标准拼音之间的差异进行更加细致的比较。
下面本发明介绍两个更为优选的识别方案。
识别方案3(基于解释规则)
当应用拼音输入法时,通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:在从用户输入的编码字符串得到候选项的过程中,记录音节生成规则的属性,如果应用了特定易混淆编码等同方式,则确定该候选项为通过易混淆编码等同方式得到的。
参照图7,示出了一般情况下拼音输入的过程图,包括用户输入、音节切分、音节解释、生成候选以及显示5个步骤。
即在输入法获得用户输入进行音节切分再生成候选(例如,查找系统词库、用户词库等)的过程中,存在一个音节转换的过程。例如用户输入“fenge”首先被切分成“fen’ge”。对于支持模糊音的输入法,系统能够知道用户输入fen可以被解释为音节fen,也可以被解释为音节feng。前一个解释规则所使用的是标准拼音,而后一个规则即用到了模糊音。因此,只要记录了音节生成规则的属性(如采用标志位的方式),就可以了解某个候选项是否使用了模糊音,从而可以进行准确的模糊音纠错提示。具体的如,zongguo-->[zhong,模糊][guo,标准]-->中[zhong,模糊]国[guo,标准]
通过查看标志位即可获知是否应用了模糊音等同。当然,在记录模糊音属性的同时,还可以记录更多信息,例如用户的原始输入串等,以便后续使用;或者使用参数区分用户使用的是哪种模糊,供后续统计等等。
下面对音节切分作简单说明。
音节切分的一种优选方案是实现为一个网络。例如用户输入“dandan”可以被切分为dan’dan。如果考虑“an/ang”的模糊,它对应了各种不同的解释,包括“dan’dan”“dan’dang”“dang’dan”“dang’dang”(单单、担当dang、当dang当dang)等各种情况。为了简化,我们可以采取图8所示的网络表示方法。在图8中,由起点出发到达终点所对应的任一条路径正好对应了一种音节解释(共四种)。因此,这个网络应当视为一种压缩的音节切分表示;构成路径的边正好对应了音节,其上可以附加音节的解释规则。
更复杂的情况参见图9,用户输入“fangan”,具有两种不同的切分方式“fan’gan”和“fang’an”(反感、返岗gang、方fang刚gang、方案)。
基于解释规则的识别方案3可以具有更大的灵活性。比如,当涉及简拼时,可以根据规则确定是否附加模糊音属性。比如用单一字母“z”输入“zhong”,当使用声母简拼时该音节解释为模糊音;而当使用首字母简拼时,该音节解释不是模糊音。后续判断仅根据音节解释的属性判断是否需要进行提示即可。又如ong,当用“zhon”输入“zhong”时,其并非由模糊音规则生成,因此不会被解释为模糊音,从而不加提示。
另一方面,当多个提示规则同时存在时,该识别方案可以提供更多信息。例如,如果用户使用“zhegn”输入“真zhen”,需要同时使用模糊音(eng-->en)和输入容错规则(gn-->ng)。当这两个属性均被加入提示规则,则可以同时提示用户读音不准确、击键不正确。
识别方案4
通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:将用户所输入的编码字符串与该候选项的标准编码串作为一个映射关系,在输入法的映射规则表中检索其是否满足特定易混淆编码等同方式,如果是,则确定该候选项为通过易混淆编码等同方式得到的。
输入法的映射规则表一般可以称为Keymap表;可以用来记录用户的击键习惯,是根据全/双拼、模糊音、纠错等规则生成的。
比如音节[feng],全拼下会有映射feng->feng;如果涉及模糊音en->eng,就会有映射fen->[feng];如果涉及纠错gn->ng,就会有映射fegn->[feng];在双拼底下eng用字母g表示,因此有映射fg->[feng]。
又比如音节xue,很多人写成xve,因此可以有两条映射规则:xue->[xue];xve->[xue]。
又比如,如果为了加快输入速度,输入法允许将hong简写成hon,则因此有映射hon->[hong]。
又比如,很多用户已经习惯于用sohu、sogou来输入“搜狐”“搜狗”,但so其实不是合法的拼音音节,则可以手工增加了一个映射关系so->[sou]。这样,sohu可以被解释成为[sou][hu],从而得到“搜狐”。
所有这些映射规则放在一起,就构成了Keymap表。使用中,需要频繁根据字符串在Keymap表中查找可能对应的音节id。Keymap表是将“用户输入的字符串”转换成“可能的拼音串”的基础,这个转换过程就是音节切分。
由于Keymap表中集中了各种映射规则,其中一定包括有纠错提示所需的映射规则(如模糊音),则识别方案4就是到Keymap表中检索,用户输入串和标准拼音串之间的映射到底是属于什么映射规则,如果是纠错提示所需的,则对相应的候选项进行纠错提示即可。
具体的,如,对于候选项中的“风”,到Keymap表中检索,fen->[feng]究竟是什么映射关系;对于候选项中的“中”,到Keymap表中检索,zong->[zhong]究竟是什么映射关系;如果发现其属于模糊音映射规则,则进行纠错提示即可。如果发现其不属于纠错提示所需的模糊音映射规则,则不予纠错提示即可。
由于技术方案本身的优势,识别方案3和4比识别方案1和2在特定混淆规则上的识别准确度更高一些。
需要说明的是,本发明在前面的描述中,对于模糊音主要描述了独立的声母模糊(z/zh、s/sh、c/ch)或者韵母模糊(an/ang、en/eng、in/ing),或者声母模糊和韵母模糊的组合等。
但是实际上,还有更复杂的情况,如:
全音节模糊。例如某些地区将“hui”发音为“fei”,或者,将“fei”发音为“hui”,但能够区别部分h/f开头的其他音节。因此将声母h/f等同并不是很好的做法。这时可能需要将整个音节进行等同,该等同映射规则仍然属于模糊音的一种。
汉字模糊。例如某些地区的汉字具有特殊发音,例如“风feng”的发音为“fong”,“么me”的发音为“mo”。则对于“fong->“feng”,“mo”->“me”,该等同映射规则仍然属于模糊音的一种。
因此,本文所谓的模糊音泛指由于不准确发音而导致的错误输入,输入法通过模糊音功能对用户的错误输入进行容错,便于用户顺利输入汉字。通过本发明的纠错提示功能,可以帮助用户能够逐渐熟悉汉字的正确读音,从而提高输入的准确率,普通话更标准。
参照图10,示出了本发明一种输入过程中编码纠错的提示装置实施例1,具体可以包括:
接口单元1001,用于接收用户输入的编码字符串;
编码转换单元1002,用于依据所接收的编码字符串,转换得到相应的候选项;
混淆判断单元1003,用于判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;如果是,则通知信息展示单元;
信息展示单元1004,用于提示编码纠错信息。简单的,例如,在展现该候选项的同时,展现其相应的正确编码字符串。
基于前面对四种识别方案的详细介绍,可以得知,混淆判断单元1003可以通过以下四种方式中的任一个或者任意组合判断得知一候选项是否通过易混淆编码等同方式而得到:
将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则确定该候选项为通过易混淆编码等同方式得到的。
或者,将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则进一步判断其是否满足正常转换规则,如果不满足,则确定该候选项为通过易混淆编码等同方式得到的。
或者,在从用户输入的编码字符串得到候选项的过程中,记录音节生成规则的属性,如果应用了特定易混淆编码等同方式,则确定该候选项为通过易混淆编码等同方式得到的。
或者,将用户所输入的编码字符串与该候选项的标准编码串作为一个映射关系,在输入法的映射规则表中检索其是否满足特定易混淆编码等同方式,如果是,则确定该候选项为通过易混淆编码等同方式得到的。
参照图11,示出了一种输入过程中编码纠错的提示装置实施例2,具体可以包括:
接口单元1101,用于接收用户输入的编码字符串;
编码转换单元1102,用于依据所接收的编码字符串,转换得到相应的候选项;
混淆判断单元1103,用于判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;如果是,则通知第二筛选模块;
第二筛选模块1104,用于判断该通过易混淆编码等同方式而得到的特定候选项的出现次数或者出现频率是否大于等于预定阈值,如果是,则通知信息展示单元;
信息展示单元1105,用于提示编码纠错信息。简单的,例如,在展现该候选项的同时,展现其相应的正确编码字符串。
优选的,当存在多个通过易混淆编码等同方式得到的候选项时,还可以包括:第一筛选模块1106,用于依据预置规则对上述多个候选项进行筛选,仅对其中符合条件的部分候选项及其相应的正确编码字符串通知信息展示单元进行展现提示。
为了便于用户查看和学习,图11所示的装置实施例还可以包括:纠错记录表生成单元1107,用于收集编码纠错信息,生成纠错记录表,所述纠错记录表包括用户输出编码字符串、标准字符串和相应的候选项。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种输入过程中编码纠错的提示方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种输入过程中编码纠错的提示方法,其特征在于,包括:
接收用户输入的编码字符串;
依据所接收的编码字符串,转换得到相应的候选项;
判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;
如果是,则向用户提示该候选项的正确编码字符串;
其中,通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:
将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则确定该候选项为通过易混淆编码等同方式得到的;或者
将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则进一步判断其是否满足正常转换规则,如果不满足,则确定该候选项为通过易混淆编码等同方式得到的;或者
在从用户输入的编码字符串得到候选项的过程中,记录音节生成规则的属性,如果应用了特定易混淆编码等同方式,则确定该候选项为通过易混淆编码等同方式得到的;或者
将用户所输入的编码字符串与该候选项的标准编码串作为一个映射关系,在输入法的映射规则表中检索其是否满足特定易混淆编码等同方式,如果是,则确定该候选项为通过易混淆编码等同方式得到的。
2.如权利要求1所述的方法,其特征在于,通过以下方式向用户提示该候选项的正确编码字符串:
在展现该候选项的同时,展现其相应的正确编码字符串。
3.如权利要求2所述的方法,其特征在于,当存在多个通过易混淆编码等同方式得到的候选项时,还包括:
依据预置规则对上述多个候选项进行筛选,仅对其中符合条件的部分候选项及其相应的正确编码字符串进行展现提示。
4.如权利要求1或3所述的方法,其特征在于,在向用户提示该候选项的正确编码字符串之前还包括:
进一步判断该通过易混淆编码等同方式而得到的特定候选项的出现次数或者出现频率是否大于等于预定阈值,如果是,则向用户提示该候选项的正确编码字符串。
5.如权利要求4所述的方法,其特征在于,
所述出现次数或者出现频率是针对输入法当前用户的;
或者,所述出现次数或者出现频率是针对整个输入法用户群的。
6.如权利要求1所述的方法,其特征在于,还包括:
收集编码纠错信息,生成纠错记录表,所述纠错记录表包括用户输入串、标准字符串和相应候选项。
7.一种输入过程中编码纠错的提示系统,其特征在于,包括:
接口单元,用于接收用户输入的编码字符串;
编码转换单元,用于依据所接收的编码字符串,转换得到相应的候选项;
混淆判断单元,用于判断所述候选项中是否存在通过易混淆编码等同方式而得到的候选项;如果是,则通知信息展示单元;
信息展示单元,用于向用户提示该候选项的正确编码字符串;
其中,所述混淆判断单元通过以下方式判断得知一候选项是否通过易混淆编码等同方式而得到:
将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则确定该候选项为通过易混淆编码等同方式得到的;或者
将用户所输入的编码字符串与该候选项的标准编码串进行比较,如果不同,则进一步判断其是否满足正常转换规则,如果不满足,则确定该候选项为通过易混淆编码等同方式得到的;或者
在从用户输入的编码字符串得到候选项的过程中,记录音节生成规则的属性,如果应用了特定易混淆编码等同方式,则确定该候选项为通过易混淆编码等同方式得到的;或者
将用户所输入的编码字符串与该候选项的标准编码串作为一个映射关系,在输入法的映射规则表中检索其是否满足特定易混淆编码等同方式,如果是,则确定该候选项为通过易混淆编码等同方式得到的。
8.如权利要求7所述的系统,其特征在于,通过以下方式向用户提示该候选项的正确编码字符串:
在展现该候选项的同时,展现其相应的正确编码字符串。
9.如权利要求8所述的系统,其特征在于,当存在多个通过易混淆编码等同方式得到的候选项时,在混淆判断单元和信息展示单元之间还包括:
第一筛选模块,用于依据预置规则对上述多个候选项进行筛选,仅对其中符合条件的部分候选项及其相应的正确编码字符串通知信息展示单元进行展现提示。
10.如权利要求6或8所述的系统,其特征在于,在混淆判断单元和信息展示单元之间还包括:
第二筛选模块,用于判断该通过易混淆编码等同方式而得到的特定候选项的出现次数或者出现频率是否大于等于预定阈值,如果是,则通知信息展示单元向用户提示该候选项的正确编码字符串。
11.如权利要求6所述的系统,其特征在于,还包括:
纠错记录表生成单元,用于收集编码纠错信息,生成纠错记录表,所述纠错记录表包括用户输出编码字符串、标准字符串和相应的候选项。
CN2008101042171A 2008-04-16 2008-04-16 一种输入过程中编码纠错的提示方法和系统 Active CN101276245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101042171A CN101276245B (zh) 2008-04-16 2008-04-16 一种输入过程中编码纠错的提示方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101042171A CN101276245B (zh) 2008-04-16 2008-04-16 一种输入过程中编码纠错的提示方法和系统

Publications (2)

Publication Number Publication Date
CN101276245A CN101276245A (zh) 2008-10-01
CN101276245B true CN101276245B (zh) 2010-07-07

Family

ID=39995733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101042171A Active CN101276245B (zh) 2008-04-16 2008-04-16 一种输入过程中编码纠错的提示方法和系统

Country Status (1)

Country Link
CN (1) CN101276245B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023782A (zh) * 2009-09-15 2011-04-20 北京搜狗科技发展有限公司 一种输入转换过程中确定修改点的方法及装置
CN102402298A (zh) * 2010-09-16 2012-04-04 腾讯科技(深圳)有限公司 一种拼音输入法及拼音输入法的用户词添加方法和系统
CN102478968B (zh) * 2010-11-23 2016-02-17 深圳市世纪光速信息技术有限公司 中文拼音输入方法和中文拼音输入系统
CN102479174B (zh) * 2010-11-23 2016-03-16 盛乐信息技术(上海)有限公司 针对gbk编码的汉字自动校验和纠错系统及其方法
CN102541281A (zh) * 2010-12-22 2012-07-04 张家港市赫图阿拉信息技术有限公司 一种输入疑难字的方法
CN102135814B (zh) * 2011-03-30 2017-08-08 北京搜狗科技发展有限公司 一种字词输入方法及系统
CN103064825B (zh) * 2011-10-18 2016-03-02 阿里巴巴集团控股有限公司 模糊音对建立、设置方法和输入法及其装置和系统
CN102495679A (zh) * 2011-12-01 2012-06-13 上海量明科技发展有限公司 复拼写型输入法、词库及其系统
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
CN103345308B (zh) * 2013-06-08 2016-02-24 百度在线网络技术(北京)有限公司 用于输入修改的方法与装置
CN105580004A (zh) * 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
CN103699233B (zh) * 2013-12-20 2019-04-09 百度在线网络技术(北京)有限公司 字符串输入方法和输入装置
CN103903615B (zh) * 2014-03-10 2018-11-09 联想(北京)有限公司 一种信息处理方法及电子设备
CN105589570B (zh) * 2014-10-23 2019-04-09 北京搜狗科技发展有限公司 一种处理输入错误的方法和装置
CN105892702A (zh) * 2014-10-27 2016-08-24 陆海涛 一种简化拼音汉字输入系统及其字母键盘
CN106484131B (zh) * 2015-09-02 2021-06-22 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN105549760B (zh) * 2016-01-27 2018-07-20 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN109426354B (zh) * 2017-08-25 2022-07-12 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN109656384B (zh) * 2018-12-24 2023-07-18 抖音视界有限公司 字符串输入方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor

Also Published As

Publication number Publication date
CN101276245A (zh) 2008-10-01

Similar Documents

Publication Publication Date Title
CN101276245B (zh) 一种输入过程中编码纠错的提示方法和系统
US7761295B2 (en) Computer-aided transcription system using pronounceable substitute text with a common cross-reference library
CN101669116B (zh) 用于生成亚洲语字符的识别体系结构
US8473295B2 (en) Redictation of misrecognized words using a list of alternatives
US10157040B2 (en) Multi-modal input on an electronic device
CN1667699B (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN109313896B (zh) 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质
US7831911B2 (en) Spell checking system including a phonetic speller
CN102682763B (zh) 修正语音输入文本中命名实体词汇的方法、装置及终端
TWI421708B (zh) 增進打字或按鍵輸入效率的候選字產生方法
CN106598939A (zh) 一种文本纠错方法及装置、服务器、存储介质
CN102272827B (zh) 利用语音输入解决模糊的手工输入文本输入的方法和装置
CN105283914A (zh) 用于识别语音的系统和方法
CN100472411C (zh) 输入法中取消字符串的方法及文字输入系统
JP2007122719A (ja) 複数の言語を連動する自動完成推薦語提供システムおよび方法
KR20070024771A (ko) 질의어 자동변환을 이용한 자동완성 질의어 제공 시스템 및방법
US20070288240A1 (en) User interface for text-to-phone conversion and method for correcting the same
JP2001092484A (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
KR20060118253A (ko) 자동완성 질의어 제공 시스템, 방법 및 상기 방법을실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한기록 매체
CN100561469C (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
KR20060104544A (ko) 자동완성 질의어 제공 시스템, 방법 및 상기 방법을실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한기록 매체
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品
CN1357821A (zh) 拼音语音输入的方法
JP4749438B2 (ja) 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP2002189490A (ja) ピンイン音声入力の方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant