CN101334769B - 调整候选词顺序的方法和装置 - Google Patents

调整候选词顺序的方法和装置 Download PDF

Info

Publication number
CN101334769B
CN101334769B CN 200810129141 CN200810129141A CN101334769B CN 101334769 B CN101334769 B CN 101334769B CN 200810129141 CN200810129141 CN 200810129141 CN 200810129141 A CN200810129141 A CN 200810129141A CN 101334769 B CN101334769 B CN 101334769B
Authority
CN
China
Prior art keywords
candidate word
mapping relations
instruction
chinese character
tabulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200810129141
Other languages
English (en)
Other versions
CN101334769A (zh
Inventor
郑全战
张会鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 200810129141 priority Critical patent/CN101334769B/zh
Publication of CN101334769A publication Critical patent/CN101334769A/zh
Application granted granted Critical
Publication of CN101334769B publication Critical patent/CN101334769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种调整候选词顺序的方法,包括:接收来自汉字输入装置的顺序调整指令,该指令中包括候选词的拼音串、汉字和位置信息的映射关系;根据顺序调整指令,将候选词的汉字排列在候选词列表中的指定位置。本发明还公开了一种调整候选词顺序的装置,可以根据来自汉字输入装置的顺序调整指令中的拼音串、汉字和位置信息的映射关系,将候选词调整到候选词列表中的指定位置,实现了快捷操作;并且本发明支持拼音的模糊匹配,无论用户输入为标准全拼、简拼,还是模糊音,都可以实现候选词的顺序调整,从而提高了汉字输入的实用性。

Description

调整候选词顺序的方法和装置
技术领域
本发明涉及文字输入技术,尤其涉及一种调整候选词顺序的方法和装置。 
背景技术
计算机使用者要将汉字输入到计算机,就要使用中文输入法,目前,中文输入法可分为键盘输入法和非键盘输入法,而使用比较成熟的就是基于键盘的中文输入法。所谓中文输入法,即把键盘输入的编码或其他非键盘输入的媒体数据转换成汉字输入的方法。 
其中,键盘输入法就是利用键盘,并根据一定的编码规则来输入汉字的一种方法。英文字母只有26个,它们对应着键盘上的26个字母,所以,对于英文而言是几乎不存在输入法的,直接输入英文字母就可以。汉字的字数有几万个,它们和键盘是没有任何对应关系的,但为了向计算机中输入汉字,必须对汉字进行编码,并将这些编码与键盘上的键联系起来,这样在键盘输入某个汉字的编码时,计算机就会将编码转换成汉字。 
目前,汉字编码方案已经有数百种,其中在计算机上已经应用的就有几十种。作为一种图形文字,汉字是由字的音、形、义来共同表达的,汉字输入的编码方法,基本上都是采用将音、形、义与特定的键相联系,再根据不同汉字进行组合来完成汉字输入的。 
非键盘输入法包括手写输入法、语音输入法和光学字符识别(OCR,OpticalCharacter Recognition)输入法等。 
手写输入法是一种笔式环境下的手写中文识别输入方法,用户只要在手写板上按平常的习惯写字,计算机就能将其识别并显示出来。当然也可以用鼠标在指定区域内也可以写出字来,进而转换成汉字。 
语音输入法是通过话筒输入声音然后转换成文字的一种输入方法,语音输入法在硬件方面要求计算机必须配备能进行正常录音的声卡,然后调试好麦克风,用户可以对着麦克风用普通话语音进行文字录入。 
OCR输入法是将文稿通过扫描仪转化为图形,进而对图形进行识别并转换为汉字的一种输入方法。 
目前,在使用输入法的过程中,用户通常会有将某个候选词固定在候选词列表中指定位置的需求。以候选词的置顶为例,用户希望在每次输入拼音“shishi”的时候,候选词列表的首位总是显示汉字“事实”。现有技术是通过类似于自定义短语的方式来实现候选词置顶的,所谓自定义短语的方式是通过自定义的特殊输入来得到自定义的文本,用户可以设置一个字符串到一个候选词的映射关系,并设置这个候选词在候选词列表的位置。如图1所示,用户通过界面设置字符串“simka”和对应的候选词“SIM卡”,并设置“SIM卡”在候选词列表的位置为1,则在保存设置后,用户再次输入“simka”时,候选词“SIM卡”会排列在候选词列表的首位,如表1所示: 
  simka
  1.SIM卡 2.四名卡 3.四名 4.私募 5.寺庙 6.司马 7.四面 8.私密 9.四门
表1 
当然,图1中也可以设置“SIM卡”在候选词列表的位置为其他位置,如2、或3、或4等等。这样“SIM卡”就可以根据实际需要,出现在候选词列表中的任何位置上。 
现有技术中通过配置文件对设置的映射关系和位置信息进行存储,配置文件格式如下: 
netease=1,网易 
simka=1,SIM卡 
tixu=2,T恤 
txingtai=3,T型台 
txu=2,T恤 
upan=1,U盘 
当用户输入的时候,根据用户输入的字符串在上述映射关系中查找与输入的字符串相对应的候选词和位置信息,如果能够找到,则按照位置信息将候选词排列在候选词列表中的相应位置上。 
但是,现有的调整候选词顺序的方法,需要用户通过界面的自定义短语选项进行设定,操作比较麻烦;并且缺乏拼音识别能力,不支持拼音的模糊匹配,用户输入的字符串必须与预先设定的字符串完全匹配才可以实现置顶,以图1的设置为例,在设定了“simka”和“SIM卡”的映射关系之后,如果用户输入“simk”,则无法与预先设定的“simka”完全匹配,从而无法将“SIM卡”这个候选词显示在候选词列表中的指定位置上。 
发明内容
有鉴于此,本发明的主要目的在于提供一种调整候选词顺序的方法和装置,以解决现有的候选词顺序调整的方法缺乏拼音识别能力,操作麻烦的问题。 
为达到上述目的,本发明的技术方案是这样实现的: 
本发明提供了一种调整候选词顺序的方法,设定发送顺序调整指令的快捷键,不同的快捷键发出的顺序调整指令将指定候选词调整到候选词列表中不同的指定位置,所述快捷键中包括指定候选词在候选词列表中的当前位置;该方法还包括:接收来自汉字输入装置的以快捷键方式输入的顺序调整指令,所述顺序调整指令中包括指定候选词的拼音串、汉字和位置信息的映射关系;根据所述顺序调整指令,将所述指定候选词的汉字排列在候选词列表中的指定位置;其中,所述映射关系由计算机提供的配置文件集中存储,且支持用户通过设置页面集中管理,通过设置页面实现对配置文件中映射关系的操作。 
所述接收来自汉字输入装置的顺序调整指令之前,该方法还包括:所述汉字输入装置从所述拼音串对应的候选词列表中选取需要调整的候选词,并生成所述拼音串、所选候选词的汉字和位置信息的映射关系;将所述映射关系携带在顺序调整指令中以快捷键的方式发送。 
所述接收来自汉字输入装置的顺序调整指令之后,该方法还包括:将所述 指令中的映射关系以检索树的形式进行存储,所述检索树为二元查找树、红黑树和哈希表中的任一种。 
所述将映射关系以检索树的形式存储,进一步包括:将所述拼音串与输入法词典中所存储的所述汉字的标准全拼进行匹配,判断所述拼音串是否为标准全拼;如果判断所述拼音串不是标准全拼,则生成所述汉字、位置信息与标准全拼的映射关系插入所述检索树中。 
所述将候选词的汉字排列在候选词列表中的指定位置之后,该方法还包括:根据来自所述汉字输入装置的位置恢复指令,将所述候选词在候选词列表中的位置恢复为初始位置,具体包括:接收来自所述汉字输入装置的位置恢复指令,所述指令中包括所述候选词的拼音串和汉字的映射关系;将所述位置恢复指令中的映射关系与所述检索树中已存储的映射关系进行匹配,在匹配成功时,将所述检索树中匹配到的映射关系删除,并将所述候选词在候选词列表中的位置恢复为初始位置。 
所述位置恢复指令由所述汉字输入装置通过快捷键的方式发送。所述汉字输入装置为键盘或手写板。 
本发明还提供了一种调整候选词顺序的装置,包括:顺序调整指令接收模块,用于接收来自汉字输入装置的以快捷键方式输入的顺序调整指令,所述顺序调整指令中包括指定候选词的拼音串、汉字和位置信息的映射关系;其中,所述快捷键为设定的发送顺序调整指令的快捷键,不同的快捷键发出的顺序调整指令将指定候选词调整到候选词列表中不同的指定位置,所述快捷键中包括指定候选词在候选词列表中的当前位置;所述映射关系由计算机提供的配置文件集中存储,且支持用户通过设置页面集中管理,通过设置页面实现对配置文件中映射关系的操作;候选词调整模块,用于根据所述顺序调整指令,将所述指定候选词的汉字排列在候选词列表中的指定位置。 
所述装置还包括映射关系存储模块,用于将所述指令中的映射关系以检索树的形式进行存储,所述检索树为二元查找树、红黑树和哈希表中的任一种。 
所述映射关系存储模块进一步包括: 
拼音串匹配子模块,用于将所述拼音串与输入法词典中所存储的所述汉字的标准全拼进行匹配,判断所述拼音串是否为标准全拼; 
映射关系插入子模块,用于根据匹配结果,在判断所述拼音串不是标准全拼时,生成所述汉字、位置信息与标准全拼的映射关系插入所述检索树中。 
所述装置还包括位置恢复模块,用于根据来自所述汉字输入装置的位置恢复指令,将所述候选词在候选词列表中的位置恢复为初始位置。 
所述位置恢复模块进一步包括: 
位置恢复指令接收子模块,用于接收来自所述汉字输入装置的位置恢复指令,所述指令中包括所述候选词的拼音串和汉字的映射关系; 
映射关系匹配子模块,用于将所述位置恢复指令中的映射关系与所述检索树已存储的映射关系进行匹配; 
位置恢复子模块,用于在匹配成功时,将所述检索树中匹配到的映射关系删除,将所述候选词在候选词列表中的位置恢复为初始位置。 
本发明所提供的调整候选词顺序的方法和装置,由计算机的汉字输入装置通过快捷键的方式发出顺序调整指令,计算机根据顺序调整指令中的拼音串、汉字和位置信息的映射关系,将该候选词迅速调整到候选词列表中的指定位置,实现了快捷操作;并且本发明支持拼音的模糊匹配,无论用户输入为标准全拼,简拼,还是模糊音,都可以实现候选词的顺序调整,从而提高了汉字输入的实用性。 
附图说明
图1为现有技术中调整候选词顺序的操作界面示意图; 
图2为本发明一种调整候选词顺序的方法流程图; 
图3为本发明实施例中模糊音设置的示意图; 
图4为本发明实施例的候选词置顶的方法流程图; 
图5为本发明实施例的输入法词典的数据结构示意图; 
图6为本发明一种调整候选词顺序的装置的组成结构示意图。 
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。 
本发明提供一种调整候选词顺序的方法,在用户采用计算机进行汉字输入操作时,利用汉字输入装置并以快捷键的方式发出顺序调整指令,由计算机根据顺序调整指令将候选词迅速调整到候选词列表中的指定位置。本发明的调整候选词顺序的方法,如图2所示,该方法主要包括以下步骤: 
步骤201,计算机接收来自汉字输入装置的顺序调整指令,该指令中包括候选词的拼音串、汉字和位置信息的映射关系。 
用户在采用计算机进行汉字输入操作时,如果需要将某个候选词在候选词列表中的位置进行调整,使得以后每次输入该候选词的拼音串时,对应的汉字都能始终显示在候选词列表的指定位置;则可以通过汉字输入装置从用户输入的拼音串所对应的候选词列表中选取需要调整的候选词,并生成候选词的拼音串、汉字和位置信息的映射关系;然后,以快捷键的方式向计算机发出顺序调整指令,并将候选词的拼音串、汉字和位置信息的映射关系携带在顺序调整指令中发送给计算机。其中,汉字输入装置可以是键盘或手写板等装置,本发明中以键盘为例进行描述。本发明中可以通过不同的快捷键发出各种顺序调整指令,将候选词调整到候选词列表中的指定位置,例如:通过“Ctrl+数字”的快捷键发出顺序调整指令,将候选词调整到候选词列表中的首位,即将候选词置顶;通过“Alt+数字”的快捷键发出顺序调整指令,将候选词调整到候选词列表中的第二的位置上。需要指出的是,用以发送顺序调整指令的快捷键可以根据实际需要进行预先设定。 
例如,用户在进行汉字输入操作时,通过键盘输入拼音串“shishi”,界面所显示的候选词列表如表2所示: 
  shi’shi
  1.试试 2.事实 3.实施 4.适时 5.时时 6.实时 7.事事 8.逝世 9.世事
表2 
此时,用户希望把候选词“实时”置顶,则可以通过“Ctrl+6”的快捷键发起顺序调整指令,在该指令中携带有“shishi”、“实时”和位置信息1的映射 关系,其中,“6”是指候选词“实时”在当前的候选词列表中所处的位置,位置信息1是指“实时”需要调整的目的位置为候选词列表中的首位;用户希望把候选词“时时”调整到候选词列表中的第二的位置上,则可以通过“Alt+5”的快捷键发起顺序调整指令,在该指令中携带有“shishi”、“时时”和位置信息2的映射关系,其中“5”是指候选词“时时”在当前的候选词列表中所处的位置,,位置信息2是指“时时”需要调整的目的位置为候选词列表中的第二的位置。 
步骤202,计算机根据顺序调整指令,将候选词的汉字排列在候选词列表中的指定位置。 
计算机将顺序调整指令中所携带的映射关系以检索树的形式进行存储,检索树可以为二元查找树、红黑数或哈希表等等。并且,计算机根据所接收到的顺序调整指令,将候选词的汉字排列在候选词列表中的指定位置。 
根据上述步骤201中置顶的举例,计算机接收到键盘通过“Ctrl+6”的快捷键发起的顺序调整指令后,将指令中携带的“shishi”、“实时”和位置信息1的映射关系存储在检索树中,并将候选词的汉字“实时”排列在候选词列表的首位,如表3所示: 
  shi’shi
  1.实时 2.试试 3.事实 4.实施 5.适时 6.时时 7.事事 8.逝世 9.世事
表3 
并且,由于检索树中存储了“shishi”、“实时”和位置信息1的映射关系,因此,在用户进行汉字输入的过程中,每当输入拼音串“shishi”,计算机都能通过匹配检索树的操作,匹配到“shishi”、“实时”和位置信息1的映射关系,从而根据位置信息1,始终将“实时”的位置排列在表3所示的候选词列表的首位。进而,根据本发明的映射关系,用户在进行汉字输入的过程中,计算机需要将用户输入的拼音串与映射关系中的各个拼音串进行匹配的操作,如果匹配成功,则根据匹配到的映射关系中记录的候选词的位置信息,将映射关系中 的候选词显示在候选词列表中的指定位置。 
在步骤202之后,如果用户需要将候选词恢复到调整之前的位置,则可以通过快捷键的方式发起位置恢复指令,该指令中包括候选词的拼音串和汉字的映射关系,计算机可以根据位置恢复指令,将候选词在候选词列表中的位置恢复为初始位置。 
根据上述步骤202中的举例,在表3所示的状态下,用户如果需要取消“实时”的置顶状态时,可以通过“Ctrl+Shift+1”的快捷键发起位置恢复指令,该指令中携带“shishi”和“实时”的映射关系;计算机通过匹配检索树,能够匹配到“shishi”和“实时”的映射关系,则将检索树中所存储的“shishi”和“实时”的映射关系删除,并将“实时”在候选词列表中的位置恢复为初始位置,恢复后的候选词列表如前述表2所示。需要指出的是,用以发送位置恢复指令的快捷键可以根据实际需要进行预先设定。 
当然,如果某个候选词经过多次顺序调整,那么既可以通过快捷键将候选词调整到初始位置,也可以通过快捷键将候选词调整到最近一次调整之前的位置。例如:表2中的“实时”在进行第一次顺序调整时,调整到了表3中所示的候选词列表首位,在进行第二次顺序调整时,又从候选词列表的首位调整到了第二的位置;则此时既可以通过发起位置恢复指令,将位于候选词列表中第二位置上的“实时”恢复到表2所示的初始位置,也可以恢复到表3所示的位置。在实际应用中,可以通过设定不同的快捷键来实现上述不同的位置恢复操作。 
另外,在实际应用中还存在表4和表5所示的情况,用户需要将“红黑树”这个词置顶,在输入“hongheishu”的拼音串时,候选词列表如表4所示: 
  hong’hei’shu
  1.红黑数 2.红黑 3.红 4.宏 5.洪 6.鸿 7.虹 8.哄 9.弘
表4 
从表4可知,候选词列表中并没有用户所需的“红黑树”这个词,此时, 用户可以通过手动选择的操作构造“红黑树”这个词,先选择“红黑”,则候选词列表如表5所示: 
  红黑shu
  1.数 2.书 3.树 4.属 5.输 6.术 7.舒 8.述 9.束
表5 
在表5的状态下,用户可以通过“Ctrl+3”的快捷键发起顺序调整指令,该指令中包括“hongheishu”和“红黑树”的映射关系,构造的“红黑树”这个词被存储到输入法词典中,且“红黑树”被置顶,如表6所示: 
  hong’hei’shu
  1.红黑树 2.红黑 3.红 4.宏 5.洪 6.鸿 7.虹 8.哄 9.弘
表6 
如果用户需要取消“红黑树”的置顶状态时,可以通过“Ctrl+Shift+1”的快捷键发起位置恢复指令,计算机将检索树中“hongheishu”和“红黑树”的映射关系删除,并取消“红黑树”的置顶状态。 
需要指出的是,上述都是用户输入的拼音串为标准全拼的情况,但在实际应用中,用户通常输入的拼音串并不是标准全拼,如简拼和模糊音等,而本发明对于输入的拼音串为非标准全拼的情况也是适用的,下面以置顶操作为例进行说明,其他位置上的顺序调整与置顶操作类似。 
用户需要将“布吉”这个词置顶,在输入简拼“bj”时,界面显示的候选词列表如表7所示: 
  b’j
  1.北京 2.比较 3.不仅 4.毕竟 5.编辑 6.不见 7.不久 8.背景 9.不就
表7 
经过翻页后,界面显示的候选词列表如表8所示: 
  b’j
  1.别叫 2.布吉 3.半截 4.不近 5.八角 6.边疆 7.不惧 8.倍加 9.办结
表8 
在表8的状态下,用户可以通过“Ctrl+2”的快捷键发起顺序调整指令,该指令中包括“bj”、“布吉”和位置信息1的映射关系,“布吉”被置顶后的候选词列表如表9所示: 
  b’j
  1.布吉 2.北京 3.比较 4.不仅 5.毕竟 6.编辑 7.不见 8.不久 9.背景
表9 
计算机将“bj”与输入法词典中所存储的“布吉”的标准全拼进行匹配,判定“bj”不是标准全拼;此时,计算机查找输入法词典,生成“布吉”与标准全拼“buji”和位置信息1的映射关系,并将该映射关系存储到检索树中,则在用户此后进行的汉字输入过程中,输入“bj”时,界面显示的候选词列表如前述表9所示,输入“buji”时,界面显示的候选词列表如表10所示: 
  bu’ji
  1.布吉 2.不及 3.不急 4.不计 5.补给 6.不羁 7.不济 8.部际 9.部级
表10 
即无论用户输入“bj”还是“buji”,“布吉”都会显示在候选词列表的首位。另外,在表9和表10所示的状态下,用户如果需要取消“布吉”的置顶状态,则可通过“Ctrl+Shift+1”的快捷键发起位置恢复指令来实现。 
对于模糊音的情况,如图3所示,图3主要时面向普通话不标准的用户,可以启动模糊音的设置功能。用户需要将“湖南”这个词置顶,由于用户的普通话不标准,输入的拼音串为“fulan”,界面显示的候选词列表如表11所示: 
  fu’lan
  1.腐烂 2.湖南 3.弗兰 4.护栏 5.弗朗 6.呼兰 7.湖蓝 8.呋喃 9.扶栏
表11 
在表11的状态下,用户可以通过“Ctrl+2”的快捷键发起顺序调整指令,该指令中包括“fulan”、“湖南”和位置信息1的映射关系,“湖南”被置顶后的候选词列表如表12所示: 
  fu’lan
  1.湖南 2.腐烂 3.弗兰 4.护栏 5.弗朗 6.呼兰 7.湖蓝 8.呋喃 9.扶栏
表12 
计算机将“fulan”与输入法词典中所存储的“湖南”的标准全拼进行匹配,判定“fulan”不是标准全拼;此时,计算机查找输入法词典,生成“湖南”与标准全拼“hunan”和位置信息1的映射关系,并将该映射关系存储到检索树中,则在用户此后进行的汉字输入过程中,输入“fulan”时,界面显示的候选词列表如前述表12所示,输入“hunan”时,界面显示的候选词列表如表13所示: 
  hu’nan
  1.湖南 2.昏暗 3.胡楠 4.胡 5.混 6.湖 7.户 8.互 9.虎
表13 
即无论用户输入“fulan”还是“hunan”,“湖南”都会显示在候选词列表的首位。另外,在表12和表13所示的状态下,用户如果需要取消“湖南”的置顶状态,则可通过“Ctrl+Shift+1”的快捷键发起位置恢复指令来实现。 
由于对候选词进行置顶的应用较为广泛,基于上述的举例,下面将候选词置顶作为本发明的较佳实施例,并结合图4对候选词置顶的方法进一步详细阐述。如图4所示,主要包括以下步骤: 
步骤401,计算机根据顺序调整指令中的拼音串查找检索树,与检索树中所存储的拼音串进行一一匹配。 
本发明中的映射关系,由计算机提供的配置文件进行集中存储,从而便于管理。在每次输入法启动的时候,计算机从配置文件中逐条读取映射关系,并将映射关系逐条插入到检索树中。如果配置文件中的映射关系为空,则检索树也为空。 
用户在利用键盘进行汉字输入的过程中,根据输入的拼音串所对应的候选词列表,如果需要将候选词列表中的某个候选词进行顺序调整,则采用快捷键的方式向计算机发出顺序调整指令,该指令中组合了用户输入的拼音串、用户所选的候选词汉字和位置信息的映射关系。 
计算机接收到键盘发出的顺序调整指令后,根据指令中的拼音串查找检索树,与检索树中存储的拼音串进行一一匹配。 
步骤402,判断检索树中是否有匹配的拼音串,如果有,则转到步骤404;否则,转到步骤403。 
步骤403,将顺序调整指令中携带的候选词的拼音串、汉字和位置信息的映射关系插入检索树中,并转到步骤406。 
步骤404,计算机询问用户是否需要对检索树中匹配到的拼音串所对应映射关系进行更新,如果需要,则转到步骤405;否则,结束当前处理流程。 
步骤405,将顺序调整指令中的映射关系替换检索树中匹配到的拼音串所对应的映射关系。 
例如:顺序调整指令中包括“bj”、“布吉”和位置信息1的映射关系,而检索树中已存在“bj”、“北京”和位置信息1的映射关系,则将“bj”、“布吉”和位置信息1的映射关系替换“bj”、“北京”和位置信息1的映射关系。 
步骤406,将顺序调整指令中的拼音串与输入法词典中所存储的候选词的标准全拼进行匹配,以判断顺序调整指令中的拼音串是否为标准全拼,如果是,则结束当前处理流程;否则,转到步骤407。 
步骤407,到输入法词典中查找顺序调整指令中的候选词所对应的标准全拼,并生成候选词的标准全拼、汉字和位置信息的映射关系。 
步骤408,将查找到的标准全拼与检索树中的拼音串进行匹配,以判断检 索树中是否有与标准全拼相匹配的拼音串,如果有,则转到步骤410;否则,转到步骤409。 
步骤409,将候选词的标准全拼、汉字和位置信息的映射关系插入到检索树中,并结束当前处理流程。 
根据步骤405中的举例,如果查找到检索树中不存在“buji”和“布吉”的映射关系,则将步骤407中生成的“buji”和“布吉”的映射关系插入到检索树中。 
步骤410,计算机询问用户是否需要对检索树中匹配到的标准全拼所对应映射关系进行更新,如果是,则转到步骤411;否则,结束当前处理流程。 
步骤411,将步骤407中生成的映射关系替换检索树中匹配到的标准全拼所对应的映射关系。 
根据步骤405中的举例,如果在步骤410中匹配到检索树中“buji”和“不及”的映射关系,则将步骤407中生成的“buji”和“布吉”的映射关系替换检索树中“buji”和“不及”的映射关系。 
在图4所示的候选词置顶的实施例中,在检索树所存储的映射关系中,与一个拼音串所对应的候选词的汉字是唯一的,而与一个候选词的汉字所对应的拼音串可以不是唯一的。如表14所示: 
  shi’shi  hong’hei’shu  fu’lan  hu’nan  bu’ji  b’j   实时   1  红黑树 1  湖南   1  湖南   1  布吉   1  布吉   1
表14 
上表中,候选词“布吉”可以对应简拼“bj”和标准全拼“buji”,而如果在表14中增加一个“bj”和“北京”的映射关系,则在用户输入“bj”时,计 算机从表14中匹配到两个置顶的候选词“布吉”和“北京”,这时就会发生冲突,计算机无法选择是将“布吉”置顶,还是将“北京”置顶。因此,在实际应用中,这种情况是需要在设计映射关系时避免的。 
另外,本发明中的映射关系,支持用户通过设置页面进行集中管理,用户通过设置页面可以实现配置文件中对映射关系的查询、排序、修改、添加、删除、恢复初始位置、导入和导出等操作。且在输入法启动的时候,计算机从配置文件中逐条读取映射关系,并将映射关系逐条插入到检索树中;在进行输入法的切换或关闭输入法时,计算机遍历检索树,并将检索树中记录的映射关系写入到配置文件中,覆盖原来的配置文件。通过这些操作,使配置文件中的映射关系能够根据用户的顺序调整或位置恢复的操作得到更新。 
实际应用中的输入法词典通常采用图5所示的数据结构,图5中左侧的一列“gydg”“gydg”“gydgs”等不包含在数据结构中,而只是为了说明本数据结构的排序方法。该数据结构遵循以下两条排序准则: 
A、首先按照全拼串中的每个音节首字母所组成的字符串从小到大进行排序; 
B、当全拼串的每个音节首字母组成的字符串相等时,按照全拼串从小到大排序。 
图5所示的数据结构中一个优点是所有首字母相同的全拼串在数组中是聚在一起的,也就是说它们在数组的位置是连续的。这样就可以实现在此数组中找到一个每个音节首字母匹配的结点后,通过向其相邻的结点扩展就可以找到简拼串对应的全部全拼串。 
基于图5所示的输入法词典,用户在输入拼音串的过程中所实现的候选词显示的流程如下: 
步骤1,用户使用汉字输入装置输入拼音串“gonydiah”。 
步骤2,采用动态规划算法进行音节划分,结果为“gon’y’dia’h”。 
步骤3,在输入法词典中找到一个与输入拼音串“gon’y’dia’h”的每个音节首字母都相同的结点。假设找到了结点“gong’ye’dian’han”。 
步骤4,以结点“gong’ye’dian’han”为中心向上和向下分别进行扩展,把“gon’y’dia’h”和每个找出的全拼串比较,找出其中匹配的全拼串,一直到找到一个全拼串的音节首字母与“gon’y’dia’h”的音节首字母不完全相同为止。 
从图5中可以看出,结点“gong’ye’dian’han”与输入拼音串“gon’y’dia’h”音节首字母相同并且匹配。 
向上扩展到“gan’ying’dian’he”结点,此全拼串与输入拼音串“gon’y’dia’h”不匹配,但音节首字母相同;继续向上扩展到结点“guang’yin’de’gu’shi”,此全拼串与输入拼音串“gon’y’dia’h”不匹配而且音节首字母也不相同,则停止向上匹配。 
向下扩展到“gong’yong’dian’hua”结点,此全拼串与输入拼音串“gon’y’dia’h”匹配,且音节首字母相同;继续向下扩展到结点“gao’ya’dian’ji”,此全拼串与输入拼音串“gon’y’dia’h”不匹配而且音节首字母不相同,停止向下匹配。 
步骤5,把每个匹配的全拼串对应的候选词按照词频从大到小进行排序。根据上个步骤,匹配的全拼串包括“gong’ye’dian’han”和“gong’yong’dian’hua”。它们对应的候选词分别为“工业电焊”和“公用电话”。假设“公用电话”的词频大于“工业电焊”的词频,则排序结果为“公用电话、工业电焊”。 
步骤6,将排序好的各个候选词组成的候选词列表通过窗口显示。 
对于模糊音的情况,则要根据音节划分后的拼音串把所有的模糊音列举出来,然后对每种模糊音执行上述流程中的步骤3和步骤4。 
在应用于图4所示置顶操作的实施例时,上述的流程则需要加入对置顶候选词的处理,即在步骤2和步骤3之间增加一个步骤,就是到置顶操作的映射关系中查找是否有与输入的拼音串相匹配的候选词,如果有,则需将匹配的候选词置于候选词列表的首位。 
为实现上述本发明的候选词置顶的方法,本发明还提供了一种调整候选词顺序的装置,应用于计算机中,如图6所示,该装置包括:顺序调整指令接收模块10、映射关系存储模块20、候选词调整模块30和位置恢复模块40。其中, 顺序调整指令接收模块10,用于接收来自汉字输入装置的顺序调整指令,该指令中包括候选词的拼音串、汉字和位置信息的映射关系。映射关系存储模块20,连接顺序调整指令接收模块10,用于将顺序调整指令中的映射关系以检索树的形式进行存储,本发明中的检索树可以为二元查找树、红黑树或哈希表等等。候选词调整模块30,连接顺序调整指令接收模块10和映射关系存储模块20,用于根据顺序调整指令和存储的映射关系,将候选词的汉字排列在候选词列表中的指定位置。位置恢复模块40,连接映射关系存储模块20,用于根据来自汉字输入装置的位置恢复指令,将候选词在候选词列表中的位置恢复为初始位置。其中,映射关系存储模块20和位置恢复模块40是可选的。 
映射关系存储模块20进一步包括相互连接的拼音串匹配子模块21和映射关系插入子模块22。拼音串匹配子模块21,用于将顺序调整指令中拼音串与输入法词典中所存储的汉字的标准全拼进行匹配,判断拼音串是否为标准全拼。映射关系插入子模块22,用于根据拼音串匹配子模块21的匹配结果,在判断顺序调整指令中的拼音串不是标准全拼时,将顺序调整指令中的汉字与输入法词典中标准全拼,以及位置信息的映射关系插入检索树中。 
位置恢复模块40进一步包括:位置恢复指令接收子模块41、映射关系匹配子模块42和位置恢复子模块43。位置恢复指令接收子模块41,用于接收来自汉字输入装置的位置恢复指令,该指令中包括候选词的拼音串和汉字的映射关系。映射关系匹配子模块42,连接位置恢复指令接收子模块41,用于将位置恢复指令中的映射关系与检索树中已存储的映射关系进行匹配。位置恢复子模块43,连接映射关系匹配子模块42,用于在匹配成功时,将检索树中匹配到的映射关系删除,并将候选词在候选词列表中的位置恢复到初始位置。 
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 

Claims (12)

1.一种调整候选词顺序的方法,其特征在于,设定发送顺序调整指令的快捷键,不同的快捷键发出的顺序调整指令将指定候选词调整到候选词列表中不同的指定位置,所述快捷键中包括指定候选词在候选词列表中的当前位置;该方法还包括:
接收来自汉字输入装置的以快捷键方式输入的顺序调整指令,所述顺序调整指令中包括指定候选词的拼音串、汉字和位置信息的映射关系;其中,所述映射关系由计算机提供的配置文件集中存储,且支持用户通过设置页面集中管理,通过设置页面实现对配置文件中映射关系的操作;
根据所述顺序调整指令,将所述指定候选词的汉字排列在候选词列表中的指定位置。
2.根据权利要求1所述调整候选词顺序的方法,其特征在于,所述接收来自汉字输入装置的顺序调整指令之前,该方法还包括:
所述汉字输入装置从所述拼音串对应的候选词列表中选取需要调整的候选词,并生成所述拼音串、所选候选词的汉字和位置信息的映射关系;
将所述映射关系携带在顺序调整指令中以快捷键的方式发送。
3.根据权利要求1所述调整候选词顺序的方法,其特征在于,所述接收来自汉字输入装置的顺序调整指令之后,该方法还包括:将所述指令中的映射关系以检索树的形式进行存储,所述检索树为二元查找树、红黑树和哈希表中的任一种。
4.根据权利要求3所述调整候选词顺序的方法,其特征在于,所述将映射关系以检索树的形式存储,进一步包括:
将所述拼音串与输入法词典中所存储的所述汉字的标准全拼进行匹配,判断所述拼音串是否为标准全拼;
如果判断所述拼音串不是标准全拼,则生成所述汉字、位置信息与标准全拼的映射关系插入所述检索树中。
5.根据权利要求3所述调整候选词顺序的方法,其特征在于,所述将候选词的汉字排列在候选词列表中的指定位置之后,该方法还包括:根据来自所述汉字输入装置的位置恢复指令,将所述候选词在候选词列表中的位置恢复为初始位置,具体包括:
接收来自所述汉字输入装置的位置恢复指令,所述指令中包括所述候选词的拼音串和汉字的映射关系;
将所述位置恢复指令中的映射关系与所述检索树中已存储的映射关系进行匹配,在匹配成功时,将所述检索树中匹配到的映射关系删除,并将所述候选词在候选词列表中的位置恢复为初始位置。
6.根据权利要求5所述调整候选词顺序的方法,其特征在于,所述位置恢复指令由所述汉字输入装置通过快捷键的方式发送。
7.根据权利要求1至6中任一项所述调整候选词顺序的方法,其特征在于,所述汉字输入装置为键盘或手写板。
8.一种调整候选词顺序的装置,其特征在于,包括:
顺序调整指令接收模块,用于接收来自汉字输入装置的以快捷键方式输入的顺序调整指令,所述顺序调整指令中包括指定候选词的拼音串、汉字和位置信息的映射关系;其中,所述快捷键为设定的发送顺序调整指令的快捷键,不同的快捷键发出的顺序调整指令将指定候选词调整到候选词列表中不同的指定位置,所述快捷键中包括指定候选词在候选词列表中的当前位置;所述映射关系由计算机提供的配置文件集中存储,且支持用户通过设置页面集中管理,通过设置页面实现对配置文件中映射关系的操作;
候选词调整模块,用于根据所述顺序调整指令,将所述指定候选词的汉字排列在候选词列表中的指定位置。
9.根据权利要求8所述调整候选词顺序的装置,其特征在于,所述装置还包括映射关系存储模块,用于将所述指令中的映射关系以检索树的形式进行存储,所述检索树为二元查找树、红黑树和哈希表中的任一种。
10.根据权利要求9所述调整候选词顺序的装置,其特征在于,所述映射关系存储模块进一步包括:
拼音串匹配子模块,用于将所述拼音串与输入法词典中所存储的所述汉字的标准全拼进行匹配,判断所述拼音串是否为标准全拼;
映射关系插入子模块,用于根据匹配结果,在判断所述拼音串不是标准全拼时,生成所述汉字、位置信息与标准全拼的映射关系插入所述检索树中。
11.根据权利要求9所述调整候选词顺序的装置,其特征在于,所述装置还包括位置恢复模块,用于根据来自所述汉字输入装置的位置恢复指令,将所述候选词在候选词列表中的位置恢复为初始位置。
12.根据权利要求11所述调整候选词顺序的装置,其特征在于,所述位置恢复模块进一步包括:
位置恢复指令接收子模块,用于接收来自所述汉字输入装置的位置恢复指令,所述指令中包括所述候选词的拼音串和汉字的映射关系;
映射关系匹配子模块,用于将所述位置恢复指令中的映射关系与所述检索树已存储的映射关系进行匹配;
位置恢复子模块,用于在匹配成功时,将所述检索树中匹配到的映射关系删除,将所述候选词在候选词列表中的位置恢复为初始位置。
CN 200810129141 2008-06-30 2008-06-30 调整候选词顺序的方法和装置 Active CN101334769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810129141 CN101334769B (zh) 2008-06-30 2008-06-30 调整候选词顺序的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810129141 CN101334769B (zh) 2008-06-30 2008-06-30 调整候选词顺序的方法和装置

Publications (2)

Publication Number Publication Date
CN101334769A CN101334769A (zh) 2008-12-31
CN101334769B true CN101334769B (zh) 2013-01-02

Family

ID=40197373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810129141 Active CN101334769B (zh) 2008-06-30 2008-06-30 调整候选词顺序的方法和装置

Country Status (1)

Country Link
CN (1) CN101334769B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876853B (zh) * 2009-04-29 2012-11-14 北京搜狗科技发展有限公司 拼音输入方法及装置
CN102236420A (zh) * 2010-04-27 2011-11-09 腾讯科技(深圳)有限公司 一种加载词和调整词的方法及装置
CN101854437A (zh) * 2010-06-22 2010-10-06 宇龙计算机通信科技(深圳)有限公司 一种快捷短语输入方法、装置及通信终端
CN102289512A (zh) * 2011-09-01 2011-12-21 上海汉翔信息技术有限公司 便携式设备上基于地理位置动态调整候选词的系统及方法
CN103064825B (zh) * 2011-10-18 2016-03-02 阿里巴巴集团控股有限公司 模糊音对建立、设置方法和输入法及其装置和系统
CN102929492A (zh) * 2012-11-25 2013-02-13 上海量明科技发展有限公司 输入法中调整候选项顺序的方法、客户端及字符库
CN103616962B (zh) * 2013-12-13 2018-08-31 联想(北京)有限公司 一种信息处理方法和装置
CN108227952B (zh) * 2016-12-22 2021-10-22 北京搜狗科技发展有限公司 生成自定义词的方法、系统和用于生成自定义词的装置

Also Published As

Publication number Publication date
CN101334769A (zh) 2008-12-31

Similar Documents

Publication Publication Date Title
CN101334769B (zh) 调整候选词顺序的方法和装置
CN100555203C (zh) 修正已输入文字的系统及方法
JP3141015B2 (ja) 手書き漢字認識方法および装置
US5241674A (en) Electronic dictionary system with automatic extraction and recognition of letter pattern series to speed up the dictionary lookup operation
CN1609846B (zh) 用于识别,锚定和回流数字墨水注释的数字墨水注释方法
CN101369216B (zh) 文字输入方法和文字输入系统
CN102449640B (zh) 识别手写单词
CN100472411C (zh) 输入法中取消字符串的方法及文字输入系统
JP4413868B2 (ja) 文字入力装置、該文字入力装置を備えた複写機、文字入力方法、制御プログラム、および、記録媒体
CN101546228B (zh) 一种实现英文提示的输入方法和装置
CN102023971A (zh) 用于移动装置的用户交互式自动翻译装置和方法
CN100388628C (zh) 基于偏旁的自适应笔划顺序方法和系统
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
CN102298582A (zh) 数据搜索和匹配方法和系统
JPS5924391A (ja) テキスト・デ−タの右余白の行をそろえる方法
CN101154226A (zh) 在输入法词库中添加未登录词的方法及文字输入装置
CN101739143A (zh) 文字输入方法及系统
CN100559332C (zh) 恢复已删文字的系统及方法
US20150186738A1 (en) Text Recognition Based on Recognition Units
US7911363B2 (en) Apparatus and method for inputting characters in portable electronic equipment
CN102375817A (zh) 一种获取自造词的方法及装置
KR102573923B1 (ko) 손글씨를 이용한 필기체 한글폰트 생성 시스템 및 그 운용방법
CN101169789A (zh) 基于输入法的词库更新装置及方法
JP2005190199A (ja) 手書き文字入力表示装置及び手書き文字入力表示方法ならびにそのプログラム
CN1466039A (zh) 可以进行中文和多种文字输入的电子遥控器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20140917

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140917

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.