CN100483416C - 一种字符输入的方法、输入法系统及词库更新的方法 - Google Patents

一种字符输入的方法、输入法系统及词库更新的方法 Download PDF

Info

Publication number
CN100483416C
CN100483416C CNB2007100994746A CN200710099474A CN100483416C CN 100483416 C CN100483416 C CN 100483416C CN B2007100994746 A CNB2007100994746 A CN B2007100994746A CN 200710099474 A CN200710099474 A CN 200710099474A CN 100483416 C CN100483416 C CN 100483416C
Authority
CN
China
Prior art keywords
dictionary
cell
word set
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
CNB2007100994746A
Other languages
English (en)
Other versions
CN101051323A (zh
Inventor
马占凯
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38782735&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN100483416(C) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CNB2007100994746A priority Critical patent/CN100483416C/zh
Publication of CN101051323A publication Critical patent/CN101051323A/zh
Priority to PCT/CN2008/071027 priority patent/WO2008141583A1/zh
Application granted granted Critical
Publication of CN100483416C publication Critical patent/CN100483416C/zh
Ceased legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Abstract

本发明提供了一种输入法系统,包括输入接口单元、信息转换单元和显示输出单元,还包括:系统词库,用于记录基础字词及其相关信息;细胞词集,用于记录扩展字词及其相关信息;所述细胞词集由从服务器端所存储的多个细胞词库中获取的至少一个符合用户输入习惯的细胞词库得到,并利用从服务器端获取的更新数据进行更新;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性。本发明在现有的输入法的词库容量级别上实现了动态的细胞式词库,通过每个人的个性化的选择,及自动更新机制,就能够覆盖一个用户几乎所有的词汇。从而能够大幅提升输入法的首选词准确率,在理论上将个人的词库覆盖面扩大到最大。

Description

一种字符输入的方法、输入法系统及词库更新的方法
技术领域
本发明涉及字符信息的输入领域,特别是涉及一种字符输入的方法、输入法系统以及一种词库更新的方法和一种词库发布系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,不同专业领域、不同兴趣以及使用习惯的用户对于输入法系统的智能性要求越来越高。
在评价输入法智能性时,首选词的准确率是一个非常重要的评价标准,同时,候选项的排序也非常的重要,而记载有词条信息和词频信息的输入法词库是影响二者重要因素之一。因为用户所需的目标词在词库中存在,以及其相应的词频信息非常符合用户的使用习惯,则针对该用户的首选词准确率及候选项排序就会比较符合需求。
但是,目前输入法的词库一般只能够覆盖人们使用的词汇的一部分,通常主要包括一些人们普遍的常用词汇,还有一部分词汇输入法词库是不可能全部包括进来的。因为现有的输入法词库都是标准的,针对是所有用户,如果把所有用户用的词汇都加入进来,那么输入法的词库容量将在数百万的量级。词库过大,同音字过多,候选项增加,不需要使用这些词的用户会受到干扰,并且,这样一个超大的词库势必大幅占用CPU、内存等计算设备资源,对个人电脑来说是不能接受的。
例如,每个人在使用输入法时除了输入许多常用词汇之外(例如“现在”、“时间”、“多少”等),还会输入一小部分人用的词汇,例如:一些游戏名词“艾泽拉斯”“德鲁伊”,最新的电影“云水谣”等等。这些词汇对非常小的群体来说会经常输入,例如:魔兽世界玩家,化学专业的工程师,生物学的教师等等。但是这些词汇在总体用户中的使用比例特别低,现有模式下的输入法词库是不可能把这些词汇全部包括进去,这样就会导致现有技术下,用户输入上述这些小群体的常用词汇时的首选词准确率非常低,严重影响用户的使用体验以及其思想的表达。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何改进输入法词库,使得其既可以满足现有计算设备的资源分配,又可以大大提高各个用户的输入效率。
发明内容
本发明所要解决的技术问题是提供一种新型的输入法词库模式以及整套的输入解决方案,能够满足现有计算设备的资源分配,不会占用更多计算资源,并且可以显著提高各个用户的输入效率。
为了解决上述问题,本发明公开了一种输入法系统,包括输入接口单元、信息转换单元和显示输出单元,还包括:
系统词库,用于记录基础字词及其相关信息;
细胞词集,用于记录扩展字词及其相关信息;所述细胞词集由从服务器端所存储的多个细胞词库中获取的至少一个符合用户个性化输入习惯的细胞词库得到;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
加载单元,用于加载所述系统词库及细胞词集至缓存中;
所述信息转换单元用于根据缓存中的系统词库及细胞词集,针对所述输入接口单元接收的用户输入信息生成候选项;所述显示输出单元用于将所述候选项展示给用户;
自动更新模块,用于依据已有细胞词库列表,从服务器端获取所需的更新数据,对所述细胞词集进行更新。
优选的,所述细胞词集中存储的相关信息类型少于或等于所述系统词库中存储的相关信息类型;所述多个细胞词库中至少存在一个细胞词库由人工手动生成。
进一步,所述的输入法系统还可以包括:用户词库。
进一步,所述的输入法系统还可以包括:添加模块,用于将获取的细胞词库词条信息添加至所述细胞词集中;所述细胞词集为一个独立的词库或者为多个词库并列存在的词库集合。优选的,添加过程在一独立的缓存词库中进行。
进一步,所述的输入法系统还可以包括:细胞词库停用模块,用于接收用户指令,从细胞词集中去除属于用户所选细胞词库的词条记录。
根据本发明的实施例,还公开了一种字符输入的方法,包括:
加载系统词库和细胞词集;所述系统词库用于记录基础字词及其相关信息;所述细胞词集用于记录扩展字词及其相关信息;所述细胞词集由从服务器端所存储的多个细胞词库中获取的至少一个符合用户个性化输入习惯的细胞词库得到,并利用从服务器端获取的更新数据进行更新;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
接收用户的输入信息;
依据所接收的输入信息,在所述系统词库和细胞词集中进行检索,得到相应的候选项;
接收用户的选择信息,将指定的候选项上屏输出。
其中,所述加载为:将细胞词集与系统词库合并为一个词库,置于缓存中;或者,所述加载为:将细胞词集与系统词库作为两个或多个独立词库置于缓存中,并依据预置规则设定词库优先级;所述优先级用于候选项的显示排序。
优选的,所述细胞词集中记载有各词条所属的细胞词库以及相应的细胞词库优先级;所述优先级用于候选项的显示排序。
进一步,所述的方法还可以包括:在加载过程中,依据输入法的使用环境动态调整细胞词库优先级。
依据本发明的另一实施例,还公开了一种词库更新的方法,所更新的词库涉及用于记录扩展字词及其相关信息的细胞词集,所述细胞词集由从服务器端所存储的多个细胞词库中选取的至少一个符合用户个性化输入习惯的细胞词库得到;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;所述方法包括:
接受触发,比较已有细胞词库列表和服务器端细胞词库列表,得到所需更新的词库列表;
下载所需更新的细胞词库词条信息,并添加至细胞词集中。
进一步,所述的方法还可以包括:手动或者自动升级服务器端所存储的细胞词库,并更改相应的版本信息。优选的,添加过程在一独立的缓存词库中进行。
依据本发明的另一实施例,还公开了一种词库发布系统,包括:
细胞词库生成单元,包括:接口模块,用于接收输入信息;生成模块,用于依据所接收的信息生成细胞词库;标识模块,用于为每个细胞词库指定标识和版本信息;其中,所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
通信单元,用于接受触发,传输相应的符合用户个性化输入习惯的细胞词库词条信息至客户端;
修改更新模块,用于修改更新细胞词库已存信息,并通知所述标识模块针对该细胞词库生成新的版本信息。
进一步,所述的词库发布系统还可以包括:识别模块,用于比较服务器端的细胞词库列表和客户端的细胞词库列表,所得到的比较结果用于传输所需的更新数据至客户端。
优选的,依据所接收的信息得到的细胞词库中存储有多个词条信息;或者,依据所接收的信息得到的细胞词库中存储有索引信息,所述索引信息对应其他细胞词库。
进一步,所述的词库发布系统还可以包括:合并模块,用于将多个细胞词库词条信息合并为一个下载词库,并通知通信单元将该下载词库传输至客户端。
与现有技术相比,本发明具有以下优点:
本发明将现有技术中面向所有用户的标准输入法词库改进为由系统词库和细胞词集两部分构成,其中,系统词库仍面向所有用户,以通用词汇为主,而细胞词集部分则通过服务器端提供多个细胞词库,由用户选择最合适自己的,然后合并得到。因此,可以保证最后该用户使用的输入法词库仍然在现有的词库容量级别上,而又通过每个人的个性化的选择和使用,使得其基本能够覆盖一个用户几乎所有的词汇,并具有相对更准确的词频信息,从而可以大大提高首选词准确率,也可以实现更符合用户使用习惯的候选项排序。
本发明在现有的输入法的词库容量级别上实现了动态的细胞式词库,用户通过手动或者由电脑自动添加小词库,通过每个人的个性化的选择或定制,通过自动更新,和系统词库的联合使用,就能够覆盖一个用户几乎所有的词汇。这样就使用户可以输入几乎所有的词汇或句子,能够大幅提升输入法的首选词准确率。在理论上将个人的词库覆盖面扩大到最大,从而使打字的准确率有一个较大的提升。
本发明通过多个细胞词库的使用,并可以通过自动升级的方式来更新细胞词库,能够使个人的词库与时代同步。个人无需动手就能够保持词汇的新鲜度,从而在互联网日新月异的发展情况下,提高打字的首选词准确率,从而较明显的提高打字速度,降低生词的出现,降低翻页次数。
并且,本发明还提供了一个词库发布系统,用于帮助各用户手动生成自己所属群体的细胞词库,以及更新、修改该细胞词库;在客户端又增加了自动更新功能,从而可以得到分类准确的细胞词库以及实现细胞词库的自动更新,使用户与世界保持一致,永不落伍。
附图说明
图1是一种输入法系统的实施例的结构框图;
图2是一种用于完成字符输入的方法实施例的步骤流程图;
图3是一种词库发布系统实施例的结构框图;
图4是一种词库自动更新的方法实施例的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可以应用于各种输入方式的输入法平台,包括键盘符号、手写信息以及语音输入等等。即所述输入信息可以包括编码字符串,也可以包括手写输入信息以及语音输入的信息,因为这些输入方式也都需要用到词库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术,在此就不详述了。下面仅仅以编码字符串输入为例进行详细说明。
参照图1,示出了本发明一种输入法系统的实施例,具体可以包括:
输入接口单元101,用于接收用户输入的输入信息;
信息转换单元102,用于根据用户输入的输入信息,例如,接收键盘字符,进行编码转换,得到相应的候选项;
显示输出单元103,用于显示候选项,并接收用户选择,上屏输出。
系统词库104,用于记录基础字词及其相关信息;
细胞词集105,表示细胞词库的集合,用于记录扩展字词及其相关信息;所述细胞词集由从服务器端所存储的多个细胞词库中选取的至少一个细胞词库得到;每个细胞词库中的字词至少具有一个共同属性。
在字符输入的过程中,采用预置策略,检索系统词库和细胞词集,即可完成符合该用户个性化需求的输入过程。
所述细胞词库,具体含义为某一特定群体、某一个人或一部分人使用的具有某一共性的词库(即每个细胞词库中的字词至少具有一个共同属性),例如:最新电影词库、最新歌名词库、魔兽世界词库、生物学词库、清华大学所有人名词库、某某公司全体人名词库、海淀区地名词库等。获得细胞词库的方式可以为:通过一个管理机构或者服务器群来自动分类、解析获得细胞词库;也可以为:提供一服务器平台,由用户自发的手动生成自己所述的群体的细胞词库,以更好的满足个性化群体的需求。即优选的,本实施例中的所述多个细胞词库中至少存在一个细胞词库由用户手动生成。
在现有技术中,输入法平台可以运行在多种计算设备上,例如,个人电脑、个人数字助理、移动终端设备等等,本发明也可以适用在上述各种计算设备中,对其运行环境并不需要加以限制。
下面简单介绍一下汉字、韩文、日文等需要编码转换的字符输入的过程,以中文输入为例:
在中文里,作为基本语言单位的汉字并不与键盘上的按键存在对应关系。因此需要输入法进行输入转换。首先需要通过汉字编码将汉字转换成能够直接输入的字母、数字等。通常是用的编码就是拼音(包括简拼、双拼、模糊音等各种形式)。用户将汉字的编码字符串通过键盘输入计算机(某些情况下也可能使用鼠标,比如软键盘)。用户的键盘输入通过操作系统交给输入法,输入法进行解码。由于不同的汉字序列(词、句)可能具有相同的编码,因此输入法通常提供一个候选列表供用户从中选择。例如,对于拼音输入法可能包含以下步骤:
a、拼音解析:切分输入字符串得到拼音,比如zhuanli
Figure C200710099474D00101
[zhuan][li]。当然,有时候这种切分不是唯一的,比如fangan
Figure C200710099474D00102
[fang][an]或者[fan][gan](分别对应“方案”“反感”)。优选的,输入法可以支持简拼,允许用户以以下形式输入:zl,zhl,zhuanl,zhli,...。考虑到某些用户发音不标准,也可以支持模糊音:zuanli。另外还可以采用双拼等形式。
b、汉字解码。根据切分得到的拼音序列到词库中查找对应的字词,或者通过一定的算法生成对应的句子。
c、用户选择所需要的内容,上屏(可能还有造词、造句的过程)。
由于不同的汉字序列可能对应相同的编码,对于特定的编码字符串,输入法需要猜测用户真实的意图。而要做到这一点,需要词库的支持。
对于本发明而言,词库可以包含各种语言信息,例如:
(1)词条
虽然也可以在字的基础上构建输入法,但由于词才是汉语中的最小表义单位,因此现代输入法大量使用了词条信息。例如用户分别输入“zhuan”这个拼音的时候,很难确定他究竟想输入“转专赚砖......”中的哪一个字。同样,用户输入“li”的时候,也很难确定他想输入的是“里李力利......”中的哪一个字。但是,如果用户连续输入“zhuanli”这两个音节,基本上可以断定用户想输入的就是“专利”这个词。这可以大大提高输入法首选的准确度。
(2)词频
同音字大量存在,同音词也仍然是存在的。遇到这种情况,只能把所有选项列出来供用户选择。但候选位置对输入法的易用性有很大影响。一般而言,把较常用的词放到靠前的位置会对用户更有利,即词频是候选排序的重要依据。
另外,现有的很多输入法中都集成了自动构造句子的功能。此时,词频信息也是句子构造的重要依据。
上面两种语言信息是输入法词库中不可或缺的,而本发明的输入法词库还可以包括其他一些对提高输入法准确度有利的信息,例如:
语言连接关系。输入法在构造句子的过程中,除了需要考虑词频,还需要考虑词和词之间的连接关系。例如“的”常出现在形容词、名词、代词等后面,而“地”则常出现在副词后面。在这种情况下,如果用户输入了“de”,是不能只看“的”“地”哪个词频更高的。
在词库中存放了输入法所需的语言信息。用户就可以完成字符输入了。但是,不同用户所需的语言信息并不相同。比如:
(1)词条不同。几乎每个行业都有自己特殊的词汇,这些词在其他领域是很少用到的,在构造输入法词库的时候可以不必考虑。例如计算机词汇“缓存”等等。
(2)词条重要程度不同。不同的用户可能需要用到相同的词,但其重要性却随用户的不同而不同。比如同音词“研究”和“烟酒”,前者在学术领域使用较多,而后者则在日常生活中使用较多。但两者都是可能用到的,因此当用户输入拼音“yanjiu”时,都会出现在用户的候选列表中。由于重要性不同,候选位置的相对大小会影响用户的直观感受。
对于词条相对于用户的重要程度,可以通过各种方式单独使用或者组合应用,在词库中加以体现,例如:
词频信息。词频信息通常用一个数字表示,用来表示这个词的使用频繁程度;一般使用越频繁的词词频越高。
词序信息。词序信息通常也是一个数字,但只用于表示该词条重要程度的相对含义。
或者,位置信息。为了方便,也可以省略这个数据,而用词条在词库中的相对位置来表达词条的重要程度。例如,可以认为排在词库前面的词比排在后面的词更重要,从而将前者放在候选列表的前面。
由于输入法词库不可能针对每一个用户生成一个专用的词库,因此,本发明提出,将输入法词库划分为系统词库和细胞词集两部分。系统词库用于记载常用词汇,以满足大多数人在大多数情况下的输入需求,而对于某个用户的个性化需求,则通过细胞词集进行记载。为了提高细胞词集与每个用户的贴合度,通过手动或者自动的方式生成大量的细胞词库,然后由各个用户自行选择自己所需的细胞词库,得到细胞词集,这样的细胞词集与每一个用户的贴合度都是非常好的,因为个性化的部分是其自行选择的。
对于用户选择了一个细胞词库的情况,则该细胞词库可以直接构成细胞词集。
对于用户选择了多个细胞词库时,则细胞词集可以具有多种表现形式。例如:(1)在客户端,将所述的多个细胞词库合并成为一个词库,即细胞词集以一个独立词库的形式存在;该词库中可以存储各词条的来源(即所属细胞词库)信息,也可以不存储。(2)在客户端,将所述的多个细胞词库并列存储,即细胞词集以多个独立词库并存的形式存在,依次扫描该多个细胞词库即可。(3)在客户端,将所述的多个细胞词库中的一部分词库合并(例如,某些属性比较相近的词库),即细胞词集以多个独立词库并存的形式存在,但是其中某些独立词库是由多个细胞词库合并得到的。
对于细胞词集而言,由于某些语言信息比较复杂,例如,语言连接关系等等,一是难以获得,二是难以存储,所以优选的,对于细胞词集而言(实际上包括各个细胞词库),其中存储的语言信息的类型要少于系统词库中所存储的语言信息的类型。当然,细胞词集中所存储的语言信息的类型也有可能多于系统词库中所存储的语言信息的类型,例如,对于词序信息或者位置信息,一般存储在细胞词库中,而系统词库中一般没有。
进一步,本实施例的输入法系统中还可以包括用户词库106,用于记录该用户的输入习惯,以更好的满足该用户的个性化需求。
在服务器提供的平台上,存在大量的细胞词库,并且也会有大量的用户为了完善这些细胞词库,对其进行修改和更新,因此,如何将最新最好的细胞词库提供给选择该细胞词库的输入法用户使用,也是本发明需要解决的技术问题之一。
优选的,本实施例还可以包括:自动更新模块107,用于接受触发,依据已有细胞词库列表,从服务器端下载所需的更新数据。例如,该用户的输入法系统中存储有正在应用的细胞词库的信息列表,然后与服务器端的信息进行比较,如果需要更新,则根据预置的更新策略,完成下载更新。所述的更新数据可以为整个细胞词库,例如,得知该细胞词库需要更新,则直接下载该细胞词库的所有词条信息;所述的更新数据也可以为一细胞词库中的部分词条信息,例如,得知该细胞词库需要更新,则通过词条比对,仅仅下载发生变化的词条信息。当然,服务器端还可以将多个细胞词库中发生变化的词条信息合并成为一个新词库作为更新数据。
如果用户选择了多个细胞词库,则服务器端可以将这多个细胞词库合并成为一个词库,然后发送至客户端作为细胞词集,即细胞词库的数据添加任务由服务器端完成。
如果用户选择了多个细胞词库,则对于细胞词库的数据添加由输入法系统自行完成的情况下,本实施例还可以包括:添加模块108,用于将下载的细胞词库词条信息添加至所述细胞词集中。该添加模块108可以采用各种可行的添加策略,例如,所述添加方式为:完成更新下载一个细胞词库,则添加该细胞词库至所述细胞词集中;或者,所述添加方式为:完成所有待更新细胞词库的下载后,才添加至所述细胞词集中。
该添加模块108可以用于细胞词集第一次形成的时候,或者其词库更新的时候。该添加模块108可以用于下载整个细胞词库的情况,也可以用于下载一细胞词库中的部分词条信息的情况。
优选的,如果词库添加过程能够在较短时间内完成(比如不超过1秒),由于影响不大,则可以直接将添加过程插入用户的输入过程中。但如果在较短时间内无法完成以致可能影响用户的使用感受,则词库添加过程应当在一个独立的缓存词库中进行。这个过程中输入法原来的词库不受影响,用户可以正常使用。当缓存词库创建完毕后,直接替换输入法原来的词库即可。由于这个替换过程可以很快,因此可以做到对用户的正常使用干扰降到最低。
优选的,为了进一步提高用户对词库的管理,本实施例还可以包括:细胞词库停用模块109,用于接收用户指令(例如,通过点选菜单项等方式),从细胞词集中去除属于用户所选细胞词库的词条记录,达到将某个或者某些细胞词库停用的目的。
其中,所述的去除过程可以为:接收用户指令,将用户所选的细胞词库从列表中删除,并重新添加列表中的细胞词库,得到新的细胞词集。由于被删除的细胞词库已经不在列表中存在,新得到的细胞词集将不包含其中的词,效果上等价于该词库已经被删除。对于在细胞词集中独立存在的细胞词库而言,直接删除或者加上删除标记即可达到停用的目的。
或者,所述去除过程也可以为:接收用户指令,从所述细胞词集中删除属于用户所选细胞词库的词条记录,所述细胞词集中记载有各词条所属的细胞词库。或者,所述去除过程也可以为:接收用户指令,在所述细胞词集中,向属于用户所选细胞词库的词条记录添加删除标记,所述细胞词集中记载有各词条所属的细胞词库。
即作为细胞词集的大词库中记载了每个词条的来源,当用户指定删除某个细胞词库时通知输入法系统(或者其主动)将来自该词库的词条从词库中移除。这种移出可以是直接将该词条从数据结构中删除并释放其对应的空间,也可以通过一个删除标记实现。具有删除标记的词条在后续使用中将被忽略(不释放空间,但实现起来会容易些)。这种方式的好处是,当细胞词库很多时删除少量词库而引起的系统开销会比较小。
参照图2,示出了一种用于完成字符输入的方法实施例,具体可以包括:
步骤201、加载系统词库和细胞词集;所述细胞词集由从服务器端所存储的多个细胞词库中选取的至少一个细胞词库得到;每个细胞词库中的字词至少具有一个共同属性;
步骤202、接收用户的输入信息;
步骤203、依据所接收的输入信息,在所述系统词库和细胞词集中进行检索,得到相应的候选项;
步骤204、接收用户的选择信息,将指定的候选项上屏输出。
本实施例中比较重要的一个问题是,当多个词库并存时,如何完成候选项的检出。步骤201中所述的加载过程可以为:将细胞词集与系统词库合并为一个词库,置于缓存中。
输入法在启动的时候,扫描输入法系统中具有的系统词库和细胞词集,将二者合并为一个词库后载入缓存中,这样用户在后续操作中可以按照系统词库的使用方式直接使用。其中,系统词库的加载和细胞词集的加载可以分开进行,例如,简单情况下,用户仅需要加载系统词库即可,在某些情况下,用户选择或者输入法系统自动启动(例如,符合预置策略的情况下)触发启动细胞词集的加载,然后将细胞词集合并至系统词库,置于缓存中,用于用户输入时的检索。
进一步,步骤201中所述的加载过程也可以为:将细胞词集与系统词库作为两个或多个独立词库置于缓存中,并依据预置规则设定的词库优先级;所述优先级用于候选项的显示排序。
即在加载过程中,将细胞词集放到系统词库以外指定的空间,并在检索系统词库的同时也检索细胞词集。优选的,此时需要指定系统词库和细胞词集的优先级,例如,默认细胞词集的优先级高于系统词库,则输出候选项时,将所有属于细胞词集的词都强制放在属于系统词库的词的前面。
对于细胞词集为一个大词库存在时,即缓存中存在两个独立的词库。而对于细胞词集也由多个细胞词库独立组成时,则缓存中可能存在多个独立的词库。当然,此时需要设定各个词库的优先级;所述优先级用于候选项的显示排序。
优选的,对于细胞词集为一个大词库存在时,为了体现各个细胞词库的不同,也可以在细胞词集中记载有各词条所属的细胞词库以及相应的细胞词库优先级。
对于针对各个细胞词库设置有优先级的情况(包括各个细胞词库独立存在和合并为一个大词库存在的情况),则优选的,在加载过程中,可以依据输入法的使用环境动态调整细胞词库优先级。例如,细胞词集包括有“办公用语”和“网络用语”两个细胞词库,正常情况下它们的优先级是相同的。但当输入法系统识别当前应用程序为Word字处理程序时,可以给“办公用语”细胞词库加权,而当用户切换到QQ聊天程序时,则可以给“网络用语”细胞词库加权。
参照图3,示出了一种适用于前述输入法系统(为了清楚说明,采用输入法客户端一词进行描述)的词库发布系统实施例,该词库发布系统可以用于输入法客户端首次从服务器端下载细胞词库得到细胞词集的过程,也可以用于对已有细胞词库进行更新的过程。
图3所示的词库发布系统具体可以包括:
细胞词库生成单元301,包括用于接收输入信息的接口模块3011,用于依据所接收的信息得到细胞词库的生成模块3012,以及用于为每个细胞词库指定标识和版本信息的标识模块3013;每个细胞词库中的字词至少具有一个共同属性;
通信单元302,一般位于服务器端,用于接受触发信息,传输相应的细胞词库词条信息至客户端。
细胞词库生成单元301中一般位于服务器端,用于统一管理和维护细胞词库。当然,细胞词库生成单元301中的部分或者全部模块也可以位于客户端(可以为独立于输入法客户端的其他客户端)中,例如,接口模块3011和生成模块3012位于客户端,用户可以直接将生成的细胞词库文件发送至服务器端即可,由服务器端完成指定标识和版本信息的工作。
所述的触发信息可以为用户的选择操作等,也可以是输入法系统客户端自动发送的触发信息,还可以为服务器端的自动检测触发。例如,服务器或者客户端检索用户IP地址或者当前输入环境,而自动推荐相应的细胞词库给用户;或者,客户端发送的更新消息也属于触发信息的一种。
细胞词库的生成可以采用手动、自动等方式,下面对手动生成细胞词库的过程进行简单说明:
词库生成人员需要通过接口模块3011(例如,包括以词库编辑页面)提供以下信息:名称、类别、条数、版本、说明、词库作者、词条举例、词条(包括读音信息)等等。当点击提交按钮后,这些信息被保存到数据库中。然后立即启用词库生成程序。最简单的,词库生成程序直接将这些信息以文本的方式保存到一个文件中供用户下载。
例如,一个细胞词库为一个文件,其中包含的数据可能有:
 
词库序号 00015214
链接网址 http://abc.com/dict/00015214
名称 魔兽世界
类别 游戏
条数 188
版本 0008
日期 2006.12.6
说明 我做的细胞哦。
词库作者 张三 李四
词条举例 艾泽拉斯........
词条,读音,词频数据 具体数据
为了提高细胞词库添加的效率,还可以对细胞词库的格式进行必要处理。例如对其内部的词条进行排序,当然,这些工作都可以在生成模块3012中完成,然后将词条排序后的数据文件作为细胞词库文件提供给用户下载。
出于版权信息保护等目的,还可以对细胞词库进行加密处理。对应的,需要在安装细胞词库时对其进行解密。即优选的,服务器端还可以包括一加密模块,输入法客户端还可以包括一解密模块。
为了便于更新,标识模块3013同时会为每一个细胞词库指定一个唯一ID和一个版本号。
图3所示实施例中的细胞词库可以具有多种表现形式,例如:一般情况下,细胞词库中直接存储多个词条信息;或者,细胞词库中也可以仅仅存储索引信息,所述索引信息对应其他细胞词库。存储索引信息的细胞词库一般可以应用于:服务器端存储有多个依据所接收的信息得到的细胞词库,然后根据这些细胞词库的某个共性,生成一个新的细胞词库(即间接利用所接收的信息),为了实现简便,则可以仅仅在该新细胞词库中存储索引信息即可,用户需要该词库时,再由服务器端合并各相应词库后进行传输。
进一步,为了满足细胞词库的快速更新,则本实施例中词库发布系统的细胞词库生成单元301还可以包括:修改更新模块3014,用于修改更新细胞词库已存信息,并通知所述标识模块针对该细胞词库生成新的版本信息。所述修改可以为人工完成,也可以为依据一定的预置策略对细胞词库进行调整而完成,例如:其他用户向某个细胞词库中添加新的词条;或者,依据预置策略,将两个细胞词库中的词条合并为一个细胞词库;或者,依据互联网词频统计结果,将某个细胞词库中互联网词频不符合预置条件的词条进行删除或者进行排序调整。
图3所示的实施例至少可以通过以下两种方式完成细胞词库的数据添加。
一是先将细胞词库下载至本地,然后通过双击打开这个文件,完成数据的添加。细胞词库是带有某一特定后缀名的文件,例如.scd后缀。当输入法系统在安装的时候,会通过注册表将.scd后缀与一个特定的应用程序关联。当用户双击后缀为.scd文件的时候,操作系统会根据这个关联规则启动对应的应用程序模块(例如,图1所示实施例中的添加模块),完成细胞词库数据的添加。
二是通过点击页面上的链接,直接在线完成细胞词库数据的添加。用户点击页面上的细胞词库链接后,有两种方式:保存和执行。如果用户保存了细胞词库文件,同前一种方式。如果用户选择了执行,系统会将细胞词库文件保存在系统的临时文件夹中,然后运行它。其内部实现机制和第一种方式也是相同的,区别在于文件被下载到了系统临时文件夹,因此不需要用户指定下载位置。同时,系统会在必要时对临时目录进行清理,因此虽然细胞词库已经被下载到临时目录中,但实际对用户而言是不可见的。
优选的,将所下载的细胞词库添加至细胞词集的过程,还可以包含一个转换步骤,例如对词库中原来无序的词条进行排序以便提高添加的效率。如果存在这个转换步骤,将使用转换后的词库文件;否则直接使用原词库文件。当然,如果服务器端在词库生成过程中已经完成了转换排序的工作,则客户端在数据添加时就不需要重复了。
在数据添加过程中,输入法系统(即输入法客户端)需要维护一个当前所应用的细胞词库的列表。所述细胞词库列表可以采用各种可行的形式,例如,将所有活动的细胞词库拷贝到一个指定的目录中,或者保存一个文件名的列表(这个列表可以放在本地磁盘文件中,也可以存放在注册表中,或者存放在远程,例如网络上)。
对于将细胞词库的数据添加至细胞词集的过程,可以在下载完成之后立即操作(例如,通知输入法客户端开始添加操作);也可以等待输入法主动发现更新(例如用户下次启动输入法)的时候,再开始添加操作:扫描细胞词库列表,依次读入并将每个细胞词库添加到细胞词集中。
以细胞词集的表现形式为一个独立存在的大词库为例进行说明,具体的添加过程可以有两种方式:增量、批量。
批量方式是一次性将所有细胞词库中的词合并成一个大的临时词库,然后一次性加入细胞词集。这种方式实现起来会比较简单,但用户必须等待所有词库都合并完成后才能使用新加入的细胞词库。增量方式为:当读入若干个词条就将其加入细胞词集,如果合并时间很长的话,用户可以边合并边使用,但这对系统设计的要求较高。
对于增量合并方式,在合并过程中就可以使用,因此当合并完成后不需要通知输入法系统。但对于批量合并方式,需要在合并完成后通知输入法系统新的词库已经可以使用了。一种替代的做法是,直接访问输入法的存储空间并对数据进行更新,这样虽然输入法没有得到通知,但数据已经被更新,因此实际已经可以使用新的数据了。
优选的,在数据添加的过程中,还可以包括优化步骤,用于对词库中重复的词进行优化,例如,将重复的词条合并。当然,为了准确记录该词,可以在其来源属性中记录其所述的多个细胞词库的标识等信息。进一步,还可以记录该词所述的多个细胞词库的不同的优先级,用于对于不同的输入环境,采用不同的细胞词库的优先级进行候选项排序。
为了帮助输入法客户端更好的完成更新任务,则本实施例中的词库发布系统可以将更新的识别工作设置在服务器端完成。即优选的,本实施例中的词库发布系统还可以包括:识别模块303,用于比较服务器端保存的细胞词库列表和客户端发送的细胞词库列表,所得到的比较结果用于传输所需的更新数据至客户端。例如,可以将发生变化的细胞词库形成列表发送给客户端,由客户端确定和发起下载请求;或者,也可以直接由服务器将发生变化的细胞词库推送给客户端,完成更新。所述的更新数据可以为整个细胞词库,例如,识别得知该细胞词库需要更新,则传输该细胞词库的所有词条信息;所述的更新数据也可以为一细胞词库中的部分词条信息,例如,识别得知该细胞词库需要更新,则进一步通过词条比对,仅仅传输发生变化的词条信息即可。
进一步提高词库发布的效率,本实施例还可以包括:合并模块304,用于将多个细胞词库词条信息合并为一个下载词库,并通知通信单元302将该下载词库传输至客户端。所述合并单元可以用于各种可能的场景,例如,将用户所选的多个细胞词库合并为一个词库后进行传输;或者,将多个需要更新的细胞词库中的发生变化的词条信息进行合并,得到一个新词库,然后进行传输;或者,将细胞词库中索引信息相应的细胞词库进行合并,得到一个新词库,然后进行传输。
参照图4,示出了一种词库更新的方法实施例,所需更新的词库涉及到在输入法系统中记录扩展字词及其相关信息的细胞词集,所述细胞词集由从服务器端所存储的多个细胞词库中选取的至少一个细胞词库得到;每个细胞词库中的字词至少具有一个共同属性;
所述方法实施例具体可以包括:
步骤401、接受触发,比较已有细胞词库列表和服务器端细胞词库列表,得到所需更新的词库列表;所述触发可以手动触发,也可以自动触发;
步骤402、下载所需更新的细胞词库词条信息,并添加至细胞词集中。
优选的,所述方法实施例还可以包括步骤403:手动或者自动升级服务器端所存储的细胞词库,并更改相应的版本信息。所述升级可以为人工完成,也可以为依据一定的预置策略对细胞词库进行调整而完成,例如:其他用户向某个细胞词库中添加新的词条;或者,依据预置策略,将两个细胞词库中的词条合并为一个细胞词库;或者,依据互联网词频统计结果,将某个细胞词库中互联网词频不符合预置条件的词条进行删除或者进行排序调整。
为了便于更新,每个细胞词库都具有一个唯一的ID,这个唯一ID可以是一个自然增长的整数,也可以是一个网络地址或者其他信息(只要保证两个不同的细胞词库具有不同的ID就可以)。每个细胞词库还可以具有一个版本信息,这个版本信息可以是一个流水号,也可以是最后一次修改的时间。该版本信息发生了改变,则表明该词库文件需要更新。例如,采用客户端最后一次更新时间作为版本信息,如果与服务器上保存的文件更新时间相比前者有变化,那么该词库文件需要更新。
对于步骤401中的比较过程的实现可以采用多种实现方式,例如:
(1)输入法客户端将现有细胞词库列表发送给服务器,可以通过TCP/IP协议发送,或者通过HTTP协议发送;由服务器判断与列表中的ID相应的细胞词库是否需要更新。
(2)输入法客户端发起更新请求,服务器将所有的细胞词库的列表信息发回,由输入法客户端判断哪些已有词库需要更新。
(3)输入法客户端将现有细胞词库列表发送给服务器,服务器将列表中的ID相应的细胞词库的版本信息发回,由输入法客户端判断哪些已有词库需要更新。
上述几种方式对于带宽和设备计算压力各有所不同,本领域技术人员根据实际需要选用即可。
对于由服务器完成识别过程的情况而言,服务器可以将发生变化的细胞词库形成列表发送给客户端,由客户端确定和发起下载请求(例如,从中选择部分词库进行更新);或者,也可以直接由服务器将发生变化的细胞词库推送给客户端,完成更新。
对于步骤402中所下载的数据,可以为整个词库,也可以为一细胞词库中的部分词条信息,例如,发生变化的词条信息。
对于步骤402中的数据添加过程,可以采用增量模式、批量模式或者二者的结合。例如,所述添加方式为:完成更新下载一个细胞词库,则添加该细胞词库词条信息至所述细胞词集中;或者,所述添加方式为:完成所有待更新细胞词库的下载后,才添加至所述细胞词集中。
对于增量模式,可以更新一个词库就安装一个词库,其优点是已下载的词库不受未下载词库的影响,可以立即生效。但当下载词库较多时可能导致频繁的词库添加操作,加重系统负担。而批量模式则要求所有词库都下载到本地后才进行添加。由于添加操作较少,系统负荷较低。但当下载过程较长,特别是中间还可能发生下载失败的情况时,就会出现已下载的词库长期无法使用的问题。实际使用中可以将两种模式进行结合,比如每下载成功一个词库就检查距上次添加操作是否已经过了一个预定义的时间间隔。如果超过,就执行词库添加操作。
如果词库添加过程能够在较短时间内完成(比如不超过1秒),由于影响不大,可以直接插入用户的输入过程中。但如果在较短时间内无法完成以致可能影响用户的使用感受,则词库添加过程应当在一个独立的缓存词库中进行。这个过程中输入法原来的词库不受影响,用户可以正常使用。当缓存词库创建完毕后,直接替换输入法原来的词库。由于这个替换过程可以很快,因此可以做到避免对用户的正常使用构成干扰。
以上对本发明所提供的一种输入法系统、一种字符输入的方法以及一种词库更新的方法和一种词库发布系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1、一种输入法系统,包括输入接口单元、信息转换单元和显示输出单元,其特征在于,还包括:
系统词库,用于记录基础字词及其相关信息;
细胞词集,用于记录扩展字词及其相关信息;所述细胞词集由从服务器端所存储的多个细胞词库中获取的至少一个符合用户个性化输入习惯的细胞词库得到;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
加载单元,用于加载所述系统词库及细胞词集至缓存中;
所述信息转换单元用于根据缓存中的系统词库及细胞词集,针对所述输入接口单元接收的用户输入信息生成候选项;所述显示输出单元用于将所述候选项展示给用户;
自动更新模块,用于依据已有细胞词库列表,从服务器端获取所需的更新数据,对所述细胞词集进行更新。
2、如权利要求1所述的输入法系统,其特征在于,所述细胞词集中存储的相关信息类型少于或等于所述系统词库中存储的相关信息类型;所述多个细胞词库中至少存在一个细胞词库由人工手动生成。
3、如权利要求1所述的输入法系统,其特征在于,还包括用户词库。
4、如权利要求1所述的输入法系统,其特征在于,还包括:
添加模块,用于将获取的细胞词库词条信息添加至所述细胞词集中;所述细胞词集为一个独立的词库或者为多个词库并列存在的词库集合。
5、如权利要求4所述的输入法系统,其特征在于,
添加方式为:完成更新下载一个细胞词库,则添加该细胞词库词条信息至所述细胞词集中;
或者,添加方式为:完成所有待更新细胞词库的下载后,才添加至所述细胞词集中。
6、如权利要求5所述的输入法系统,其特征在于,
添加过程在一独立的缓存词库中进行。
7、如权利要求1所述的输入法系统,其特征在于,还包括:
细胞词库停用模块,用于接收用户指令,从细胞词集中去除属于用户所选细胞词库的词条记录。
8、如权利要求7所述的输入法系统,其特征在于,
去除过程为:接收用户指令,将用户所选的细胞词库从列表中删除,并重新添加列表中的细胞词库,得到新的细胞词集;
或者,去除过程为:接收用户指令,从所述细胞词集中删除属于用户所选细胞词库的词条记录,所述细胞词集中记载有各词条所属的细胞词库;
或者,去除过程为:接收用户指令,在所述细胞词集中,向属于用户所选细胞词库的词条记录添加删除标记,所述细胞词集中记载有各词条所属的细胞词库。
9、一种字符输入的方法,其特征在于,包括:
加载系统词库和细胞词集;所述系统词库用于记录基础字词及其相关信息;所述细胞词集用于记录扩展字词及其相关信息;所述细胞词集由从服务器端所存储的多个细胞词库中获取的至少一个符合用户个性化输入习惯的细胞词库得到,并利用从服务器端获取的更新数据进行更新;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
接收用户的输入信息;
依据所接收的输入信息,在所述系统词库和细胞词集中进行检索,得到相应的候选项;
接收用户的选择信息,将指定的候选项上屏输出。
10、如权利要求9所述的方法,其特征在于,
所述加载为:将细胞词集与系统词库合并为一个词库,置于缓存中;
或者,所述加载为:将细胞词集与系统词库作为两个或多个独立词库置于缓存中,并依据预置规则设定词库优先级;所述优先级用于候选项的显示排序。
11、如权利要求9所述的方法,其特征在于,所述细胞词集中记载有各词条所属的细胞词库以及相应的细胞词库优先级;所述优先级用于候选项的显示排序。
12、如权利要求11所述的方法,其特征在于,还包括:
在加载过程中,依据输入法的使用环境动态调整细胞词库优先级。
13、一种词库更新的方法,其特征在于,所更新的词库涉及用于记录扩展字词及其相关信息的细胞词集,所述细胞词集由从服务器端所存储的多个细胞词库中选取的至少一个符合用户个性化输入习惯的细胞词库得到;所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
所述方法包括:
接受触发,比较已有细胞词库列表和服务器端细胞词库列表,得到所需更新的词库列表;
下载所需更新的细胞词库词条信息,并添加至细胞词集中。
14、如权利要求13所述的方法,其特征在于,还包括:
手动或者自动升级服务器端所存储的细胞词库,并更改相应的版本信息。
15、如权利要求13所述的方法,其特征在于:
添加方式为:完成下载一个待更新细胞词库,则添加该待更新细胞词库词条信息至所述细胞词集中;
或者,添加方式为:完成所有待更新细胞词库的下载后,才添加至所述细胞词集中。
16、如权利要求15所述的方法,其特征在于,添加过程在一独立的缓存词库中进行。
17、一种词库发布系统,其特征在于,包括:
细胞词库生成单元,包括:接口模块,用于接收输入信息;生成模块,用于依据所接收的信息生成细胞词库;标识模块,用于为每个细胞词库指定标识和版本信息;其中,所述细胞词库用于记录具有同一共同属性的字词;每个细胞词库中的字词至少具有一个共同属性;
通信单元,用于接受触发,传输相应的符合用户个性化输入习惯的细胞词库词条信息至客户端;
修改更新模块,用于修改更新细胞词库已存信息,并通知所述标识模块针对该细胞词库生成新的版本信息。
18、如权利要求17所述的词库发布系统,其特征在于,还包括:
识别模块,用于比较服务器端的细胞词库列表和客户端的细胞词库列表,所得到的比较结果用于传输所需的更新数据至客户端。
19、如权利要求17所述的词库发布系统,其特征在于,
依据所接收的信息得到的细胞词库中存储有多个词条信息;
或者,依据所接收的信息得到的细胞词库中存储有索引信息,所述索引信息对应其他细胞词库。
20、如权利要求17所述的词库发布系统,其特征在于,还包括:
合并模块,用于将多个细胞词库词条信息合并为一个下载词库,并通知通信单元将该下载词库传输至客户端。
CNB2007100994746A 2007-05-22 2007-05-22 一种字符输入的方法、输入法系统及词库更新的方法 Ceased CN100483416C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2007100994746A CN100483416C (zh) 2007-05-22 2007-05-22 一种字符输入的方法、输入法系统及词库更新的方法
PCT/CN2008/071027 WO2008141583A1 (fr) 2007-05-22 2008-05-21 Procédé d'entrée de caractères, système d'entrée et procédé pour mettre à jour un lexique de mots

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100994746A CN100483416C (zh) 2007-05-22 2007-05-22 一种字符输入的方法、输入法系统及词库更新的方法

Publications (2)

Publication Number Publication Date
CN101051323A CN101051323A (zh) 2007-10-10
CN100483416C true CN100483416C (zh) 2009-04-29

Family

ID=38782735

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100994746A Ceased CN100483416C (zh) 2007-05-22 2007-05-22 一种字符输入的方法、输入法系统及词库更新的方法

Country Status (2)

Country Link
CN (1) CN100483416C (zh)
WO (1) WO2008141583A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103825952A (zh) * 2014-03-04 2014-05-28 百度在线网络技术(北京)有限公司 细胞词库推送方法和服务器

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101178741B (zh) * 2007-12-24 2010-06-23 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN101256557B (zh) * 2008-04-16 2010-06-23 腾讯科技(深圳)有限公司 自定义词管理装置、方法
CN101645088B (zh) * 2008-08-05 2016-06-01 北京搜狗科技发展有限公司 确定需要加载的辅助词库的方法、装置及输入法系统
CN101710326B (zh) * 2009-12-03 2012-10-03 腾讯科技(深圳)有限公司 词库替换方法、装置及输入法系统
CN101840418A (zh) * 2010-03-31 2010-09-22 北京搜狗科技发展有限公司 一种用户词库同步更新的方法、更新服务器及输入法系统
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
CN102346557B (zh) * 2010-07-28 2016-08-03 深圳市世纪光速信息技术有限公司 一种输入法和输入法系统
CN102346731B (zh) 2010-08-02 2014-09-03 联想(北京)有限公司 一种文件处理方法及文件处理装置
CN101995963B (zh) * 2010-11-19 2012-07-04 哈尔滨工业大学 词汇自适应中文输入方法
CN102566774A (zh) * 2010-12-26 2012-07-11 上海量明科技发展有限公司 计量用户输入字符来调整级别的方法及系统
CN102682031A (zh) * 2011-03-17 2012-09-19 新奥特(北京)视频技术有限公司 一种基于关系型数据库拼音搜索提示的方法及系统
CN102789317B (zh) * 2011-05-20 2016-05-25 腾讯科技(深圳)有限公司 一种加快文本输入的方法和装置
CN103108012B (zh) * 2011-11-15 2019-11-19 深圳市世纪光速信息技术有限公司 一种用户词库同步方法及用户词库同步服务器
CN103248551A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种信息呈现方法及系统
CN103246355B (zh) * 2012-02-06 2017-04-05 百度在线网络技术(北京)有限公司 在线输入法评测方法、系统及装置
CN103389979B (zh) * 2012-05-08 2018-10-12 深圳市世纪光速信息技术有限公司 在输入法中推荐分类词库的系统、装置及方法
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
CN104423621A (zh) * 2013-08-22 2015-03-18 北京搜狗科技发展有限公司 拼音字符串处理方法和装置
CN103473313B (zh) * 2013-09-11 2017-01-18 百度在线网络技术(北京)有限公司 输入法中名称词典的建立方法和装置
CN105824436A (zh) * 2015-01-06 2016-08-03 阿里巴巴集团控股有限公司 一种字符输入方法以及输入法系统
CN105718071A (zh) * 2016-01-19 2016-06-29 努比亚技术有限公司 输入法中推荐联想词汇的终端及方法
CN105955495A (zh) * 2016-04-29 2016-09-21 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN108228620A (zh) * 2016-12-14 2018-06-29 北京搜狗科技发展有限公司 一种词库更新方法及装置
CN106873795A (zh) * 2016-12-29 2017-06-20 北京五八信息技术有限公司 一种文字输入法、装置及终端
CN106933801B (zh) * 2017-02-13 2021-02-05 北京安云世纪科技有限公司 一种词库的更新方法和装置
CN106896937A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 用于输入信息的方法和装置
CN108628461B (zh) * 2017-03-16 2022-07-08 北京搜狗科技发展有限公司 一种输入方法和装置、一种更新词库的方法和装置
CN109240511A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 一种更新词库的方法、系统和一种用于更新词库的装置
CN109725736B (zh) * 2017-10-27 2023-02-28 北京搜狗科技发展有限公司 一种候选排序方法、装置及电子设备
CN107832035B (zh) * 2017-11-13 2021-03-12 深圳市矽昊智能科技有限公司 一种智能终端的语音输入方法
CN108256051A (zh) * 2018-01-15 2018-07-06 中企动力科技股份有限公司 网站产品生成方法及装置
CN108376129B (zh) * 2018-01-24 2022-04-22 北京奇艺世纪科技有限公司 一种纠错方法及装置
CN108399013B (zh) * 2018-03-16 2022-08-09 北京搜狗科技发展有限公司 一种用户词添加方法及装置
CN109284228A (zh) * 2018-09-25 2019-01-29 北京金山安全软件有限公司 输入法评测方法、装置、电子设备及存储介质
CN109408815A (zh) * 2018-10-09 2019-03-01 苏州思必驰信息科技有限公司 用于语音对话平台的词库管理方法和系统
CN109542248A (zh) * 2018-11-16 2019-03-29 上海二三四五网络科技有限公司 一种增量更新词库数据的控制方法及控制装置
CN112987941B (zh) * 2019-12-17 2024-02-13 北京搜狗科技发展有限公司 生成候选词的方法及装置
CN111581971B (zh) * 2020-06-04 2024-01-23 腾讯科技(深圳)有限公司 词库的更新方法、装置、终端及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1114066A (zh) * 1994-05-08 1995-12-27 刘树根 意群输入、编辑和字词语码
CN1494025A (zh) * 2002-10-31 2004-05-05 英业达股份有限公司 具有分类词库的中文输入方法及其系统
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
CN1560767A (zh) * 2004-02-24 2005-01-05 珠海市汉易通信息科技有限公司 文字输入的自动补全方法
CN100424703C (zh) * 2006-08-23 2008-10-08 北京搜狗科技发展有限公司 获取新编码字符串的方法及输入法系统、词库生成装置
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103825952A (zh) * 2014-03-04 2014-05-28 百度在线网络技术(北京)有限公司 细胞词库推送方法和服务器
CN103825952B (zh) * 2014-03-04 2017-07-04 百度在线网络技术(北京)有限公司 细胞词库推送方法和服务器

Also Published As

Publication number Publication date
CN101051323A (zh) 2007-10-10
WO2008141583A1 (fr) 2008-11-27

Similar Documents

Publication Publication Date Title
CN100483416C (zh) 一种字符输入的方法、输入法系统及词库更新的方法
EP1450267B1 (en) Methods and systems for language translation
CA2572215C (en) Nonstandard text entry
CN101816000B (zh) 用于部分输入的搜索查询的自动完成和自动输入法校正
CN101373468B (zh) 一种加载词库的方法、字符输入的方法和输入法系统
CN1707409B (zh) 用户字和用户操作的上下文预测
US9424246B2 (en) System and method for inputting text into electronic devices
CN101520786B (zh) 一种输入法词典的实现方法和输入法系统
CN1815477B (zh) 用于提供基于标记语言的限定词的方法和系统
US7272792B2 (en) Kana-to-kanji conversion method, apparatus and storage medium
US20060020576A1 (en) Search system reusing search condition and the related method
CN101645087A (zh) 一种分类词库系统及其更新和维护方法、以及客户端
JP6529761B2 (ja) 話題提供システム、及び会話制御端末装置
CN101645093A (zh) 一种分类词库实现的方法和输入法客户端
JP2007042069A (ja) 情報処理装置,情報処理方法および情報処理プログラム
JP2007072596A (ja) 情報共有システムおよび情報共有方法
JP2010257392A (ja) 文字入力装置、文字入力方法、コンピュータ読取可能なプログラムおよび記録媒体
JP2008305385A (ja) 文字入力装置、サーバ装置、辞書ダウンロードシステム、変換候補語句の提示方法、情報処理方法、プログラム
US9547701B2 (en) Method of discovering and exploring feature knowledge
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
Buyukkokten Wireless Web access on handheld devices
JP2008276304A (ja) 情報処理システム、情報処理装置、並びに、情報処理システムの制御方法及び制御プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
IW01 Full invalidation of patent right
IW01 Full invalidation of patent right

Decision date of declaring invalidation: 20161020

Decision number of declaring invalidation: 30260

Granted publication date: 20090429