CN102955825B - 一种更新输入法词库的方法及系统 - Google Patents

一种更新输入法词库的方法及系统 Download PDF

Info

Publication number
CN102955825B
CN102955825B CN201110253506.XA CN201110253506A CN102955825B CN 102955825 B CN102955825 B CN 102955825B CN 201110253506 A CN201110253506 A CN 201110253506A CN 102955825 B CN102955825 B CN 102955825B
Authority
CN
China
Prior art keywords
entry
existing
lastest imformation
input method
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110253506.XA
Other languages
English (en)
Other versions
CN102955825A (zh
Inventor
查文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201110253506.XA priority Critical patent/CN102955825B/zh
Publication of CN102955825A publication Critical patent/CN102955825A/zh
Application granted granted Critical
Publication of CN102955825B publication Critical patent/CN102955825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种更新输入法词库的方法及系统,其中,所述方法包括:获取词条更新信息;根据所述词条更新信息对输入法词库中已有词条的属性进行更新;依据更新后的词条属性提供候选项。通过本发明,能够针对热词实现较短的词库更新周期,有利于提高输入法系统的性能。

Description

一种更新输入法词库的方法及系统
技术领域
本发明涉及输入法技术领域,特别是涉及一种更新输入法词库的方法及系统。
背景技术
输入法系统作为人机对话的接口,提供了将各种文字输入计算机或其他设备(如手机)的编码方法。换言之,对于需要编码才能完成输入的文字,如果想要将某些文字内容输入到计算机中,则需要借助于输入法系统才能完成。因此,输入法系统在人机交互过程中其中举足轻重的作用。
输入法系统通常都具有自己的词库,对于中文、日文等文字而言,输入法的词库中保存了常用词条以及对应的编码字符串(如拼音等),当用户通过键盘等输入设备输入了某编码字符串之后,输入法系统就可以通过查询词库,将该编码字符串对应的词条展现给用户。当然,由于同音字词的存在,同一编码字符串往往对应着多个词条,但各个词条的使用频率可能各有不同,因此,词库中通常还保存有各个词条对应的词频。这样,当用户输入一个编码字符串之后,如果发现对应着多个词条,输入法系统就可以依据词频由大到小的顺序,将各个词条展现给用户。
对于输入法系统而言,词库的质量是衡量其性能的很重要的一个方面,一个高质量的词库能够提高首选词的命中率,进而提高字词输入的速度。目前的主流输入法则是通过统计搜索引擎中收录的页面中文字的出现概率来得到。具体实现时,首先由服务器端通过网络爬虫抓取页面,然后做分词处理,再将其中的有效部分制作成词库,只有当服务器端生成了新版本的词库,客户端的输入法词库才会得到更新。而这一周期会比较长,往往需要几个月的时间,在实际应用中,涉及更多流程步骤,迁延的时期更长。每次作词库更新时,都需要重复该过程,因此,词库的更新周期会比较长。
现有技术中,针对新词,通常可以通过词库增量的方式,实现较短的更新周期。例如,有些输入法系统可以每天或者用户每次开机时,将新词添加到输入法词库中。但是,在实际应用中,还有些词条具有以下特征:这些词条在系统词库中存在,但相对于同音下的其他词条而言,平均词频可能比较低,因此,当用户输入其编码字符串时,该词条在候选项中的排序可能比较靠后;但是,这些词条却可能存在阶段性的使用频率增高的现象(通常将这种词条称为热词),此时,如果仍然按照当前词库给出候选项,则会影响到输入速度。如果等待服务器端生成新的词库,则长的更新周期可能会导致该词条的热度可能已经过了,即使在新的词库中,该词条的词频等发生了变化,也已经失去意义了。
发明内容
本发明提供一种更新输入法词库的方法及系统,能够针对热词实现较短的词库更新周期,有利于提高输入法系统的性能。
本发明提供了如下方案:
一种更新输入法词库的方法,包括:
获取词条更新信息;
根据所述词条更新信息对输入法词库中已有词条的属性进行更新;
依据更新后的词条属性提供候选项。
优选地,所述词条更新信息包括至少一个已有词条的词频和/或多元关系的更新指示;
所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:对输入法词库中已有词条的词频和/或多元关系进行更新。
其中,所述对已有词条的多元关系进行更新包括:修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。
优选地,所述词条更新信息包括至少一个已有词条的热词标签更新指示;
所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:为输入法词库中的已有词条或已有词条的多元关系添加热词标签;
所述依据更新后的词条属性提供候选项包括:在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。
其中,所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:为输入法词库中的已有词条或已有词条的多元关系删除热词标签。
优选地,所述方法还包括:
获取所述词条更新信息的有效时间;
当到达所述有效时间时,将所述输入法词库中已有词条的属性恢复到更新前的状态。
优选地,所述获取词条更新信息包括:从服务器接收所述词条更新信息。
优选地,所述获取词条更新信息包括:从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;
所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。
一种更新输入法词库的系统,包括:
词条更新信息获取单元,用于获取词条更新信息;
更新单元,用于根据所述词条更新信息对输入法词库中已有词条的属性进行更新;
候选项提供单元,用于依据更新后的词条属性提供候选项。
优选地,所述词条更新信息包括至少一个已有词条的词频和/或多元关系的更新指示;
所述更新单元包括:
第一更新子单元,用于对输入法词库中已有词条的词频和/或多元关系进行更新。
其中,所述第一更新子单元对已有词条的多元关系进行更新包括:修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。
优选地,所述词条更新信息包括至少一个已有词条的热词标签更新指示;
所述更新单元包括:
第二更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系添加热词标签;
所述候选项提供单元具体用于:在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。
优选地,所述更新单元包括:
第三更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系删除热词标签。
优选地,所述系统还包括:
有效时间获取单元,用于获取所述词条更新信息的有效时间;
属性恢复单元,用于当到达所述有效时间时,将所述输入法词库中已有词条的属性恢复到更新前的状态。
优选地,所述词条更新信息获取单元包括:
第一获取子单元,用于从服务器接收所述词条更新信息。
优选地,所述词条更新信息获取单元包括:
第二获取子单元,用于从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;
所述更新单元具体用于:在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例中,可以将输入法词库中已有词条的属性进行与时事相关的更新,进而改变候选项的展现,这样,针对热词也能够实现较短的更新周期,从而提高输入法词库的质量,提高输入速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的方法的流程图;
图2是本发明实施例提供的系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
首先,为了便于理解,首先对输入法词库进行简单的介绍。通常,输入法词库中保存有词条及其对应的词频,以及词条之间的多元关系。其中,对于输入法词库而言,传统概念中的字、词、词组、句子、段落,凡能够一次编码输入的都不加以区别,而作为同样的一个数据输入单元,统称为“词条”,也就是说,输入法词库中的“词条”可能是仅有一个字,也可能由多个字组成。如果用户输入了编码字符串之后,能够直接命中词库中的词条,则该词条就可以作为候选项展现给用户供用户选择。其中,一个编码字符串可能对应着多个词条,此时,主要根据不同词条之间的词频,对各个词条进行排序之后,再展现给用户。
另外,为了实现输入法系统的组词功能,输入法词库中还可以包括词条之间的多元关系,输入法系统根据多元关系可以知悉哪些词条适于进行组合。例如,当用户输入一个长的短语或句子的编码字符串时,可能不能直接命中词库中的单个词条,此时,就可以根据词条之间的多元关系,为用户提供候选项。如,用户输入的是“ligangshijian”,词库中没有预置对应的词条,但是,存在“李刚”与“事件”之间的二元关系,或者,“离岗”与“时间”之间的二元关系;则可以首先将“ligang”转换为“李刚”、“离岗”、“离港”等,并将“shijian”转换为“时间”、“事件”、“实践”“世间”等等,然后,根据二元关系,为用户提供“离岗时间”及“李刚事件”作为候选项。其中,同一编码字符串同样可能对应多个经组词得到的词条,为了确定各个组词词条的展现顺序,输入法词库中还可以保存多元关系之间的强度信息,这样,就可以按照多元关系的强弱、或者词频和多元关系的强弱来确定组词词条在候选项中出现的位置。
在展现候选项时,对于出现在第一位的候选项(通常称为首选项),用户可以直接按下“空格键”将其上屏输出到应用程序中,而其他的候选项则需要按下数字键,甚至还需要按下“翻页”键等才能将其上屏输出。而通过直接按下空格键上屏的方式,最便于用户的操作。因此,对于输入法系统而言,首选项的命中率是很重要的。如果在用户输入的过程中,多数情况下,都能直接将用户想要输入的词条展现在首选项的位置,则可以大大地提高输入的速度。
如前文所述,各个词条在候选项中的位置,取决于词条在输入法词库中的词频或者多元关系的强度,因此,如果想要改变某词条在候选项中的位置,则通常需要改变其在输入法词库中的词频或多元关系的强度,使其与其他词条的词频或多元关系强度的相对关系发生变化。但是,现有技术中要想实现这种变化,通常只有两种途径:一种是安装新版本的词库,另一种就是当用户想要提高某词条的词频时,可以采用连续多次输入这个词条的方式,使得本地词库中该词条的词频累积到比较高的值。但是,前一种方式的更新周期比较长,对于与时事相关的热词而言,如此长的更新周期可能会使得新版本的词库中无法体现出热词的特点;而后一种方式则需要用户进行手动的操作,比较不方便,并且这种操作仅能增加词条的词频,无法降低,当过了一段时间词条的热度过了之后。则很难将其恢复到原来的词频。
参见图1,本发明实施例提供的更新输入法词库的方法可以包括以下步骤:
S101:获取词条更新信息;
该步骤的执行主体为输入法系统的客户端。具体实现时,客户端可以从服务器下载保存有词条更新信息的更新文件,然后对该更新文件进行解析,从中获取词条更新信息。或者,词条更新信息也可能是保存在客户端本地,也即,也可以从客户端本地获取词条更新信息。从词条更新信息中,客户端可以获得针对哪个或哪些词条属性的更新指示。
S102:根据所述词条更新信息对输入法词库中已有词条的属性进行更新;
其中,已有词条的属性可以包括已有词条的词频、已有多元关系的强度等等。因此,获得了词条更新信息之后,客户端就可以根据这些词条更新信息对已有词条属性进行更新,例如,可以包括:对已有词条的词频、已有多元关系的强度等等进行修改,或者,还可以为已有词条或多元关系添加或删除热词标签,或者,还可以增加新的多元关系或删除已有的多元关系,等等。
S103:依据更新后的词条属性提供候选项。
在对已有词条属性的更新之后,就可以依据更新后的词条属性信息,来提供候选项,与未更新词条属性之前相比,候选项在显示上的不同可能在于:改变这些词条或组词词条在候选项中的位置,或者,对于原来无法一次性给出的候选项,也能够通过新增的多元关系,作为一个组词词条给出,等等。其中,对于修改词条的词频或多元关系的方式而言,输入法系统在展现候选项时展现规则可以不变,仍然按照词频或多元关系强度的大小进行排序。而对于为已有词条或已有多元关系添加热词标签的情况,则可以对展现规则进行修改,使得输入法系统在确定候选项的展现顺序时,优先考虑词条是否带有热词标识,然后再考虑词频即可;或者优先考虑组词词条的多元关系是否带有热词标签,然后再考虑多元关系的强度或词频等因素。
下面通过具体的实施方式,对本发明实施例进行详细地介绍。
实施方式一
在该实施方式一中,客户端可以从服务器获取词条更新信息,在词条更新信息中可以指明待更新的词条是哪个或哪些,如果涉及词频或多元关系强度更改的,还可以指明更改后的词频或多元关系强度的具体数值,如果是新增某多元关系,还可以指明新增的是哪些词条之间的多元关系,等等。
在此情况下,在服务器端,可以持续收集与时事等相关的热词,并在收集到热词之后,将需要更新的信息制作成更新文件供客户端下载。这样,客户端就可以从下载得到的更新文件中获取上述词条更新信息,然后按照具体的信息内容进行更新即可。当然,在实际应用中,为了便于实现,还可以为更新文件加入版本号等标识。这样,当客户端联网时就可以将上次更新时的更新文件版本与服务器端的更新文件版本进行比对,如果发现有新版本,就可以下载到本地。
其中,服务器端收集热词的具体方法可以包括多种。例如,可以采用人工监控的方式来发现;或者,还可以基于搜索词进行统计,也即,记录网络中的多个用户在使用搜索引擎进行搜索时,在搜索框内输入的查询词,如果发现一段时间内,某词条的查询量非常大,则可以将其作为热词收集起来。或者,还可以根据直接数据源来获取,所谓直接数据源可以包括新闻源、科研数据库等等。在获知了与时事相关的热词之后,具体在制作更新文件时,可以根据具体的热词以及输入法词库的实际情况,确定需要更新的信息。其中,需要更新的信息主要包括对哪些词条的何种属性进行怎样的更新。其中,如前文所述,词条的属性可以包括词条的词频、或者,词条之间是否具有多元关系、多元关系的强度,等等。相应的,对词条的属性进行更新时,可以包括对词条的词频进行更新、对已有多元关系的强度进行更新,或者,增加新的多元关系、删除已有的多元关系,等等。
例如,收集到的某热词是“李刚”,则需要更新的信息首先可以包括“李刚”这个词条,以及为该词条设置的新的词频。同时,与该热词相关的可能还有“李刚事件”等,由于词库中可能不包含“李刚事件”这个词条,但是可能包含“李刚”与“事件”之间的二元关系,因此,还可以为“李刚”与“事件”之间的二元关系设置新的强度值,作为需要更新的信息保存在更新文件中。另外,输入法词库中也可能不包含“李刚”与“事件”之间的二元关系,但是分别存在“李刚”及“事件”这两个词条,此时,还可以将新增“李刚”与“事件”之间的二元关系作为需要更新的信息保存在更新文件中,同时,还可以为该新增的二元关系设置较高的二元关系强度值。
通过以上热词更新信息,就使得随着热词的出现时间而改变输入法词库中已有词条的词频和/或多元关系成为可能,进而改变热词在候选项中出现的位置。
如前文所述,热词通常具有阶段性使用频度升高的特点,也就是说,热词通常具有有效期,在该有效期之内可能是热词,过了该有效期,就不再是热词了。
对于这种阶段性的热词,在本发明实施例的一种实现方式中,可以在获取热词更新信息的同时,获取热词的有效时间,也就是说,可以将有效时间作为更新文件中的一个参数,一起提供给客户端。客户端在执行了更新的同时开始计时,当达到该有效时间后,就可以将之前更新过的属性恢复到更新前的状态。具体的,包括将词条的词频降为原来的值,将多元关系强度降为原来的值,或者删除增加的多元关系等等。可见,通过这种方式,可以很方便地调整输入法词库中已有信息的属性,使得输入法词库中的词条或多元关系能够呈现出与时事相关的暂时性提高,之后又回落到原来的状态。例如,在当前的输入法词库,编码字符串“yangshi”对应的默认首选项是“样式”;但是,当出现央视大火这一时事时,通过本发明实施例,就可以将“央视”的词频暂时提高,这样,就可以使得“央视”暂时成为“yangshi”的首选项。过了一个月之后,该事件逐渐淡出了人们的视线,因此,又可以将“央视”恢复到原来的词频。显然,这可以进一步提高输入法词库的质量,提升用户的输入速度。
对于这种阶段性的热词,在本发明实施例的另一种实现方式下,服务器端可以在一定时期后再次修改已经过时的热词的词频,或者与其他词条之间的多元关系(包括修改多元关系的强度、删除多元关系等等),同样将这些信息制作成更新文件,客户端在下载到该更新文件之后,依据更新文件中的具体数据,重新对词条词频、多元关系等进行修改即可。
实施方式二
在前述实施方式一中,在更改词条属性时,是通过改变词条的词频、词条之间的多元关系(包括改变多元关系的强度、新增或删除多元关系)等方式来进行的,而在实施方式二中,还可以通过为词条或者词条之间的多元关系增加热词标签的方式,来实现对词条属性的更改,对于客户端而言,只要约定在展现候选项时优先展现带有热词标签的词条、或者带有热词标签多元关系的组词词条即可。此时,在生成热词更新信息时,可以不必在热词更新信息中指明更新后的词频或强度值,而是直接在热词更新信息中通过热词标签直接指明其为热词即可。
也就是说,在这种方式下,服务器在获知热词之后,可以为相应的词条或多元关系增加热词标签,并据此制作成更新文件。此时,客户端在下载得到服务器端的更新文件之后,就可以根据更新文件中的热词标签,为客户端词库中对应的词条或者词条之间的多元关系打上热词标签,或者在客户端词库中增加词条之间的带有热词标签的多元关系等等,这样,客户端就可以在展现候选项时,优先展现带有热词标签的词条或者根据带有热词标签的二元关系生成的词条。
例如,仍以服务器收集到某热词“李刚”为例,则需要更新的信息可以包括“李刚”这个词条,同时,与该热词相关的可能还有“李刚事件”等,这样,在制作更新文件时,就可以为“李刚”这一词条打上热词标签,并为“李刚”与“事件”之间的二元关系打上热词标签,并将这些信息作为需要更新的信息保存在更新文件中。这样,客户端在下载到该更新文件之后,就可以与客户端词库中的词条以及二元关系进行比对,并将对应的“李刚”这一词条打上热词标签,将“李刚”与“事件”之间的二元关系打上热词标签;当然,客户端词库中可能还不存在“李刚”与“事件”之间的二元关系,则,可以首先增加“李刚”与“事件”之间的二元关系,然后再为其打上热词标签。这样,当用户输入“ligang”时,就可以将带有热词标签的词条“李刚”优先展现,或者,当用户输入“ligangshijian”时,就可以将依据带有热词标签的二元关系(“李刚”与“事件”)生成的词条“李刚事件”优先展现。
与实施方式一类似,同样可以为这种更新文件设置版本号,以便只有当客户端发现服务器端出现新版本的更新文件时再进行下载,以避免造成传输等资源的浪费。
另外,对于阶段性的热词,在一种方式下,服务器端可以在一定时期后将去掉词条或者多元关系的热词标签的更新信息制作成更新文件,客户端在下载到该更新文件之后,依据更新文件,将客户端词库中相应词条的热词标签、多元关系的热词标签去掉,或者将多元关系删除即可。
或者,在另一种方式下,有效时间同样可以作为更新文件中的一个参数,一起提供给客户端,客户端在执行了更新的同时开始计时,到达该有效时间之后就可以执行恢复的操作,去掉相应词条的热词标签、多元关系的热词标签、或者删除多元关系。
实施方式三
在前述实施方式一以及实施方式二中,都是由服务器端收集热词,并制作相应的更新文件,由客户端进行下载以及词条属性的更新。而在实施方式三中,对于一些特殊的热词,也可以在客户端设置热词相关信息,此时,相当于是在客户端的输入法词库中为可能成为热词的词条或者多元关系增加一条属性,以表明在何种条件下,将该词条作为热词处理,据此,客户端就可以直接在本地获取热词更新信息。这种特殊的热词通常是指一些有规律的按时间出现的热词。如,一些与节日相关的热词等。对于这类词条,就可以直接在输入法词库中为其增加一条属性,以表明何时将其作为热词来处理。例如,由于每年的“五一”、“端午”、“新年”等节日期间,一些与旅游、出行、购物等相关的词条都可能成为热词,因此,就可以预先为这些词条设置热词触发条件,具体的条件与节日的实际时间相关。这样,对于客户端而言,一旦发现当前的时间满足某词条的热词触发条件,就可以将其作为热词进行处理。具体的处理可以参照前述实施例,例如可以包括提高词频或多元关系强度,新增多元关系,或者加上热词标签等等。其中,为了便于确定更新后的词频或多元关系强度的具体取值,可以预先设置词条作为热词之后的词频或者多元关系强度,客户端可以据此进行更新。
为了体现热词的阶段性,在实施方式三中,还可以在输入法词库中为词条增加另一条属性(为便于描述,下面将该属性称为“第二属性”,前述用于表明何种条件下将词条作为热词处理的属性称为“第一属性”),以此来体现出词条或二元关系作为热词的有效时间。这样,客户端就可以在依据词条的第一属性将其作为热词处理的同时开始计时,当通过第二属性体现出的有效时间到时时,就可以将词条的词频、多元关系等复原,或者将热词标签删除。
总之,在本发明实施例中,可以实现将输入法词库中已有信息的属性进行与时事相关的更新,从而提高输入法词库的质量,提高输入速度。其中,在对已有信息的属性进行更新时,可以改变已有词条的词频,或者改变已有多元关系的强度,或者为已有词条或多元关系增加热词标签,或者增加新的多元关系、删除已有的多元关系,等等。
与本发明实施例提供的更新输入法词库的方法相对应,本发明实施例还提供了一种更新输入法词库的系统,参见图2,该系统包括:
词条更新信息获取单元201,用于获取词条更新信息;
更新单元202,用于根据所述词条更新信息对输入法词库中已有词条的属性进行更新;
候选项提供单元203,用于依据更新后的词条属性提供候选项。
其中,所述词条更新信息可以包括至少一个已有词条的词频和/或多元关系的更新指示;
更新单元202包括:
第一更新子单元,用于对输入法词库中已有词条的词频和/或多元关系进行更新。
其中,所述第一更新子单元对已有词条的多元关系进行更新包括:修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。
在实际应用中,所述词条更新信息也可以包括至少一个已有词条的热词标签更新指示;
此时,更新单元202可以包括:
第二更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系添加热词标签;
候选项提供单元203具体用于:在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。
另外,更新单元还可以包括:
第三更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系删除热词标签。
由于通常是针对可能成为热词的词条进行属性的更新,同时热词通常又具有阶段性的特点,因此,该系统还可以包括:
有效时间获取单元,用于获取所述词条更新信息的有效时间;
属性恢复单元,用于当到达所述有效时间时,将所述输入法词库中已有词条的属性恢复到更新前的状态。
具体在获取词条更新信息时,可以有多种途径,例如可以从服务器获取,还可以预先在本地输入法词库中预置,并从本地输入法词库中获取,等等。其中,当从服务器获取时,词条更新信息获取单元201可以包括:
第一获取子单元,用于从服务器接收所述词条更新信息。
当从本地输入法词库中获取时,词条更新信息获取单元包括:
第二获取子单元,用于从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;
相应的,更新单元202具体可以用于:在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。
通过本发明实施例提供的上述更新输入法词库的系统,可以将输入法词库中已有词条的属性进行与时事相关的更新,进而改变候选项的展现,这样,针对热词也能够实现较短的更新周期,从而提高输入法词库的质量,提高输入速度。
需要说明的是,以上所述更新输入法词库的系统是与前述更新输入法词库的方法相对应的,因此,系统实施例中未详述部分可以参见方法实施例中的介绍,这里不再赘述。
以上对本发明所提供的一种更新输入法词库的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种更新输入法词库的方法,其特征在于,包括:
获取词条更新信息,所述词条更新信息由收集的热词制作得到,所述词条更新信息包括至少一个已有词条的词频和/或多元关系的更新指示;
根据所述词条更新信息对输入法词库中已有词条的属性进行更新,包括:对输入法词库中已有词条的词频和/或多元关系进行更新;
依据更新后的词条属性提供候选项;
其中,所述词条更新信息包括至少一个已有词条的热词标签更新指示;
所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:为输入法词库中的已有词条或已有词条的多元关系添加热词标签;
所述依据更新后的词条属性提供候选项包括:在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。
2.根据权利要求1所述的方法,其特征在于,所述对已有词条的多元关系进行更新包括:修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。
3.根据权利要求1所述的方法,其特征在于,所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:为输入法词库中的已有词条或已有词条的多元关系删除热词标签。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述词条更新信息的有效时间;
当到达所述有效时间时,将所述输入法词库中已有词条的属性恢复到更新前的状态。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取词条更新信息包括:从服务器接收所述词条更新信息。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述获取词条更新信息包括:从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;
所述根据词条更新信息对输入法词库中已有词条的属性进行更新包括:在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。
7.一种更新输入法词库的系统,其特征在于,包括:
词条更新信息获取单元,用于获取词条更新信息,所述词条更新信息由收集的热词制作得到,所述词条更新信息包括至少一个已有词条的词频和/或多元关系的更新指示;
更新单元,用于根据所述词条更新信息对输入法词库中已有词条的属性进行更新;
候选项提供单元,用于依据更新后的词条属性提供候选项;
所述更新单元包括:
第一更新子单元,用于对输入法词库中已有词条的词频和/或多元关系进行更新;
其中,所述词条更新信息包括至少一个已有词条的热词标签更新指示;
所述更新单元包括:
第二更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系添加热词标签;
所述候选项提供单元具体用于:在展现候选项时,将带有热词标签的词条或多元关系进行优先展现。
8.根据权利要求7所述的系统,其特征在于,所述第一更新子单元对已有词条的多元关系进行更新包括:修改已有多元关系的强度、增加词条之间新的多元关系、或删除词条之间已有的多元关系。
9.根据权利要求7所述的系统,其特征在于,所述更新单元包括:
第三更新子单元,用于为输入法词库中的已有词条或已有词条的多元关系删除热词标签。
10.根据权利要求7所述的系统,其特征在于,还包括:
有效时间获取单元,用于获取所述词条更新信息的有效时间;
属性恢复单元,用于当到达所述有效时间时,将所述输入法词库中已有词条的属性恢复到更新前的状态。
11.根据权利要求7至10任一项所述的系统,其特征在于,所述词条更新信息获取单元包括:
第一获取子单元,用于从服务器接收所述词条更新信息。
12.根据权利要求7至10任一项所述的系统,其特征在于,所述词条更新信息获取单元包括:
第二获取子单元,用于从预置的热词相关信息中,获取所述词条更新信息;所述热词相关信息包括已有词条的属性更新指示及触发条件;
所述更新单元具体用于:在满足所述触发条件时,根据所述更新指示对已有词条的属性进行更新。
CN201110253506.XA 2011-08-30 2011-08-30 一种更新输入法词库的方法及系统 Active CN102955825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110253506.XA CN102955825B (zh) 2011-08-30 2011-08-30 一种更新输入法词库的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110253506.XA CN102955825B (zh) 2011-08-30 2011-08-30 一种更新输入法词库的方法及系统

Publications (2)

Publication Number Publication Date
CN102955825A CN102955825A (zh) 2013-03-06
CN102955825B true CN102955825B (zh) 2016-04-06

Family

ID=47764635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110253506.XA Active CN102955825B (zh) 2011-08-30 2011-08-30 一种更新输入法词库的方法及系统

Country Status (1)

Country Link
CN (1) CN102955825B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399766B (zh) * 2013-07-29 2016-05-11 百度在线网络技术(北京)有限公司 更新输入法系统的方法和设备
CN109829010B (zh) * 2017-08-28 2023-11-14 西安中兴新软件有限责任公司 一种词条修改方法和词条修改装置
CN109725737B (zh) * 2017-10-31 2022-10-25 北京金山安全软件有限公司 一种信息展示方法、装置及系统
CN109542248A (zh) * 2018-11-16 2019-03-29 上海二三四五网络科技有限公司 一种增量更新词库数据的控制方法及控制装置
CN109800412A (zh) * 2018-12-10 2019-05-24 鲁东大学 一种中文分词和大数据信息检索方法及装置
CN111090720B (zh) * 2019-11-22 2023-09-12 北京捷通华声科技股份有限公司 一种热词的添加方法和装置
CN115729360A (zh) * 2021-08-30 2023-03-03 维沃移动通信有限公司 输入法词库更新方法、装置、设备及服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912872A (zh) * 2006-07-25 2007-02-14 北京搜狗科技发展有限公司 一种提取新词的方法和系统
CN101777054A (zh) * 2009-01-14 2010-07-14 北京搜狗科技发展有限公司 一种展现词条属性信息的方法及装置
CN101840418A (zh) * 2010-03-31 2010-09-22 北京搜狗科技发展有限公司 一种用户词库同步更新的方法、更新服务器及输入法系统
CN102073527A (zh) * 2011-01-26 2011-05-25 百度在线网络技术(北京)有限公司 一种输入法词库的升级方法和装置
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912872A (zh) * 2006-07-25 2007-02-14 北京搜狗科技发展有限公司 一种提取新词的方法和系统
CN101777054A (zh) * 2009-01-14 2010-07-14 北京搜狗科技发展有限公司 一种展现词条属性信息的方法及装置
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN101840418A (zh) * 2010-03-31 2010-09-22 北京搜狗科技发展有限公司 一种用户词库同步更新的方法、更新服务器及输入法系统
CN102073527A (zh) * 2011-01-26 2011-05-25 百度在线网络技术(北京)有限公司 一种输入法词库的升级方法和装置

Also Published As

Publication number Publication date
CN102955825A (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
CN102955825B (zh) 一种更新输入法词库的方法及系统
CN100405371C (zh) 一种提取新词的方法和系统
CN106484858B (zh) 热点内容推送方法和装置
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN108200220A (zh) 一种数据同步方法、服务器及存储介质
CN104346471A (zh) 基于地理位置信息确定待推送应用的方法、装置和系统
CN103678494A (zh) 客户端同步服务端数据的方法及装置
CN102591880A (zh) 信息提供方法及装置
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN111339171B (zh) 数据查询的方法、装置及设备
CN112905178B (zh) 业务功能页面生成方法、装置、设备及介质
CN108154376B (zh) 数据处理方法及装置
CN113159807A (zh) 落地页处理方法、装置、设备和介质
CN113051460A (zh) 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN101957860B (zh) 一种发布、搜索信息的方法及装置
CN110515979B (zh) 数据查询方法、装置、设备和存储介质
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
CN101694656A (zh) 搜索请求方法、搜索方法、设备及系统
CN102508884A (zh) 热点事件与实时评论的获取方法及装置
CN108959294A (zh) 一种访问搜索引擎的方法和装置
CN112699314A (zh) 热点事件确定方法、装置、电子设备及存储介质
CN113157904A (zh) 基于dfa算法的敏感词过滤方法及系统
CN102737082A (zh) 一种动态更新文稿数据索引的方法和系统
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
CN107622125B (zh) 一种信息爬取方法和装置、电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant