CN103825952B - 细胞词库推送方法和服务器 - Google Patents

细胞词库推送方法和服务器 Download PDF

Info

Publication number
CN103825952B
CN103825952B CN201410075797.1A CN201410075797A CN103825952B CN 103825952 B CN103825952 B CN 103825952B CN 201410075797 A CN201410075797 A CN 201410075797A CN 103825952 B CN103825952 B CN 103825952B
Authority
CN
China
Prior art keywords
dictionary
client
cell
weights
downloaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410075797.1A
Other languages
English (en)
Other versions
CN103825952A (zh
Inventor
陈龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410075797.1A priority Critical patent/CN103825952B/zh
Publication of CN103825952A publication Critical patent/CN103825952A/zh
Priority to JP2014264835A priority patent/JP6148661B2/ja
Priority to US14/585,128 priority patent/US9916288B2/en
Priority to EP14200483.7A priority patent/EP2919126A3/en
Application granted granted Critical
Publication of CN103825952B publication Critical patent/CN103825952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/18Commands or executable codes

Abstract

本发明公开了一种细胞词库推送方法和服务器。所述服务器用于接收客户端发送的输入法日志信息;获取输入法日志信息中的客户端ID和客户端选中词;查找与客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取未下载细胞词库中包括客户端选中词的第一匹配词库,将第一匹配词库对应于所述客户端ID的词库权值增加第一权值;当词库权值大于推送阈值时,将第一匹配词库推送至对应的客户端;在未下载细胞词库列表中,删除被推送的第一匹配词库。本发明在客户端不主动下载细胞词库的情况下,将客户端实际需要的细胞词库推送至客户端,增加了客户端对某一类别词条的输入精度,提高了客户端的输入效率。

Description

细胞词库推送方法和服务器
技术领域
本发明涉及通信技术和计算机领域,尤其涉及一种细胞词库推送方法和服务器。
背景技术
随着计算机技术的普及,计算机设备已经走入人们的工作、学习和生活中。输入法系统作为人机对话的接口,提供了将各种文字输入计算机或者其他移动终端的编码方法。因此,输入法已经成为用户与计算机交互的重要手段。当前的输入法系统一般是基于其词库中的候选词以及与候选词对应的候选词权重值为用户在输入过程中提供候选词及其排序。候选词及其排序是用户在输入过程中首选词命中高低的一个重要指标。
由于不同的用户对于输入法的候选词条存在个性化的领域需求,例如,一个计算机领域的用户在日常生活中需要频繁使用到计算机相关的专业术语,而这些词语并不是每个用户都需要的。因此,对于这部分需求,输入法系统一般是通过细胞词库来满足。所述细胞词库,是指可细分化词库的功能名称,一个细胞词库就是一个细分类别的词汇集合,细胞词库的类别可以是某个专业领域(如医学领域词库),也可以是某个地区(如北京地名词库),也可以是某个游戏(如魔兽世界词汇)等。用户端通过对不同领域的专业词库有选择的下载,能够方便的使用输入法提供的细胞词库,提高了用户端的输入效率。
在现有技术中,用户主要通过主动下载的方式获取需要的细胞词库,但是,随着社会节奏的加快,人们对于软件的学习时间也越来越短,很多人根本意识不到自己对某一类细胞词库的使用需求;同时,用户仅能通过细胞词库的命名主观判断是否需要下载相应的细胞词库,在一些特定情况下,用户是很难仅通过细胞词库的命名来获取该词库所有信息的,因此,用户的主观判断也是不尽准确的;另外,如果用户将所有的细胞词库均下载到用户词典中,不仅会增加输入法软件的负担,也会在用户日常的输入过程中出现一些不常用的候选词,增加了用户对于候选词的选择成本。
发明内容
有鉴于此,本发明提供一种细胞词库推送方法和服务器,在客户端不主动下载细胞词库的情况下,将客户端实际需要的细胞词库推送至客户端,增加了客户端对某一类别词条的输入精度,提高了客户端的输入效率。
在第一方面,本发明实施例提供了一种细胞词库推送服务器,包括:
日志接收单元,用于接收客户端发送的输入法日志信息;
参数获取单元,用于获取所述输入法日志信息中的客户端ID和客户端选中词;
第一词库权值累加单元,用于查找与所述客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取所述未下载细胞词库中包括所述客户端选中词的第一匹配词库,将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值;
词库推送单元,用于将对应于所述客户端ID的词库权值大于推送阈值的第一匹配词库推送至与所述客户端ID对应的客户端;
列表删除单元,用于在与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库。
在第二方面,本发明实施例提供了一种细胞词库推送方法,包括:
接收客户端发送的输入法日志信息,其中,所述输入法日志信息包括客户端ID和客户端选中词;
获取所述输入法日志信息中的客户端ID和客户端选中词;
查找与所述客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取所述未下载细胞词库中包括所述客户端选中词的第一匹配词库,将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值;
将对应于所述客户端ID的词库权值大于推送阈值的第一匹配词库推送至与所述客户端ID对应的客户端;
在与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库。
本发明实施例通过获取客户端输入法日志信息中的客户端选中词,查找所述客户端选中词所属的细胞词库,当判断客户端频繁使用某个未被客户端下载的细胞词库中的候选词时,将该细胞词库推送至相应的客户端的技术手段,实现了在客户端不主动下载细胞词库的情况下,将客户端实际需要的细胞词库推送至客户端的技术效果,增加了客户端对某一类别词条的输入精度,提高了客户端的输入效率。
附图说明
图1是本发明第一实施例细胞词库推送系统的示意图;
图2是本发明第一实施例的一种优选实施方式的应用场景;
图3是本发明第一实施例的一种服务器向客户端推送细胞词库的数据交互过程;
图4是本发明第一实施例的另一种服务器向客户端推送细胞词库的数据交互过程;
图5是本发明第二实施例的细胞词库推送方法的流程图;
图6是本发明第二实施例的一种删除客户端细胞词库方法的流程图;
图7是可用于实施本发明方案的服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
第一实施例
图1是本发明第一实施例的细胞词库推送系统的示意图。如图1所示,细胞词库推送系统10包括:客户端11和服务器12。
其中,客户端11和服务器12通过有线或者无线数据网络连接。以上所述通过有线或者无线数据网络连接是指服务器12可以通过网络即时地接收客户端11发送的消息,或者,服务器12可以通过网络间接地、非即时地(例如,通过消息存储服务器中转)接收客户端11发送的消息。
其中,客户端11用于向服务器12发送输入法日志信息;接收服务器12推送的细胞词库;根据接收到的细胞词库,更新自身的用户词库。
具体地,当客户端11满足预定的时间触发条件后,向服务器12发送输入法日志信息,例如:设定客户端11每隔一天向服务器12发送输入法日志信息;或者当客户端11满足预定的事件触发条件后,向服务器12发送输入法日志信息,例如:当客户端11自身存储的输入法日志信息大于1M时,向服务器12发送输入法日志信息;或者当客户端11检测到网络连接后,向服务器发送输入法日志信息。优选的,客户端11向服务器12成功发送输入法日志信息后,删除自身存储的输入法日志信息。
具体地,客户端11发送的输入法日志信息中包括客户端ID和客户端选中词。表1中示出了一种输入法日志信息的数据格式。如表1所示,客户端ID为客户端的设备标示,客户端选中词为客户端在一次输入中选择的候选词。
表1
客户端ID 客户端选中词
07f52scz 进栈
当然,本领域技术人员应该理解,输入法日志信息中的客户端ID还可以使用客户端物理地址或者客户端网络地址等其他形式的可唯一标示客户端身份的ID,对此并不限定。
具体地,客户端11接收的细胞词库为一个细分类别的候选词集合,其中,细胞词库中每一个候选词具有预设的候选词权重值(例如,50)。表2中示出了一种细胞词库的数据格式。
表2
在本实施例中,客户端输入法系统中存储有用户词库,该用户词库中存储有相应的候选词,每个候选词具有与之对应的候选词权重值。客户端11接收到服务器12发送的细胞词库后,将细胞词库中的候选词加入用户词库中,当客户端通过输入法系统输入字符串时,获取用户词库中与输入字符串对应的候选词,根据候选词的权重值,排序显示相应的候选词。
举例而言,当客户端11未下载计算机类细胞词库之前,客户端11输入字符串“jinzhan”后,优选显示的候选词为“进展”和“进站”等常用的生活词汇,当客户端11下载安装计算机类细胞词库后,计算机词汇“进栈”也会优先显示。通过在用户词库中添加细胞词库的方式,当客户端需要频繁使用某个特殊领域的候选词时,可以提高客户端的输入效率。
相应的,服务器12用于接收客户端发送的输入法日志信息;获取所述输入法日志信息中的客户端ID和客户端选中词;查找与所述客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取所述未下载细胞词库中包括所述客户端选中词的第一匹配词库,将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值;将对应于所述客户端ID的词库权值大于推送阈值的第一匹配词库推送至与所述客户端ID对应的客户端;在与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库。
具体地,服务器12包括:日志接收单元121、参数获取单元122、未下载词库累加单元123、词库推送单元124和列表删除单元125。
日志接收单元121,用于接收客户端发送的输入法日志信息;
参数获取单元122,用于获取所述输入法日志信息中的客户端ID和客户端选中词;
未下载词库权值累加单元123,用于查找与所述客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取所述未下载细胞词库中包括所述客户端选中词的第一匹配词库,将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值;
词库推送单元124,用于将对应于所述客户端ID的词库权值大于推送阈值的第一匹配词库推送至与所述客户端ID对应的客户端;
列表删除单元125,用于在与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库。
具体地,服务器12实时的接收客户端发送的输入法日志信息,并将接收到的输入法日志信息存储于预定的存储空间内,当满足预定的时间触发条件时,服务器12对接收到的输入法日志信息进行处理,例如:每隔2天服务器12对接收到的输入法日志信息进行处理;或者当满足预定的事件触发条件时,服务器12对接收到的输入法日志信息进行处理,例如:每当服务器12中存储的输入法日志信息大于1G时,服务器12对接收到的输入法日志信息进行处理。优选的,服务器12将处理后的输入法日志信息进行删除处理或者转存至其他的存储空间内。
在本实施例中,可以将全部细胞词库存储于服务器12中,或者将全部细胞词库存储于可与服务器12进行通信的其他服务器中。
其中,细胞词库中包括各个细分类别的词汇集合,例如:成语俗语、计算机、医药、航天航空等,每一个细胞词库中包括多个候选词,每个候选词具有预定的候选词权重值。
具体地,服务器12中存储与客户端ID对应的未下载细胞词库列表以及未上述未下载细胞词库列表中的未下载细胞词库对应于客户端ID的词库权值。其中,服务器12中与客户端ID对应的未下载细胞词库列表以及未下载细胞词库列表中的未下载细胞词库对应于客户端ID的词库权值的存储形式如表3所示。
表3
举例而言,日志接收单元121接收到的输入法日志信息的格式如表1所示。参数获取单元122获取的输入法日志信息中的客户端ID为“07f52scz”,客户端选中词为“进栈”。未下载词库累加单元123查询“07f52scz”对应的未下载细胞词库列表,如表2所示,查找未下载细胞词库列表中的“计算机”、“医药”、“家装”和“魔兽世界”等未下载细胞词库,在“计算机”细胞词库中查找到“进栈”,将“计算机”对应于“07f52scz”的词库权值增加第一权值。
作为示例而非限定,可以将上述第一权值设为1,当然,在实际应用中,本领域技术人员可根据实际情况对第一权值的大小进行预设。
相应地,经过未下载词库累加单元123的处理后,与“07f52scz”对应的名为“计算机”的未下载细胞词库的词库权值变为149+1=150。
词库推送单元124判断与“07f52scz”对应的词库名为“计算机”的未下载细胞词库的词库权值增加第一权值后是否大于推送阈值:若是,将上述词库名为“计算机”的细胞词库推送至与“07f52scz”对应的客户端。
作为示例而非限定,可以将上述推送阈值设为149,当然,在实际应用中,本领域技术人员可根据实际情况对上述推送阈值的大小进行预设。
当词库推送单元124将“计算机”词库推送至与“07f52scz”对应的客户端后,列表删除单元125将在与“07f52scz”对应的未下载细胞词库列表中删除“计算机”词库。
在本实施例中,当服务器12中未存储与接收到的客户端ID对应的未下载细胞的词库信息时,建立与接收到的客户端ID对应的未下载细胞词库,将全部细胞词库均设置为所述客户端ID对应的未下载细胞词库,将未下载细胞词库的词库权值全部设置为初始值,优选的,初始值设为0。
在本实施例的一个优选的实施方式中,全部细胞词库存储于可与服务器12进行通信的至少一个词库服务器中,服务器12通过访问词库服务器,查询与客户端选中词对应的细胞词库。
在图2中示出了本实施例的一种优选实施方式的应用场景,如图2所示,细胞词库被分别的存储于第一细胞词库21、第二细胞词库22、…、第N细胞词库23中,其中,第一细胞词库21中存储的细胞词库包括计算机、通信和网络;第二细胞词库中存储的细胞词库包括生物、医药和化工;第N细胞词库中存储的细胞词库包括诛仙、魔兽世界和梦话西游。服务器12接收到客户端11发送的输入法日志信息,根据输入法日志信息中的客户端ID,获取与客户端ID对应的未下载细胞词库,访问相应的词库服务器,查询包括客户端选中词的细胞词库。
本实施方式通过将细胞词库脱离服务器12单独存储,降低了对服务器12的内存要求,增加了系统的灵活性。
在本实施例中,将细胞词库推送至相应的客户端可以采用以下方式:将细胞词库推送至客户端,或者将细胞词库所在的服务器地址推送至客户端。
优选的,客户端11首先检查自身网络环境,当判断存在3G(3rd-generation,第三代移动通信)网络等高级数据传输网络或者蓝牙、Wi-Fi(wireless fidelity,无线保真)以及红外等免费数据传输网络时,下载服务器12推送的细胞词库。
当然,本领域技术人员可以理解,将细胞词库推送至客户端还可以采用其他的方式,对此并不限定。
在图3中示出了一种服务器向客户端推送细胞词库的数据交互过程。如图3所示,所述交互过程包括:
步骤310~步骤320、客户端11向服务器12发送输入法日志信息。
步骤330、服务器12向客户端11发送细胞词库推送请求。
步骤340、客户端11判断自身网络环境,判断是否存在Wi-Fi连接:若否,执行步骤350;否则,执行步骤360。
步骤350、客户端11向服务器12发送延迟推送的响应信息。
服务器12根据收到的延迟推送的相应信息,间隔预定的时间间隔,重新发送细胞词库推送请求。
步骤360、客户端11向服务器12发送下载词库的相应请求。
步骤370、服务器12向客户端11推送细胞词库。
步骤380、客户端11向服务器12发送细胞词库下载完成的确认信息。
服务器11根据细胞词库下载完成的确认信息,在与所述客户端ID对应的未下载细胞词库列表中,删除所述细胞词库。
在交互过程中,如果服务器检测客户端没有连接入网络,服务器每隔一段预定时间,向客户端发送细胞词库推送请求。作为示例而非限定,可以将上述预定时间设为1小时,当然,在实际应用中,本领域技术人员可根据实际情况对预定时间的大小进行预设。
本优选实施方式通过在客户端判断自身网络环境,当网络环境适宜时,下载服务器推送的细胞词库,避免的当服务器推送的细胞词库过大时,对客户端数据流量的影响,以及对正在使用网络的客户端的网络下载速度的影响。
在图4中示出了另一种服务器向客户端推送细胞词库的数据交互过程。如图4所示,所述交互过程包括:
步骤410、服务器12向客户端11发送细胞词库推送请求。
步骤420、客户端11向服务器12发送下载词库的响应信息。
步骤430、服务器12向客户端11发送细胞词库所在服务器地址。
步骤440、客户端11向词库服务器发送词库下载请求。
在本数据交互过程中,客户端根据接收到的词库服务器地址,向相应的词库服务器发送词库下载请求。
步骤450、词库服务器向客户端11推送细胞词库。
在本数据交互过程中,词库服务器根据客户端发送的词库下载请求,推送相应的细胞词库至客户端。
步骤460、客户端11向服务器12发送细胞词库下载完成的确认信息。
服务器12根据细胞词库下载完成的确认信息,在与所述客户端ID对应的未下载细胞词库列表中,删除所述细胞词库。
在本实施例的另一个可能的交互过程中,服务器12接收到客户端11发送的下载词库的响应信息后,向词库服务器发送细胞词库下载请求,下载词库服务器推送的细胞词库,将下载的所述细胞词库推送至客户端。优选的,在客户端完成词库下载后,服务器删除相应的细胞词库。
在本实施例的另一个可能的交互过程中,服务器接收到客户端发送的下载词库的响应信息后,向词库服务器发送细胞词库下载请求,词库服务器向客户端推送相应的细胞词库。
本发明实施例通过获取客户端输入法日志信息中的客户端选中词,查找所述客户端选中词所属的细胞词库,当判断客户端频繁使用某个细胞词库中的候选词时,将该细胞词库推送至相应的客户端的技术手段,实现了在客户端不主动下载细胞词库的情况下,将客户端实际需要的细胞词库无感知的推送至客户端的技术效果,增加了客户端对某一类别词条的输入精度,提高了客户端的输入效率。
在本实施例的一个优选的实施方式中,服务器12还用于查询与客户端ID对应的已下载细胞词库列表中的已下载细胞词库,获取已下载细胞词库中包括所述客户端选中词的第二匹配词库,将所述第二匹配词库对应于所述客户端ID的词库权值增加第二权值;在预定的时间阈值内,获取所述已下载细胞词库中对应于所述客户端ID的词库权值的增量值小于删除预值的待删除细胞词库,发送删除所述待删除细胞词库的指令至与所述客户端ID对应的客户端,在与所述客户端ID对应的已下载细胞词库列表中,删除所述待删除细胞词库。
客户端11还用于根据接收到的删除指令,删除相应的细胞词库。
相应地,服务器12还包括:
已下载词库权值累加单元(未示出),用于查询与所述客户端ID对应的已下载细胞词库列表中的已下载细胞词库,获取所述已下载细胞词库中包括所述客户端选中词的第二匹配词库,将所述第二匹配词库对应于所述客户端ID的词库权值增加第二权值;
词库删除单元(未示出),用于在预定的时间阈值内,获取所述已下载细胞词库中对应于所述客户端ID的词库权值的增量值小于删除阈值的待删除细胞词库,发送删除所述待删除细胞词库的指令至与所述客户端ID对应的客户端,在与所述客户端ID对应的已下载细胞词库列表中,删除所述待删除细胞词库。
本优选实施方式通过在预定的时间阈值内统计客户端对已下载细胞词库中候选词的使用情况,删除客户端使用不频繁的已下载细胞词库,降低了客户端存储负担的同时,降低了不频繁使用词库对客户端使用输入法的影响,进一步提高了客户端的输入效率。
在本实施例的另一个优选的实施方式中,客户端11发送的输入法日志信息中还包括与客户端选中词对应的系统时间,服务器12还用于获取输入法日志信息中的与客户端选中词对应的系统时间;
所述将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值之前,所述服务器还用于根据所述系统时间,计算所述第一权值;
所述将所述第二匹配词库对应于所述客户端ID的词库权值增加第二权值之前,所述服务器还用于根据所述系统时间,计算所述第二权值。具体地,上述输入法日志信息的数据格式如表4所示。
表4
客户端ID 客户端选中词 系统时间
07f52scz 进栈 2013-7-1113:22:15
相应地,参数获取单元122还用于获取输入法日志信息中与所述客户端选中词对应的系统时间;
服务器12还包括第一权值计算单元(未示出),用于根据所述系统时间,计算所述第一权值;
服务器12还包括第二权值计算单元(未示出),用于根据所述系统时间,计算所述第二权值。
举例而言,日志接收单元121接收到的输入法日志信息如表4所示,参数获取单元122获取客户端ID“07f52scz”,客户端选中词“进栈”以及与“进栈”对应的系统时间“2013-7-1113:22:15”。
优选的,获取当前的系统时间,例如,“2013-7-1407:15:32”,根据当前系统时间与操作时间(单位为天)之差,计算所述第一权值与所述第二权值。
在一个例子中,设定第一权值=[1/(当前系统时间-操作时间+1)]*A,其中,A为预定的第一阈值,作为示例而非限定,可以将上述第一阈值设为1,当然,在实际应用中,本领域技术人员可根据实际情况对第一阈值的大小进行预设;设定第二权值=1/(当前系统时间-操作时间+1)*B,其中,B为预定的第二阈值,作为示例而非限定,可以将上述第二阈值设为1,当然,在实际应用中,本领域技术人员可根据实际情况对第二阈值的大小进行预设。
此时,第一权值为1/(3+1)*1=0.25;第二权值为1/(3+1)*1=0.25。
可以理解的是,通过客户端选中词对应的系统时间计算所述第一权值或者所述第二权值还可以采用其他的方式,对此并不限定。
本实施方式在考虑客户端对细胞词库使用频率的同时,还综合考虑了客户端对候选词的选中时间,根据候选词的选中时间设置不同的权重值,实现了越接近当前时间,权重值越大的效果,对词库权值的影响也越大,使得服务器推送的细胞词库更能满足客户端当前的输入行为,进一步提高了客户端的输入效率。
以下为本发明实施例提供的向客户端推送细胞词库方法的实施例。方法的实施例与上述向客户端推送细胞词库的系统实施例属于同一构思,方法的实施例中未详尽描述的细节内容,可以参考上述实施例。
实施例二
图5是本发明第二实施例的细胞词库推送方法的流程图,如图5所示,所述方法包括:
步骤510、接收客户端发送的输入法日志信息。
在本实施例中,客户端发送的输入法日志信息包括:客户端ID和客户端选中词,接收的客户端发送的输入法日志信息如表1所示。
步骤520、获取输入法日志信息中的客户端ID和客户端选中词。
在本实施例中,获取的客户端ID为“07f52scz”,获取的客户端选中词为“进栈”。
步骤530、获取所述客户端选中词所属的细胞词库。
在细胞词库中查询“进栈”,获取“进栈”所述的细胞词库。在本实施例中,“进栈”属于“计算机”细胞词库。
步骤540、判断获取的客户端选中词所属的细胞词库对应于所述客户端ID的下载状态:若属于已下载,执行步骤550;若属于未下载,执行步骤560。
在本实施例中,服务器中预存了与客户端ID对应的细胞词库的下载状态及相应的词库权值。如表5所示的为一种与客户端ID对应的细胞词库的下载状态及相应的词库权值的存储形式。
表5
在本实施例中对应不同的客户端ID存储不同的词库下载标记。例如:对应于“07f52scz”的“计算机”词库的下载标记为“未下载”,相当于“计算机”词库位于“07f52scz”的未下载列表中;对应于“07f52scz”的“医药”词库的下载标记为“已下载”,相当于“医药”词库位于“07f52scz”的已下载列表中。
通过修改对应于客户端ID的词库标记,可以实现将某个细胞词库从已下载列表中删除,加入未下载列表,也可以实现将某个细胞词库从未下载列表中删除,加入已下载列表。
在本实施例中,如表5所示,对应于“07f52scz”的“计算机”细胞词库的下载状态为未下载。
步骤560、将该未下载词库对应于客户端ID的词库权值增加第一权值。
在本实施例中,设定第一权值为1,将“计算机”细胞词库中与“07f52scz”对应的词库权值149增加至150。
步骤570、判断词库权值是否大于推送阈值:若是,执行步骤580;否则,结束本流程。
步骤580、向与客户端ID对应的客户端推送相应的未下载细胞词库。
在本实施例中,设定推送阈值为149,判断将“计算机”细胞词库中与“07f52scz”对应的词库权值大于149,将“计算机”细胞词库推送至与“07f52scz”对应的客户端。
步骤590、将该未下载词库从与客户端ID对应的未下载词库列表中删除,加入已下载词库列表,将该词库的词库权值设置为初始值。
在本实施例中,如表5所示,将“计算机”细胞词库对应于“07f52scz”的下载状态修改为“已下载”;将“计算机”细胞词库对应于“07f52scz”的词库权值设置为初始值,优选的,设置初始值为0。
在本实施例中,假设获取的输入法日志信息的客户端选中词为“抗生素”,而“抗生素”属于“医药”细胞词库中的候选词。与“07f52scz”对应的“医药”细胞词库的下载状态为“已下载”,此时,执行步骤550。
步骤550、将该已下载词库对应于客户端ID的词库权值增加第二权值。
在本实施例中,设置第二权值为1,将“医药”细胞词库中与“07f52scz”对应的词库权值54增加至55。
在图6中示出了一种删除客户端细胞词库方法的流程图。如图6所示,所述方法包括:
步骤610、计时器开始计时。
在本实施例中,服务器在预定的时间阈值内检测是否需要删除与客户端ID对应的已下载细胞词库。作为示例而非限定,可以将上述预定时间阈值设为1星期,当然,在实际应用中,本领域技术人员可根据实际情况对上述阈值的大小进行预设。
步骤620、将已下载词库对应于客户端ID的词库权值设置为初始值。
作为示例而非限定,可以将已下载词库中对应于客户端ID的词库权值设置为0。
在表6中示出了表5中将对应于客户端ID的词库权值设置为初始值的处理结果。
表6
步骤630、判断是否到达计时器计时结束时刻:若是,执行步骤640;否则,返回步骤630。
在本实施例中,在一星期的时间内,服务器不断的接收客户端发送的输入法日志信息,根据输入法日志信息中的候选词,实时的调整与客户端ID对应的已下载细胞词库以及未下载细胞词库的词库权值。
步骤640、获取已下载词库中对应于客户端ID的词库权值小于删除阈值的待删除词库。
作为实例而非限定,可以将删除阈值设置为100,本领域技术人员可以根据实际情况对删除阈值进行预设。
步骤650、向所述客户端ID发送删除待删除词库的指令。
步骤660、将该待删除词库从未下载词库列表中删除,加入已下载词库列表,将该词库的词库权值设置为初始值。
举例而言,假设经历了一周的时间,“07f52scz”对应的“医药”细胞词库的词库权值增加至55,小于删除阈值,向与“07f52scz”对应的客户端推送删除“医药”词库的删除指令,将“医药”的下载状态修改为未下载,将“医药”对应的词库权值设置为初始值,优选的,将初始值设置为0。
本发明实施例通过获取客户端输入法日志信息中的客户端选中词,查找所述客户端选中词所属的细胞词库,当判断客户端频繁使用某个细胞词库中的候选词时,将该细胞词库推送至相应的客户端的技术手段,实现了在客户端不主动下载细胞词库的情况下,将客户端实际需要的细胞词库无感知的推送至客户端的技术效果,增加了客户端对某一类别词条的输入精度,提高了客户端的输入效率;在考虑客户端对细胞词库使用频率的同时,还综合考虑了客户端对候选词的选中时间,根据候选词的选中时间设置不同的权重值,实现了越接近当前时间,权重值越大的效果,对词库权值的影响也越大,使得服务器推送的细胞词库更能满足客户端当前的输入行为,进一步提高了客户端的输入效率。
图7为可用于实施本发明方案的服务器的结构示意图。所述服务器70可以用于实施上述实施例中提供的方法。典型地,服务器70包括至少一个处理器71、至少一个存储装置72和通信装置73。
存储装置72可用于存储程序以及数据,处理器71通过读取和/或运行存储在存储装置72中的数据和程序,从而执行各种指令以及进行对应的数据处理。存储装置72所存储的程序包括操作系统、至少一个功能或步骤所需的应用程序等;存储装置72所存储的数据包括如上所述的大量输入法日志信息,以及其他数据信息,例如细胞词库等。
通信装置73可用于通过无线/有线方式发送和接收数据,优选地,所述通信装置73为无线通讯装置,其可基于已有的无线通信技术(例如,GPRS(General Packet RadioService,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long TermEvolution,长期演进)、WiFi(wireless fidelity,无线保真)、蓝牙等进行数据发送和接收。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的通信终端实施,对于语音信息的发送以及接收功能可以集成于同一通信终端上以使得通信终端既可以发送也可以接收语音信息。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种细胞词库推送服务器,其特征在于,包括:
日志接收单元,用于接收客户端发送的输入法日志信息,其中,所述输入法日志信息包括客户端ID和客户端选中词;
参数获取单元,用于获取所述输入法日志信息中的客户端ID和客户端选中词;
未下载词库权值累加单元,用于查找与所述客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取所述未下载细胞词库中包括所述客户端选中词的第一匹配词库,将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值;
词库推送单元,用于将对应于所述客户端ID的词库权值大于推送阈值的第一匹配词库无感知的推送至与所述客户端ID对应的客户端;
列表删除单元,用于在与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库;
所述服务器还包括:
已下载词库权值累加单元,用于查询与所述客户端ID对应的已下载细胞词库列表中的已下载细胞词库,获取所述已下载细胞词库中包括所述客户端选中词的第二匹配词库,将所述第二匹配词库对应于所述客户端ID的词库权值增加第二权值;
词库删除单元,用于在预定的时间阈值内,获取所述已下载细胞词库中对应于所述客户端ID的词库权值的增量值小于删除阈值的待删除细胞词库,发送删除所述待删除细胞词库的指令至与所述客户端ID对应的客户端,在与所述客户端ID对应的已下载细胞词库列表中,删除所述待删除细胞词库;
其中,所述已下载列表和所述未下载列表,通过客户端ID存储的词库下载 标识确定。
2.根据权利要求1所述的细胞词库推送服务器,其特征在于,所述服务器还包括:
未下载词库修改单元,用于将所述被推送的第一匹配词库加入与所述客户端ID对应的已下载细胞词库列表中,将所述被推送的第一匹配词库对应于所述客户端ID的词库权值设置为初始值;
已下载词库修改单元,用于将所述待删除细胞词库加入所述客户端ID对应的未下载细胞词库中,将所述待删除细胞词库对应于所述客户端ID的词库权值设置为初始值。
3.根据权利要求1所述的细胞词库推送服务器,其特征在于,所述客户端发送的输入法日志信息中还包括与所述客户端选中词对应的系统时间,所述参数获取单元还用于获取所述输入法日志信息中的与所述客户端选中词对应的系统时间;所述服务器还包括:
第一权值计算单元,用于根据所述系统时间,计算所述第一权值;
第二权值计算单元,用于根据所述系统时间,计算所述第二权值。
4.一种细胞词库推送方法,其特征在于,包括:
接收客户端发送的输入法日志信息,其中,所述输入法日志信息包括客户端ID和客户端选中词;
获取所述输入法日志信息中的客户端ID和客户端选中词;
查找与所述客户端ID对应的未下载细胞词库列表中的未下载细胞词库,获取所述未下载细胞词库中包括所述客户端选中词的第一匹配词库,将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值;
将对应于所述客户端ID的词库权值大于推送阈值的第一匹配词库无感知 的推送至与所述客户端ID对应的客户端;
在与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库;
所述方法还包括:
查询与所述客户端ID对应的已下载细胞词库列表中的已下载细胞词库,获取所述已下载细胞词库中包括所述客户端选中词的第二匹配词库,将所述第二匹配词库对应于所述客户端ID的词库权值增加第二权值;
在预定的时间阈值内,获取所述已下载细胞词库中对应于所述客户端ID的词库权值的增量值小于删除阈值的待删除细胞词库,发送删除所述待删除细胞词库的指令至与所述客户端ID对应的客户端,在与所述客户端ID对应的已下载细胞词库列表中,删除所述待删除细胞词库;
其中,所述已下载列表和所述未下载列表,通过客户端ID存储的词库下载标识确定。
5.根据权利要求4所述的细胞词库推送方法,其特征在于,
所述与所述客户端ID对应的未下载细胞词库列表中,删除被推送的第一匹配词库之后,所述方法还包括将所述被推送的第一匹配词库加入与所述客户端ID对应的已下载细胞词库列表中,将所述被推送的第一匹配词库对应于所述客户端ID的词库权值设置为初始值;
所述与所述客户端ID对应的已下载细胞词库列表中,删除所述待删除细胞词库之后,所述方法还包括将所述待删除细胞词库加入所述客户端ID对应的未下载细胞词库中,将所述待删除细胞词库对应于所述客户端ID的词库权值设置为初始值。
6.根据权利要求4所述的细胞词库推送方法,其特征在于,所述客户端 发送的输入法日志信息中还包括与所述客户端选中词对应的系统时间,所述方法还包括获取所述输入法日志信息中的与所述客户端选中词对应的系统时间;
所述将所述第一匹配词库对应于所述客户端ID的词库权值增加第一权值之前,所述方法还包括根据所述系统时间,计算所述第一权值;
所述将所述第二匹配词库对应于所述客户端ID的词库权值增加第二权值之前,所述方法还包括根据所述系统时间,计算所述第二权值。
CN201410075797.1A 2014-03-04 2014-03-04 细胞词库推送方法和服务器 Active CN103825952B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410075797.1A CN103825952B (zh) 2014-03-04 2014-03-04 细胞词库推送方法和服务器
JP2014264835A JP6148661B2 (ja) 2014-03-04 2014-12-26 セルラレキシコンをプッシュするための方法及びサーバ
US14/585,128 US9916288B2 (en) 2014-03-04 2014-12-29 Method and server for pushing cellular lexicon
EP14200483.7A EP2919126A3 (en) 2014-03-04 2014-12-29 Method and server for pushing personalized cellular lexicon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410075797.1A CN103825952B (zh) 2014-03-04 2014-03-04 细胞词库推送方法和服务器

Publications (2)

Publication Number Publication Date
CN103825952A CN103825952A (zh) 2014-05-28
CN103825952B true CN103825952B (zh) 2017-07-04

Family

ID=50760776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410075797.1A Active CN103825952B (zh) 2014-03-04 2014-03-04 细胞词库推送方法和服务器

Country Status (4)

Country Link
US (1) US9916288B2 (zh)
EP (1) EP2919126A3 (zh)
JP (1) JP6148661B2 (zh)
CN (1) CN103825952B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665206B (zh) * 2016-07-27 2023-04-07 北京搜狗科技发展有限公司 清理用户词库的方法、系统和用于清理用户词库的装置
CN106933380B (zh) * 2017-02-13 2019-08-16 北京安云世纪科技有限公司 一种词库的更新方法和装置
CN111488727B (zh) * 2020-03-24 2023-09-19 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089493B2 (en) * 2001-09-25 2006-08-08 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101847159A (zh) * 2010-05-11 2010-09-29 中兴通讯股份有限公司 终端设备及其词库更新的方法
WO2014031505A1 (en) * 2012-08-24 2014-02-27 Microsoft Corporation Word detection and domain dictionary recommendation

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113331A (ja) * 1997-06-11 1999-01-06 Toshiba Corp 文書作成装置、予測入力方法、及び記録媒体
JP3728877B2 (ja) * 1997-06-27 2005-12-21 カシオ計算機株式会社 文字列変換装置およびそのプログラム記録媒体
JP3351396B2 (ja) * 1999-07-22 2002-11-25 株式会社デンソー 無線電話装置
US7757250B1 (en) * 2001-04-04 2010-07-13 Microsoft Corporation Time-centric training, inference and user interface for personalized media program guides
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
GB0229572D0 (en) * 2002-12-19 2003-01-22 Cognima Ltd Quality of service provisioning
WO2006084144A2 (en) * 2005-02-03 2006-08-10 Voice Signal Technologies, Inc. Methods and apparatus for automatically extending the voice-recognizer vocabulary of mobile communications devices
US8849653B2 (en) * 2006-05-09 2014-09-30 International Business Machines Corporation Updating dictionary during application installation
TWI502380B (zh) * 2007-03-29 2015-10-01 Nokia Corp 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品
US7974979B2 (en) * 2007-10-05 2011-07-05 Zi Corporation Of Canada, Inc. Inquiry-oriented user input apparatus and method
KR20130001261A (ko) * 2010-03-12 2013-01-03 뉘앙스 커뮤니케이션즈, 인코포레이티드 이동 전화의 터치 스크린과 함께 사용하기 위한 다중 모드 문자 입력 시스템
GB2481992A (en) * 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver
CN102456058B (zh) * 2010-11-02 2014-03-19 阿里巴巴集团控股有限公司 类目信息提供方法及装置
US9928296B2 (en) * 2010-12-16 2018-03-27 Microsoft Technology Licensing, Llc Search lexicon expansion
US20130158987A1 (en) * 2011-12-19 2013-06-20 Bo Xing System and method for dynamically generating group-related personalized dictionaries
US8819574B2 (en) * 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9898187B2 (en) * 2013-06-09 2018-02-20 Apple Inc. Managing real-time handwriting recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089493B2 (en) * 2001-09-25 2006-08-08 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101847159A (zh) * 2010-05-11 2010-09-29 中兴通讯股份有限公司 终端设备及其词库更新的方法
WO2014031505A1 (en) * 2012-08-24 2014-02-27 Microsoft Corporation Word detection and domain dictionary recommendation

Also Published As

Publication number Publication date
US20150254215A1 (en) 2015-09-10
JP2015170357A (ja) 2015-09-28
CN103825952A (zh) 2014-05-28
EP2919126A2 (en) 2015-09-16
US9916288B2 (en) 2018-03-13
JP6148661B2 (ja) 2017-06-14
EP2919126A3 (en) 2015-10-07

Similar Documents

Publication Publication Date Title
US7882039B2 (en) System and method of adaptive personalization of search results for online dating services
TWI521991B (zh) 以簡訊啟動之行動式登錄
CN108280115B (zh) 识别用户关系的方法及装置
CN109154940A (zh) 学习新字词
CN104537000B (zh) 一种用于推送信息的方法和装置
JP2008191748A (ja) ユーザ間コミュニケーション方法、ユーザ間コミュニケーションプログラム、ユーザ間コミュニケーション装置
JP2014531660A (ja) ソーシャルネットワークにおいて友人を追加するための方法、装置、および記憶媒体
CN110785970B (zh) 使网页的机器人创建自动化的技术
CN103825952B (zh) 细胞词库推送方法和服务器
CN102870131A (zh) 用于促进位置选择的方法和装置
KR101652588B1 (ko) 아티스트 순위 산출 시스템 및 이를 이용한 산출 방법
CN103942271B (zh) 用户信息查找系统及方法
CN107704443A (zh) 基于地理位置的表单填写辅助方法、装置及存储介质
JP2014137706A (ja) サーバ装置、プログラム及び通信システム
CN110069619A (zh) 房源展示方法、装置、设备及计算机可读存储介质
CN105677882B (zh) 一种展示评论信息的方法和装置
CN105447205B (zh) 检索结果排序的方法和装置
CN109919656A (zh) 广告投放方法、装置、计算机设备及存储介质
JP5817572B2 (ja) サーバ装置、プログラム及び通信システム
CN110297717A (zh) 确定客户端应用程序分享者的方法、装置、电子设备及存储介质
CN106845081A (zh) 提供健康饮食指导的机器人装置
JP2011060218A (ja) 回答システム
CN106202222A (zh) 热点事件的确定方法及装置
EP3374860B1 (en) Communicating information about an update of an application
US11017030B1 (en) Method, apparatus, and system for receiving and weighting non-schema data entries in spatial instances of heterogeneous databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant