CN103810157A - 输入法实现方法和装置 - Google Patents
输入法实现方法和装置 Download PDFInfo
- Publication number
- CN103810157A CN103810157A CN201410073254.6A CN201410073254A CN103810157A CN 103810157 A CN103810157 A CN 103810157A CN 201410073254 A CN201410073254 A CN 201410073254A CN 103810157 A CN103810157 A CN 103810157A
- Authority
- CN
- China
- Prior art keywords
- user model
- client
- word
- input method
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种输入法实现方法和装置。所述方法包括:获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词;获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词;根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新;根据所述用户模型中的客户端标识向客户端推送相应的用户模型。本发明使得用户模型能够对输入趋向性进行迅速反应,提高用户模型的构建效率和准确性。
Description
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种输入法实现方法和输入法实现装置。
背景技术
随着计算机技术的普及,计算机设备已经走入人们的工作、学习和生活中。例如,人们利用计算机设备撰写文档、编辑书稿等;又例如,人们通过计算机与网络的连接来与远方的朋友聊天或者发布个人博客等。因此,输入法已经成为用户与计算机交互的重要手段。
当前的输入法系统一般是基于其词库中的候选词以及与候选词对应的候选词权重值为用户在输入过程中提供候选词及其排序。候选词及其排序是用户在输入过程中首选词命中高低的一个重要指标。由于词库中各个候选词的使用和出现频率是不同的,将出现频率较高的候选词靠前排序就可以大大提高输入法系统的首选词命中率,也就是说,可以从概率上提高排序在前的词汇满足用户需要的可能性。
在现有技术中,为了提高输入法系统的首选词命中率,在输入法系统中引入了输入法学习功能,即根据用户的使用习惯,建立相应的用户模型,实时的调整候选词对应的权重值,其中,用户模型中记录了候选词以及与候选词对应的候选词权重值。
但现有技术的主要问题是:用户模型需要在用户长期使用的过程中逐渐建立,模型的建立过程只依赖于单个用户,分析样本过少,不具有对输入趋向性的迅速反应能力。例如:世界杯期间,球赛、球队与球星是被用户频繁输入的关键词,但是因为用户模型的建立样本过小,输入法系统需要一段时间的学习,才能建立适应于世界杯期间使用的用户模型;当世界杯结束之后,上述关键词的输入次数被大大减少,输入法系统同样需要一段时间的学习,才能将上述适应于世界杯期间使用的用户模型,调整为适应于正常输入习惯的用户模型;另外,当用户因为各种原因丢失了用户模型时,输入法需要重新学习用户习惯,建立新的用户模型。
发明内容
有鉴于此,本发明提供一种输入法实现方法和装置,使得用户模型能够对输入趋向性进行迅速反应,提高用户模型的构建效率和准确性。
在第一方面,本发明实施例提供了一种输入法实现方法,包括:
获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词;
获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词;
根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新;
根据所述用户模型中的客户端标识向客户端推送相应的用户模型。
在第二方面,本发明实施例提供了一种输入法实现装置,包括:
日志获取单元,用于获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词;
操作参数获取单元,用于获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词;
模型更新单元,用于根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新;
模型推送单元,用于根据所述用户模型中的客户端标识向客户端推送相应的用户模型。
本发明实施例通过在服务器端获取并分析处理大量客户端的输入法日志信息,建立客户端的用户模型,并将用户模型推送至相应的客户端的技术手段,解决了输入法系统在建立用户模型时,模型建立样本过少的技术问题;通过在服务器端存储多个客户端的用户模型,解决了当客户端的用户模型丢失时,输入法需要重新学习用户习惯,建立新的用户模型的技术问题,增强了用户模型对输入趋向性的迅速反应能力,提高了客户端的输入效率以及输入法系统使用的可靠性。
附图说明
图1是本发明第一实施例的输入法实现方法的流程图;
图2是本发明第二实施例的一种输入法实现方法的流程图;
图3是本发明第三实施例的一种输入法实现方法的流程图;
图4是本发明第三实施例的一种应用效果的示意图;
图5是本发明第四实施例的一种输入法实现方法的流程图;
图6是本发明第五实施例的输入法实现装置的结构图;
图7是可用于实施本发明实施例装置的服务器的结构示意图;
图8是一种输入法实现方法所适用的输入法系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
第一实施例
图1是本发明第一实施例的输入法实现方法的流程图,本实施例的方法可以由输入法实现装置来执行,该装置可通过硬件和/或软件的方式实现,并集成于输入法系统所在的服务器中,作为输入法系统中的子程序。具体包括如下步骤:
步骤110、获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词。
在本实施例中,服务器获取至少两个客户端发送的输入法日志信息,其中,在表1中示出了一种客户端发送的输入法日志信息的数据格式。如表1所示,客户端标识可以为客户端所在用户设备的设备标识,客户端选中词为客户端通过输入法完成一次输入所选中的候选词。
表1
客户端标识 | 客户端选中词 |
07f52scz | 百度 |
当然,本领域技术人员可以理解,只要可以用来唯一识别客户端身份的标识,均可作为客户端标识,例如:物理地址、IP地址、或者客户端在该输入法系统中获取的唯一编号等,对此并不限定。
步骤120、获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词。
在本实施例中,服务器获取输入法日志信息中客户端标识和客户端选中词。
举例而言,服务器接收到的一个如表1所示的输入法日志信息。获取上述输入法日志信息中的客户标识“07f52scz”,作为操作标识,获取客户端选中词“百度”作为操作词。
步骤130、根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新。
在本实施例中,服务器中针对不同客户端,存储相应的用户模型,即用户模型与客户端一一对应,或者,如果将客户端分为几类,每类客户端有多个客户端,与一个用户模型对应,且同类客户端具有相同的客户端标识,使用同样的用户模型。其中,存储的用户模型中包括:客户端标识、候选词和与所述候选词对应的候选词权重值。在表2中示出了一种用户模型的数据格式。
表2
客户端标识 | 候选词1 | 候选词1权重值 | 候选词2 | 候选词2权重值 |
07f52scz | 百度 | 1006 | 拜读 | 34 |
在本实施例中,服务器分别对存储的客户端的用户模型中的候选词进行权重值更新,即采用多个或多类客户端的操作词,对其他客户端的用户模型进行统一的训练学习,更新操作可以为:
服务器根据接收到的输入法日志信息中的操作词,将客户端的用户模型中与该操作词相同的候选词对应的候选词权重值增加统一的权值;或者
服务器根据接收到的输入法日志信息中的操作标识和操作词,为不同客户端标识对应的候选词权重值增加不同的权值。
在本实施例中的一种优选的实施方式中,服务器实时接收客户端发送的输入法日志信息,将接收到的输入法日志信息存储于预定的存储空间内,当满足预定的时间触发条件时,服务器对接收到的输入法日志信息进行权重值更新处理,例如:每隔2天服务器对接收到的输入法日志信息进行处理;或者当满足预定的事件触发条件时,对接收到的输入法日志信息进行处理,例如:每当服务器中存储的输入法日志信息大于1G时,对接收到的输入法日志信息进行权重值更新处理。
在本实施例的另一个优选的实施方式中,服务器将处理过的输入法日志信息进行删除处理或者转存至其他的存储空间内。
步骤140、根据所述用户模型中客户端标识向客户端推送相应的用户模型。
在本实施例中,服务器根据用户模型中的客户端标识向客户端推送相应的用户模型。
其中,服务器可以根据实际情况设定用户模型的推送时间,例如:每隔两天、一周、十天推送一次更新后的用户模型。
本实施例的技术方案通过在服务器端获取并分析处理大量客户端的输入法日志信息,建立客户端的用户模型,并将用户模型推送至相应的客户端的技术手段,解决了输入法系统在建立用户模型时,模型建立样本过少的技术问题;通过在服务器端存储多个客户端的用户模型,解决了当客户端的用户模型丢失时,输入法需要重新学习用户习惯,建立新的用户模型的技术问题,增强了用户模型对输入趋向性的迅速反应能力,提高了客户端的输入效率以及输入法系统使用的可靠性。
第二实施例
图2为本发明第二实施例的输入法实现方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,服务器对存储的客户端的用户模型中的候选词进行权重值更新时,根据接收到的输入法日志信息中的操作标识和操作词,为不同客户端标识对应的候选词权重值增加不同的权值。具体包括如下步骤:
步骤210、获取客户端提供的输入法日志信息。
步骤220、获取输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词。
步骤230、判断操作标识与用户模型中的客户端标识是否相同:若是,执行步骤240;否则,执行步骤250。
步骤240、将用户模型中与操作词相同的候选词对应的候选词权重值增加第一权值。
步骤250、将用户模型中与操作词相同的候选词对应的候选词权重值增加第二权值。
步骤260、向客户端推送相应的用户模型。
在本实施例中,第一权值大于第二权值。也就是说,服务器对存储的客户端的用户模型中的候选词进行权重值更新时,针对不同客户端构造了不同的用户模型,在考虑输入趋向性的同时,兼顾了单个客户端的个性化输入。
举例而言,服务器获取的客户端的输入法日志信息如表1所示。服务器获取的操作标识为“07f52scz”,操作词为“百度”。服务器中存储的用户模型如表3所示。
如表3所示,用户模型1中存储的客户端标识与操作标识相同,服务器将用户模型1中与操作词相同的候选词,也就是“百度”所对应的权重值增加第一权值。作为示例而非限定,可以将上述第一权值设为5,当然,在实际应用中,本领域技术人员可根据实际情况对第一权值的大小进行预设,经过权重值更新后,用户模型1中与候选词“百度”对应的权重值变为1006+5=1011。
表3
用户模型 | 客户端标识 | 候选词1 | 候选词1权重值 | 候选词2 | 候选词2权重值 |
1 | 07f52scz | 百度 | 1006 | 拜读 | 34 |
2 | 325s2sd | 百度 | 74 | 通信 | 56 |
3 | 2f3458y | 百度 | 541 | 美剧 | 456 |
相类似的,用户模型2和用户模型3中存储的客户端标识与操作标识不同,服务器将用户模型2、3中与“百度”对应的权重值增加第二权值。作为示例而非限定,可以将上述第二权值设为1,当然,在实际应用中,本领域技术人员可根据实际情况对第二权值的大小进行预设。经过权重值更新后,用户模型2中与“百度”对应的权重值变为75,用户模型3中与“百度”对应的权重值变为542。
同样的,当服务器接收到其他输入法日志信息后,采用与本实施例相同的方式更新自身存储的用户模型中的候选词权重值。
本实施例的技术方案在实施例1的基础上,对存储的客户端的用户模型中的候选词进行权重值更新时,通过根据客户端标识确定候选词权重值的增量的大小的方式,实现了针对不同的客户端标识,建立不同的用户模型的效果,在考虑大量客户端输入趋向性的同时,兼顾了单个客户端的个性化输入需求。建立的用户模型更能满足用户需求,进一步提高了客户端的输入效率。
在上述技术方案的基础上,当服务器判断出自身未存储与操作标识对应的用户模型时,建立与所述操作标识对应的用户模型。
举例而言,服务器从输入法日志信息中获取的操作标识为“a1b2c3”,客户端选中词为“大雨”,如表3所示,服务器中未存储与“a1b2c3”对应的用户模型,服务器建立用户模型4,其中,用户模型4对应的客户端标识为“a1b2c3”。同时,服务器将“大雨”添加到用户模型4中作为候选词,将“大雨”对应的候选值权重值在权重值初始值的基础上增加第一权值,优选的,将权重值初始值预设为0。其中,用户模型4的数据格式如表4所示。
表4
用户模型 | 客户端标识 | 候选词1 | 候选词1权重值 |
4 | a1b2c3 | 大雨 | 5 |
在上述技术方案的基础上,当服务器判断出自身存储的用户模型中不存在所述操作词时,将所述操作词添加到客户端标识的用户模型中作为候选词。
第三实施例
图3为本发明第三实施例的输入法实现方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,服务器对同一候选词在不同应用程序下的候选词权重值进行分类统计,建立针对应用程序与候选词权重值之间的关系的用户模型,即每个所述用户模型包括与应用程序组对应的至少一个子模型。具体包括如下步骤:
步骤310、获取客户端提供的输入法日志信息。
在本实施例中,服务器接收的客户端的输入法日志信息中包括:客户端标识、客户端选中词和与客户端选中词对应的应用程序标识。
举例而言,当客户端在浏览器应用中使用输入法选中候选词“百度”时,客户端选中词为“百度”,与“百度”对应的应用程序标识为“浏览器”;当客户端在Foxmail(邮件客户端软件)中使用输入法选中候选词“会议”时,客户端选中词为“会议”,与“会议”对应的应用程序标识为“Foxmail”。
其中,在表5中示出了一种客户端发送的输入法日志信息的数据格式。
表5
客户端标识 | 客户端选中词 | 应用程序标识 |
07f52scz | 百度 | 浏览器 |
步骤320、获取输入法日志信息中的客户端标识、客户端选中词和与客户端选中词对应的应用程序标识,作为操作标识、操作词和操作应用程序标识。
举例而言,服务器接收到如表5所示的输入法日志信息,获取的操作标识为“07f52scz”、客户端选中词为“百度”、应用程序标识为“浏览器”。
步骤330、判断操作标识与用户模型中的客户端标识是否相同:若是,执行步骤340;否则,执行步骤350。
在本实施例中,服务器在同一用户模型下,针对不同的应用程序组,存储了多个子模型。每个应用程序组又可包括至少一个应用程序,具备相应的应用程序标识。
在表6中示出了一种服务器中用户模型的存储形式。
具体的,每一种用户模型下根据不同的应用程序组,分为不同的子模型。服务器首先将获取的操作标识与用户模型中的客户端标识进行比对,比对结束后,继续将获取的操作应用程序标识与子模型下的应用程序标识进行比对。
步骤340、将用户模型中与操作应用程序标识对应的子模型下与操作词相同的候选词对应的候选词权重值增加第一权值。
步骤350、将用户模型中与操作应用程序标识对应的子模型下与操作词相同的候选词对应的候选词权重值增加第二权值。
步骤360、向客户端推送相应的用户模型。
表6
举例而言,服务器接收到的输入法日志信息的数据格式如表5所示。服务器获取客户端标识“07f52scz”作为操作标识,获取客户端选中词“百度”作为操作词,获取应用程序标识“浏览器”作为操作应用程序标识。
如表6所示,用户模型1的客户端标识与操作标识相同,用户模型1中的子模型1的应用程序标识与操作应用程序标识相同,子模型1中的候选词1与操作词相同。因此,服务器将用户模型1中的子模型1的候选词1“百度”对应的权重值增加第一权值,作为示例而非限定,可以将上述第一权值设为5,当然,在实际应用中,本领域技术人员可根据实际情况对第一权值的大小进行预设。
经过权重值更新的处理后,用户模型1中,在子模型1下的候选词“百度”对应的权重值变为489+5=494;
相类似的,用户模型2的客户端标识与操作标识不同,用户模型2中的子模型1的应用程序标识与操作应用程序标识相同,子模型2中的候选词2与操作词相同。因此,服务器将用户模型2中的子模型1的候选词2“百度”对应的权重值增加第二权值,作为示例而非限定,可以将上述第二权值设为1,当然,在实际应用中,本领域技术人员可根据实际情况对第二权值的大小进行预设。
经过权重值更新的处理后,用户模型2中,在子模型1下的候选词“百度”对应的权重值变为588+1=589。
在图4中示出了本实施例一种应用效果示意图。
如图4所示,客户端41接收服务器推送的用户模型,客户端41使用接收的用户模型替换自身原有的用户模型,或者将接收到的用户模型与自身原有的用户模型中的候选词权重值进行加权求和,构造新的用户模型。其中,客户端41的用户模型包括:客户端标识、应用程序标识,与应用程序标识对应的候选词和候选词权重值。
如图4所示,客户端41中使用的应用程序包括:浏览器应用411、邮箱应用412和聊天应用413。当客户端在浏览器应用411中输入字符串“wangfei”时,输入法系统根据用户模型中候选词在“浏览器”应用标识下的权重值对与“wangfei”对应的候选词进行排序,并将排序结果顺序显示;相应地,当客户端在邮箱应用412中输入字符串“wangfei”时,输入法系统根据用户模型中候选词在“邮箱”应用标识(例如:Foxmail)下的权重值对与“wangfei”对应的候选词进行排序,并将排序结果顺序显示。
本实施例的技术方案通过对同一候选词在不同应用程序下的候选词权重值进行分类统计,建立了针对应用程序标识与候选词权重值之间的关系的用户模型,满足了用户在不同的应用场景下,对同一输入字符串的不同的输入需求,在客户端不感知功能的情况下,对不同应用下的候选词进行排序,提高了客户端的输入效率,增加了用户体验。
在上述技术方案的基础上,如果服务器未查找到对应的应用程序标识,可以在用户模型中添加相应的子模型,或在已有子模型对应的应用程序组中增加应用程序标识。或者,还可以对于没有对应应用程序标识的操作词,找他其他应用程序标识子模型下的相同候选词,为其对应的候选词权重值增加第三权值。
实施例四
图5为本发明第四实施例的输入法实现方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,服务器根据输入法日志信息的生成时间,为用户在不同时间选中的候选词增加不同的候选词权重值,建立了用户模型与时间的关系。具体包括如下步骤:
步骤510、获取客户端提供的输入法日志信息。
在本实施例中,服务器接收的客户端的输入法日志信息中包括:客户端标识、客户端选中词和系统时间。其中所述系统时间为生成该条输入法日志信息的系统时间。
在表7中示出了上述输入法日志信息的数据格式。
当然,本领域技术人员可以理解,在输入法日志信息中系统时间的的存储方式和存储确定度还可以采用其他的形式,对此并不限定。
表7
客户端标识 | 客户端选中词 | 系统时间 |
07f52scz | 百度 | 2013-7-1113:22:15 |
步骤520、获取输入法日志信息中的客户端标识、客户端选中词和系统时间,作为操作标识、操作词和操作时间。
步骤530、判断操作标识与用户模型中的客户端标识是否相同:若是,执行步骤540;否则,执行步骤550。
步骤540、根据操作时间,计算第一权值。
步骤560、将用户模型中与操作词相同的候选词对应的候选词权重值增加第一权值。
步骤550、根据操作时间,计算第二权值。
步骤570、将用户模型中与操作词相同的候选词对应的候选词权重值增加第二权值。
步骤580、向客户端推送相应的用户模型。
在本实施例中,服务器按照预定的算法,根据获取的操作时间,计算对应的第一权值或者第二权值。
举例而言,服务器在计算第一权值或者第二权值之前,首先获取当前的系统时间,例如,“2013-7-1416:05:31”,根据当前系统时间与操作时间之间的差别差,优选的,精确到天。计算所述第一权值与所述第二权值。
在一个例子中,设定第一权值=[1/(当前系统时间-操作时间+1)]*A,
其中,计算过程中将精确度设定到天,假设,当前系统时间为2013-7-14,操作时间为2013-7-11,A为预定的第一阈值,作为示例而非限定,可以将上述第一阈值设为5,当然,在实际应用中,本领域技术人员可根据实际情况对第一阈值的大小进行预设。
设定第二权值=1/(当前系统时间-操作时间+1)*B,其中,B为预定的第二阈值,作为示例而非限定,可以将上述第二阈值设为1,当然,在实际应用中,本领域技术人员可根据实际情况对第二阈值的大小进行预设。
此时,计算得到第一权值为1/(3+1)*5=1.25;第二权值为1/(3+1)*1=0.25。
可以理解的是,通过客户端选中词对应的系统时间设置所述第一权值或者所述第二权值还可以采用其他的方式,对此并不限定。
本实施的技术方案在考虑多个用户对候选词的选中次数的同时,还综合考虑了多个用户对候选词的选中时间,根据候选词的选中时间设置不同的累加权值,实现了越接近当前时间,累加权值越大的效果,使得用户模型更加具有时间的趋向性。
在上述技术方案的基础上,服务器根据当前系统时间,更新自身存储的用户模型中与候选词对应的候选词权重值。
举例而言,服务器每隔一段预定的时间间隔,例如一星期,更新自身存储的用户模型,将用户模型中与候选词对应的候选词权重值进行衰减处理。
在一个例子中,服务器上一次更新后,存储的用户模型如表3所示。服务器在当前更新时,将用户模型中所有的候选词权重值都衰减一个固定的系数K,优选的,设定K为1/(当前系统时间-上一次更新时间+1),其中,当前系统时间与上一次更新时间的单位均为天。
例如,服务器上一次的更新时间为2013-7-12,当前的系统时间为2013-7-28,设定K为1/15。
则,更新后的用户模型如表8所示。
表8
用户模型 | 客户端标识 | 候选词1 | 候选词1权重值 | 候选词2 | 候选词2权重值 |
1 | 07f52scz | 百度 | 67.06 | 拜读 | 2.27 |
2 | 325s2sd | 百度 | 4.93 | 通信 | 3.73 |
3 | 2f3458y | 百度 | 36.07 | 美剧 | 30.4 |
这样设置的好处是:将用户模型设置为随着时间的变化而变化,通过定期衰减候选词权重值的方式,实现了用户模型随着时间的变化而变化,使得距离当前时间越远的时间的候选词权重值对用户模型的影响越小,使得用户模型更加具有时间的趋向性,可以进一步提高用户的输入效率。
第五实施例
在图6中示出了一种输入法实现装置的结构图。如图6所示,所述装置包括:
日志获取单元610,用于获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词。
操作参数获取单元620,用于获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词。
模型更新单元630,用于根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新。
模型推送单元640,用于根据所述用户模型中的客户端标识向客户端推送相应的用户模型。
在上述技术方案的基础上,所述模型更新单元进一步包括:
参数比较单元,用于将所述输入法日志信息中的操作标识与用户模型中的客户端标识进行比较;
第一权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识相同,将所述用户模型中与所述操作词相同的候选词对应的候选词权重值增加第一权值,其中,所述用户模型包括:客户端标识、候选词和与所述候选词对应的候选词权重值;
第二权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识不同,将所述用户模型中与所述操作词相同的候选词对应的候选词权重值增加第二权值,其中,所述第一权值大于所述第二权值。
在上述技术方案的基础上,所述装置还包括:
模型建立单元,用于如果判断出未存储与所述操作标识对应的用户模型,建立与所述操作标识对应的用户模型。
在上述技术方案的基础上,所述输入法日志信息中还包括与所述客户端选中词对应的应用程序标识,作为操作应用程序标识,每个所述用户模型包括与至少一个应用程序组对应的子模型,所述应用程序组中包括至少一个应用程序标识,
相应地,所述模型更新单元进一步包括:
参数比较单元,用于将所述输入法日志信息中的操作标识与用户模型中的客户端标识进行比较,以及将操作应用程序标识与用户模型中应用程序组中的应用程序标识进行比较;
第一权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识相同,将用户模型中与所述操作词相同的候选词在该操作应用程序标识对应的子模型下的候选词权重值增加第一权值;
第二权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识不同,将用户模型中与所述操作词相同的候选词在该操作应用程序标识对应的子模型下的候选词权重值增加第二权值。
在上述技术方案的基础上,所述装置还包括权值计算单元:
用于从所述输入法日志信息获取与所述客户端选中词对应的系统时间,作为操作时间;
根据所述操作时间,计算所述第一权值或者所述第二权值。
在上述技术方案的基础上,所述装置还包括:
权值更新单元,用于根据当前系统时间,更新存储的用户模型中与候选词对应的候选词权重值。
在上述技术方案的基础上,所述装置还包括:
候选词添加单元,用于当判断出存储的用户模型中不存在所述操作词时,将所述操作词添加到客户端标识的用户模型中作为候选词。
本发明实施例所提供的输入法实现装置可以用于执行本发明任意实施例提供的输入法实现方法,具备相应的功能模块,达到同样的技术效果。
本实施例的技术方案通过在服务器端获取并分析处理大量客户端的输入法日志信息,建立客户端的用户模型,并将用户模型推送至相应的客户端的技术手段,解决了输入法系统在建立用户模型时,模型建立样本过少的技术问题;通过在服务器端存储多个客户端的用户模型,解决了当客户端的用户模型丢失时,输入法需要重新学习用户习惯,建立新的用户模型的技术问题,增强了用户模型对输入趋向性的迅速反应能力,提高了客户端的输入效率以及输入法系统使用的可靠性。
图7为可用于实施本发明方案的服务器的结构示意图。所述服务器70可以用于实施上述实施例中提供的方法,包括本发明实施例提供的输入法实现装置。典型地,服务器70包括至少一个处理器71、至少一个存储装置72和通信装置73。
存储装置72可用于存储程序以及数据,处理器71通过读取和/或运行存储在存储装置72中的数据和程序,从而执行各种指令以及进行对应的数据处理。存储装置72所存储的程序包括操作系统、至少一个功能或步骤所需的应用程序等;存储装置72所存储的数据包括如上所述的大量输入法日志信息,以及其他数据信息。
通信装置73可用于通过无线/有线方式发送和接收数据,优选地,所述通信装置73为无线通讯装置,其可基于已有的无线通信技术(例如,GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code DivisionMultiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、WiFi(wireless fidelity,无线保真)、蓝牙等)进行数据发送和接收。
图8为本发明实施例的输入法实现方法所适用的输入法系统的结构示意图,该系统包括输入法实现服务器,还包括至少两个客户端,客户端向服务器提供输入法日志信息,以便服务器执行输入法实现方法。本实施例提供的方法具体包括如下步骤:
如图8所示,所述输入法系统包括:第一客户端81、第二客户端82、…、第n客户端83和服务器84。
其中,第一客户端81、第二客户端82、…、第n客户端83和服务器84通过有线或者无线数据网络连接。以上所述通过有线或者无线数据网络连接是指服务器14可以通过网络即时地接收第一客户端81、第二客户端82、…、第n客户端83发送的消息,或者,服务器84可以通过网络间接地、非即时地(例如,通过消息存储服务器中转)接收客第一客户端81、第二客户端82、…、第n客户端83发送的消息。
其中,第一客户端81、第二客户端82、…、第n客户端83用于向服务器84发送输入法日志信息;接收服务器84推送的用户模型;根据所述用户模型,调整自身的候选词权重值。
相应的,服务器14用于接收客户端发送的输入法日志信息;获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词;根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新;根据所述用户模型中的客户端标识向客户端推送相应的用户模型。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种输入法实现方法,其特征在于,包括:
获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词;
获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词;
根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新;
根据所述用户模型中的客户端标识向客户端推送相应的用户模型。
2.根据权利要求1所述的方法,其特征在于,根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新包括:
将所述输入法日志信息中的操作标识与用户模型中的客户端标识进行比较;
如果所述操作标识与存储的用户模型中的客户端标识相同,将所述用户模型中与所述操作词相同的候选词对应的候选词权重值增加第一权值;
如果所述操作标识与存储的用户模型中的客户端标识不同,将所述用户模型中与所述操作词相同的候选词对应的候选词权重值增加第二权值,其中,所述第一权值大于所述第二权值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果判断出未存储与所述操作标识对应的用户模型,建立与所述操作标识对应的用户模型。
4.根据权利要求1所述的方法,其特征在于,所述输入法日志信息中还包括与所述客户端选中词对应的应用程序标识,作为操作应用程序标识,每个所述用户模型包括与应用程序组对应的至少一个子模型,所述应用程序组中包括至少一个应用程序标识,
相应地,根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新包括:
将所述输入法日志信息中的操作标识与用户模型中的客户端标识进行比较,以及将操作应用程序标识与用户模型中应用程序组中的应用程序标识进行比较;
当所述操作标识与存储的用户模型中的客户端标识相同时,将用户模型中与所述操作词相同的候选词在该操作应用程序标识对应的子模型下的候选词权重值增加第一权值;
当所述操作标识与存储的用户模型中的客户端标识不同时,将用户模型中与所述操作词相同的候选词在该操作应用程序标识对应的子模型下的候选词权重值增加第二权值。
5.根据权利要求2或4所述的方法,其特征在于,在增加第一权值或增加第二权值之前,还包括:
从所述输入法日志信息获取与所述客户端选中词对应的系统时间,作为操作时间;
根据所述操作时间,计算所述第一权值或者所述第二权值。
6.一种输入法实现装置,其特征在于,包括:
日志获取单元,用于获取至少两个客户端分别提供的输入法日志信息,其中,所述输入法日志信息包括:客户端标识和客户端选中词;
操作参数获取单元,用于获取所述输入法日志信息中的客户端标识和客户端选中词,作为操作标识和操作词;
模型更新单元,用于根据所述输入法日志信息中的操作标识和操作词,分别对存储的客户端的用户模型中的候选词进行权重值更新;
模型推送单元,用于根据所述用户模型中的客户端标识向客户端推送相应的用户模型。
7.根据权利要求6所述的装置,其特征在于,所述模型更新单元进一步包括:
参数比较单元,用于将所述输入法日志信息中的操作标识与用户模型中的客户端标识进行比较;
第一权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识相同,将所述用户模型中与所述操作词相同的候选词对应的候选词权重值增加第一权值;
第二权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识不同,将所述用户模型中与所述操作词相同的候选词对应的候选词权重值增加第二权值,其中,所述第一权值大于所述第二权值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
模型建立单元,用于如果判断出未存储与所述操作标识对应的用户模型,建立与所述操作标识对应的用户模型。
9.根据权利要求6所述的装置,其特征在于,所述输入法日志信息中还包括与所述客户端选中词对应的应用程序标识,作为操作应用程序标识,每个所述用户模型包括与应用程序组对应的至少一个子模型,所述应用程序组中包括至少一个应用程序标识,
相应地,所述模型更新单元具体包括:
参数比较单元,用于将所述输入法日志信息中的操作标识与用户模型中的客户端标识进行比较,以及将操作应用程序标识与用户模型中各应用程序组中的应用程序标识进行比较;
第一权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识相同,将用户模型中与所述操作词相同的候选词在该操作应用程序标识对应的子模型下的候选词权重值增加第一权值;
第二权值增加单元,用于如果所述操作标识与存储的用户模型中的客户端标识不同,将用户模型中与所述操作词相同的候选词在该操作应用程序标识对应的子模型下的候选词权重值增加第二权值。
10.根据权利要求7或9所述的装置,其特征在于,所述装置还包括权值计算单元:
用于从所述输入法日志信息获取与所述客户端选中词对应的系统时间,作为操作时间;根据所述操作时间,计算所述第一权值或者所述第二权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410073254.6A CN103810157A (zh) | 2014-02-28 | 2014-02-28 | 输入法实现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410073254.6A CN103810157A (zh) | 2014-02-28 | 2014-02-28 | 输入法实现方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103810157A true CN103810157A (zh) | 2014-05-21 |
Family
ID=50706944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410073254.6A Pending CN103810157A (zh) | 2014-02-28 | 2014-02-28 | 输入法实现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810157A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406565A (zh) * | 2016-09-29 | 2017-02-15 | 维沃移动通信有限公司 | 一种移动终端词汇输入方法及移动终端 |
CN110222256A (zh) * | 2019-05-06 | 2019-09-10 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和用于信息推荐的装置 |
CN113094590A (zh) * | 2021-05-07 | 2021-07-09 | 董祥宇 | 一种法律条文精准推荐系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080281582A1 (en) * | 2007-05-11 | 2008-11-13 | Delta Electronics, Inc. | Input system for mobile search and method therefor |
CN101398834A (zh) * | 2007-09-29 | 2009-04-01 | 北京搜狗科技发展有限公司 | 一种针对输入信息的处理方法和装置及一种输入法系统 |
CN101470732A (zh) * | 2007-12-26 | 2009-07-01 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN101571758A (zh) * | 2009-06-04 | 2009-11-04 | 腾讯科技(深圳)有限公司 | 一种输入法系统、方法和装置 |
CN102209083A (zh) * | 2010-03-31 | 2011-10-05 | 北京搜狗科技发展有限公司 | 一种用户词库同步更新方法、更新服务器及输入法系统 |
CN103399766A (zh) * | 2013-07-29 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 更新输入法系统的方法和设备 |
-
2014
- 2014-02-28 CN CN201410073254.6A patent/CN103810157A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080281582A1 (en) * | 2007-05-11 | 2008-11-13 | Delta Electronics, Inc. | Input system for mobile search and method therefor |
CN101398834A (zh) * | 2007-09-29 | 2009-04-01 | 北京搜狗科技发展有限公司 | 一种针对输入信息的处理方法和装置及一种输入法系统 |
CN101470732A (zh) * | 2007-12-26 | 2009-07-01 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN101571758A (zh) * | 2009-06-04 | 2009-11-04 | 腾讯科技(深圳)有限公司 | 一种输入法系统、方法和装置 |
CN102209083A (zh) * | 2010-03-31 | 2011-10-05 | 北京搜狗科技发展有限公司 | 一种用户词库同步更新方法、更新服务器及输入法系统 |
CN103399766A (zh) * | 2013-07-29 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 更新输入法系统的方法和设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406565A (zh) * | 2016-09-29 | 2017-02-15 | 维沃移动通信有限公司 | 一种移动终端词汇输入方法及移动终端 |
CN110222256A (zh) * | 2019-05-06 | 2019-09-10 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和用于信息推荐的装置 |
CN113094590A (zh) * | 2021-05-07 | 2021-07-09 | 董祥宇 | 一种法律条文精准推荐系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750705B (zh) | 信息回复方法及装置 | |
CN107092588B (zh) | 一种文本信息处理方法、装置和系统 | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
CN108959370B (zh) | 一种基于知识图谱中实体相似度的社区发现方法及装置 | |
CN105574538A (zh) | 分类模型训练方法及装置 | |
CN111667056B (zh) | 用于搜索模型结构的方法和装置 | |
CN105894028B (zh) | 用户识别方法和装置 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN111078639B (zh) | 数据标准化方法、装置以及电子设备 | |
CN105847127A (zh) | 一种用户属性信息确定方法以及服务器 | |
CN109460775B (zh) | 一种基于信息熵的数据填充方法及装置 | |
CN103761254A (zh) | 多领域服务主题匹配推荐方法 | |
CN109992781B (zh) | 文本特征的处理方法、装置和存储介质 | |
CN111078742B (zh) | 用户分类模型训练方法、用户分类方法及装置 | |
CN110348471B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN112966081A (zh) | 处理问答信息的方法、装置、设备和存储介质 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN111241400B (zh) | 一种信息搜索方法及装置 | |
CN103810157A (zh) | 输入法实现方法和装置 | |
CN106910135A (zh) | 用户推荐方法及装置 | |
JP2014215685A (ja) | レコメンドサーバおよびレコメンドコンテンツ決定方法 | |
CN112465565B (zh) | 一种基于机器学习的用户画像预测的方法及装置 | |
CN107784363B (zh) | 数据处理方法、装置及系统 | |
CN110929849B (zh) | 一种基于神经网络模型压缩的视频检测方法和装置 | |
CN117795527A (zh) | 使用自回归语言模型神经网络评估输出序列 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140521 |
|
RJ01 | Rejection of invention patent application after publication |