CN106933380A - 一种词库的更新方法和装置 - Google Patents
一种词库的更新方法和装置 Download PDFInfo
- Publication number
- CN106933380A CN106933380A CN201710076867.9A CN201710076867A CN106933380A CN 106933380 A CN106933380 A CN 106933380A CN 201710076867 A CN201710076867 A CN 201710076867A CN 106933380 A CN106933380 A CN 106933380A
- Authority
- CN
- China
- Prior art keywords
- entry
- dictionary
- terminal
- interim
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种词库的更新方法和装置,该方法包括:接收第一终端在上屏第一临时词库中的词条时上传的词条;确定所述词条满足预设的推送条件;依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;将所述词条推送至第二终端、以更新第二临时词库。通过临时词库的特性,即动清理临时词库中的词条,保证临时词库的容量在较低的水平,进而保证输入法系统的其他词库仍然在现有的词库容量级别上,大大减少了词库中关键词的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。
Description
技术领域
本发明涉及输入法的技术领域,特别是涉及一种词库的更新方法和一种词库的更新装置。
背景技术
随着计算机技术的普及与发展,输入法已经成为用户与计算机交互的重要工具,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。
目前输入法词库一般覆盖用户使用的词汇的一部分,通常包括一些人们普遍的常用词汇,还有一部分词汇是输入法的词库未覆盖的。
在日常生活中,很多时事新闻是人们讨论的热点,如奥运会、台风等等,这是时事新闻的出现时间很短暂,用户在讨论这些时事新闻时,某些词需要用户通过输入法逐个字输入,输入效率较低。
如果将这些时事新闻的词汇都更新至词库里,会占用大量的存储空间,那么输入法系统的词库容量将在数百万的量级。
词库过大,同音字过多,候选项增加,这些词汇本身在总体用户中的使用概率比较低,不需要使用这些词汇的用户会受到干扰,导致用户在输入时的首选词准确率较低。
并且,容量大的词库会大幅占用CPU(Central Processing Unit,中央处理器)、内存等计算设备的资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种词库的更新方法和相应的一种词库的更新装置。
依据本发明的一个方面,提供了一种词库的更新方法,包括:
接收第一终端在上屏第一临时词库中的词条时上传的词条;
确定所述词条满足预设的推送条件;
依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;
将所述词条推送至第二终端、以更新第二临时词库。
可选地,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;
所述接收第一终端在上屏第一临时词库中的词条时上传的词条的步骤包括:
接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。
可选地,所述确定所述词条满足预设的推送条件的步骤包括:
统计所述词条在预设的时间段内的上屏频次;
当所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。
可选地,所述依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端的步骤包括:
至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;
至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;
将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;
将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;
依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。
可选地,所述至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录的步骤包括:
查找在所述第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录;
其中,所述第一目标词库包括用户词库和/或细胞词库。
可选地,所述至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录的步骤包括:
查找在所述第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录;
其中,所述第二目标词库包括用户词库和/或细胞词库。
可选地,所述将所述词条推送至第二终端、以更新第二临时词库的步骤包括:
将所述词条推送至第二终端,以在除第二临时词库之外的其他词库未存储所述词条时、将所述词条存储至所述第二临时词库。
可选地,所述将所述词条推送至第二终端、以更新第二临时词库的步骤包括:
将所述词条推送至第二终端、以将所述词条存储至第二临时词库,并设置第二有效期;
所述词条在所述第二有效期内上屏,则从所述第二临时词库转移至第二指定词库,否则,在所述第二临时词库中删除所述词条。
根据本发明的另一方面,提供了一种词库的更新装置,包括:
词条接收模块,适于接收第一终端在上屏第一临时词库中的词条时上传的词条;
条件满足确定模块,适于确定所述词条满足预设的推送条件;
终端查找模块,适于依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;
词条推送模块,适于将所述词条推送至第二终端、以更新第二临时词库。
可选地,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;
所述词条接收模块包括:
有效期接收子模块,适于接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。
可选地,所述条件满足确定模块包括:
上屏频次统计子模块,适于统计所述词条在预设的时间段内的上屏频次;
推送确定子模块,适于在所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。
可选地,所述终端查找模块包括:
第一记录查找子模块,适于至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;
第二记录查找子模块,适于至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;
第一响亮转换子模块,适于将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;
第二响亮转换子模块,适于将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;
输入行为计算子模块,适于依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。
可选地,所述第一记录查找子模块包括:
第一扩展查找单元,适于查找在所述第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录;
其中,所述第一目标词库包括用户词库和/或细胞词库。
可选地,所述第二记录查找子模块包括:
第二扩展查找单元,适于查找在所述第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录;
其中,所述第二目标词库包括用户词库和/或细胞词库。
可选地,所述词条推送模块包括:
重复排除存储子模块,适于将所述词条推送至第二终端,以在除第二临时词库之外的其他词库未存储所述词条时、将所述词条存储至所述第二临时词库。
可选地,所述词条推送模块包括:
有效期存储子模块,适于将所述词条推送至第二终端、以将所述词条存储至第二临时词库,并设置第二有效期;
所述词条在所述第二有效期内上屏,则从所述第二临时词库转移至第二指定词库,否则,在所述第二临时词库中删除所述词条。
本发明实施例以第一终端在上屏第一临时词库中的词条时上传的词条,在其满足预设的推送条件时,推送至与第一终端具有相似或相同输入行为的第二终端、以更新第二临时词库,通过临时词库的特性,即动清理临时词库中的词条,保证临时词库的容量在较低的水平,进而保证输入法系统的其他词库仍然在现有的词库容量级别上,大大减少了词库中关键词的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的的词库的更新方法的步骤流程图;
图2示出了根据本发明另一个实施例的的词库的更新方法的步骤流程图;
图3示出了根据本发明另一个实施例的的词库的更新方法的步骤流程图;
图4示出了根据本发明一个实施例的词库的更新装置的结构框图
图5示出了根据本发明另一个实施例的词库的更新装置的结构框图;以及
图6示出了根据本发明另一个实施例的词库的更新装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的词库的更新方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取具有时效性的文本信息。
在具体实现中,本发明实施例可以应用于输入法系统中,该输入法系统可以安装在计算设备中,例如,电脑、手机、PDA(Personal Digital Assistant,个人数字助理)、膝上型计算机、掌上电脑等等,本发明实施例对此不加以限制。
该计算设备可以支持Windows、Android(安卓)、IOS、WindowsPhone等操作系统,通常可以在输入法系统中通过虚拟键盘、物理键盘、语音等方式输入字词。
在本发明实施例中,输入法系统可以在计算设备的环境中,获取具有时效性的文本信息。
所谓时效性,是指该文本信息在某一个特定的时间出现的频率较高(可表现为高于预设的第一频率阈值),在该特定的时间之后,其出现的频率明显降低(可表现为低于预设的第二频率阈值,第一频率阈值大于第二频率阈值)。
例如,在奥运会期间中,各大网站会频繁发布与奥运会相关的报道(文本信息),在奥运会之后,与奥运会相关的报道会显著减少;在台风期间中,各大网站会频繁发布与台风修相关的报道(文本信息),在台风之后,与台风修相关的报道会显著减少。
在本发明的一个实施例中,步骤101可以包括如下子步骤:
子步骤S11,对通知栏进行监听;
子步骤S12,当监听到服务器推送的通知消息时,将所述通知消息设置为文本信息。
通知栏(Notificaiton),适用于交互事件的通知,它是位于顶层可以展开的通知列表。
通知栏一般可以包括如下的一种或多种功能:
1、显示接收到短消息、即时通信消息等信息;
2、显示客户端的推送消息,例如,新版本发布、广告、推荐新闻等等;
3、显示正在进行的事物,例如,音乐播放器、版本更新时候的下载进度等等。
诸如热点新闻等具有时效性的通知消息,为了让用户更快地了解,经常将这些通知消息推送至通知栏。
因此,本发明实施例可以通过监听通知栏,接收推送至该通知栏的通知消息,获取具有时效性的文本信息。
由于新闻类应用、社交类应用等应用推送具有时效性的消息的概率较高,而银行类应用、游戏类应用等应用推送具有时效性的消息的概率较低,因此,为了减少计算量,输入法系统可以注册指定应用(如新闻类应用、社交类应用等)的监听器,监听这些应用推送至通知栏的消息。
在本发明的另一个实施例中,步骤101可以包括如下子步骤:
子步骤S21,当加载页面信息时,从所述页面信息中读取文本信息。
在本发明实施例中,用户可以在打开网页,浏览诸如热点新闻等具有时效性的网页信息。
因此,本发明实施例可以在加载页面信息时,从页面信息中读取具有时效性的文本信息。
网页按照功能可以划分为多个区域,例如,导航块、垃圾块、翻页块、标题块、作者信息块、发表日期块、正文块等等,具有时效性的文本信息一般集中在标题、正文等区域,因此,可以提取这些标题、正文等区域的信息作为具有时效性的文本信息。
进一步而言,可以在当前页面的DOM(Document Object Model,文件对象模型)树节点中查找具有时效性的文本信息。
DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系,可以把DOM认为是页面上数据和结构的一个树形表示,不过页面当然可能并不是以这种树的方式具体实现。
例如,在head标签的title标签中,可以提取标题,在body标签的某一个div标签中,可以提取正文。
由于门户网站、新闻网站等网站发布具有时效性的页面信息的概率较高,而购物网站、技术类网站等网站发布具有时效性的页面信息的概率较低,因此,为了减少计算量,输入法系统可以监听指点网站(如门户网站、新闻网站等)的网页信息。
例如,门户网站、新闻网站都具有特定的域名,其中,体育领域的网页网址一般带有“sports”标识的域名,新闻领域的网页一般带有“news”标识的二级域名,如sports.***.com、news.***.com(***为顶级域名),在该网站的网址检测出“sports”或“news”等二级域名时,则可以识别出该网页类别为体育领域的网页、新闻领域的网页,继而可以从这些网页提取标题、正文等文本信息。
当然,上述文本信息的获取方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他文本信息的获取方式,本发明实施例对此不加以限制。另外,除了上述文本信息的获取方式外,本领域技术人员还可以根据实际需要采用其它文本信息的获取方式,本发明实施例对此也不加以限制。
步骤102,从所述文本信息中提取关键词。
在具体实现中,可以通过自然语言处理(Natural Language Processing,NLP)从文本信息中提取关键词。
在一个示例中,可以采用TF-IDF(term frequency–inverse documentfrequency)算法提取关键词,TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。
在此示例中,可以先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值;用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词
在另一个示例中,可以基于语义的统计语言模型提取关键词。
在此示例中,在全面把握文本信息的中心思想的基础上,提取出若干个代表文本信息语义内容的词汇或短语。
在另一个示例中,可以采用TF-IWF文档关键词自动提取算法提取关键词。
在此示例中,使用简单统计并考虑词长、位置、词性等启发性知识计算词权重。
当然,上述关键词的提取方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他关键词的提取方式,例如,基于分离模型的中文关键词提取算法提取关键词、基于高维聚类技术的中文关键词提取算法提取关键词、基于语义的中文文本关键词提取(SKE)算法提取关键词、基于朴素贝叶斯模型的中文关键词提取算法提取关键词,等等,本发明实施例对此不加以限制。另外,除了上述关键词的提取方式外,本领域技术人员还可以根据实际需要采用其它关键词的提取方式,本发明实施例对此也不加以限制。
在一些通知消息的情景中,某些特定的词汇使用指定的符号(如引号、括号等)进行标识,因此,在通知消息中查找指定的符号,基于符号确定关键词。
例如,某条通知消息为“台风‘妮妲’8月2日凌晨至中午将以台风或强台风级登陆广东沿海,可能在珠江口附近登陆,给深圳带来狂风暴雨。”其中,指定的符号为引号,在引号中的词(即妮妲)可以作为关键词。
步骤103,确定所述关键词满足预设的热度条件。
在本发明实施例中,可以设置热度条件,表征该关键词的使用程度,如果关键词满足该热度条件,表示该关键词使用程度较高,用户输入该关键词的概率较大。
在一个示例中,可以统计关键词的频次,即一段时间内、该关键词在计算设备中被提取的次数。
当频次在预设的时间段内高于预设的频次阈值,可以确定关键词满足预设的热度条件。
当然,上述热度条件只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他热度条件,例如,该关键词来自特定的通知消息(如新闻应用推送的新闻),等等,本发明实施例对此不加以限制。另外,除了上述热度条件外,本领域技术人员还可以根据实际需要采用其它热度条件,本发明实施例对此也不加以限制。
步骤104,依据所述热度条件将所述关键词存储在临时词库中。
在具体实现中,可以在输入法系统中设置一个或多个词库,该词库可以包括如下的一种或多种:
1、记载基础字词的系统词库。
2、记载扩展字词的细胞词库(细胞词库中的字词至少具有一个共同属性)。
例如,记载某个游戏专用字词的细胞词库、记载生物专用字词的细胞词库等。
3、记载用户个性化字词(如自造词)的用户词库。
4、记载通讯录信息的通讯录词库。
当然,上述词库只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他词库,本发明实施例对此不加以限制。
在本发明实施例中,除了这些常用的词库之外,还设置了临时词库,提取的关键词可以作为词条存储至该临时词库中。
所谓临时词库,其本质仍为词库,但是,相对于其他常用的词库的词条,临时词库中的词条(即关键词)具有临时性,即满足一定条件时,输入法系统可以自动将该词条(即关键词)从该临时词库中删除。
为了避免重复存储词条(即关键词),可以在除临时词库之外的词库中查询是否存储有该关键词。若是,则丢弃关键词;若否,则将关键词存储在临时词库中。
在具体实现中,可以对关键词设置编码信息,例如,拼音、笔画等等。
在临时词库中建立关键词与编码信息之间的映射关系。
例如,输入法系统可以对“妮妲”确定对应的拼音“nida”,作为其编码信息,将“妮妲”于“nida”之间的映射关系保存到临时词库中。
如果关键词中存在多编码的字(如多音字),则可以通过如下方式进行处理:
一、输入法系统将包含多编码的字的关键词与其对应的所有可能的编码信息建立映射关系,并存储到临时词库中。
例如,关键词为“调度指令”,“调”的读音分别有“diao”与“tiao”,则输入法系统可以将“调度指令”分别与“diaoduzhiling”、“tiaoduzhiling”建立映射关系,并存储到临时词库中。
二、输入法系统将包含多编码的字的关键词的所有可能的编码信息显示给用户,由用户为该关键词指定一个编码信息,输入法系统将该关键词与用户选择的编码信息建立映射关系,并存储到临时词库中。
例如,关键词为“调度指令”,“调”的读音分别有“diao”与“tiao”,则输入法系统可以显示“diaoduzhiling”、“tiaoduzhiling”给用户,若用户选择了“diaoduzhiling”,则输入法系统可以将“调度指令”分别与“diaoduzhiling”建立映射关系,并存储到临时词库中。
本发明实施例设置临时词库,从具有时效性的文本信息中提取关键词,在该关键词满足热度条件时,将该关键词存储至临时词库中,用户输入时可以直接作为候选项,避免用户逐个字输入,提高用户的输入效率。
参照图2,示出了根据本发明另一个实施例的词库的更新方法的步骤流程图,具体可以包括如下步骤:
步骤201,获取具有时效性的文本信息;
步骤202,从所述文本信息中提取关键词;
步骤203,确定所述关键词满足预设的热度条件;
步骤204,依据所述热度条件将所述关键词存储在临时词库中。
步骤205,在所述临时词库中,对所述关键词设置有效期。
在具体实现中,若关键词来源于热点事件的时事新闻等具有时效性的文本信息,当该热点事件过去之后,用户讨论该热点事件的概率明显减少,输入该关键词的概率明显减少,因此,为了减少存储空间的占用,可以针对该关键词设置有效期,使得该关键词在该有效期内有效,超过该有效期则无效。
该有效期可以是默认的值(如30天),也可以根据关键词所属文本信息的特征进行设置,本发明实施例对此不加以限制。
例如,如果关键词“里约热内卢奥运会”来源于奥运会(特征)相关的新闻,而奥运会的会期一般为15天,因此,对关键词“里约热内卢奥运会”可以设置比奥运会的会期稍长的时间作为有效期,如20天。
步骤206,在所述临时词库中,对所述关键词设置时效期。
在具体实现中,若关键词来源于热点事件的时事新闻等具有时效性的文本信息,该关键词的使用概率随时间的增加而减少,因此,可以对该关键词设置时效期,该时效期在有效期内,以对该关键词展示的位置进行调整。
需要说明的是,时效期在有效期内,即时效期比有效期短。
步骤207,接收输入的字符串。
在实际应用中,在输入法系统进行输入的虚拟键盘、物理键盘等键盘可以包括九宫格键盘、全键盘(如QWERTY键盘)等等。
这些键盘具有一个或多个按键,该按键经常被复用,映射一个或多个字符,若按键被触发(如按下、点击、滑动等),可以将其映射的字符输入至输入法系统,输入法系统将这些字符组成字符串。
对于不同的语言,如中文、英文、日文等等,虚拟键盘、物理键盘等键盘的按键所映射的字符会有所不同,具体可以包括、但不限于数字字符、英文字符、中文字符(如拼音字符、笔画字符等)和符号字符中的至少一个。
这些字符串可以显示在输入法系统界面中的编码栏中,以提示用户所输入的字符串。
步骤208,在各个词库中查找与字符串匹配的候选项。
在中文、日语等语言里,作为基本语言单位的汉字、日文等文字一般不直接与键盘上的按键进行映射,因此,在输入时一般需要进行字符串与词条的转换。
在具体实现中,可以在各个词库中查找与字符串匹配的编码信息,提取编码信息映射的关键词,作为候选项。
需要说明的是,这些词库可以包括系统词库、细胞词库、用户词库、通讯录词库、临时词库等等。
以汉字的拼音输入为例,用户将汉字的拼音通过键盘输入至输入法系统中,由输入法系统进行解码,具体可以包括如下步骤:
1、拼音切分
在此步骤中,输入法系统可以将字符串切分为拼音的音节。
例如,将字符串“aoyunhui”切分为“ao’yun’hui”。
2、音节解码
在此步骤中,输入法系统可以在词库中查找音节对应的关键词。
例如,查找“ao’yun’hui”对应的关键词“奥运会”。
步骤209,当确定所述候选项为所述临时词库的关键词时,按照所述时效期对所述关键词调整排序。
在具体实现中,若当前时间在时效期内,用户输入该关键词的概率较高,则可以提高关键词的排序。
若当前时间在时效期外,用户输入该关键词的概率较低,可以降低关键词的排序。
需要说明的是,除了时效期之外,还可以采用其他方式调整排序,例如,用户属性(提高与用户属性匹配的候选项的排序)、输入环境(提高与输入环境匹配的候选项的排序)、词频(词频越高、排序越高)等等,本发明实施例对此不加以限制。
步骤210,按照调整之后的排序显示所述候选项。
在调整排序之后,则可以在候选栏中展示给用户,待用户选择。
步骤211,若所述关键词在所述有效期内未上屏,在所述临时词库中删除所述关键词。
在具体实现中,如果用户输入编码信息,则输入法系统可以将相关的候选项提供用户选择。
如果用户选定该候选项,则可以输出该候选至其他应用,将候选项输出的过程可以称之为上屏。
如果临时词库中的关键词在其有效期内未上屏,此后上屏的概率会明显下降,为了避免占用存储空间,将其删除。
步骤212,若所述关键词在所述有效期内上屏,删除所述关键词的有效期。
步骤213,将所述关键词从所述临时词库移至指定的词库。
如果该关键词作为候选项显示时,用户通过点击候选项、点击候选项的编号对应的按键等方式选中该关键词,输出该关键词,实现上屏。
此时,可以将该关键词从临时词库转移至其他指定的指定词库,例如,用户词库。
在具体实现中,除了删除该关键词的有效期之外,还可以在临时词库中解除关键词与编码信息之间的映射关系,在指定的词库中建立关键词与编码信息之间的映射关系。
如果将这些时事新闻的词汇都更新至词库里,会占用大量的存储空间,那么输入法系统的词库容量将在数百万的量级。
词库过大,同音字过多,候选项增加,这些词汇本身在总体用户中的使用概率比较低,不需要使用这些词汇的用户会受到干扰,导致用户在输入时的首选词准确率较低。
并且,容量大的词库会大幅占用CPU(Central Processing Unit,中央处理器)、内存等计算设备的资源。
本发明实施例对临时词库中的关键词设置有效期,若关键词在有效期内未上屏,在临时词库中删除关键词,通过有效期的上屏操作自动清理临时词库中的关键词,保证临时词库的容量在较低的水平,进而保证输入法系统的其他词库仍然在现有的词库容量级别上,大大减少了词库中关键词的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。
参照图3,示出了根据本发明另一个实施例的词库的更新方法的步骤流程图,具体可以包括如下步骤:
步骤301,接收第一终端在上屏第一临时词库中的词条时上传的词条。
在具体实现中,本发明实施例可以应用在输入法平台中,该输入法平台可以为独立的服务器或服务器集群,连接一个或多个计算设备,这些计算设备包括一个或多个第一终端、一个或多个第二终端。
需要说明的是,第一终端是相对于上传词条而言的,第二终端是相对于接收推送的词条而言的,某个计算设备即可以作为第一终端上传词条,也可以作为第二终端接收推送的词条。
在这些计算设备中安装有输入法系统,该输入法系统中配置有临时词库。
在本发明实施例中,第一终端的输入法系统配置有第一临时词库,第二终端的输入法系统配置有第二临时词库。
在第一临时词库中存储有一个或多个词条,词条具有第一有效期。
如果词条在第一有效期内上屏,则从第一临时词库转移至第一指定词库(如用户词库),否则,在第一临时词库中删除词条。
第一终端中的输入法系统在上屏第一临时词库中的词条时,可以同时将该词条上传至输入法平台。
相对而言,输入法平台可以接收第一终端在第一有效期内上屏第一临时词库中的词条时上传的词条。
步骤302,确定所述词条满足预设的推送条件。
在本发明实施例中,输入法平台可以设置推送条件,如果从第一终端上传的词条满足这些推送条件,则可以推送这些词条。
在本发明实施例的一个中,步骤302可以包括如下子步骤:
子步骤S31,统计所述词条在预设的时间段内的上屏频次;
子步骤S32,当所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。
在示例中,临时词库中的词条是由群体用户维护的,对于从具有时效性的文本信息中提取的关键词(即词条),可能较多用户讨论,在输入法系统中输入该关键词(即词条),因此,多个第一终端可以将该关键词(即词条)上传至输入法平台。
输入法平台可以统计这些第一终端上传的关键词(即词条)的上屏频次,如果上屏频次高于预设的频率阈值,表示该关键词(即词条)热度较高,满足推送条件。
当然,上述推送条件只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他推送条件,本发明实施例对此不加以限制。另外,除了上述推送条件外,本领域技术人员还可以根据实际需要采用其它推送条件,本发明实施例对此也不加以限制。
步骤303,依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端。
由于临时词库中的词条具有临时性,为了提高推送的准确率,可以以与当前用户(以第一终端表征)具有相同或相似输入行为的用户(以第二终端表征)作为推送的目标。
在本发明的一个实施例中,步骤303可以包括如下子步骤:
子步骤S41,至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;
在本发明实施例中,可以基于协同过滤(Collaborative Filtering,CF)查找与第一终端具有相似或相同输入行为的第二终端。
协同过滤是基于兴趣相同或相似的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。
协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。
基于用户的(User based)协同过滤算法是根据邻居用户的偏好信息产生对目标用户的推荐。它基于这样一个假设:如果一些用户对某一类项目的打分比较接近,则他们对其它类项目的打分也比较接近。
在本发明实施例中,可以记录用户对第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录,这些记录可以作为布尔量化的偏好第一上屏记录取值为1,第一未上屏记录取值为0。
由于第一临时词库中的数据可能比较稀疏,因此,可以查找在第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录,以扩充数据的数量。
其中,第一目标词库为与用户输入偏好相关的词库,包括用户词库和/或细胞词库,这些词库中的词条可以较好的类别区分能力。
对于系统词库等基础性的词库,由于词条的上屏频率可能较高,但是,对于用户偏好并不能好到进行区分,这些词库可以不参与计算。
子步骤S42,至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;
在本发明实施例中,可以记录用户对第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录,这些记录可以作为布尔量化的偏好第二上屏记录取值为1,第二未上屏记录取值为0。
由于第二临时词库中的数据可能比较稀疏,因此,可以查找在第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录,以扩充数据的数量。
其中,第二目标词库为与用户输入偏好相关的词库,包括用户词库和/或细胞词库,这些词库中的词条可以较好的类别区分能力。
对于系统词库等基础性的词库,由于词条的上屏频率可能较高,但是,对于用户偏好并不能好到进行区分,这些词库可以不参与计算。
子步骤S43,将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;
将第一上屏记录和/或第一未上屏记录进行向量化表达,可以形成第一终端的第一输入行为向量。
子步骤S44,将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;
将第二上屏记录和/或第二未上屏记录进行向量化表达,可以形成第二终端的第二输入行为向量。
子步骤S45,依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。
在本发明实施例中,可以通过余弦相似性(Cosine)、相关相似性(Correlation)以及修正的余弦相似性(AdjustedCosine)等方式计算第一输入行为向量与第二输入行为向量之间的相似度。
当该相似度超过预设的阈值时,确定第一终端的输入行为与第二终端的输入行为相同或相似。
步骤304,将所述词条推送至第二终端、以更新第二临时词库。
在具体实现中,可以将词条推送至至第二终端中的输入法系统,该目标终端的输入法系统将该词条存储至第二临时词库中,方便第二终端的用户进行输入操作。
在本发明的一个实施例中,为了避免重复存储词条,可以在除第二临时词库之外的词库中查询是否存储有该词条。若是,则丢弃词条;若否,则将词条存储在第二临时词库中。
因此,可以将词条推送至第二终端,以在除第二临时词库之外的其他词库未存储所述词条时、将词条存储至第二临时词库。
在本发明的另一个实施例中,可以将词条推送至第二终端、以将词条存储至第二临时词库,并设置第二有效期;
词条在第二有效期内上屏,则从第二临时词库转移至第二指定词库(如用户词库),否则,在第二临时词库中删除词条。
本发明实施例以第一终端在上屏第一临时词库中的词条时上传的词条,在其满足预设的推送条件时,推送至与第一终端具有相似或相同输入行为的第二终端、以更新第二临时词库,通过临时词库的特性,即动清理临时词库中的词条,保证临时词库的容量在较低的水平,进而保证输入法系统的其他词库仍然在现有的词库容量级别上,大大减少了词库中关键词的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了根据本发明一个实施例的词库的更新装置的结构框图,该装置应用在计算设备中,该计算设备包括第一终端,该装置具体可以包括如下模块:
文本信息获取模块401,适于获取具有时效性的文本信息;
关键词提取模块402,适于从所述文本信息中提取关键词;
条件满足确定模块403,适于确定所述关键词满足预设的热度条件;
关键词存储模块404,适于依据所述热度条件将所述关键词存储在临时词库中。
在本发明的一个实施例中,所述文本信息获取模块401包括:
通知栏监听子模块,适于对通知栏进行监听;
文本信息设置子模块,适于当监听到服务器推送的通知消息时,将所述通知消息设置为文本信息。
在本发明的一个实施例中,所述文本信息获取模块401包括:
文本信息读取子模块,适于在加载页面信息时,从所述页面信息中读取文本信息。
在本发明的一个实施例中,所述关键词提取模块402包括:
符号查找子模块,适于在所述通知消息中查找指定的符号;
关键词确定子模块,适于基于所述符号确定关键词。
在本发明的一个实施例中,所述条件满足确定模块403包括:
频次统计子模块,适于统计所述关键词的频次;
频次确定子模块,适于在所述频次在预设的时间段内高于预设的频次阈值,确定所述关键词满足预设的热度条件。
在本发明的一个实施例中,所述关键词存储模块404包括:
重复查询子模块,适于在除临时词库之外的词库中查询是否存储有所述关键词;若是,则调用丢弃子模块,若否,则调用临时词库存储子模块;
丢弃子模块,适于丢弃所述关键词;
临时词库存储子模块,适于将所述关键词存储在临时词库中。
参照图5,示出了根据本发明另一个实施例的词库的更新装置的结构框图,该装置应用在计算设备中,该计算设备包括第一终端,该装置具体可以包括如下模块:
文本信息获取模块501,适于获取具有时效性的文本信息;
关键词提取模块502,适于从所述文本信息中提取关键词;
条件满足确定模块503,适于确定所述关键词满足预设的热度条件;
关键词存储模块504,适于依据所述热度条件将所述关键词存储在临时词库中。
有效期设置模块505,适于在所述临时词库中,对所述关键词设置有效期;
时效期设置模块506,适于在所述临时词库中,对所述关键词设置时效期,所述时效期在所述有效期内;
字符串接收模块507,适于接收输入的字符串;
候选项查找模块508,适于在各个词库中查找与字符串匹配的候选项;
排序调整模块509,适于在确定所述候选项为所述临时词库的关键词时,按照所述时效期对所述关键词调整排序;
候选项展示模块510,适于按照调整之后的排序显示所述候选项。
关键词删除模块511,适于若所述关键词在所述有效期内未上屏,在所述临时词库中删除所述关键词;
有效期删除模块512,适于若所述关键词在所述有效期内上屏,删除所述关键词的有效期;
关键词转移模块513,适于将所述关键词从所述临时词库移至指定的词库。
在本发明的一个实施例中,所述排序调整模块509包括:
提高排序子模块,适于若当前时间在所述时效期内,提高所述关键词的排序;
降低排序子模块,适于若当前时间在所述时效期外,降低所述关键词的排序。
参照图6,示出了根据本发明另一个实施例的词库的更新装置的结构框图,具体可以包括如下模块:
词条接收模块601,适于接收第一终端在上屏第一临时词库中的词条时上传的词条;
条件满足确定模块602,适于确定所述词条满足预设的推送条件;
终端查找模块603,适于依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;
词条推送模块604,适于将所述词条推送至第二终端、以更新第二临时词库。
在本发明的一个实施例中,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;
所述词条接收模块601包括:
有效期接收子模块,适于接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。
在本发明的一个实施例中,所述条件满足确定模块602包括:
上屏频次统计子模块,适于统计所述词条在预设的时间段内的上屏频次;
推送确定子模块,适于在所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。
在本发明的一个实施例中,所述终端查找模块603包括:
第一记录查找子模块,适于至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;
第二记录查找子模块,适于至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;
第一响亮转换子模块,适于将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;
第二响亮转换子模块,适于将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;
输入行为计算子模块,适于依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。
在本发明实施例的一个示例中,所述第一记录查找子模块包括:
第一扩展查找单元,适于查找在所述第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录;
其中,所述第一目标词库包括用户词库和/或细胞词库。
在本发明实施例的一个示例中,所述第二记录查找子模块包括:
第二扩展查找单元,适于查找在所述第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录;
其中,所述第二目标词库包括用户词库和/或细胞词库。
在本发明的一个实施例中,所述词条推送模块604包括:
重复排除存储子模块,适于将所述词条推送至第二终端,以在除第二临时词库之外的其他词库未存储所述词条时、将所述词条存储至所述第二临时词库。
在本发明的一个实施例中,所述词条推送模块604包括:
有效期存储子模块,适于将所述词条推送至第二终端、以将所述词条存储至第二临时词库,并设置第二有效期;
所述词条在所述第二有效期内上屏,则从所述第二临时词库转移至第二指定词库,否则,在所述第二临时词库中删除所述词条。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的词库的更新设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明实施例公开了A1、一种词库的更新方法,包括:接收第一终端在上屏第一临时词库中的词条时上传的词条;确定所述词条满足预设的推送条件;依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;将所述词条推送至第二终端、以更新第二临时词库。A2、如A1所述的方法,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;所述接收第一终端在上屏第一临时词库中的词条时上传的词条的步骤包括:接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。A3、如A1所述的方法,所述确定所述词条满足预设的推送条件的步骤包括:统计所述词条在预设的时间段内的上屏频次;当所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。A4、如A1或A2或A3所述的方法,所述依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端的步骤包括:至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。A5、如A4所述的方法,所述至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录的步骤包括:查找在所述第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录;其中,所述第一目标词库包括用户词库和/或细胞词库。A6、如A4所述的方法,所述至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录的步骤包括:查找在所述第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录;其中,所述第二目标词库包括用户词库和/或细胞词库。A7、如A1或A2或A3所述的方法,所述将所述词条推送至第二终端、以更新第二临时词库的步骤包括:将所述词条推送至第二终端,以在除第二临时词库之外的其他词库未存储所述词条时、将所述词条存储至所述第二临时词库。A8、如A1或A2或A3所述的方法,所述将所述词条推送至第二终端、以更新第二临时词库的步骤包括:将所述词条推送至第二终端、以将所述词条存储至第二临时词库,并设置第二有效期;所述词条在所述第二有效期内上屏,则从所述第二临时词库转移至第二指定词库,否则,在所述第二临时词库中删除所述词条。
本发明实施例还公开了B9、一种词库的更新装置,包括:词条接收模块,适于接收第一终端在上屏第一临时词库中的词条时上传的词条;条件满足确定模块,适于确定所述词条满足预设的推送条件;终端查找模块,适于依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;词条推送模块,适于将所述词条推送至第二终端、以更新第二临时词库。B10、如B9所述的装置,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;所述词条接收模块包括:有效期接收子模块,适于接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。B11、如B9所述的装置,所述条件满足确定模块包括:上屏频次统计子模块,适于统计所述词条在预设的时间段内的上屏频次;推送确定子模块,适于在所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。B12、如B9或B10或B11所述的装置,所述终端查找模块包括:第一记录查找子模块,适于至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;第二记录查找子模块,适于至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;第一响亮转换子模块,适于将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;第二响亮转换子模块,适于将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;输入行为计算子模块,适于依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。B13、如B12所述的装置,所述第一记录查找子模块包括:第一扩展查找单元,适于查找在所述第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录;其中,所述第一目标词库包括用户词库和/或细胞词库。B14、如B12所述的装置,所述第二记录查找子模块包括:第二扩展查找单元,适于查找在所述第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录;其中,所述第二目标词库包括用户词库和/或细胞词库。B15、如B9或B10或B11所述的装置,所述词条推送模块包括:重复排除存储子模块,适于将所述词条推送至第二终端,在除第二临时词库之外的其他词库未存储所述词条时、将所述词条存储至所述第二临时词库。B16、如B9或B10或B11所述的装置,所述词条推送模块包括:有效期存储子模块,适于将所述词条推送至第二终端、以将所述词条存储至第二临时词库,并设置第二有效期;所述词条在所述第二有效期内上屏,则从所述第二临时词库转移至第二指定词库,否则,在所述第二临时词库中删除所述词条。
Claims (10)
1.一种词库的更新方法,包括:
接收第一终端在上屏第一临时词库中的词条时上传的词条;
确定所述词条满足预设的推送条件;
依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;
将所述词条推送至第二终端、以更新第二临时词库。
2.如权利要求1所述的方法,其特征在于,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;
所述接收第一终端在上屏第一临时词库中的词条时上传的词条的步骤包括:
接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。
3.如权利要求1所述的方法,其特征在于,所述确定所述词条满足预设的推送条件的步骤包括:
统计所述词条在预设的时间段内的上屏频次;
当所述上屏频次高于预设的频率阈值时,确定所述词条满足预设的推送条件。
4.如权利要求1或2或3所述的方法,其特征在于,所述依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端的步骤包括:
至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录;
至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录;
将所述第一上屏记录和/或所述第一未上屏记录转换为所述第一终端的第一输入行为向量;
将所述第二上屏记录和/或所述第二未上屏记录转换为所述第二终端的第二输入行为向量;
依据所述第一输入行为向量与所述第二输入行为向量查找与所述第一终端具有相似或相同输入行为的第二终端。
5.如权利要求4所述的方法,其特征在于,所述至少查找在所述第一终端中第一临时词库的词条的第一上屏记录和/或第一未上屏记录的步骤包括:
查找在所述第一终端中第一临时词库、第一目标词库的词条的第一上屏记录和/或第一未上屏记录;
其中,所述第一目标词库包括用户词库和/或细胞词库。
6.如权利要求4所述的方法,其特征在于,所述至少查找在所述第二终端中第二临时词库的词条的第二上屏记录和/或第二未上屏记录的步骤包括:
查找在所述第二终端中第二临时词库、第二目标词库的词条的第二上屏记录和/或第二未上屏记录;
其中,所述第二目标词库包括用户词库和/或细胞词库。
7.如权利要求1或2或3所述的方法,其特征在于,所述将所述词条推送至第二终端、以更新第二临时词库的步骤包括:
将所述词条推送至第二终端,以在除第二临时词库之外的其他词库未存储所述词条时、将所述词条存储至所述第二临时词库。
8.如权利要求1或2或3所述的方法,其特征在于,所述将所述词条推送至第二终端、以更新第二临时词库的步骤包括:
将所述词条推送至第二终端、以将所述词条存储至第二临时词库,并设置第二有效期;
所述词条在所述第二有效期内上屏,则从所述第二临时词库转移至第二指定词库,否则,在所述第二临时词库中删除所述词条。
9.一种词库的更新装置,包括:
词条接收模块,适于接收第一终端在上屏第一临时词库中的词条时上传的词条;
条件满足确定模块,适于确定所述词条满足预设的推送条件;
终端查找模块,适于依据所述推送条件查找与所述第一终端具有相似或相同输入行为的第二终端;
词条推送模块,适于将所述词条推送至第二终端、以更新第二临时词库。
10.如权利要求9所述的装置,其特征在于,所述词条具有第一有效期,所述词条在所述第一有效期内上屏,则从所述第一临时词库转移至第一指定词库,否则,在所述第一临时词库中删除所述词条;
所述词条接收模块包括:
有效期接收子模块,适于接收第一终端在所述第一有效期内上屏第一临时词库中的词条时上传的词条。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710076867.9A CN106933380B (zh) | 2017-02-13 | 2017-02-13 | 一种词库的更新方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710076867.9A CN106933380B (zh) | 2017-02-13 | 2017-02-13 | 一种词库的更新方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106933380A true CN106933380A (zh) | 2017-07-07 |
CN106933380B CN106933380B (zh) | 2019-08-16 |
Family
ID=59423149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710076867.9A Active CN106933380B (zh) | 2017-02-13 | 2017-02-13 | 一种词库的更新方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933380B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874175A (zh) * | 2018-06-20 | 2018-11-23 | 北京百度网讯科技有限公司 | 一种数据处理方法、装置、设备和介质 |
CN109597498A (zh) * | 2018-11-29 | 2019-04-09 | 北京蓦然认知科技有限公司 | 一种基于场景的输入方法、装置、设备 |
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN113792546A (zh) * | 2021-02-09 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 语料库的构建方法、装置、设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222069A (zh) * | 2010-04-15 | 2011-10-19 | 英业达股份有限公司 | 词库共用系统及其方法 |
CN102395105A (zh) * | 2011-10-28 | 2012-03-28 | 宇龙计算机通信科技(深圳)有限公司 | 移动终端、服务器、词库更新方法和词汇推送方法 |
CN102768576A (zh) * | 2011-05-06 | 2012-11-07 | 张家港市赫图阿拉信息技术有限公司 | 一种用户管理自定义词库的输入法 |
CN103399890A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 在输入法客户端收集字词的方法和设备 |
CN103825952A (zh) * | 2014-03-04 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 细胞词库推送方法和服务器 |
-
2017
- 2017-02-13 CN CN201710076867.9A patent/CN106933380B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222069A (zh) * | 2010-04-15 | 2011-10-19 | 英业达股份有限公司 | 词库共用系统及其方法 |
CN102768576A (zh) * | 2011-05-06 | 2012-11-07 | 张家港市赫图阿拉信息技术有限公司 | 一种用户管理自定义词库的输入法 |
CN102395105A (zh) * | 2011-10-28 | 2012-03-28 | 宇龙计算机通信科技(深圳)有限公司 | 移动终端、服务器、词库更新方法和词汇推送方法 |
CN103399890A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 在输入法客户端收集字词的方法和设备 |
CN103825952A (zh) * | 2014-03-04 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 细胞词库推送方法和服务器 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110555198B (zh) * | 2018-05-31 | 2023-05-23 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN108874175A (zh) * | 2018-06-20 | 2018-11-23 | 北京百度网讯科技有限公司 | 一种数据处理方法、装置、设备和介质 |
CN109597498A (zh) * | 2018-11-29 | 2019-04-09 | 北京蓦然认知科技有限公司 | 一种基于场景的输入方法、装置、设备 |
CN113792546A (zh) * | 2021-02-09 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 语料库的构建方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106933380B (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220044139A1 (en) | Search system and corresponding method | |
CN106354861B (zh) | 电影标签自动标引方法及自动标引系统 | |
CN103324665B (zh) | 一种基于微博的热点信息提取的方法和装置 | |
US20130110839A1 (en) | Constructing an analysis of a document | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
US20090240674A1 (en) | Search Engine Optimization | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN102609433A (zh) | 基于用户日志进行查询推荐的方法及系统 | |
CN106933380B (zh) | 一种词库的更新方法和装置 | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN104423621A (zh) | 拼音字符串处理方法和装置 | |
US20080162528A1 (en) | Content Management System and Method | |
CN103914513A (zh) | 一种实体输入方法和装置 | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN103955480B (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
CN109101505A (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN106933379A (zh) | 一种词库的生成方法和装置 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN106951104A (zh) | 一种基于词库的词条处理方法和装置 | |
CN115168568B (zh) | 一种数据内容的识别方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170803 Address after: 100102, 18 floor, building 2, Wangjing street, Beijing, Chaoyang District, 1801 Applicant after: BEIJING ANYUN SHIJI SCIENCE AND TECHNOLOGY CO., LTD. Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park) Applicant before: Beijing Qihu Technology Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |