CN106951104A - 一种基于词库的词条处理方法和装置 - Google Patents

一种基于词库的词条处理方法和装置 Download PDF

Info

Publication number
CN106951104A
CN106951104A CN201710076861.1A CN201710076861A CN106951104A CN 106951104 A CN106951104 A CN 106951104A CN 201710076861 A CN201710076861 A CN 201710076861A CN 106951104 A CN106951104 A CN 106951104A
Authority
CN
China
Prior art keywords
entry
dictionary
interim
validity
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710076861.1A
Other languages
English (en)
Inventor
蔡胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201710076861.1A priority Critical patent/CN106951104A/zh
Publication of CN106951104A publication Critical patent/CN106951104A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种基于词库的词条处理方法和装置,该方法包括:获取词条;将所述词条存储在临时词库中;在所述临时词库中,对所述词条设置有效期;若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。一方面,可以将具有时效性的词条存储至临时词库,用户输入时可以直接作为候选项,避免用户逐个字输入,提高用户的输入效率,另一方面,通过有效期的上屏操作自动清理临时词库中的词条,保证临时词库的容量在较低的水平,进而保证输入法系统的词库仍然在现有的词库容量级别上,大大减少了词库中词条的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。

Description

一种基于词库的词条处理方法和装置
技术领域
本发明涉及输入法的技术领域,特别是涉及一种基于词库的词条处理方法和一种基于词库的词条处理装置。
背景技术
随着计算机技术的普及与发展,输入法已经成为用户与计算机交互的重要工具,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。
目前输入法的词库一般覆盖用户使用的词汇的一部分,通常包括一些人们普遍的常用词汇,还有一部分词汇是输入法的词库未覆盖的。
在日常生活中,很多时事新闻是人们讨论的热点,如奥运会、台风等等,这是时事新闻的出现时间很短暂,用户在讨论这些时事新闻时,某些词需要用户通过输入法逐个字输入,输入效率较低。
如果将这些时事新闻的词汇都更新至词库里,会占用大量的存储空间,那么输入法系统的词库容量将在数百万的量级。
词库过大,同音字过多,候选项增加,这些词汇本身在总体用户中的使用概率比较低,不需要使用这些词汇的用户会受到干扰,导致用户在输入时的首选词准确率较低。
并且,容量大的词库会大幅占用CPU(Central Processing Unit,中央处理器)、内存等计算设备的资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于词库的词条处理方法和相应的一种基于词库的词条处理装置。
依据本发明的一个方面,提供了一种基于词库的词条处理方法,包括:
获取词条;
将所述词条存储在临时词库中;
在所述临时词库中,对所述词条设置有效期;
若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
可选地,所述将所述词条存储在临时词库中的步骤包括:
在除临时词库之外的词库中查询是否存储有所述词条;
若是,则丢弃所述词条;
若否,则将所述词条存储在临时词库中。
可选地,所述将所述词条存储在临时词库中的步骤包括:
对所述词条设置编码信息;
在所述临时词库中建立所述词条与所述编码信息之间的映射关系。
可选地,还包括:
在所述临时词库中,对所述词条设置时效期,所述时效期在所述有效期内;
接收输入的字符串;
在各个词库中查找与字符串匹配的候选项;
当确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序;
按照调整之后的排序显示所述候选项。
可选地,所述在各个词库中查找与字符串匹配的候选项的步骤包括:
在各个词库中查找与所述字符串匹配的编码信息;
提取所述编码信息映射的词条,作为候选项。
可选地,所述按照所述词条的时效期对所述词条调整排序的步骤包括:
若当前时间在所述时效期内,提高所述词条的排序;
若当前时间在所述时效期外,降低所述词条的排序。
可选地,还包括:
若所述词条在所述有效期内上屏,删除所述词条的有效期;
将所述词条从所述临时词库移至指定的词库。
可选地,所述将所述词条从所述临时词库移至指定的词库的步骤包括:
在所述临时词库中解除所述词条与编码信息之间的映射关系;
在指定的词库中建立所述词条与所述编码信息之间的映射关系。
根据本发明的另一方面,提供了一种基于词库的词条处理装置,包括:
词条获取模块,适于获取词条;
词条存储模块,适于将所述词条存储在临时词库中;
有效期设置模块,适于在所述临时词库中,对所述词条设置有效期;
词条删除模块,适于若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
可选地,所述词条存储模块包括:
重复查询子模块,适于在除临时词库之外的词库中查询是否存储有所述词条;若是,则调用丢弃子模块,若否,则调用临时词库存储子模块;
丢弃子模块,适于丢弃所述词条;
临时词库存储子模块,适于将所述词条存储在临时词库中。
可选地,所述词条存储模块包括:
编码信息设置子模块,适于对所述词条设置编码信息;
映射关系建立子模块,适于在所述临时词库中建立所述词条与所述编码信息之间的映射关系。
可选地,还包括:
时效期设置模块,适于在所述临时词库中,对所述词条设置时效期,所述时效期在所述有效期内;
字符串接收模块,适于接收输入的字符串;
候选项查找模块,适于在各个词库中查找与字符串匹配的候选项;
排序调整模块,适于在确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序;
候选项展示模块,适于按照调整之后的排序显示所述候选项。
可选地,所述候选项查找模块包括:
编码信息匹配子模块,适于在各个词库中查找与所述字符串匹配的编码信息;
词条提取子模块,适于提取所述编码信息映射的词条,作为候选项。
可选地,所述排序调整模块包括:
提高排序子模块,适于若当前时间在所述时效期内,提高所述词条的排序;
降低排序子模块,适于若当前时间在所述时效期外,降低所述词条的排序。
可选地,还包括:
有效期删除模块,适于若所述词条在所述有效期内上屏,删除所述词条的有效期;
词条转移模块,适于将所述词条从所述临时词库移至指定的词库。
可选地,所述词条转移模块包括:
映射关系解除子模块,适于在所述临时词库中解除所述词条与编码信息之间的映射关系;
映射关系重建子模块,适于在指定的词库中建立所述词条与所述编码信息之间的映射关系。
本发明实施例设置临时词库,将词条存储在临时词库中,并对其设置有效期,若词条在有效期内未上屏,在临时词库中删除词条,一方面,可以将具有时效性的词条存储至临时词库,用户输入时可以直接作为候选项,避免用户逐个字输入,提高用户的输入效率,另一方面,通过有效期的上屏操作自动清理临时词库中的词条,保证临时词库的容量在较低的水平,进而保证输入法系统的词库仍然在现有的词库容量级别上,大大减少了词库中词条的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于词库的词条处理方法的步骤流程图;
图2示出了根据本发明另一个实施例的基于词库的词条处理方法的步骤流程图;
图3示出了根据本发明一个实施例的基于词库的词条处理装置的结构框图以及
图4示出了根据本发明另一个实施例的基于词库的词条处理装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的基于词库的词条处理方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取词条。
在具体实现中,本发明实施例可以应用于输入法系统中,该输入法系统可以安装在计算设备中,例如,电脑、手机、PDA(Personal Digital Assistant,个人数字助理)、膝上型计算机、掌上电脑等等,本发明实施例对此不加以限制。
该计算设备可以支持Windows、Android(安卓)、IOS、WindowsPhone等操作系统,通常可以在输入法系统中通过虚拟键盘、物理键盘、语音等方式输入字词。
在本发明实施例中,输入法系统可以在计算设备的环境中,获取具有时效性的词条。
所谓时效性,是指该文本信息在某一个特定的时间出现的频率较高(可表现为高于预设的第一频率阈值),在该特定的时间之后,其出现的频率明显降低(可表现为低于预设的第二频率阈值,第一频率阈值大于第二频率阈值)。
在本发明的一个实施例中,步骤101可以包括如下子步骤:
在本发明实施例中,输入法系统可以在计算设备的环境中,获取具有时效性的文本信息,从该文本信息中提取关键词作为词条。
例如,在奥运会期间中,各大网站会频繁发布与奥运会相关的报道(文本信息),在奥运会之后,与奥运会相关的报道会显著减少;在台风期间中,各大网站会频繁发布与台风修相关的报道(文本信息),在台风之后,与台风修相关的报道会显著减少。
子步骤S11,获取具有时效性的文本信息。
在本发明实施例的一个示例中,子步骤S11可以包括如下子步骤:
子步骤S111,对通知栏进行监听;
子步骤S112,当监听到服务器推送的通知消息时,将所述通知消息设置为文本信息。
通知栏(Notificaiton),适用于交互事件的通知,它是位于顶层可以展开的通知列表。
通知栏一般可以包括如下的一种或多种功能:
1、显示接收到短消息、即时通信消息等信息;
2、显示客户端的推送消息,例如,新版本发布、广告、推荐新闻等等;
3、显示正在进行的事物,例如,音乐播放器、版本更新时候的下载进度等等。
诸如热点新闻等具有时效性的通知消息,为了让用户更快地了解,经常将这些通知消息推送至通知栏。
因此,本发明实施例可以通过监听通知栏,接收推送至该通知栏的通知消息,获取具有时效性的文本信息。
由于新闻类应用、社交类应用等应用推送具有时效性的消息的概率较高,而银行类应用、游戏类应用等应用推送具有时效性的消息的概率较低,因此,为了减少计算量,输入法系统可以注册指定应用(如新闻类应用、社交类应用等)的监听器,监听这些应用推送至通知栏的消息。
在本发明实施例的另一个示例中,子步骤S11可以包括如下子步骤:
子步骤S113,当加载页面信息时,从所述页面信息中读取文本信息。
在本发明实施例中,用户可以在打开网页,浏览诸如热点新闻等具有时效性的网页信息。
因此,本发明实施例可以在加载页面信息时,从页面信息中读取具有时效性的文本信息。
网页按照功能可以划分为多个区域,例如,导航块、垃圾块、翻页块、标题块、作者信息块、发表日期块、正文块等等,具有时效性的文本信息一般集中在标题、正文等区域,因此,可以提取这些标题、正文等区域的信息作为具有时效性的文本信息。
进一步而言,可以在当前页面的DOM(Document Object Model,文件对象模型)树节点中查找具有时效性的文本信息。
DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系,可以把DOM认为是页面上数据和结构的一个树形表示,不过页面当然可能并不是以这种树的方式具体实现。
例如,在head标签的title标签中,可以提取标题,在body标签的某一个div标签中,可以提取正文。
由于门户网站、新闻网站等网站发布具有时效性的页面信息的概率较高,而购物网站、技术类网站等网站发布具有时效性的页面信息的概率较低,因此,为了减少计算量,输入法系统可以监听指点网站(如门户网站、新闻网站等)的网页信息。
例如,门户网站、新闻网站都具有特定的域名,其中,体育领域的网页网址一般带有“sports”标识的域名,新闻领域的网页一般带有“news”标识的二级域名,如sports.***.com、news.***.com(***为顶级域名),在该网站的网址检测出“sports”或“news”等二级域名时,则可以识别出该网页类别为体育领域的网页、新闻领域的网页,继而可以从这些网页提取标题、正文等文本信息。
当然,上述文本信息的获取方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他文本信息的获取方式,本发明实施例对此不加以限制。另外,除了上述文本信息的获取方式外,本领域技术人员还可以根据实际需要采用其它文本信息的获取方式,本发明实施例对此也不加以限制。
子步骤S21,从所述文本信息中提取关键词,作为词条。
在具体实现中,可以通过自然语言处理(Natural Language Processing,NLP)从文本信息中提取关键词。
在一个示例中,可以采用TF-IDF(term frequency–inverse documentfrequency)算法提取关键词,TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。
在此示例中,可以先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值;用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词
在另一个示例中,可以基于语义的统计语言模型提取关键词。
在此示例中,在全面把握文本信息的中心思想的基础上,提取出若干个代表文本信息语义内容的词汇或短语。
在另一个示例中,可以采用TF-IWF文档关键词自动提取算法提取关键词。
在此示例中,使用简单统计并考虑词长、位置、词性等启发性知识计算词权重。
当然,上述关键词的提取方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他关键词的提取方式,例如,基于分离模型的中文关键词提取算法提取关键词、基于高维聚类技术的中文关键词提取算法提取关键词、基于语义的中文文本关键词提取(SKE)算法提取关键词、基于朴素贝叶斯模型的中文关键词提取算法提取关键词,等等,本发明实施例对此不加以限制。另外,除了上述关键词的提取方式外,本领域技术人员还可以根据实际需要采用其它关键词的提取方式,本发明实施例对此也不加以限制。
在一些通知消息的情景中,某些特定的词汇使用指定的符号(如引号、括号等)进行标识,因此,在通知消息中查找指定的符号,基于符号确定关键词。
例如,某条通知消息为“台风‘妮妲’8月2日凌晨至中午将以台风或强台风级登陆广东沿海,可能在珠江口附近登陆,给深圳带来狂风暴雨。”其中,指定的符号为引号,在引号中的词(即妮妲)可以作为关键词。
步骤102,将所述词条存储在临时词库中。
在具体实现中,可以在输入法系统中设置一个或多个词库,该词库可以包括如下的一种或多种:
1、记载基础字词的系统词库。
2、记载扩展字词的细胞词库(细胞词库中的字词至少具有一个共同属性)。
例如,记载某个游戏专用字词的细胞词库、记载生物专用字词的细胞词库等。
3、记载用户个性化字词(如自造词)的用户词库。
4、记载通讯录信息的通讯录词库。
当然,上述词库只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他词库,本发明实施例对此不加以限制。
在本发明实施例中,除了这些常用的词库之外,还设置了临时词库。
所谓临时词库,其本质仍为词库,但是,相对于其他常用的词库的词条,临时词库中的词条具有临时性,即满足一定条件时,输入法系统可以自动将该词条从该临时词库中删除。
为了避免重复存储词条,可以在除临时词库之外的词库中查询是否存储有该词条。若是,则丢弃词条;若否,则将词条存储在临时词库中。
在具体实现中,可以对词条设置编码信息,例如,拼音、笔画等等。
在临时词库中建立词条与编码信息之间的映射关系。
例如,输入法系统可以对“妮妲”确定对应的拼音“nida”,作为其编码信息,将“妮妲”于“nida”之间的映射关系保存到临时词库中。
如果词条中存在多编码的字(如多音字),则可以通过如下方式进行处理:
一、输入法系统将包含多编码的字的词条与其对应的所有可能的编码信息建立映射关系,并存储到临时词库中。
例如,词条为“调度指令”,“调”的读音分别有“diao”与“tiao”,则输入法系统可以将“调度指令”分别与“diaoduzhiling”、“tiaoduzhiling”建立映射关系,并存储到临时词库中。
二、输入法系统将包含多编码的字的词条的所有可能的编码信息显示给用户,由用户为该词条指定一个编码信息,输入法系统将该词条与用户选择的编码信息建立映射关系,并存储到临时词库中。
例如,词条为“调度指令”,“调”的读音分别有“diao”与“tiao”,则输入法系统可以显示“diaoduzhiling”、“tiaoduzhiling”给用户,若用户选择了“diaoduzhiling”,则输入法系统可以将“调度指令”分别与“diaoduzhiling”建立映射关系,并存储到临时词库中。
在本发明的一个实施例中,可以设置热度条件,表征该词条的使用程度,如果词条满足该热度条件,表示该词条使用程度较高,用户输入该词条的概率较大。
在一个示例中,可以统计词条的频次,即一段时间内、该词条在计算设备中被提取的次数。
当频次在预设的时间段内高于预设的频次阈值,可以确定词条满足预设的热度条件。
当然,上述热度条件只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他热度条件,例如,该词条来自特定的通知消息(如新闻应用推送的新闻),等等,本发明实施例对此不加以限制。另外,除了上述热度条件外,本领域技术人员还可以根据实际需要采用其它热度条件,本发明实施例对此也不加以限制。
步骤103,在所述临时词库中,对所述词条设置有效期。
在具体实现中,若词条来源于热点事件的时事新闻等具有时效性的信息,当该热点事件过去之后,用户讨论该热点事件的概率明显减少,输入该词条的概率明显减少,因此,为了减少存储空间的占用,可以针对该词条设置有效期,使得该词条在该有效期内有效,超过该有效期则无效。
该有效期可以是默认的值(如30天),也可以根据词条所属信息的特征进行设置,本发明实施例对此不加以限制。
例如,如果词条“里约热内卢奥运会”来源于奥运会(特征)相关的新闻,而奥运会的会期一般为15天,因此,对词条“里约热内卢奥运会”可以设置比奥运会的会期稍长的时间作为有效期,如20天。
步骤104,若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
在具体实现中,如果用户输入编码信息,则输入法系统可以将相关的候选项提供用户选择。
如果用户选定该候选项,则可以输出该候选至其他应用,将候选项输出的过程可以称之为上屏。
如果临时词库中的词条在其有效期内未上屏,此后上屏的概率会明显下降,为了避免占用存储空间,将其删除。
本发明实施例设置临时词库,将词条存储在临时词库中,并对其设置有效期,若词条在有效期内未上屏,在临时词库中删除词条,一方面,可以将具有时效性的词条存储至临时词库,用户输入时可以直接作为候选项,避免用户逐个字输入,提高用户的输入效率,另一方面,通过有效期的上屏操作自动清理临时词库中的词条,保证临时词库的容量在较低的水平,进而保证输入法系统的词库仍然在现有的词库容量级别上,大大减少了词库中词条的数量,保证用户在输入时的首选词的准确率,并且,保证CPU、内存等计算设备的资源的占用在合理的水平。
参照图2,示出了根据本发明另一个实施例的基于词库的词条处理方法的步骤流程图,具体可以包括如下步骤:
步骤201,获取词条。
步骤202,将所述词条存储在临时词库中。
步骤203,在所述临时词库中,对所述词条设置有效期。
步骤204,在所述临时词库中,对所述词条设置时效期。
在具体实现中,若词条来源于热点事件的时事新闻等具有时效性的信息,该词条的使用概率随时间的增加而减少,因此,可以对该词条设置时效期,该时效期在有效期内,以对该词条展示的位置进行调整。
需要说明的是,时效期在有效期内,即时效期比有效期短。
步骤205,接收输入的字符串。
在实际应用中,在输入法系统进行输入的虚拟键盘、物理键盘等键盘可以包括九宫格键盘、全键盘(如QWERTY键盘)等等。
这些键盘具有一个或多个按键,该按键经常被复用,映射一个或多个字符,若按键被触发(如按下、点击、滑动等),可以将其映射的字符输入至输入法系统,输入法系统将这些字符组成字符串。
对于不同的语言,如中文、英文、日文等等,虚拟键盘、物理键盘等键盘的按键所映射的字符会有所不同,具体可以包括、但不限于数字字符、英文字符、中文字符(如拼音字符、笔画字符等)和符号字符中的至少一个。
这些字符串可以显示在输入法系统界面中的编码栏中,以提示用户所输入的字符串。
步骤206,在各个词库中查找与字符串匹配的候选项。
在中文、日语等语言里,作为基本语言单位的汉字、日文等文字一般不直接与键盘上的按键进行映射,因此,在输入时一般需要进行字符串与词条的转换。
在具体实现中,可以在各个词库中查找与字符串匹配的编码信息,提取编码信息映射的词条,作为候选项。
需要说明的是,这些词库可以包括系统词库、细胞词库、用户词库、通讯录词库、临时词库等等。
以汉字的拼音输入为例,用户将汉字的拼音通过键盘输入至输入法系统中,由输入法系统进行解码,具体可以包括如下步骤:
1、拼音切分
在此步骤中,输入法系统可以将字符串切分为拼音的音节。
例如,将字符串“aoyunhui”切分为“ao’yun’hui”。
2、音节解码
在此步骤中,输入法系统可以在词库中查找音节对应的词条。
例如,查找“ao’yun’hui”对应的词条“奥运会”。
步骤207,当确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序。
在具体实现中,若当前时间在时效期内,用户输入该词条的概率较高,则可以提高词条的排序。
若当前时间在时效期外,用户输入该词条的概率较低,可以降低词条的排序。
需要说明的是,除了时效期之外,还可以采用其他方式调整排序,例如,用户属性(提高与用户属性匹配的候选项的排序)、输入环境(提高与输入环境匹配的候选项的排序)、词频(词频越高、排序越高)等等,本发明实施例对此不加以限制。
步骤208,按照调整之后的排序显示所述候选项。
在调整排序之后,则可以在候选栏中展示给用户,待用户选择。
步骤209,若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
步骤210,若所述词条在所述有效期内上屏,删除所述词条的有效期。
步骤211,将所述词条从所述临时词库移至指定的词库。
如果该词条作为候选项显示时,用户通过点击候选项、点击候选项的编号对应的按键等方式选中该词条,输出该词条,实现上屏。
此时,可以将该词条从临时词库转移至其他指定的正式词库,例如,用户词库。
在具体实现中,除了删除该词条的有效期之外,还可以在临时词库中解除词条与编码信息之间的映射关系,在指定的词库中建立词条与编码信息之间的映射关系。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了根据本发明一个实施例的基于词库的词条处理装置的结构框图,具体可以包括如下模块:
词条获取模块301,适于获取词条;
词条存储模块302,适于将所述词条存储在临时词库中;
有效期设置模块303,适于在所述临时词库中,对所述词条设置有效期;
词条删除模块304,适于若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
在本发明的一个实施例中,所述词条存储模块302包括:
重复查询子模块,适于在除临时词库之外的词库中查询是否存储有所述词条;若是,则调用丢弃子模块,若否,则调用临时词库存储子模块;
丢弃子模块,适于丢弃所述词条;
临时词库存储子模块,适于将所述词条存储在临时词库中。
在本发明的一个实施例中,所述词条存储模块302包括:
编码信息设置子模块,适于对所述词条设置编码信息;
映射关系建立子模块,适于在所述临时词库中建立所述词条与所述编码信息之间的映射关系。
参照图4,示出了根据本发明另一个实施例的基于词库的词条处理装置的结构框图,具体可以包括如下模块:
词条获取模块401,适于获取词条;
词条存储模块402,适于将所述词条存储在临时词库中;
有效期设置模块403,适于在所述临时词库中,对所述词条设置有效期;
时效期设置模块404,适于在所述临时词库中,对所述词条设置时效期,所述时效期在所述有效期内;
字符串接收模块405,适于接收输入的字符串;
候选项查找模块406,适于在各个词库中查找与字符串匹配的候选项;
排序调整模块407,适于在确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序;
候选项展示模块408,适于按照调整之后的排序显示所述候选项。
词条删除模块409,适于若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
有效期删除模块410,适于若所述词条在所述有效期内上屏,删除所述词条的有效期;
词条转移模块411,适于将所述词条从所述临时词库移至指定的词库。
在本发明的一个实施例中,所述候选项查找模块405包括:
编码信息匹配子模块,适于在各个词库中查找与所述字符串匹配的编码信息;
词条提取子模块,适于提取所述编码信息映射的词条,作为候选项。
在本发明的一个实施例中,所述排序调整模块406包括:
提高排序子模块,适于若当前时间在所述时效期内,提高所述词条的排序;
降低排序子模块,适于若当前时间在所述时效期外,降低所述词条的排序。
在本发明的一个实施例中,所述词条转移模块包括:
映射关系解除子模块,适于在所述临时词库中解除所述词条与编码信息之间的映射关系;
映射关系重建子模块,适于在指定的词库中建立所述词条与所述编码信息之间的映射关系。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于词库的词条处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种基于词库的词条处理方法,包括:
获取词条;
将所述词条存储在临时词库中;
在所述临时词库中,对所述词条设置有效期;
若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
A2、如A1所述的方法,所述将所述词条存储在临时词库中的步骤包括:
在除临时词库之外的词库中查询是否存储有所述词条;
若是,则丢弃所述词条;
若否,则将所述词条存储在临时词库中。
A3、如A1所述的方法,所述将所述词条存储在临时词库中的步骤包括:
对所述词条设置编码信息;
在所述临时词库中建立所述词条与所述编码信息之间的映射关系。
A4、如A1或A2或A3所述的方法,还包括:
在所述临时词库中,对所述词条设置时效期,所述时效期在所述有效期内;
接收输入的字符串;
在各个词库中查找与字符串匹配的候选项;
当确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序;
按照调整之后的排序显示所述候选项。
A5、如A4所述的方法,所述在各个词库中查找与字符串匹配的候选项的步骤包括:
在各个词库中查找与所述字符串匹配的编码信息;
提取所述编码信息映射的词条,作为候选项。
A6、如A4所述的方法,所述按照所述词条的时效期对所述词条调整排序的步骤包括:
若当前时间在所述时效期内,提高所述词条的排序;
若当前时间在所述时效期外,降低所述词条的排序。
A7、如A1或A2或A3或A4或A5或A6所述的方法,还包括:
若所述词条在所述有效期内上屏,删除所述词条的有效期;
将所述词条从所述临时词库移至指定的词库。
A8、如A7所述的方法,所述将所述词条从所述临时词库移至指定的词库的步骤包括:
在所述临时词库中解除所述词条与编码信息之间的映射关系;
在指定的词库中建立所述词条与所述编码信息之间的映射关系。
本发明实施例公开了B9、一种基于词库的词条处理装置,包括:
词条获取模块,适于获取词条;
词条存储模块,适于将所述词条存储在临时词库中;
有效期设置模块,适于在所述临时词库中,对所述词条设置有效期;
词条删除模块,适于若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
B10、如B9所述的装置,所述词条存储模块包括:
重复查询子模块,适于在除临时词库之外的词库中查询是否存储有所述词条;若是,则调用丢弃子模块,若否,则调用临时词库存储子模块;
丢弃子模块,适于丢弃所述词条;
临时词库存储子模块,适于将所述词条存储在临时词库中。
B11、如B9所述的装置,所述词条存储模块包括:
编码信息设置子模块,适于对所述词条设置编码信息;
映射关系建立子模块,适于在所述临时词库中建立所述词条与所述编码信息之间的映射关系。
B12、如B9或B10或B11所述的装置,还包括:
时效期设置模块,适于在所述临时词库中,对所述词条设置时效期,所述时效期在所述有效期内;
字符串接收模块,适于接收输入的字符串;
候选项查找模块,适于在各个词库中查找与字符串匹配的候选项;
排序调整模块,适于在确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序;
候选项展示模块,适于按照调整之后的排序显示所述候选项。
B13、如B12所述的装置,所述候选项查找模块包括:
编码信息匹配子模块,适于在各个词库中查找与所述字符串匹配的编码信息;
词条提取子模块,适于提取所述编码信息映射的词条,作为候选项。
B14、如B12所述的装置,所述排序调整模块包括:
提高排序子模块,适于若当前时间在所述时效期内,提高所述词条的排序;
降低排序子模块,适于若当前时间在所述时效期外,降低所述词条的排序。
B15、如B9或B10或B11或B12或B13或B14所述的装置,还包括:
有效期删除模块,适于若所述词条在所述有效期内上屏,删除所述词条的有效期;
词条转移模块,适于将所述词条从所述临时词库移至指定的词库。
B16、如B15所述的装置,所述词条转移模块包括:
映射关系解除子模块,适于在所述临时词库中解除所述词条与编码信息之间的映射关系;
映射关系重建子模块,适于在指定的词库中建立所述词条与所述编码信息之间的映射关系。

Claims (10)

1.一种基于词库的词条处理方法,包括:
获取词条;
将所述词条存储在临时词库中;
在所述临时词库中,对所述词条设置有效期;
若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
2.如权利要求1所述的方法,其特征在于,所述将所述词条存储在临时词库中的步骤包括:
在除临时词库之外的词库中查询是否存储有所述词条;
若是,则丢弃所述词条;
若否,则将所述词条存储在临时词库中。
3.如权利要求1所述的方法,其特征在于,所述将所述词条存储在临时词库中的步骤包括:
对所述词条设置编码信息;
在所述临时词库中建立所述词条与所述编码信息之间的映射关系。
4.如权利要求1或2或3所述的方法,其特征在于,还包括:
在所述临时词库中,对所述词条设置时效期,所述时效期在所述有效期内;
接收输入的字符串;
在各个词库中查找与字符串匹配的候选项;
当确定所述候选项为所述临时词库的词条时,按照所述时效期对所述词条调整排序;
按照调整之后的排序显示所述候选项。
5.如权利要求4所述的方法,其特征在于,所述在各个词库中查找与字符串匹配的候选项的步骤包括:
在各个词库中查找与所述字符串匹配的编码信息;
提取所述编码信息映射的词条,作为候选项。
6.如权利要求4所述的方法,其特征在于,所述按照所述词条的时效期对所述词条调整排序的步骤包括:
若当前时间在所述时效期内,提高所述词条的排序;
若当前时间在所述时效期外,降低所述词条的排序。
7.如权利要求1或2或3或4或5或6所述的方法,其特征在于,还包括:
若所述词条在所述有效期内上屏,删除所述词条的有效期;
将所述词条从所述临时词库移至指定的词库。
8.如权利要求7所述的方法,其特征在于,所述将所述词条从所述临时词库移至指定的词库的步骤包括:
在所述临时词库中解除所述词条与编码信息之间的映射关系;
在指定的词库中建立所述词条与所述编码信息之间的映射关系。
9.一种基于词库的词条处理装置,包括:
词条获取模块,适于获取词条;
词条存储模块,适于将所述词条存储在临时词库中;
有效期设置模块,适于在所述临时词库中,对所述词条设置有效期;
词条删除模块,适于若所述词条在所述有效期内未上屏,在所述临时词库中删除所述词条。
10.如权利要求9所述的装置,其特征在于,所述词条存储模块包括:
重复查询子模块,适于在除临时词库之外的词库中查询是否存储有所述词条;若是,则调用丢弃子模块,若否,则调用临时词库存储子模块;
丢弃子模块,适于丢弃所述词条;
临时词库存储子模块,适于将所述词条存储在临时词库中。
CN201710076861.1A 2017-02-13 2017-02-13 一种基于词库的词条处理方法和装置 Pending CN106951104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710076861.1A CN106951104A (zh) 2017-02-13 2017-02-13 一种基于词库的词条处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710076861.1A CN106951104A (zh) 2017-02-13 2017-02-13 一种基于词库的词条处理方法和装置

Publications (1)

Publication Number Publication Date
CN106951104A true CN106951104A (zh) 2017-07-14

Family

ID=59465441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710076861.1A Pending CN106951104A (zh) 2017-02-13 2017-02-13 一种基于词库的词条处理方法和装置

Country Status (1)

Country Link
CN (1) CN106951104A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107390896A (zh) * 2017-07-21 2017-11-24 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
CN110083253A (zh) * 2018-01-25 2019-08-02 北京搜狗科技发展有限公司 一种输入方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216854A (zh) * 2008-01-15 2008-07-09 腾讯科技(深圳)有限公司 计算机文字输入方法和系统及其词库维护方法和装置
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN102467537A (zh) * 2010-11-10 2012-05-23 腾讯科技(深圳)有限公司 删除词汇的方法和装置
CN102768576A (zh) * 2011-05-06 2012-11-07 张家港市赫图阿拉信息技术有限公司 一种用户管理自定义词库的输入法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
CN101216854A (zh) * 2008-01-15 2008-07-09 腾讯科技(深圳)有限公司 计算机文字输入方法和系统及其词库维护方法和装置
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN102467537A (zh) * 2010-11-10 2012-05-23 腾讯科技(深圳)有限公司 删除词汇的方法和装置
CN102768576A (zh) * 2011-05-06 2012-11-07 张家港市赫图阿拉信息技术有限公司 一种用户管理自定义词库的输入法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107390896A (zh) * 2017-07-21 2017-11-24 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
CN107390896B (zh) * 2017-07-21 2019-12-03 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
CN110083253A (zh) * 2018-01-25 2019-08-02 北京搜狗科技发展有限公司 一种输入方法和装置

Similar Documents

Publication Publication Date Title
US20220044139A1 (en) Search system and corresponding method
US9317498B2 (en) Systems and methods for generating summaries of documents
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
US20110173174A1 (en) Linguistically enhanced search engine and meta-search engine
KR20190062391A (ko) 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법
US20130110839A1 (en) Constructing an analysis of a document
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
US20080162528A1 (en) Content Management System and Method
CN101013443A (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN111178053B (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
CN106933380B (zh) 一种词库的更新方法和装置
CN106933379A (zh) 一种词库的生成方法和装置
CN106951104A (zh) 一种基于词库的词条处理方法和装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Pak et al. The impact of text representation and preprocessing on author identification
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN115168568B (zh) 一种数据内容的识别方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170802

Address after: 100102, 18 floor, building 2, Wangjing street, Beijing, Chaoyang District, 1801

Applicant after: BEIJING ANYUN SHIJI SCIENCE AND TECHNOLOGY CO., LTD.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170714