CN107665206B - 清理用户词库的方法、系统和用于清理用户词库的装置 - Google Patents

清理用户词库的方法、系统和用于清理用户词库的装置 Download PDF

Info

Publication number
CN107665206B
CN107665206B CN201610605040.8A CN201610605040A CN107665206B CN 107665206 B CN107665206 B CN 107665206B CN 201610605040 A CN201610605040 A CN 201610605040A CN 107665206 B CN107665206 B CN 107665206B
Authority
CN
China
Prior art keywords
entry
screen
preset
displayed
entries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610605040.8A
Other languages
English (en)
Other versions
CN107665206A (zh
Inventor
马尔胡甫·曼苏尔
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610605040.8A priority Critical patent/CN107665206B/zh
Publication of CN107665206A publication Critical patent/CN107665206A/zh
Application granted granted Critical
Publication of CN107665206B publication Critical patent/CN107665206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

本发明实施例提供了一种清理用户词库的方法、系统和用于清理用户词库的装置,该方法包括:在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息;根据所述输入行为信息确定所述词条的类型;当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。本发明实施例通过删除对输入贡献低的词条,减少用户词库中词条的数量,减少在用户想输入的其他词条恰好与垃圾词条的编码相同的情况下,垃圾词条排靠前的问题,避免给用户输入带来干扰,减少用户进行翻页等操作,降低输入的成本,提高了用户体验。

Description

清理用户词库的方法、系统和用于清理用户词库的装置
技术领域
本发明涉及输入法的技术领域,特别是涉及一种基于清理用户词库的方法、一种清理用户词库的系统和一种用于清理用户词库的装置。
背景技术
随着计算机技术的普及与发展,输入法已经成为用户与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。
对于用户输入的个性化词条,如自造词,一般收录在用户词库中。如果用户在收录个性化的词条之后,再次输入该词条,输入法会将这个词条作为一个候选展现出来。
在用户长期的使用过程中,用户词库中会慢慢积累大量的词条,其中包括很多无用的词条,而基于目前候选的排序规则,即用户词库中的词条一般排在非用户词库的词条之前,这类无用的词条在很多情况下会排序靠前。
如果用户想输入的其他词条恰好与这些无用的词条的编码(如拼音、五笔等)相同,这些无用的词条会排在比较靠前的位置,给用户输入带来干扰,可能需要用户进行翻页等操作才能够找到其想输入的候选项,输入的成本较高,影响用户体验。
此外,随着用户词库规模的逐渐变大,由于用户输入行为的长尾效应,这些无用的词条往往会占据用户词库的相当一部分,不仅降低用户词库中词条的匹配效率,而且输入法切入、切出等响应速度会显著降低,降低了用户体验。
发明内容
鉴于上述问题,为了解决上述输入成本较高、输入法的响应速度会显著降低的问题,本发明实施例提出了一种清理用户词库的方法、一种清理用户词库的系统和一种用于清理用户词库的装置。
为了解决上述问题,本发明实施例公开了一种清理用户词库的方法,包括:
在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息;
根据所述输入行为信息确定所述词条的类型;
当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
可选地,所述根据所述输入行为信息确定所述词条的类型的步骤包括:
当所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条。
可选地,所述根据所述输入行为信息确定所述词条的类型的步骤包括:
当所述输入行为信息未满足预设的低频输入条件、满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条。
可选地,还包括:
当接收到输入的字符串时,查找所述字符串对应的词条;
当所述词条包括疑似垃圾词条时,降低所述疑似垃圾词条的排序;
将降低排序之后的词条作为候选项进行显示。
可选地,所述输入行为信息包括如下的一种或多种:
上屏的概率、未上屏的信息、上屏后的删除率;
其中,所述未上屏的信息包括未上屏的时间长度、和/或、在所述词条上屏之后上屏其他词条的次数。
可选地,所述当所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条的步骤包括:
当所述上屏的概率低于预设的第一上屏率阈值、所述未上屏的信息高于预设的第一未上屏阈值时,确定所述词条的类型为垃圾词条;
和/或,
当所述上屏的概率低于预设的第一上屏率阈值、所述上屏后的删除率高于预设的第一删除率阈值时,确定所述词条的类型为垃圾词条;
和/或,
当所述未上屏的信息高于预设的第一未上屏阈值、所述上屏后的删除率高于预设的第一删除率阈值时,确定所述词条的类型为垃圾词条。
可选地,所述当所述输入行为信息未满足预设的低频输入条件、满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条的步骤包括:
当所述上屏的概率高于预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述未上屏的信息低于预设的第一未上屏阈值且高于预设的第二未上屏阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
当所述上屏的概率高于预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述上屏后的删除率低于预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
当所述未上屏的信息低于预设的第一未上屏阈值且高于预设的第二未上屏阈值时、所述上屏后的删除率低于预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
其中,所述第一上屏率阈值小于所述第二上屏率阈值,所述第一未上屏阈值大于所述第二未上屏阈值,所述第一删除率阈值大于所述第二删除率阈值。
可选地,还包括:
当接收到输入的字符串时,查找所述字符串对应的词条;
当上屏所述词条时,在用户词库中判断是否已存储所述词条;
若是,则统计所述词条的输入行为信息;
若否,则对所述词条增加词条记录,统计所述词条的输入行为信息。
本发明实施例还公开了一种清理用户词库的系统,包括:
词条记录查询模块,用于在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息;
词条类型确定模块,用于根据所述输入行为信息确定所述词条的类型;
词条记录删除模块,用于在所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
可选地,所述词条类型确定模块包括:
垃圾词条确认子模块,用于在所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条。
可选地,所述词条类型确定模块包括:
疑似垃圾词条确认子模块,用于在所述输入行为信息未满足预设的低频输入条件、满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条。
可选地,还包括:
第一词条查找模块,用于在接收到输入的字符串时,查找所述字符串对应的词条;
排序减低模块,用于在所述词条包括疑似垃圾词条时,降低所述疑似垃圾词条的排序;
候选显示模块,用于将降低排序之后的词条作为候选项进行显示。
可选地,所述输入行为信息包括如下的一种或多种:
上屏的概率、未上屏的信息、上屏后的删除率;
其中,所述未上屏的信息包括未上屏的时间长度、和/或、在所述词条上屏之后上屏其他词条的次数。
可选地,所述垃圾词条确认子模块包括:
第一确认单元,用于在所述上屏的概率低于预设的第一上屏率阈值、所述未上屏的信息高于预设的第一未上屏阈值时,确定所述词条的类型为垃圾词条;
和/或,
第二确认单元,用于在所述上屏的概率低于预设的第一上屏率阈值、所述上屏后的删除率高于预设的第一删除率阈值时,确定所述词条的类型为垃圾词条;
和/或,
第三确认单元,用于在所述未上屏的信息高于预设的第一未上屏阈值、所述上屏后的删除率高于预设的第一删除率阈值时,确定所述词条的类型为垃圾词条。
可选地,所述疑似垃圾词条确认子模块包括:
第四确认单元,用于在所述上屏的概率高于预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述未上屏的信息低于预设的第一未上屏阈值且高于预设的第二未上屏阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
第五确认单元,用于在所述上屏的概率高于预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述上屏后的删除率低于预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
第六确认单元,用于在所述未上屏的信息低于预设的第一未上屏阈值且高于预设的第二未上屏阈值时、所述上屏后的删除率低于预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
其中,所述第一上屏率阈值小于所述第二上屏率阈值,所述第一未上屏阈值大于所述第二未上屏阈值,所述第一删除率阈值大于所述第二删除率阈值。
可选地,还包括:
第二词条查找模块,用于在接收到输入的字符串时,查找所述字符串对应的词条;
词条存储判断模块,用于在上屏所述词条时,在用户词库中判断是否已存储所述词条;若是,则调用第一输入行为信息统计模块,若否,则调用词条记录增加模块;
第一输入行为信息统计模块,用于统计所述词条的输入行为信息;
词条记录增加模块,用于对所述词条增加词条记录;
第二输入行为信息统计模块,用于统计所述词条的输入行为信息。
本发明实施例还公开了一种用于清理用户词库的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息;
根据所述输入行为信息确定所述词条的类型;
当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
本发明实施例包括以下优点:
本发明实施例在用户词库中查询词条记录,根据对词条统计的输入行为信息确定该词条的类型,若确定词条为垃圾词条,则可以在用户词库中删除该词条所属的词条记录,通过删除对输入贡献低的词条,减少用户词库中词条的数量,减少在用户想输入的其他词条恰好与垃圾词条的编码相同的情况下,垃圾词条排靠前的问题,避免给用户输入带来干扰,减少用户进行翻页等操作,降低输入的成本,提高了用户体验。
此外,由于删除了垃圾词条,减少了用户词库中词条的数量,释放了用户词库的空间,不仅提高了用户词库中词条的查找匹配效率、而且提高了输入法系统切入、切出等相应速度,提高了用户体验。
附图说明
图1是本发明的一种清理用户词库的方法实施例的步骤流程图;
图2A至图2C是本发明实施例的一种虚拟键盘的示例图;
图3是本发明的另一种清理用户词库的方法实施例的步骤流程图;
图4是本发明的一种清理用户词库的系统实施例的结构框图;
图5是根据一示例性实施例示出的一种用于清理用户词库的装置的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种清理用户词库的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,在用户词库中查询词条记录。
步骤102,根据所述输入行为信息确定所述词条的类型。
步骤103,当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
需要说明的是,本发明实施例可以应用于输入法系统中,该输入法系统可以安装在电子设备中,例如,手机、PDA(Personal Digital Assistant,个人数字助理)、膝上型计算机、掌上电脑等等,本发明实施例对此不加以限制。
该电子设备可以支持Windows、Android(安卓)、IOS、WindowsPhone等操作系统,通常可以在输入法系统中通过虚拟键盘、物理键盘、语音等方式输入词条。
在实际应用中,虚拟键盘、物理键盘可以包括九宫格键盘、全键盘(如QWERTY键盘)等等。
虚拟键盘、物理键盘通常可以具有一个或多个按键,该按键经常被复用,映射有一个或多个字符,可以用于输入字符,对于不同的语言,如中文、英文、日文等等,虚拟键盘、物理键盘的按键所映射的字符会有所不同。
为使本领域技术人员更好地理解本发明实施例,在本发明实施例中,将虚拟键盘作为输入方式的一种示例进行说明。
在具体实现中,虚拟按键映射的字符具体可以包括、但不限于输入数字字符、英文字符、中文字符(如拼音字符、笔画字符等)和符号字符中的至少一个。
例如,参照图2A和2B,示出了本发明实施例的一种虚拟键盘的示例图,该虚拟键盘200可以称为九宫格键盘或9键键盘。
对于虚拟按键201,如图2A所示,在拼音输入模式下,该虚拟按键201映射拼音字符,声母“d”、韵母“e”和声母“f”;在数字输入模式下,该虚拟按键201可以映射数字字符“3”,在英文输入模式下,该虚拟按键201可以映射英文字符“d”、“e”、“f”;在拼音输入模式、数字输入模式和英文输入模式下,该虚拟按键202可以映射符号字符,逗号“,”;如图2B所示,在笔画输入模式下,该虚拟按键201映射笔画字符“丿”。
又例如,参照图2C,示出了本发明实施例的另一种虚拟键盘的示例图,该虚拟键盘210可以称为全键盘或26键键盘,一个典型的全键盘或26键键盘可以为QWERTY键盘。
对于虚拟按键211,在拼音输入模式下,该虚拟按键211可以映射拼音字符,半元音“w”;在英文输入模式下,该虚拟按键211可以映射英文字符“w”;在数字输入模式下,该虚拟按键211可以数字字符“2”;对于虚拟按键212,在拼音输入模式下,该虚拟按键212可以映射拼音字符“g”;在英文输入模式下,该虚拟按键211可以映射英文字符“g”,在符号输入模式下可以映射符号字符,百分号“%”。
当然,上述虚拟键盘及虚拟按键只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他虚拟键盘及虚拟按键,本发明实施例对此不加以限制。另外,除了上述虚拟键盘及虚拟按键外,本领域技术人员还可以根据实际需要采用其它虚拟键盘及虚拟按键,本发明实施例对此也不加以限制。
在本发明实施例中,输入法系统包括一种或多种词库。
在数据内容的角度,词库中的一个词条一般对应一个词条记录,词条记录一般可以包括如下两个词典数据:
1、编码与词条的映射关系:Dict[编码]=[词条A,词条B,…,词条C]
例如,字符串(即编码)fangan切分成[fang][an]或者[fan][gan],分别对应“方案”、“反感”等词条。
2、词条的属性:Dict[词条]=[属性1,属性2,…属性n]。
这些属性可以包括:
2.1、词频。
在同音字、同音词的情况下,如果把所有词条作为候选显示让用户选择,候选的位置对输入法系统的易用性有很大影响。一般而言,把较常用的词放到靠前的位置会对用户更有利,即词频是候选排序的重要依据。
另外,如果输入法系统中集成了自动构造句子的功能,此时,词频也是构造句子的依据之一。
2.2、语言连接关系。
输入法系统在构造句子的过程中,除了需要考虑词频,还需要考虑词条和词条之间的连接关系。
例如“的”常出现在形容词、名词、代词等后面,而“地”则常出现在副词后面。
2.3、词序信息。
词序信息通常也是一个数字,用于表示该词条重要程度的相对含义。
2.4、位置信息。
词条在词库中的相对位置可以用于表达词条的重要程度。
例如,可以认为排在词库前面的词比排在后面的词更重要,若前者作为候选,可以显示在靠前的位置。
当然,上述词条的属性只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他词条的属性,本发明实施例对此不加以限制。另外,除了上述词条的属性外,本领域技术人员还可以根据实际需要采用其它词条的属性,本发明实施例对此也不加以限制。
在类型的角度,词库可以包括如下一种或多种类型:
系统词库,为记录基础词条的词库,例如,电脑、浏览器等等。
细胞词库,为某一特定群体、某一个人或一部分人使用的具有某一共性的词条的词库,即每个细胞词库中的词条至少具有一个共同属性。
例如,在自然科学的生物分类下,包括动物词汇词库、生物词汇词库、鱼类词库、水果词库等等,在城市信息的北京分类下,包括北京市地铁站名词库、北京市公交站名词库、清华大学周边地名词库等等。
通讯录词库,为记录以通讯录信息(如姓名)作为词条的词库。
用户词库,为记录用户已输入(即上屏)的词条的词库。
在本发明实施例中,对于用户词库的词条记录,可以在词条记录的属性中,增加对词条统计的输入行为信息(即输入该词条时统计的相关信息),即词条记录包括词条、对词条统计的输入行为信息。
在具体实现中,当接收到输入的字符串时,在系统词库、细胞词库、通讯录词库、用户词库等词库中,查找字符串对应的词条。
当上屏词条时,在用户词库中判断是否已存储该词条;若是,则统计词条的输入行为信息;若否,则对词条增加词条记录,统计词条的输入行为信息。
例如,当用户输入字符串“shenem”,输入法系统查找对应的词条,包括“什么”、“什恶魔”、“神峨眉”等等,若用户上屏了“什恶魔”时,在编码与词条的映射关系中,查询Dict[shenem]下是否映射有“什恶魔”。
如果有,则更新词条的属性,比如,将Dict[什恶魔]的词频加一,上屏时刻更新为当前时刻、作为候选显示的次数加一等等。
如果没有,则将“什恶魔”记录在Dict[shenem]所指的列表中,并更新词条的属性。
当然,上述词库只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他词库,本发明实施例对此不加以限制。另外,除了上述词库外,本领域技术人员还可以根据实际需要采用其它词库,本发明实施例对此也不加以限制。
在本发明实施例中,对词条统计的输入行为信息可以在一定程度上反映出用户输入该词条时的行为习惯,从而判断出该词条的类型,如果该词条为垃圾词条,即对输入的贡献较低的词条,则可以删除该词条所属的词条记录。
例如,如果确认词条“什恶魔”为垃圾词条,在删除其所属的词条记录时,一方面,删除词条的属性,即删除“什恶魔”对应的诸如词频、上屏时间等属性信息,另一方面,删除编码与词条的映射关系,即从Dict[shenem]所指的列表中删除词条“什恶魔”。
本发明实施例在用户词库中查询词条记录,根据对词条统计的输入行为信息确定该词条的类型,若确定词条为垃圾词条,则可以在用户词库中删除该词条所属的词条记录,通过删除对输入贡献低的词条,减少用户词库中词条的数量,减少在用户想输入的其他词条恰好与垃圾词条的编码相同的情况下,垃圾词条排靠前的问题,避免给用户输入带来干扰,减少用户进行翻页等操作,降低输入的成本,提高了用户体验。
此外,由于删除了垃圾词条,减少了用户词库中词条的数量,释放了用户词库的空间,不仅提高了用户词库中词条的查找匹配效率、而且提高了输入法系统切入、切除等相应速度,提高了用户体验。
参照图3,示出了本发明的另一种清理用户词库的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤301,在用户词库中查询词条记录。
在具体实现中,词条记录可以包括词条、对词条统计的输入行为信息。
在本发明实施例的一个示例中,输入行为信息可以包括如下的一种或多种:
上屏的概率、未上屏的信息、上屏后的删除率。
其中,上屏的概率为词条的上屏次数与作为候选的显示次数之间的比值。
未上屏的信息可以包括未上屏的时间长度、和/或、在词条上屏之后上屏其他词条的次数。
上屏后的删除率为词条在上屏后被删除的次数与上屏的次数之间的比值。
由于词条通常是通过退格键删除,因此,上屏后的删除率通常又称上屏后的退格率,即词条在上屏后退格的次数与上屏的次数之间的比值。
当然,上述输入行为信息只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他输入行为信息,本发明实施例对此不加以限制。另外,除了上述输入行为信息外,本领域技术人员还可以根据实际需要采用其它输入行为信息,本发明实施例对此也不加以限制。
步骤302,当所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条。
在本发明实施例中,可以预先设置低频输入条件,若某个词条的输入行为信息符合该低频输入条件,表示该词条的输入频率低,属于垃圾词条。
在一种情况中,垃圾词条可能是误输入的词条,因此,输入的频率低。
例如,由于南方模糊音、操作不协调、键盘按键相对较小,按键响应滞后等原因,用户可能输入错误的编码,而用户在不注意的情况下,通过空格键等方式快速上屏,导致误输入。
在另一种情况中,垃圾词条可能是不常用的词条,因此,输入的频率低。
例如,人名、地名、专业名词等词条,可能是不常用的词条,又或者,用户输入的长词,如“今天天气真好”,也可能是不常用的词条。
需要说明的是,上述情况只是作为示例,在实施本发明实施例时,可以根据实际情况针对其他情况设置低频输入条件,并且,本领域技术人员可以根据实际情况设置低频输入条件,本发明实施例对此不加以限制。
若输入行为信息包括如下的一种或多种:
上屏的概率、未上屏的信息、上屏后的删除率。
在一个示例中,当上屏的概率低于预设的第一上屏率阈值(如1%)、未上屏的信息高于预设的第一未上屏阈值(如3000)时,即该词条上屏的概率低,上屏之后长时间没再上屏,满足预设的低频输入条件,确定词条的类型为垃圾词条。
在另一个示例中,当上屏的概率低于预设的第一上屏率阈值(如1%)、上屏后的删除率高于预设的第一删除率阈值(如90%)时,即该词条上屏的概率低,上屏后删除的概率高,满足预设的低频输入条件,确定词条的类型为垃圾词条。
在另一个示例中,当未上屏的信息高于预设的第一未上屏阈值(如3000)、上屏后的删除率高于预设的第一删除率阈值(如90%)时,即该词条上屏之后长时间没再上屏,上屏后删除的概率高,满足预设的低频输入条件,确定词条的类型为垃圾词条。
当然,上述低频输入条件只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他低频输入条件,例如,上屏的概率低于预设的第一上屏率阈值(如1%)、上屏的信息高于预设的第一未上屏阈值(如3000)、上屏后的删除率高于预设的第一删除率阈值(如90%),等等,本发明实施例对此不加以限制。另外,除了上述低频输入条件外,本领域技术人员还可以根据实际需要采用其它低频输入条件,本发明实施例对此也不加以限制。
步骤303,当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
步骤304,当所述输入行为信息未满足预设的低频输入条件、满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条。
在本发明实施例中,除了可以预先设置低频输入条件之外,还可以预先设置疑似低频输入条件。
若某个词条的输入行为信息未符合该低频输入条件,但是,符合疑似低频输入条件,表示该词条的输入频率较低,属于疑似垃圾词条,即疑似的垃圾词条。
当该词条确定为疑似垃圾词条时,则可以在用户词库中标记该词条为疑似垃圾词条,例如,更新词条的属性,在其属性添加疑似垃圾词条的标记。
当然,由于用户的输入行为是动态进行的,因此,对词条的判断也是动态进行的,如果某个词条在上一次标记为疑似垃圾词条,而在下一次确定既不符合低频输入条件,也不符合疑似低频输入条件,即该词条为输入频率较高的词条,则可以取消其疑似垃圾词条的标记。
此外,如果某个词条在上一次标记为疑似垃圾词条,而在下一次确定符合低频输入条件,即为垃圾词条,则可以删除该词条所属的词条记录。
需要说明的是,本领域技术人员可以根据实际情况设置低频输入条件、疑似低频输入条件,本发明实施例对此不加以限制。
若输入行为信息包括如下的一种或多种:
上屏的概率、未上屏的信息、上屏后的删除率。
在一个示例中,当上屏的概率高于预设的第一上屏率阈值(如1%)且低于预设的第二上屏率阈值(如5%)、未上屏的信息低于预设的第一未上屏阈值(如3000)且高于预设的第二未上屏阈值(如2500)时,即该词条上屏的概率较低,上屏之后较长时间没再上屏,未满足预设的低频输入条件,但满足预设的疑似低频输入条件,确定词条的类型为疑似垃圾词条;
在另一个示例中,当上屏的概率高于预设的第一上屏率阈值(如1%)且低于预设的第二上屏率阈值(如5%)、上屏后的删除率低于预设的第一删除率阈值(如90%)且高于预设的第二删除率阈值(如60%)时,即该词条上屏的概率较低,上屏后删除的概率较高,未满足预设的低频输入条件,但满足预设的疑似低频输入条件,确定词条的类型为疑似垃圾词条。
在另一个示例中,当未上屏的信息低于预设的第一未上屏阈值(如3000)且高于预设的第二未上屏阈值(如2500)时、上屏后的删除率低于预设的第一删除率阈值(如90%)且高于预设的第二删除率阈值(如60%)时,即该词条上屏之后较长时间没再上屏,上屏后删除的概率较高,确定词条的类型为疑似垃圾词条。
一般情况下,低频输入条件的要求比疑似低频输入条件低,则在本示例中,第一上屏率阈值(如1%)小于第二上屏率阈值(如5%),第一未上屏阈值(如3000)大于第二未上屏阈值(如2500),第一删除率阈值(如90%)大于第二删除率阈值(如60%)。
当然,上述疑似低频输入条件只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他疑似低频输入条件,例如,上屏的概率高于预设的第一上屏率阈值(如1%)且低于预设的第二上屏率阈值(如5%)、未上屏的信息低于预设的第一未上屏阈值(如3000)且高于预设的第二未上屏阈值(如2500)、上屏后的删除率低于预设的第一删除率阈值(如90%)且高于预设的第二删除率阈值(如60%),等等,本发明实施例对此不加以限制。另外,除了上述疑似低频输入条件外,本领域技术人员还可以根据实际需要采用其它疑似低频输入条件,本发明实施例对此也不加以限制。
步骤305,当接收到输入的字符串时,查找所述字符串对应的词条。
在中文、日语等语音里,作为基本语言单位的汉字、日文等文字一般不直接与键盘上的按键进行映射,因此,在输入时进行字符串与词条之间的转换。
具体而言,通过编码规则将汉字、日文等文字与能够直接输入的字符串建立映射关系,例如,在中文中通常用的编码是拼音(如简拼、双拼、全拼、模糊音等)、五笔等。
以汉字输入为例,用户将汉字的字符串通过键盘输入至输入法系统中,由输入法系统进行解码,具体可以包括如下步骤:
a、拼音解析:将字符串切分为拼音。
例如,将字符串“zhuanli”切分为“zhuan”、“li”,将字符串“fangan”切分为“fang”、“an”和“fan”、“gan”。
b、汉字解码:在词库中查找拼音对应的词条。
步骤306,当所述词条包括疑似垃圾词条时,降低所述疑似垃圾词条的排序。
步骤307,将降低排序之后的词条作为候选项进行显示。
如果匹配的词条中包括疑似垃圾词条,则可以对其进行惩罚,降低其排序。
在一个示例中,词条之间的优先级可以如下:
用户词(即用户词库中的词条、通讯录词库中的词条)>系统词(即系统词库中的词条)>细胞词(即细胞词库中的词条)>...>疑似垃圾词
在本示例中,可以按照优先级的顺序对词条进行排序,疑似垃圾词条排在其他完整匹配的词条的后面,然后显示给用户。
本发明实施例通过识别出用户词库中的疑似垃圾词条,在候选项排序时进行惩罚,降低其排序,可以尽可能不让这些疑似垃圾词条影响其他正常词条的排序,进一步减少用户进行翻页等操作,降低输入的成本,提高用户体验。
并且,通过这种排序上的惩罚,进一步刺激对该词条统计的输入行为信息,当满足低频输入条件时,则可以进行删除,进一步减少了用户词库的规模,且加快了垃圾词条的识别效率。
为使本领域技术人员更好地理解本发明实施例,以下通过具体的示例来说明本发明实施例中用户词库的清理方法。
1、用户词库中有个词条“神额么”,是用户在很久之前误上屏的一个词条,上屏后就进行了退格操作,其未上屏的时间长度为5000,上屏后的退格率为100%。
由于5000>3000(第一未上屏阈值),100%>90%(第一删除率阈值),因此,该词条满足低频输入条件,确定“神额么”为垃圾词条,将该词条所属的词条记录从用户词库中删除。
2、用户词库中有个词条“海油”,是用户很长一段时间前使用过的某个词条,其上屏的概率为2%,上屏后的退格率为67%。
由于1%(第一上屏率阈值)<2%<5%(第二上屏率阈值),60%(第二删除率阈值)<67%<90%(第一删除率阈值),未满足预设的低频输入条件,但满足预设的疑似低频输入条件,确定“海油”为疑似垃圾词条。
此时,输入法系统在遇到“haiyou”这个字符串时,降低“海油”的排序,将“海油”这个词条排到所有完整匹配的词条的最后一个。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种清理用户词库的系统实施例的结构框图,具体可以包括如下模块:
词条记录查询模块401,用于在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息;
词条类型确定模块402,用于根据所述输入行为信息确定所述词条的类型;
词条记录删除模块403,用于在所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
在本发明的一个实施例中,所述词条类型确定模块402可以包括如下子模块:
垃圾词条确认子模块,用于在所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条。
在本发明的另一个实施例中,所述词条类型确定模块402可以包括如下子模块:
疑似垃圾词条确认子模块,用于在所述输入行为信息未满足预设的低频输入条件、满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条。
在本发明的一个实施例中,该系统还可以包括如下模块:
第一词条查找模块,用于在接收到输入的字符串时,查找所述字符串对应的词条;
排序减低模块,用于在所述词条包括疑似垃圾词条时,降低所述疑似垃圾词条的排序;
候选显示模块,用于将降低排序之后的词条作为候选项进行显示。
在本发明实施例的一个示例中,所述输入行为信息包括如下的一种或多种:
上屏的概率、未上屏的信息、上屏后的删除率;
其中,所述未上屏的信息包括未上屏的时间长度、和/或、在所述词条上屏之后上屏其他词条的次数。
在本发明实施例的一个示例中,所述垃圾词条确认子模块可以包括如下单元:
第一确认单元,用于在所述上屏的概率低于预设的第一上屏率阈值、所述未上屏的信息高于预设的第一未上屏阈值时,确定所述词条的类型为垃圾词条;
和/或,
第二确认单元,用于在所述上屏的概率低于预设的第一上屏率阈值、所述上屏后的删除率高于预设的第一删除率阈值时,确定所述词条的类型为垃圾词条;
和/或,
第三确认单元,用于在所述未上屏的信息高于预设的第一未上屏阈值、所述上屏后的删除率高于预设的第一删除率阈值时,确定所述词条的类型为垃圾词条。
在本发明实施例的一个示例中,所述疑似垃圾词条确认子模块可以包括如下单元:
第四确认单元,用于在所述上屏的概率高于预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述未上屏的信息低于预设的第一未上屏阈值且高于预设的第二未上屏阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
第五确认单元,用于在所述上屏的概率高于预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述上屏后的删除率低于预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
第六确认单元,用于在所述未上屏的信息低于预设的第一未上屏阈值且高于预设的第二未上屏阈值时、所述上屏后的删除率低于预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
其中,所述第一上屏率阈值小于所述第二上屏率阈值,所述第一未上屏阈值大于所述第二未上屏阈值,所述第一删除率阈值大于所述第二删除率阈值。
在本发明的一个实施例中,该系统还可以包括如下模块:
第二词条查找模块,用于在接收到输入的字符串时,查找所述字符串对应的词条;
词条存储判断模块,用于在上屏所述词条时,在用户词库中判断是否已存储所述词条;若是,则调用第一输入行为信息统计模块,若否,则调用词条记录增加模块;
第一输入行为信息统计模块,用于统计所述词条的输入行为信息;
词条记录增加模块,用于对所述词条增加词条记录;
第二输入行为信息统计模块,用于统计所述词条的输入行为信息。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图5是根据一示例性实施例示出的一种用于清理用户词库的装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种清理用户词库的方法,所述方法包括:
在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息;
根据所述输入行为信息确定所述词条的类型;
当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种清理用户词库的方法,其特征在于,包括:
在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息,其中,所述词条为用户输入的词条;
当所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条;
其中,所述输入行为信息包括上屏的概率、未上屏的信息、上屏后的删除率中的至少两种,所述上屏的概率为所述词条的上屏次数与作为候选的显示次数之间的比值,所述未上屏的信息包括未上屏的时间长度、和/或在所述词条上屏之后上屏其他词条的次数,所述上屏后的删除率为所述词条在上屏后被删除的次数与上屏的次数之间的比值;所述低频输入条件包括所述上屏的概率低于预设的第一上屏率阈值、所述未上屏的信息高于预设的第一未上屏阈值以及所述上屏后的删除率高于预设的第一删除率阈值中的至少两种;
当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录;
当所述输入行为信息未满足所述低频输入条件且满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条,并在所述用户词库中的所述词条的属性添加疑似垃圾词条的标记;
在上一次的查询中在所述词条的属性中添加所述疑似垃圾词条的标记的情况下,如果本次的查询确定所述词条的输入行为信息不符合所述低频输入条件和所述疑似低频输入条件,则取消所述疑似垃圾词条的标记,如果本次的查询确定所述词条的输入行为信息符合所述低频输入条件,则确定所述词条为垃圾词条;
当接收到输入的字符串时,查找所述字符串对应的词条;
当所述字符串对应的词条包括所述疑似垃圾词条时,降低所述字符串对应的疑似垃圾词条的排序;
将降低排序之后的所述疑似垃圾词条作为候选项,在其他完整匹配的词条的后面进行显示。
2.根据权利要求1所述的方法,其特征在于,所述当所述输入行为信息未满足所述低频输入条件且满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条的步骤包括:
当所述上屏的概率高于所述预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述未上屏的信息低于所述预设的第一未上屏阈值且高于预设的第二未上屏阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
当所述上屏的概率高于所述预设的第一上屏率阈值且低于所述预设的第二上屏率阈值、所述上屏后的删除率低于所述预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
当所述未上屏的信息低于所述预设的第一未上屏阈值且高于所述预设的第二未上屏阈值时、所述上屏后的删除率低于所述预设的第一删除率阈值且高于所述预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
其中,所述第一上屏率阈值小于所述第二上屏率阈值,所述第一未上屏阈值大于所述第二未上屏阈值,所述第一删除率阈值大于所述第二删除率阈值。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
当接收到输入的字符串时,查找所述字符串对应的词条;
当上屏所述词条时,在所述用户词库中判断是否已存储所述字符串对应的词条;
若是,则统计所述字符串对应的词条的输入行为信息;
若否,则对所述字符串对应的词条增加词条记录,统计所述字符串对应的词条的输入行为信息。
4.一种清理用户词库的系统,其特征在于,包括:
词条记录查询模块,用于在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息,其中,所述词条为用户输入的词条;
词条类型确定模块,包括垃圾词条确认子模块和疑似垃圾词条确认子模块,所述垃圾词条确认子模块,用于当所述输入行为信息满足预设的低频输入条件时,确定所述词条的类型为垃圾词条;
其中,所述输入行为信息包括上屏的概率、未上屏的信息、上屏后的删除率中的至少两种,所述上屏的概率为所述词条的上屏次数与作为候选的显示次数之间的比值,所述未上屏的信息包括未上屏的时间长度、和/或在所述词条上屏之后上屏其他词条的次数,所述上屏后的删除率为所述词条在上屏后被删除的次数与上屏的次数之间的比值;所述低频输入条件包括所述上屏的概率低于预设的第一上屏率阈值、所述未上屏的信息高于预设的第一未上屏阈值以及所述上屏后的删除率高于预设的第一删除率阈值中的至少两种;
词条记录删除模块,用于在所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录;
所述疑似垃圾词条确认子模块,用于当所述输入行为信息未满足所述低频输入条件且满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条;
用于执行以下步骤的模块:在所述用户词库中的所述词条的属性添加疑似垃圾词条的标记;
用于执行以下步骤的模块:在上一次的查询中在所述词条的属性中添加所述疑似垃圾词条的标记的情况下,如果本次的查询确定所述词条的输入行为信息不符合所述低频输入条件和所述疑似低频输入条件,则取消所述疑似垃圾词条的标记,如果本次的查询确定所述词条的输入行为信息符合所述低频输入条件,则确定所述词条为垃圾词条;
第一词条查找模块,用于在接收到输入的字符串时,查找所述字符串对应的词条;
排序减低模块,用于在所述字符串对应的词条包括所述疑似垃圾词条时,降低所述字符串对应的疑似垃圾词条的排序;
候选显示模块,用于将降低排序之后的所述疑似垃圾词条作为候选项,在其他完整匹配的词条的后面进行显示。
5.根据权利要求4所述的系统,其特征在于,所述疑似垃圾词条确认子模块包括:
第四确认单元,用于在所述上屏的概率高于所述预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述未上屏的信息低于所述预设的第一未上屏阈值且高于预设的第二未上屏阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
第五确认单元,用于在所述上屏的概率高于所述预设的第一上屏率阈值且低于所述预设的第二上屏率阈值、所述上屏后的删除率低于所述预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
第六确认单元,用于在所述未上屏的信息低于所述预设的第一未上屏阈值且高于所述预设的第二未上屏阈值时、所述上屏后的删除率低于所述预设的第一删除率阈值且高于所述预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
其中,所述第一上屏率阈值小于所述第二上屏率阈值,所述第一未上屏阈值大于所述第二未上屏阈值,所述第一删除率阈值大于所述第二删除率阈值。
6.根据权利要求4或5所述的系统,其特征在于,还包括:
第二词条查找模块,用于在接收到输入的字符串时,查找所述字符串对应的词条;
词条存储判断模块,用于在上屏所述词条时,在所述用户词库中判断是否已存储所述字符串对应的词条;若是,则调用第一输入行为信息统计模块,若否,则调用词条记录增加模块;
第一输入行为信息统计模块,用于统计所述字符串对应的词条的输入行为信息;
词条记录增加模块,用于对所述字符串对应的词条增加词条记录;
第二输入行为信息统计模块,用于统计所述字符串对应的词条的输入行为信息。
7.一种用于清理用户词库的装置,其特征在于,包括有存储器,以及一个或者一个以上程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在用户词库中查询词条记录;所述词条记录包括词条、对所述词条统计的输入行为信息,其中,所述词条为用户输入的词条;
根据所述输入行为信息确定所述词条的类型;
其中,所述输入行为信息包括上屏的概率、未上屏的信息、上屏后的删除率中的至少两种,所述上屏的概率为所述词条的上屏次数与作为候选的显示次数之间的比值,所述未上屏的信息包括未上屏的时间长度、和/或在所述词条上屏之后上屏其他词条的次数,所述上屏后的删除率为所述词条在上屏后被删除的次数与上屏的次数之间的比值;低频输入条件包括所述上屏的概率低于预设的第一上屏率阈值、所述未上屏的信息高于预设的第一未上屏阈值以及所述上屏后的删除率高于预设的第一删除率阈值中的至少两种;
当所述词条的类型为垃圾词条时,在所述用户词库中删除所述词条记录;
当所述输入行为信息未满足所述低频输入条件且满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条,并在所述用户词库中的所述词条的属性添加疑似垃圾词条的标记;
在上一次的查询中在所述词条的属性中添加所述疑似垃圾词条的标记的情况下,如果本次的查询确定所述词条的输入行为信息不符合所述低频输入条件和所述疑似低频输入条件,则取消所述疑似垃圾词条的标记,如果本次的查询确定所述词条的输入行为信息符合所述低频输入条件,则确定所述词条为垃圾词条;
当接收到输入的字符串时,查找所述字符串对应的词条;
当所述字符串对应的词条包括所述疑似垃圾词条时,降低所述字符串对应的疑似垃圾词条的排序;
将降低排序之后的所述疑似垃圾词条作为候选项,在其他完整匹配的词条的后面进行显示。
8.根据权利要求7所述的装置,其特征在于,所述当所述输入行为信息未满足所述低频输入条件且满足预设的疑似低频输入条件时,确定所述词条的类型为疑似垃圾词条的步骤包括:
当所述上屏的概率高于所述预设的第一上屏率阈值且低于预设的第二上屏率阈值、所述未上屏的信息低于所述预设的第一未上屏阈值且高于预设的第二未上屏阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
当所述上屏的概率高于所述预设的第一上屏率阈值且低于所述预设的第二上屏率阈值、所述上屏后的删除率低于所述预设的第一删除率阈值且高于预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
和/或,
当所述未上屏的信息低于所述预设的第一未上屏阈值且高于所述预设的第二未上屏阈值时、所述上屏后的删除率低于所述预设的第一删除率阈值且高于所述预设的第二删除率阈值时,确定所述词条的类型为疑似垃圾词条;
其中,所述第一上屏率阈值小于所述第二上屏率阈值,所述第一未上屏阈值大于所述第二未上屏阈值,所述第一删除率阈值大于所述第二删除率阈值。
9.根据权利要求7或8所述的装置,其特征在于,还包含进行以下操作的指令:
当接收到输入的字符串时,查找所述字符串对应的词条;
当上屏所述词条时,在所述用户词库中判断是否已存储所述字符串对应的词条;
若是,则统计所述字符串对应的词条的输入行为信息;
若否,则对所述字符串对应的词条增加词条记录,统计所述字符串对应的词条的输入行为信息。
CN201610605040.8A 2016-07-27 2016-07-27 清理用户词库的方法、系统和用于清理用户词库的装置 Active CN107665206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610605040.8A CN107665206B (zh) 2016-07-27 2016-07-27 清理用户词库的方法、系统和用于清理用户词库的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610605040.8A CN107665206B (zh) 2016-07-27 2016-07-27 清理用户词库的方法、系统和用于清理用户词库的装置

Publications (2)

Publication Number Publication Date
CN107665206A CN107665206A (zh) 2018-02-06
CN107665206B true CN107665206B (zh) 2023-04-07

Family

ID=61115481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610605040.8A Active CN107665206B (zh) 2016-07-27 2016-07-27 清理用户词库的方法、系统和用于清理用户词库的装置

Country Status (1)

Country Link
CN (1) CN107665206B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874175A (zh) * 2018-06-20 2018-11-23 北京百度网讯科技有限公司 一种数据处理方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
CN101216854B (zh) * 2008-01-15 2010-07-14 腾讯科技(深圳)有限公司 计算机文字输入方法和系统及其词库维护方法和装置
CN101710326B (zh) * 2009-12-03 2012-10-03 腾讯科技(深圳)有限公司 词库替换方法、装置及输入法系统
CN101847159A (zh) * 2010-05-11 2010-09-29 中兴通讯股份有限公司 终端设备及其词库更新的方法
CN102346559A (zh) * 2010-07-30 2012-02-08 腾讯科技(深圳)有限公司 一种输入法中词条的删除方法、装置及文字输入工具
CN102455845B (zh) * 2010-10-14 2015-02-18 北京搜狗科技发展有限公司 一种文字输入方法和装置
CN102467537B (zh) * 2010-11-10 2016-07-27 腾讯科技(深圳)有限公司 删除词汇的方法和装置
CN103019398A (zh) * 2011-09-20 2013-04-03 腾讯科技(深圳)有限公司 一种文字输入方法及文字输入装置
CN103049458B (zh) * 2011-10-17 2016-06-08 北京搜狗科技发展有限公司 一种修正用户词库的方法和系统
US20140310037A1 (en) * 2013-04-16 2014-10-16 Cisco Technology, Inc. Skills, Expertise, Abilities and Interests Tagging in a Software Environment
CN103984688B (zh) * 2013-04-28 2015-11-25 百度在线网络技术(北京)有限公司 一种基于本地词库提供输入候选词条的方法与设备
CN103825952B (zh) * 2014-03-04 2017-07-04 百度在线网络技术(北京)有限公司 细胞词库推送方法和服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈大林.第2章智能化拼音输入法.《文字录入与文字处理案例教程》.2014, *

Also Published As

Publication number Publication date
CN107665206A (zh) 2018-02-06

Similar Documents

Publication Publication Date Title
US20170154104A1 (en) Real-time recommendation of reference documents
CN107247519B (zh) 一种输入方法及装置
CN107918496B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN107291260B (zh) 一种信息输入方法和装置、及用于信息输入的装置
CN107092424B (zh) 一种纠错项的显示方法、装置和用于纠错项的显示的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN107291772B (zh) 一种搜索访问方法、装置及电子设备
CN107688397B (zh) 一种输入方法、系统和用于输入的装置
CN109783244B (zh) 处理方法和装置、用于处理的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN113987128A (zh) 相关文章搜索方法、装置、电子设备和存储介质
CN108073293B (zh) 一种目标词组的确定方法和装置
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN111222316B (zh) 文本检测方法、装置及存储介质
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN111813932A (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN107665206B (zh) 清理用户词库的方法、系统和用于清理用户词库的装置
CN109901726B (zh) 一种候选词生成方法、装置及用于候选词生成的装置
CN109144286B (zh) 一种输入方法及装置
CN108427508B (zh) 输入方法和装置、建立局域网词库的方法和装置
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN107977089B (zh) 一种输入方法和装置、一种用于输入的装置
CN112987941B (zh) 生成候选词的方法及装置
CN108227952B (zh) 生成自定义词的方法、系统和用于生成自定义词的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant