CN107870931B - 一种优化用户词库的方法、装置及电子设备 - Google Patents

一种优化用户词库的方法、装置及电子设备 Download PDF

Info

Publication number
CN107870931B
CN107870931B CN201610853367.7A CN201610853367A CN107870931B CN 107870931 B CN107870931 B CN 107870931B CN 201610853367 A CN201610853367 A CN 201610853367A CN 107870931 B CN107870931 B CN 107870931B
Authority
CN
China
Prior art keywords
input
word
screen
user
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610853367.7A
Other languages
English (en)
Other versions
CN107870931A (zh
Inventor
费腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610853367.7A priority Critical patent/CN107870931B/zh
Publication of CN107870931A publication Critical patent/CN107870931A/zh
Application granted granted Critical
Publication of CN107870931B publication Critical patent/CN107870931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种优化用户词库的方法、装置及电子设备,该优化用户词库的方法包括:获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化。在该技术方案中,通过获得输入词的忽略因子,在进行用户词库优化时,根据输入词的忽略因子进行优化,将被忽略的可能性较大的词从用户词库中删除,以解决现有技术中用户词库优化时降低输入效率的技术问题,提高用户的输入效率。

Description

一种优化用户词库的方法、装置及电子设备
技术领域
本发明涉及数据库技术领域,特别涉及一种优化用户词库的方法、装置及电子设备。
背景技术
用户词库对于输入法来说至关重要,主要用于记录用户上屏的词。在输入法展现候选词时,优先展现用户词库里有的词。由于用户词库存储在客户端,有一定的尺寸限制,比如最多存20w条词或是最大容量为20M。所以如果用户词库达到了上限,就需要进行瘦身优化,主要是删除掉那些不好的词以腾出空间继续进行学习。
现有技术中,用户词库的瘦身优化大多数采取的瘦身策略是:优先删除上屏时间早、上屏时间次数少或者两者综合分值小的词。按照现有的瘦身策略进行优化时,容易出现降低输入效率的问题。例如:如果用户上屏的词中有这样两个词:“丫偲”(被展现在候选项中10词,上屏10次,最近被上屏的时间一周前,被忽略的时间0),“小明”(被展现在候选项中20次,上屏14次,最近被上屏的时间1天前,被忽略的时间3天前),那么采用现有技术对这两个词进行淘汰时,优先淘汰“丫偲”,因为上屏次数低于前者且上屏时间早于前者。但是,实际上“丫偲”出现在候选项中被忽略的可能性为0,而“小明”出现在候选项中被忽略的可能性明显大于“丫偲”,删除“丫偲”导致用户输入“yasi”时,“丫偲”排序靠后甚至在首屏中没有,降低了输入效率。
可见,现有技术中在词库优化时,不考虑输入词的忽略因子,故而存在用户词库优化时输入效率降低的技术问题。
发明内容
本发明实施例提供一种优化用户词库的方法、装置及电子设备,用于解决现有技术中用户词库优化时存在输入效率降低的技术问题。
本申请实施例提供一种优化用户词库的方法,包括以下步骤:
获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
可选的,所述根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
可选的,在所述获得输入词的输入代价之前,所述方法还包括:
根据如下公式获得所述上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
可选的,所述获得输入词的输入代价,包括:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
可选的,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
可选的,所述根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
可选的,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
可选的,所述根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
可选的,所述根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据所述最近上屏时间、上屏次数及所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
可选的,所述根据所述最近上屏时间、上屏次数及所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0。
本申请实施例还提供一种优化用户词库的装置,包括:
第一获取单元,用于获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
优化单元,用于根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
可选的,所述优化单元包括:
获取子单元,用于获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
优化子单元,用于根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
可选的,所述优化单元还包括:
计算子单元,用于在所述获得输入词的输入代价之前,根据如下公式获得所述上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
可选的,所述获取子单元,用于:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
可选的,所述优化子单元,用于:
根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
可选的,所述优化子单元,还用于:根据下述公式获得所述输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
可选的,所述优化子单元,还用于:
获得所述输入词的最近上屏时间、上屏次数;
根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
可选的,所述优化子单元,还用于:根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
可选的,优化单元还包括:
上屏子单元,用于获得所述输入词的最近上屏时间、上屏次数;
所述优化子单元,还用于根据所述最近上屏时间、上屏次数及所述忽略因子,计算获得所述输入词的综合分值;删除所述用户词库中所述综合分值最低的n个输入词。
可选的,所述优化子单元还用于:根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0。
本申请实施例还提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
通过获得用户输入词的忽略因子,包含所述输入词被展现未被上屏的最近忽略时间、忽略次数或忽略频率;根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,将被忽略的可能性较大的词从用户词库中删除,从而解决现有技术中用户词库优化时输入效率降低的技术问题,提高用户的输入效率。
附图说明
图1为本申请实施例一提供的第一种优化用户词库的方法的流程图;
图2为本申请实施例二提供的第二种优化用户词库的方法的流程图;
图3为本申请实施例三提供的第三种优化用户词库的方法的流程图;
图4为本申请实施例提供的一种用户词库优化装置的示意图;
图5为本申请实施例提供的一种用于实现优化用户词库的方法的电子设备的示意图。
具体实施方式
在本申请实施例提供的技术方案中,通过获得输入词的忽略因子,在进行用户词库优化时,根据输入词的忽略因子进行优化,将被忽略的可能性较大的词优先从用户词库中删除,以解决现有技术中用户词库优化时降低输入效率的技术问题,提高用户的输入效率。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例一
请参考图1,本申请实施例提供的一种优化用户词库的方法,包括:
S101:获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或、忽略次数、和/或忽略频率;
S102:根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
同样的,本申请实施例提供的一种优化用户词库的方法,应用于用户端电子设备。在通过用户端电子设备进行字符输入时,执行S201获得输入词(上屏输入的词)的忽略因子。忽略因子为用户词库中的词被展现却未被上屏的参数,用于表征输入词被忽略的可能性大小,包含被展现未被上屏的最近忽略时间、和/或忽略次数、和/或者忽略频率。
具体的,在用户输入过程中,对应用户词库中有的输入词,在被展现却未被上屏即被忽略时,获得当前被忽略的时间字段,并将输入词的最近忽略时间更新为当前时间字段,对于不在用户词库中的候选词,则不进行忽略时间的修改。同样的,输入词的输入次数、忽略频率也随着用户的每次输入行为进行更新。
S102根据输入词的忽略因子,对用户词库中的输入词数量进行优化,具体可以先根据输入词的忽略因子计算获得输入词的忽略分值,根据所述忽略分值对用户词库中的输入词的数量进行优化。
其中,忽略分值用y(h)表示,y(h)=(Hmax-h)/Hmax,h表示输入词的忽略因子,Hmax表示用户词库中最大的忽略因子,此时忽略分值越小表明输入词被忽略的可能性越大,反之则越小。当忽略因子h为最近忽略时间时,Hmax表示用户词库中最大的最近忽略时间(即所有输入词中最近被忽略的输入词的忽略时间字段)。在进行忽略分值计算时,最近忽略时间以数值的形式加入计算,如时间2016.8.25在存储时是一二进制数,计算时直接使用该二进制数。当忽略因子h为忽略次数或者忽略频率时,Hmax表示用户词库中最大的忽略次数或者最高的忽略频率。当忽略因为为忽略次数、忽略频率及忽略时间中的两个或三个参数时,可以将各个参数分别计算出的参数忽略分值进行加权得到最终的忽略分值。
需要说明的是,忽略分值也可以采用y(h)=h/Hmax来计算,此时忽略分值越大表明输入词被忽略的可能性就越大,反之则越小。下面以y(h)=(Hmax-h)/Hmax为例进行举例说明输入词综合分值的计算,采用y(h)=h/Hmax计算忽略分值时,仅需将忽略分值前乘以-1,因为此时的忽略分值对输入词的贡献是负作用。
根据忽略分值对用户词库中的输入词的数量进行优化时,可以删除忽略分值最低的n个输入词,n为正整数。例如:用户输入“huijia”,就一定会上屏“回家”,忽略时间为0,忽略分值为1,但是输入“huijia”的情况比较少,所以“回家”的上屏次数也比较少;用户输入“feiji”,则可能上屏“飞机”、“肥鸡”、“斐济”等,其中“肥鸡”的忽略时间为0810,忽略分值为0.02,现在根据忽略因子对用户词库进行优化,优先删除“肥鸡”,因为其忽略分值低被忽略的可能性较大。
当然,对用户词库中的输入词的数量进行优化时,还可以获得输入词的最近上屏时间、上屏次数;根据所述最近上屏时间、上屏次数及所述忽略因子,计算获得所述输入词的综合分值;删除所述用户词库中所述综合分值最低的n个输入词。
具体的,根据输入词的最近上屏时间、上屏次数及所述忽略因子,计算获得输入词的综合分值时,可以根据下述公式获得综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的最近忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0。
在上述技术方案中,提出一种新的用户词库瘦身策略,根据输入词的忽略因子来进行用户词库优化,将被忽略的可能性较大的,如经常被忽略或者最近被忽略的输入词优先删除,解决了现有技术中用户词库优化时降低输入效率的技术问题,提高了字符的输入效率。
进一步的,本申请实施例还将忽略因子加入到包含上屏次数、上屏时间的瘦身策略中,并通过对忽略因子、上屏次数及上屏时间的拟合计算获得输入词的综合分值,根据该综合分值来对用户词库进行优化,提升了用户词库优化的准确性。
实施例二
请参考图2,本申请实施例提供的一种优化用户词库的方法,包括:
S201:获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
S202:根据所述输入词的所述输入代价,对所述用户词库中的所述输入词数量进行优化。
在具体实施过程中,本申请实施例提供的一种优化用户词库的方法,应用于客户端的电子设备,用户在使用客户端的电子设备进行字符输入时,执行S201获得输入词(上屏输入的词)的输入代价。其中,输入代价包含输入词的输入字符串长度和/或输入词的上屏代价。
输入字符串长度指用户直接输入的字符串的长度,例如,用户通过输入法输入“nihao”,并选择对应转换展现的候选项“你好”上屏,此时,“你好”即为输入词,“nihao”的字符串的长度5即为输入词“你好”的输入字符串长度。
上屏代价用于表征用户上屏候选词时的操作便捷程度,如若要上屏的候选词位于首屏的第一候选位置,直接点击空格键即可上屏非常便捷,其便捷程度最高,受用户视线等因素的限制,候选位置越靠后,便捷程度越低,需要进行翻页或手动组词时,便捷度则更低。具体的,用C表示上屏代价,上屏首屏的候选词时C=候选位置,如果经过翻页C=常数*pagenum+候选位置,pagenum表示获得候选词翻过的候选页,首屏时未进行翻页pagenum=0;如果经过手动组词,则额外加上惩罚值,所以,可以通过如下公式获得上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。本申请实施例并不限制a1和a2的具体取值,可以取5、10、20等。
例如:用户输入“nihao”,在候选项的首页选择候选位置为4的“你”,这时处于半选状态,然后翻1页选择处于候选位置2的“豪”上屏“你豪”,假设a1和a2的值均为10,这时输入词“你豪”的输入代价C=4+(10*1+2)+10。
当输入代价仅包含上屏代价或输入字符串长度时,直接将上屏代价或输入字符串长度作为输入代价即可。当输入代价包含上屏代价和输入字符串长度时,利用上屏代价C和输入串长度l两个因子拟合成输入代价,具体可以根据如下公式获得输入代价:
Sc=b1*c+b2*l
其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
在获得用户的输入词及其输入代价后,将输入词及其输入代价写入用户词库,如果该词已经在用户词库中,则取两者Sc的最大值。在用户词库的数量达到一上限时进行用户词库优化,或者,每周、每月、每季度等定期进行用户词库优化。
执行S202,根据输入词的输入代价,对用户词库中的输入词数量进行优化。具体的,可以根据输入代价优先删除输入代价最低的n个输入词,n为正整数。因为输入代价低的输入词被删除后,后续输入并不会影响输入效率。
例如:如果用户词库中上屏的词中有这样两个词:“你好”(位于首屏的第一个词,输入代价为1,输入字符串长度l为5),“你好噶无关”(输入字符串为“nihaogawug”,输入字符串长度l=10,在候选页首页选择候选位置3的“你好”,再翻页1页选择候选位置1的“噶无关”,C=3+10*1+10,根据公式Sc=b1*c+b2*l(假设b1、b2均为0.5)计算获得输入代价分别为3、16.5,那么根据输入代价对这两个词进行淘汰时,优先淘汰“你好”,因为上屏代价大于“你好噶无关”。
进一步的,本申请实施例根据用户输入代价对用户词库的输入词数量进行优化时,还可以获得输入词的最近上屏时间、上屏次数,根据输入代价、最近上屏时间及上屏次数计算获得输入词的综合分值,删除所述用户词库中所述综合分值最低的n个输入词。具体的,可以根据如下公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,c1、c2、c3表示常量,c1+c2+c3=1.0。
在上述技术方案中,提出一种新的用户词库瘦身策略,通过输入词的输入代价的高低,来进行用户词库优化,避免了将输入代价较高的输入词优先删除,解决了现有技术中用户词库优化时降低输入效率的技术问题,提高了字符的输入效率。
进一步的,本申请实施例还将输入代价加入到包含上屏次数、上屏时间的瘦身策略中,并通过对输入代价、上屏次数及上屏时间的拟合计算获得输入词的综合分值,根据该综合分值来对用户词库进行优化,提升了用户词库优化的准确性。
实施例三
请参考图3,本申请实施例提供的一种优化用户词库的方法,包括:
S301:获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
S302:获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
S303:根据所述输入词的所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
在具体实施过程中,S301和S302的具体实现过程与实施例一、二中S201和S101相同,为此不再详细描述。需要说明的是,S301和S302的执行不分先后,可以同时执行,也可以先执行S302后执行S301,还可以先执行S301后执行S302。
S303根据输入词的输入代价和忽略因子,对用户词库中的输入词数据进行优化时,可以先根据输入词的输入代价和忽略因子计算获得输入词的综合分值,然后,删除用户词库中综合分值最低的n个输入词,n为正整数。具体,可以根据如下公式计算获得输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。当忽略因子h为最近忽略时间时,Hmax表示用户词库中最大的最近忽略时间(即所有输入词中最近被忽略的输入词的忽略时间字段)。在进行忽略分值计算时,最近忽略时间以数值的形式加入计算,如时间2016.8.25在存储时是一二进制数,计算时直接使用该二进制数。当忽略因子h为忽略次数或者忽略频率时,Hmax表示用户词库中最大的忽略次数或者最高的忽略频率。
在具体实施过程中,本申请实施例执行S303时,还可以获得所述输入词的最近上屏时间、上屏次数;根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;删除所述用户词库中所述综合分值最低的n个输入词。
其中,根据输入词的最近上屏时间、上屏次数、输入代价及忽略因子计算获得输入词的综合分值时,可以根据如下公式进行综合分值Co的计算:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的最近忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
在上述技术方案中,提出一种新的用户词库瘦身策略,根据输入词的输入代价和忽略因子来进行用户词库优化,将容易被忽略且输入代价低的输入词优先删除,解决了现有技术中用户词库优化时降低输入效率的技术问题,提高了字符的输入效率。
进一步的,本申请实施例还将忽略因子加入到包含上屏次数、上屏时间的瘦身策略中,并通过对输入代价、忽略因子、上屏次数及上屏时间的拟合计算获得输入词的综合分值,根据该综合分值来对用户词库进行优化,提升了用户词库优化的准确性。
请参考图4,针对上述实例一至三提供的优化用户词库的方法,本申请实施例对应提供一种用户词库优化装置,该装置包括:
第一获取单元41,用于获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
优化单元42,用于根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
在具体实施过程中,所述优化单元42包括:
获取子单元,用于获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
优化子单元,用于根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
进一步,所述优化单元还包括:计算子单元,用于在所述获得输入词的输入代价之前,根据如下公式获得所述上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
其中,所述获取子单元在获得输入代价时,可以获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者,还可以根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
在具体实施过程中,所述优化子单元可以用于:根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;删除所述用户词库中所述综合分值最低的n个输入词。所述优化子单元在根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值时,可以根据下述公式获得所述输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
在具体实施过程中,所述优化子单元还可以用于:获得所述输入词的最近上屏时间、上屏次数;根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;删除所述用户词库中所述综合分值最低的n个输入词。所述优化子单元在根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值时,可以根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
在具体实施过程中,优化单元42还包括:上屏子单元,用于获得所述输入词的最近上屏时间、上屏次数;所述优化子单元,还用于根据所述最近上屏时间、上屏次数及所述忽略因子,计算获得所述输入词的综合分值;删除所述用户词库中所述综合分值最低的n个输入词。
其中,所述优化子单元还可以根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于实现用户词库优化方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种用户词库优化方法方法,所述方法包括:获得所述输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (25)

1.一种优化用户词库的方法,其特征在于,包括:
获得输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据下述公式获得所述输入词的综合分值Co:Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax);其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0;
删除所述用户词库中所述综合分值最低的n个输入词。
2.如权利要求1所述的方法,其特征在于,所述根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
3.如权利要求2所述的方法,其特征在于,在所述获得输入词的输入代价之前,所述方法还包括:
根据如下公式获得所述上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
4.如权利要求3所述的方法,其特征在于,所述获得输入词的输入代价,包括:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
5.如权利要求2-4任一所述的方法,其特征在于,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
6.如权利要求5所述的方法,其特征在于,所述根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
7.如权利要求2-4任一所述的方法,其特征在于,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
8.如权利要求7所述的方法,其特征在于,所述根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
9.一种优化用户词库的装置,其特征在于,包括:
第一获取单元,用于获得输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
优化单元,用于根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
上屏子单元,用于获得所述输入词的最近上屏时间、上屏次数;
优化子单元,用于根据下述公式获得所述输入词的综合分值Co:Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax);其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0;删除所述用户词库中所述综合分值最低的n个输入词。
10.如权利要求9所述的装置,其特征在于,所述优化单元包括:
获取子单元,用于获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
优化子单元,用于根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
11.如权利要求10所述的装置,其特征在于,所述优化单元还包括:
计算子单元,用于在获得输入词的输入代价之前,根据如下公式获得所述上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
12.如权利要求11所述的装置,其特征在于,所述获取子单元用于:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
13.如权利要求10-12任一所述的装置,其特征在于,所述优化子单元还用于:
根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
14.如权利要求13所述的装置,其特征在于,所述优化子单元用于根据下述公式获得所述输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
15.如权利要求10-12任一所述的装置,其特征在于,所述优化子单元还用于:
获得所述输入词的最近上屏时间、上屏次数;
根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
16.如权利要求15所述的装置,其特征在于,所述优化子单元还用于根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
17.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获得输入词的忽略因子,所述忽略因子包含所述输入词被展现未被上屏的最近忽略时间、和/或忽略次数、和/或忽略频率;
根据所述输入词的所述忽略因子,对用户词库中的所述输入词数量进行优化,包括:获得所述输入词的最近上屏时间、上屏次数;
根据下述公式获得所述输入词的综合分值Co:Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Hmax-h)/Hmax);其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3表示常量,c1+c2+c3=1.0;
删除所述用户词库中所述综合分值最低的n个输入词。
18.如权利要求17所述的电子设备,其特征在于,所述根据所述输入词的所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得输入词的输入代价,所述输入代价包含所述输入词的输入字符串长度和/或所述输入词的上屏代价;
根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化。
19.如权利要求18所述的电子设备,其特征在于,在所述获得输入词的输入代价之前,还包括指令:
根据如下公式获得所述上屏代价:
C=a1*pagenum+x+a2
其中,C表示所述上屏代价,a1表示常量,pagenum表示获得所述输入词翻过的候选页,x表示所述输入词在候选界面的候选位置,a2为用户手动组词的附加值,当所述输入词未经过用户手动组词获得时a2为0,当所述输入词经过用户手动组词获得时a2为非零正数。
20.如权利要求19所述的电子设备,其特征在于,所述获得输入词的输入代价,包括:
获得所述上屏代价或所述输入字符串长度作为所述输入代价;或者
根据公式:Sc=b1*c+b2*l获得所述输入代价,其中,Sc表示所述输入代价,l表示所述输入字符串长度,b1、b2表示常量,b1+b2=1.0。
21.如权利要求18-20任一所述的电子设备,其特征在于,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
22.如权利要求21所述的电子设备,其特征在于,所述根据所述输入代价和所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=d1*log((Sc)/Scmax)+d2*log((Hmax-h)/Hmax)
其中,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,d1、d2表示常量,d1+d2=1.0,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子。
23.如权利要求18-20任一所述的电子设备,其特征在于,根据所述输入代价和所述忽略因子,对所述用户词库中的所述输入词数量进行优化,包括:
获得所述输入词的最近上屏时间、上屏次数;
根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值;
删除所述用户词库中所述综合分值最低的n个输入词。
24.如权利要求23所述的电子设备,其特征在于,所述根据所述输入词的最近上屏时间、上屏次数、所述输入代价及所述忽略因子,计算获得所述输入词的综合分值,包括:
根据下述公式获得所述输入词的综合分值Co:
Co=c1*log(t/Tmax)+c2*log(f/Fmax)+c3*log((Sc)/Scmax)+c4*log((Hmax-h)/Hmax)
其中,t表示所述输入词的最近上屏时间,Tmax表示所述用户词库中最近上屏时间,f表示所述输入词的上屏次数,Fmax表示所述用户词库中的最大上屏次数,Sc表示所述输入代价,Scmax表示所述用户词库中的最大输入代价,h表示所述忽略因子,Hmax表示所述用户词库中最大的忽略因子,c1、c2、c3、c4表示常量,c1+c2+c3+c4=1.0。
25.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~8任一所述的方法。
CN201610853367.7A 2016-09-26 2016-09-26 一种优化用户词库的方法、装置及电子设备 Active CN107870931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610853367.7A CN107870931B (zh) 2016-09-26 2016-09-26 一种优化用户词库的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610853367.7A CN107870931B (zh) 2016-09-26 2016-09-26 一种优化用户词库的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107870931A CN107870931A (zh) 2018-04-03
CN107870931B true CN107870931B (zh) 2021-09-07

Family

ID=61750627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610853367.7A Active CN107870931B (zh) 2016-09-26 2016-09-26 一种优化用户词库的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107870931B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761170A (zh) * 2020-09-15 2021-12-07 北京沃东天骏信息技术有限公司 更新语料库的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178741A (zh) * 2007-12-24 2008-05-14 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN102467537A (zh) * 2010-11-10 2012-05-23 腾讯科技(深圳)有限公司 删除词汇的方法和装置
CN102768576A (zh) * 2011-05-06 2012-11-07 张家港市赫图阿拉信息技术有限公司 一种用户管理自定义词库的输入法
CN102959547A (zh) * 2012-05-03 2013-03-06 华为技术有限公司 字词库调整方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178741A (zh) * 2007-12-24 2008-05-14 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN102467537A (zh) * 2010-11-10 2012-05-23 腾讯科技(深圳)有限公司 删除词汇的方法和装置
CN102768576A (zh) * 2011-05-06 2012-11-07 张家港市赫图阿拉信息技术有限公司 一种用户管理自定义词库的输入法
CN102959547A (zh) * 2012-05-03 2013-03-06 华为技术有限公司 字词库调整方法及设备

Also Published As

Publication number Publication date
CN107870931A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
JP6227766B2 (ja) チャットインターフェースでの表情記号変更の方法、装置および端末機器
US10296201B2 (en) Method and apparatus for text selection
US20180121040A1 (en) Method and device for managing notification messages
WO2017113666A1 (zh) 应用界面切换方法及装置
WO2017084183A1 (zh) 信息显示方法与装置
US10078422B2 (en) Method and device for updating a list
US9959487B2 (en) Method and device for adding font
EP2921969A1 (en) Method and apparatus for centering and zooming webpage and electronic device
US20210165670A1 (en) Method, apparatus for adding shortcut plug-in, and intelligent device
CN108829475B (zh) Ui绘制方法、装置及存储介质
CN104850643B (zh) 图片对比方法和装置
CN111814088A (zh) 一种页面处理方法及装置
US10229165B2 (en) Method and device for presenting tasks
CN108874450B (zh) 唤醒语音助手的方法及装置
WO2016197549A1 (zh) 一种进行搜索的方法和装置
CN110648657A (zh) 一种语言模型训练方法、构建方法和装置
CN107870931B (zh) 一种优化用户词库的方法、装置及电子设备
CN107870932B (zh) 一种用户词库优化方法、装置及电子设备
CN107885571B (zh) 显示页面控制方法及装置
CN107832112B (zh) 壁纸设置方法及装置
CN111092971A (zh) 一种显示方法、装置和用于显示的装置
EP3995943A1 (en) Method for operating a display device, terminal, and storage medium
JP2018500612A (ja) 情報処理方法および装置
CN114527919B (zh) 一种信息展示方法、装置和电子设备
CN117453111B (zh) 一种触控响应方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant