CN106774970B - 对输入法的候选项进行排序的方法和装置 - Google Patents
对输入法的候选项进行排序的方法和装置 Download PDFInfo
- Publication number
- CN106774970B CN106774970B CN201510825154.9A CN201510825154A CN106774970B CN 106774970 B CN106774970 B CN 106774970B CN 201510825154 A CN201510825154 A CN 201510825154A CN 106774970 B CN106774970 B CN 106774970B
- Authority
- CN
- China
- Prior art keywords
- sorting
- ranking
- user
- model
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种对输入法的候选项进行排序的方法和装置,其中的方法具体包括:获取用户的输入串;根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;生成所述候选项的排序特征向量和排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示排序特征对于候选项排序的影响权重;依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;根据所述排序结果将所述多个候选项进行展现。本发明实施例使得排序结果随着用户的使用将越来越贴合于用户的输入习惯,且使得排序结果将越来越符合用户的输入意图。
Description
技术领域
本发明涉及输入法技术领域,特别是涉及一种对输入法的候选项进行排序的方法和一种对输入法的候选项进行排序的装置。
背景技术
对于中文、日文、韩文等语言的用户而言,一般都需要通过输入法与计算机进行交互。例如,用户可以通过键盘键入输入串,然后由输入法依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。
用户在使用输入法的过程中,现有技术已经存在多种候选项的排序方式,如:固定顺序排序、按照候选项类型排序等;
其中,按固定顺序排序时,候选项的顺序是固定的,能够便于用户对常用字的输入,但大多应用场景下,候选项固定顺序必然会影响到用户的输入速度;例如,每次针对输入串“jiji”的输入,向用户推送的候选项排序基本是一样的,其中,排在前几位的候选项依次为:“积极”、“基极”、“几级”、“几集”等,这样,用户所需的目标候选项为“记记”时,需要翻页才能选择该目标候选项,由于无法向用户提供合理的候选项排序,因此降低了用户的输入速度;
按照候选项类型排序遵循的排序策略为:用户使用过的词被再次选用的概率往往更高,所以用户词库中用户词条的优先级高于其他词库中词条的优先级,故该排序策略通常一律地将用户词条固定排在其他词库的词条的前面,那么在用户第一次选择上屏“记记”这个词条后,第二次输入“jiji”时,用户词条“记记”将被排在首位,即排在其他系统词条(包括较高频的“积极”)的前面;然而,对于一个用户仅使用过1次的词条(比如“记记”),其不一定比同音下高频的系统词条更合理、更符合用户的输入意图。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的,对输入法的候选项进行排序的方法、相应的对输入法的候选项进行排序的装置和相应的用于对输入法的候选项进行排序的装置,使得排序结果随着用户的使用将越来越贴合于用户的输入习惯,且使得排序结果将越来越符合用户的输入意图,从而便于用户快速选择其所需的候选项,提高用户的输入速度。
为了解决上述问题,本发明公开了一种对输入法的候选项进行排序的方法,包括:
获取用户的输入串;
根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;
生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;
依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;
根据所述排序结果将所述多个候选项进行展现。
可选地,所述依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序的步骤,包括:
依据所述排序特征的特征值和与所述排序特征相对应的排序权重,得到所述排序特征向量对应候选项的得分;
依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序。
可选地,所述排序权重包括:
所述排序特征在用户的历史上屏行为数据中的上屏分布;和/或
将用户的历史输入行为数据作为训练样本,依据所述训练样本和所述训练样本对应的排序特征的特征值训练得到的排序权重。
可选地,所述排序特征的特征值包括:所述候选项在对应的词库或模型中的词频,和/或,所述候选项在对应的词库或模型中的概率,和/或,所述候选项在对应的词库或模型中的概率的对数。
可选地,所述词库或者模型用于描述与所述候选项相关的两个及两个以上元素之间的转换概率,则所述排序特征的特征值包括:所述转换概率,和/或,所述转换概率的对数。
可选地,所述候选项对应的词库和/或模型包括:所述候选项所属的词库和/或模型,或者,所述候选项和上文所属的词库和/或模型;
所述词库包括:系统词库、用户词库和细胞词库中的至少一种;
所述模型包括:纠错模型、模糊音模型、组词模型和上下文模型中的至少一种。
可选地,所述方法还包括:
依据用户对于所展现的候选项的上屏行为,对所述排序特征的特征值和排序权重进行更新。
可选地,所述对所述排序特征的特征值和排序权重进行更新的步骤,包括:
在所述上屏行为对应候选项的排序特征与用户词库或用户模型相应时,依据候选项及其排序特征,更新所述候选项在所述用户词库或者用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重;或者
在所述上屏行为对应候选项的排序特征与系统词库或系统模型相应时,依据候选项及其排序特征,更新所述候选项在所述系统词库对应的用户词库或者所述系统模型对应的用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重;或者
依据所述上屏行为对应的数据更新历史输入行为数据和排序特征的特征值,并依据当前历史行为数据和当前排序特征的特征值训练得到当前排序权重;或者
依据所述上屏行为对应的数据更新历史输入行为数据,并依据当前历史行为数据训练得到当前排序特征和当前排序权重。
另一方面,本发明还公开了一种对输入法的候选项进行排序的装置,包括:
获取模块,用于获取用户的输入串;
查询模块,用于根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;
生成模块,用于生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;
排序模块,用于依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;及
展现模块,用于根据所述排序结果将所述多个候选项进行展现。
再一方面,本发明还公开了一种用于对输入法的候选项进行排序的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户的输入串;
根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;
生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;
依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;
根据所述排序结果将所述多个候选项进行展现。
本发明实施例包括以下优点:
本发明实施例依据排序特征组成的排序特征向量、及排序权重向量对多个候选项进行排序;上述排序权重为依据用户的历史输入行为数据得到,与上述排序特征相匹配的词库和/或模型也会随着用户累积的历史输入行为数据而动态调整,也即,本发明实施例的上述排序特征及其排序权重均可以随着用户的历史输入行为而动态调整和学习成长,因此,随着历史输入行为的积累,本发明实施例提供的排序结果将越来越贴合于用户的输入习惯,且提供的排序结果将越来越符合用户的输入意图,从而便于用户快速选择其所需的候选项,提高用户的输入效率。
附图说明
图1是本发明的一种对输入法的候选项进行排序的方法实施例一的步骤流程图;
图2是本发明的一种对输入法的候选项进行排序的方法实施例二的步骤流程图;
图3是本发明的一种对输入法的候选项进行排序的装置实施例的结构框图;
图4是本发明的一种用于对输入法的候选项进行排序的装置800的框图;及
图5是本发明的一种服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提出了一种对输入法的候选项进行排序的方案,该方案将可能会影响输入行为和结果偏好的、与候选项对应的词库和/或模型相应的特征作为排序特征,对上述排序特征使用排序权重,由此可以依据尽可能多的多种排序特征得到更合理的排序结果;由于上述排序权重为依据用户的历史输入行为数据得到,与上述排序特征相匹配的词库和/或模型也会随着用户的历史输入行为而动态调整,也即,本发明实施例的上述排序特征及其排序权重均可以随着用户累积的历史输入行为数据而动态调整和学习成长,因此,随着历史输入行为数据的积累,本发明实施例提供的排序结果将越来越贴合于用户的输入习惯,且提供的排序结果将越来越符合用户的输入意图,从而便于用户快速选择其所需的候选项,提高用户的输入效率。
方法实施例一
参照图1,示出了本发明的一种对输入法的候选项进行排序的方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101、获取用户的输入串;
本发明可以应用于各种输入方式和各种语言的输入法系统,其中,上述输入方式具体可以包括键盘符号、手写信息、语音信号等,上述语言具体可以包括:中文、日文、韩文等语言。
在实际应用中,用户可通过诸如键盘、鼠标、触摸笔、遥控器、声控设备等终端输入用户输入信息。以终端为手机为例,手机可向用户提供实体键盘或者虚拟键盘,用户通过实体键盘或者虚拟键盘输入上述输入串。例如,用户通过手机提供的虚拟键盘输入“jiji”这一输入串;相应地,输入法可以获取该输入串。
步骤102、根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;
一、词库
在实际应用中,上述词库具体可以包括:系统词库、用户词库和细胞词库中的至少一种。可以理解,本发明实施例对于具体的词库不加以限制。
其中,上述系统词库可以为输入法提供的词库,其可以是终端的本地词库,也可以是输入法从服务器中获取的网络词库或者云词库;通常,系统词库可以存储有输入串与词条之间的映射关系;且同一输入法系统向不同用户提供的系统词库是相同的;
上述用户词库是相对于系统词库而言的词库,相对于系统词库向不同用户提供相同的内容,输入法系统可以通过学词,将用户输入的上屏词条(通过上屏动作后上屏的词条)存储至用户词库中,通常,用户词库可以存储有输入串与词条之间的映射关系;
一个细胞词库就是一个细分类别的词汇集合,细胞词库的类别可以是某个专业领域(如医学领域词库),也可以是某个地区(如北京地名词库),也可以是某个游戏(如魔兽世界词汇)等;
可以理解,上述系统词库、用户词库和细胞词库只是作为词库的示例,本发明实施例对于具体的词库不加以限制。
二、模型
上述模型可用于表示输入法提供的用于丰富输入功能的智能模型,在本发明的一种可选实施例中,上述模型具体可以包括:纠错模型、模糊音模型、上下文模型和组词模型中的至少一种。可以理解,本发明实施例对于具体的模型不加以限制。
上述纠错模型用于表示具有纠错功能的模型,在本发明的一种可选实施例中,上述纠错模型可以存储有一个输入串被错输为另一输入串的概率(以下简称纠错概率),例如,用户输入的输入串为“anzhaung”,输入法纠错得到的纠错候选串为“anzhuang”,则上述纠错概率可用于表示“anzhuang”被错输成“anzhaung”的概率,在实际应用中,通常可以获取用户的输入行为并进行统计分析,以得到上述纠错概率。可以理解,本发明实施例对于上述纠错概率的具体获取方式及其上述纠错模型的具体存储内容不加以限制。另外,上述纠错模型可以进一步包括:系统纠错模型和用户纠错模型等。
上述模糊音模型用于表示具有模糊音功能的模型,其可以将某些用户可能混淆的音节视为等同,从而允许用户使用更习惯的方式进行输入。例如,对于不习惯鼻音的用户,在等同的情况下,只要输入“fen”,就能同时获得“fen”和“feng”的词条。也即,上述模糊音模型可以存储一个输入串与模糊音输入串之间的映射关系。可以理解,本发明实施例对于上述模糊音模型的具体存储内容不加以限制。
关于上述上下文模型,在文字输入过程中,通常候选项出现的概率与其前X个上屏内容有关,为了提高候选项排序的准确性,本发明实施例可以从上屏内容中获取上下文信息,并计算在上下文信息(上文字符串和/或下文字符串)的基础上,输入串或者输入串对应候选项出现的概率,例如,在“漫天”之后出现“daxue”或“大雪”的上下文概率,在“虎妈”之后出现“maoba”或“猫爸”的上下文概率。也即,上述上下文模型可以存储上述上下文概率。可以理解,本发明实施例对于上下文模型所存储的具体内容不加以限制。
上述组词模型用于表示具有组词功能的模型,其可以在连续键入输入串(也即输入串的长度较长)的情况下,对输入串中音节对应的单字或者单词进行组词;上述组词模型可以提供多元词汇之间的组词概率。
在本发明的一种实施例中,上述组词模型可以提供多元词汇之间的组合信息,上述组合信息具体可以包括所述多元词汇之间的搭配关系和连接概率等信息。上述多元词汇具体可以包括:具有n元关系的词汇。n元关系,又称n-gram,可用于表示n个元素相继出现的概率;
其中,二元关系,又称2-gram,可用于表示两个元素相继出现的概率(也即连接概率),在输入法领域,这里的元素可以是音素、音节、笔画字符串、字母或词汇等,以词汇为例,所述二元关系具体可以用于表示两个词汇之间的连接概率,例如,可用二元关系表示词汇“漫天”和“大雪”相继出现的概率;
三元关系则可用于表示三个元素相继出现的概率,例如,可用三元关系表示词汇“你是”、“我”和“兄弟”相继出现的概率。其中,对于二元词汇,组词概率可以为两个词汇之间的连接概率,对于三元词汇,组词概率可以为两两词汇之间的连接概率的乘积。
在实际应用中,上述词库或者模型中通常包含多个词条;其中的词条可以是文字、字符、图形等形式中的任意一种或多种形式的组合。输入法可以根据预置的匹配算法,在上述词库或者模型中查找并获取与输入串相匹配的多个词条作为候选项供用户选取。例如,当用户输入信息为“jiji”时,与之匹配的m个词条可以包括“积极”、“基极”、“几级”、“几集”等。
步骤103、生成所述候选项的排序特征向量和与所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征可以与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重可用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;
本发明实施例中,上述排序特征向量具体可以包括:至少一个维度,其中,每个维度对应一个排序特征,每个排序特征可以与所述候选项对应的词库和/或模型相应,其中,每个排序特征的特征值可以依据词库或模型本身的数据提供,其可用于表示当前候选项在词库或模型中的重要度。
在本发明的一种可选实施例中,所述排序特征的特征值具体可以包括:所述候选项在对应的词库或模型中的词频,和/或,所述候选项在对应的词库或模型中的概率,和/或,所述候选项在对应的词库或模型中的概率的对数。其中,相对于上述概率,上述概率的对数可以将可能的非线性关系转化为线性关系,减少变量的极端值、非正态分布以及异方差性,并且也可以减少数据的波动,从而可以保证排序特征的特征值的稳定性。
假设用户词库中有三个词条:“你”、“我”和“他”,这些词条在用户词库中的用户词频分别为“3”、“2”和“5”,那么,这些词条在用户词库中的概率可以分别为“0.3”、“0.2”和“0.5”,这些词条在用户词库中的概率的对数可以分别为"log(0.3)"、"log(0.2)"和"log(0.5)"。同理,对于纠错模型中的词条,该词条的词频可以为该词条以纠错候选类型上屏的次数,对于模糊音模型中的词条,该词条的词频可以为该词条以模糊音候选类型上屏的次数,其它词库或模型对应排序特征的特征值相互参照即可,在此不作赘述。
在本发明的另一种可选实施例中,所述排序特征可以与所述候选项对应的模型相应,所述模型用于描述与所述候选项相关的两个及两个以上元素之间的转换概率,则所述排序特征的特征值具体可以包括:所述转换概率,和/或,所述转换概率的对数。
例如,纠错模型中存储有一个输入串被错输为另一输入串的概率,则纠错模型对应纠错候选(也即纠错模型提供的候选项)相关的两个元素具体可以包括:纠错候选对应输入串和实际输入串,上述转换概率具体可以包括:纠错候选对应输入串被错输为实际输入串的概率。
又如,用户多元库中存储有多元词汇之间的连接概率,则用户多元库对应候选项相关的两个元素具体可以包括:对该候选项拆分得到的词条,例如,输入串为“nideyanj”对应的候选项具体可以包括:“你的严谨”和“你的眼睛”等,则“你的眼睛”相关的两个元素具体可以包括:“你的”和“眼睛”,上述转换概率具体可以包括:“你的”和“眼睛”之间的连接概率。
可以理解,本领域技术人员可以根据实际应用需求,对上述排序特征的特征值进行择一使用或者组合使用,另外,上述排序特征的特征值只是作为可选实施例,实际上,用于表示当前候选项在词库或模型中的重要度的所有特征值都是可行的,例如,还可以将当前候选项在词库或模型中的得分作为排序特征的特征值等,本发明实施例对于排序特征的具体特征值不加以限制。
在本发明的一种可选实施例中,所述候选项对应的词库和/或模型具体可以包括:所述候选项所属的词库和/或模型,或者,所述候选项和上文所属的词库和/或模型。上述候选项所属的词库具体指该候选项在词库中出现,上述候选所属的模型具体指该候选项在模型中出现。例如,对于候选项“大雪”而言,其所属的词库具体可以包括:用户词库、系统词库、细胞词库等,其所属的模型具体可以包括:纠错模型和模糊音模型等;而对于候选项“大雪”和其上文“漫天“而言,其所属的词库具体可以包括:系统词库、用户词库,其所属的模型具体可以包括:纠错模型、模糊音模型和上下文模型等。
在实际应用中,可以依据上述候选项在词库和/或模型中进行查找,以得到上述候选项所属的词库和/或模型;或者,可以依据上述候选项及其上文在词库和/或模型中进行查找,以得到上述候选项和上文所属的词库和/或模型,假设候选项“大雪”的上文为“漫天”,则可以依据候选项“大雪”和上文“漫天”在词库和/或模型中进行查找,具体地,可以将候选项“大雪”和上文“漫天”与词库和/或模型中的字段相匹配,若匹配成功,则可以得到候选项“大雪”和上文“漫天”所属的词库和/或模型,假设候选项“大雪”和上文“漫天”与上下文模型中搭配关系字段“漫天-大雪”匹配成功,则可以得到候选项“大雪”和上文“漫天”所属的模型为上下文模型。本发明实施例对于确定所述候选项对应的词库和/或模型的具体过程不加以限制。
本发明实施例中,所述排序权重用于表示排序特征对于候选项排序的影响权重,如第一排序特征为候选项对应用户词库的特征,则第一排序特征表示用户词库对于候选项排序的影响权重。
本发明实施例中,由于上述排序权重是依据用户的历史输入行为数据得到的,因此可以随着用户的历史输入行为而动态调整和学习成长。
在本发明的一种可选实施例中,所述排序权重具体可以包括:所述排序特征在用户的历史上屏行为数据中的上屏分布;和/或,将用户的历史输入行为数据作为训练样本,依据所述训练样本和所述训练样本对应的排序特征的特征值训练得到的排序权重。
其中,上述上屏分布也即被上屏的某种排序特征对应词库或模型的候选项在用户上屏的所有上屏内容中的上屏占比。例如,当前的排序特征向量具体可以包括2个排序特征,其中,排序特征1与系统词库相应,排序特征2与用户词库相应,用户输入当前输入串前,总共产生过20次上屏内容,该20次上屏内容中,系统词库中词条的上屏次数为12,用户词库中词条的上屏次数为8,则可以计算得到排序特征1的排序权重为0.6,排序特征2的排序权重为0.4。
本发明实施例的排序权重还可以为依据历史行为数据对应训练样本训练得到的排序权重。在实际应用中,可以将多种排序特征的特征值和一组训练样本作为排序权重模型的输入,将多种排序特征的排序权重作为排序权重模型的输出;其中,训练样本具体可以包括:历史输入串、历史候选项的排序结果及历史上屏内容,训练样本中多种排序特征的排序权重可以具有初始值,随着历史行为数据的增加,可以在当前值的基础上对上述排序权重进行调整,例如,当前训练样本表明,依据当前排序特征及其排序权重向用户提供了排好序的候选项,且用户上屏了某个词库提供的候选项,则上述排序权重模型可以在当前值的基础上对该词库对应的排序特征的排序权重进行加权当前值增加预设倍数等,本发明实施例对于具体的加权过程不加以限制;从而可以最终训练得到符合用户的输入习惯的排序权重。需要说明的是,可以采用SVM(支持向量机,Support Vector Machine)、神经网络等进行排序权重模型的训练,本发明实施例对于排序权重模型的具体训练方法不加以限制。其中,排序权重在初始时(第一次训练前)的当前值可通过经验方式或者预设方式确定,本发明实施例对于排序权重在初始时的当前值不作具体限制。
步骤104、依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;
在本发明的一种可选实施例中,所述依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序的步骤,具体可以包括:
步骤A1、依据所述排序特征的特征值和与所述排序特征相对应的排序权重,得到所述排序特征向量对应候选项的得分;
步骤A2、依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序。
在本发明的一种应用示例中,上述排序特征向量对应候选项的得分score的计算公式可以为:score=排序特征1*排序权重1+排序特征2*排序权重2+…+排序特征N*排序权重N;其中,N代表排序特征向量中排序特征的数量;在实际应用中,N的值可以与候选项对应的词库和/或模型的数量相应,例如,候选项“大雪”对应用户词库、系统词库和上下文模型,则N的值可以为3。
需要说明的是,上述步骤A1和步骤A2对所述多个候选项进行排序的过程只是作为可选实施例,实际上本领域技术人员可以根据实际应用需求,采用对所述多个候选项进行排序的其它过程,例如,可以依据用户的历史输入行为数据训练排序模型,该排序模型的输入可以为输入串和输入串对应的多个候选项,该排序模型的模型参数具体可以包括:排序特征组成的排序特征向量、及排序特征的排序权重组成的排序权重向量,该排序模型的输出为多个候选项的排序结果(在训练时,可以依据用户的上屏信息得到排序结果),则可以依据通过训练得到适配于当前历史输入行为数据的模型参数,并利用上述模型参数得到多个候选项的排序结果。可以理解,本发明实施例对于对所述多个候选项进行排序的具体过程不加以限制。
步骤105、根据所述排序结果将所述多个候选项进行展现。
在实际应用中,将所述多个候选项进行展现的方式具体可以包括多种,例如,以横排的方式生成展现信息,又如,以竖排的方式生成展现信息等;其中,可以根据所述排序结果选择排序在前的预定数量的候选项来生成横排或者竖排的展现信息;上述预定数量可以为输入法的一个显示页面所能够显示的最大数量,如5等,本发明实施例对将所述多个候选项进行展现的具体方式不加以限制。
方法实施例二
参照图2,示出了本发明的一种对输入法的候选项进行排序的方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201、获取用户的输入串;
步骤202、根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;
步骤203、生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征可以与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重可用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;
步骤204、依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;
步骤205、根据所述排序结果将所述多个候选项进行展现;
步骤206、依据用户对于所展现的候选项的上屏行为,对所述排序特征的特征值和排序权重进行更新。
相对于方法实施例一,本实施例可以依据用户的上屏行为,对所述排序特征的特征值和排序权重进行更新,以使上述排序特征及其排序权重随着用户的历史输入行为而动态调整和学习成长。
本发明实施例可以提供对所述排序特征的特征值和排序权重进行更新的如下更新方案:
更新方案一
更新方案1中,上述对所述排序特征的特征值和排序权重进行更新的过程具体可以包括:在所述上屏行为对应候选项的排序特征与用户词库或用户模型相应时,依据候选项及其排序特征,更新所述候选项在所述用户词库或者用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重。
上述属性参数具体可以包括:词频;例如,上述上屏行为对应的候选为用户词库中词条,则可以首先增加该词条在用户词库中的词频(如加1或其他预设值),以得到用户词库对应排序特征的特征值;然后,依据该词条的当前词频,计算用户词库中用户词条在用户的历史上屏行为数据中的上屏分布,以得到用户词库对应排序特征的排序权重。需要说明的是,上述属性参数还可以包括:连接概率、转换概率等,本发明实施例对于具体的属性参数不加以限制。
更新方案二
更新方案二中,在所述上屏行为对应候选项的排序特征与系统词库或系统模型相应时,依据候选项及其排序特征,更新所述候选项在所述系统词库对应的用户词库或者所述系统模型对应的用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重。
在所述排序特征对应词库或者模型属于系统词库或者系统模型时,可以更新所述候选项在对应用户词库或者用户模型中的属性参数。如可以将用户刚刚上屏的、用户词库中不存在的词条更新至用户词库,并将该词条在用户词库中的词频记为1或其他预设值。上述纠错模型、模糊音模型、组词模型和上下文模型均可以包括对应的用户模型和系统模型。例如,系统纠错模型和用户纠错模型,系统模糊音模型和用户模糊音模型、系统组词模型和用户组词模型、系统上下文模型和用户上下文模型等。
更新方案三
更新方案三中,上述对所述排序特征的特征值和排序权重进行更新的过程具体可以包括:依据上述上屏行为对应的数据更新历史输入行为数据和排序特征的特征值,并依据当前历史行为数据和当前排序特征的特征值训练得到当前排序权重。
更新方案四
更新方案四中,上述对所述排序特征的特征值和排序权重进行更新的过程具体可以包括:依据上述上屏行为对应的数据更新历史输入行为数据,并依据当前历史行为数据训练得到当前排序特征和当前排序权重。
需要说明的是,本发明实施例还可以监测上述上屏行为之后的行为,若之后的行为为针对上屏内容的退格行为,则可以在对应词库中降低上述上屏内容对应词条的词频(如减1或其他预设值)等;若之后的行为为继续输入的行为,则可以执行上述步骤206。可以理解,本发明实施例对于上述步骤206的执行时机和执行过程不加以限制。
为使本领域技术人员更好地理解本发明实施例,以下通过具体的示例来说明本发明实施例的对输入法的候选项进行排序的过程。
该示例涉及,当前的排序特征向量具体可以包括2个排序特征,其中,排序特征1与系统词库相应,排序特征2与用户词库相应,排序特征1、排序特征2的特征值分别表示为:候选项在系统词库的系统词频、候选项在用户词库中的用户词频,排序特征1的排序权重1和排序特征2的排序权重2分别表示为:排序特征1对应系统词库和排序特征2对应用户词库在用户的历史上屏行为数据中的上屏分布;
假设用户输入当前输入串前,总共产生过20次上屏内容,该20次上屏内容中系统词库中词条的上屏次数为12,用户词库中词条的上屏次数为8,则可以计算得到排序特征1的排序权重1为0.6,排序特征2的排序权重2为0.4;
则在用户第一次输入“jiji”输入串时,假设此前没有上屏过该输入串对应的词条,即输入法只在系统词库中匹配到了所有候选项,这些候选项的得分为排序特征1*排序权重1,假设这些候选项从高到低的排序结果为:“积极”、“几级”、“记记”(这三个候选的系统词频依次为“10”、“4”、“3”,利用系统词频和排序权重0.6计算得到的得分依次为“6”、“2.4”、“1.8”);假设用户上屏了“记记”这个候选项,则输入法可以在接收到上屏行为后更新排序特征的特征值和排序权重,即将“记记”学到用户词库中并更新其用户词频为“1”,使得“记记”对应排序特征2的特征值变为1,由于用户此次上屏的候选为系统词库的词条,因此,系统词库中词条的上屏次数增加一次,为13次,并将排序权重1更新为(12+1)/21=0.62,将排序权重2更新为8/21=0.38;
在用户第二次输入“jiji”这个输入串时,就会匹配到系统词库中的词条以及用户词库中的词条(“记记”),假设候选项的得分为排序特征1*排序权重1+排序特征2*排序权重2,假设这些候选项从高到低的排序结果为“积极”,“几级”,“记记”(这三个候选项得分为“6.2”,“2.48”,“2.24(3*0.62+1*0.38)”);此时用户又一次上屏了“记记”这个候选项,则输入法可以在接收到上屏行为后更新排序特征的特征值和排序权重,将排序权重1更新为13/22=0.59,将排序权重2更新为9/22=0.41,并将“记记”在用户词库中的用户词频更新为“2”;
在用户第三次输入“jiji”这个输入串时,将匹配到系统词库中的词条以及用户词库中的词条,假设候选项的得分为排序特征1*排序权重1+排序特征2*排序权重2,假设这些候选项从高到低的排序结果为“积极”,“记记”,“几级”(三个候选项的得分分别为“5.9”,“2.59(3*0.59+2*0.41)”,“2.36”);可以看到随着用户的历史输入行为数据的增多,原先较低频的词条“记记”慢慢地上升为二选,但依旧没有越到原先较高频的词条“积极”的前面。
传统的排序技术通常一律地将用户词条固定排在其他词库的词条的前面,则在用户第一次选择上屏“记记”这个词条后,第二次输入“jiji”时,用户词条“记记”就会被排在首位,即排在其他系统词条(包括较高频的“积极”)的前面;然而,对于一个用户仅使用过1次的词条(比如“记记”),其不一定比同音下高频的系统词条更合理、更符合用户的输入意图。
而本发明实施例依据排序特征组成的排序特征向量、及排序特征向量对应的排序权重向量对多个候选项进行排序;由于上述排序权重为依据用户的历史输入行为数据得到,与上述排序特征相匹配的词库和/或模型也会随着用户的历史输入行为而动态调整,因此,本发明实施例能够使得候选项的排序结果更加柔和地发生变化,使用户经常上屏的词条随着用户输入历史慢慢地上升到首选位置,这相对于传统的排序技术在一次上屏后就固定排到其他词条之前,解决了候选项排序过程的自适应调整问题,因此,能够使得输入法提供的排序结果将越来越贴合于用户的输入习惯,且提供的排序结果将越来越符合用户的输入意图,从而便于用户快速选择其所需的候选项,提高用户的输入速度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图3,示出了本发明的一种对输入法的候选项进行排序的装置实施例的结构框图,具体可以包括如下模块:
获取模块301,用于获取用户的输入串;
查询模块302,用于根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;
生成模块303,用于生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征可以与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重可以用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;
排序模块304,用于依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;及
展现模块305,用于根据所述排序结果将所述多个候选项进行展现。
在本发明的一种可选实施例中,所述排序模块304,具体可以包括:
得分计算子模块,用于依据所述排序特征的特征值和与所述排序特征相对应的排序权重,得到所述排序特征向量对应候选项的得分;及
排序子模块,用于依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序。
在本发明的另一种可选实施例中,所述排序权重具体可以包括:
所述排序特征在用户的历史上屏行为数据中的上屏分布;和/或
将用户的历史输入行为数据作为训练样本,依据所述训练样本和所述训练样本对应的排序特征的特征值训练得到的排序权重。
在本发明的再一种可选实施例中,所述排序特征的特征值具体可以包括:所述候选项在对应的词库或模型中的词频,和/或,所述候选项在对应的词库或模型中的概率,和/或,所述候选项在对应的词库或模型中的概率的对数。
在本发明的又一种可选实施例中,所述词库或者模型用于描述与所述候选项相关的两个及两个以上元素之间的转换概率,则所述排序特征的特征值具体可以包括:所述转换概率,和/或,所述转换概率的对数。
在本发明的一种可选实施例中,所述候选项对应的词库和/或模型具体可以包括:所述候选项所属的词库和/或模型,或者,所述候选项和上文所属的词库和/或模型;
所述词库具体可以包括:系统词库、用户词库、细胞词库中的至少一种;
所述模型具体可以包括:纠错模型、模糊音模型、组词模型、上下文模型中的至少一种。
在本发明的另一种可选实施例中,所述装置还可以包括:
更新模块,用于依据用户对于所展现的候选项的上屏行为,对所述排序特征的特征值和排序权重进行更新。
在本发明的再一种可选实施例中,所述更新模块,具体可以包括:
第一更新子模块,用于在所述上屏行为对应候选项的排序特征与用户词库或用户模型相应时,依据候选项及其排序特征,更新所述候选项在所述用户词库或者用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重;或者
第二更新子模块,用于在所述上屏行为对应候选项的排序特征与系统词库或系统模型相应时,依据候选项及其排序特征,更新所述候选项在所述系统词库对应的用户词库或者所述系统模型对应的用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重;或者
第三更新子模块,用于依据所述上屏行为对应的数据更新历史输入行为数据和排序特征的特征值,并依据当前历史行为数据和当前排序特征的特征值训练得到当前排序权重;或者
第四更新子模块,用于依据所述上屏行为对应的数据更新历史输入行为数据,并依据当前历史行为数据训练得到当前排序特征和当前排序权重。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于对输入法所产生的候选项进行排序的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种对输入法的候选项进行排序的方法,所述方法包括:获取用户的输入串;根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;根据所述排序结果将所述多个候选项进行展现。
图5是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种对输入法的候选项进行排序的方法、一种对输入法的候选项进行排序的装置和一种用于对输入法的候选项进行排序的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种对输入法的候选项进行排序的方法,其特征在于,包括:
获取用户的输入串;
根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;所述词库包括:系统词库和用户词库;
生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;至少部分候选项的排序特征向量包括多个排序特征;所述排序权重表征对应排序特征在用户的历史上屏行为数据中的上屏分布;
依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;其中,依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序;所述得分为对多个排序特征的特征值分别与对应的排序权重的乘积进行求和得到;
根据所述排序结果将所述多个候选项进行展现。
2.根据权利要求1所述的方法,其特征在于,所述依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序的步骤,包括:
依据所述排序特征的特征值和与所述排序特征相对应的排序权重,得到所述排序特征向量对应候选项的得分;
依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序。
3.根据权利要求1或2所述的方法,其特征在于,所述排序权重包括:
所述排序特征在用户的历史上屏行为数据中的上屏分布;和/或
将用户的历史输入行为数据作为训练样本,依据所述训练样本和所述训练样本对应的排序特征的特征值训练得到的排序权重。
4.根据权利要求1或2所述的方法,其特征在于,所述排序特征的特征值包括:所述候选项在对应的词库或模型中的词频,和/或,所述候选项在对应的词库或模型中的概率,和/或,所述候选项在对应的词库或模型中的概率的对数。
5.根据权利要求1或2所述的方法,其特征在于,所述词库或者模型用于描述与所述候选项相关的两个及两个以上元素之间的转换概率,则所述排序特征的特征值包括:所述转换概率,和/或,所述转换概率的对数。
6.根据权利要求1或2所述的方法,其特征在于,所述候选项对应的词库和/或模型包括:所述候选项所属的词库和/或模型,或者,所述候选项和上文所属的词库和/或模型;
所述词库包括:系统词库、用户词库和细胞词库中的至少一种;
所述模型包括:纠错模型、模糊音模型、组词模型和上下文模型中的至少一种。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
依据用户对于所展现的候选项的上屏行为,对所述排序特征的特征值和排序权重进行更新。
8.根据权利要求7所述的方法,其特征在于,所述对所述排序特征的特征值和排序权重进行更新的步骤,包括:
在所述上屏行为对应候选项的排序特征与用户词库或用户模型相应时,依据候选项及其排序特征,更新所述候选项在所述用户词库或者用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重;或者
在所述上屏行为对应候选项的排序特征与系统词库或系统模型相应时,依据候选项及其排序特征,更新所述候选项在所述系统词库对应的用户词库或者所述系统模型对应的用户模型中的属性参数,并依据所述候选项的当前属性参数,更新所述排序特征的特征值和排序权重;或者
依据所述上屏行为对应的数据更新历史输入行为数据和排序特征的特征值,并依据当前历史行为数据和当前排序特征的特征值训练得到当前排序权重;或者
依据所述上屏行为对应的数据更新历史输入行为数据,并依据当前历史行为数据训练得到当前排序特征和当前排序权重。
9.一种对输入法的候选项进行排序的装置,其特征在于,包括:
获取模块,用于获取用户的输入串;
查询模块,用于根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;所述词库包括:系统词库和用户词库;
生成模块,用于生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;至少部分候选项的排序特征向量包括多个排序特征;所述排序权重表征对应排序特征在用户的历史上屏行为数据中的上屏分布;
排序模块,用于依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;其中,依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序;所述得分为对多个排序特征的特征值分别与对应的排序权重的乘积进行求和得到;及
展现模块,用于根据所述排序结果将所述多个候选项进行展现。
10.一种用于对输入法的候选项进行排序的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户的输入串;
根据所述输入串在词库或者词库和模型中进行查询,以得到与所述输入串相匹配的多个候选项;所述词库包括:系统词库和用户词库;
生成所述候选项的排序特征向量和所述排序特征向量对应的排序权重向量;其中,所述排序特征向量中排序特征与所述候选项对应的词库和/或模型相应,所述排序权重向量中排序权重用于表示依据用户的历史输入行为数据得到的、所述排序特征对于候选项排序的影响权重;至少部分候选项的排序特征向量包括多个排序特征;所述排序权重表征对应排序特征在用户的历史上屏行为数据中的上屏分布;
依据所述排序特征向量及所述排序权重向量,对所述多个候选项进行排序;其中,依据所述排序特征向量对应候选项的得分,对所述多个候选项进行排序;所述得分为对多个排序特征的特征值分别与对应的排序权重的乘积进行求和得到;
根据所述排序结果将所述多个候选项进行展现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510825154.9A CN106774970B (zh) | 2015-11-24 | 2015-11-24 | 对输入法的候选项进行排序的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510825154.9A CN106774970B (zh) | 2015-11-24 | 2015-11-24 | 对输入法的候选项进行排序的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106774970A CN106774970A (zh) | 2017-05-31 |
CN106774970B true CN106774970B (zh) | 2021-08-20 |
Family
ID=58963693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510825154.9A Active CN106774970B (zh) | 2015-11-24 | 2015-11-24 | 对输入法的候选项进行排序的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106774970B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109144286B (zh) * | 2017-06-27 | 2022-08-02 | 北京搜狗科技发展有限公司 | 一种输入方法及装置 |
CN109271037B (zh) * | 2017-07-13 | 2022-09-09 | 北京搜狗科技发展有限公司 | 一种纠错词库的建立方法和装置 |
CN109388252B (zh) * | 2017-08-14 | 2022-10-04 | 北京搜狗科技发展有限公司 | 一种输入方法及装置 |
CN109426354B (zh) * | 2017-08-25 | 2022-07-12 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN109521888B (zh) * | 2017-09-19 | 2022-11-01 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和介质 |
CN107621891A (zh) * | 2017-09-28 | 2018-01-23 | 北京新美互通科技有限公司 | 一种文本输入方法、装置及电子设备 |
CN109669550B (zh) * | 2017-10-17 | 2023-05-16 | 北京搜狗科技发展有限公司 | 一种获取用户词库的方法和装置 |
CN109725736B (zh) * | 2017-10-27 | 2023-02-28 | 北京搜狗科技发展有限公司 | 一种候选排序方法、装置及电子设备 |
CN110221704A (zh) * | 2018-03-01 | 2019-09-10 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN110389668B (zh) * | 2018-04-20 | 2024-08-16 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN109145126A (zh) * | 2018-06-27 | 2019-01-04 | 珠海市魅族科技有限公司 | 一种备选词的展示方法和装置、终端、可读存储介质 |
CN110874145A (zh) * | 2018-08-30 | 2020-03-10 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
CN110874146A (zh) * | 2018-08-30 | 2020-03-10 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
CN111124141B (zh) * | 2018-10-12 | 2024-07-23 | 北京搜狗科技发展有限公司 | 一种用于确定候选项的神经网络模型训练方法和装置 |
CN109902167B (zh) * | 2018-12-04 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 嵌入结果的解释方法和装置 |
CN111381685B (zh) * | 2018-12-29 | 2024-03-22 | 北京搜狗科技发展有限公司 | 一种句联想方法和装置 |
CN112083811B (zh) * | 2019-06-14 | 2024-01-30 | 北京搜狗科技发展有限公司 | 一种候选项展示方法和装置 |
CN112989148A (zh) * | 2019-12-13 | 2021-06-18 | 华为技术有限公司 | 纠错词排序方法、装置、终端设备和存储介质 |
CN111665956B (zh) * | 2020-04-17 | 2023-07-25 | 北京百度网讯科技有限公司 | 候选字符串的处理方法、装置、电子设备及存储介质 |
CN114115550A (zh) * | 2020-08-27 | 2022-03-01 | 北京搜狗科技发展有限公司 | 联想候选的处理方法、装置和用于处理联想候选的装置 |
CN112783337B (zh) * | 2020-12-31 | 2024-04-12 | 科大讯飞股份有限公司 | 输入法候选项的排序方法及相关模型的训练方法 |
CN115016652A (zh) * | 2021-03-03 | 2022-09-06 | 北京搜狗科技发展有限公司 | 输入方法、装置和介质 |
CN115373523A (zh) * | 2021-05-18 | 2022-11-22 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN115454259A (zh) * | 2021-06-09 | 2022-12-09 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN116088692B (zh) * | 2021-11-03 | 2024-04-19 | 百度国际科技(深圳)有限公司 | 用于呈现候选字符串和训练判别式模型的方法和装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040153249A1 (en) * | 2002-08-06 | 2004-08-05 | The Johns Hopkins University | System, software and methods for biomarker identification |
CN101420313B (zh) * | 2007-10-22 | 2011-01-12 | 北京搜狗科技发展有限公司 | 一种针对客户端用户群进行聚类的方法和系统 |
CN101470732B (zh) * | 2007-12-26 | 2012-04-18 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN101350004B (zh) * | 2008-09-11 | 2010-08-11 | 北京搜狗科技发展有限公司 | 形成个性化纠错模型的方法及个性化纠错的输入法系统 |
US8356060B2 (en) * | 2009-04-30 | 2013-01-15 | Oracle International Corporation | Compression analyzer |
CN101697109A (zh) * | 2009-10-26 | 2010-04-21 | 北京搜狗科技发展有限公司 | 一种获取输入法候选项的方法及系统 |
CN102722483B (zh) * | 2011-03-29 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 用于确定输入法的候选项排序的方法、装置和设备 |
CN103049458B (zh) * | 2011-10-17 | 2016-06-08 | 北京搜狗科技发展有限公司 | 一种修正用户词库的方法和系统 |
CN104077306B (zh) * | 2013-03-28 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及系统 |
CN103246703B (zh) * | 2013-04-03 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 一种用于确定应用词库的方法和设备 |
CN103226393B (zh) * | 2013-04-12 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 一种输入方法和设备 |
CN103279192A (zh) * | 2013-04-18 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 一种利用多义键盘进行输入的方法和设备 |
CN104850238B (zh) * | 2015-04-17 | 2018-04-06 | 小米科技有限责任公司 | 对输入法所产生的候选项进行排序的方法和装置 |
-
2015
- 2015-11-24 CN CN201510825154.9A patent/CN106774970B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106774970A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106774970B (zh) | 对输入法的候选项进行排序的方法和装置 | |
US9176941B2 (en) | Text inputting method, apparatus and system based on a cache-based language model and a universal language model | |
CN107305438B (zh) | 候选项的排序方法和装置、用于候选项排序的装置 | |
CN108846037B (zh) | 提示搜索词的方法和装置 | |
CN108803890B (zh) | 一种输入方法、输入装置和用于输入的装置 | |
CN107918496B (zh) | 一种输入纠错方法和装置、一种用于输入纠错的装置 | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
CN108345612B (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN107544684B (zh) | 一种候选词显示方法及装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN109521888B (zh) | 一种输入方法、装置和介质 | |
CN110968246A (zh) | 中文智能手写输入识别方法及装置 | |
CN108073293B (zh) | 一种目标词组的确定方法和装置 | |
CN111222316A (zh) | 文本检测方法、装置及存储介质 | |
CN112579767A (zh) | 搜索处理方法、装置和用于搜索处理的装置 | |
CN108628461B (zh) | 一种输入方法和装置、一种更新词库的方法和装置 | |
CN110858099B (zh) | 候选词生成方法及装置 | |
CN110908523B (zh) | 一种输入方法及装置 | |
CN110858100B (zh) | 联想候选词生成方法及装置 | |
CN111381685B (zh) | 一种句联想方法和装置 | |
CN112306251A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN108073294B (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 | |
CN109426359B (zh) | 一种输入方法、装置以及机器可读介质 | |
CN114115550A (zh) | 联想候选的处理方法、装置和用于处理联想候选的装置 | |
CN109388252B (zh) | 一种输入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |