CN104360759A

CN104360759A - 候选字排序方法、装置和文字输入方法、设备

Info

Publication number: CN104360759A
Application number: CN201410676068.1A
Authority: CN
Inventors: 赵继承
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2015-02-18
Anticipated expiration: 2034-11-21
Also published as: WO2016078408A1; CN104360759B

Abstract

本发明公开了一种候选字排序方法、装置和文字输入方法、设备，所述候选字排序方法包括：根据输入的基本字符，生成与所述基本字符匹配的候选字序列；根据所述基本字符的输入地址，获取用户的个人属性信息和文字输入的输入场景信息；以及将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值，并按照所述优选概率值的大小排列和展示所述候选字序列。通过采用本发明中对输入场景信息的识别和输入设备中个人属性信息的统计，从而实现候选字的优化排序，有效地提高文字输入效率。

Description

候选字排序方法、装置和文字输入方法、设备

技术领域

本发明涉及计算机文字输入技术，更为具体而言，涉及一种候选字排序方法、装置和文字输入方法、设备。

背景技术

文字输入已经涉及到我们生活、学习和工作的方方面面。各类文字输入法(如：拼音输入法、笔画输入法、手写输入法等)和相关软件发展迅速，这不仅方便了各类不同人群，同时也使得文字输入效率不断提高。

目前，众多的文字输入法通常都采用先输入再选择的输入模式，具体而言，这种输入模块先根据输入的拼音或笔画等信息得到相关候选字，输入者再通过选取候选字的方式确定最终输入的文字。然而，通常由于候选字的数量众多，在选取候选字的时候，如果没有一定的规则，将可能占用输入者较长的选择时间，从而大大降低文字的输入效率，用户体验度差。

发明内容

为了解决当前文字输入效率低和用户体验度差的问题，本发明的实施方式提供了一种候选字排序方法、装置和文字输入方法、设备。

一方面，本发明实施方式提供了一种候选字排序方法，所述方法包括：

根据输入的基本字符，生成与所述基本字符匹配的候选字序列；

根据所述基本字符的输入地址，获取用户的个人属性信息和文字输入的输入场景信息；以及

将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值，并按照所述优选概率值的大小排列和展示所述候选字序列。

相应的，本发明实施方式还提供了一种图像对比装置，所述装置包括：

匹配模块，用于根据输入的基本字符，生成与所述基本字符匹配的候选字序列；

获取模块，用于根据所述基本字符的输入地址，获取用户的个人属性信息和文字输入的输入场景信息；以及

优选模块，用于将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值，并按照所述优选概率值的大小排列和展示所述候选字序列。

另一方面，本发明实施方式提供了一种文字输入方法，所述方法包括：

在输入地址内输入基本字符；

按照上述的一种候选字排序方法排列和展示所述候选字序列；以及

从所述候选字序列中选定需要输入的文字，并将所述选定的文字输入到所述输入地址。

相应的，本发明实施方式还提供了一种文字输入设备，所述设备包括：

输入装置，用于在输入地址内输入可组成候选字的基本字符；

如上所述的一种候选字排序装置；以及

选定装置，用于从所述候选字排序装置所排列和展示所述候选字序列中选定输入的文字，并将所述选定的文字输入到所述输入地址。

实施本发明的各种实施方式具有以下有益效果：通过输入场景信息的识别和输入设备中对个人属性信息的统计，从而实现候选字的优化排序，有效地提高文字输入效率。

附图说明

图1是根据本发明实施方式的候选字排序方法的流程图；

图2示出了图1的步骤S2的具体流程图；

图3示出了图2的步骤S3的具体流程图；

图4是根据本发明实施方式的候选字排序装置的架构图；

图5示出了图4所示的获取模块200的框图；

图6示出了图4所示的优选模块300的框图；

图7示出了图6所示的概率分析单元310的框图；

图8是根据本发明实施方式的文字输入方法的流程图；

图9是根据本发明实施方式的文字输入设备的架构图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且，所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。还可以容易理解，本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。

图1是根据本发明实施方式的候选字排序方法的流程图；参见图1，所述方法包括如下步骤：

步骤S1，根据输入的基本字符，生成与所述基本字符匹配的候选字序列；

步骤S2，根据所述基本字符的输入地址，获取用户的个人属性信息和文字输入的输入场景信息；以及

步骤S3，将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值，并按照所述优选概率值的大小排列和展示所述候选字序列。

通过采用上述方法，可根据识别的输入场景信息和输入设备中对个人属性信息的统计，实现对候选字的优化排序，有效地提高文字输入效率。

图2示出了图1的步骤S2的具体流程图；参见图2，所述步骤S2包括：

步骤S21，识别所述输入地址；

步骤S22，获取输入设备中已存储的个人属性信息，以及获取所述输入场景信息。

其中，所述个人属性信息例如用户性别、职业、年龄段等，也包括UserId(用户识别码)，该基本字符(例如：拼音)所发生的场景的属性(比如当前的App，用户当前所在地域等)，以及在该拼音串下最后选择的字符串的属性(比如是否地名、是否行业名称、网络流行词、词性等，也包括WordId(词的属性))。需要注意的是，某些用户属性、场景属性、字符串属性不一定有明确的含义，而是通过用户、场景、字符串等的聚类得到它们和相应类别的对应，比如，通过用户在地理位置上的距离聚类用户群，而给予每个在该聚类中的每个用户一个相同的标签。

图3示出了图2的步骤S3的具体流程图；参见图3，所述步骤S3包括：

步骤S31，根据所述个人属性信息和所述输入场景信息，计算所述各个候选字在所述个人属性信息和所述输入场景信息中被选中的概率；

步骤S32，得到所述各个候选字的优选概率值。

其中，所述各个候选字在所述个人属性信息和所述输入场景信息中被选中的概率，即计算各种条件概率得到所述个人属性信息和所述输入场景对于字符串(基本字符)属性的影响，例如：

a)计算在某个App下用户群应用某名词的概率可表示为：

b)计算某个职业的用户应用某种行业名称的概率可表示为：

c)计算某个UserId在网络流行词的使用上的概率可表示为：

d)计算某个用户对某个词经常使用的概率可表示为：

需要注意的是，所述个人属性信息和所述输入场景都有可能对字符串(基本字符)属性有影响，也有一些属性没有明确的含义而是通过用户或场景的聚类体现的，比如：

根据所获取的条件概率中可以同时包括不同粒度的属性。比如，可以同时包括：

其中，在上述概率举例中“当前的AppId”是从属于“当前的App所属的类别”，以字符串的属性“字符串为计算机行业名词”作为聚类的话，当前“WordId”也可能从属于这一聚类。我们把后者称作前者的“父特征”，前者为后者的“子特征”。

另外，还可根据所述个人属性信息和所述输入场景信息，对所述各个候选字的优选概率值进行偏好概率分析，计算得到所述各个候选字的偏好概率值。其中，所述在上述概率的基础之上，我们计算每个特征对于用户选择的偏好性。例如：

上述公式中的字符串为地名当前的体现了在当前AppId下字符串为地名相比于字符串不是地名的优势。其它的计算也是类似的，又例如：

中的字符串为医药行业名词用户的职业为医生体现了用户职业为医生的情况下，选择医药行业名称的字符串相比于其它行业名称的优势。

在计算每个属性的优势的基础上，我们在线计算对于一个给定用户，以及给定场景的情况下，一个被选词的优势，即当前用户在当前场景下对于一个字符串的选择偏好性“W(wordId|(UserId,ContextId))”。

首先，针对用户、场景和字符串，我们提取它们可能的属性。比如，WordId有“词的属性1，…,词的属性m”等属性；用户有“用户属性1，…,用户属性n”等属性；场景有“场景属性1，…,场景属性k”等属性。对于每个词的属性，用户属性，场景属性的组合，如果相应的组合在步骤3)中存在，则分别计算如下数字：

W(wordId|(UserId,contextId))_ab＝W(wordId|词的属性a)×W(词的属性a|用户属性b)×W(用户属性b|UserId)

W(wordId|(UserId,contextId))_ac＝W(wordId|词的属性a)×W(词的属性a|场景属性c)×W(场景属性c|ContextId)

这些组合主要分为两类，一类考虑当前词的某个属性，以及该属性和用户属性之间的关系。另一类考虑词的属性和Context属性之间的关系。

另外，注意到我们把“WordId”也作为词的属性的一种，把ContextId作为场景属性的一种，把UserId作为用户属性的一种。这样的处理方法可以把每个用户的选择偏好等因素自动得考虑进来。对于上述步骤中得到的W(wordId|(UserId,contextId))的各个值，综合得到W(wordId|(UserId,contextId))最终的结果，综合方法可以选择分值最高的l个(l为常数)的均值，所有数值的均值，数值的最大值等不同的方法。

在给定拼音串的情况下，若干和该拼音串匹配的字符串被触发出来。对于其中的每个字符串，我们分别计算该字符串对于当前用户和当前场景的选择偏好W(worded|(UserId，Context))。并按照选择偏好从大到小的顺序排序返回给用户。

需要注意的是，上面的做法并没有假设特征之间的IID(independent andidentically distributed，独立同分布)。上面的方法通过对条件概率的利用来计算各个属性间的影响，以及利用属性间的影响的权重来计算用户和场景对于字符串相关性上的影响。利用条件概率的计算方法也可以扩展到Bayes Classification(朴素贝叶斯分类)，Logistic Regression(逻辑回归算法)，Gradient boostedregression tree(推动回归树)等分类方法中，即把用户的每次字符串的选择行为作为训练数据，提取用户属性信息、输入场景信息、基本字符(字符串)等的各种特征，通过分类模型来训练特征对于用户字符串选择的影响。

根据本发明的实施方式，用户UserId1打开手机上地图App输入某些拼音串”beij”的时候，我们首先得到该拼音串所匹配的所有字符串，假如“北京，北江，备机”为所匹配的字符串。我们计算该用户在该场景下针对每个字符串的选择偏好。以“北京”这一字符串为例，我们查看该用户的属性、场景的属性、字符串的属性以及可能的组合中在模型中的所有权重假如用户有“UserId1，职业为计算机行业，性别为男，地域为北京”等属性，场景有“ContextId1，百度地图App，地图类App，手机为Android手机”等属性，字符串有“wordId1，字符串为地名，字符串不是游戏相关”等属性。我们计算所有组合下的权重，当某些组合没有相应的权值的时候，则忽略该组合：

W1＝W(wordId1＝‘北京’|wordId1＝‘北京’)×W(WordId＝‘北京’|UserId＝‘userId1’)×W(UserId＝‘UserId1’|UserId＝‘UserId1’)

W2＝W(wordId1＝‘北京’|字符串为地名)×W(字符串为地名|用户性别为男)×W(用户性别为男|UserId＝‘UserId1’)

W3＝W(wordId1＝‘北京’|字符串为地名)×W(字符串为地名|ContextId＝‘ContextId1’)×W(ContextId＝‘ContextId1’|ContextId＝‘ContextId1’)

W4＝W(wordId1＝‘北京’|字符串为地名)×W(字符串为地名|百度地图App)×W(百度地图App|ContextId＝‘ContextId1’)

W5＝W(wordId1＝‘北京’|字符串为地名)×W(字符串为地名|地图类App)×W(地图类App|ContextId＝‘ContextId1’)

W6＝W(wordId1＝‘北京’|WordId＝‘北京’)×W(WordId＝‘北京’|用户地域为北京)×W(用户地域为北京|UserId＝‘UserId1’)

图4是根据本发明实施方式的候选字排序装置2的架构图；参见图4，所述装置包括：

匹配模块100，用于根据输入的基本字符，生成与所述基本字符匹配的候选字序列；

获取模块200，用于根据所述基本字符的输入地址，获取用户的个人属性信息和文字输入的输入场景信息；以及

优选模块300，用于将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值，并按照所述优选概率值的大小排列和展示所述候选字序列。

通过采用上述装置，可根据识别的输入场景信息和输入设备中对个人属性信息的统计，实现对候选字的优化排序，有效地提高文字输入效率。

图5示出了图4所示的获取模块200的框图；参见图5，所述获取模块200包括：

识别单元210，用于识别所述输入所述基本字符的输入地址；以及

获取单元220，用于获取输入设备中已存储的个人属性信息，以及获取所述输入场景信息。

图6示出了图4所示的优选模块300的框图；参见图6，所述优选模块300包括：

概率分析单元310，用于将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值；以及

优选排序单元320，用于按照所述优选概率值的大小排列和展示所述候选字序列。

其中，所述优选概率分析即计算各种条件概率得到所述个人属性信息和所述输入场景对于字符串(基本字符)属性的影响。

图7示出了图6所示的概率分析单元310的框图；参见图7，所述概率分析单元包括：

优选概率子单元311，用于根据所述个人属性信息和所述输入场景信息，计算所述各个候选字在所述个人属性信息和所述输入场景信息中优选的概率，得到所述各个候选字的优选概率值；以及

偏好概率子单元312，用于根据所述个人属性信息和所述输入场景信息，对所述各个候选字的优选概率值进行偏好概率分析，计算得到所述各个候选字的偏好概率值。

其中，优选概率子单元311中，计算所述各个候选字在所述个人属性信息和所述输入场景信息中被选中的概率，即计算各种条件概率得到所述个人属性信息和所述输入场景对于字符串(基本字符)属性的影响，例如：

a)计算在某个App下用户群应用某名词的概率可表示为：

b)计算某个职业的用户应用某种行业名称的概率可表示为：

c)计算某个UserId在网络流行词的使用上的概率可表示为：

d)计算某个用户对某个词经常使用的概率可表示为：

根据所获取的概率中可以同时包括不同粒度的属性。比如，可以同时包括：

其中，所述偏好概率子单元312是在上述概率的基础之上，计算每个特征对于用户选择的偏好性。例如：

针对用户属性信息、输入场景信息和字符串(字符串)，可提取它们可能的属性。比如，WordId有“词的属性1，…,词的属性m”等属性；用户有“用户属性1，…,用户属性n”等属性；场景有“场景属性1，…,场景属性k”等属性。对于每个词的属性，用户属性，场景属性的组合，如果相应的组合在步骤3)中存在，则分别计算如下数字：

需要注意的是，上面的做法并没有假设特征之间的IID(independent and identically distributed，独立同分布)。上面的方法通过对条件概率的利用来计算各个属性间的影响，以及利用属性间的影响的权重来计算用户和场景对于字符串相关性上的影响。利用条件概率的计算方法也可以扩展到Bayes Classification(朴素贝叶斯分类)，Logistic Regression(逻辑回归算法)，Gradient boosted regression tree(推动回归树)等分类方法中，即把用户的每次字符串的选择行为作为训练数据，提取用户属性信息、输入场景信息、基本字符(字符串)等的各种特征，通过分类模型来训练特征对于用户字符串选择的影响。

图8是根据本发明实施方式的文字输入方法的流程图；参见图8，所述方法包括：

在输入地址内输入基本字符；

按照如上所述的一种候选字排序方法排列和展示所述候选字序列；以及

需要说明的是，其中所述候选字排序方法如上文所述，在此不再赘述。

图9是根据本发明实施方式的文字输入设备的架构图；参见图9，所述设备包括：

输入装置1，用于在输入地址内输入可组成候选字的基本字符；

如上所述的一种候选字排序装置2；以及

选定装置3，用于从所述候选字排序装置所排列和展示所述候选字序列中选定输入的文字，并将所述选定的文字输入到所述输入地址。

需要说明的是，其中所述一种候选字排序装置2如上文所述，在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种候选字排序方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述基本字符的输入地址，获取用户的个人属性信息和文字输入的输入场景信息包括：

识别所述输入地址，获取输入设备中已存储的个人属性信息，以及获取所述输入场景信息。

3.如权利要求1所述的方法，其特征在于，所述将所述各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值包括：

根据所述个人属性信息和所述输入场景信息，计算所述各个候选字在所述个人属性信息和所述输入场景信息中被选中的概率，得到所述各个候选字的优选概率值。

4.如权利要求3所述的方法，其特征在于，所述将所述各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值还包括：

根据所述个人属性信息和所述输入场景信息，对所述各个候选字的优选概率值进行偏好概率分析，计算得到所述各个候选字的偏好概率值。

5.一种候选字排序装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述获取模块包括：

识别单元，用于识别所述输入所述基本字符的输入地址；以及

获取单元，用于获取输入设备中已存储的个人属性信息，以及获取所述输入场景信息。

7.如权利要求5所述的装置，其特征在于，所述优选模块包括：

概率分析单元，用于将所述候选字序列中各个候选字与所述个人属性信息和所述输入场景信息进行优选概率分析，得到所述各个候选字的优选概率值；以及

优选排序单元，用于按照所述优选概率值的大小排列和展示所述候选字序列。

8.如权利要求7所述的装置，其特征在于，所述概率分析单元包括：

优选概率子单元，用于根据所述个人属性信息和所述输入场景信息，计算所述各个候选字在所述个人属性信息和所述输入场景信息中优选的概率，得到所述各个候选字的优选概率值；以及

偏好概率子单元，用于根据所述个人属性信息和所述输入场景信息，对所述各个候选字的优选概率值进行偏好概率分析，计算得到所述各个候选字的偏好概率值。

9.一种文字输入方法，其特征在于，所述方法包括：

在输入地址内输入基本字符；

按照权利要求1至4中任意一项所述的一种候选字排序方法排列和展示所述候选字序列；以及

10.一种文字输入设备，其特征在于，所述设备包括：

如权利要求5至8中任意一项所述的一种候选字排序装置；以及