CN103077213A

CN103077213A - 一种应用于机顶盒的输入方法及其装置

Info

Publication number: CN103077213A
Application number: CN2012105855929A
Authority: CN
Inventors: 王佳; 罗笑南; 孟思明; 陈湘萍
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2013-05-01

Abstract

本发明实施例公开了一种应用于机顶盒的输入方法及其装置，其中，该方法包括：输入机顶盒用户的输入指令对应的拼音串；将所述拼音串切分为多个词组对应的拼音串；根据切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组；获取各个汉字词组的组合概率，并输出组合概率最高的汉字词组组合。实施本发明实施例，通过对机顶盒用户输入内容的检测记忆，使机顶盒能够智能获取用户想要输入的内容；通过每次记录用户的使用频率来提高输入的准确性，提高了词库的搜索效率，降低了计算复杂度，提高了机顶盒的输入性能。

Description

一种应用于机顶盒的输入方法及其装置

技术领域

本发明涉及机顶盒技术领域，尤其涉及一种应用于机顶盒的输入方法及其装置。

背景技术

随着嵌入式系统在家电、娱乐、通信等领域的应用不断发展，嵌入式系统越来越需要一个界面友好、支持中文的图形系统。目前在嵌入式系统中广泛使用的图形系统对中文显示已有很好的支持，但都不支持中文的输入，因此中文输入法在嵌入式图形系统中的实现，对于嵌入式相关产品的应用具有极强的现实意义。

中文的拼音输入法是自然语言的计算机处理学科的一个分支。从自然语言的角度，汉语是一种词语丰富，格式自由的语言，而拼音类型相对比较少，因此单个或几个拼音单元能匹配到的汉字词组往往有很多，而且词长度的组合也会有多种，这些因素大大增加了中文输入法的计算复杂度。在嵌入式系统下实现中文输入主要涉及两个方面：汉字显示和中文输入。汉字显示特别是点阵汉字的显示相对简单，许多嵌入式系统已经支持，满足了大部分应用的需求，输入法一般都要支持一、二级常用汉字的输入，一些简单的系统只实现一级汉字的输入。词组联想功能则可根据需要决定是否实现，即使要实现，往往也是对一级汉字实现词组联想。

与个人计算机（Personal Computer，PC）相比，机顶盒的中央处理器（CentralProcessing Unit，CPU）速度有限；而与字词级别的输入相比，整句输入需要占用更多的CPU线程，因此高效的查找算法对于系统的性能至关重要。当前常用的查找算法基于词库的宽带为N的倒序查找算法。

若词库文件正序排列，则整句输入时用户每输入一个字的编码后，都需要在词库中查找多次，观察是否有满足条件的词。以编码长度L en为3为例，若输入序列为“042，68*，337，50*，076，707，317，8*”，期望输出序列是“他是该事的见证人”。当前用户输入编码为“503”中的“3”时，需要去词库中分别定位以编码“042”、“68*”、“337”、“50*”开头的词,然后在其定位的位置查找编码为“042，68*，337，50*”,“68*，337，50*”和“337，50*”,“50*”的词，这样需要查找字词库文件四次。实际上，输入序列越长，定位、查找词库的次数越多。

现有技术存在以下缺陷：传统的编码结构设计与现有技术中输入方法的结构设计不同，在使用现有输入方法时通过需要重新设计文件索引结构，词库文件结构；传统设计不能有效快速匹配从词库搜索到的整句，不利于提高搜索效率。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种应用于机顶盒的输入方法及其装置，提高了词库的搜索效率，降低了计算复杂度，提高了机顶盒的输入性能。

为了解决上述问题，本发明提出了一种应用于机顶盒的输入方法，所述方法包括：

输入机顶盒用户的输入指令对应的拼音串；

将所述拼音串切分为多个词组对应的拼音串；

根据切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组；

获取各个汉字词组的组合概率，并输出组合概率最高的汉字词组组合。

优选地，所述根据切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组的步骤包括：

在切分完的拼音串上选择汉字词组；

获取各个汉字词组对应的概率；

根据所获得的概率选择确认的汉字词组，组成新的汉字词组。

优选地，在所述获取各个汉字词组的组合概率的步骤之前还包括：在新的汉字词组后面添加后续词组形成组合的汉字词组，并根据新的汉字词组的概率及后续词组的概率获得组合的汉字词组的组合概率。

优选地，所述方法还包括：保存组合的汉字词组的组合概率。

优选地，所述在新的汉字词组后面添加后续词组形成组合的汉字词组的步骤具体是：在新的汉字词组后面添加不同的后续词组形成不同组合的汉字词组。

相应地，本发明实施例还提供一种应用于机顶盒的输入装置，所述装置包括：

输入模块，用于输入机顶盒用户的输入指令对应的拼音串；

切分模块，用于将所述输入模块所输入的拼音串切分为多个词组对应的拼音串；

匹配模块，用于根据所述切分模块切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组；

输出模块，用于获取各个汉字词组的组合概率，并输出组合概率最高的汉字词组组合。

优选地，所述匹配模块包括：

选择单元，用于在切分完的拼音串上选择汉字词组；

概率获取单元，用于获取各个汉字词组对应的概率；

组成单元，用于根据所获得的概率选择确认的汉字词组，组成新的汉字词组。

优选地，所述装置还包括添加模块，用于在新的汉字词组后面添加后续词组形成组合的汉字词组，并根据新的汉字词组的概率及后续词组的概率获得组合的汉字词组的组合概率。

优选地，所述装置还包括保存模块，用于保存组合的汉字词组的组合概率。

优选地，所述添加模块还用于在新的汉字词组后面添加不同的后续词组形成不同组合的汉字词组。

实施本发明实施例，通过对机顶盒用户输入内容的检测记忆，使机顶盒能够智能获取用户想要输入的内容；通过每次记录用户的使用频率来提高输入的准确性，提高了词库的搜索效率，降低了计算复杂度，提高了机顶盒的输入性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的应用于机顶盒的输入方法的流程示意图；

图2是本发明实施例的应用于机顶盒的输入装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的应用于机顶盒的输入方法的流程示意图，如图1所示，该方法包括：

S101，输入机顶盒用户的输入指令对应的拼音串；

S102，将拼音串切分为多个词组对应的拼音串；

S103，根据切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组；

S104，获取各个汉字词组的组合概率，并输出组合概率最高的汉字词组组合。

具体实施中，S103包括：

在切分完的拼音串上选择汉字词组；

获取各个汉字词组对应的概率；

在所述获取各个汉字词组的组合概率的步骤之前还包括：在新的汉字词组后面添加后续词组形成组合的汉字词组，并根据新的汉字词组的概率及后续词组的概率获得组合的汉字词组的组合概率；具体实施中，可以在新的汉字词组后面添加不同的后续词组形成不同组合的汉字词组。

进一步的，该方法还包括：保存组合的汉字词组的组合概率。

在本发明实施例中，对于拼音整句翻译主要包括拼音串切分和词组匹配。一句拼音串中包含多个词组，通常汉字词组是多种多样的，如果长度为三的拼音串，可能是由一个一字词组和一个两字词组组成（下面简称为1-2组合，其他也类似），也有可能2-1组合，也有可能1-1-1组合或3组合，随拼音串长度的增加，组合方案的个数迅速增加；词组匹配的任务是在切分好的拼音串上选择汉字词组，计算这种汉字词组组合方案的总概率，选择总概率最高的作为最终输出（这里的概率为普通概率即普通个体与总体之比，句子切分为依次暴力切分的组合）。

可见，如果是15字的拼音串，在理论上可以有上亿种输出可能。而中文输入法作为应用工具，对响应速度也有比较高的要求，“查全率”和“速度”是一个相互制约的指标，这就要求输入方法在一定的“查全率”的基础上，通过提高匹配效率提高“速度”。

在本发明实施例中，句子是由汉字词组（片段）组成的，一个片段加上一个词组后组合成一个更大的片段，直到加上最后一个词组后,组合成了一个句子。

在实施过程中，假设一，组合概率函数是相对词组的组合概率是严格单调的，即如果f＝G(n,a)，其中，n是片段，a是追加词组，有两个候选词组a1和a2，如a1>a2，则f1必然大于f2，而且在最终的组合中F1也必然大于F2。这个假设在常用句型中是通常是成立的。假设二，汉语句子是马尔可夫一次相关的，即一个词组的组合概率只和与它相邻部分有关。从这个假设出发，一个片段加上一个词组的概率可以由片段的概率和这个词组的概率计算得到，而与片段内部无关。根据以上两点假设，一个片段可以由于加上的词组不同，而组成不同的组合方式，但这个片段的固有概率在不同的组合方式中是相同的，可以被重复使用的。所以,，可以从句首组合小的片段，并把计算得到的该片段概率储存起来；而后，尝试添加一个后续词组，选择最大概率的组合作为到达这个位置的新片段，并储存这个概率。由于到达该点的最后一个词组的长度可以不一样，所以到达该点的片段也是多个的，它们的概率被分别储存；如此类推，直到匹配到句尾，有最终最大总概率的片段就是最终的输出。（此处假设为考虑大部分情况忽略少数特殊的个例，不影响算法准确性）

字库在匹配时与用户输入的拼音进行比对，提供的各种参数，具体实施中，可通过下面的代码对一个字库数据区结构进行定义：

Struct element{Int Len Word;//词组的字长

String pinyinStr;//拼音串

String Hanzi;//汉字词组

Int freq;//词组频度

Int offset;//到转移矩阵的偏移}

为存储匹配过程中各片段的概率，再建立如下数组（以下简称为匹配数组）：

Struct Pianduan{Wchar HzWord;//该片段最后一个一字词组

Int SubPro1;//包含该词组的片段最高的概率

Int perLink1;//指向该最高概率片段中,前一个词组

.....//相应的二三字词组

Wchar HzWord4[4];//该片段最后一个四字词组

Int SubPro4;//包含该词组的片段最高的概率

Int perLink4;//指向该最高概率片段中,前一个词组

String HzWordM;//包含该词组的片段最高的概率

Int HzWordML;//多字词组的字长

Int SubProM;//包含该词组的片段最高的概率

Int perLinkM;//指向该最高概率片段中,前一个词组}

另外，可通过以下代码实现匹配的过程，包括：预查、比对和输出。

对拼音串做预查,列出可能出现的不同长度的词组;并预先填写HzWordn及HzWordML项（n代表1..4和M）；所有perLinkn和SubProl预填0;

下面通过一个具体的实例对本发明的应用于机顶盒的输入方法进行详细说明。下面是本发明实施例方法实施过程中的一个时刻数组匹配实例。

如果输入的拼音串是“wo shi zhong guo ren minjie fang jun”（我是中国人民解放军），其实施过程各表项内容如表1所示：

表1匹配数组表

从实例中可以看到，这时的Point=3（“zhong”），如组合“中国人”，它有两个子片段可以选择，“...是”或“...卧室”，比较两者的概率并保留概率高者，再尝试组合“中国”，同样它也有两个片段可以选择，“...是”或“...卧室”，也以此类推，完成从句首到句尾每个词组的评估，最后选择总概率最高的一种组合作为最终输出。

在本发明实施例中，如果设句子的长度为m，而词组的总平均长度为n，这个计算过程中总的复杂度为O(m*n^2)。通常，平均15字的拼音串需要比对200到300次，相对于上亿种组合可能，比对次数大大减少了，而它的正确性由于组合概率的严格单调性，在通常情况下并没有下降，这也提高了输入的有效性。

实施本发明实施例的应用于机顶盒的输入方法，通过对机顶盒用户输入内容的检测记忆，使机顶盒能够智能获取用户想要输入的内容；通过每次记录用户的使用频率来提高输入的准确性，提高了词库的搜索效率，降低了计算复杂度，提高了机顶盒的输入性能。

另外，本发明实施例还提供一种应用于机顶盒的输入装置，如图2所示，该装置包括：

输入模块1，用于输入机顶盒用户的输入指令对应的拼音串；

切分模块2，用于将输入模块1所输入的拼音串切分为多个词组对应的拼音串；

匹配模块3，用于根据切分模块2切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组；

输出模块4，用于获取各个汉字词组的组合概率，并输出组合概率最高的汉字词组组合。

具体实施中，匹配模块3包括：

选择单元，用于在切分完的拼音串上选择汉字词组；

概率获取单元，用于获取各个汉字词组对应的概率；

进一步地，该输入装置还包括添加模块（图中未示出），用于在新的汉字词组后面添加后续词组形成组合的汉字词组，并根据新的汉字词组的概率及后续词组的概率获得组合的汉字词组的组合概率，具体实施中，在新的汉字词组后面添加不同的后续词组形成不同组合的汉字词组。

另外，该输入装置还包括保存模块（图中未示出），用于保存组合的汉字词组的组合概率。

在本发明实施例中，应用于机顶盒的输入装置的各模块及单元功能的实现过程及原理可参见本发明的应用于机顶盒的输入方法的过程原理描述，这里不再赘述。

实施本发明实施例的应用于机顶盒的输入装置，通过对机顶盒用户输入内容的检测记忆，使机顶盒能够智能获取用户想要输入的内容；通过每次记录用户的使用频率来提高输入的准确性，提高了词库的搜索效率，降低了计算复杂度，提高了机顶盒的输入性能。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁盘或光盘等。

另外，以上对本发明实施例所提供的应用于机顶盒的输入方法及其装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种应用于机顶盒的输入方法，其特征在于，所述方法包括：

输入机顶盒用户的输入指令对应的拼音串；

将所述拼音串切分为多个词组对应的拼音串；

2.如权利要求1所述的应用于机顶盒的输入方法，其特征在于，所述根据切分完的多个拼音串进行词组匹配，获得多个拼音串对应的汉字词组的步骤包括：

在切分完的拼音串上选择汉字词组；

获取各个汉字词组对应的概率；

3.如权利要求2所述的应用于机顶盒的输入方法，其特征在于，在所述获取各个汉字词组的组合概率的步骤之前还包括：在新的汉字词组后面添加后续词组形成组合的汉字词组，并根据新的汉字词组的概率及后续词组的概率获得组合的汉字词组的组合概率。

4.如权利要求3所述的应用于机顶盒的输入方法，其特征在于，所述方法还包括：保存组合的汉字词组的组合概率。

5.如权利要求3所述的应用于机顶盒的输入方法，其特征在于，所述在新的汉字词组后面添加后续词组形成组合的汉字词组的步骤具体是：在新的汉字词组后面添加不同的后续词组形成不同组合的汉字词组。

6.一种应用于机顶盒的输入装置，其特征在于，所述装置包括：

输入模块，用于输入机顶盒用户的输入指令对应的拼音串；

7.如权利要求6所述的应用于机顶盒的输入装置，其特征在于，所述匹配模块包括：

选择单元，用于在切分完的拼音串上选择汉字词组；

概率获取单元，用于获取各个汉字词组对应的概率；

8.如权利要求7所述的应用于机顶盒的输入装置，其特征在于，所述装置还包括添加模块，用于在新的汉字词组后面添加后续词组形成组合的汉字词组，并根据新的汉字词组的概率及后续词组的概率获得组合的汉字词组的组合概率。

9.如权利要求8所述的应用于机顶盒的输入装置，其特征在于，所述装置还包括保存模块，用于保存组合的汉字词组的组合概率。

10.如权利要求8所述的应用于机顶盒的输入装置，其特征在于，所述添加模块还用于在新的汉字词组后面添加不同的后续词组形成不同组合的汉字词组。