CN102855291A

CN102855291A - 一种向输入法词库中添加词条的方法及装置

Info

Publication number: CN102855291A
Application number: CN2012102829119A
Authority: CN
Inventors: 栾涛; 侯建新; 连城
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-08-09
Filing date: 2012-08-09
Publication date: 2013-01-02

Abstract

本发明提供了一种向输入法词库中添加词条的方法及装置，其中向输入法词库中添加词条的方法包括：A.获取图片；B.从所述图片中提取未登录词条；C.将所述未登录词条添加到输入法词库中。通过上述方式，本发明能够极大地提高未登录词录入的效率，也能够很好地提高用户体验。

Description

一种向输入法词库中添加词条的方法及装置

【技术领域】

本发明涉及输入法技术，特别涉及一种向输入法词库中添加词条的方法及装置。

【背景技术】

随着电子设备越来越广泛地使用，输入法也成为越来越重要的文字输入工具。输入法是将输入设备（如键盘）上的符号序列所对应的文字录入到电子设备中的重要工具，该工具使用的便利与否，主要表现在用户为了输入想要录入的词条时，对输入设备的敲击次数。

输入法词库中已录入的词条，是影响用户输入时对输入设备敲击次数的关键因素。以拼音输入法为例，如果输入法词库中已有录入词条包含“神马”，则用户敲击“shenma”这一键盘上的序列的时候，输入法的候选词条中就会出现“神马”这一候选项，用户直接选择该候选词条就可完成输入，反之，如果词库中没有这个录入词条，则用户需要分别选取“神”和“马”两个字才能完成录入，这大大增加了输入法在文字输入时的复杂性。

可见，输入法词库中的已有词条对输入便捷性有很大影响，因此输入法词库中的词条应该能够根据用户的需要增加。在现有技术的输入法中，主要是通过用户手工录入未登录词条来增加输入法词库的词汇量的，这种方式操作繁琐，增加了用户的负担，降低了未登录词条的录入效率，此外，以拼音输入法为例，如果用户不知道未登录词条的读音，就很难为输入法词库录入新的词条。

【发明内容】

本发明所要解决的技术问题是提供一种向输入法词库中添加词条的方法及装置，以解决现有技术中无法直接利用图片为输入法词库录入未登录词，从而降低了未登录词录入效率的缺陷。

本发明为解决技术问题而采用的技术方案是提供一种向输入法词库中添加词条的方法，包括：A.获取图片；B.从所述图片中提取未登录词条；C.将所述未登录词条添加到输入法词库中。

根据本发明之一优选实施例，所述步骤A包括：根据用户的截图行为获取所述用户截取的图片；或者，根据用户的拍摄行为获取所述用户拍摄的图片。

根据本发明之一优选实施例，所述步骤B包括：B1.从所述图片中提取文字；B2.对提取的文字进行分词，以确定提取的文字中包含的候选词条；B3.将所述候选词条与输入法词库中的词条进行比对，如果所述候选词条与输入法词库中的词条不匹配，则将所述候选词条作为未登录词条。

根据本发明之一优选实施例，所述步骤B1包括：B11.确定所述图片中的文字区域；B12.识别所述文字区域中的各个文字。

根据本发明之一优选实施例，所述步骤B11中将用户指定区域作为所述图片中的文字区域。

根据本发明之一优选实施例，所述步骤B11包括：对所述图片进行灰度变换；对灰度变换后的图片进行霍夫变换，并在霍夫变换后的图片中确定文字区域。

根据本发明之一优选实施例，所述步骤B12包括：提取所述图片中的文字区域中的各个文字的笔划特征；针对各个文字，将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对，以确定各个文字的识别结果。

根据本发明之一优选实施例，所述笔划特征包括：文字包含的各种类型的笔划的数量及相对位置。

根据本发明之一优选实施例，所述步骤B包括：确定所述图片中的文字区域，并标记所述文字区域供用户从所述文字区域中进行选取；识别用户在所述文字区域选取的文字作为未登录词条。

根据本发明之一优选实施例，所述步骤C包括：根据输入法的类型确定所述未登录词条的输入代码序列，并将所述输入代码序列及所述未登录词条之间的对应关系添加到输入法词库中。

本发明还提供了一种向输入法词库中添加词条的装置，包括：图片捕获单元，用于获取图片；提取单元，用于从所述图片中提取未登录词条；添加单元，用于将所述未登录词条添加到输入法词库中。

根据本发明之一优选实施例，所述图像捕获单元包括：截图单元，用于根据用户的截图行为获取所述用户截取的图片；或者，拍摄单元，用于根据用户的拍摄行为获取所述用户拍摄的图片。

根据本发明之一优选实施例，所述提取单元包括：文字提取单元，用于从所述图片中提取文字；分词单元，用于对提取的文字进行分词，以确定提取的文字中包含的候选词条；词条比对单元，用于将所述候选词条与输入法词库中的词条进行比对，如果所述候选词条与输入法词库中的词条不匹配，则将所述候选词条作为未登录词条。

根据本发明之一优选实施例，所述文字提取单元包括：区域确定单元，用于确定所述图片中的文字区域；识别单元，用于识别所述文字区域中的各个文字。

根据本发明之一优选实施例，所述区域确定单元将用户指定区域作为所述图片中的文字区域。

根据本发明之一优选实施例，所述区域确定单元包括：第一变换单元，用于对所述图片进行灰度变换；第二变换单元，用于对灰度变换后的图片进行霍夫变换，并在霍夫变换后的图片中确定文字区域。

根据本发明之一优选实施例，所述识别单元包括：特征提取单元，用于提取所述图片中的文字区域中的各个文字的笔划特征；特征比对单元，用于针对各个文字，将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对，以确定各个文字的识别结果。

根据本发明之一优选实施例，所述提取单元包括：标记单元，用于确定所述图片中的文字区域，并标记所述文字区域供用户从所述文字区域中进行选取；词条确定单元，用于识别用户在所述文字区域选取的文字作为未登录词条。

根据本发明之一优选实施例，所述添加单元将所述未登录词条添加到输入法词库中的方式包括：根据输入法的类型确定所述未登录词条的输入代码序列，并将所述输入代码序列及所述未登录词条之间的对应关系添加到输入法词库中。

由以上技术方案可以看出，本发明为录入输入法词库的未登录词条提供了一种新途径，即从图片中提取未登录词条并添加到输入法词库中。在这种新途径下，即使是用户不知道读音的未登录词条，用户也可以通过图片的方式将该词条作为新词添加到词库中。本发明能够极大地提高未登录词条录入的效率，也能够很好地提高用户体验。

【附图说明】

图1为本发明中向输入法词库中添加词条的方法的实施例的流程示意图；

图2为本发明中提取未登录词条的一个实施例的流程示意图；

图3为本发明中对获取的图片进行灰度变换之后的实施例的示意图；

图4为本发明中对灰度变换后的图片进行霍夫变换后的实施例的示意图；

图5为本发明中提取未登录词条的另一个实施例的流程示意图；

图6为本发明中向输入法词库中添加词条的装置的实施例的结构示意框图；

图7a为本发明中图片捕获单元的实施例一的结构示意框图；

图7b为本发明中图片捕获单元的实施例二的结构示意框图；

图8为本发明中提取单元的实施例一的结构示意框图；

图9为本发明中文字提取单元的实施例的结构示意框图；

图10为本发明中区域确定单元的实施例的结构示意框图；

图11为本发明中识别单元的实施例的结构示意框图；

图12为本发明中提取单元的实施例二的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中向输入法词库中添加词条的方法的实施例的流程示意图。

如图1所示，该方法包括：

步骤S101：获取图片。

步骤S102：从获取的图片中提取未登录词条。

步骤S103：将未登录词条添加到输入法词库中。

下面对上述步骤进行详细说明。

步骤S101中获取图片，可以有多种方式，其中一种方式是根据用户的截图行为获取用户截取的图片，作为本发明后续待处理的图片。例如，用户在互联网上浏览时，对感兴趣的内容采取截屏的方式进行截取，用户的这种行为将触发本发明的方法在步骤S101中获取用户截取的图片。

此外，步骤S101中，还可以根据用户的拍摄行为获取用户拍摄的图片。例如，用户通过摄像头或移动设备的拍摄镜头等，对自己感兴趣的地方进行拍摄，这种行为将触发本发明的方法在步骤S101中获取用户拍摄的图片作为后续待处理的图片。

请参考图2，图2为本发明中提取未登录词条的一个实施例的流程示意图。如图2所示，步骤S 102包括：

步骤S1021：从图片中提取文字。

步骤S1022：对提取的文字进行分词，以确定提取的文字中包含的候选词条。

步骤S1023：将候选词条与输入法词库中的词条进行比对，如果候选词条与输入法词库中的词条不匹配，则将候选词条作为未登录词条。

其中，步骤S1021具体包括：

步骤S1021_1：确定图片中的文字区域。

步骤S1021_2：识别文字区域中的各个文字。

确定图片中的文字区域可以有多种方法，作为本发明中的一种实施方式，可以根据用户的选定动作来确定图片中哪块区域属于文字区域。例如将用户指定区域作为文字区域。如用户使用移动设备拍摄了一张图片，并在该图片上划定了一个区域并触发该区域提交，则本发明在步骤S1021_1中会将用户划定的这一区域作为文字区域。这种方式下，如果图片上存在一片文本，用户想要从中提取多个未登录词时，可以在该图片上选定一片包含连续文本的区域，而如果用户仅仅想提取个别未登录词，也可以直接在该图片上选定某个词语，本发明无论用户的操作是什么，后续都能自动将图片中的未登录词添加到输入法的词库中。

作为另一种实施方式，步骤S1021_1中也可以自动地确定图片中的文字区域，具体地，该实施例中步骤S1021_1包括以下步骤：

步骤S1021_11：对步骤S 101中获取的图片进行灰度变换；

步骤S1021_12：对灰度变换后的图片进行霍夫变换，在霍夫变换后的图片中确定文字区域。

请参考图3和图4，图3为本发明中对获取的图片进行灰度变换之后的实施例的示意图，图4为本发明中对灰度变换后的图片进行霍夫变换后的实施例的示意图。

对图片进行灰度变换是图像处理中的常用手段，目的是改善画质，使图像的显示效果更加清晰。霍夫变换是图像处理中从图像里识别几何形状的基本方法之一，从图4中可以看出，经过霍夫变换的图片中能够确定出文字的轮廓，而原图片背景中的不相关图形则被过滤掉了。

步骤S1021_2中识别文字区域中的各个文字，可以采用各种现有的OCR（Optical Character Recognition，光学字符识别）技术实现，此外，本发明给出了一种实施方式，在该实施方式中，步骤S1021_2包括：

步骤S1021_21：提取图片中的文字区域中的各个文字的笔划特征。

步骤S1021_22：针对各个文字，将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对，以确定各个文字的识别结果。

其中，文字与特征之间的映射库是预先对大量文字进行特征提取后建立的。在该映射库中，每个文字与该文字对应的笔划特征之间建立了关联关系。在步骤S1021_21中对待识别的每个文字提取笔划特征，并在步骤S1021_22中将该文字的笔划特征与映射库中的特征进行比对，比对上的特征所对应的文字，就是待识别文字的识别结果。

上述文字的笔划特征，指的是文字包含的各种类型的笔划的数量及相对位置。笔划的类型包括“横”、“竖”、“撇”、“捺”等。例如文字“三”的笔划特征就包括了“横”的数量为三，且三个“横”的位置从上至下依次排列。

请参考图5，图5为本发明中提取未登录词条的另一个实施例的流程示意图。如图5所示，步骤S102包括：

步骤S102a：确定图片中的文字区域，并标记该文字区域供用户从该文字区域中进行选取。

步骤S102b：识别用户在该文字区域选取的文字作为未登录词条。

在本实施例中，步骤S102a中确定图片中的文字区域，可以采用与步骤S1021_1类似的方法，并且，步骤S102b中识别用户在该文字区域选取的文字，也可采用与步骤S1021_2类似的方法。本实施例，当步骤S101中一旦获取到图片，就可以触发步骤S102a标记该图片中的文字区域供用户选取，当用户选定其中的文字后，步骤S102b会将该文字的识别结果作为未登录词条。这种方式有利于改善用户体验，并且，这种方式得到的未登录词条更符合用户的需要，准确度更高。

本发明方法在步骤S102中得到未登录词条后，在步骤S103中，将根据输入法的类型确定未登录词条的输入代码序列，并将输入代码序列及未登录词条之间的对应关系添加到输入法词库中。可以理解，输入法的功能，就是根据输入代码序列，产生与输入代码序列一致的文字序列供用户选择。因此，词条在输入法词库中保存的形式就是输入代码序列与词条之间的关联关系。以汉语输入法为例，输入法的类型包括拼音输入法、五笔输入法等等。以拼音输入法为例，假设未登录词条为“你好”，则步骤S103中通过查找预设的词典，可以确定其对应的输入代码序列是“nihao”，并将未登录词条“你好”及“nihao”之间的对应关系添加到输入法词库中。

请参考图6，图6为本发明中向输入法词库中添加词条的装置的实施例的结构示意框图。如图6所示，该装置包括：图片捕获单元201、提取单元202及添加单元203。

其中图片捕获单元201，用于获取图片。提取单元202，用于从获取的图片中提取未登录词条。添加单元203，用于将未登录词条添加到输入法词库中。

请参考图7a和图7b，图7a和图7b分别为本发明中图片捕获单元的两个实施例的结构示意框图。如图7a所示，图片捕获单元201包括截图单元2011，其中截图单元2011用于根据用户的截图行为获取用户截取的图片，作为本发明后续待处理的图片。如图7b所示，图片捕获单元201包括拍摄单元2012，其中拍摄单元2012用于根据用户的拍摄行为获取用户拍摄的图片，作为本发明后续待处理的图片。

请参考图8，图8为本发明中提取单元的实施例一的结构示意框图。如图8所示，提取单元202包括：文字提取单元2021、分词单元2022及词条比对单元2023。

其中文字提取单元2021，用于从图像捕获单元201获取的图片中提取文字。分词单元2022，用于对提取的文字进行分词，以确定提取的文字中包含的候选词条。词条比对单元2023，用于将候选词条与输入法词库中的词条进行比对，如果候选词条与输入法词库中的词条不匹配，则将候选词条作为未登录词条。

请参考图9，图9为本发明中文字提取单元的实施例的结构示意框图。如图9所示，文字提取单元2021包括：区域确定单元2021_1及识别单元2021_2。

其中区域确定单元2021_1，用于确定图片中的文字区域。识别单元2021_2，用于识别文字区域中的各个文字。

作为一种实施方式，区域确定单元2021_1将用户指定区域作为文字区域。如用户使用移动设备拍摄了一张图片，并在该图片上划定了一个区域并触发该区域提交，则区域确定单元2021_1会将用户划定的这一区域作为文字区域。这种方式下，如果图片上存在一片文本，用户想要从中提取多个未登录词时，可以在该图片上选定一片包含连续文本的区域，而如果用户仅仅想提取个别未登录词，也可以直接在该图片上选定某个词语，本装置无论用户的操作是什么，后续都能自动将图片中的未登录词添加到输入法的词库中。

作为另一种实施方式，请参考图10，图10为本发明中区域确定单元的实施例的结构示意框图。如图10所示，区域确定单元2021_1包括第一变换单元2021_11和第二变换单元2021_12。

其中第一变换单元2021_11，用于对图片捕获单元201捕获的图片进行灰度变换。第二变换单元2021_12，用于对灰度变换后的图片进行霍夫变换，并在霍夫变换后的图片中确定文字区域。

作为一种实施方式，识别单元2021_2识别文字区域中的各个文字，可以采用各种现有的OCR技术。作为另一种实施方式，请参考图11，图11为本发明中识别单元的实施例的结构示意框图。如图11所示，识别单元2021_2包括：特征提取单元2021_21，用于提取图片中的文字区域中的各个文字的笔划特征。特征比对单元2021_22，用于针对各个文字，将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对，以确定各个文字的识别结果。

其中，文字与特征之间的映射库是预先对大量文字进行特征提取后建立的。在该特征库中，每个文字与该文字对应的笔划特征之间建立了关联关系。上述笔划特征，指的是文字包含的各种类型的笔划的数量及相对位置。笔划的类型包括“横”、“竖”、“撇”、“捺”等。例如文字“三”的笔划特征就包括了“横”的数量为三，且三个“横”的位置从上至下依次排列。

请参考图12，图12为本发明中提取单元的实施例二的结构示意框图。如图12所示，提取单元202包括标记单元202a和词条确定单元202b。

其中标记单元202a，用于确定图片中的文字区域，并标记该文字区域供用户从该文字区域中进行选取。词条确定单元202b，用于识别用户在该文字区域选取的文字作为未登录词条。在本实施例中，标记单元202a确定图片中的文字区域的方式与区域确定单元2021_1确定文字区域的方式类似，词条确定单元202b识别文字的方式与识别单元2021_2识别文字的方式类似。本实施例的提取单元202有利于改善用户体验，并且，这种方式得到的未登录词条更符合用户的需要，准确度更高。

在本发明的装置中，添加单元203将未登录词条添加到输入法词库中的方式具体包括：根据输入法的类型确定未登录词条的输入代码序列，并将该输入代码序列及未登录词条之间的对应关系添加到输入法词库中。

可以理解，输入法的功能，就是根据输入代码序列，产生与输入代码序列一致的文字序列供用户选择。因此，词条在输入法词库中保存的形式就是输入代码序列与词条之间的关联关系。以汉语输入法为例，输入法的类型包括拼音输入法、五笔输入法等等。以拼音输入法为例，假设未登录词条为“你好”，则添加单元203通过查找预设的词典，可以确定其对应的输入代码序列是“nihao”，并将未登录词条“你好”及“nihao”之间的对应关系添加到输入法词库中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种向输入法词库中添加词条的方法，包括：

A.获取图片；

B.从所述图片中提取未登录词条；

C.将所述未登录词条添加到输入法词库中。

2.根据权利要求1所述的方法，其特征在于，所述步骤A包括：

根据用户的截图行为获取所述用户截取的图片；或者，

根据用户的拍摄行为获取所述用户拍摄的图片。

3.根据权利要求1所述的方法，其特征在于，所述步骤B包括：

B1.从所述图片中提取文字；

B2.对提取的文字进行分词，以确定提取的文字中包含的候选词条；

B3.将所述候选词条与输入法词库中的词条进行比对，如果所述候选词条与输入法词库中的词条不匹配，则将所述候选词条作为未登录词条。

4.根据权利要求3所述的方法，其特征在于，所述步骤B1包括：

B11.确定所述图片中的文字区域；

B12.识别所述文字区域中的各个文字。

5.根据权利要求4所述的方法，其特征在于，所述步骤B11中将用户指定区域作为所述图片中的文字区域。

6.根据权利要求4所述的方法，其特征在于，所述步骤B11包括：

对所述图片进行灰度变换；

对灰度变换后的图片进行霍夫变换，并在霍夫变换后的图片中确定文字区域。

7.根据权利要求4所述的方法，其特征在于，所述步骤B12包括：

提取所述图片中的文字区域中的各个文字的笔划特征；

针对各个文字，将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对，以确定各个文字的识别结果。

8.根据权利要求7所述的方法，其特征在于，所述笔划特征包括：文字包含的各种类型的笔划的数量及相对位置。

9.根据权利要求1所述的方法，其特征在于，所述步骤B包括：

确定所述图片中的文字区域，并标记所述文字区域供用户从所述文字区域中进行选取；

识别用户在所述文字区域选取的文字作为未登录词条。

10.根据权利要求1所述的方法，其特征在于，所述步骤C包括：

根据输入法的类型确定所述未登录词条的输入代码序列，并将所述输入代码序列及所述未登录词条之间的对应关系添加到输入法词库中。

11.一种向输入法词库中添加词条的装置，包括：

图片捕获单元，用于获取图片；

提取单元，用于从所述图片中提取未登录词条；

添加单元，用于将所述未登录词条添加到输入法词库中。

12.根据权利要求11所述的装置，其特征在于，所述图像捕获单元包括：

截图单元，用于根据用户的截图行为获取所述用户截取的图片；或者，

拍摄单元，用于根据用户的拍摄行为获取所述用户拍摄的图片。

13.根据权利要求11所述的装置，其特征在于，所述提取单元包括：

文字提取单元，用于从所述图片中提取文字；

分词单元，用于对提取的文字进行分词，以确定提取的文字中包含的候选词条；

词条比对单元，用于将所述候选词条与输入法词库中的词条进行比对，如果所述候选词条与输入法词库中的词条不匹配，则将所述候选词条作为未登录词条。

14.根据权利要求13所述的装置，其特征在于，所述文字提取单元包括：

区域确定单元，用于确定所述图片中的文字区域；

识别单元，用于识别所述文字区域中的各个文字。

15.根据权利要求14所述的装置，其特征在于，所述区域确定单元将用户指定区域作为所述图片中的文字区域。

16.根据权利要求14所述的装置，其特征在于，所述区域确定单元包括：

第一变换单元，用于对所述图片进行灰度变换；

第二变换单元，用于对灰度变换后的图片进行霍夫变换，并在霍夫变换后的图片中确定文字区域。

17.根据权利要求14所述的装置，其特征在于，所述识别单元包括：

特征提取单元，用于提取所述图片中的文字区域中的各个文字的笔划特征；

特征比对单元，用于针对各个文字，将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对，以确定各个文字的识别结果。

18.根据权利要求17所述的装置，其特征在于，所述笔划特征包括：文字包含的各种类型的笔划的数量及相对位置。

19.根据权利要求11所述的装置，其特征在于，所述提取单元包括：

标记单元，用于确定所述图片中的文字区域，并标记所述文字区域供用户从所述文字区域中进行选取；

词条确定单元，用于识别用户在所述文字区域选取的文字作为未登录词条。

20.根据权利要求11所述的装置，其特征在于，所述添加单元将所述未登录词条添加到输入法词库中的方式包括：