CN101388011B

CN101388011B - 一种向用户词库中记录信息的方法和装置

Info

Publication number: CN101388011B
Application number: CN2007101217557A
Authority: CN
Inventors: 杨磊
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2007-09-13
Filing date: 2007-09-13
Publication date: 2011-07-20
Anticipated expiration: 2027-09-13
Also published as: CN101388011A

Abstract

本发明提供了一种向用户词库中记录信息的方法和装置，该方法包括：预置用户词库的记录格式，将每个字词的属性信息存储空间划分为多个子空间，用于记录该字词在不同类别下的属性信息；当用户利用输入法系统进行字符输入时，依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别；将该用户在当前类别下所输入的字词及相应的属性信息记录至用户词库中。本发明创新性的提出，将用户的输入习惯信息(例如，输入字词及其词频等)分环境记录至用户词库中，从而可以更好的更准确的记录用户的输入习惯。进而，当采用本发明的用户词库进行输入时，可以动态的与用户输入环境或者输入内容相匹配，大大提高用户输入过程中首选词准确率。

Description

一种向用户词库中记录信息的方法和装置

技术领域

本发明涉及计算机字符输入技术领域，特别是涉及一种向用户词库中记录信息的方法和装置，一种用户词库以及利用该用户词库进行字符输入的方法和系统。

背景技术

随着计算机技术以及互联网技术的普及与发展，输入法已经成为用户与计算机交互的重要手段，不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。

现有技术一般通过提高系统词库中的词条的更新程度以及词频信息的准确度，来提高用户向计算机完成字符输入时的效率——可以通过首选词的准确率进行评价。例如，申请号为200610086577.4，名称为“基于互联网信息的输入法词频库的生成方法和系统”的中国专利就公开了这样的一种提高系统词库性能的技术方案。

但是由于系统词库是相对固定的，针对每一个用户而言，难以达到精确匹配；为了增强个性化的输入效率，现有技术提出了用户词库的解决方案。用户词库的形成方法通常包括以下步骤：记录用户输入的字词，学习某个用户适用的词汇；通过一段时间地不断学习，将词库逐渐收敛到某个用户输入的最佳状态，从而形成用户词库。显然，这种用户词库的形成过程可以在一定程度上调整候选项的排序，使其逐渐适应该用户，从而提高输入效率，但是对于同一个词，在不同的输入环境下，即使同一用户也可能需要不同的候选项排序。例如，对于“语料”和“预料”，在日常输入中，用户输入“预料”一词的情况较高，在系统词库和用户词库中都是“预料”的词频或者排序要高于“语料”；但是当该用户在输入专业文档时(例如，语言分析相关专业)，则就期望“语料”候选项排序在前，而无论系统词库还是用户词库仍然会按照通常的排序输出，无法随着用户输入需求的变化而变化。

因此，现阶段需要本领域技术人员迫切解决的一个技术问题就是，如何改变现有输入法系统的智能性不高的现状，提供一种能够动态的与用户输入环境或者输入内容相匹配，大大提高用户输入过程中首选词准确率的输入法解决方案。

发明内容

本发明所要解决的技术问题是提供一种向用户词库中记录信息的方法和装置，以及一种用户词库，能够方便快捷的记录用户输入字词的分环境信息，从而提供更加适应该用户输入习惯的用户词库。

相应的，本发明还提供了一种利用上述用户词库完成字符输入的方法和系统，能够动态的与用户输入环境或者输入内容相匹配，大大提高用户输入过程中首选词准确率。

为了解决上述问题，依据本发明的实施例，本发明公开了一种向用户词库中记录信息的方法，具体可以包括：预置用户词库的记录格式，将每个字词的属性信息存储空间划分为多个子空间，用于记录该字词在不同类别下的属性信息；所述属性信息至少包括词频信息；当用户利用输入法系统进行字符输入时，依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别；将该用户在当前类别下所输入的字词及相应的属性信息记录至用户词库中。

优选的，该方法还可以包括：汇集一字词在各个类别下的属性信息并进行处理，得到针对该字词的通用属性信息。

优选的，该方法还可以包括：动态调整对所述子空间的划分。

优选的，该方法还可以包括：通过用户选择的方式确定当前输入类别。

进一步，可以通过以下步骤确定该用户的当前输入类别：预置对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称中的至少一个；根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

如果所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则通过对所述文本数据进行分析，确定该用户的当前输入类别。

优选的，可以通过以下方式获取用户在当前输入环境中所涉及的文本数据：通过相应的系统函数获取剪贴板中的数据；或者，通过相应的系统函数获取当前应用程序所操作的文件名称及其路径，进而扫描获取该文件的内容数据；或者，通过相应的系统函数获取当前应用程序向屏幕输出的数据；或者，通过网页浏览器的接口对象，获取当前页面的内容数据。

优选的，当所确定的当前输入类别为多个时，则将词频信息同时记录至多个相应子空间或者分权重记录至多个相应子空间。

依据本发明的实施例，还公开了一种向用户词库中记录信息的装置，包括：

用户词库，所述用户词库中每个字词的属性信息存储空间由多个子空间构成，用于存储该字词在不同类别下的属性信息；所述属性信息至少包括词频信息；

类别确定模块，用于当用户利用输入法系统进行字符输入时，依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别；

记录模块，用于将该用户在当前类别下所输入的字词及相应的属性信息记录至用户词库中。

优选的，所述的装置还可以包括：汇集处理模块，用于汇集一字词在各个类别下的属性信息并进行处理，得到针对该字词的通用属性信息。

优选的，所述的装置还可以包括：类别调整模块，用于动态调整对所述子空间的划分。其中，所述类别确定模块进一步可以包括：对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称中的至少一个；查找匹配子模块，用于根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

如果所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则所述类别确定模块通过对所述文本数据进行分析，确定该用户的当前输入类别。

依据本发明的另一实施例，还公开了一种字符输入的方法，具体可以包括以下步骤：加载系统词库和用户词库，所述用户词库中针对每个字词的属性信息存储空间由多个子空间构成，用于记录该字词在不同输入类别下的属性信息；所述属性信息包括词频信息；采集用户当前输入环境的相关信息，确定该用户的当前输入类别；接收用户的输入信息；依据所接收的输入信息，在系统词库和用户词库中进行检索，得到相应的候选项；依据系统词库中的通用属性信息以及用户词库中当前输入类别的属性信息，对所述候选项进行排序并显示；接收用户的选择信息，输出指定的候选项。

如果所述当前输入环境的相关信息包括该用户在一输入环境下的输入历史文本数据；则，通过分析该输入历史文本数据，确定用户当前输入类别。

优选的，所述的方法还可以包括：通过用户选择的方式确定当前输入类别。

如果所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则通过对所述文本数据进行分析，确定该用户的当前输入类别。其中，可以通过以下方式获取用户在当前输入环境中所涉及的文本数据：通过相应的系统函数获取剪贴板中的数据；或者，通过相应的系统函数获取当前应用程序所操作的文件名称及其路径，进而扫描获取该文件的内容数据；或者，通过相应的系统函数获取当前应用程序向屏幕输出的数据；或者，通过网页浏览器的接口对象，获取当前页面的内容数据。

优选的，当所确定的当前输入类别为多个时，根据所述多个类别分别对应的多个类别属性值，分权重计算得到该字词当前输入类别的综合属性值。

依据本发明的另一实施例，公开了一种输入法系统，具体可以包括：

系统词库，用于记录基础字词及其属性信息；

用户词库，所述用户词库中针对每个字词的属性信息存储空间由多个子空间构成，用于记录该字词在不同输入类别下的属性信息；所述属性信息包括词频信息；

信息采集单元，用于采集用户当前输入环境的相关信息；

类别确定单元，用于依据所采集的当前输入环境相关信息，确定该用户的当前输入类别；

输入接口单元，用于接收用户的输入信息；

信息转换单元，用于依据所接收的输入信息，在系统词库和用户词库中进行检索，得到相应的候选项；

排序显示单元，用于依据系统词库中的通用属性信息以及用户词库中当前输入类别的属性信息，对所述候选项进行排序并显示；

输出单元，用于接收用户的选择信息，输出指定的候选项。

优选的，所述的系统还可以包括：历史输入数据记录单元，用于记录该用户在一输入环境下的输入历史文本数据作为当前输入环境相关信息；则，所述类别确定单元通过分析该输入历史文本数据的方式，确定用户当前输入类别。

优选的，所述类别确定单元进一步可以包括：对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称中的至少一个；匹配查找子单元，用于根据所采集的当前输入环境相关信息在所述对应信息表查找对应的类别信息，得到当前输入类别。

如果所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则，所述类别确定单元通过对所述文本数据进行分析，确定该用户的当前输入类别。

优选的，所述的系统还可以包括：综合属性计算单元，用于当所确定的当前输入类别为多个时，根据所述多个类别分别对应的多个类别属性值，分权重计算得到该字词当前输入类别的综合属性值。

与现有技术相比，本发明具有以下优点：

本发明创新性的提出，将用户的输入习惯信息(例如，输入字词及其词频等)分环境记录至用户词库中，从而可以更好的更准确的记录用户的输入习惯。进而，当采用本发明的用户词库进行输入时，可以动态的与用户输入环境或者输入内容相匹配，大大提高用户输入过程中首选词准确率。

附图说明

图1是本发明一种向用户词库中记录信息的方法实施例的步骤流程图；

图2是本发明一种向用户词库中记录信息的系统实施例的结构框图；

图3是本发明一种字符输入的方法实施例的步骤流程图；

图4是本发明一种输入法系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明可以应用于各种输入方式的输入法平台，包括键盘符号、手写信息以及语音输入等等。即所述输入信息可以包括编码字符串，也可以包括手写输入信息以及语音输入的信息，因为这些输入方式也都需要用到词库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术，在此就不详述了。下面仅仅以编码字符串输入为例进行详细说明。

另外，由于现有技术中，输入法平台可以运行在多种计算设备上，例如，个人电脑、个人数字助理、移动终端设备等等，所以本发明也可以适用在上述各种计算设备中。

本发明可以应用于如日文、韩文等需要出现候选词排序的输入法系统，例如，对于日文而言，由日文中的平假名、片假名拼成短语的时候就需要出现候选词排序。由于本发明在上述几种输入法系统中的应用都是相似的，所以为了方便说明，下面以对本发明应用在中文的情况进行举例说明。

本发明所述的方法可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参照图1，示出了本发明一种向用户词库中记录信息的方法实施例，具体可以包括以下步骤：

步骤101、预置用户词库的记录格式，将每个字词的属性信息存储空间划分为多个子空间，用于存储该字词在不同类别下的属性信息；所述属性信息包括的具体信息可以有很多种类，一般的可以包括词频信息。

其中，一般的，可以采用一个子空间中存储一个对应类别的属性信息，当然，子空间的数量可以大于类别的数量，用于存储其他属性信息等等。所述的一个子空间可以为数据表中的一个字段空间等。

本发明所采用的词频信息一词是输入法领域常用的词汇，其除了表示词汇的输入频率信息以外，还包括单字的输入频率信息；其中的输入频率信息可以为绝对值，也可以为相对值，还可以为经过一定策略或者算法处理过的间接表示输入频率的其他数值。

步骤102、当用户利用输入法系统进行字符输入时，依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别；当前输入环境的相关信息所涉及的信息内容和格式比较多，不同类型的环境信息可能需要采用不同的方式以确定该用户的当前输入类别，具体内容将在后面详述。

步骤103、将该用户在当前类别下所输入的字词及相应的词频信息记录至用户词库中。

一般情况下，随着用户的输入，可以实时的将所获取的当前类别下的字词及词频信息记录至用户词库中；当然，在某些情况下，也可以采用平时收集，在某一固定时间整理后记录至用户词库的方式，例如，对于用户词库位于网络端的情况等。

在本发明的另一优选实施例中，还可以包括：汇集一字词在各个类别下的属性信息并进行处理，得到针对该字词的通用权重词频或者权重排序信息。实际上权重排序信息也可以理解为词频信息的一种，用于间接反映字词的使用频率。所述汇集处理的过程既可以在服务器端完成，也可以在客户端完成。

例如，用户需要将用户词库备份至另一计算机上的输入法系统中应用，但是该另一计算机上的输入法系统的版本较低，缺少识别当前输入环境类别的功能，则就可以将所记录的多环境属性信息按照一定的策略或者算法，计算得到一个统一的权重词频或者权重排序信息，即每个字词仅对应一个属性信息，类似于现有的用户词库，从而可以应用在旧版本的输入法系统上。一般情况下，这两台计算机上的输入法系统可以是相同种类的，例如都是搜狗输入法；当然，如果具有统一的文件接口，则也可以是不同种类的输入法，例如，从搜狗输入法备份至紫光输入法进行应用。

通过以上的说明可以得知，依据本发明得到的用户词库的形式可以是多种多样的，例如，在用户词库中，一个字词对应多套分环境的属性信息；或者一个字词仅对应一套统一的属性信息；或者，一个字词既对应一套统一的属性信息，又对应有多套分环境的属性信息。

由于在实际应用中，对于输入类别的划分，有可能随着数据源的增加或者实际应用的情况进行改变。因此，在本发明的另一优选实施例中，还可以包括：动态调整对所述子空间的划分。所述动态调整的方式，可以包括合并或者拆分等等。优选的，为了更好的实现类别的动态调整，还可以记录用户当前输入环境的详细信息，例如，记录一些在将来的动态调整中可能应用的环境属性值——详细的URL地址等。

例如，最简单的对输入类别的划分可以采用应用程序名称的方式进行划分，在一个应用程序中输入的字词信息就记录在该应用程序的相应类别下，如，划分为IE类别、firefox类别、word类别、WPS类别、MSN类别和QQ类别等，而动态调整的结果可以包括：将IE类别、firefox类别合并为一个浏览器类别，因为二者输入的字词信息比较接近；或者，将word类别和WPS类别合并为一个文档类别；或者，将MSN类别和QQ类别合并为一个口语类别；或者，进一步从浏览器类别中划分出多个针对不同网站地址的类别(例如，URL)；或者，进一步从文档类别中划分出多个针对不同类型文档的类别，例如，通过文档的位置或者文档的名称进行划分。

一般的，可以通过调用相应的系统函数获取当前应用程序的名称。如，在windows操作系统中可以通过调用系统函数GetModuleFileName(参数)，以读取当前应用程序所对应的文件名；也可以通过调用系统函数GetCommandLine(参数)，以获取启动当前应用程序的命令行信息。上述两个函数的调用，就可以识别出当前应用程序的名称，例如，WinWord.exe，QQ.exe等等。

例如，输入法启动后，调用GetModuleFilename发现应用程序路径名为“C:\Program Files\Microsoft Office\OFFICE11\WINWORD.EXE”，根据其文件名“WinWord.exe”识别其为word字处理软件，进而启动与文字写作相关的辅助词库。

上述系统函数的说明都是基于windows操作系统而言的，实际上，对于其他的操作系统，例如，Linux、MacOS、FreeBSD，Unix，Solaris等等，以及用于移动终端的PalmOS，Windows Mobile，Symbian等等；不同操作系统中的函数调用可能会有所不同，在此无法一一列举，所以下面的描述中也仅仅以windows操作系统为例进行说明，当然，本领域技术人员应该知悉，本发明并不限定于windows操作系统中。

在本发明的另一优选实施例中，有可能依据所采集的当前输入环境的相关信息，通过预置策略所确定的当前输入类别为多个，即符合多个类别的特征参数。此时，可以直接将用户在当前输入环境下的输入字词及其词频信息分别记录到多个类别下，如果一个类别对应一个子空间，则分别记录到多个子空间中，即记录到这多个子空间中的信息是相同的。当然，也可以将用户在当前输入环境下的输入字词及其词频信息按照一定的策略进行权重分解，将分解后的分量信息分别记录到相应的类别下，即记录到这多个子空间中的信息是不同的，分别表示一定的分量。

下面对步骤102中如何依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别，进行简单介绍。由于可能采集的用户当前输入环境的相关信息的种类非常多，所以相应的类别确定方法也会很多，在本说明书中无法一一描述，下面举出一些典型的例子。

例1

可以通过以下步骤确定该用户的当前输入类别：

预置对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称；根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

所述对应信息表可以由用户自己事先设定或者更改，或者由专业人员事先设定，或者采用人工智能技术统计得到。当然，用户可以通过连接服务器端完成对应信息表的网络更新。

前面介绍了如何获取应用程序名称，下面简单介绍如何获取当前窗口的标题：

一般的，可以通过调用相应的系统函数获取当前窗口的标题，即通过向特定窗口发送消息可以实现一些与窗口相关的功能。例如，QQ.exe的聊天窗口名为“与***聊天中”，只要向当前窗口发送一个WM GETTEXT消息就能够取得该文字信息，从而得到当前输入类别。由于输入法与应用程序运行于同一地址空间中，这些窗口消息可以直接使用。当然，对于word等应用程序，其当前窗口的名称一般就是当前打开的文件名称，也可以在一定程度上反映用户的当前需求。

例如，用户当前的应用程序窗口为针对字体相关的操作，则本发明可以通过向顶层窗口发送WM_GETTEXT消息获得窗口标题“字体”，从而判定用户进行与字体有关的操作，进而确定当前输入类别。

例2

例1中所采集的是与当前输入环境相关的比较简单的信息，而实际中，还可以采用更多的比较复杂的相关信息。例如，所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则通过对所述文本数据进行分析，确定该用户的当前输入类别。

用户在当前输入环境中所涉及的文本数据一般种类会比较多，下面简单介绍一些可能的文本数据及其获取方式：

方式1

可以通过调用相应的系统函数获取剪贴板中的数据；由于剪贴板中的数据也与用户当前的输入需求密切相关，所以它也可以在一定程度上反映当前输入环境的属性；当然，所述剪贴板中的文本数据对本发明而言是最重要的。一般的，在windows操作系统中可以通过调用系统函数OpenClipboard/GetClipboardData/CloseClipboard等等(用于查看剪贴板内容)。由于输入法与应用程序运行于同一地址空间中，这些系统函数的调用可以直接使用。

方式2

可以通过钩子函数获取当前应用程序所操作的文件名称及其路径，进而扫描获取该文件的内容数据。由于输入法与应用程序运行于同一地址空间中，输入法可以更改应用程序本身的一些行为，为查看应用程序状态服务。这类似常见的hook(钩子)技术，但hook需要先进行进程注入；输入法已经嵌入应用程序，没有进程注入的问题，实现起来要容易的多。一般的，可以hook应用程序的文件操作OpenFile/ReadFile，从而了解当前应用程序都使用了哪些磁盘文件，然后扫描这些文件，获取其内容数据，并寻找与其匹配的辅助词库即可。

例如，识别出当前应用程序为word字处理软件后，hook系统的OpenFile调用。发现打开的是一个名为“输入法.doc”的文档，则可以打开该文档，并依据其内容数据确定当前输入类别。

具体而言，对于文本文件(例如txt文件)，可以直接读取其文本数据。而对于非文本文件，现有的操作系统一般都提供了OLE技术，OLE是ObjectLinking and Embedding的缩写，可以翻译为对象链接和嵌入。OLE是在客户应用程序间传输和共享信息的一组综合标准，其允许创建带有指向应用程序的链接的混合文档以使用户修改时不必在应用程序间切换的协议。本发明可以利用OLE技术读取现有操作系统上大部分文件中的文本数据。如，像Office、PDF等文件在windows 2000以后的操作系统，提供了一个IFilter的COM接口，允许应用程序注册这个接口。凡是注册了这个接口的应用程序产生的文件，其他的应用程序可以通过这个接口读取其文本内容，比如对于Office、PDF等文件，本发明都可以通过这种方式读取其文本内容。一般过程可以为：依据文件路径获取相应文件的IFilter对象，判断该文件是否已被注册，如果该文件已被注册，则通过IFilter::GetValue获取文本内容。

方式3

可以通过钩子函数获取当前应用程序向屏幕输出的数据；一般的，可以hook应用程序的TextOut调用，监视其向屏幕上输出了哪些文本数据，依据这些文本数据确定当前输入类别。以Windows操作系统为例，一般的屏幕显示内容都需要通过文本输出函数(例如TextOut等)完成，则本发明可以给系统挂API钩子函数(Hook函数)的方式实现屏幕文字的截取，如在TextOut等文字输出函数的开头写了一个jmp语句，通过Hook函数，跳转到事先定义好的函数中，获取要TextOut绘制的文本。通过这种方式，可以获取通过屏幕显示的各种文本数据。例如，打开的邮件、即时通讯消息、word文档等等。

例如，在QQ.exe中启动输入法，输入法可以hook应用程序的DrawText调用，监视其向屏幕输出的文字。

方式4

可以通过当前应用程序的接口对象，获取相关信息。对于一些特殊的应用程序，通常都会提供一些公开的接口，以便进行二次开发，而本发明可以通过这些接口对象，获取所需的相关信息。

比较常用的情况是，取得网页浏览器(例如，IE)的相应COM对象，从而获取当前网页页面的URI或者文本内容等信息。

网络上可用的每种资源：HTML文档、图像、视频片段、程序等等，都可以由一个统一资源标识符(Uniform Resource Identifier，简称″URI″)进行定位。URI一般由三部分组成：访问资源的命名机制；存放资源的主机名；资源自身的名称、路径或者参数。在网络资源数据传输领域中比较常用的是URL(Uniform Resource Location，统一资源定位符)，URL是URI命名机制的一个子集。

例如，输入法启动后，如果能够识别其为IE(应用程序名为“iexplore.exe”)，则进一步取得页面URL。如果能够判定其在写博客(在http://blog.sohu.com/地址下)，则可以确定为博客文档类别。

前面主要介绍了输入环境所涉及文本数据的采集，下面简单介绍一些具体的确定策略：

例如，预置与类别相应的标准词库，将所采集的相关文本数据进行分词之后与类别标准词库中的字词记录进行匹配，如果匹配度高于一定阈值，则可以确定属于本类别。

再例如，预置与类别相应的一段标准文本，判断所采集的相关文本数据与标准文本之间的相似度，如果相似度高于一定阈值，则可以确定属于本类别。

再例如，还可以针对所采集的相关文本数据进行语义分析，将该文本数据按照语义进行分类，从而确定输入类别。至于具体的语义分析过程，则可以参考自然语言处理相关知识即可，本发明在此不再赘述。

对于本发明前面所提及的几种确定当前输入类别的方式，其中，对应信息表的匹配效率较高、实时性较好，但是准确性不是很高(仅根据应用程序名称、窗口标题等信息容易导致判断错误)。而采用信息分析或者语料匹配的方式，适应性和准确性都有所保证，但是由于积累信息需要时间(例如字数＞1000，或者时间超过一预设阈值)，所以导致其不能即时发挥作用，实时性稍差。根据实际情况选用或者组合使用，应该是比较好的选择。

一般的，针对同一输入环境，只要类别确定一次即可；优选的，针对同一输入环境，也可以反复执行采集和确定过程，以提高当前输入类别的判定准确度。当然，由于匹配、加载具有一定代价，可能需要对时间间隔进行一定的控制。另外还可能需要考虑系统的CPU占用和内存占用(尽量在空闲时期进行)。

上述举例说明的各种方式既可以单独应用，也可以组合使用，以达到更好的协同效果。而实际上，本领域技术人员也应该知悉，对于一些其他的操作系统或者具体的应用程序，则也可以采用各种特有的采集方式，在此无法一一详述。例如，除了上述的类别确定方式，还可以直接通过用户选择的方式确定当前输入类别，引入用户的主观策略。

参照图2，示出了一种向用户词库中记录信息的装置实施例，由于该装置实施例是相应于前述方法实施例的虚拟装置，所以相近之处就不再介绍，参见前述相关部分即可。该装置实施例包括：

用户词库201，所述用户词库中每个字词的属性信息存储空间由多个子空间构成，用于存储该字词在不同类别下的属性信息；所述属性信息包括词频信息；

类别确定模块202，用于当用户利用输入法系统进行字符输入时，依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别；

记录模块203，用于将该用户在当前类别下所输入的字词及相应的词频信息记录至用户词库的相应子空间中。

在本发明的另一优选实施例中，图2所示的装置还可以包括：汇集处理模块204，用于汇集一字词在各个类别下的属性信息并进行处理，得到针对该字词的通用属性信息。当属性信息中包括词频信息时，则所述通用属性信息可以为权重词频或者权重排序信息。

进一步，在本发明的另一优选实施例中，图2所示的装置还可以包括：类别调整模块205，用于动态调整对所述子空间的划分。

对于所述类别确定模块的实现而言，可以进一步包括对应信息表和查找匹配子模块；其中，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息可以为应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称等等；所述查找匹配子模块，用于根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

对于所述类别确定模块的实现而言，也可以进一步包括文本分析子模块，当所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据时，则所述类别确定模块通过对所述文本数据进行分析，确定该用户的当前输入类别。

进一步，本发明还期望保护由前述方法和装置实施例直接得到的产物——用户词库，该用户词库可以包括：

字词存储空间，用于存储字和词；以及，

针对每个字词的属性信息存储空间，该属性信息存储空间由多个子空间构成，一子空间对应一输入类别，用于存储该字词在不同类别下的属性信息；所述属性信息包括词频信息。所述用户词库可以记录用户在不同类别下所输入的字词及相应的词频信息。

参照图3，示出了一种字符输入的方法实施例，其特征在于，包括：

步骤301、加载系统词库和用户词库，所述用户词库中针对每个字词的属性信息存储空间由多个子空间构成，用于记录该字词在不同类别下的属性信息；所述属性信息包括词频信息；

一般情况下，系统词库和用户词库以两个独立的词库形式存在，当然，在某些情况下，系统词库和用户词库还可以合并为一个词库形式，只是在该同一词库中划分为两个逻辑部分——系统词库和用户词库。

步骤302、采集用户当前输入环境的相关信息，确定该用户的当前输入类别；

步骤303、接收用户的输入信息；

步骤304、依据所接收的输入信息，在系统词库和用户词库中进行检索，得到相应的候选项；

步骤305、依据系统词库中的通用属性信息以及用户词库中当前输入类别的属性信息，对所述候选项进行排序并显示；

优选的，当所确定的当前输入类别为多个时，可以根据所述多个类别分别对应的多个类别属性值，分权重计算得到该字词在用户词库中当前输入类别的综合属性值，参与候选项的排序显示。

步骤306、接收用户的选择信息，输出指定的候选项。

对于利用系统词库和用户词库中的词频信息进行候选项排序的技术属于现有技术，在此不再详述。例如，可能采用的方式包括：用户词库中的词条排序都优先于系统词库中的词条；或者，计算得到一通用的排序权重值，完成排序等等。

对于步骤302中确定该用户的当前输入类别的方案，可以采用前述的各种方式，例如：

可以通过用户选择的方式确定当前输入类别。

也可以通过以下步骤确定该用户的当前输入类别：预置对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息可以为应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称等；根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

当所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据时；也可以通过对所述文本数据进行分析，确定该用户的当前输入类别。其中，可以通过以下方式获取用户在当前输入环境中所涉及的文本数据：通过调用相应的系统函数获取剪贴板中的数据；或者，通过调用相应的系统函数获取当前应用程序所操作的文件名称及其路径，进而扫描获取该文件的内容数据；或者，通过调用相应的系统函数获取当前应用程序向屏幕输出的数据；或者，通过网页浏览器的接口对象，获取当前页面的内容数据。

在本发明的一个优选实施例中，还可以通过记录该用户在一输入环境下的输入历史文本数据，从而通过分析该输入历史文本数据，确定用户当前输入类别。即当所述当前输入环境的相关信息包括该用户在一输入环境下的输入历史文本数据时；则还可以通过分析该输入历史文本数据，确定用户当前输入类别。至于具体的文本分析过程前面已经详细介绍，请参见即可。

当然，为了进一步增强文本数据分析的准确性，还可以引入应用程序与类别的相关度，依据所述相关度修正文本数据分析结果，从而达到更好的准确性。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。例如，步骤302与步骤303和304的关系就是如此，步骤302虽然在说明书中的描述在前，但是并不限定其一定在步骤303和304之前执行。

参照图4，示出了一种输入法系统实施例，包括：

系统词库401，用于记录基础字词及其属性信息；

用户词库402，所述用户词库中针对每个字词的属性信息存储空间由多个子空间构成，用于记录该字词在不同类别下的属性信息；所述属性信息包括词频信息；

信息采集单元403，用于采集用户当前输入环境的相关信息；

类别确定单元404，用于依据所采集的当前输入环境相关信息，确定该用户的当前输入类别；

输入接口单元405，用于接收用户的输入信息；

信息转换单元406，用于依据所接收的输入信息，在系统词库和用户词库中进行检索，得到相应的候选项；

排序显示单元407，用于依据系统词库中的通用属性信息以及用户词库中当前输入类别的属性信息，对所述候选项进行排序并显示；

输出单元408，用于接收用户的选择信息，输出指定的候选项。

对于类别确定单元404，可以采用前述的各种类别确定方式。例如，所述类别确定单元可以进一步包括：对应信息表和匹配查找子单元，其中，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称；所述匹配查找子单元用于根据所采集的当前输入环境相关信息在所述对应信息表查找对应的类别信息，得到当前输入类别。

在另一实施例中，当所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则所述类别确定单元还可以通过对所述文本数据进行分析，确定该用户的当前输入类别。

在一优选实施例中，输入法系统还可以包括：历史输入数据记录单元，用于记录该用户在一输入环境下的输入历史文本数据作为当前输入环境相关信息；则，所述类别确定单元也可以通过分析该输入历史文本数据的方式，确定用户当前输入类别。

在另一优选实施例中，输入法系统还可以包括：综合属性计算单元，用于当所确定的当前输入类别为多个时，根据所述多个类别分别对应的多个类别属性值，分权重计算得到该字词在用户词库中当前输入类别的综合属性值，参与候选项排序。

上述输入法系统的实施例可以为普通输入法系统，如，通过用户本地计算设备完成整个输入过程，包括信息输入、信息转换以及显示输出。上述输入法系统的实施例也可以为网络输入法系统，如，通过用户本地计算设备完成输入信息的接入，以及候选项的显示输出，而信息转换、计算排序等过程则在另一计算设备中完成。也就是说，本发明并不需要限定输入法系统实施例中的各个模块的具体地理位置，只要具有相应的功能和相应的连接关系即可。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

以上对本发明所提供的一种向用户词库中记录信息的方法和装置，一种用户词库以及利用该用户词库进行字符输入的方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种向用户词库中记录信息的方法，其特征在于，包括：

预置用户词库的记录格式，将每个字词的属性信息存储空间划分为多个子空间，用于记录该字词在不同类别下的属性信息；所述属性信息至少包括词频信息；

当用户利用输入法系统进行字符输入时，依据所采集的用户当前输入环境的相关信息，确定该用户的当前输入类别；

将该用户在当前类别下所输入的字词及相应的属性信息记录至用户词库中。

2.如权利要求1所述的方法，其特征在于，还包括：

汇集一字词在各个类别下的属性信息并进行处理，得到针对该字词的通用属性信息。

3.如权利要求1所述的方法，其特征在于，还包括：

动态调整对所述子空间的划分。

4.如权利要求1所述的方法，其特征在于，还包括：

通过用户选择的方式确定当前输入类别。

5.如权利要求1所述的方法，其特征在于，通过以下步骤确定该用户的当前输入类别：

预置对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称中的至少一个；

根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

6.如权利要求1所述的方法，其特征在于，所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则通过对所述文本数据进行分析，确定该用户的当前输入类别。

7.如权利要求6所述的方法，其特征在于，通过以下方式获取用户在当前输入环境中所涉及的文本数据：

通过相应的系统函数获取剪贴板中的数据；

或者，通过相应的系统函数获取当前应用程序所操作的文件名称及其路径，进而扫描获取该文件的内容数据；

或者，通过相应的系统函数获取当前应用程序向屏幕输出的数据；

或者，通过网页浏览器的接口对象，获取当前页面的内容数据。

8.如权利要求1所述的方法，其特征在于：

当所确定的当前输入类别为多个时，则将词频信息同时记录至多个相应子空间或者分权重记录至多个相应子空间。

9.一种向用户词库中记录信息的装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，还包括：

汇集处理模块，用于汇集一字词在各个类别下的属性信息并进行处理，得到针对该字词的通用属性信息。

11.如权利要求9所述的装置，其特征在于，还包括：

类别调整模块，用于动态调整对所述子空间的划分。

12.如权利要求9所述的装置，其特征在于，所述类别确定模块进一步包括：

对应信息表，所述对应信息表用以存储类别信息及对应的输入环境相关信息；所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称中的至少一个；

查找匹配子模块，用于根据所采集的当前输入环境相关信息，在所述对应信息表查找对应的类别信息，得到当前输入类别。

13.如权利要求9所述的装置，其特征在于，所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则所述类别确定模块通过对所述文本数据进行分析，确定该用户的当前输入类别。

14.一种字符输入的方法，其特征在于，包括：

加载系统词库和用户词库，所述用户词库中针对每个字词的属性信息存储空间由多个子空间构成，用于记录该字词在不同输入类别下的属性信息；所述属性信息包括词频信息；

采集用户当前输入环境的相关信息，确定该用户的当前输入类别；

接收用户的输入信息；

依据所接收的输入信息，在系统词库和用户词库中进行检索，得到相应的候选项；

依据系统词库中的通用属性信息以及用户词库中当前输入类别的属性信息，对所述候选项进行排序并显示；

接收用户的选择信息，输出指定的候选项。

15.如权利要求14所述的方法，其特征在于：所述当前输入环境的相关信息包括该用户在一输入环境下的输入历史文本数据；则，通过分析该输入历史文本数据，确定用户当前输入类别。

16.如权利要求14所述的方法，其特征在于，还包括：通过用户选择的方式确定当前输入类别。

17.如权利要求14所述的方法，其特征在于，通过以下步骤确定该用户的当前输入类别：

18.如权利要求14所述的方法，其特征在于，所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则通过对所述文本数据进行分析，确定该用户的当前输入类别。

19.如权利要求18所述的方法，其特征在于，通过以下方式获取用户在当前输入环境中所涉及的文本数据：

通过相应的系统函数获取剪贴板中的数据；

20.如权利要求14所述的方法，其特征在于，当所确定的当前输入类别为多个时，根据所述多个类别分别对应的多个类别属性值，分权重计算得到该字词当前输入类别的综合属性值。

21.一种输入法系统，其特征在于，包括：

系统词库，用于记录基础字词及其属性信息；

信息采集单元，用于采集用户当前输入环境的相关信息；

输入接口单元，用于接收用户的输入信息；

输出单元，用于接收用户的选择信息，输出指定的候选项。

22.如权利要求21所述的系统，其特征在于，还包括：

历史输入数据记录单元，用于记录该用户在一输入环境下的输入历史文本数据作为当前输入环境相关信息；

则，所述类别确定单元通过分析该输入历史文本数据的方式，确定用户当前输入类别。

23.如权利要求21所述的系统，其特征在于，所述类别确定单元进一步包括：

匹配查找子单元，用于根据所采集的当前输入环境相关信息在所述对应信息表查找对应的类别信息，得到当前输入类别。

24.如权利要求21所述的系统，其特征在于，所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据；则，所述类别确定单元通过对所述文本数据进行分析，确定该用户的当前输入类别。

25.如权利要求21所述的系统，其特征在于，还包括：

综合属性计算单元，用于当所确定的当前输入类别为多个时，根据所述多个类别分别对应的多个类别属性值，分权重计算得到该字词当前输入类别的综合属性值。