CN101398834A - 一种针对输入信息的处理方法和装置及一种输入法系统 - Google Patents

一种针对输入信息的处理方法和装置及一种输入法系统 Download PDF

Info

Publication number
CN101398834A
CN101398834A CNA2007101754491A CN200710175449A CN101398834A CN 101398834 A CN101398834 A CN 101398834A CN A2007101754491 A CNA2007101754491 A CN A2007101754491A CN 200710175449 A CN200710175449 A CN 200710175449A CN 101398834 A CN101398834 A CN 101398834A
Authority
CN
China
Prior art keywords
information
input
dictionary
attribute
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101754491A
Other languages
English (en)
Other versions
CN101398834B (zh
Inventor
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2007101754491A priority Critical patent/CN101398834B/zh
Publication of CN101398834A publication Critical patent/CN101398834A/zh
Application granted granted Critical
Publication of CN101398834B publication Critical patent/CN101398834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种针对输入信息的处理方法和系统,该方法包括:收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。本发明创新性的提出,分别将多个用户的输入习惯信息(例如,输入字词及其词频等)分环境记录下来,并汇集至一数据处理设备中(例如,服务器),然后对这些信息进行优化处理,提供一具有分环境属性的输入法词库,从而可以更好的更准确的符合用户的输入需求。进而,当采用本发明的词库进行输入时,可以动态的与用户输入环境或者输入内容相匹配,大大提高用户输入过程中首选词准确率。

Description

一种针对输入信息的处理方法和装置及一种输入法系统
技术领域
本发明涉及计算机字符输入技术领域,特别是涉及一种针对用户输入信息的处理方法和装置,以及一种利用该处理结果进行字符输入的方法和相应的输入法系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,输入法已经成为用户与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。
现有技术一般通过提高系统词库中的词条的更新程度以及词频信息的准确度,来提高用户向计算机完成字符输入时的效率——可以通过首选词的准确率进行评价。例如,申请号为200610086577.4,名称为“基于互联网信息的输入法词频库的生成方法和系统”的中国专利就公开了这样的一种提高系统词库性能的技术方案。
但是由于系统词库是相对固定的,针对每一个用户而言,难以达到精确匹配;为了增强个性化的输入效率,现有技术提出了用户词库的解决方案。用户词库的形成方法通常包括以下步骤:记录用户输入的字词,学习某个用户适用的词汇;通过一段时间地不断学习,将词库逐渐收敛到某个用户输入的最佳状态,从而形成用户词库。显然,这种用户词库的形成过程可以得到用户的个性化字词,并在一定程度上调整候选项的排序,使其逐渐适应该用户,从而提高输入效率,但是对于同一个词,在不同的输入环境下,用户可能需要也可能不需要该词;即使需要,其候选排序也可能不同。例如,对于“语料”和“预料”,在日常输入中,用户输入“预料”一词的可能性更大,而基本不会用到“语料”一词。因此在系统词库和用户词库中都是“预料”的词频或者排序要高于“语料”;但是当该用户在输入专业文档时(例如,语言分析相关专业),则就期望“语料”候选项排序在前,而无论系统词库还是用户词库仍然会按照通常的排序输出,无法随着用户输入需求的变化而变化。
因此,现阶段需要本领域技术人员迫切解决的一个技术问题就是:如何改变现有输入法系统的无法依据环境应用而区分用户实际需求的现状,提供一种能够动态的与用户输入环境或者输入内容相匹配,大大提高用户输入过程中首选词准确率的输入法解决方案。
发明内容
本发明所要解决的技术问题是提供一种针对用户输入信息的处理方法和装置,并能够在处理结果上进一步提供具有分环境属性的输入法词库,以满足用户在不同环境条件下的对输入法的不同需求,提高用户的输入效率。
相应的,本发明还提供了利用前述所得到输入法词库进行计算机字符输入的方法和系统,可以极佳的满足用户的输入需求,大大提高用户输入过程中首选词准确率。
为了解决上述问题,本发明公开了一种针对输入信息的处理方法,包括:收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。
优选的,所述方法还可以包括:依据所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以m元属性组进行划分,所述m元属性至少包括环境属性。
优选的,所述方法还可以包括:依据所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同m元属性组下的特征信息,所述m元属性至少包括环境属性。
优选的,所述方法还可以包括:收集与所述输入信息记录相应的用户相关信息,则所建立的关联关系还包括字词信息与用户类别的关联关系;所述用户类别是通过针对所述用户相关信息分析得到的。
优选的,所述方法还可以包括:依据所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性和用户类别属性。
优选的,所述方法还可以包括:依据所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性和用户类别属性。
优选的,通过以下方式完成针对所述输入信息记录的数据处理过程:合并具有相同输入环境信息的输入信息记录;或者,先合并具有相同输入环境信息的输入信息记录,得到多个信息集合,然后依据预置的聚类规则对所述信息集合进行聚类;或者,先对输入环境信息进行聚类,然后将聚为同类的输入环境下的输入信息记录进行合并。
优选的,也通过以下方式完成针对所述输入信息记录的数据处理过程:分别独立的对输入环境信息和用户类别进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并;或者,先对用户类别进行聚类,再对聚为同类的用户类别下的输入环境信息进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并;或者,直接针对具有相同输入环境信息的输入信息记录,依据用户类别进行聚类;或者,先对输入环境信息进行聚类,再对聚为同类的输入环境下的用户类别进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并;或者,直接采用n元属性组进行聚类,所述n元属性包括环境属性和用户类别属性,然后将聚为同类的n元属性组下的输入信息记录进行合并。
优选的,所述方法还可以包括:针对一类别下的信息进行下一层次的聚类,得到该信息集合下的多个子集合。
依据本发明的另一实施例,还公开了一种针对输入信息的处理装置,包括:
收集模块,用于收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;
聚类模块,用于针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。
优选的,所述装置还可以包括:词库生成模块,用于依据所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以m元属性组进行划分,所述m元属性至少包括环境属性。
优选的,所述装置还可以包括:词库生成模块,用于依据所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同m元属性组下的特征信息,所述m元属性至少包括环境属性。
优选的,所收集的信息还包括与所述输入信息记录相应的用户相关信息,则所建立的关联关系还包括字词信息与用户类别的关联关系;所述用户类别是通过针对所述用户相关信息分析得到的。
优选的,所述装置还可以包括:词库生成模块,用于所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性和用户类别属性。
优选的,所述装置还可以包括:词库生成模块,用于所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性和用户类别属性。
依据本发明的另一实施例,还公开了一种字符输入的方法,包括:采集用户当前输入环境的相关信息,确定该用户当前的输入环境类别;从词库中匹配获得与用户当前输入环境类别相应的子词库,所述词库包括至少两个子词库,所述子词库依据环境属性进行划分;所述词库由针对源自多个用户的输入信息记录分析得到;接收用户的输入信息;依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;接收用户的选择信息,输出指定的候选项。
依据本发明的另一实施例,还公开了一种输入法系统,包括:
词库,所述词库包括至少两个子词库,所述子词库依据环境属性进行划分;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息;
匹配单元,用于依据所采集的相关信息,确定该用户当前的输入环境类别,从词库中匹配获得与用户当前输入环境类别相应的子词库;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
输出单元,用于接收用户的选择信息,输出指定的候选项。
依据本发明的另一实施例,还公开了一种字符输入的方法,包括:加载词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同环境属性下的特征信息;所述词库由针对源自多个用户的输入信息记录分析得到;采集用户当前输入环境的相关信息,确定该用户的当前输入类别;接收用户的输入信息;依据所接收的输入信息,在词库中进行检索,得到相应的候选项;参考词库中各候选项在当前输入类别下的特征信息,对所述候选项进行排序并显示;接收用户的选择信息,输出指定的候选项。
依据本发明的另一实施例,还公开了一种输入法系统,包括:
词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同环境属性下的特征信息;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息;
类别确定单元,用于依据所采集的当前输入环境相关信息,确定该用户的当前输入类别;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
排序显示单元,用于参考词库中各候选项在当前输入类别下的特征信息,对所述候选项进行排序并显示;
输出单元,用于接收用户的选择信息,输出指定的候选项。
依据本发明的另一实施例,还公开了一种字符输入的方法,包括:采集用户当前输入环境的相关信息和所需的其他属性信息;依据所采集的信息从词库中匹配获得相应的子词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;接收用户的输入信息;依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;接收用户的选择信息,输出指定的候选项。
优选的,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
依据本发明的另一实施例,还公开了一种输入法系统,包括:
词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息和所需的其他属性信息;
匹配单元,用于依据所采集的信息,从词库中匹配获得相应的子词库;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
输出单元,用于接收用户的选择信息,输出指定的候选项。
优选的,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
依据本发明的另一实施例,还公开了一种字符输入的方法,包括:加载词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;采集用户当前输入环境的相关信息和所需的其他属性信息;接收用户的输入信息;依据所接收的输入信息,在词库中进行检索,得到相应的候选项;参考词库中各候选项在与所采集信息相匹配的n元属性组下的特征信息,对所述候选项进行排序并显示;接收用户的选择信息,输出指定的候选项。
优选的,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
依据本发明的另一实施例,还公开了一种输入法系统,包括:词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;信息采集单元,用于采集用户当前输入环境的相关信息和所需的其他属性信息;输入接口单元,用于接收用户的输入信息;信息转换单元,用于依据所接收的输入信息,在词库中进行检索,得到相应的候选项;排序显示单元,用于参考词库中各候选项在与所采集信息相匹配的n元属性组下的特征信息,对所述候选项进行排序并显示;输出单元,用于接收用户的选择信息,输出指定的候选项。
优选的,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
与现有技术相比,本发明具有以下优点:
本发明创新性的提出,分别将多个用户的输入习惯信息(例如,输入字词及其词频等)分环境记录下来,并汇集至一数据处理设备中(例如,服务器),然后对这些信息进行优化处理,提供一具有分环境属性的输入法词库,从而可以更好的更准确的符合用户的输入需求。进而,当采用本发明的词库进行输入时,可以动态的与用户输入环境或者输入内容相匹配,大大提高用户输入过程中首选词准确率。
进一步,本发明还可以对信息来源进行分析,提供同时具有分环境属性和用户属性等n元属性的输入法词库,以通过多层纬度的正相关,从而更佳的满足用户的输入需求。
附图说明
图1是本发明一种针对输入信息的处理方法实施例的步骤流程图;
图2-图8是本发明多种聚类结果的示意图;
图9是本发明另一种针对输入信息的处理方法实施例的步骤流程图;
图10是本发明一种针对输入信息的处理装置实施例的结构框图;
图11是本发明一种字符输入的方法实施例的步骤流程图;
图12是本发明一种输入法系统实施例的结构框图;
图13是本发明另一种字符输入的方法实施例的步骤流程图;
图14是本发明另一种输入法系统实施例的结构框图;
图15是本发明一种字符输入方法的优选实施例的步骤流程图;
图16是本发明另一种字符输入方法的优选实施例的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可以应用于各种输入方式的输入法平台,包括键盘符号、手写信息以及语音输入等等。即所述输入信息可以包括编码字符串,也可以包括手写输入信息以及语音输入的信息,因为这些输入方式也都需要用到词库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术,在此就不详述了。下面仅仅以编码字符串输入为例进行详细说明。
另外,由于现有技术中,输入法平台可以运行在多种计算设备上,例如,个人电脑、个人数字助理、移动终端设备等等,所以本发明也可以适用在上述各种计算设备中。
本发明可以应用于日文、韩文等需要出现候选词排序的输入法系统,例如,对于日文而言,由日文中的平假名、片假名拼成短语的时候就需要出现候选词排序。由于本发明在上述几种输入法系统中的应用都是相似的,所以为了方便说明,下面以对本发明应用在中文的情况进行举例说明。
本发明所述的方法可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图1,示出了本发明一种针对输入信息的处理方法实施例,具体可以包括以下步骤:
步骤101、收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;
从本质上讲,由于用户当前最希望的输入需求是计算机无法直接识别的,但是用户的输入目的可以通过输入环境在一定程度上得到体现,所以本发明的核心就是在输入环境和用户的输入需求之间建立联系,以间接识别用户需求,从而提高用户的输入效率。
优选的,所述字词信息可以包括字词本身以及其相应的属性信息,例如词频信息或者词序信息等等。
步骤101中所述输入环境信息可以包括各种类型的信息,在本发明的具体例子中也可以称之为环境标签。下面对可能的几种输入环境信息类型进行简单介绍。
首先,所述输入环境信息可以包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称等。一般的,可以通过调用相应的系统函数获取当前应用程序的名称。如,在windows操作系统中可以通过调用系统函数GetModuleFileName(参数),以读取当前应用程序所对应的文件名;也可以通过调用系统函数GetCommandLine(参数),以获取启动当前应用程序的命令行信息。上述两个函数的调用,就可以识别出当前应用程序的名称,例如,WinWord.exe,QQ.exe等等。
例如,输入法启动后,调用GetModuleFilename发现应用程序路径名为“C:\Program Files\Microsoft Office\OFFICE11\WINWORD.EXE”,根据其文件名“WinWord.exe”识别其为word字处理软件,进而启动与文字写作相关的辅助词库。
上述系统函数的说明都是基于windows操作系统而言的,实际上,对于其他的操作系统,例如,Linux、MacOS、FreeBSD,Unix,Solaris等等,以及用于移动终端的PalmOS,Windows Mobile,Symbian等等;不同操作系统中的函数调用可能会有所不同,在此无法一一列举,所以下面的描述中也仅仅以windows操作系统为例进行说明,当然,本领域技术人员应该知悉,本发明并不限定于windows操作系统中。
进一步,所记录的输入环境信息还可以包括用户在当前输入环境中所涉及的文本数据。例如,剪贴板中的文本数据;当前应用程序所操作的文件的文本数据(如,可以通过钩子函数获取当前应用程序所操作的文件名称及其路径,进而扫描获取该文件的内容数据);当前应用程序向屏幕输出的文本数据(如,可以hook应用程序的TextOut调用,监视其向屏幕上输出了哪些文本数据)。
在本发明的一个实施例中,所记录的输入环境信息就是上述的这些原始环境信息,则可以直接应用所记录的输入环境信息作为环境标签,例如,word环境等。优选的,收集端的计算设备还需要对原始环境信息通过识别、判断后置于预置的类别中,例如,对于原始环境信息为文本数据的情况,通过分析将其归入口语类别。当然,所述的识别、判断步骤也可以在记录端的计算设备中执行,然后将预置类别信息作为环境标签,例如,环境A类等。
步骤102、针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。
所述的输入信息记录可以为各种形式,例如,采用用户词库的方式,或者文本文件,或者电子数据表的方式等等。优选的,对于用户的输入信息记录并不限定在使用同一类型的输入法用户群中,只要各种输入法能够统一最后的输入信息记录的格式即可;采用各种输入法联合的方式,可以大大扩展信息源,从而提高信息处理的质量。实际上,所述的输入信息记录可以记录的内容也是多种多样的,本发明希望其至少包括字词信息及其输入环境信息。
本发明可以采用各种可行的信息采集方式,例如,在用户输入的过程中由输入法自动记录所需的信息,或者也可以由用户人工整理获得所需的信息。当然,如果采用输入法客户端自动记录方式的话,所记录的输入环境信息就必须是输入法系统所能识别的环境特征。
从信息获取的途径来看,可以采用输入法客户端主动上传的方式,也可以采用服务器提供要求后再上传的方式。当然,还可以采用用户将需要上传的信息通过互联网手动发送至服务器端,例如,通过邮件的方式,或者通过服务器网站公共空间上传的方式等等。
从信息传送的时间来看,可以采用定时发送的方式,例如,每个月最后一天的21点;也可以采用实时的方式,在输入法客户端在线的情况下,直接将用户的输入信息实时的记录至服务器端,在输入法客户端离线的情况下,可以先记录在本地,然后等到联线后再传输至服务器端。
需要说明的是,本发明此处所采用的服务器端是一个逻辑概念,并不限定在实体的服务器上,因为在现有技术条件下,普通的计算设备终端也有可能在逻辑上作为服务器端进行信息传输,例如,P2P技术等。
步骤102中得到多个并列的信息集合的数据处理过程可以包括合并的方式,或者聚类的方式。其中的“聚类”一词属于本领域的技术术语,一般是指将多个元素根据相关性合并成多个集合,每个集合称为一个类,每个类中的元素应当具有一定的共性(这种共性可能无法直接通过语言描述)。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。所述的距离用于表示相似程度,距离越小则表示越相似,例如,在网页的自动聚类技术中,一般常用距离函数来定义网页间的相似度。由于在人工智能、数据挖掘等领域已有大量关于聚类算法的研究,因此,在此对聚类算法本身不再进行详述。
在本发明的一个优选实施例中,针对所述输入信息记录的数据处理过程,不仅仅可以依据环境信息进行类别划分,还可以应用更多的属性信息对所述输入信息记录进行更优化的类别划分。例如,所收集的信息还包括与所述输入信息记录相应的用户相关信息,则步骤102中所建立的关联关系就可以还包括字词信息与用户类别的关联关系,所述用户类别是通过针对所述用户相关信息分析得到的。
例如,当用户相关信息为注册信息(如,职业、年龄、喜好等等)时,则可以简单的通过对注册信息或者登录信息的分析而对用户进行类别的划分。在本发明的另一实施例中,用户相关信息也可以为用户的输入习惯、词频等等信息,通过对这些细节信息的分析对用户的类别进行划分。总之,本发明不需要对用户相关信息的具体内容加以限定。
下面简单介绍一些具体的应用本发明中的例子,其中,假定从5个用户(用户A、B、C、D和E)处获得了5个输入信息记录,而每个输入信息记录又都从环境属性上分为5种。假定输入信息记录采用用户词库的方式,则可以看作将每个用户的输入信息记录划分为5个元词库,下面完成的聚类操作就可以看作是对这些元词库的聚类过程。所述元词库就是分割形成的最小的单位词库。
例1
参照图2,示出了一种比较简单的针对输入信息记录的处理结果示意图,即直接合并具有相同输入环境信息的输入信息记录。也就是说,将具有相同环境标签的所有元词库合并为一个集合,合并得到的集合可以继承元词库的环境标签。当用户需要在该环境下使用时,优先推荐应用该集合下的词条及其特征信息。
优选的,为了提高结果的质量,还可以包括过滤步骤,例如,过滤某些用户提供的输入信息记录,从中只选择一部分用户提交的元词库进行合并。再例如,对所提供的输入信息记录中的词条进行过滤,输入频率低于一定阈值的,则抛弃该部分语料。当然,具体的过滤措施依据实际的输入信息记录来源会各不相同,本发明在此无法一一详述。
例2
参照图3,示出了另一种针对输入信息记录的处理结果示意图,所采用的具体方案为:先合并具有相同输入环境信息的输入信息记录,得到多个信息集合,然后依据预置的聚类规则对所述信息集合进行聚类。即在例1的基础上,对例1中得到的各个集合使用一定的聚类算法,例如,将其中词条、词频等信息接近的若干类合并为一个类,并将相应的环境标签也同时合并。
本发明所采用的词频信息一词是输入法领域常用的词汇,其除了表示词汇的输入频率信息以外,还包括单字的输入频率信息;其中的输入频率信息可以为绝对值,也可以为相对值,还可以为经过一定策略或者算法处理过的间接表示输入频率的其他数值。
例3
同样参照图3,本方案的结果和例2的结果基本相似,但是具体方案的实现过程是不同的。本方案为:先对输入环境信息(环境标签)进行聚类,然后将聚为同类的输入环境下的输入信息记录进行合并。
其中,对环境标签进行聚类的步骤,可以采用手工聚类或者根据其他先验知识聚类的方式。例如,已知Foxmail和Outlook都是邮件软件,可以直接将其聚到一起;又如IE和Firefox等都是浏览器,也可以聚到一起。
当然,对环境标签进行聚类的步骤,也可以采用自动聚类的方式,即提取具有相同环境标签的元词库本身的一些特征(例如,词条、词频信息等)用于聚类。其中,这些特征可以是全部的词条、词频信息,也可以是通过一定方式或者随机选择出的部分词条、词频信息。
环境聚类的目的是,用户为了同一输入目的,可能使用不同的输入环境。例如前面Outlook和Foxmail都是邮件软件,用户在其中所完成的任务是基本相同的。这对于小众环境(例如一些使用较少的软件)是非常有利的。该方案的优点就在于扩展性好,例如某用户第一次使用某环境,也可匹配应用具有相同环境标签的元词库集合。
总结起来,例1仅仅是简单的合并,而例2和例3则是依据所记录的环境信息对环境类别作进一步的划分。实际上,在本发明的另一优选实施例中,还可以进行更深层次的类别划分:针对一类别下的输入信息记录进行下一层次的聚类,得到该信息集合下的多个子集合。例如,对word类别下的输入信息记录进行聚类操作,得到娱乐文档和专业文档这两个子类别。
例4
参照图4,示出了另一种针对输入信息记录的处理结果示意图,所采用的具体方案为:分别独立的对输入环境信息和用户类别进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并。
由于例1-例3都属于单纯的环境聚类,都不能识别不同用户在相同环境下仍然可能具有不同的用户需求这一个优化问题,而本方案则进一步引入了用户类别聚类的概念。
例5
参照图5,示出了另一种针对输入信息记录的处理结果示意图,所采用的具体方案为:先对用户类别进行聚类,再对聚为同类的用户类别下的输入环境信息进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并而完成聚类。
实际上,在对用户类别聚类之后,也可以不对环境标签进行聚类,而直接采用例1的方案,合并在一个用户类下具有相同环境标签的元词库即可。
在本方案中进行用户类别聚类时,可以完全不考虑环境标签的作用。
例6
参照图6,示出了另一种针对输入信息记录的处理结果示意图,所采用的具体方案为:直接针对具有相同输入环境信息的输入信息记录,依据用户类别进行聚类。当用户输入时,应当根据环境标签和该用户所属的用户类选择具有相同环境标签和相同用户类的元词库集合。由于在用户类别聚类的时候,是在相同输入环境信息的限制下进行的,所以导致用户聚类的结果和例4、例5的聚类结果有可能不同。
例7
参照图7,示出了另一种针对输入信息记录的处理结果示意图,所采用的具体方案为:先对输入环境信息进行聚类,再对聚为同类的输入环境下的用户类别进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并。本方案和例6的区别在于,使用环境类代替了原始环境标签。当用户输入时,应当根据环境标签所属的环境类和该用户所属的用户类选择具有相同环境标签类和相同用户类的元词库集合。
对用户的聚类,一种优选的做法是:只选择一部分用户(随机选择或者按照一定的选择策略选择)所提交的元词库对用户聚类。对于未被选择的用户,根据其他信息与已有聚类结果进行匹配确定其所属类别即可。
采用用户聚类的目的在于,不同用户在同一环境下可能具有不同的输入需求。例如同样在Outlook中书写邮件,其所书写的内容与用户的工作生活背景密切相关。进一步,基于环境聚类的用户聚类其目的在于,具有特定需求的用户可能使用不同的软件。对于具体用户,既可能使用Outlook书写邮件,也可能使用Foxmail书写邮件。但这个用户与其他用户的需求可能是不同的,所以需要同时对环境标签和用户标签聚类。
例8
参照图8,示出了另一种针对输入信息记录的处理结果示意图,所采用的具体方案为:直接采用n元属性组进行聚类,所述n元属性包括环境属性和用户类别属性,然后将聚为同类的n元属性组下的输入信息记录进行合并而完成聚类。假设我们仅仅采用包括环境属性和用户类别属性的二元属性组,则聚类结果是该二元组的分类。当用户请求加载词库时,查看(环境,用户)这个二元组所属的类,并将对相应类的元词库集合传递给用户。
本方案的优点在于,能够描述:特定用户在某些环境下可能具有相同需求,但也可能具有不同需求的事实。例如,用户A可能使用Outlook处理公司邮件,而使用Foxmail处理个人邮件;因此不能将Outlook和Foxmail混为一谈。但是另一用户B却完全将二者一视同仁。这时,该算法能够为用户A在两种环境下匹配不同的元词库集合,而为用户B返回相同的元词库集合。当然,为了达到最佳的需要,需要付出计算资源的代价,可能导致本方案的运算量大,可扩展性差。
下面对前述的各个结果图示,从逻辑图的角度区别如下:
图2是一个完全纵向图,该图中的所有纵列都被分开了;图3是一个纵向图,和图2的区别在于,其中某些纵列被合并了;图4是一个纵横图;图5是一个横向图,某些行被合并了,并且某些行被从内部切分开来;图6是一个完全纵向图,并且某些列被从内部切分了;图7是一个纵向图,其中某些列被合并后从内部切分了;而在图8中已经不存在明显的纵横特征了。
上面的例子中仅仅描述了采用环境属性作为单维度的聚类过程,以及采用环境属性和用户类别属性作为二维度的聚类过程,而实际上完成聚类操作可能采用的维度还有很多,例如,地域属性等等,在此就不一一详述了。具体而言,可以根据用户上传数据的IP或者登录信息来识别用户的地域;并且,除了地域本身,地域是否频繁更改(用户可能频繁出差)也可以成为一个属性。
当然原则上,我们希望环境是唯一分类标准。也就是说,希望用户需求能够完全通过环境标签表达。这可以大大简化聚类的计算量。但是实际中很难采用一个维度就能够完全表达用户的实际需求,所以需要根据实际情况引入一些改进措施。例如,为了解决环境分类过细的问题,例如Outlook和Foxmail都是邮件客户端。很多情况下二者并没有区别,作为同种环境比较好,因此,本发明引入了环境聚类的改进措施。
为了解决环境分类过粗的问题,例如都是写邮件,但是不同用户具有不同的需求;或者同一用户在同一环境下,在不同时刻也具有不同需求。对于前者,本发明引入了对用户的聚类。对于后者,则本发明需要引入更精细的环境特征,例如邮件的标题、收件人等信息。当然,聚类越细致,描述越精确,运算量越大,扩展性也越差,本领域技术人员需要依据实际情况做出一个平衡方案。
对于图1所示的实施例,所得到的字词信息与输入环境之间的关联关系,可以应用在各种辅助输入的场合,例如,智能组词、长句输入等等。再例如,当光标的焦点在浏览器网址框时,可以确定该用户位于网页信息环境,则优先输出网址信息而并非中文字词。
参照图9,示出了另一种针对输入信息的处理方法实施例,具体可以包括以下步骤:
步骤201、收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;
步骤202、针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合;
步骤203、依据所述关联关系和信息集合,生成输入法词库。
本实施例的目的在于对用户的输入信息记录进行更深层次的加工,得到能够反映输入字词信息与输入环境之间关系的输入法词库。
对于输入法词库,可以采用各种各样可行的数据存储结构。
例如,所述输入法词库可以包括至少两个子词库,所述子词库以m元属性组进行划分,所述m元属性至少包括环境属性。即最极端的情况,所述输入法词库可以包括至少两个子词库,而各个子词库之间仅仅通过环境属性加以区分。当用户应用该输入法词库进行输入时,可以仅仅加载与该用户当前输入环境相适应的子词库即可。
再例如,所述输入法词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同m元属性组下的特征信息,所述m元属性至少包括环境属性。即最极端的情况,所述输入法词库存储有字词及其在不同环境属性下的特征信息。所述特征信息一般包括词频信息或者词序信息等等。当用户应用该输入法词库进行输入时,可以仅仅采用与该用户当前输入环境相适应的子空间下的特征信息进行排序即可。
在本发明的一个优选实施例中,所收集的信息还包括与所述输入信息记录相应的用户相关信息,则步骤202中建立的关联关系还包括字词信息与用户类别的关联关系,步骤203得到的输入法词库也需要引入用户类别属性。
例如,所述输入法词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性和用户类别属性。即最极端的情况,所述输入法词库可以包括至少两个子词库,各个子词库之间通过(环境属性,用户类别属性)这样一个二元属性组加以划分,将环境属性和用户类别属性都相同的字词置于同一个子词库中。当用户应用该输入法词库进行输入时,加载与该用户以及该用户当前输入环境相适应的子词库即可。
再例如,所述输入法词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性和用户类别属性。即最极端的情况,所述输入法词库中字词的特征信息存储空间可以包括至少两个子空间,各个子空间之间通过(环境属性,用户类别属性)这样一个二元属性组加以划分,每个子空间用于存储在同一(环境属性,用户类别属性)属性条件下的字词。当用户应用该输入法词库进行输入时,采用与该用户及该用户当前输入环境相适应的子空间下的特征信息进行排序即可。
参照图10,示出了一种针对输入信息的处理装置实施例,具体可以包括:
收集模块301,用于收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;
聚类模块302,用于针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。
在进一步的优选实施例中,图10所示的装置还可以包括:词库生成模块303,用于依据所述关联关系和信息集合,生成输入法词库。
如前所述,所述词库可以包括至少两个子词库,所述子词库以m元属性组进行划分,所述m元属性至少包括环境属性。在另一实现方案下:所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同m元属性组下的特征信息,所述m元属性至少包括环境属性。
在本发明的另一优选实施例中,所述收集模块301所收集的信息还包括与所述输入信息记录相应的用户相关信息,则聚类模块302所建立的关联关系还包括字词信息与用户类别的关联关系,词库生成模块303所生成的词库中也需要引入用户类别属性。
如前所述,则词库生成模块303所得到的所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性和用户类别属性。在另一实现方案下:所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性和用户类别属性。
参照图11,示出了一种字符输入的方法实施例,具体可以包括:
步骤401、采集用户当前输入环境的相关信息,确定该用户当前的输入环境类别;
步骤402、从词库中匹配获得与用户当前输入环境类别相应的子词库,所述词库包括至少两个子词库,所述子词库依据环境属性进行划分;所述词库由针对源自多个用户的输入信息记录分析得到;
步骤403、接收用户的输入信息;
步骤404、依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;当然,还可能包括依据该子词库中的一些词频信息或者词序信息对候选项排序显示的步骤,由于该部分属于本领域的公知技术,所以不再详述;
步骤405、接收用户的选择信息,输出指定的候选项。
用户在输入时,可以加载整个输入法词库,然后从内存中调用某个匹配的子词库进行检索即可;当然,也可以直接加载所匹配的子词库即可,其他子词库就可以在当前输入环境下不需要加载了。
步骤402中的子词库匹配过程,可以有很多的具体实现方式。例如,
可以通过用户选择的方式确定当前输入环境类别。
也可以通过以下步骤确定该用户的当前输入环境类别:预置对应信息表,所述对应信息表用以存储类别信息及对应的输入环境信息;所述输入环境信息可以为应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称等;根据所采集的当前输入环境信息,在所述对应信息表查找对应的类别信息,得到当前输入环境类别。
当所采集的当前输入环境信息包括用户在当前输入环境中所涉及的文本数据时;也可以通过对所述文本数据进行分析,确定该用户的当前输入类别。其中,可以通过以下方式获取用户在当前输入环境中所涉及的文本数据:通过调用相应的系统函数获取剪贴板中的数据;或者,通过调用相应的系统函数获取当前应用程序所操作的文件名称及其路径,进而扫描获取该文件的内容数据;或者,通过调用相应的系统函数获取当前应用程序向屏幕输出的数据;或者,通过网页浏览器的接口对象,获取当前页面的内容数据。
参照图12,示出了一种输入法系统实施例,具体可以包括:
词库501,所述词库包括至少两个子词库,所述子词库依据环境属性进行划分;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元502,用于采集用户当前输入环境的相关信息;
匹配单元503,用于依据所采集的相关信息,确定该用户当前的输入环境类别,从词库中匹配获得与用户当前输入环境类别相应的子词库;
输入接口单元504,用于接收用户的输入信息;
信息转换单元505,用于依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
输出单元506,用于接收用户的选择信息,输出指定的候选项。
依据各种可能的采集、匹配方式,匹配单元503也可能具有各种不同的具体模块实现。
例如,所述匹配单元503可以进一步包括:对应信息表和匹配查找子单元,其中,所述对应信息表用以存储类别信息及对应的输入环境相关信息;所述输入环境相关信息包括应用程序名称、网站地址、当前窗口的标题、文档位置或者文档名称;所述匹配查找子单元用于根据所采集的当前输入环境相关信息在所述对应信息表查找对应的类别信息,得到当前输入环境类别。
在另一实施例中,当所采集的当前输入环境的相关信息包括用户在当前输入环境中所涉及的文本数据时;则所述匹配单元503还可以通过对所述文本数据进行分析,确定该用户的当前输入类别。
图11和图12所示的实施例主要是针对采用子词库方式存储数据的输入法词库的,并且各个子词库之间是仅仅通过环境属性加以划分的。
参照图13,示出了一种字符输入的方法实施例,具体可以包括:
步骤601、加载词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同环境属性下的特征信息;所述词库由针对源自多个用户的输入信息记录分析得到;
步骤602、采集用户当前输入环境的相关信息,确定该用户的当前输入类别;
步骤603、接收用户的输入信息;
步骤604、依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
步骤605、参考词库中各候选项在当前输入类别下的特征信息,对所述候选项进行排序并显示;
当然,一种情况是仅仅依据各候选项在当前输入类别下的特征信息完成排序;在另一些实现方案中,还可以参考各候选项的通用特征信息,例如,候选项在当前输入类别下的特征信息为一个权重值,需要结合该候选项的通用词频信息,得到用于排序的数值;由于依据各种可能的特征信息对候选项排序的技术属于本领域技术人员所熟知的,所以不再详述。
步骤606、接收用户的选择信息,输出指定的候选项。
参照图14,示出了一种输入法系统实施例,具体可以包括:
词库701,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同环境属性下的特征信息;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元702,用于采集用户当前输入环境的相关信息;
类别确定单元703,用于依据所采集的当前输入环境相关信息,确定该用户的当前输入类别;
输入接口单元704,用于接收用户的输入信息;
信息转换单元705,用于依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
排序显示单元706,用于参考词库中各候选项在当前输入类别下的特征信息,对所述候选项进行排序并显示;
输出单元707,用于接收用户的选择信息,输出指定的候选项。
图13和图14所示的实施例描述的是各个子空间之间是仅仅通过环境属性加以划分的情况,和图11、12所示实施例的区别在于:后者是针对采用子词库方式存储数据的输入法词库的,而图13和图14所示的实施例是采用多个子空间的数据存储方式的。
下面几个实施例将描述:各个子空间或者子词库之间需要通过多个属性值共同作用而加以标识区分的情况。
参照图15,示出了一种字符输入的方法实施例,具体可以包括以下步骤:
步骤801、采集用户当前输入环境的相关信息和所需的其他属性信息;
步骤802、依据所采集的信息从词库中匹配获得相应的子词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
步骤803、接收用户的输入信息;
步骤804、依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;用户在输入时,可以加载整个输入法词库,然后从内存中调用某个匹配的子词库进行检索即可;当然,也可以直接加载所匹配的子词库即可,其他子词库就可以在当前输入环境下不需要加载了;
步骤805、接收用户的选择信息,输出指定的候选项。
前面的实施例中已经详细描述了如何采集当前输入环境的相关信息以及如何匹配的情况,对于其他属性信息的采集和匹配,完全可以采用,类似的方案。例如,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息(例如,年龄、职业等等),可以通过检索预置的对应信息表来确定用户类别。由于随着具体属性信息的不同,所应用的采集方式和匹配方式都可能不同,本领域技术人员可以根据实际情况选用合适的常用采集方案和匹配方案即可,在此无法一一涉及。
相应的,本发明还提供了与图15所示的方法实施例相对应的输入法系统,具体可以包括:
词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息和所需的其他属性信息;
匹配单元,用于依据所采集的信息,从词库中匹配获得相应的子词库;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
输出单元,用于接收用户的选择信息,输出指定的候选项。
图15所示的实施例是针对采用子词库方式存储数据的输入法词库的,而下面的实施例是采用多个子空间的数据存储方式的。
参照图16,示出了一种字符输入的方法实施例,具体包括:
步骤901、加载词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;例如,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别;
步骤902、采集用户当前输入环境的相关信息和所需的其他属性信息;
步骤903、接收用户的输入信息;
步骤904、依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
步骤905、参考词库中各候选项在与所采集信息相匹配的n元属性组下的特征信息,对所述候选项进行排序并显示;当然,一种情况是仅仅依据各候选项在当前输入类别下的特征信息完成排序;在另一些实现方案中,还可以参考各候选项的通用特征信息,例如,候选项在当前输入类别下的特征信息为一个权重值,需要结合该候选项的通用词频信息,得到用于排序的数值;
步骤906、接收用户的选择信息,输出指定的候选项。
相应的,本发明还提供了一种输入法系统,与图16所示的方法实施例相对应,包括以下模块:
词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息和所需的其他属性信息;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
排序显示单元,用于参考词库中各候选项在与所采集信息相匹配的n元属性组下的特征信息,对所述候选项进行排序并显示;
输出单元,用于接收用户的选择信息,输出指定的候选项。
在优选的情况下,本发明所述n元属性包括环境属性和用户类别属性,此时就需要采集用户相关信息,用以确定用户类别。
上述的各种输入法系统实施例可以为普通输入法系统,如,通过用户本地计算设备完成整个输入过程,包括信息输入、信息转换以及显示输出。上述的各种输入法系统实施例也可以为网络输入法系统,如,通过用户本地计算设备完成输入信息的接入,以及候选项的显示输出,而信息转换、计算排序等过程则在另一计算设备中完成。也就是说,本发明并不需要限定输入法系统实施例中的各个模块的具体地理位置,只要具有相应的功能和相应的连接关系即可。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以上对本发明所提供的一种针对用户输入信息的处理方法和装置,以及多种字符输入的方法和输入法系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (27)

1、一种针对输入信息的处理方法,其特征在于,包括:
收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;
针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。
2、如权利要求1所述的方法,其特征在于,还包括:
依据所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以m元属性组进行划分,所述m元属性至少包括环境属性。
3、如权利要求1所述的方法,其特征在于,还包括:
依据所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同m元属性组下的特征信息,所述m元属性至少包括环境属性。
4、如权利要求1所述的方法,其特征在于,还包括:收集与所述输入信息记录相应的用户相关信息,则所建立的关联关系还包括字词信息与用户类别的关联关系;所述用户类别是通过针对所述用户相关信息分析得到的。
5、如权利要求4所述的方法,其特征在于,还包括:
依据所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性和用户类别属性。
6、如权利要求4所述的方法,其特征在于,还包括:
依据所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性和用户类别属性。
7、如权利要求1所述的方法,其特征在于,通过以下方式完成针对所述输入信息记录的数据处理过程:
合并具有相同输入环境信息的输入信息记录;
或者,先合并具有相同输入环境信息的输入信息记录,得到多个信息集合,然后依据预置的聚类规则对所述信息集合进行聚类;
或者,先对输入环境信息进行聚类,然后将聚为同类的输入环境下的输入信息记录进行合并。
8、如权利要求4所述的方法,其特征在于,通过以下方式完成针对所述输入信息记录的数据处理过程:
分别独立的对输入环境信息和用户类别进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并;
或者,先对用户类别进行聚类,再对聚为同类的用户类别下的输入环境信息进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并;
或者,直接针对具有相同输入环境信息的输入信息记录,依据用户类别进行聚类;
或者,先对输入环境信息进行聚类,再对聚为同类的输入环境下的用户类别进行聚类,然后将属于同类输入环境、并属于同类用户类别的输入信息记录进行合并;
或者,直接采用n元属性组进行聚类,所述n元属性包括环境属性和用户类别属性,然后将聚为同类的n元属性组下的输入信息记录进行合并。
9、如权利要求7或8所述的方法,其特征在于,还包括:针对一类别下的信息进行下一层次的聚类,得到该信息集合下的多个子集合。
10、一种针对输入信息的处理装置,其特征在于,包括:
收集模块,用于收集源自多个用户的输入信息记录,所述输入信息记录包括字词信息及其输入环境信息;
聚类模块,用于针对所收集的输入信息记录进行数据处理,建立字词信息与输入环境之间的关联关系,得到多个并列的信息集合。
11、如权利要求10所述的装置,其特征在于,还包括:
词库生成模块,用于依据所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以m元属性组进行划分,所述m元属性至少包括环境属性。
12、如权利要求10所述的装置,其特征在于,还包括:
词库生成模块,用于依据所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同m元属性组下的特征信息,所述m元属性至少包括环境属性。
13、如权利要求10所述的装置,其特征在于,所收集的信息还包括与所述输入信息记录相应的用户相关信息,则所建立的关联关系还包括字词信息与用户类别的关联关系;所述用户类别是通过针对所述用户相关信息分析得到的。
14、如权利要求13所述的装置,其特征在于,还包括:
词库生成模块,用于所述关联关系和信息集合,生成输入法词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性和用户类别属性。
15、如权利要求12所述的装置,其特征在于,还包括:
词库生成模块,用于所述关联关系和信息集合,生成输入法词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性和用户类别属性。
16、一种字符输入的方法,其特征在于,包括:
采集用户当前输入环境的相关信息,确定该用户当前的输入环境类别;
从词库中匹配获得与用户当前输入环境类别相应的子词库,所述词库包括至少两个子词库,所述子词库依据环境属性进行划分;所述词库由针对源自多个用户的输入信息记录分析得到;
接收用户的输入信息;
依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
接收用户的选择信息,输出指定的候选项。
17、一种输入法系统,其特征在于,包括:
词库,所述词库包括至少两个子词库,所述子词库依据环境属性进行划分;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息;
匹配单元,用于依据所采集的相关信息,确定该用户当前的输入环境类别,从词库中匹配获得与用户当前输入环境类别相应的子词库;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
输出单元,用于接收用户的选择信息,输出指定的候选项。
18、一种字符输入的方法,其特征在于,包括:
加载词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同环境属性下的特征信息;所述词库由针对源自多个用户的输入信息记录分析得到;
采集用户当前输入环境的相关信息,确定该用户的当前输入类别;
接收用户的输入信息;
依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
参考词库中各候选项在当前输入类别下的特征信息,对所述候选项进行排序并显示;
接收用户的选择信息,输出指定的候选项。
19、一种输入法系统,其特征在于,包括:
词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同环境属性下的特征信息;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息;
类别确定单元,用于依据所采集的当前输入环境相关信息,确定该用户的当前输入类别;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
排序显示单元,用于参考词库中各候选项在当前输入类别下的特征信息,对所述候选项进行排序并显示;
输出单元,用于接收用户的选择信息,输出指定的候选项。
20、一种字符输入的方法,其特征在于,包括:
采集用户当前输入环境的相关信息和所需的其他属性信息;
依据所采集的信息从词库中匹配获得相应的子词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
接收用户的输入信息;
依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
接收用户的选择信息,输出指定的候选项。
21、如权利要求20所述的方法,其特征在于,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
22、一种输入法系统,其特征在于,包括:
词库,所述词库包括至少两个子词库,所述子词库以n元属性组进行划分,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息和所需的其他属性信息;
匹配单元,用于依据所采集的信息,从词库中匹配获得相应的子词库;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在所匹配的子词库中进行检索,得到相应的候选项;
输出单元,用于接收用户的选择信息,输出指定的候选项。
23、如权利要求22所述的系统,其特征在于,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
24、一种字符输入的方法,其特征在于,包括:
加载词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
采集用户当前输入环境的相关信息和所需的其他属性信息;
接收用户的输入信息;
依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
参考词库中各候选项在与所采集信息相匹配的n元属性组下的特征信息,对所述候选项进行排序并显示;
接收用户的选择信息,输出指定的候选项。
25、如权利要求24所述的方法,其特征在于,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
26、一种输入法系统,其特征在于,包括:
词库,所述词库中字词的特征信息存储空间由多个子空间构成,用于存储该字词在不同n元属性组下的特征信息,所述n元属性至少包括环境属性;所述词库由针对源自多个用户的输入信息记录分析得到;
信息采集单元,用于采集用户当前输入环境的相关信息和所需的其他属性信息;
输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在词库中进行检索,得到相应的候选项;
排序显示单元,用于参考词库中各候选项在与所采集信息相匹配的n元属性组下的特征信息,对所述候选项进行排序并显示;
输出单元,用于接收用户的选择信息,输出指定的候选项。
27、如权利要求26所述的系统,其特征在于,当所述n元属性包括环境属性和用户类别属性时,所需的其他属性信息包括用户相关信息,用以确定用户类别。
CN2007101754491A 2007-09-29 2007-09-29 一种针对输入信息的处理方法和装置及一种输入法系统 Active CN101398834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101754491A CN101398834B (zh) 2007-09-29 2007-09-29 一种针对输入信息的处理方法和装置及一种输入法系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101754491A CN101398834B (zh) 2007-09-29 2007-09-29 一种针对输入信息的处理方法和装置及一种输入法系统

Publications (2)

Publication Number Publication Date
CN101398834A true CN101398834A (zh) 2009-04-01
CN101398834B CN101398834B (zh) 2010-08-11

Family

ID=40517396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101754491A Active CN101398834B (zh) 2007-09-29 2007-09-29 一种针对输入信息的处理方法和装置及一种输入法系统

Country Status (1)

Country Link
CN (1) CN101398834B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847159A (zh) * 2010-05-11 2010-09-29 中兴通讯股份有限公司 终端设备及其词库更新的方法
CN101895631A (zh) * 2010-07-09 2010-11-24 深圳市五巨科技有限公司 一种移动终端智能切换输入法的方法、装置和系统
CN101995963A (zh) * 2010-11-19 2011-03-30 哈尔滨工业大学 词汇自适应中文输入方法
WO2011079683A1 (zh) * 2009-12-30 2011-07-07 北京世纪高通科技有限公司 获取信息的方法和装置
CN102314222A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 一种自适应输入方法、设备及系统
CN102314440A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 利用网络维护语言模型库的方法和系统
CN102314223A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 一种供用户在非输入场景进行自适应输入的方法与设备
CN102478968A (zh) * 2010-11-23 2012-05-30 腾讯科技(深圳)有限公司 中文拼音输入方法和中文拼音输入系统
CN102646022A (zh) * 2012-04-10 2012-08-22 北京搜狗科技发展有限公司 一种获取候选项的方法和装置
CN102789317A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 一种加快文本输入的方法和装置
CN102843476A (zh) * 2012-09-12 2012-12-26 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN102902363A (zh) * 2011-07-28 2013-01-30 中国移动通信集团公司 用于终端设备的汉字输入方法和系统
CN102955569A (zh) * 2012-10-18 2013-03-06 北京天宇朗通通信设备股份有限公司 文本输入的方法及装置
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN103336585A (zh) * 2013-07-19 2013-10-02 北京百文宝科技股份有限公司 基于场景感知的一字一键中文输入方法和设备
CN103500016A (zh) * 2013-09-27 2014-01-08 北京邮电大学 一种基于交互的文字输入优化方法
CN103810157A (zh) * 2014-02-28 2014-05-21 百度在线网络技术(北京)有限公司 输入法实现方法和装置
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN104050168A (zh) * 2013-03-12 2014-09-17 联想(北京)有限公司 信息处理方法、电子设备及词库服务器
CN104360759A (zh) * 2014-11-21 2015-02-18 百度在线网络技术(北京)有限公司 候选字排序方法、装置和文字输入方法、设备
CN104765526A (zh) * 2015-03-18 2015-07-08 百度在线网络技术(北京)有限公司 一种过滤候选词条的方法与装置
WO2015109902A1 (zh) * 2014-01-26 2015-07-30 百度在线网络技术(北京)有限公司 个性化信息的处理方法、装置、设备及非易失性计算机存储介质
CN104933296A (zh) * 2015-05-28 2015-09-23 汤海京 一种基于多维数据融合的大数据处理方法和设备
CN105515938A (zh) * 2014-09-24 2016-04-20 北京三星通信技术研究有限公司 生成通信信息的方法和装置
CN105528338A (zh) * 2014-09-30 2016-04-27 上海触乐信息科技有限公司 智能预测的输入方法和系统
CN105589575A (zh) * 2015-12-28 2016-05-18 小米科技有限责任公司 输入法调用方法及装置
CN106354278A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种结合应用程序的文字输入方法及终端
CN106527754A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种优先字词排列方法、装置和一种移动终端
CN107315487A (zh) * 2016-04-27 2017-11-03 北京搜狗科技发展有限公司 一种输入处理方法、装置及电子设备
CN107589855A (zh) * 2012-05-29 2018-01-16 阿里巴巴集团控股有限公司 一种根据地理位置推荐候选词的方法和装置
CN107943319A (zh) * 2017-11-28 2018-04-20 科大讯飞股份有限公司 一种模拟输入法操作的方法及装置
CN105243121B (zh) * 2015-09-29 2018-08-21 中国运载火箭技术研究院 一种基于数据挖掘的文本数据网络构建系统
CN109240511A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 一种更新词库的方法、系统和一种用于更新词库的装置
WO2019223259A1 (zh) * 2018-05-25 2019-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置
CN111103986A (zh) * 2018-10-26 2020-05-05 北京搜狗科技发展有限公司 用户词库管理方法及装置、输入方法及装置
CN111984131A (zh) * 2020-07-07 2020-11-24 北京语言大学 一种基于动态权重进行信息输入的方法及系统
CN112148941A (zh) * 2020-09-24 2020-12-29 网易(杭州)网络有限公司 信息提示方法、装置和终端设备
CN113610231A (zh) * 2021-08-19 2021-11-05 北京金山数字娱乐科技有限公司 语言模型训练方法及装置和词组推荐方法及装置
CN114791769A (zh) * 2022-06-24 2022-07-26 湖北云享客数字智能科技有限公司 一种用户行为预测结果的大数据库建立方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494025A (zh) * 2002-10-31 2004-05-05 英业达股份有限公司 具有分类词库的中文输入方法及其系统
CN1452101A (zh) * 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用一个词库实现双向词汇翻译和单词分组记忆的方法
CN1924858B (zh) * 2006-08-09 2010-05-12 北京搜狗科技发展有限公司 一种获取新词的方法、装置以及一种输入法系统

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011079683A1 (zh) * 2009-12-30 2011-07-07 北京世纪高通科技有限公司 获取信息的方法和装置
CN101847159A (zh) * 2010-05-11 2010-09-29 中兴通讯股份有限公司 终端设备及其词库更新的方法
CN102314223A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 一种供用户在非输入场景进行自适应输入的方法与设备
CN102314222A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 一种自适应输入方法、设备及系统
CN102314440A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 利用网络维护语言模型库的方法和系统
CN102314440B (zh) * 2010-06-30 2016-06-08 百度在线网络技术(北京)有限公司 利用网络维护语言模型库的方法和系统
CN102314223B (zh) * 2010-06-30 2018-11-13 百度在线网络技术(北京)有限公司 一种供用户在非输入场景进行自适应输入的方法与设备
CN101895631A (zh) * 2010-07-09 2010-11-24 深圳市五巨科技有限公司 一种移动终端智能切换输入法的方法、装置和系统
CN101995963A (zh) * 2010-11-19 2011-03-30 哈尔滨工业大学 词汇自适应中文输入方法
CN102478968A (zh) * 2010-11-23 2012-05-30 腾讯科技(深圳)有限公司 中文拼音输入方法和中文拼音输入系统
CN102478968B (zh) * 2010-11-23 2016-02-17 深圳市世纪光速信息技术有限公司 中文拼音输入方法和中文拼音输入系统
CN102789317A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 一种加快文本输入的方法和装置
CN102902363A (zh) * 2011-07-28 2013-01-30 中国移动通信集团公司 用于终端设备的汉字输入方法和系统
CN102646022A (zh) * 2012-04-10 2012-08-22 北京搜狗科技发展有限公司 一种获取候选项的方法和装置
CN102646022B (zh) * 2012-04-10 2014-07-09 北京搜狗科技发展有限公司 一种获取候选项的方法和装置
CN107589855A (zh) * 2012-05-29 2018-01-16 阿里巴巴集团控股有限公司 一种根据地理位置推荐候选词的方法和装置
CN102843476B (zh) * 2012-09-12 2015-04-15 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN102843476A (zh) * 2012-09-12 2012-12-26 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN102955569A (zh) * 2012-10-18 2013-03-06 北京天宇朗通通信设备股份有限公司 文本输入的方法及装置
CN102955569B (zh) * 2012-10-18 2016-03-23 北京天宇朗通通信设备股份有限公司 文本输入的方法及装置
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN104050168A (zh) * 2013-03-12 2014-09-17 联想(北京)有限公司 信息处理方法、电子设备及词库服务器
CN104050168B (zh) * 2013-03-12 2017-11-28 联想(北京)有限公司 信息处理方法、电子设备及词库服务器
CN103336585A (zh) * 2013-07-19 2013-10-02 北京百文宝科技股份有限公司 基于场景感知的一字一键中文输入方法和设备
CN103500016A (zh) * 2013-09-27 2014-01-08 北京邮电大学 一种基于交互的文字输入优化方法
WO2015109902A1 (zh) * 2014-01-26 2015-07-30 百度在线网络技术(北京)有限公司 个性化信息的处理方法、装置、设备及非易失性计算机存储介质
CN103810157A (zh) * 2014-02-28 2014-05-21 百度在线网络技术(北京)有限公司 输入法实现方法和装置
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN103956169B (zh) * 2014-04-17 2017-07-21 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN105515938A (zh) * 2014-09-24 2016-04-20 北京三星通信技术研究有限公司 生成通信信息的方法和装置
CN105515938B (zh) * 2014-09-24 2020-04-17 北京三星通信技术研究有限公司 生成通信信息的方法和装置
CN105528338A (zh) * 2014-09-30 2016-04-27 上海触乐信息科技有限公司 智能预测的输入方法和系统
CN104360759A (zh) * 2014-11-21 2015-02-18 百度在线网络技术(北京)有限公司 候选字排序方法、装置和文字输入方法、设备
CN104360759B (zh) * 2014-11-21 2017-03-08 百度在线网络技术(北京)有限公司 候选字排序方法、装置和文字输入方法、设备
CN104765526A (zh) * 2015-03-18 2015-07-08 百度在线网络技术(北京)有限公司 一种过滤候选词条的方法与装置
CN104933296A (zh) * 2015-05-28 2015-09-23 汤海京 一种基于多维数据融合的大数据处理方法和设备
CN105243121B (zh) * 2015-09-29 2018-08-21 中国运载火箭技术研究院 一种基于数据挖掘的文本数据网络构建系统
CN105589575A (zh) * 2015-12-28 2016-05-18 小米科技有限责任公司 输入法调用方法及装置
CN105589575B (zh) * 2015-12-28 2019-06-21 小米科技有限责任公司 输入法调用方法及装置
CN107315487B (zh) * 2016-04-27 2022-04-12 北京搜狗科技发展有限公司 一种输入处理方法、装置及电子设备
CN107315487A (zh) * 2016-04-27 2017-11-03 北京搜狗科技发展有限公司 一种输入处理方法、装置及电子设备
CN106354278A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种结合应用程序的文字输入方法及终端
CN106527754A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种优先字词排列方法、装置和一种移动终端
CN109240511A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 一种更新词库的方法、系统和一种用于更新词库的装置
CN107943319A (zh) * 2017-11-28 2018-04-20 科大讯飞股份有限公司 一种模拟输入法操作的方法及装置
WO2019223259A1 (zh) * 2018-05-25 2019-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置
CN111103986A (zh) * 2018-10-26 2020-05-05 北京搜狗科技发展有限公司 用户词库管理方法及装置、输入方法及装置
CN111103986B (zh) * 2018-10-26 2023-11-14 北京搜狗科技发展有限公司 用户词库管理方法及装置、输入方法及装置
CN111984131A (zh) * 2020-07-07 2020-11-24 北京语言大学 一种基于动态权重进行信息输入的方法及系统
CN111984131B (zh) * 2020-07-07 2021-05-14 北京语言大学 一种基于动态权重进行信息输入的方法及系统
CN112148941A (zh) * 2020-09-24 2020-12-29 网易(杭州)网络有限公司 信息提示方法、装置和终端设备
CN112148941B (zh) * 2020-09-24 2023-07-25 网易(杭州)网络有限公司 信息提示方法、装置和终端设备
CN113610231A (zh) * 2021-08-19 2021-11-05 北京金山数字娱乐科技有限公司 语言模型训练方法及装置和词组推荐方法及装置
CN113610231B (zh) * 2021-08-19 2024-06-28 北京金山数字娱乐科技有限公司 语言模型训练方法及装置和词组推荐方法及装置
CN114791769A (zh) * 2022-06-24 2022-07-26 湖北云享客数字智能科技有限公司 一种用户行为预测结果的大数据库建立方法

Also Published As

Publication number Publication date
CN101398834B (zh) 2010-08-11

Similar Documents

Publication Publication Date Title
CN101398834B (zh) 一种针对输入信息的处理方法和装置及一种输入法系统
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN101373468B (zh) 一种加载词库的方法、字符输入的方法和输入法系统
CN101388011A (zh) 一种向用户词库中记录信息的方法和装置
US8239189B2 (en) Method and system for estimating a sentiment for an entity
CA2581597C (en) Method and system to index captioned objects in published literature for information discovery tasks
CN101334774B (zh) 一种字符输入的方法和输入法系统
CN112131449A (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
US20120166477A1 (en) Universal Interface for Retrieval of Information in a Computer System
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
US20030123721A1 (en) System and method for gathering, indexing, and supplying publicly available data charts
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN102779140A (zh) 一种关键词获取方法及装置
CN112069319A (zh) 文本抽取方法、装置、计算机设备和可读存储介质
CN101566984A (zh) 一种应用在个人手持设备中的搜索引擎和资源搜索方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN104123366A (zh) 一种搜索方法及搜索服务器
CN101751439A (zh) 基于层次聚类的图像检索方法
CN110019703A (zh) 数据标记方法及装置、智能问答方法及系统
CN112270579A (zh) 一种基于大数据的智能广告系统
CN113221562A (zh) 一种基于知识图谱提高文书档案检索效率的方法及系统
CN103425767B (zh) 一种提示数据的确定方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant