CN101114298A

CN101114298A - 一种获取口语词条的方法、装置以及一种输入法系统

Info

Publication number: CN101114298A
Application number: CNA2007101212479A
Authority: CN
Inventors: 张扬; 郭奇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2007-08-31
Filing date: 2007-08-31
Publication date: 2008-01-30
Anticipated expiration: 2027-08-31
Also published as: CN100595760C

Abstract

本发明提供了一种获取口语词条的方法，包括：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；针对抽取得到的词条进行过滤，得到所需的口语词条。首先，本发明能够自动实现从互联网语料库中抽取大量的口语词条，效率较高而且成本较低，可以适应口语词汇变化更新速度比较快的特性。其次，本发明通过对口语模板的迭代优化，可以得到非常贴近实际情况、准确率和覆盖率较高的口语模板；进而，利用这样的口语模板进行智能组词，可以不受限于词库中所收录的口语词条实例；以及，利用这样的口语模板进行分词，可以得到对原始语料的合理切分。

Description

一种获取口语词条的方法、装置以及一种输入法系统

技术领域

本发明属于信息处理领域，特别是涉及一种从互联网信息中提取口语词条的方法和装置，以及一种应用在前述过程中得到的口语词条和口语模板的输入法系统和一种分词装置。

背景技术

当前的输入法系统(包括中文、日文等等)都是基于其词库系统以及词库系统中的词频来为使用者在信息输入过程中提供候选词的排序。候选词的排序是使用者在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指，接收用户的输入信息之后，排序在前的词汇或字是用户最需要的。

现有技术为了提高首选词命中率，采取了各种措施，例如，扩大词库的容量，存储更多的词条；或者通过各种方式获取最近的新词以及更准确的词频信息；或者，采用加载专业词库的方式，提高用户在某些特殊输入情况下的首选词命中率。应该说，这些技术改进在一定程度上可以提高用户的首选词命中率，但是对于本发明期望处理的口语词条，却是无能为力。

本发明期望获取的口语词条实际上可以分为两个类别，一是普通的口头用语，一是网络语言。对于口头用语，由于人们对口头用语的使用比书面语更加的灵活和不拘一格，如，“试试看”、“走一走”、“吃个饭”、“打会球”等等，所以采用现有的各种词汇的收集方法难以获得准确的和足够全面的口头用语。而对于网络语言，由于其具有更为复杂的特性，例如：汉字/数字/字母混用(“8错”、“期待ing”等)，甚至还有符号的参与；错词率非常高(“娃哈哈”、“哇哈哈”、“挖哈哈”等)；随时间的动态变化性很强。所以采用现有的各种词汇的收集方法更是无法获取。

现今对上述的口语词条的获取和研究往往采用人工的形式，因为研究人员的主观能动性可以很好的满足这些口语词条的复杂特性。例如，由北京广播学院播音主持艺术学院研究员于根元编纂的《中国网络用语词典》在2001年6月份正式出版。该词典收入词条2000多条，正文约40万字，它的来源就是依靠人工整理。但是人工收集有着难以克服的缺陷：收集速度太低、成本太高；并且，其收集速度难以适应口语词条的更新速度。进而，由于语言的更新速度越来越快，新的网络语言词汇及用法层出不穷，单纯依靠人工的方式要持续耗费大量的人力物力。

由于随着互联网的兴起，人们相互交流通信的代价大为降低，发布信息更多也更便捷，因此，语言也以一种前所未有的速度疯狂发展。网民在BBS、Blog和即时通讯工具上发布信息的过程中，使用口语词条的机会大大增加，而现有的输入法却无法满足这样需求。

因此，当前需要本领域技术人员迫切解决的一个技术问题就是：提出一种创新的口语词条的自动获取方法，以获得比较准确和全面的口语词条集合；进而为用户的信息输入提供方便。

发明内容

本发明所要解决的技术问题是提供一种能够自动获取口语词条的方法和装置，以从丰富的互联网语料中获取所需的口语词条，能够快速地获取较大量的口语词汇并应用到中文输入法、中文分词乃至语言研究中。

相应的，本发明还提供了一种应用在前述过程中得到的口语词条和口语模板的输入法系统，能够帮助用户更好的输入口语词汇，提高输入体验和输入效率。

相应的，本发明还提供了一种应用在前述过程中得到的口语词条和口语模板的分词装置，能够实现对原始语料更合理的切分。

为了解决上述问题，本发明公开了一种获取口语词条的方法，包括：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；针对抽取得到的词条进行过滤，得到所需的口语词条。

优选的，可以通过以下预置策略完成对词条的抽取：预置多个规则模板，所述规则模板用于描述词条中的单字组合方式；依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

优选的，也可以通过以下预置策略完成对词条的抽取：针对语料库中一给定的字符串，依据分词词库进行切分；将分词碎片转换为多个候选词条；依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。

优选的，还可以通过以下预置策略完成对词条的抽取：针对语料库中一给定的字符串，依据分词词库进行切分；将分词碎片转换为多个候选词条；依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板；所述规则模板用于描述词条中的单字组合方式。

优选的，所述方法还可以包括：分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则模板或新特征。

优选的，所述方法还可以包括：将获得的口语词条添加至输入法词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添加至输入法智能组词规则库中。

优选的，所述方法还可以包括：将获得的口语词条添加至语料分词词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添加至语料分词规则库中。

优选的，所述方法还可以包括：针对词条进行纠错。

优选的，所述方法还可以包括：基于词条在发音上的相似性，将词条的各种变体转变为标准形式。

优选的，所述方法还可以包括：对所收集的互联网语料进行数据净化预处理。

依据本发明的另一实施例，还公开了一种获取口语词条的装置，包括：

语料获取模块，用于定向获取所需的互联网语料，形成语料库；

词条抽取模块，用于按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；

过滤模块，用于针对抽取得到的词条进行过滤，得到所需的口语词条。

其中，所述词条抽取模块可以进一步包括：多个规则模板，所述规则模板用于描述词条中的单字组合方式；模板抽取子模块，用于依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

或者，所述词条抽取模块也可以进一步包括：切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；转换器，用于将分词碎片转换为多个候选词条；特征抽取子模块，用于依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。

或者，所述词条抽取模块也可以进一步包括：切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；转换器，用于将分词碎片转换为多个候选词条；多个规则模板，所述规则模板用于描述词条中的单字组合方式；模板抽取子模块，用于依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

优选的，所述的装置还可以包括：分析反馈模块，用于分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则模板或新特征。

优选的，所述的装置还可以包括：纠错模块，用于针对词条进行纠错。

优选的，所述的装置还可以包括：词条归一化模块，用于基于词条在发音上的相似性，将词条的各种变体转变为标准形式。

依据本发明的另一实施例，还公开了一种输入法系统，包括：

词库；

口语模板；

输入接口单元，用于接收用户的输入信息；

信息转换单元，用于依据所接收的输入信息，检索词库，得到相应的候选项；

智能组词单元，用于依据所述口语模板，智能组词得到相应的候选项；

显示输出单元，用于展示候选项，并输出用户选择的候选项。

其中，所述口语模板可以通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板。

依据本发明的另一实施例，还公开了另一种输入法系统，包括：

存储有口语词条的词库；所述口语词条通过以下方式获取：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；其中，所述预置策略与口语词条的各种特征相关；

口语模板；所述口语模板通过以下方式得到：分析所获取的口语词条，针对预置策略提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；

输入接口单元，用于接收用户的输入信息；

依据本发明的另一实施例，还公开了一种分词装置，包括：

分词词库；

存储有口语模板的分词规则库，所述口语模板通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；

分词执行模块，用于利用分词词库中的词条和分词规则库中的规则模板对语料进行分词。

依据本发明的另一实施例，还公开了另一种分词装置，包括：

存储有口语词条的分词词库，所述口语词条通过以下方式获取：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；其中，所述预置策略与口语词条的各种特征相关；

存储有口语模板的分词规则库，所述口语模板通过以下方式得到：分析所获取的口语词条，针对预置策略提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；

依据本发明的另一实施例，还公开了一种智能组词的方法，包括：接收用户的输入信息；依据所述输入信息与预置的口语模板，智能组词得到相应的候选项；展示候选项，并输出用户选择的候选项。

优选的，所述口语模板可以通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板。

与现有技术相比，本发明具有以下优点：

首先，本发明能够自动实现从互联网语料库中抽取大量的口语词条，效率较高而且成本较低，并且可以适应口语词汇变化更新速度比较快的特性。

其次，本发明通过对口语模板的迭代优化(包括改进和扩充)，可以得到非常贴近实际情况、准确率和覆盖率较高的口语模板；进而，利用这样的口语模板进行智能组词，可以不受限于词库中所收录的口语词条实例；以及，利用这样的口语模板进行分词，可以得到对原始语料的合理切分。

附图说明

图1是本发明一种获取口语词条的方法实施例的步骤流程图；

图2是本发明一种获取口语词条的方法优选实施例的步骤流程图；

图3是本发明一种获取口语词条的装置实施例的结构框图；

图4是本发明一种输入法系统实施例的结构框图；

图5是本发明另一种输入法系统实施例的结构框图；

图6是本发明一种分词装置实施例的结构框图；

图7是本发明另一种分词装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明所述的方法可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参照图1，示出了本发明一种获取口语词条的方法实施例，具体可以包括：

步骤101、定向获取所需的互联网语料，形成语料库。

语料一词，一般可以理解为：用于获取所需信息训练文本处理模型的文本样本；其精度、覆盖面直接决定了获取信息的质量和训练出的模型精度。而本发明所希望获取的口语词条在某些互联网语料中出现的比较频繁，而在另外一些互联网语料中出现的则比较少，因此，本发明需要定向获取所需的语料。定向获取的方式可以提高语料的质量，避免由于语料不精导致的一些本来不属于抽取目标的词汇却混入了符合抽取条件的行列，比如一些工作招聘信息中的短句或缩写等。

例如，本发明可以获取那些口语词条频繁出现的BBS、blog、用户个性化口语词库或文本/语音聊天记录等资源。获取方式可以为：使用定向网络蜘蛛(focused crawler)抽取，或者从可信任的用户词库或聊天记录库中获得，比如，搜狗输入法官方主页提供的用户细胞词库上传功能等。而对于定向抽取，站点的选取可以是指定站点抽取，也可以是基于抽取网页内容的分类点过滤。而具体的抽取过程属于本领域公知的技术内容，在此不再详述。

步骤102、按照预置策略，从所述语料库中抽取符合条件的词条。

本发明涉及的口语词条可以包括两个类别的未被传统词典收录的词条(Out-of-Vocabulary word，未登录词)：一是词典词条的口语化派生用法，如“吃个饭”、“高高兴兴”、“试试看”；另一类是在互联网应用中广为使用的互联网语言，如 “轰趴”、“酱紫”、“8错”、“PPMM”等。虽然前一类别的词条在人们的日常交际中使用更为普遍，但是由于主要以声音为媒介，所以是无法收集到相关语料的，而随着互联网的兴起，这些词汇越来越多的出现在互联网这个海量的资源仓库里，因此，本发明才得以对这些词条进行抽取和挖掘。另一方面，互联网语言和传统的口头语言这两类之间也没有绝对的界限，它们总是互相影响，互相渗透，而且在互联网这个海量的资源库中同存共生。也正因为此，本发明才能通过一些方法，把它们及时大量的抽取出来并加以研究。当然，为了能够抽取获得符合条件的词条，首先需要对上述词条进行特征分析，进而建立相应的抽取策略。

步骤102中的策略就可以基于对口语词条的特征分析情况进行设置，一般的，抽取策略可以分为规则模板和统计分类两种，或者二者的混合情况。下面简单介绍：

方式1

可以通过以下预置策略完成对词条的抽取：预置多个规则模板，所述规则模板用于描述词条中的单字组合方式；依据所述规则模板进行多次词条抽取(当然，在规则模板较少的情况下，也可以仅仅进行一次抽取)，每次词条抽取采用一个或者多个规则模板。例如，ABC(抽支烟)、AAB(试试看)、ABAB(欢欢喜喜)模板等，每次可以设定一个或多个模板用于词条抽取。

方式2

可以通过以下预置策略完成对词条的抽取：针对语料库中一给定的字符串，依据分词词库进行切分；将分词碎片转换为多个候选词条；依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。方式2属于统计分类的一种具体实现，其原理主要依托于机器学习领域的分类理论。例如，给定一个长度为n的汉字串，首先使用一个分词器对该串进行切分，其中的口语串因为未收录在分词词典中而成为分词碎片；然后把分词碎片转化为一系列的可能的口语词条候选，再根据口语词条的一些特征判定每一个候选是或者不是口语词条，从而完成分类。例如，依据词条的频率，标点、长度等上下文特征进行判定等等。

由于发现的口语词条很可能在接下来的分词过程中出现，这些词条可以动态的加入分词词库中，提升分词精度。方式2主要针对分词碎片的口语词条抽取，如果采用方式1进行抽取的话，则可以不需要分词处理。

上面两个方式相比，方式1所采用的规则模板的抽取方案，其执行过程比较简单，但是其词条抽取的质量和数量受限于模板自身的质量和覆盖面。方式2所采用的统计分类方案虽然可操作性较高，但需要大量的数据做统计，但是实际中往往存在“数据稀疏”问题。因此在本发明的优选实施例中，可以考虑两者的混合，将一些规则模板等判定标准以特征形式整合到统计判别分类模型中，往往能获得更好的效果。详见下面的方式3的介绍。

方式3

可以通过以下预置策略完成对词条的抽取：针对语料库中一给定的字符串，依据分词词库进行切分；将分词碎片转换为多个候选词条；依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板；所述规则模板用于描述词条中的单字组合方式。

例如，根据下述的特征模板，对每一个候选进行二元分类，所述AAB、ABC、AABB等形式特性也作为分类的一类特征。在统计分类模型的大框架下，结合其他类别的特征综合判定每个候选是否是口语词条，往往能获得较高的评判精度。

下表提供了一些可能的口语词条特征和一些可能的口语模板：

划分依据	特征	备注
划分依据	特征	备注	形式特征(基于/不基于分词碎片)	ABAB	例如，痛快痛快
AABB	例如，高高兴兴，欢欢喜喜			ABAB	例如，痛快痛快
AABB	例如，高高兴兴，欢欢喜喜	ABA		例如，尝一尝，用一用
ABC	AC是词典中的二字词，B是“个、支、完、一”等；例如，“抽支烟”、“打完球”等；	ABA		例如，尝一尝，用一用
ABC	AC是词典中的二字词，B是“个、支、完、一”等；例如，“抽支烟”、“打完球”等；	AAB		例如，试试看，跑跑步
分词碎片中的1+1，2+1等模式	例如，“轰/趴”(home party)拼音/门	AAB		例如，试试看，跑跑步
分词碎片中的1+1，2+1等模式	例如，“轰/趴”(home party)拼音/门	语法特征		暴+<形容词>，一般是分词碎片	例如，“暴强”，“暴有钱”，“暴爽”
单字成词概率	某字成词(二字词及以上)的出现次数/该字出现次数计数(包括单字和成词形式)	语法特征		暴+<形容词>，一般是分词碎片	例如，“暴强”，“暴有钱”，“暴爽”
单字成词概率	某字成词(二字词及以上)的出现次数/该字出现次数计数(包括单字和成词形式)	文档频率		在多少个文档中出现	在不同文档中出现次数越多，是口语新词的可能性越大，但也可能是噪音
词频	在同一文档中出现次数	文档频率		在多少个文档中出现	在不同文档中出现次数越多，是口语新词的可能性越大，但也可能是噪音
词频	在同一文档中出现次数	上下文特征		常用标点，句子长度	“呵呵～～～”，“咋了？”，“再说了，你试试看不就知道了？”

其他

垃圾词典

整理的垃圾词条列表，如果命中则可以直接丢弃该词条

上面简单介绍了采用规则模板和统计分类及二者组合应用的词条抽取方案，但是本领域技术人员应该知悉，还可能存在其他可行的抽取方案，即本发明并不限于上述的三种抽取方式，只要依据口语词条的各种特征及判定标准进行抽取，就属于本发明所述的预置策略的解释范围。

步骤103、针对抽取得到的词条进行过滤，得到所需的口语词条。

所述过滤规则可以包括但不限于按照出现频率、成词概率、时间、语法和形式特征等标准，也可以按照出现范围等信息学相关标准。当然，在特定情况下，还可以采用人工过滤的方式。优选的，还可以采用一些外界资源或信息学理论过滤其中的垃圾。

例如，依据所收集整理的垃圾词典、垃圾词的前后缀词表等等进行过滤，以去除垃圾词汇。

再例如，按照信息熵理论，抽取词条频率以及出现在该词条左/右邻不同汉字的个数，从而判断该词条是否是碎词，即不属于本发明所需的口语词条。举一个例子，对于按照ABA模板抽取的词条“又气又”，发现左边一个“又”左边出现的字比较多，而右边一个“又”字右边出现的字很少，集中在“恨、恼”上，从而可以知道它是一个碎词，即“又气又”并不是本发明所需的类似“尝一尝”之类的口语词条。

再例如，还可以针对每个所得到的词条，在语料库中统计其出现次数，如果大于或者等于预定阈值，则确定该词条为所需的口语词条。

参照图2，示出了一种获取口语词条的优选实施例，具体可以包括以下步骤，其中，与图1所示实施例相似部分就不再详述。

步骤201、定向获取所需的互联网语料，形成语料库。

步骤202、对所收集的互联网语料进行数据净化预处理。

如前所述，语料的质量直接影响了最终抽取的词条的质量，因此，在本优选实施例中，增加了净化的预处理步骤。例如，从格式方面，可以去除网页中的html标签等无效信息；从内容方面，还可以去除一些类型网页上的无效模板，例如，BBS网页中的一些固定模板信息等。有些情况下还需要去除某些用户的干扰输入，比如一些BBS用户喜欢用多个“顶”字拼凑成一个大的“顶”字以表达自己强烈的情感，或者将某个短语或句子重复若干遍。诸如此类的情况都会对抽取过程造成影响，因此，都可以通过步骤202加以去除。

如果语料来源是用户的语音聊天记录，则还需要作语音到汉字的转换，使得提供给抽取步骤的输入统一为计算机能处理的文本格式。

步骤203、按照预置策略，从所述语料库中抽取符合条件的词条。

步骤204、针对词条进行纠错。

即纠正词条中的错别字，优选的，可以基于上下文的相似度，对词条中的错别字进行更正。例如，“博斗”一般是作为“搏斗”的错误形式，但如果上下文有博客、争斗、骂等关键词，可以认定它这里是指博主在博客上互相争斗的意思，并不一定是错词。再例如，王菲专辑《菲卖品》、“默默无蚊”广告词等等，经过结合深入的上下文分析可以判定它们并不是错词，不需要更正。

步骤205、基于词条在发音上的相似性，将词条的各种变体(例如，数字、英文等)转变为标准形式。一般的标准形式可以通过出现频率的高低加以判定。通常可以将步骤205称为“词条归一化”的过程，例如，将“88”，“bye bye”全部转化为标准形式“bye bye”；“娃哈哈”、“哇哈哈”、“挖哈哈”全部转化为标准的“娃哈哈”，等等。具体归一化的方法可以但不限于基于发音模型建立数字、英文到汉字的映射；优选的，具体归一化的过程还需要考虑上下文的相似性。

需要说明的是，步骤204和步骤205并不必然同时出现，因为其分别针对不同的词条误差。另外，如果本发明所获取的口语词条主要用于输入法，则由于中文输入法词库词条必须严格是汉字以方便注音，在这个应用场景中就必须将词条中包含的数字、字母、符号等归一化。而当本发明所获取的口语词条主要用于中文分词时，则由于中文分词应用中并不要求词库词条必须全为汉字，有相当一部分是商标名、命名实体等包含数字、字母的，则可以保留这些词条的原始形式而不用做词条归一化。

步骤206、针对抽取得到的词条进行过滤，得到所需的口语词条。

需要进一步说明的是，虽然在本实施例的描述中，步骤204、步骤205和步骤206是依次描述的，但是实际上，这三个步骤还可以同时完成，即在一个步骤中完成。

步骤207、分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则模板或新特征。

步骤207所提供的反馈信息可以针对步骤202提供一些无效模板，或者针对原有无效模板的改进，以实现更优的净化预处理过程。步骤207所提供的反馈信息还可以针对步骤203提供优化的或者新的抽取模板，以提高词条抽取的准确性和全面性。从步骤207可以看出，规则模板的抽取和改进是一个迭代的过程，逐渐的可以达到最佳点。

比如ABC模板的迭代优化：其中AC要求是词典里的词。第一步可以选定一批B字种子，如“完”、“只”、“个”，统计出一批ABC词条。第二步统计这里面与AC词条共现的B字集合，也进行必要的人工监控，从而扩充一开始的B字种子，再进入第一步。如此迭代，可以找出绝大多数符合ABC模板的B字集合。

同样的，这个迭代过程还可以用于在抽取的口语词条实例中发现新的模板。比如某段时间内获取了很多词条诸如“暴强”、“暴爽”、“暴有钱”等，那么我们可以通过机器自动发现或者人工干预的形式，发现“暴+<形容词>”的模板，这里“暴”作为一个程度副词，与“很”“非常”同义。然后我们可以有意识的应用这个模板，抽取到“暴郁闷”、“暴帅气”等更多的词条。相同的道理可以自动发现“倍+<形容词>”、“<形容词>+的说”和“……撒”模板等等。从而逐渐的得到全面性和精确度都比较高的口语模板。

再例如，通过分析可以得知，所抽取的“越来越”、“人见人”等词条，并不应该属于“ABA”模板中的口语词条，而应该属于ABAC模板中词条的一部分，从而通过增加限定条件而优化“ABA”模板。对于所抽取的“先进后”等词条，通过分析可以得知，其并不应该属于“ABC”模板中的口语词条，而应该属于ABCD模板，其中AC互为反义词；从而调整抽取模板，更新过滤标准，进行更加有效的抽取。

步骤208、将获得的口语词条添加至输入法词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添加至输入法智能组词规则库中。

智能组词，一般可以理解为：输入法工具根据输入的拼音，从若干可能的汉字串候选中动态的选取最可能候选输出汉字串的过程。由于其属于本领域的公知技术，在现有输入法中已经应用较多，但是现有的智能组词一般都是根据词之间的连接概率信息进行组词的，而本发明创新的提出还可以通过预置口语模板进行口语词汇的智能组词。例如，最简单的一种在智能组词中应用口语模板的方式可以为：依据用户的输入信息得到多个可能的单字组合，然后利用口语模板对这些单字组合进行匹配过滤，则可以得到在词库中没有存储的口语词条作为候选项。

实际上，传统的输入法对于各种可能的音节切分，总是结合相邻的音节段到词库里查找对应的汉字候选；而在本发明下的组词过程中，可以跨音节进行模板的匹配。比如gao’gao’xing’xing切分结果符合AABB模板，它可以将AB拼音结合在一起查找词典里的词条，而不会像传统输入法那样以字为单位组词，潜在地降低了组词开销。

具体而言，在步骤208中，仅仅将获得的口语词条添加至输入法词库中，即属于基于口语词条实例的精确匹配，相当于把口语词条实例扩充已有词库，由于本发明能够获取大量的口语词条实例，所以可以在一定程度上提高用户对口语词条的输入效率，但是难以解决未收录词条的情况。而将依据反馈信息改进后的抽取策略中的规则模板添加至输入法智能组词规则库中，则属于基于口语模板的动态构建。比如已有模板ABC，其中AC是词库收录的一个动宾短语，而B的范围是有限并可以动态发现的，如“个、支、完、一”。那么在用户输入拼音串“xi’ge’zao”时，输入法发现该拼音对应的候选“洗个澡”完全匹配该模板，从而能将洗个澡作为最佳答案输出。当然，这两种方法不是互斥的，可以同时存在以满足不同场合的需要。

例如，用户输入字符串“huanle”，则候选项显示“欢乐”等词库已有的普通词条以及“换了”等词库已有的口语词条；而当用户输入字符串“huanle钱”，则候选项首词显示“还了钱”，紧接着显示“换了钱”等，因为依据预置的口语模板，在已有模板ABC中，AC是词库收录的一个动宾短语“还钱”或者“换钱”，而“了”属于B集合中的一个，因此，可以智能组词得到词库中没有的候选项“还了钱”和“换了钱”，以进一步方便用户的口语输入。

进一步，由于本发明的口语模板通过多次迭代之后，可以达到很好的准确度和全面性，因此，将其应用在输入法系统中，则可以更好的满足用户的输入需求，提高用户口语词条的输入效率。

本发明可以应用于各种输入方式的输入法平台，包括键盘符号、手写信息以及语音输入等等。即所述输入信息可以包括编码字符串，也可以包括手写输入信息以及语音输入的信息，因为这些输入方式也都需要用到词库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术，在此就不详述了。下面仅仅以编码字符串输入为例进行详细说明。

另外，由于现有技术中，输入法平台可以运行在多种计算设备上，例如，个人电脑、个人数字助理、移动终端设备等等，所以本发明也可以适用在上述各种计算设备中。

本发明可以应用于日文、韩文等需要出现候选词排序的输入法系统，例如，对于日文而言，由目文中的平假名、片假名拼成短语的时候就需要出现候选词排序。由于本发明在上述几种输入法系统中的应用都是相似的，所以为了方便说明，本说明书仅仅以应用在中文的情况进行举例说明。

步骤209、将获得的口语词条添加至语料分词词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添加至语料分词规则库中。

以中文为例，中文分词应用，尤其是信息检索领域的中文分词，主要是采用基于词典的分词方法，很大程度上依赖于词条的覆盖面，收录部分口语类的未登录词有助于提升分词精度；进一步，将本发明迭代获取的优质口语模板进行词边界的动态切分，可以获得更佳的分词效果。至于具体的分词过程，由于并非本发明的重点，因此不再详述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参照图3，示出了一种获取口语词条的装置实施例，具体可以包括以下部件：

语料获取模块301，用于定向获取所需的互联网语料，形成语料库；

词条抽取模块302，用于按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；

过滤模块303，用于针对抽取得到的词条进行过滤，得到所需的口语词条。

在本发明的一个实施例中，所述词条抽取模块可以进一步包括：多个规则模板，所述规则模板用于描述词条中的单字组合方式；模板抽取子模块，用于依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

在本发明的另一个实施例中，所述词条抽取模块可以进一步细分为：切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；转换器，用于将分词碎片转换为多个候选词条；特征抽取子模块，用于依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。

在本发明的另一个实施例中，所述词条抽取模块可以进一步包括：切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；转换器，用于将分词碎片转换为多个候选词条；多个规则模板，所述规则模板用于描述词条中的单字组合方式；模板抽取子模块，用于依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

为了获得优质的口语模板，在本发明一优选实施例中，还可以包括：分析反馈模块304，用于分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则模板或新特征。

为了提高词条获取的准确性，在本发明一优选实施例中，还可以包括：纠错模块305，用于在过滤之前，针对词条进行纠错。以及，词条归一化模块306，用于在过滤之前，基于词条在发音上的相似性，将词条的各种变体转变为标准形式。当然，这两个模块，并不一定需要同时包括，根据需要择一选用即可。

为了提高语料的精度，本实施例还可以包括预处理模块307，用于对所收集的互联网语料进行数据净化预处理。

参照图4，示出了一种输入法系统实施例，具体可以包括

词库401；

口语模板402；所述口语模板通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；实际上，如前表所示，本发明所述的口语模板还可以包括一些口语规则；

输入接口单元403，用于接收用户的输入信息；

信息转换单元404，用于依据所接收的输入信息，检索词库501，得到相应的候选项；

智能组词单元405，用于依据口语模板402，智能组词得到相应的候选项；

显示输出单元406，用于展示候选项，并输出用户选择的候选项。

实际上，正是本发明第一次提出将口语模板引入到智能组词过程中，因而，使得在不需要预置很完善的口语词条实例的词库条件下，也可以帮助用户快速输入所需的口语词条。而对于口语模板的设立，本发明并不需要加以限定，本领域技术人员可以通过各种方式获取，例如，人工设定等等。当然，在图4的实施例中，提出了一种得到较佳的口语模板的方式，以进一步提高用户输入口语词条的效率，但不能将该方式认为是本发明获取口语模板的唯一方式。

如果采用口语模板通过智能组词进行口语词汇的输出，则从表象上看可以表现为：对于词库中没有的口语词条，在没有启动智能组词的情况下无法输入，而在启动智能组词的情况下则可以输入；或者，如果提供开关口语模板功能，则在关闭口语模板功能的情况下，无法输入词库中没有的口语词条，而开启口语模板功能之后，就可以输入。

参照图5，示出了另一种输入法系统实施例，包括：

存储有口语词条的词库501；所述口语词条通过以下方式获取：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；其中，所述预置策略与口语词条的各种特征相关；

口语模板502；所述口语模板通过以下方式得到：分析所获取的口语词条，针对预置策略提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；

输入接口单元503，用于接收用户的输入信息；

信息转换单元504，用于依据所接收的输入信息，检索存储有口语词条的词库501，得到相应的候选项；

智能组词单元505，用于依据口语模板502，智能组词得到相应的候选项；

显示输出单元506，用于展示候选项，并输出用户选择的候选项。

图4和图5是比较相近的两个实施例，主要区别在于，图4所示的实施例仅仅将本发明通过迭代优化得到的口语模板应用到输入法系统中，主要通过口语模板来完成口语词条的输入；而图5所示的实施例则将本发明得到的口语词条和口语模板都应用到输入法系统中，通过口语词条实例的覆盖以及口语模板的补充，则可以达到更佳的输入效果。

参照图6，示出了一种分词装置的实施例，具体可以包括：

分词词库601；

存储有口语模板的分词规则库602，所述口语模板通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；

分词执行模块603，用于利用分词词库中的词条和分词规则库中的规则模板对语料进行分词。

参照图7，示出了另一种分词装置的实施例，包括：

存储有口语词条的分词词库701，所述口语词条通过以下方式获取：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；其中，所述预置策略与口语词条的各种特征相关；

存储有口语模板的分词规则库702，所述口语模板通过以下方式得到：分析所获取的口语词条，针对预置策略提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板；

分词执行模块703，用于利用分词词库中的词条和分词规则库中的规则模板对语料进行分词。

图6和图7是比较相近的两个实施例，主要区别在于，图6所示的实施例仅仅将本发明通过迭代优化得到的口语模板应用到分词过程中，主要通过口语模板来提高分词效率；而图7所示的实施例则将本发明得到的口语词条和口语模板都应用到分词过程中，通过口语词条实例的覆盖以及口语模板的补充，则可以达到更合理的分词效果。

相应的本发明还公开了一种智能组词的方法实施例，即利用智能组词得到候选项的过程，具体包括：

步骤a、接收用户的输入信息；

步骤b、依据所述输入信息与预置的口语模板，智能组词得到相应的候选项；

步骤c、展示候选项，并输出用户选择的候选项。

其中，优选的，所述口语模板可以通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

总之，输入法系统作为软件/互联网公司“抢占用户桌面”最重要的一步，其自身的质量和用户友好程度直接决定了用户是否乐意于选用该输入法，或者从其他输入法转向该输入法。随着互联网基础设施的不断完善，普通网民互相交流的方式日益增多，便利程度也越来越加强，他们可以通过oicq/icq、live/yahoo/aol mes senger等IM，BBS，blog评论等形式用口头语言进行交流。这种情况凸显了传统输入法词库缺乏鲜活的口语词汇和网民日益增长的使用口语网络语言交流的矛盾。而本发明所提出的技术方案就可以快速有效的获取口语化词汇，并不断发现其中的口语模板，能够达到如下的技术效果：

1、覆盖较大规模的口语词条的范围。对抽取出来的口语词条不是简单的加进输入法词库，而是将规则模板等参与智能组词，这样能覆盖更多的情况，提升用户的输入流畅度。

2、及时有效的更新词条。我们知道，互联网语言有着更新变化速度快的特点，由于本发明是一种自动的抽取方法，需要人工参与干涉的地方较少，所以可以及时的获取当前最新的口语词汇，获知当前口语变化的趋势。

另一方面，面对海量的数据，人们需要快速准确的管理和访问所需的信息，其中包括电子邮件、聊天记录、多媒体文档等个人数据。处理这些信息所用到的分词程序很大程度上依赖于分词词库的覆盖程度。通过本发明的口语词条自动抽取方法，我们可以及时大量的扩充分词词库及分词规则库。对于未抽取到的口语词条实例，则也可以通过模板匹配的方式做出处理。

以上对本发明所提供的一种从互联网信息中提取口语词条的方法和装置，一种智能组词的方法以及一种应用在前述过程中得到的口语词条和口语模板的输入法系统和一种分词装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种获取口语词条的方法，其特征在于，包括：

定向获取所需的互联网语料，形成语料库；

按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；

针对抽取得到的词条进行过滤，得到所需的口语词条。

2.如权利要求1所述的方法，其特征在于，通过以下预置策略完成对词条的抽取：

预置多个规则模板，所述规则模板用于描述词条中的单字组合方式；

依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

3.如权利要求1所述的方法，其特征在于，通过以下预置策略完成对词条的抽取：

针对语料库中一给定的字符串，依据分词词库进行切分；

将分词碎片转换为多个候选词条；

依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。

4.如权利要求1所述的方法，其特征在于，通过以下预置策略完成对词条的抽取：

针对语料库中一给定的字符串，依据分词词库进行切分；

将分词碎片转换为多个候选词条；

依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板；所述规则模板用于描述词条中的单字组合方式。

5.如权利要求1所述的方法，其特征在于，还包括：

分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则模板或新特征。

6.如权利要求5所述的方法，其特征在于，还包括：

将获得的口语词条添加至输入法词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添加至输入法智能组词规则库中。

7.如权利要求5所述的方法，其特征在于，还包括：

将获得的口语词条添加至语料分词词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添加至语料分词规则库中。

8.如权利要求1所述的方法，其特征在于，还包括：

针对词条进行纠错。

9.如权利要求1所述的方法，其特征在于，还包括：

基于词条在发音上的相似性，将词条的各种变体转变为标准形式。

10.如权利要求1所述的方法，其特征在于，还包括：

对所收集的互联网语料进行数据净化预处理。

11.一种获取口语词条的装置，其特征在于，包括：

12.如权利要求11所述的装置，其特征在于，所述词条抽取模块进一步包括：

多个规则模板，所述规则模板用于描述词条中的单字组合方式；

模板抽取子模块，用于依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

13.如权利要求11所述的装置，其特征在于，所述词条抽取模块进一步包括：

切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；

转换器，用于将分词碎片转换为多个候选词条；

特征抽取子模块，用于依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。

14.如权利要求11所述的装置，其特征在于，所述词条抽取模块进一步包括：

转换器，用于将分词碎片转换为多个候选词条；

模板抽取子模块，用于依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。

15.如权利要求11所述的装置，其特征在于，还包括：

分析反馈模块，用于分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则模板或新特征。

16.如权利要求11所述的装置，其特征在于，还包括：

纠错模块，用于针对词条进行纠错。

17.如权利要求11所述的装置，其特征在于，还包括：

词条归一化模块，用于基于词条在发音上的相似性，将词条的各种变体转变为标准形式。

18.一种输入法系统，其特征在于，包括：

词库；

口语模板；

输入接口单元，用于接收用户的输入信息；

19.如权利要求18所述的输入法系统，其特征在于，

所述口语模板通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板。

20.一种输入法系统，其特征在于，包括：

输入接口单元，用于接收用户的输入信息；

21.一种分词装置，其特征在于，包括：

分词词库；

22.一种分词装置，其特征在于，包括：

23.一种智能组词的方法，其特征在于，包括：

接收用户的输入信息；

依据所述输入信息与预置的口语模板，智能组词得到相应的候选项；

展示候选项，并输出用户选择的候选项。

24.如权利要求23所述的方法，其特征在于，所述口语模板通过以下方式得到：定向获取所需的互联网语料，形成语料库；按照预置的规则模板，从所述语料库中抽取符合条件的词条；针对抽取得到的词条进行过滤，得到所需的口语词条；分析所获取的口语词条，针对预置的规则模板提供反馈信息；依据反馈信息优化所述预置策略中的规则模板，得到口语模板。