CN102866783A

CN102866783A - 一种拼音流切分方法和系统

Info

Publication number: CN102866783A
Application number: CN2011101879671A
Authority: CN
Inventors: 关毅; 贾祯
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2011-07-06
Filing date: 2011-07-06
Publication date: 2013-01-09
Anticipated expiration: 2031-07-06
Also published as: CN102866783B

Abstract

本发明实施例提供一种拼音流切分方法，所述方法包括：对输入拼音流中按照时间顺序输入的每一个字符，进行如下处理：以所述字符作为结束字符，确定所述字符与在先输入的且与所述字符相邻的0～3个字符组合后的至少一个合法音节；根据所述至少一个合法音节确定以所述字符为结束符的所述输入拼音流的多条拼音切分路径；计算每一条拼音切分路径的路径权值，根据路径权值由大到小的顺序提取预定数量的拼音切分路径，作为以所述字符作为结束符的所述输入拼音流的切分结果。本发明实施例提供的方法应用于输入法，通过对用户输入的拼音流进行切分和纠错，提高了输入法的后续音字转换效率以及音字转换精度。

Description

一种拼音流切分方法和系统

技术领域

本发明涉及输入法，尤其涉及一种在输入法中使用的基于动态规划的拼音流切分方法和系统。

背景技术

近年来，移动通信和国际互联网成为当今世界市场潜力最大，发展最为迅猛，前景最为广阔的两大产业。本世纪初，全球移动用户总数仅为7.2亿左右，互联网用户为3.6亿左右。到2010年，全球移动用户数突破50亿大关；国际互联网用户超过了20亿。我国移动用户的总数也于今年超过了5亿，互联网用户则接近4亿。随着这两大产业的迅速发展和技术进步，越来越多的人希望在移动的过程中高速地接入互联网查询获取信息及完成工作。于是，体现移动通信与互联网相结合的移动互联网成为历史的必然。

移动互联网是一个覆盖全球的以宽带IP为技术核心，可同时提供话音、传真、数据、图像、多媒体等高品质电信服务的新一代开放的电信基础网络。目前，移动互联网正逐渐渗透到人们生活工作的各个领域，短信、媒体播放、游戏、移动办公、位置服务等丰富多彩的移动互联网应用正在深刻改变信息时代的社会生活。2010年初，国务院常务会议决定加快推进电信网、广播电视网和互联网三网融合，并明确提出了推进三网融合的阶段性目标，更是将发展移动互联网业务推向了我国经济发展优先发展的战略高度。

移动互联网的主要终端设备包括智能手机，具备上网功能的媒体播放器(mp4播放器)，平板电脑等便携设备。其中，智能手机(Smart Phone)是移动互联网的直接终端，是用户体验移动互联网各项服务的窗口。它具备通话、个人信息管理、媒体播放、电子邮件、基于无线数据通信的浏览器等先进功能，并配有操作系统。与传统手机相比较而言，智能手机的电话功能不占优势，但是网络应用是传统手机无法实现的。随着移动互联网在我国的迅速发展，智能手机也获得了迅速的普及。2010年中国智能手机市场分析报告显示：2010年我国智能手机出货量连续三个季度破千万。另据全球电信软件市场研究公司AnalysysMason发布的最新报告称，2010年～2014年预计全球智能手机销量年均增长率为32％，其中，超过50％的增长来自亚太和拉丁美洲等发展中市场。具备上网功能的媒体播放器由于其能随时随地满足人们欣赏视频音乐和上网冲浪的愿望而备受人们的喜爱，成为便携式娱乐设备的新宠。平板电脑则是一种新型的便携式移动设备，具备普通笔记本电脑的一切功能，还具备触控或手写等便于操作的功能，成为人们移动办公、休闲娱乐的必备之选。

苹果公司于2007年推出的智能手机iphone、媒体播放器ipod touch，以及2010年推出的平板电脑ipad无疑是近年来涌现出来的最引人注目的移动互联网终端设备。iphone是结合照相摄像、个人数码助理、媒体播放器和无线通讯装置的，具有Multi-touch触摸屏界面的智能手机，由苹果公司首席执行官史蒂夫.乔布斯在2007年1月9日举行的Macworld年会上宣布推出，并于2007年6月29日在美国上市。2007年11月，iphone被《时代》杂志选为2007年度最佳发明。2008年6月9日，苹果于全球开发者大会2008(Worldwide DeveloperConference 2008)上发表新一代iphone-iphone 3G及iphone 2.0固件。2008年7月11日，全球22个国家和地区率先发售iphone 3G。2009年6月8日，苹果在全球开发者大会2009上宣布了新一代的iphone 3GS，并于6月19日开始发售。2010年6月7日，苹果于全球开发者大会2010发表新一代的iphone 4。2010年6月24日，iphone 4在美国、法国、德国、英国、日本五个国家率先上市，随即扩展至全球。2009年10月1日，中国联通官方开放了中国大陆地区预定iphone的网页，同年10月30日下午17时开始在北京世贸天阶举行中国大陆首发仪式。2009年11月1日，iphone正式在中国大陆由联通发售。仅仅用了一年多时间，iphone在中国市场的销量就翻了一番。目前iphone4成为已经成为中国大陆最为热销的智能手机之一。ipod touch是一款由苹果公司推出的便携式媒体播放器，在2007年9月5日举行的“The Beat Goes On”产品发表会中公开。ipod touch可以比喻成不含电话及GPS等功能的iphone(An iphone without a phone)，造型较轻薄，是苹果公司以″最好玩的ipod″为概念所推出的ipod。目前已经升级至第四代，成为时尚人士的新宠。ipad是苹果公司于2010年1月27日发布的一款平板电脑，定位介于苹果的智能手机iphone和笔记本电脑产品(MacBook、MacBook Pro与MacBook Air)之间，提供上网、电子邮件、电子书、音频视频播放等功能。2010年9月ipad正式进入中国市场，已经成为最为热销的平板电脑。

上述的三款苹果产品均采用了IOS操作系统，IOS是由苹果公司为iphone开发的操作系统，供iphone、ipod touch以及ipad使用。与苹果的基于Mac OS X操作系统一样，它也是以Darwin为基础的。IOS的系统架构分为四个层次：核心操作系统层(the Core OS layer)，核心服务层(the Core Services layer)，媒体层(the Media layer)，可轻触层(the Cocoa Touchlayer)。IOS的用户界面最典型的特色是对多点触控操作的支持。它允许用户采用滑动、轻按、挤压、旋转等操作与系统交互，便于用户使用。苹果公司支持第三方应用程序研发，于2008年发布了软件开发工具包，允许全世界的开发人员开发iphone和ipod touch应用程序，Xcode是iphone软件开发工具包的开发环境。第三方程序开发者开发出应用后，需经过苹果的审核才能通过App Store进行发布和下载。并非所有的软件都会通过苹果的审核，例如苹果不支持中文输入法的研发。

苹果IOS系统配置中文输入法包括一个手写输入法和一个拼音输入法。IOS系统配置手写输入法能进行简体中文和繁体中文的手写输入。用户在触摸屏上手写输入法的输入区按正确笔顺输入汉字后，输入法在输入区右侧竖排的候选列表中列出候选字。用户选择后，输入法还提供该字的联想字，用户可以持续点击联想字以提高输入的效率。苹果手写输入法的优点在于手写识别正确率比较高，手写输入符合人的书写习惯，对于不知读音的字也能正确输入，缺点是输入效率比较低。IOS系统配置的拼音输入法为用户提供了全拼整句输入、带联想功能的全拼词输入等多种输入方式。全拼整句输入方式是IOS 4.0以上版本提供的新的拼音输入方式。在全拼整句输入方式中，用户连续打入一句话的全拼字符串，在用户键入的过程中，输入法将音字转换结果显示在候选窗中，用户选择候选窗中的正确字词，直至音字转换全部正确为止。在IOS 4.0以下版本中，用户只能采用带联想功能的全拼词输入方式输入汉字，在这种输入方式中，用户打入一个词的拼音串后，该拼音对应的候选词在候选窗显示出来，用户选择后，在候选窗中自动显示出该词对应的联想词供用户进一步选择。IOS系统配置输入法的优点在于输入方式简单，无需学习即可上手，缺点是音字转换正确率比较低，选字环节需浪费大量时间，输入效率比较低，另外未能对中国人的输入习惯(如平卷舌不分的模糊音，双拼等等)提供必要的支持。

尽管苹果公司不支持第三方输入法研发，国内许多著名IT公司仍旧纷纷推出了自己的IOS平台输入法。其中，比较著名的输入法有：百度输入法、QQ输入法、搜狗输入法、Wefit输入法等等。百度iphone输入法是目前IOS平台上最受欢迎的第三方输入法，是一种支持全拼、简拼、双拼、模糊音，具有整句输入和带有联想的词输入等输入方式的输入法，最新版本(2.0)带有拼音自动纠错功能，还提供了T9、笔画、五笔等输入方式。QQ iphone输入法是腾讯公司推出的输入法。搜狗iphone输入法是搜狗公司推出的输入法。Wefit输入法是由威锋网开发团队推出的iphone输入法。这些输入法的功能特点与百度输入法类似。与IOS系统自带中文输入法相比较而言，这些由国内IT公司自主研发的输入法均针对中国人的输入习惯进行了特别的设计，为用户在IOS平台上的中文输入提供了更加丰富的选择。

发明人在实现本发明的过程中发现，以上这些输入法尽管较系统自带的输入法在符合中国人的输入习惯方面均有了不同程度的提高，但仍然存在一些缺点，主要体现在：

1、多数第三方输入法都支持整句输入，但整句输入音字转换的准确率还比较低。

2、双拼是一种对生母韵母进行编码，两键输入一个拼音音节的拼音输入方式。在进行语句输入时，因为按键次数较少，适于手机全键盘的输入。多数输入法未能提供对双拼输入的有效支持。个别输入法允许用户自定义双拼，但用户自定义难度较大。

3、手机等移动平台全键盘按键较小，进行连续拼音输入时非常容易按错，影响了整句输入的效率。多数输入法没有提供连续输入拼音自动纠错的功能。

4、许多用户发音不准(如z|zh不分)，多数输入法未能提供对模糊音输入的支持。

发明内容

本发明实施例的主要目的在于提供一种用于输入法的基于动态规划的拼音流切分方法和系统，通过对用户输入的拼音流(全拼、双拼或者模糊音)进行切分和纠错，达到提高输入法的后续音字转换效率以及音字转换精度的目的。

本发明实施例的上述目的是通过如下技术方案实现的：

一种拼音流切分方法，所述方法包括：

对输入拼音流中按照时间顺序输入的每一个字符，进行如下处理：

以所述字符作为结束字符，确定所述字符与在先输入的且与所述字符相邻的0～3个字符组合后的至少一个合法音节；

根据所述至少一个合法音节确定以所述字符为结束符的所述输入拼音流的多条拼音切分路径；

计算每一条拼音切分路径的路径权值，根据路径权值由大到小的顺序提取预定数量的拼音切分路径，作为以所述字符作为结束符的所述输入拼音流的切分结果。

一种拼音流切分系统，所述系统用于对输入拼音流中按照时间顺序输入的每一个字符进行拼音流切分处理，所述系统包括：

第一确定单元，用于以所述字符作为结束字符，确定所述字符与在先输入的且与所述字符相邻的0～3个字符组合后的至少一个合法音节；

第二确定单元，用于根据所述第一确定单元确定的至少一个合法音节确定以所述字符为结束符的所述输入拼音流的多条拼音切分路径；

计算单元，用于计算所述第二确定单元确定的每一条拼音切分路径的路径权值；

选择单元，用于根据所述计算单元计算的路径权值由大到小的顺序提取预定数量的拼音切分路径，作为以所述字符作为结束符的所述输入拼音流的切分结果。

本发明实施例提供的方法和系统，通过对用户输入的拼音流(全拼、双拼或者模糊音)进行切分和纠错，提高了输入法的后续音字转换效率以及音字转换精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为输入法系统结构示意图；

图2为本发明实施例的拼音流切分方法流程图；

图3为图2所示实施例中计算拼音切分路径权值的方法流程图；

图4为拼音流“wangluozhineng”的拼音切分路径的示意图；

图5为拼音流“wangluo”的拼音切分路径集示意图；

图6为全拼切分词典和纠错切分词典的结构示意图；

图7为本发明实施例的拼音流切分系统的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

图1为应用本发明实施例的拼音流切分方法的输入法系统的结构示意图，如图1所示，该输入法系统包括用户交互子系统、音字转换子系统和辅助工具子系统。其中，用户交互子系统完成输入法与用户和操作系统的信息交互，其包括：设置模块、初始化模块、键盘响应模块和输入界面模块；音字转换子系统是输入法系统的核心部分，其完成拼音串到汉字串的转换，该音字转换子系统包括：拼音流切分模块、音字转换模块以及机器学习模块；辅助工具子系统为音字转换提供语言模型资源，其包括语言模型训练模块。另外，图1所示的输入法系统还包括数据库，该数据库用于保存拼音切分词典、用户词库、语言规则库、系统词库以及语言模型等，数据库中存储的各类数据用于为音字转换子系统和辅助工具子系统提供必要的支持。

本发明就是对图1所示的输入法系统中音字转换子系统的拼音流切分模块进行的改进。以下将结合附图对本实施例的拼音流切分方法和系统进行详细说明。

本发明实施例提供了一种拼音流切分方法，如下面的实施例1所述。

实施例1

图2为本发明实施例提供的一种拼音流切分方法的流程图，请参照图2，该方法包括：

步骤201：以当前字符作为结束字符，确定所述字符与在先输入的且与所述字符相邻的0～3个字符组合后的至少一个合法音节；

其中，合法音节是指能作为一个拼音组合中的声母或者韵母，而与其他韵母或者声母组合成一个拼音组合的部分。例如，字母“g”、字母组合“ang”、“uang”都可以是一个合法音节，其中，字母“g”作为声母可以和韵母组成一个拼音，例如和韵母“u”组成拼音“gu”；字母组合“ang”可以和声母组成一个拼音，例如和声母“d”组成拼音“dang”；字母组合“uang”可以和声母组成一个拼音，例如和声母“h”组成拼音“huang”。而字母组合“ng”由于不能和声母或者韵母组合成一个拼音，则字母组合“ng”不是一个合法音节。

其中，用户在输入一串拼音流时，可能将分隔符同时输入，以指示该分隔符的下一个字符与该分隔符的上一个字符是不同的拼音组合，在本实施例中，如果输入的字符为分隔符，则去掉该分隔符，并记录该分隔符在输入拼音流中的位置，以作为后续确定合法音节的参考。例如，用户在输入“huan g”这个拼音流时，在字母“n”的后面输入了分隔符，则本实施例会去掉该分隔符，记录该分隔符位于字母“n”后面，而不对该分隔符进行处理，接着处理下一个字母“g”，此时，由于字母“n”后面有个分隔符，则根据本实施例的方法确定字母“g”为下一个拼音组合的声母，即，该字母“g”与在先输入的2个字母“an”构成的字母组合“ang”不是一个合法音节，与在先输入的3个字母“uan”构成的字母组合“uang”也不是一个合法音节。当然，在本举例中，字母“g”与在先输入的1个字母“n”构成的字母组合“ng”也不是一个合法音节，只有字母“g”与在先输入的0个字母构成的字母组合“g”是一个合法音节，也即为下一个拼音组合的声母。

在本实施例中，确定是否为合法音节除了参考以上分隔符的位置以外，一般通过查询拼音切分词典来确定，拼音切分词典中保存有合法音节的指示以及一些限制条件，根据拼音切分词典中指示的合法音节以及限制条件，可以确定组合后的音节是否合法。其中，对于拼音切分词典将在以下的实施例中进行详细说明。

在本实施例中，如果组合后的音节不合法，例如前述组合“ng”不合法，则可以放弃该不合法音节，也可以根据纠错策略将该不合法音节调整为拼音切分词典中对应的合法音节。例如通过表格的形式存储不合法音节对应的合法音节，根据该表格，确定“ng”对应哪个合法音节。其中纠错策略也可以保存于拼音切分词典中。

步骤202：根据所述至少一个合法音节确定以所述字符为结束符的所述输入拼音流的多条拼音切分路径；

在本实施例中，将每一个合法音节与之前确定的每一条拼音切分路径连接在一起，构成一条新的拼音切分路径。但由于合法音节的类型不同，例如该合法音节可能是声母，也可能是零声母韵母，还可能是不能独立成为拼音的韵母等，因此，经连接后得到的新的拼音切分路径不一定是合法的，有时是合法的，但不一定是合理的，因此，本实施例还可以根据每一个合法音节的分类，去除掉该新的拼音切分路径中不合理的切分路径。例如，声母和韵母要能够成合法的拼音才能切分到一起，不能独立成为拼音的韵母必须有合法的声母搭配才可以切分等。

在一个实施例中，将每一个合法音节与之前确定的每一条拼音切分路径连接在一起，构成一条新的拼音切分路径，可以通过以下方法实现：

如果当前字符为第n(n≥1)位字符且长度为p(p≥1且n≥p)的合法音节可以与以第n-p位字符为结尾的拼音切分路径中的m(m≥1)条路径组合成更长的拼音切分路径，则将组合后路径更新到以该合法音节的最后一个字符为结尾的拼音切分路径中。并记录每一条更新后的路径的节点前驱。

例如拼音流为“yuwang”，当前字符“g”为第6位字符，以它结尾组成长度为3的合法音节“ang”，那么音节“ang”可以和以第3位字符“w”为结尾的拼音路径组成更长的拼音路径，在例子中，一条合法的切分路径为“y u w”，由于“w”和“ang”可以组成合法拼音，因此可以将音节“ang”加入到该路径中得到更长的路径“y u w ang”，而更新后路径节点“ang”的前驱就是节点“w”。

步骤203：计算每一条拼音切分路径的路径权值，根据路径权值由大到小的顺序提取预定数量的拼音切分路径，作为以所述字符作为结束符的所述输入拼音流的切分结果。

在本实施例中，由于拼音切分存在歧义，也即二义性，例如，拼音流“xian”会有“xian”和“xi’an”两种拼音切分结果。可见一条拼音流得到的拼音切分路径并不唯一。这样一条拼音切分路径是不能满足要求的，拼音切分的处理结果应该是拼音切分路径的集合。然而，语句级拼音输入法的拼音流长度较长，在应用本实施例的拼音流切分方法的输入法支持简拼功能的情况下，可能在该拼音流中还包括简拼的结果，因此，用户输入拼音流中可能给拼音切分带来二义性的地方可能会有很多，也即，根据步骤202获得的拼音切分路径有很多，而枚举所有的拼音切分路径需要消耗大量的空间来临时存储这些路径的信息。同时，在所有的拼音切分路径中，某些路径的切分虽然合法，但看起来并不合理。如：拼音串“ong”被当作简拼切分成“o’n’g”。因此，本实施例的步骤203采用了对路径加权，取Top N的方法来处理拼音切分路径过多的问题。

在步骤203中，计算每一条拼音切分路径的路径权值可以通过图3所示实施例的方法实现，请参照图3，该方法包括：

步骤301：统计所述拼音切分路径的字符中声母的个数和韵母的个数，以及切分路径长度；

步骤302：将所述声母的个数与声母权值的乘积以及所述韵母的个数与韵母权值的乘积相加；

步骤303：将所述相加的结果与第一预定系数的乘积除以所述切分路径长度的平方，得到所述拼音切分路径的路径权值。

在一个实施例中，声母权值为1，韵母权值为4，第一预定系数为100。也即：如果该拼音切分路径的拼音组合中有声母，将权值加1；如果该拼音切分路径的拼音组合中有韵母，将权值加4；在一个特例中，如果该拼音组合的最后一个字母为“a”，则将权值加5而不是加4；再将以上结果乘以100再除以拼音切分路径长度的平方，就得到该拼音切分路径的路径权值。

通过观察实际语料测试结果，发现：在以零声母韵母为结尾的句子中，韵母以“a”为结尾的频数较高，仅给结尾“a”权值加4的拼音切分效果不够理想。原因在于：“a”易与“ang”、“eng”、“an”、“en”、“un”等韵母的最后一个字符合并产生合法拼音，这样与用户输入意图不一致的拼音切分会得到更高的权值；另一方面，“a”也易与“i”、“u”等韵母字符结合成新的韵母，在能与声母结合成合法拼音的情况下可以得到长度较短的拼音切分路径，受“步骤303”的影响，长度短的拼音切分路径会得到更高的权值。基于以上两点考虑，为适当调整以零声母韵母“a”为结尾的拼音切分路径权重情况，所以设定以上以字母“a”结尾的特例。具体举例如下：

假设用户输入的一个拼音流为“wangluo”，其切分路径为“w-an-g-l-uo”，则在该切分路径中，声母为“w”、“g”、“l”，韵母为“an”、“uo”，路径长度为3，则该拼音切分路径的路径权值为

如果该拼音流“wangluo”的切分路径为“w-ang-l-uo”，则该拼音切分路径的路径权值为显然，后者的权值要高于前者，也就是说，后者的准确率更高。在本实施例中，就是按照权值由大到小的顺序取预定数量的拼音切分路径为切分结果，例如，取前50条拼音切分路径。

在一个实施例中，在步骤201可能对该拼音切分路径上的某些字符进行了纠错处理，则本实施例在确定该拼音切分路径中存在进行了纠错处理的字符时，将得到的该路径权值乘以一个第二预定系数的纠错字符个数次方，作为对这条拼音切分路径的惩罚，也即由于进行了纠错，可能这条拼音切分路径并非是用户想要的结果。这里的第二预定系数可以是0.95。例如，在这条拼音切分路径中，有m个字符进行了纠错处理，则在以上计算完这条拼音切分路径的路径权值后，将该路径权值乘以0.95m。这里应该是算出权值和后就乘以0.95m。

在一个实施例中，如果出现了以上特例，也即所述当前字符为“a”，也就是说，该拼音流的最后一个字符为“a”，则本实施例将所述韵母的个数与韵母权值的乘积加上预定数量后，再与所述声母的个数与声母权值的乘积相加。例如，如果该条拼音切分路径的最后一个字母是“a”，尽管该字母是韵母，其权值不是加4，而是在4的基础上再加上一个预定数量，例如为1，也就是说，加上5，然后再将得到的结果乘以第一预定系数后除以该拼音切分路径的路径长度的平方。

本实施例的方法统计路径权值后，可以较好的处理全拼和简拼的问题，并且对按键纠错和句子长度的处理上都能得到比较好的切分效果。

图4为拼音流“wangluozhineng”的拼音切分路径的示意图。如图4所示，该拼音流中每个字符为结尾的子串都可能构成多种音节。例如，以第三个字符“n”为结尾的音节有“n”和“an”两个，以第四个字符“g”为结尾的音节有“g”、“ang”两个。在图4所示的示意图中，仅列举了一条完整的拼音切分路径，即“w-ang-l-uo-zh-i-n-eng”。

图5为拼音流“wangluo”的拼音切分路径集示意图，该拼音切分路径集的每一条切分路径都是按照本实施例前述方法实现的。如图5所示，将属于字母“o”结尾的节点沿前驱指针返回，即可得到该拼音切分路径集中的所有切分路径。

在步骤203中，根据路径权值由大到小的顺序提取预定数量的拼音切分路径，可以通过将拼音切分路径节点(也即拼音切分路径的最后一个音节)压入到对应的最小二叉堆中的方法，实现拼音切分路径的路径权值的排序及预定数量的结果的取出。待排序后将该节点取出，即可根据前驱指针还原完整的拼音切分路径。其中，最小(大)二叉堆是一种用来快速查找一个集合中最小(大)元素的数据结构。它支持三种操作：插入操作、查询操作、删除操作。插入操作即向最小(大)二叉堆中插入一个元素，二叉堆会自动调整以保持其结构性质。查询操作即查询当前集合中的最小(大)元素。删除操作即将当前集合中的最小(大)元素删除，二叉堆同样会自动调整以保持其结构性质。

在本实施例中，用户输入的拼音流可能有不合法的情况。比如在没开启“按键纠错”功能时，是没有以“u”或“i”开头的拼音的。于是，从第n位字符开始向前扫描，直到发现有拼音切分路径存在为止。例如，在没有开启拼音纠错的情况下，对于字符串“wangnp”，由于“np”不是一个合法音节，所以可能不存在以“p”结尾的合法切分路径，那么我们就向前扫描，直到扫描到“wang”中的“g”，以它结尾有合法的拼音切分路径“w-ang”，所以我们以该节点为结尾取出它结尾的拼音路径。为了提高路径排序的效果，将以最后一个字符结尾的合法拼音切分路径的权值加上一个足够大的值，例如1000。将发现到的所有无论纠错还是没有纠错的路径都统一压到最小二叉堆中进行排序。按权值顺序还原拼音切分路径，构造路径对应的显示拼音，标记用户输入的有效字符数，将结果保存，并标记拼音切分路径集中哪些路径的第一个字可以显示出来。标记firstWord为TRUE的很简单，取拼音字符串最长的字即可。将纠错和未纠错的路径分开处理。并特殊处理第一个字以“n”结尾，同时第二个字以“g”开头的路径。该信息供音字转换使用。

例如，字符串“hua”，可能的切分结果有“h-ua”和“hu-a”，那么对于拼音“hua”，我们标记最长的拼音的字的firstWord为TRUE，这里就是“hua”。

综合以上论述，拼音流切分的过程可以用伪码表示成如下的递推过程：

其中，len表示输入拼音串input_string的长度。

拼音流切分逐次处理input_string中的每个字符。每次初始化最小二叉堆binary_min_heap，之后取与当前字符和与之相邻的最多三个字符，即input_string中第j个字符至第i个字符组成的子串substring{j，i}，构成音节syllable。

input_string的j前缀prefix[j]为input_string第1个字符至第j个字符组成的子串，即substring{1，j}。若由input_string的j前缀经拼音切分得到的拼音切分路径segment_path能与syllable连接，即在将syllable连接至segment_path后能够产生合法拼音，则通过segment_path与syllable构造新的拼音切分路径new_path，new_path即为input_string的i前缀经拼音切分得到的拼音切分路径。接着计算new_path的纠错数error_correcting_number、长度length和权值weight等信息，将new_path放入最小二叉堆binary_min_heap中。

最后的拼音切分结果result_set即为input_string的len前缀经拼音切分得到的拼音切分路径集合。

以上以全拼切分为例对本实施例的方法进行了说明，在实际应用过程中，双拼切分同样适用。

对于双拼模式，由于没有简拼，所有拼音都是严格通过两次按键获得。

在多种双拼规则中，零声母对应的按键可能不同。如“微软2003双拼”中，字母“o”是唯一的零声母按键；而在“自然码双拼”中，是以零声母韵母的首字母作为其对应的零声母键的。

在双拼拼音切分过程中遇到声母的位置，需要额外预先读入下一个字母的信息，以判断当前两个按键能否构成零声母韵母。

在遇到“半条路径”或处理完拼音串后，将当前路径切分结果保存。

所谓“半条路径”是指在对双拼路径进行切分的过程中，如果中途遇到某一对按键不能构成一个合法的拼音，那么到目前为止当前这条路径就是一条“半条路径”。

例如，当输入双拼nihd，当前切分出的全拼串为n-i-h，但h-d对应的全拼hiao不是一个合法的拼音，因此我们只将当前n-i-h这半条路径保存。

保存的切分路径信息为全拼形式，这样做是为了方便之后的拼音编码处理。

下面以音声双拼为例，对双拼切分进行举例说明。

对于字符串“niuihcrn”，首先n对应声母n，接着i代表韵母i，u代表声母sh，接着又是韵母i，到目前为止，我们得到的切分路径是“n-i-sh-i”。当处理到最后一个音节，我们得到了路径“n-i-sh-i-h-ao-r-en”。

当模糊音开关“s<->sh”开启时，拼音切分模块对“s”和“sh”这一对模糊音音节不加以区分，而是留到拼音编码模块再进行处理。如上例：拼音切分模块的结果仅为“n-i-sh-i-h-ao-r-en”一条切分路径；而拼音编码模块的结果则是“n-i-sh-i-h-ao-r-en”和“n-i-s-i-h-ao-r-en”两条拼音切分路径的拼音编码路径。

通过本实施例的方法对用户输入的拼音流切分之后，即可通过输入法的音字转换模块将相应的拼音转换为汉字，其中，在进入音字转换模块之前，为了提高识别效率，节约资源，还可以对选取的预定数量的拼音切分路径进行编码。编码是语言处理中很常见的手段，即将字符串编码为数字以方便后处理。

与双拼类似，音节字符串和音节的数字编码是一一对应的，为了处理模糊音，拼音编码过程也需要枚举合法的拼音组合。举例来说：若开启“en<->eng”模糊音设置，拼音“nen”和“neng”是被同等看待的，此时不能因为拼音实际的不同而在拼音切分过程中加以区分，生成两条拼音切分路径。拼音编码作为输入法中的拼音切分和音字转换之间过度的模块，需要解决这样的问题。

于是，将所有的拼音切分路径直接转换成编码后的结果保存。对于每一条拼音切分路径，预处理出每个汉字位置上可能的韵母。处理方法采取直接与输入法模糊音设置信息匹配的顺序扫描的方式进行。

之后，根据预处理的内容，枚举汉字位置上的声母，最终得到合法的拼音编码路径。

在本实施例中，枚举拼音编码路径声母信息。采取验证的方式，在拼音编码路径中逐字排除不合法的拼音组合。通过验证的路径将最终被保存。

在一个实施例中，可以通过以下步骤进行验证：

1、验证普通的简拼和用户直接输入并由拼音切分模块处理后的“伪合法拼音结果”是否为合法拼音；

2、尝试构造c→ch、s→sh和z→zh这三种简拼(因为简拼一定是合法拼音，所以无需验证)；

3、根据输入法模糊音设置信息，枚举可能的拼音组合候选，并验证这些候选；

4、将最后通过验证的拼音编码路径保存。

待执行结束后，将其它的信息，如按键纠错数、firstWord标记和有效字符数等复制并保存。这样，拼音编码路径集的信息就全部保存下来了，拼音编码结束。

这里是在编码过程中对于模糊音的处理，例如对于之前的例子“n-i-sh-i-h-ao-r-en”和“n-i-s-i-h-ao-r-en”，由于音字转换模块仅识别音节的编码结果，因此这里我们需要对切分出来的路径根据模糊音进行编码处理，例子里就是对于“sh”和“s”要分别编码，步骤1实际上根据音节进行验证的过程，因为对于模糊因“sh”和“s”，虽然有两种结果，比如“shuang”和“suang”，但是只有“shuang”是合法的，因此不能对“suang”进行编码。对于步骤2，是指对于“c s z”也可能对应着“ch sh zh”，因此在编码时要特别处理。步骤3就是枚举所有合法候选的过程，所谓合法，就是至在某些模糊音设置下，能够构成合法拼音，比如“leng”，如果有模糊音“l→n”，则“neng”也是合法的，因此也要加入到编码路径中，步骤3就是枚举这样的编码路径。

为了辅助拼音流切分，本发明实施例还提供了拼音切分词典，如图1所示，该拼音切分词典可以以数据库的形式随输入法的安装而存储于安装该输入法的计算机的硬盘中，以下对拼音切分词典进行说明。

在本实施例中，拼音切分词典分为三个部分：全拼切分词典、全拼纠错切分词典和双拼切分词典。

全拼切分词典以二进制文件形式存储，其记录各全拼音节的ID、分类信息，并且记录了合法拼音组合的信息。对应的常用词典操作有：查询音节ID、判断两个音节是否能组合成合法拼音等。全拼切分词典中的操作为全部拼音切分词典操作的核心，全拼纠错切分词典和双拼切分词典的操作依赖于全拼切分词典。

在全拼切分词典中，记录了对模糊音处理。例如，如果在输入法中开启了“l<->n”这个模糊音设置，在本实施例的拼音流切分过程中，当参照拼音切分词典确定是否为合法音节或者合法拼音时，就不对“l”和“n”两个声母加以区分，若用户输入“l”，则拼音切分模块不会再生成一条对应位置为“n”的切分路径，反之亦然。

在全拼切分词典中，还记录了一些限制切分规则。添加这些限制切分规则是为了提高语音流切分的质量。

在一个实施例中，定义了五类限制规则，如下：

1、后面音节不是韵母则不拆分。如：“an”只有后面跟能与“n”构成合法拼音的韵母才将“an”切分成“a”和“n”；

2、后面音节不是声母则不拆分。如：“iang”后面如果没有任何音节，却切分成“i”和“ang”的效果显然不好；

3、无条件强制不切分。如：“ong”，虽然能可以根据简拼规则将其切分成“o”、“n”和“g”，但这样的切分效果也不好；

4、后面音节是韵母则不切分。例如：对于前面的切分路径如果是“i-ao”，那么如果后面依然是个韵母，那么显然将““iao”切分为“i-ao”是不合理的，因为“ao”和韵母组合并不合理；

5、不在句子末尾则不切分。这一类主要是以“o”为结尾的韵母，如“ao”、“iao”等。例如：对于“iao”，不能切分成“ia-o”，因为“o”音节常出现在句子的末尾，因此如果不是末尾，切分成“ia-o”是不合理的。

对于以上规则，都是由实际测试中得到的一些特殊例子得到的，属于硬性规定的规则。

通过以上限制切分规则，提高了全拼切分质量，排除了部分没有意义的切分路径，将更好的全拼切分路径放在Top N中靠前的位置交给输入法中的音字转换模块，提高了长句音字转换的精度。

在本实施例中，全拼切分词典的结构与纠错切分词典的结构相似，如图6所示。请参照图6，每个词典文件中，都有文件头区、音节偏移区、音节扩展区三个部分。合法拼音组合区仅在全拼切分词典中出现。在“音节扩展区”中，分为三个部分：音节ID、音节标记和具体的拼音扩展信息。

其中，文件头区中记录词典文件的概要信息，如：版本号、文件大小、各个区的偏移位置等。

其中，音节偏移区中记录所有拼音音节(在纠错词典中为设定的待纠错音节，下同)扩展内容在词典文件中的偏移位置。偏移位置根据音节字符串和hash函数计算得到。Hash函数查找的效率可以认为是常数时间的，即是一个常量值，与规模无关。

其中，音节扩展区中的拼音ID为所有音节唯一识别ID。全拼切分词典中的拼音ID在输入法的音字转换模块中词典检索中使用。音节扩展区中的音节标记中记录对应音节类别，分为声母、韵母、不能独立成为音节的韵母或待纠错音节4类。音节扩展区中的扩展内容仅在全拼纠错切分词典中出现，记录待纠错音节经纠错后可以得到的正确音节。

其中，合法拼音组合区仅在全拼切分词典中出现。其记录中文拼音中合法的声母、韵母组合以及零声母韵母。可以通过声母、韵母ID和hash函数快速地得到拼音组合的合法性，时间复杂度仍为O(1)。

在本实施例中，双拼切分流程复用了部分全拼切分流程中的逻辑处理，所以在双拼切分词典的内容得以简化，仅记录对应的双拼规则，并且为明文记录。全部双拼切分词典中都是首先记录12个零声母韵母(a、ai、an、ang、ao、e、ei、en、eng、er、o、ou)的双拼规则，之后记录“；”以及a-z共27个字符在双拼规则中对应的声母和韵母信息。

应用本发明实施例所提供的拼音流切分方法，使得输入法在实际应用中响应迅速，智能化程度高，使用户在使用输入法过程中获得流畅、快速、精准的输入体验。

本发明实施例还提供了一种拼音流切分系统，如下面的实施例2所述。由于该拼音流切分系统解决问题的原理与上述实施例1的方法相似，因此该拼音流切分系统的实施可以参见实施例1的方法的实施，重复之处不再赘述。

实施例2

图7是本发明实施例提供的一种拼音流切分系统的组成示意图。该系统用于对输入拼音流中按照时间顺序输入的每一个字符进行拼音流切分处理，如图7所示，该拼音流切分系统包括：

第一确定单元71，用于以所述字符作为结束字符，确定所述字符与在先输入的且与所述字符相邻的0～3个字符组合后的至少一个合法音节；

第二确定单元72，用于根据所述第一确定单元71确定的至少一个合法音节确定以所述字符为结束符的所述输入拼音流的多条拼音切分路径；

计算单元73，用于计算所述第二确定单元72确定的每一条拼音切分路径的路径权值；

选择单元74，用于根据所述计算单元73计算的路径权值由大到小的顺序提取预定数量的拼音切分路径，作为以所述字符作为结束符的所述输入拼音流的切分结果。

在一个实施例中，该系统还包括：

判断单元75，用于判断所述输入拼音流中是否包含分隔符；

调整单元76，用于在所述判断单元75的判断结果为所述输入拼音流中包含分隔符时，去除所述分隔符，并记录所述分隔符在所述输入拼音流中的位置，以便所述第一确定单元71参考所述位置，确定所述至少一个合法音节。

在一个实施例中，第一确定单元71包括：

第一确定模块711，用于根据拼音切分词典中指示的合法音节以及限制条件，确定所述组合后的音节是否合法；

第一调整模块712，用于在所述第一确定模块711确定组合后的音节合法时，记录该合法音节，并在所述第一确定模块711确定组合后的音节不合法时，放弃该不合法音节，或者根据纠错策略将所述不合法音节调整为所述拼音切分词典中对应的合法音节并记录。

在一个实施例中，第二确定单元72包括：

连接模块721，用于将每一个合法音节与之前确定的每一条拼音切分路径连接在一起，构成一条新的拼音切分路径；

第二调整模块722，用于根据所述每一个合法音节的分类，去除掉所述连接模块721连接后的新的拼音切分路径中不合理的切分路径，而保留合理的切分路径。

在一个实施例中，计算单元73包括：

统计模块731，用于统计所述拼音切分路径的字符中声母的个数和韵母的个数，以及切分路径长度；

计算模块732，用于将所述声母的个数与声母权值的乘积以及所述韵母的个数与韵母权值的乘积相加，并将所述相加的结果与第一预定系数的乘积除以所述切分路径长度的平方，得到所述拼音切分路径的路径权值。优选的，所述声母权值为1，所述韵母权值为4，所述第一预定系数为100。

其中，在一个实施例中，计算模块732还用于在所述拼音切分路径中存在进行了纠错处理的字符时，将所述拼音切分路径的路径权值乘以第二预定系数的纠错字符个数次方。优选的，所述第二预定系数为0.95。

其中，在另外一个实施例中，计算模块732还用于在所述拼音切分路径中的最后一个字符为a时，将所述韵母的个数与韵母权值的乘积加上预定数量后，再与所述声母的个数与声母权值的乘积相加。优选的，所述预定数量为1。

应用本发明实施例所提供的拼音流切分系统，使得输入法在实际应用中响应迅速，智能化程度高，使用户在使用输入法过程中获得流畅、快速、精准的输入体验。

本发明以上的方法和系统可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。逻辑部件例如现场可编程逻辑部件、微处理器、计算机中使用的处理器等。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种拼音流切分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，如果所述输入拼音流中包含分隔符，则去除所述分隔符，并记录所述分隔符在所述输入拼音流中的位置，以便参考所述位置，确定所述至少一个合法音节。

3.根据权利要求1所述的方法，其特征在于，以所述字符作为结束字符，确定所述字符与在先输入的且与所述字符相邻的0～3个字符组合后的至少一个合法音节，包括：

根据拼音切分词典中指示的合法音节以及限制条件，确定所述组合后的音节是否合法；

如果组合后的音节不合法，则放弃不合法音节，或者根据纠错策略将所述不合法音节调整为所述拼音切分词典中对应的合法音节。

4.根据权利要求1所述的方法，其特征在于，根据所述至少一个合法音节确定以所述字符为结束符的所述输入拼音流的多条拼音切分路径，包括：

将每一个合法音节与之前确定的每一条拼音切分路径连接在一起，构成一条新的拼音切分路径；

根据所述每一个合法音节的分类，去除掉所述新的拼音切分路径中不合理的切分路径。

5.根据权利要求1所述的方法，其特征在于，计算每一条拼音切分路径的路径权值，包括：

统计所述拼音切分路径的字符中声母的个数和韵母的个数，以及切分路径长度；

将所述声母的个数与声母权值的乘积以及所述韵母的个数与韵母权值的乘积相加；

将所述相加的结果与第一预定系数的乘积除以所述切分路径长度的平方，得到所述拼音切分路径的路径权值。

6.根据权利要求5所述的方法，其特征在于，所述声母权值为1，所述韵母权值为4，所述第一预定系数为100。

7.根据权利要求5所述的方法，其特征在于，如果所述拼音切分路径中存在进行了纠错处理的字符，则将所述拼音切分路径的路径权值乘以第二预定系数的纠错字符个数次方。

8.根据权利要求7所述的方法，其特征在于，所述第二预定系数为0.95。

9.根据权利要求5所述的方法，其特征在于，如果所述拼音切分路径中的最后一个字符为a，则将所述韵母的个数与韵母权值的乘积加上预定数量后，再与所述声母的个数与声母权值的乘积相加。

10.根据权利要求9所述的方法，其特征在于，所述预定数量为1。

11.一种拼音流切分系统，其特征在于，所述系统用于对输入拼音流中按照时间顺序输入的每一个字符进行拼音流切分处理，所述系统包括：

12.根据权利要求11所述的系统，其特征在于，所述系统还包括：

判断单元，用于判断所述输入拼音流中是否包含分隔符；

调整单元，用于在所述判断单元的判断结果为所述输入拼音流中包含分隔符时，去除所述分隔符，并记录所述分隔符在所述输入拼音流中的位置，以便所述第一确定单元参考所述位置，确定所述至少一个合法音节。

13.根据权利要求11所述的系统，其特征在于，所述第一确定单元包括：

第一确定模块，用于根据拼音切分词典中指示的合法音节以及限制条件，确定所述组合后的音节是否合法；

第一调整模块，用于在所述第一确定模块确定组合后的音节不合法时，放弃不合法音节，或者根据纠错策略将所述不合法音节调整为所述拼音切分词典中对应的合法音节。

14.根据权利要求11所述的系统，其特征在于，所述第二确定单元包括：

连接模块，用于将每一个合法音节与之前确定的每一条拼音切分路径连接在一起，构成一条新的拼音切分路径；

第二调整模块，用于根据所述每一个合法音节的分类，去除掉所述连接模块连接后的新的拼音切分路径中不合理的切分路径。

15.根据权利要求11所述的系统，其特征在于，所述计算单元包括：

统计模块，用于统计所述拼音切分路径的字符中声母的个数和韵母的个数，以及切分路径长度；

计算模块，用于将所述声母的个数与声母权值的乘积以及所述韵母的个数与韵母权值的乘积相加，并将所述相加的结果与第一预定系数的乘积除以所述切分路径长度的平方，得到所述拼音切分路径的路径权值。

16.根据权利要求15所述的系统，其特征在于，所述计算模块还用于在所述拼音切分路径中存在进行了纠错处理的字符时，将所述拼音切分路径的路径权值乘以第二预定系数的纠错字符个数次方。

17.根据权利要求15所述的系统，其特征在于，所述计算模块还用于在所述拼音切分路径中的最后一个字符为a时，将所述韵母的个数与韵母权值的乘积加上预定数量后，再与所述声母的个数与声母权值的乘积相加。