CN101315666A

CN101315666A - 一种基于语音的多通道手写中文纠错方法

Info

Publication number: CN101315666A
Application number: CNA2008101165858A
Authority: CN
Inventors: 戴国忠; 敖翔; 田丰; 姜映映; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2008-07-11
Filing date: 2008-07-11
Publication date: 2008-12-03

Abstract

本发明属于人机交互领域，具体涉及一种基于语音的多通道手写中文纠错方法。本方法通过语音复述手写的内容，采用笔迹与语音融合的方式来纠正手写识别错误。本发明将笔迹过切分为多个片段序列，同时笔迹和语音均用音素表示，计算Levenshtein距离，并计算分治融合代价，具有最小分治融合代价的汉字过切分结果为最终的切分结果。本发明的核心是笔迹和语音的多通道融合，采用语音输入与手写输入互补的方法，有效利用语音纠正手写识别的错误。

Description

一种基于语音的多通道手写中文纠错方法

技术领域

本发明属于人机交互领域，具体涉及一种基于语音的多通道手写中文纠错方法。

背景技术

通过手写将信息录入计算机，正逐渐成为被广泛使用的输入方式。一般来说，书写的笔迹会被识别成正文。然而，由于手写识别经常出错，手写输入的自然性和效率都大受影响(B.Suhm，B.Myers and A.Waibel，Model-based and empirical evaluation ofmultimodal interactive error correction，Proc.ACM CHI’99，pp.584-591，1999)。尽管有不少研究致力于提高手写识别的正确率，但识别错误仍难完全消除，因此基于手写识别的系统必须支持识别错误的纠正。研究发现，在基于识别的系统中，用户的满意度不但受识别正确率的影响，而且还受识别错误纠正过程的影响(M.Zajicek and J.Hewitt.An investigation into the use of error recovery dialogues in a user interfacemanagement system for speech recognition.In Proceedings of 3rd IFIP InternationalConference on Human-Computer Interact ion，IFIP INTERACT’90，pp.755-760)。错误纠正是否自然高效直接影响用户体验。因此，好的识别错误纠正机制对这些系统来说有重要的价值。

因为识别错误是基于识别的系统中的主要性能瓶颈之一，因此识别错误的控制一直是热点研究问题。通常，这些研究可分为三类：减少错误、检测错误和纠正错误。关于纠正识别错误的研究已经进行了多年，这些研究主要集中在语音识别错误的纠正上。“复述(respeaking)”(C.Baber and K.S.Hone，Modelling Error recovery and Repair inAutomatic Speech Recognition，International Journal of Man-Machine Studies 39(3)(1993)495-515)是一类常用的识别纠错策略。用户复述被识别错误的内容，计算机识别用户的复述，将已有的识别结果替换为复述的识别结果。“复述”的优点是交互非常自然。但由于用户复述的内容仍可能被识别错，因此“复述”在实际使用中效果并不理想(Ainsworth，W.A.And Pratt，S.R.1992.Feedback strategies for error correctionin speech recognition systems.Int.J.Man-Mach.Stud.36，6(June)，pp.833-842.)。“拼写(spelling)”是一类主要应用于西文文字识别的纠错策略。用户通过口述单词的字母序列达到纠错的目的。然而，在实际应用中“拼写”既不自然也不高效(B.Suhm，B.Myers and A.Waibel，Multimodal error correction for speech user interfaces，ACMTransactions on Computer-Human Interaction pp.60-98，2001)，因而亦非理想的纠错策略。“候选列表(N-best list)”是另一类典型的识别纠错方式。识别器通常并不只返回单一的识别结果，还返回多个识别候选。用户通过在识别候选中选择正确结果，达到纠错目的(Murray，A.C.，Frankish，C.R.，And Jones，D.M.1993.Data-entry by voice：Facilitating correction of misrecognitions. In Interactive Speech Technology：Human FactorsIssues in the Application of Speech Input/Output to Computers，C.Baber and J.M.Noyes，Eds.Taylor and Francis，Inc.，Bristol，PA，pp.137-144)。然而，如果候选列表中不包含正确结果，纠错就不能进行了。

本发明采用笔迹与语音融合的方式来纠正手写识别错，基于以下几个原因。第一，语音纠错自然。人们通常采用默读的方式来校对文档，语音纠错与此方法类似(区别只在于是否读出声)。有研究表明，模仿人们日常习惯的纠错方法更能被用户接受(J.Mankoffand G.Abowd.Error correction techniques for handwriting，speech，and otherambiguous or error prone systems.GVU Technical Report Number：GIT-GVU-99-18，1999).第二，语音纠错高效。通常，利用多个通道进行交互，效率比较高。此外，使用语音的操作代价小，让用户复述一遍书写的内容，并不会明显增加用户的操作负担。更重要的是，在使用计算机时，用户的双手往往繁忙，采用语音纠错可以避免增加用户双手更多的工作负担。第三，语音纠错效果好。研究发现，利用两个或多个互补通道的融合结果作为输入的系统，能有效降低识别错误发生率，因而具较好的鲁棒性(S.Oviatt.Tamingrecognition errors with a multimodal interface.Communication of the ACM，43(9)：pp.45-51，2000)。唇读识别(audio-visual speech recognition，AVSR)(S.Dupontand J.Luettin Audio-Visual Speech Modeling for Continuous Speech Recognition，IEEE Transactions On Multimedia，Vol.2，No.3，September 2000，pp.141-151)正是成功利用多通道融合的例子。此外，利用不同通道相关性(cross-modal dependency)的多通道融合，能显著提高单通道识别正确率(Ainsworth，W.A.And Pratt，S.R.1992.Feedback strategies for error correction in speech recognition systems.Int.J.Man-Mach.Stud.36，6(June)，pp.833-842.)。本发明提出的语音纠正手写识别错误的方法，正是利用了笔迹与语音两个输入通道的跨通道影响(cross-modal influence)，而达到纠错目的。

发明内容

本发明的目的为提供一种基于语音的多通道手写中文纠错方法，是基于笔迹和语音的多通道融合的连续手写笔迹识别错误的纠正方法。

连续手写识别的错误可以分为两类：字符识别错误和字符提取错误。字符识别错误，是指手写字符被识别为非其对应的正文字符。字符提取错误，是指笔迹在切分为多个手写字符时出现的错误，提取出来的字符或是丢了其应有的笔画或是包含了不属于它的笔画。本发明可让用户结合语音复述书写的内容，纠正手写笔迹的字符识别错误和字符提取错误，简称为“语音纠错”。本方法的核心是笔迹与语音的多通道融合(multimodal fusion)方法，主要思想是利用用户的语音约束对最优手写识别结果的搜索。

一种基于语音的多通道手写中文纠错方法，如图1所示，其步骤为：

1)同时进行笔迹和语音输入；

2)将所述笔迹过切分为多个片断序列，得到笔迹所有的过切分结果，所述片段为汉字的最小切分段；

3)将笔迹和语音表示成音素序列，利用音素间的相似度，计算所述笔迹片段序列对应的所有过切分的音素序列与语音音素序列的Levenshtein距离；

4)利用所述Levenshtein距离计算笔迹片段序列和语音音素序列的分治融合代价；根据最小分治融合代价对应的过切分位置，获得正确的手写中文。

所述过切分(over-segmentation)是一种产生多个字符提取候选的方法，它是指将一行笔迹切分后，提取而得的手写字符或是完整字符，或只包含完整字符的一部分。这样的手写字符称为“片断”(fragment)。

因语音与笔迹均可以用音素表示，故本发明使用音素来表示语音和笔迹。音素是字符发音的符号化表示，本发明使用汉语拼音来表示汉字字符的音素。每个汉字的发音都有对应的拼音，每个拼音由声母(initial，简称in)、韵母(final，简称fn)和声调(tone))构成(没有声母的拼音视为带有空(null)声母)。音素ph是一个“声母-韵母”对，声调因为太过细微而被忽略，其表示为ph＝in，fn] (1)

汉语拼音包含23种声母和38种韵母，不过并非所有的声母-韵母对都存在。为避免混淆，本发明用inⁱ表示在字母表中的第i种声母，fn^j表示第j种韵母；用in_k和fn_k分别表示音素ph_k的声母和韵母。

所述多通道融合时用分治策略搜索可能的结果，分治策略可以大大降低搜索与语音匹配的最优笔迹切分结果的时间。

本发明通过对笔迹进行过切分，将笔迹用音素表示，同时语音也用音素表示，计算编辑距离，利用编辑距离计算分治融合的最小代价，从而获得最终切分结果，即笔迹识别结果。

本发明的优点和积极效果如下：

1.语音纠正手写识别错误支持连续手写识别中的错误纠正，可以一次纠正手写识别中的多个错误。

2.语音是自然的交互通道，利用语音纠错具有自然和高效的特点。

3.语音输入与手写输入互补，利用语音纠正手写识别的错误是有效的。

附图说明

图1本发明的整体流程图；

图2利用语音纠正手写识别错误的实例；

其中：(a)原始笔迹；(b)错误识别结果(c)纠错后的正确识别结果；

图3笔迹过切分的示意图；

图4汉字的六种字形结构；

其中：(a)左右；(b)左中右；(c)独体；(d)上下；(e)半包围；(f)全包围；

图5包含7个片断的有向图G；

图6本发明采用穷举策略的融合方法示意图；

图7本发明采用分治策略的融合方法示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明，下面结合附图和实施方式对本发明作进一步的详细说明。

首先介绍一个本发明的使用实例，即用本发明的方法纠正手写输入的识别错误过程，如图2所示，图2(a)被错误的切分识别为“枉碎站隧花连程”(见图2(b))，用户用语音复述“概率论与随机过程”，经多通道融合后，得到正确的切分识别结果(见图2(c))。

图2的实例，其具体实施步骤如下：

1.采用过切分的方法获得笔迹识别结果候选集合，其具体步骤为：

1)设句子S被过切分为片断序列F＝f₀f₁...f_T-1，其中f_i代表一个片断，T表示笔迹所有片段的序列长度。图2(a)中的句子被过切为13个片断，即T＝13，参考图3。

易见，序列F的任何一个子序列f_jf_j+1...f_k，0≤j≤k＜T都可能构成一个字符，因此S的一个有M个字符的切分结果

可表示为

字符包含六种结构，如图4所示，其中(c)的字符由1个片段组成，(a)(d)(e)(f)的结构字符由2个片段组成，(b)的结构字符由3个片段组成，对于水平方向书写的一个笔迹来说，左中右结构对切分的影响最大。由于左中右结构的字符最多由3个片段组成，设片段子序列的最大长度为3。

2)把手写笔迹的所有片段组织成有向图G。G中的顶点为各个片段{f₀，f₁，...，f_T-1}和一个附加顶点f_T，每个顶点都与其三个后续顶点有边相连(如果后续顶点存在的话)，顶点间的顺序由其对应片段之间的顺序决定；图3中的片段组织成由各个片段{f₀，f₁，...，f_T-1}和一个附加顶点f_T组成的图G，参考图5，其中，f₇是附加节点，它并不对应片断；

3)按如下公式计算所有的可能切分结果：

利用上述公式3得到所有可能的切分结果集。其中包括了所有由单个片断、两个片段和三个片段组成的候选。

2.使用音素来表示语音和笔迹，计算Levenshtein距离，其具体步骤为：

1)通过查字典的方式获得笔迹识别结果的音素表示；语音的音素由语音识别器输出的语音识别结果转换成音素表示，若语音识别器支持输出发音识别结果，则直接用其音素表示；

2)利用两个音素的相似度计算Levenshtein距离LD(PH₁，PH₂)。

定义两个音素为ph₁＝[in₁，fn₁]和ph₂＝[in₂，fn₂]，音素相似度S(PH₁，PH₂)的定义为：

S(PH₁，PH₂)＝sIn(in₁，in₂)+sFn(fn₁，fn₂) (4)

其中sIn(in₁，in₂)和sFn(fn₂，fn₂)分别表示声母间的相似度和韵母间的相似度。本发明中声母间和韵母间的相似度，由用户自己设定，不同用户可以根据自己的发音特点设定相似度值，音素相似度的取值范围为0-1。一般地，如果声母in₁和in₂发音很相似，则可视为sIn(in₁，in₂)接近0；如果发音差别特别大，则可视为sIn(in₁，in₂)相似度接近1。sFn(fn_j，fn_k)同理。例如，韵母“an”和“ang”的差别较小，相似度较小。

Levenshtein距离(参考文献：Levenshtein，V.I.(1965).Binary Codes Capableof Correcting Spurious Insertions and Deletiohs of Ones.Problems of InformationTransmission，1(1)：8-17)是用来计算从原串转换到目标串所需要的最少的插入，删除和替换的数目，同时也常用来计算对原文本所作的改动数。将一字符串转变为另一字符串所需的与插入、删除和替换操作相对应的编辑距离之和的最小值。

本发明的Levenshtein距离LD(PH₁，PH₂)中的替换操作的代价被重定义为：

(a, b) = \{\begin{matrix} sIn (a, b), if both a and b are intials \\ sFn (a, b), if both a and b are finals \\ \infty, otherwise \end{matrix} - - - (5)

利用S(PH₁，PH₂)＝sIn(in₁，in₂)+sFn(fn₁，fn₂)计算两个音素之间的相似度，从而得到两个音素序列之间的相似度，计算上述所有可能过切分的音素序列的Levenshtein距离LD(PH₁，PH₂)。

3.将笔迹与语音进行多通道融合，用分治策略识别笔迹内容，如图7所示；

定义F_i，j为手写中文过切分得到的片断序列(第i个片断到第j个片断)，PH_k，l为由语音识别器得到的音素序列(第k到l个音素)，ExFusion(F_i，j，PH_k，l)为穷举策略得到的融合代价，DCFusion(F_i，j，PH_k，l)为分治策略得到的融合代价。

下面分两种情况：

1)当F_i，j的长度(j-i)小于预先设定的阈值时，计算笔迹片段序列F_i，j和语音音素序列PH_k.l的融合代价时，采用穷举策略的融合代价ExFusion(F_i，j，PH_k，l)。

通过比较F_i，j的所有可能过切分的音素序列PH_hw与PH_k，l的Levenshtein距离LD(PH_hw，PH_k.l)，得到所有Levenshtein距离的最小值，即为穷举策略的融合代价。

2)当F_i，j的长度(j-i)大于预先设定的阈值时，令t＝^(i+j)/₂，t为F_i，j的中间位置的字符，利用p将F_i，j的长度划分到小于预先设定阈值的范围内，即可采用上述的穷举策略的融合代价；在笔迹片段序列中，p值满足一定条件，如t-1≤p≤t+1，即p的取值为t-1，t或t+1，分别对应F_i，j的中间位置、中间偏左一个位置和中间偏右一个位置。计算F_i，j在位置t-1，t和t+1的过切分代价DCCost(p，F_i，j，PH_k，l)的最小值，即有

(DCCost(p，F_i，j，PH_k，l))，从而得到与PH_k，l融合代价最小的F_i，j的切分位置。

所述

DCCost (p, F_{i, j}, {PH}_{k, l}) = \min_{k \leq q \leq l} (\begin{matrix} DCFusion (F_{i, p}, {PH}_{k, q}) \\ + DCFusion (F_{p + 1, j,} {PH}_{q + 1, l}) \end{matrix}),

q用于寻找语音音素序列PH_k，l中与F_i，j(p位置划分)对应的音素序列融合代价最小的PH_k，l的划分位置。DCCost(p，F_i，j，PH_k，l)为k≤q≤l，即q遍历k到l的所有位置时，DCFusion(F_i，p，PH_k，q)+DCFusion(F_p+1，j，PH_q+1，l)的最小值。在q位置划分的音素序列PH_k，l被划分为PH_k，q和PH_q+1，l。

所述

(DCCost(p，F_i，j，PH_k，l))的含义为找到t-1、t和t+1三个值中，最适合切分的位置。

因此，本发明的分治融合代价DCFusion(F_i，j，PH_k，l)的计算公式如下：

DCFusion (F_{i, j}, {PH}_{k, l}) = \{\begin{matrix} ExFusion (F_{i, j}, {PH}_{k, l}), if j - i < threshold \\ \min_{t - 1 \leq p \leq t + 1} (DCCost (p, F_{i, j}, {PH}_{k, l})), else \end{matrix} - - - (6)

依据计算的分治融合代价，找到其对应的过切分位置，识别出最终的过切分结果。

分治融合代价的计算方法为，如果F_i，j的长度(j-i)小于阈值，则直接采用穷举策略的融合代价识别笔迹内容，反之，对不同的过切分结果与语音音素序列递归地采用分治融合。具有最小分治融合代价的汉字过切分结果为最终的切分结果。

在本实施例中，设置阈值等于5时，取得过切分结果。所述穷举策略的融合代价的计算流程，如图6所示。穷举所有可能的笔迹切分识别结果，对于每种切分识别结果，获得它的音素序列表示，然后将此音素序列与语音输入的音素序列匹配，融合代价最小即匹配度最大的音素序列对应为最终切分结果，即笔迹识别结果。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于语音的多通道手写中文纠错方法，其步骤包括：

1)同时进行笔迹和语音输入；

2.如权利要求1所述的基于语音的多通道手写中文纠错方法，其特征在于，步骤2)中，所述过切分方法为：

1)将所有笔迹过切分的片断序列F＝f₀f₁...f_T-1组织成有向图G；所述有向图中的顶点为各个片段序列{f₀，f₁，...，f_T-1}和一个附加顶点f_T，所述f_i代表一个片断，T表示片段的序列长度；

2)按如下公式找到所有的过切分结果：

3.如权利要求1所述的基于语音的多通道手写中文纠错方法，其特征在于，步骤3)中，所述笔迹的音素表示通过查字典的方式获得；所述语音的音素表示由语音识别器获得。

4.如权利要求1所述的基于语音的多通道手写中文纠错方法，其特征在于，步骤3)中，所述过切分的音素序列的Levenshtein距离的计算是通过将替换操作的代价用音素序列间的相似度表示。

5.如权利要求1所述的基于语音的多通道手写中文纠错方法，其特征在于，步骤3)中，所述音素间的相似度S(ph₁，ph₂)＝sIn(in₁，in₂)+sFn(fn₁，fn₂)，其中ph表示音素，in表示音素的声母，fn表示音素的韵母。

6.如权利要求1所述的基于语音的多通道手写中文纠错方法，其特征在于，步骤4)中，所述笔迹片段序列和语音音素序列的分治融合代价的计算方法如下：

1)当笔迹过切分的片断序列F_i，j的长度小于预先设定的阈值threshold时，穷举策略的融合代价ExFusion(F_i，j，PH_k，l)为上述笔迹片段序列F_i，j对应的所有过切分的音素序列PH_hw与语音音素序列PH_k，l的Levenshtein距离LD(PH_hw，PH_k，l)的最小值；

2)笔迹过切分的片断序列长度大于设定阈值threshold时，计算F_i，j在笔迹的过切分位置p的过切分代价DCCost(p，F_i，j，PH_k，l)，选择其最小值，递归得到所述分治融合代价

DCFusion (F_{i, j}, {PH}_{k, l}) = \{\begin{matrix} ExFusion (F_{i, j}, {PH}_{k, l}), ifj - i < threshold \\ \min_{t - 1 \leq p \leq t + 1} (DCCost (p, F_{i, j}, {PH}_{k, l})), else \end{matrix},

t＝(i+j)/2，其中，

DCCost (p, F_{i, j}, {PH}_{k, l}) = \min_{k \leq q \leq l} (\begin{matrix} DCFusion (F_{i, p}, {PH}_{k, q}) \\ + DCFusion (F_{p + 1, j,} {PH}_{q + 1, l}) \end{matrix}),

q为在语音音素序列的位置，k≤q≤l。

7.如权利要求4所述的基于语音的多通道手写中文纠错方法，其特征在于，所述Levenshtein距离中：字母a与b均为声母时，替换操作的代价等于sIn(a，b)；字母a与b均为韵母时，替换操作的代价等于sFn(a，b)；否则替换操作的代价为∞。

8.如权利要求6所述的基于语音的多通道手写中文纠错方法，其特征在于，所述笔迹过切分的片断序列F_i，j的长度为j-i。