CN102708862B - 触控辅助的实时语音识别系统及其同步解码方法 - Google Patents

触控辅助的实时语音识别系统及其同步解码方法 Download PDF

Info

Publication number
CN102708862B
CN102708862B CN201210127297.9A CN201210127297A CN102708862B CN 102708862 B CN102708862 B CN 102708862B CN 201210127297 A CN201210127297 A CN 201210127297A CN 102708862 B CN102708862 B CN 102708862B
Authority
CN
China
Prior art keywords
action
touch
time
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210127297.9A
Other languages
English (en)
Other versions
CN102708862A (zh
Inventor
俞凯
王欢良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Speech Information Technology Co Ltd filed Critical Suzhou Speech Information Technology Co Ltd
Priority to CN201210127297.9A priority Critical patent/CN102708862B/zh
Publication of CN102708862A publication Critical patent/CN102708862A/zh
Application granted granted Critical
Publication of CN102708862B publication Critical patent/CN102708862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种触控辅助的实时语音识别系统及其实时语音/动作同步解码方法,其中该系统包括:触控动作检测单元,用于实时监测用户的触控操作,如果有预先定义的触控动作发生,抽取触控动作特征,该触控动作特征至少包括接触点位置坐标的时间序列,接触开始点时间和结束点时间;触控动作辨识单元,用于利用所述触控动作检测单元抽取的用户的触控动作特征对用户触控动作进行分类,得到该动作所表示的含义;语音端点检测单元,用于实时检测语音信号的有效开始点和结束点,用于启动和停止语音特征提取模块;语音特征提取单元,用于实时提取语音信号的声学特征,该声学特征用于进行语音识别;语音/动作同步解码单元,用于实时利用用户触控动作信息,对语音特征进行在线同步解码,输出语音识别结果。

Description

触控辅助的实时语音识别系统及其同步解码方法
技术领域
本发明涉及到语音识别、人机交互和移动计算等技术领域,尤其是一种有限硬件资源下实时的多模态信息辅助的语音识别技术。
背景技术
语音是进行自然人机交互的重要模式之一。语音识别简单说就是机器把语音信号转化为对应文本信息的过程,这些文本信息可进一步用来理解用户意图。当前语音识别技术的性能易受说话人、环境噪声以及信道等因素变化的影响而急剧下降。尤其是在硬件资源有限的应用环境下,复杂的语音识别算法难以实施,其识别性能会进一步下降。
采用其他模式特征来辅助语音识别可以提高语音识别的鲁棒性和识别精度,是促进语音识别技术实用化的重要途径之一。这些辅助特征包括:手写[CN1549244,CN101082836,CN1388434,US2004049388A1]、唇读[CN102023703A]、笔划[CN101377726,CN101488044]、点触[US2004049388A1,WO2008109835A2]等。这些辅助模式特征的应用方式可分为如下几种:
1)在[CN1112252、US2004049388A1]中,系统独立采用两种模式的切换来进行文本的输入,语音和其他模式的识别是独立的,在一次输入中,只能使用其中一种模式特征的识别结果,因此严格说该方法并不能改善语音识别性能。这种方式的主要问题是同一时刻只能使用一种模式特征的识别结果,因此其识别性能并不能提高。
2)在[CN1388434、CN101082836、CN1549244、CN101377726、CN102023703A]中,系统对两种模式分别进行独立的识别,然后通过融合两种识别结果来得到最终的识别结果。其一种融合方法为在两组识别结果中若有完全相同的部分则输出;否则采用的得分最高的部分。另外一种融合方法为首先识别一种模式特征,得到多个候选结果,然后再采用另外一种模式特征在候选结果中进行识别,得到最终结果。这种方式的主要问题是在识别过程中正确结果可能已经被丢弃,那么对识别结果上进行融合是无法找到正确结果的。另外,如果两种模式的识别是顺序的,那么输入速度必然会下降。
3)在[US2004049388A1,WO2008109835A2,CN1918578,CN101315666]中,系统首先采用一种模式特征进行文本输入,然后采用其他模式来修正输入文本中的错误。比较典型的方案是首先采用语音进行输入,对于语音识别结果中的错误单词,再采用手写识别或者点触软键盘来输入,该输入可以利用语音识别结果中的多候选信息。这种方式的主要问题是纠错会导致文本输入速度明显下降。
尤其是,专利[US2004049388A1,WO2008109835A2]公开了基于移动通信设备的语音识别输入技术。其技术特点是利用手写或者点触操作提供的辅助信息来对语音识别的结果进行修正,其手写或点触操作的识别过程和语音识别过程是离线的,不同步的,两者是不相关的。该技术实质上是对语音识别结果的一种后处理,本身并不能改善语音识别精度,也不能提高输入速度。
综上所述,当前其他模态信息辅助的语音识别存在的主要问题是只针对识别结果进行后处理,由此导致:1)计算复杂较高;2)输入速度明显下降;3)识别精度没有显著提高。因此,有必要开发一种在线语音识别过程中可实时利用其它模态信息辅助识别的技术,既可以提高语音识别的精度,又不影响输入速度,尤其是适用于移动通信设备的语音识别技术。
发明内容
本发明公开一种实时利用手指触控动作信息的在线语音识别系统及其同步解码方法。该系统在进行语音识别的过程中,可以同时采集用户手指在触摸屏上的点触和移动动作,然后在语音解码过程中实时利用这些动作信息来在线缩减和修正搜索空间,得到更准确的识别结果,并保持较高的识别速度。其关键特征为用户触控动作信息的使用在时间上和语音识别解码过程基本同步,并直接影响语音识别解码过程。
本发明提供了一种触控辅助的实时语音识别系统,包括:
触控动作检测单元,用于实时检测用户的触控操作,如果有预先定义的触控动作发生,则抽取触控动作特征,该触控动作特征至少包括接触点位置坐标的时间序列,接触开始点时间和结束点时间;
触控动作辨识单元,用于利用所述触控动作检测单元抽取的用户的触控动作特征对用户触控动作进行分类,得到该动作所表示的含义,输出表示该动作含义的特征向量;
语音端点检测单元,用于实时检测语音信号的有效开始点和结束点,进而启动或停止语音特征提取单元;
语音特征提取单元,用于实时提取语音信号的声学特征,该声学特征用于进行语音识别;
语音/动作同步解码单元,用于实时利用用户触控动作信息,对语音特征进行在线同步解码,输出语音识别结果。
本发明还提供了一种触控辅助的实时语音/动作同步解码方法,其特征在于在采用语音声学特征进行帧同步解码的过程中,可以实时利用用户触控操作信息对解码过程生成的候选搜索路径进行在线修正,直接影响解码过程,改善最终识别结果。该解码方法具体包括如下步骤:
第一步:在当前时刻当前状态上,从所有可到达当前状态的前序状态中选择一个最优状态,把该状态上前一时刻的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分累加作为当前时刻当前状态的部分路径累计得分,并记下所选择的最优前序状态。
第二步:获取一帧语音特征,计算每个状态上的声学观察概率,并累加到当前时刻该状态的部分路径累计得分中;
第三步:同时获取用户动作特征,计算当前状态上的动作观察概率,并累加到当前时刻当前状态的部分路径累计得分中;
第四步:在每个状态和时刻上重复上述过程,直至语音特征处理完毕,最后选择部分路径累计得分最高的状态通过回溯输出最优识别结果。
上述触控辅助的实时语音识别系统中,用于实现用户动作的方式并不限于手指接触屏幕,任何其他可以接触触摸屏并可以被准确检测位置的方式都可以用来实现用户触控动作。
本发明所提出的触控辅助的实时语音识别系统,其特征在于多模态信息并不局限于触控辅助信息,其他可提供与触控动作类似辅助信息的模式以及支持和语音进行同步解码的语音识别技术都在本专利保护范围之内。
技术效果
触控辅助的实时语音识别系统及其同步解码方法能够提高语音识别的准确性,同时不会影响识别速度。同步利用触控操作信息的实时语音识别技术,可以改善语音输入方式的用户体验,提高用户满意度。
技术优点
触控辅助的实时语音识别系统及其同步解码方法相比其他技术具有如下优点:
1)在语音解码过程中同步利用用户触控信息,可在线实时修正识别结果,语音解码结束后,即可获得准确性更高的识别结果;
2)和利用触控信息的多遍解码技术相比,本系统和方法可获得更高的识别准确性,并且只需一遍解码,不影响识别速度;
3)和利用触控操作对语音识别输出结果进行直接错误修正的技术相比,本系统和方法可提高语音输入效率,且具有较高的准确性和更好的用户体验。
附图说明
图1是触控辅助的实时语音识别系统的框架结构简图;
图2是触控辅助的实时语音/动作同步解码方法的流程图;
图3是简单触控动作辅助的语音输入操作示意图;
图4是利用动作表示汉语声调类型的触控辅助的语音输入操作示意图;
图5是利用动作表示汉字第一个笔画的语音输入操作示意图;
图6是利用点触软键盘动作表示汉字拼音第一个字母的语音输入操作示意图;
图7是点触软键盘动作产生汉字拼音第一个字母的容错信息示意图;
图8是用户触控动作生成表示特定语言信息的特征向量的示意图;
图9是利用语音和动作信息进行同步解码的局部过程的示意图。
具体实施方式
下面结合图例,给出触控辅助的实时语音识别系统及其同步解码方法更详细的技术特征以及一些典型的实施案例。
图1给出了触控辅助的实时同步语音识别系统的系统总体结构。触控辅助的实时同步语音识别系统主要由触控动作检测单元101、触控动作辨识单元102、语音端点检测单元103、语音特征提取单元104和语音/动作同步解码单元105组成。
触控动作检测单元101:该单元实时监测用户的触控操作,如果有预先定义的触控操作发生,则抽取触控动作特征。该特征至少包括接触点位置坐标的时间序列,接触开始点时间和结束点时间。
所述的用户触控操作是指一次不间断接触触摸屏的操作。
所述用户触控操作的输入和语音输入是基本同步的,并且每个动作在时间上对应于一个特定语音单元。
所述特定语音单元包括但不限于音素、音节、词或者句子。典型地,在中文语音识别中,特定语音单元对应于音节或者词;在英文语音识别中,特定语音单元对应于词。本说明书后续内容中一般采用“词”作为基本语音单元。
所述触控动作检测单元可以检测到用户手指接触和离开触摸屏的时间以及手指接触屏幕期间的每个位置坐标。从接触屏幕到离开的触点位置坐标形成一个时间序列。所述的接触点位置坐标的时间序列是一组由接触点位置组成的向量。
所述用户动作是指用户手指和触摸屏接触期间的移动轨迹。一个用户动作定义为一个不间断的手指触控屏幕的移动轨迹。用户手指接触屏幕,表示一个用户动作的开始;用户手指离开屏幕,表示一个用户动作的结束。
所述用户触控动作从形式上可分为点触动作和滑动动作。所述点触动作是指手指触控屏幕期间的位置不变,或者在给定阈值范围内变化;所述移动动作是指手指触控屏幕期间的接触点位置不断变化,其轨迹形成某种特定形状。
触控动作辨识单元102:该单元利用单元101抽取的用户触控动作特征对用户触控动作进行分类,得到该动作所表示的含义。所述动作辨识单元可以输出一个离散的语言或语音相关的符号,也可以输出一个连续的表示多个可能语言或语音相关的符号置信度的向量。此外,动作辨识单元还将输出用户动作发生的时间信息。
典型地,所述动作辨识单元根据用户手指的移动轨迹来对用户动作进行分类,得到其类型。
所述用户动作类型分为两大类:一类是简单动作;另一类是抽象动作。简单动作是指用户点触屏幕,系统只提取点触时间信息的动作;抽象动作是指除时间信息之外,还具有特定含义的动作,比如表示特定的语言或语音相关的符号。
所述抽象动作及其含义可通过两种途径来获取:
1)和屏幕位置相关的点触动作,点触屏幕特定位置,即表示特定含义。比如点触屏幕软键盘上的特定位置,该动作所表示的含义即为该位置所对应的特定符号。
2)和触控移动轨迹相关的动作,这类动作的含义和该移动轨迹所形成的形状和顺序相关。此类动作一般需要通过模式识别技术来进行辨识,然后得到相应动作的含义。比如可以用触控动作来表示汉字的声调,也可以表示汉字的笔画等。
典型地,所述动作辨识单元所确定的动作类型和预先定义的动作含义相对应。该动作含义可以代表某个/某些特定的语言或语音相关的符号。通过动作辨识单元可以得到动作所表示的某个/某些特定语言或语音相关的符号的置信度,该信息可作为语音同步解码中的用户动作特征。
用户动作所代表的离散语言或语音相关的符号表示一个语言单元的某些属性,比如:汉字的声调、汉字的第1个笔画、汉字拼音的第1个字母、英文单词的第1个字母等。但本专利所公开技术所支持的用户动作可表示的含义不仅限于上述类型。
用户动作的含义也可以表示为一个特征向量,该向量可用来表示该用户动作可能代表的某些语言或语音相关的符号及其置信度。这主要针对用户动作辨识精度不高的情况,比如用户点触软键盘时,有操作误差,可能会同时触动多个按键。图8给出了一个用户通过触控动作输入汉字拼音首字母后动作辨识单元的输出结果的示例,用户触动软键盘输入汉字“触”的拼音首字母“c”,动作辨识单元将给出一个23维的置信度向量,该向量每一维对应一个拼音字母的置信度,该特征向量所有维之和应该等于1。如果当前动作所表示的字母是确定的,则只有该字母的置信度为1,其余字母的置信度为0,如图8(a)所示。这种情况下,上述用户动作其实就表示一个离散的语言或语音相关的符号。如果当前动作所表示的字母是不确定的,则可能有多个字母的置信度非零,如图8(b)所示,其中字母“c”的置信度最高,为0.7,这意味着该用户动作的含义最有可能是输入“c”。
特定地,用户动作也可以不代表任何语言含义,所述动作辨识单元仅提供用户触控动作发生的时间信息。
上述动作辨识单元输出的离散符号或者连续向量以及触控动作发生的时间信息,都可作为一种特征,同步输入到同步解码单元,在线调整语音解码过程生成的多个候选结果的概率得分,并影响最终识别结果。
本系统所述动作检测单元和动作辨识单元采用当前成熟的触摸屏控制技术和手写识别技术很容易实现。
语音端点检测单元103:该单元主要是检测用户语音信号的开始点和结束点。当检测到语音的开始点之后,音频采样数据才被送到后续的特征提取单元进行处理。当检测到语音的结束点之后,音频采样数停止发送到后续的特征提取单元,语音解码单元也停止工作。传统的语音端点检测方法一般是通过检测分析音频采样数据的能量、基频或谱特征,来发现语音信号的起始点和结束点。
典型地,本发明所公开技术支持采用用户动作来标识语音的起始点和结束点。用户通过发出特定的触控动作来表示语音的起始和结束。特定的触控动作可以是触控屏幕上的特定位置;也可以是一个预定义的特殊的触控滑动轨迹。动作辨识单元在识别出该特定动作后,向语音端点检测单元发信号,表示语音的起始点或者结束点。
语音特征提取单元104:此单元从语音信号数据中抽取各种声学特征,这些特征刻画了不同语言单元的声学模式特点。典型的声学特征包括:时域能量,Mel频率倒谱系数(MFCC),感知线性预测(PLP)系数,基频等。该声学特征表示了语音的声学模式特点,用于后续的语音识别解码,尤其是和语音声学模型进行模式匹配。该声学特征可在线实时抽取,然后发送到同步解码单元进行识别。
语音/动作同步解码单元105:此单元采用触控辅助的实时语音同步解码方法对语音声学特征和用户动作特征进行实时同步解码来获得用户语音所对应的文本信息。具体来说,根据语音声学特征和用户动作特征在语言空间搜索一个概率得分最高的语言单元序列。所述同步解码是指采用帧同步Viterbi解码框架,在传统语音识别解码过程中实时利用用户动作信息,对语音解码得到的候选结果的概率得分进行修正,从而影响最终得到的识别结果。所述识别的最终结果的准确率将高于仅采用语音信息识别的结果。
所述触控辅助的实时语音识别系统其特征在于所述语音/动作同步解码单元在传统帧同步viterbi解码过程中同时利用用户动作信息来辅助语音解码过程。此语音/动作同步解码过程可表示为下式:
W ~ = arg max W ∈ S [ αlpgP ( O | W ) + β log P ( W ) + γ log P ( A | W , O ) ] - - - ( 1 )
其中:S表示所有所有可能的词串集合,O=[o1,...,oT]表示声学观察序列,A=[a1,...,aT]表示观察到的用户动作特征序列,P(O |W)表示给定词串W产生声学观察O的概率,P(W)表示词串W出现的概率,P(A|W,O)表示给定词串W和声学观察序列O产生用户动作序列A的概率,α、β和γ分别为声学模型概率、语言模型概率和用户动作概率的权重。
所述语音/动作同步解码单元的关键特征在于在语音解码过程中引入给定词串W和声学观察序列O下同时发生用户动作序列A的概率P(A|W,O)。P(A|W,O)表征了用户触控动作信息对于语音识别过程的具体影响。为了使用户触控动作信息在语音识别过程中实时产生影响,P(A|W,O)的具体形式必须满足两个条件:1)可以描述用户动作含义与给定词串序列在语言上的相似度(概率);2)可以描述用户动作与用户语音单元在时间上的相关度。
典型地,所述触控辅助的实时语音识别系统可采用下式定义的P(A|W,O):
P ( A | W , O ) = Σ X Φ ( T ^ W ( X ) , T ^ A ) Π t = 1 T c ( w x ( t ) , a t ) - - - ( 2 )
其中,表示状态序列X所对应词序列W(X)中每个词出现的时间序列,表示用户动作序列A中每个动作出现的时间序列,表示用户触控动作序列和词序列在时间上的匹配得分,c(wx(t),at)为t时刻状态x(t)所在的语音单元wx(t)上观察到用户动作特征at的概率。进一步地,可分解为每对邻近用户动作与其间出现的词序列之间的时间匹配得分的乘积。
在本专利框架下,本领域专家可以采用其它形式的P(A|W,O)模型来实现触控辅助的实时语音识别过程。
基于上式定义的P(A|W,O),所述语音/动作同步解码过程中,t时刻在状态j上部分路径的累计得分通过下式计算:
ψ j ( t ) = max i { ψ i ( t - 1 ) + α log a ij + β log L ij + γ log φ ( t , j ) } (3)
( j , o t ) + γ log c ( w j , a t )
其中,ψi(t-1)表示t-1时刻在状态i上的部分路径累计得分,aij表示声学模型中从状态i到状态j的转移概率,b(j,ot)表示t时刻在状态j上观察到声学特征ot的概率,Lij为词尾状态i所在词跳转到词首状态j所在词的语言模型概率,φ(t,j)为相邻用户动作与其间出现的词序列之间的时间匹配得分,即从前一动作发生时刻到当前动作发生时刻t之间到达状态j的部分路径上的词序列和用户动作的时间匹配得分,c(wj,at)为t时刻状态j所在词wj上观察到用户动作特征at的概率。
语言模型概率Lij可通过下式计算:
其中,wj表示词首状态状态j所在的词,Wi=[w1,...,wk(i)]表示到达状态i的部分路径上的词序列,如果语言模型采用2-gram,则P(wj|Wi)=P(wj|wk(i))。
典型地,t时刻相邻用户动作与其间出现的词序列之间的时间匹配得分φ(t,j)可设计为一个阶跃函数:
其中:cn为从前一用户动作发生时刻到当前用户动作发生时刻t之间在到达状态j的部分路径上出现的语音单元跳转的次数。
t时刻状态j所在词wj上观察到用户动作特征at的概率c(wj,at)可根据用户动作特征at的类型采用不同方法来计算。如果用户动作特征是一个离散量,那么可直接采用在训练数据上预先估计的给定语音单元上观察到该动作所表示离散语言或语音相关的符号的概率值。如果用户动作特征是一个连续量,可采用一个预先训练的概率分布模型(如GMM模型)来计算给定语音单元上观察到用户动作特征的概率。
所述触控辅助的实时语音识别系统其特征还在于所述的语音/动作同步解码中采用的用户动作特征既可以采用离散量,也可以采用连续量。
所述触控辅助的实时语音识别系统其特征在于所述的语音/动作同步解码过程保持传统帧同步解码框架不变,可实时利用用户输入的触控信息(包括触控动作类型及其发生时间),实时得到语音识别结果。
所述触控辅助的实时语音识别系统其特征在于所述的语音/动作同步解码过程中,如果用户输入的触控操作只是简单动作,则设置(3)式中的c(wj,at)=1;否则在每出现一个用户触控动作的时刻,对其前后若干个时刻内每个状态上的部分路径得分累计该用户动作发生的观察概率。
所述的语音/动作同步解码单元实时获得动作辨识单元提取的用户动作特征(即某个/某些特定的语言或语音相关的符号或者其对应的置信度向量),然后同步计算每个状态上该特征出现的概率,并把该概率在线累加到到达当前状态的部分路径的累计得分中去。
所述的语音/动作同步解码单元在解码过程中,用户动作的时间序列和语音单元的时间序列之间的匹配得分通过每次用户动作发生时刻在部分路径得分中累加φ(t,j)来计算。
上述系统单元的工作流程为:用户通过麦克风开始进行语音输入,可选地,用户同时发出表示语音开始的特定触控动作,语音端点检测单元103或者通过传统语音端点检测方法检测语音开始点,或者通过检测动作辨识单元102送来的触控动作信息来检测语音开始点;系统在检测到语音开始点之后,通过语音特征提取单元104提取语音信号的特征,并送入语音/动作同步解码单元105;在输入语音的同时,对应每个语音单元用户通过触摸屏或者其他设备输入触控动作,触控动作检测单元101检测到触控动作,提取触控特征,送到触控动作辨识单元102进行识别,得到表示特定语言含义的动作特征,该特征然后送入语音/动作同步解码单元105;单元105在收到语音特征后基于帧同步解码方法进行一次状态空间搜索,并记录每个时刻每个状态的最优前序状态,同时利用用户动作特征来修正候选搜索结果的概率得分;在停止语音输入后,单元103或者通过传统语音端点检测方法检测出语音结束点,或者通过检测动作辨识单元102送来的触控动作信息来检测语音结束点,停止语音特征提取单元104;单元105处理完最后一帧语音数据后,通过回溯操作发现最优的识别结果并输出。
典型地,上述单元101和102可以采用触摸控制技术【W.Wayne.Hand Tracking,Finger IdentificationChordic Manipulation on a Multi-Touch Surface.U of Delaware PhD Dissertation,PhD Thesis,University ofDelaware,1999】和手写识别技术【R.Plamondon,S.N.Srihari.Online and Off-line Handwriting Recognition:AComprehensive Survey.IEEE Transactions on Pattern Analysis and Machine Intelligence.2000,22(1)】来实现。语音特征提取单元104的声学特征提取可直接采用当前非常成熟的技术【L.R.Rabiner,B.H.Juang.Fundamentals of Speech Recognition.Prentice Hall,1993】。
本发明所公开的实时语音/动作同步解码方法,其特征在于在采用语音声学特征进行帧同步解码的过程中,可以实时利用用户触控操作信息对解码过程生成的候选搜索路径进行在线修正,直接影响解码过程,改善最终识别结果。该解码方法具体包括如下步骤:
第一步:在当前时刻当前状态上,从所有可到达当前状态的前序状态中选择一个最优状态,把该状态上前一时刻的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分累加作为当前时刻当前状态的部分路径累计得分,并记下所选择的最优前序状态。
第二步:获取一帧语音特征,计算当前状态上的声学观察概率,并累加到当前时刻当前状态的部分路径累计得分中;
第三步:同时获取用户动作特征,计算当前状态上的动作观察概率,并累加到当前时刻当前状态的部分路径累计得分中;
第四步:在每个状态和时刻上重复上述过程,直至语音特征处理完毕,最后选择部分路径累计得分最高的状态,通过回溯输出最优识别结果。
所述触控辅助的实时语音/动作同步解码方法中,其第一步选择最优前序状态的基本准则是该状态的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分之和最大,具体包括如下步骤:
1.1获得每个前序状态的部分路径累计得分,并分别累加从该状态到当前状态的转移概率
1.2在每个前序状态的部分路径累计得分上累加采用(4)式计算的n-gram的语言模型概率
1.3如果在当前时刻有用户触控动作发生,则计算相邻动作与其间可到达当前状态的每个部分路径上的语音单元的时间匹配得分,并分别累加到上述得分中
1.4根据上述累计得分,选择得分最大的一个前序状态作为当前状态的最优前序状态。
特定地,所述实时语音/动作同步解码方法其特征在于采用(5)式来计算相邻动作与其间可到达当前状态的每个部分路径上的语音单元的时间匹配得分。
上述触控辅助的实时语音/动作同步解码方法其特征在于在实时语音解码过程中为每个部分搜索路径添加一个计数标记位来存储从上一个动作到当前动作之间该路径上出现语音单元跳转的次数cn,具体步骤如下:
1)初始化每个搜索路径上的计数标记位为0;
2)如果搜索路径上出现从一个语音单元到一个语音单元的状态跳转,则其上的计数标记位自动加1;
3)在接收到一个用户触控动作时,如果搜索路径的计数标记位为0,则设置cn为一个非1的预设值;否则设置cn为该计数标记位的值;
4)采用(5)式计算当前时刻当前状态上相邻用户动作与其间出现的语音单元序列之间的时间匹配得分;
5)重置每个搜索路径的计数标记位为0,跳转到2)
图2给出了的上述触控辅助的实时语音/动作同步解码方法的具体流程图。该同步解码方法基于帧同步Viterbi解码框架,具体包括如下步骤:
步骤1:开始,初始化所有状态上的部分路径累计得分为0;
步骤2:获取一帧语音特征和动作特征;
步骤3:从状态队列中选择一个新状态作为当前状态,并从可以到达当前状态的所有前序状态中挑选一个最佳前序状态:
步骤3.1:针对每个前序状态,计算该状态到当前状态的转移概率,语言模型概率和相邻用户动作与期间出现的语音单元序列的时间匹配得分
步骤3.2:计算转移概率、语言模型概率、时间匹配得分和该前序状态上部分路径累计得分之和,挑选上述得分之和最大的前序状态作为当前状态的最佳前序状态
步骤3.3:初始化当前状态的部分路径累计得分为上述得分之和,并记录当前状态的最佳前序状态
步骤4:计算当前状态上的声学观察概率得分、动作观察概率得分,并累加到当前状态的部分路径累计得分上;
步骤5:如果还有状态未处理,跳转到步骤3;
步骤6:进行剪枝,包括状态级、模型级和词级的剪枝;
步骤7:如果还有语音特征未处理,跳转到步骤2;
步骤8:从最后时刻具有最高部分路径累计得分的结束状态开始回溯,找到得分最高的语言单元序列,并输出,结束。
典型地,上述算法步骤3和4中,声学解码可以延迟于触控动作若干时刻进行解码,这样可以充分利用触控动作带来的信息。这种延迟处理对于表示抽象含义的滑动动作来说,尤其重要。比如在说汉字“助”的时候,用户通过滑动动作输入其声调,当动作辨识单元识别出该声调的时候,可能其对应语音已结束,由于语音解码采用的是帧同步解码方法,如果在辨识出声调之后的时刻在把该声调信息应用于语音解码过程,将会带来错误影响。解决的办法是在检测到用户动作后,暂停语音帧同步解码,暂存语音特征,等到识别出该动作后,把该动作特征和语音特征进行对齐,重新开始语音/动作的帧同步解码。
图9给出了一个利用语音和动作信息进行同步解码的局部过程的示意图。图中展示了在语音实时解码过程中同步利用触控动作输入信息来对候选的部分路径得分进行修正,提高合理候选路径得分,降低不合理候选路径的得分,使得通过剪枝操作可以尽早剔除那些不合理的候选路径,维持最高得分候选路径为合理路径,直到语音解码结束。
不合理候选路径有两类,一类是出现了插入和删除识别错误,既路径上识别出的语音单元(如汉字)数目和用户动作数目及时间不对应;另外一类是候选路径上当前状态对应的汉字拼音首字母和当前用户动作输入的字母不匹配,比如标识为903的那些路径。第一类不合理路径又分为两种:一种是在两次动作之间候选路径上只出现一个汉字,比如标记为901的那些路径;另一种是在两次动作之间候选路径上出现了两个以上的汉字,比如标记为902的那些路径。上述不合理路径在加入用户动作信息得分之后,其累计得分会下降,最终将被剪枝,如图中“×”所示。通过利用用户动作信息进行同步解码和剪枝操作,在每次用户触控动作输入之后留下的候选路径通常都是比较合理的。
下面给出一些本发明所公开技术的优选的实施例。
实施例1:采用简单动作辅助的实时语音输入
用户在进行语音输入的同时,在每个语音单元的中间发出一个简单的触控动作,比如点触触摸屏特定区域。所述的语音单元可以是音节或者词。这种触控动作只提供一个时间信息,该时间信息指示了语音单元出现的时刻。在两次触控动作之间,只能出现一次语音单元之间的转移。在语音解码过程中,这个信息可用来惩罚那些在两次动作之间出现1个或2个以上语言单元的部分路径。最终将减少甚至消除识别结果中的插入和删除错误。
图3给出了一个简单触控动作辅助的实时语音输入操作示意图。用户输入语音“触控辅助的语音输入”,在说每个汉字的同时用手指点击屏幕特定区域,这样每次点击的时刻就对应一个汉字的语音单元。在进行语音同步解码的时候,比如在处理到汉字“辅”的语音特征时,如果同时检测到用户动作,则降低那些对应语音单元数超过3个汉字或者少于3个汉字的候选路径的累计得分,这样这些候选路径在最后的得分排序中就不会占优。特定地,可以直接把那些对应语音单元数超过3个汉字或者少于3个汉字的候选路径删除,这样最后时刻的候选路径上对应的语音单元数将和用户触控动作数目相同。这样,也就消除了识别结果中的插入和删除错误。
特定地,本专利所公开的技术并不要求用户输入的触控动作和语音单元严格一一对应。该技术通过计算一个时间匹配得分以及利用权重因子来控制触控动作信息对语音解码的影响。如果用户的触控动作和语音单元在数母及时间上不对应,本专利所公开技术也会得到比较准确的识别结果。
实施例2:表示汉语声调类型的触控动作辅助的实时语音输入
用户在进行语音输入的同时,在每个汉字语音单元对应位置发出一个抽象动作,该抽象动作表示该汉字的声调。比如可简单定义五种,分别是水平滑动(“→”),从左下到右上的滑动先下后上的滑动(“√”),从左上到右下的滑动和点触(“·”)。上述五种动作分别代表汉语的五种声调,一声、二声、三声、四声和轻声。用户在触摸屏特定区域做出上述触控动作后,动作辨识单元会识别出其所代表的声调类型,然后把该信息实时送入语音解码过程,提高那些和用户动作类型具有相同声调的汉字的状态的部分路径累计得分;降低声调不相同的状态的部分路径累计得分。
图4给出了一个利用动作输入汉语声调类型的触控辅助的语音输入操作示意图。用户输入语音“触控辅助的语音输入”,同时在说每个汉字的时候手指在屏幕特定区域作出表示该位置对应汉字的声调的滑动动作。触控动作检测单元检测到上述动作并提取特征,触控辨识单元利用上述特征识别该动作类型,从而得到其表示的声调类型。然后该结果被组织成声调离散符号或者声调置信度向量,用于在语音解码过程中实时修正候选结果累计得分。
比如,在说汉字“助”的时候,用户同时在触摸屏上从左上到右下滑动一次,动作辨识单元识别出该动作表示四声,然后把该声调信息组织成一个离散符号或者一个置信度特征向量送入语音/动作同步解码单元。同步解码单元在接收到该特征后在该时刻前后若干时刻范围内的状态上计算该动作的观察概率得分和相邻动作与其间语音单元序列的时间匹配得分,并用这些得分修正语音解码得到的对应状态的部分路径累计得分,从而直接影响最终识别结果。
实施例3:表示汉字第1笔画的触控动作辅助的实时语音输入
用户在进行语音输入的同时,在每个汉字语音单元对应位置发出一个抽象动作,该抽象动作表示汉字的第1个笔画。比如可简单定义五种动作及其含义,分别是水平滑动(“→”表示“横”),垂直滑动(“↓”表示“竖”),从左上到右下的滑动(表示“撇”),从左上到右下的滑动(表示“捺”)和点触(“、”表示“点”)。用户在触摸屏特定区域做出上述触控动作后,动作辨识单元识别出其所代表的笔画类型,然后把结果以置信度向量形式送入同步解码单元,提高和用户动作所表示笔画具有相同第1笔画的汉字的状态的部分路径累计得分;降低笔画不相同的状态的候选路径累计得分。
图5给出了一个利用触控动作输入汉字笔画类型的触控辅助的语音输入操作示意图。用户输入语音“触控辅助的语音输入”,在说每个汉字的同时手指在屏幕特定区域作出表示该位置对应汉字第1笔画的滑动动作。触控动作检测单元检测到上述动作并提取特征,触控动作辨识单元利用上述特征识别该动作类型,得到其表示的笔画类型及其置信度。然后该结果被组织成笔画置信度向量,用于在语音解码过程中实时修正候选结果累计得分。
比如,在说汉字“助”的时候,用户同时在触摸屏上垂直滑动一次,动作辨识单元识别得到该动作表示笔画“竖”,然后把该结果组织笔画置信度特征向量送入语音/动作同步解码单元。同步解码单元在收到该特征向量后在该时刻前后若干时刻范围内的所有状态上计算该动作的观察概率得分和相邻动作与其间语音单元序列的时间匹配得分,并利用这些得分修正语音解码的状态部分路径累计得分,从而直接影响最终识别结果。
实施例4:表示汉字拼音第1字母的触控动作辅助的实时语音输入
用户在输入语音的同时,在每个汉字单元对应位置发出一个抽象动作,该动作表示当前汉字的拼音首字母。为了输入汉字拼音字母,既可通过滑动动作来输入,也可通过点触动作操作软键盘来输入。前者需要比较复杂的手写模式识别技术,并且输入速度较慢;后者操作简单,输入速度较快,但容易出现触控误差。系统在辨识出用户动作所表示的字母类型之后,把该动作特征以字母置信度向量形式送入同步解码单元,提高和用户动作表示字母具有相同拼音首字母的汉字状态的部分路径累计得分;降低拼音首字母不相同的状态的候选路径累计得分。
图6给出了一个通过点触软键盘输入汉字拼音首字母的触控操作辅助的语音输入操作示意图。用户输入语音“触控辅助的语音输入”,在说每个汉字的同时手指在软键盘上点触该汉字拼音首字母的按键位置。触控动作检测单元和辨识单元得到该动作所表示的字母类型及其置信度。然后该结果被组织成字母置信度向量,用于在语音同步解码过程中实时修正候选结果累计得分。
比如,在说汉字“助”的时候,用户同时点触软键盘上该汉字首字母键“c”的位置,动作辨识单元识别得到该动作表示的字母“c”以及置信度,然后把该结果组织成字母置信度特征向量送入语音/动作同步解码单元。同步解码单元在收到该特征向量后在该时刻前后若干时刻范围内的所有状态上计算该动作所表示字母的观察概率得分和相邻动作与其间语音单元序列的时间匹配得分,并利用这些得分修正语音解码的状态部分路径累计得分,从而直接影响最终识别结果。
实施例5:具有动作辨识置信度信息的触控动作辅助的实时语音输入
上述实施例中,都是假定动作辨识单元得到的用户动作所表示的语言或语音相关的符号类型是确定的,送入同步解码单元的动作特征向量就是一个表示特定语言或语音相关的符号的特征向量,其对应特征维置信度为1,其余特征维的值为0,如图8(a)所示。
实际上,用户的触控操作会出现偏差,而动作辨识也可能会引入错误,这样最终输出的置信度最高的语言或语音相关的符号可能不是用户动作真正想输入的。比如,用户在操作软键盘时,想点触“s”,结果点触区域覆盖了周围的几个字母,或者点触区域中心位置不在“s”上,这样动作辨识单元输出的最高置信度的语言符号将不是“s”。再比如,用户通过滑动动作输入一声时,滑动方向可能不是严格水平的,这样动作辨识单元有可能将该动作识别为二声或者四声。
针对上述情况,本专利所公开技术采用的置信度特征向量形式和同步解码方法可以很好地解决这种问题。特定地,可以采用一个高斯混合模型来建模在不同语音单元的状态上观察到用户动作所表示语言或语音相关的符号的置信度特征向量的概率。
图7是一个用户操作软键盘同步输入汉字拼音首字母和语音的示意图,其中在通过软键盘输入汉字拼音首字母时,用户点触区域可能覆盖目标字母周围的多个字母或者偏离目标字母键位置。比如点触字母“c”时,可能会覆盖“x,v,d,f”等几个字母,并偏离字母“c”键位置。这样通过动作辨识单元识别输出的结果就是所有字母的置信度,组成如图8(b)所示形式的置信度特征向量。该特征向量被送入同步解码单元,同步解码单元在收到该特征向量后在该时刻前后若干时刻范围内的所有状态上计算该动作的观察概率得分和相邻动作与其间语音单元序列的时间匹配得分,并利用这些得分修正语音解码的状态部分路径累计得分,从而直接影响最终识别结果。
本发明所公开技术支持的用户动作种类并不局限于上述几种,可以根据语言种类和具体应用进行扩展。本发明所述的汉字声调、笔画的输入并不局限于上述定义的滑动动作,也可通过操作软键盘等方式来输入。
虽然附图和前述说明给出了本发明的实施例。但可以理解的是,本领域技术人员将理解可以将这种组件中的一个或多个组件很好地组合成单个功能组件。在替换方案中,特定的组件可以分成多个功能组件,或反之。同时,本发明的范围并不受这些特定实例的限制。多种变化都是可能的,例如结构等上的差异,而无论其是否在说明书中被清晰地给出。本发明的范围至少与所附权利要求给出的范围一样宽。

Claims (10)

1.一种触控辅助的实时语音识别系统,包括:
触控动作检测单元,用于实时检测用户的触控操作,如果有预先定义的触控操作发生,抽取触控动作特征,该触控动作特征至少包括接触点位置坐标的时间序列,触控开始点时间和结束点时间;
触控动作辨识单元,用于利用所述触控动作检测单元抽取的用户触控动作特征对用户触控动作进行分类,得到该动作所表示的含义,输出表示该动作含义的特征向量;
语音端点检测单元,用于实时检测语音信号的有效开始点和结束点,进而启动或停止语音特征提取单元;
语音特征提取单元,用于实时提取语音信号的声学特征,该声学特征用于进行语音识别;
语音/动作同步解码单元,用于实时利用用户触控动作信息,对语音特征进行在线同步解码,输出语音识别结果;
其中用户触控动作的输入和语音输入是实时同步的,并且每个动作在时间上对应于一个特定语音单元;所述特定语音单元包括音素、音节、词或者句子;
所述用户触控动作是指用户手指和触摸屏接触期间的移动轨迹。
2.如权利要求1所述的触控辅助的实时语音识别系统,其中所述触控动作检测单元可以检测到用户手指接触和离开触摸屏的时间以及手指接触屏幕期间的每个位置坐标,从接触屏幕到离开的触点位置坐标形成一个时间序列。
3.如权利要求1所述的触控辅助的实时语音识别系统,其中所述触控动作辨识单元根据用户手指触控位置或移动轨迹来判断用户动作所表示的含义,表示为用户动作所表示的若干语言或语音相关的符号。
4.如权利要求3所述的触控辅助的实时语音识别系统,其特征在于所述触控动作辨识单元所输出的用户动作的含义表示为若干特定语言或语音相关的符号的置信度向量。
5.如权利要求1所述的触控辅助的实时语音识别系统,其中所述语音端点检测单元可以采用用户触控动作来实现语音端点的实时检测,主要包括:首先定义特定的用户触控动作来表示语音起始点和结束点,然后通过检测预定义的用户触控动作来标识用户语音的开始点和结束点。
6.如权利要求1所述的触控辅助的实时语音识别系统,其中所述语音/动作同步解码单元的语音/动作同步解码的过程可用下述公式实现:
W ~ = arg max W ∈ S [ α log P ( O | W ) + β log P ( W ) + γ log P ( A | W , O ) ]
其中:S表示所有可能的词串集合,O=[o1,...,oT]表示声学观察序列,A=[a1,...,aT]表示观察到的用户动作特征序列,P(O|W)表示给定词串W产生声学观察O的概率,P(W)表示词串W出现的概率,P(A|W,O)表示给定词串W和声学观察序列O产生用户动作序列A的概率,α、β和γ分别为声学模型概率、语言模型概率和用户动作概率的权重。
7.如权利要求6所述的触控辅助的实时语音识别系统,其中所述语音/动作同步解码单元的关键特征在于语音解码过程中引入的概率P(A|W,O),且其具体形式必须满足如下条件:
1)可以描述用户动作含义与给定词串序列在语言上的相似度;
2)可以描述用户动作与用户语音单元在时间上的相关度。
8.一种用于权利要求1所述的触控辅助的实时语音识别系统的实时语音/动作同步解码方法,其特征在于在采用语音声学特征进行帧同步解码的过程中,实时利用用户触控操作信息对解码过程生成的候选搜索路径进行在线修正,该方法具体包括如下步骤:
第一步:在当前时刻当前状态上,从所有可到达当前状态的前序状态中选择一个最优状态,把该最优状态上前一时刻的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分累加作为当前时刻当前状态的部分路径累计得分,并记下所选择的最优前序状态;
第二步:获取一帧语音特征,计算当前状态上的声学观察概率,并累加到当前时刻当前状态的部分路径累计得分中;
第三步:同时获取用户动作特征,计算当前状态上的动作观察概率,并累加到当前时刻当前状态的部分路径累计得分中;
第四步:在每个状态和时刻上重复上述过程,直至语音特征处理完毕,最后选择部分路径累计得分最高的状态,通过回溯输出最优识别结果。
9.如权利要求8所述的实时语音/动作同步解码方法,其中第一步选择最优前序状态的基本准则是该状态的部分路径累计得分、到当前状态的状态转移概率、语言模型概率和当前相邻动作与其间语音单元的时间匹配得分之和最大,具体包括如下步骤:
1.1获得每个前序状态的部分路径累计得分,并分别累加从该状态到当前状态的转移概率;
1.2在每个前序状态的部分路径累计得分上累加语言模型概率;
1.3如果在当前时刻有用户触控动作发生,则计算相邻动作与其间可到达当前状态的每个部分路径上的语音单元的时间匹配得分,并分别累加到上述得分中,典型计算公式如下:
其中:cn为从前一用户动作发生时刻到当前用户动作发生时刻t之间在到达状态j的部分路径上出现的语音单元跳转的次数:
1.4根据上述累计得分,选择得分最大的一个前序状态作为当前状态的最优前序状态。
10.如权利要求9所述的实时语音/动作同步解码方法,其中在实时语音/动作同步解码过程中为每个部分路径添加一个计数标记位来存储从上一个动作到当前动作之间该路径上出现语音单元跳转的次数cn,具体步骤如下:
步骤a,初始化每个搜索路径上的计数标记位为0;
步骤b,如果搜索路径上出现从一个语音单元到一个语音单元的状态跳转,则其上的计数标记位自动加1;
步骤c,在接收到一个用户触控动作时,如果搜索路径的计数标记位为0,则设置cn为一个非1的预设值;否则设置cn为该计数标记位的值;
步骤d,计算当前时刻当前状态上相邻用户动作与其间出现的语音单元序列之间的时间匹配得分;
步骤e,重置每个搜索路径的计数标记位为0,跳转到步骤b。
CN201210127297.9A 2012-04-27 2012-04-27 触控辅助的实时语音识别系统及其同步解码方法 Active CN102708862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210127297.9A CN102708862B (zh) 2012-04-27 2012-04-27 触控辅助的实时语音识别系统及其同步解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210127297.9A CN102708862B (zh) 2012-04-27 2012-04-27 触控辅助的实时语音识别系统及其同步解码方法

Publications (2)

Publication Number Publication Date
CN102708862A CN102708862A (zh) 2012-10-03
CN102708862B true CN102708862B (zh) 2014-09-24

Family

ID=46901564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210127297.9A Active CN102708862B (zh) 2012-04-27 2012-04-27 触控辅助的实时语音识别系统及其同步解码方法

Country Status (1)

Country Link
CN (1) CN102708862B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9632619B2 (en) 2014-06-25 2017-04-25 Egalax_Empia Technology Inc. Recording method, apparatus, system, and computer-readable media of touch information timing
TWI556154B (zh) * 2014-06-25 2016-11-01 禾瑞亞科技股份有限公司 觸控資訊時間的記錄方法、裝置、系統及其電腦可讀取媒體
US11619983B2 (en) 2014-09-15 2023-04-04 Qeexo, Co. Method and apparatus for resolving touch screen ambiguities
US10606417B2 (en) * 2014-09-24 2020-03-31 Qeexo, Co. Method for improving accuracy of touch screen event analysis by use of spatiotemporal touch patterns
CN111757189B (zh) * 2014-12-01 2022-07-15 构造数据有限责任公司 用于连续介质片段识别的系统和方法
US10229685B2 (en) * 2017-01-18 2019-03-12 International Business Machines Corporation Symbol sequence estimation in speech
US10530395B2 (en) * 2018-02-06 2020-01-07 Alibaba Group Holding Limited Iterative message-passing decoding with global code embedded with local code in time-division manner for fault tolerance improvement
CN109979265B (zh) * 2019-04-28 2020-11-13 广州世祥教育科技有限公司 一种动作捕捉智能识别方法及教学系统
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN113436614B (zh) * 2021-07-02 2024-02-13 中国科学技术大学 语音识别方法、装置、设备、系统及存储介质
CN117336239B (zh) * 2023-10-18 2024-08-02 国网江苏省电力有限公司泰州供电分公司 一种光缆路由用户配置系统及其配置方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842842A (zh) * 2003-08-29 2006-10-04 松下电器产业株式会社 一种根据辅助信息提高语音识别的方法和设备
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统
CN102378951A (zh) * 2009-03-30 2012-03-14 符号技术有限公司 用于观察符号映射的组合语音和触摸输入

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7679534B2 (en) * 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US20080221899A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile messaging environment speech processing facility

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842842A (zh) * 2003-08-29 2006-10-04 松下电器产业株式会社 一种根据辅助信息提高语音识别的方法和设备
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统
CN102378951A (zh) * 2009-03-30 2012-03-14 符号技术有限公司 用于观察符号映射的组合语音和触摸输入

Also Published As

Publication number Publication date
CN102708862A (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN102708862B (zh) 触控辅助的实时语音识别系统及其同步解码方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
US10109219B2 (en) System and method for automated sign language recognition
US9153231B1 (en) Adaptive neural network speech recognition models
CN107301865B (zh) 一种用于语音输入中确定交互文本的方法和装置
CN106782560B (zh) 确定目标识别文本的方法及装置
Gao et al. Transition movement models for large vocabulary continuous sign language recognition
WO2020001458A1 (zh) 语音识别方法、装置及系统
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
WO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
WO2013006215A1 (en) Method and apparatus of confidence measure calculation
Ma et al. A continuous Chinese sign language recognition system
AU2012388796B2 (en) Method and system for predicting speech recognition performance using accuracy scores
Kristensson et al. Asynchronous multimodal text entry using speech and gesture keyboards
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
WO2009054535A1 (en) Boundary estimation apparatus and method
CN105654940A (zh) 一种语音合成方法和装置
US9542939B1 (en) Duration ratio modeling for improved speech recognition
CN110853669B (zh) 音频识别方法、装置及设备
CN105869622B (zh) 中文热词检测方法和装置
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
CN118471201A (zh) 一种高效自适应面向语音识别引擎的热词纠错方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: C106, Dushuhu library, 258 Renai Road, Suzhou Industrial Park, Jiangsu Province, 215123

Patentee before: AI SPEECH Ltd.