发明内容
因此,本发明的目的在于提供高效率地编制省略单词的改变说法的表现也能够高效率识别的声音识别用辞典的声音识别用辞典编制装置、以及利用这样编制的声音识别用辞典的节省资源且高性能的声音识别装置。
为了达到上述目的,本发明的声音识别用辞典编制装置,编制声音识别用辞典,其特征在于,具有:缩略语生成单元,对于由一个以上的单词构成的识别对象语,对由上述识别对象语划分成的结构单词的一部分连接而生成的上述识别对象语的缩略语候补,根据考虑了发音的容易程度的规则即生成规则,生成上述识别对象语的缩略语;词汇存储单元,将已决定的上述缩略语和由上述生成规则决定的该缩略语的发音概率及上述识别对象语一同作为上述声音识别用辞典进行存储。
在此,上述声音识别用辞典编制装置还具有:上述声音识别用辞典编制装置还具有:单词划分单元,把上述识别对象语划分成结构单词。这时,上述缩略语生成装置也可以具有:缩略语生成规则存储部,存储上述生成规则;候补生成部,通过对由上述识别对象语划分成的结构单词的一部分进行连接,来生成缩略语的候补;以及缩略语决定部,对已生成的缩略语的候补,根据上述缩略语生成规则存储部中存储的上述生成规则,来决定最终生成的缩略语。
根据上述结构制成的声音识别用辞典编制装置,实现构筑从结构单词的音节串中抽出部分音节串、并将其连接起来构成缩略语表现的规则。这样,对新的识别对象语也能够生成可能性大的缩略语表现,并将其作为识别词汇登记在识别用辞典中,由此,能够实现不仅能够正确识别对象语、而且能够正确识别该单词的缩略语表现的发音声音识别装置。
并且,上述缩略语决定部对已生成的缩略语的候补,计算出上述缩略语生成规则存储部中存储的生成规则分别对应的近似度,通过对已算出的近似度综合考虑,决定发音概率,上述词汇存储单元将由上述缩略语决定部决定的缩略语及发音概率与上述识别对象语一同进行存储。在此,也可以上述缩略语决定部,将上述生成规则对应的近似度乘上对应的加权系数而获得的值进行合计,来决定上述发音概率。并且,也可以上述缩略语决定部,在上述缩略语的候补的发音概率超过一定阈值的情况下,决定为最终生成的缩略语。
根据上述结构,对识别对象语生成的1个或1个词以上的缩略语,分别计算出发音概率,在上述声音识别用辞典中与缩略语关联起来进行存储。这样,能够编制可实现如下声音识别装置的声音识别用辞典,该声音识别装置即使在对一个词的识别对象语生成了2个或2个词以上的缩略语的情况下,也不由这些缩略语集中到一个词上,而是将与已计算出的发音概率对应的权重赋予各缩略语,对于预计比较难于作为缩略语使用的缩略语赋予低的概率,在与声音核对时能够表现出高的识别精度。
并且,在上述缩略语生成规则存储部中,存储了与单词搭配有关的第1规则,上述缩略语决定部可以根据上述第1规则,从上述候补中决定最终生成的缩略语。例如,在上述第1规则中也可以包括通过使修饰语和被修饰语配成对而生成缩略语的条件;也可以包括构成缩略语的修饰语和被修饰语的距离与上述近似度的关系。
根据上述结构,在生成与识别对象语相对应的缩略语时,能够考虑构成识别对象语的单词之间的关系,能够生成基于结构单词之间的关系的缩略语。这样,能够编制可实现如下的声音识别装置的声音识别用辞典,该生意识别装置在识别对象语中所包含的结构单词中除去包含在缩略语中的可能性小的单词,或者相反重点使用包含在缩略语中的可能性大的单词,能够生成更适当的缩略语,并能够避免把使用的可能性小的缩略语登记在识别用辞典中的情况,具有高的识别精度。
并且,在上述缩略语生成规则存储部中存储第2规则,该第2规则涉及生成缩略语时从结构单词的音节串中取出的部分音节串的长度及该取出的部分音节串在结构单词中的位置中的至少一个,上述缩略语决定部可以根据上述第2规则,从上述候补者中决定最终生成的缩略语。例如,在上述第2规则中可以包括表示上述部分音节串的长度的音节数和上述近似度的关系;在上述第2规则中也可以包括音节数和上述近似度的关系,所述音节数表示上述部分音节串在结构单词中的位置、并对应于从结构单词的开头起的距离。
根据上述结构,能够考虑在连接构成该单词的单词的部分音节来生成缩略语时的、抽出的部分音节串的个数和各个音节的出现位置、生成的缩略语的总音节个数。这样,能够利用叫做音节的日语等语言中的音韵的基本单位,使由多个单词构成的单词和长的单词按音韵切短来生成缩略语时的与音韵抽出有关的一般的趋势具有规则化。因此,在生成对应于识别对象语的缩略语的情况下,能够生成更适当的缩略语,能够避免把使用的可能性小的缩略语登记在识别用辞典中,能够编制可实现具有高识别精度的声音识别装置的声音识别用辞典。
并且,在上述缩略语生成规则存储部中,存储与构成缩略语的部分音节串的连接有关的第3规则,上述缩略语决定部可以根据上述第3规则,从上述候补中决定最终生成的缩略语。例如,在上述第3规则中可以包括这样的规则,该规则表示连接的2个部分音节串中位于前面的部分音节串的最后音节和位于后面的部分音节串的开头音节的组合与上述近似度的关系。
根据上述结构,在从多个单词构成的单词和长的单词生成缩略语时,使作为日语等语言其音韵串最好自然的一般趋势,以所谓音节的连接概率的形式进行规则化。这样,能够编制可实现具有高识别精度的声音识别装置的声音识别用辞典,该声音识别装置在由识别对象语生成缩略语时,能够生成更适当的缩略语,能够避免把使用可能性小的缩略语登记在识别用辞典中。
并且,上述声音识别用辞典编制装置,也可以具有:抽出条件存储单元,存储从包含识别对象语在内的字符串信息中抽出识别对象语的条件;字符串信息取得单元,取得包含识别对象语在内的字符串信息;以及识别对象语抽出单元,根据上述抽出条件存储单元内存储的条件,从由上述字符串信息取得单元所取得的字符串信息中抽出识别对象语,并发送到上述单词划分单元。
根据上述结构,能够根据从字符串信息中抽出识别对象语的条件,适当地抽出识别对象语,而且,能够自动编制与该单词对应的缩略语,并存储到声音识别用辞典中。再者,对上述编制的各缩略语,根据与在缩略语的生成中适用的规则对应的近似度计算出发音概率,将该发音概率也同时存储到声音识别用辞典中。这样,对于从字符串信息中自动编制的1个或1个词以上的缩略语,分别赋予发音概率,能够编制可实现在与声音核对时能够达到很高的识别精度的声音识别装置的声音识别用辞典。
并且,为了达到上述目的,涉及本发明的声音识别装置,利用声音识别用辞典中所登记的词汇所对应的模型,对被输入的声音进行核对,来进行识别,其特征在于,具有:词典编制单元,利用上述声音识别用辞典编制装置编制声音识别用辞典;以及识别单元,利用由上述词典编制单元编制的声音识别用辞典,来识别上述声音。
根据上述结构,不仅事前编制的声音识别用辞典中的词汇能够作为识别核对的对象,而且,由本发明的声音识别用辞典编制装置编制的、存储了从字符串信息中抽出的识别对象语和由其生成的缩略语的声音识别用辞典中的词汇,也能够作为识别核对的对象。这样,能够实现这样的声音识别装置,其除了能够正确识别像指令词那样的固定词汇外,在发音如检索关键字那样从字符串信息中抽出的词汇、以及其缩略语中的某词汇时,也能够正确进行识别。
在此,涉及本发明的声音识别装置,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一同被登记;上述识别单元考虑上述声音识别用辞典中所登记的发音概率,进行上述声音的识别。
根据上述结构,通过把字符串信息输入到已安装的声音识别用辞典编制装置,自动地抽出识别对象语,并生成其缩略语,将其存储到声音识别用辞典中。因为声音识别用辞典中存储的这些词汇在声音识别装置中能够和声音进行核对,所以,在具有应可变地增加、更改的词汇的声音识别装置中,能够从字符串信息中自动取得该词汇及其缩略语,并登记到声音识别用辞典中。
在此,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一被登记,上述声音识别装置可以考虑上述声音识别用辞典中所登记的发音概率,来进行上述声音的识别。并且,上述声音识别装置可以将作为上述声音识别结果的候补和该候补的近似度一同生成,并在所生成的近似度上加上与上述发音概率对应的近似度,根据得到的加法运算值,把上述候补作为最终识别结果进行输出。
根据上述结构,在从字符串信息中抽出识别对象语且生成其缩略语的过程中,对各缩略语的发音概率也进行计算,并存储到声音识别用辞典中。在声音识别装置中,当进行声音核对时能够把各缩略语的发音概率考虑在内进行核对,对于作为缩略语的可能性较小的缩略语,能够进行赋予低概率的控制,能够控制因不自然的缩略语的出现而造成声音识别的正确识别概率降低。
并且,上述声音识别装置可以具有:缩略语使用履历存储单元,将对上述声音进行识别的缩略语和与该缩略语相对应的识别对象语作为使用履历信息进行存储;以及缩略语生成控制单元,根据上述缩略语使用履历存储单元中存储的使用履历信息,控制上述缩略语生成单元生成缩略语。例如,上述声音识别用辞典编制装置的缩略语生成单元可以具有:缩略语生成规则存储部,存储上述生成规则;候补生成部,通过对由上述识别对象语划分成的结构单词的一部分进行连接,来生成缩略语候补;以及缩略语决定部,对已生成的缩略语的候补,根据上述缩略语生成规则存储部中存储的生成规则,来决定最终生成的缩略语,上述缩略语生成控制装置通过更改、删除或追加上述缩略语生成规则存储部中存储的上述生成规则,来控制上述缩略语的生成。
同样,上述声音识别装置还可以具有:缩略语使用履历存储单元,将对上述声音进行识别的缩略语和与该缩略语相对应的识别对象语作为使用履历信息进行存储;以及辞典编制装置,根据存储在上述缩略语使用履历存储装置中的使用履历信息,对上述声音识别用辞典中存储的缩略语进行编辑。例如,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一同被登记;上述辞典更改单元通过更改上述缩略语的发音概率,来对上述缩略语进行编辑。
根据上述结构,能够根据用户过去的与缩略语的使用有关的履历信息,考虑与用户的缩略语使用有关的趋势,对上述缩略语生成规则进行控制。这是因为着眼于用户的缩略语使用有一定的趋势,且没有对同一单词充其量也只用2个词的缩略语的情况。也就是说,在缩略语的新生成中能够根据过去的缩略语利用情况,仅生成利用趋势强的缩略语。并且,即使对于已存储在上述声音识别用辞典中的缩略语,也是在由同一单词生成多个缩略语的情况下,如果很明显是只用某一缩略语,而不用其他缩略语,则可以从辞典中删除这些不用的缩略语。利用这种功能,能够防止在上述声音识别用辞典中登记多余的缩略语,控制声音识别性能的降低。并且,在对不同的识别对象语生成的各缩略语中,即使存在共用的缩略语的情况下,也能够根据过去的用户的具体的缩略语使用信息来预测出其意图是在哪个识别对象语。
而且,本发明不仅能够实现作为如上述的声音识别用辞典编制装置和声音识别装置,而且能够作为把这些装置具有的特征性手段作为步骤的声音识别用辞典编制方法和声音识别方法来实现;或者能够作为使计算机执行这些步骤的程序来而实现。并且,不言而喻,这种程序能够通过CD-ROM等记录媒体和互联网等通信媒体来进行分配。
具体实施方式
以下参照附图,详细说明本发明的实施方式。
[第1实施方式]
图1是表示本发明第1实施方式中的声音识别用辞典编制装置10的结构的功能框图。该声音识别用辞典编制装置10是从识别对象语中生成其缩略语并登记作为辞典的装置,其包括:作为程序或逻辑电路实现的识别对象语分析部1和缩略语生成部7、用硬盘或非挥发性存储器等存储装置等实现的分析用单词辞典存储部4、分析规则存储部5、缩略语生成规则存储部6以及词汇存储部8。
分析用单词辞典存储部4预先存储了用于把识别对象语划分成结构单词的与单位单词(形态要素)及其音韵系列的定义(音韵信息)有关的辞典。分析规则存储部5预先存储了用于把识别对象语划分成在分析用单词辞典存储部4中存储的单位单词的规则(句法结构分析用规则)。
缩略语生成规则存储部6预先存储了用于生成预先构成的单词的缩略语的多个规则即考虑了发音的容易程度的多个规则。在这些规则中,例如包括:决定构成识别对象语的单词本身、以及根据其搭配关系对从结构单词中抽出部分音节(mora)串的单词的规则;根据从结构单词中抽出的部分音节的抽出位置、抽出个数及其组合时的总音节个数,对适当的部分音节进行抽出的规则;以及根据对已抽出的音节进行连接时的音节连接的自然性,对部分音节进行连接的规则等。
而且,所谓“音节”是指被看作是1个音(1拍)的音韵。若是日语,则大致上相当于平假名表示时的平假名的每一个字符。并且,对应于对俳句的5、7、5进行计数时的1个音。但是,对于拗音(带有小写的ヤゆよ的音)、促音(小写的つ/缩短了的音)、拨音(鼻音)(ん),根据其是否作为1个音(1拍)发音,来决定是否作为独立的1个音节进行处理。例如,若是“东京”,则由4个音节“と”、“う”、“きよ”、“う”构成;若是“札幌“,则由4个音节“さ”、“つ”、“ぽ”、“る”构成;若是“群马”,则由3个音节“ぐ”、“ん”、“ま”构成。
识别对象语分析部1是对已输入到该声音识别用辞典编制装置10内的识别对象语进行形态要素分析、句法结构分析、音节分析等的处理部,它由单词划分部2和音节串取得部3构成。单词划分部2根据分析用单词辞典存储部4内存储的单词信息和分析规则存储部5内存储的句法结构分析规则,把已输入的识别对象语划分成用于构成该识别对象语的单词(结构单词),并且,生成已划分的结构单词的搭配关系(表示修饰语和被修饰语的关系的信息)。音节串取得部3根据分析用单词辞典存储部4内存储的单词的音韵信息,对由该单词划分部2生成的每个结构单词生成音节串。该识别对象语分析部1的分析结果,即由单词划分部2生成的信息(构成识别对象语的单词信息和单词之间的搭配关系)、以及从音节串取得部3生成的信息(表示各结构单词的音韵系列的音节串)被发送到缩略语生成部7。
缩略语生成部7利用缩略语生成规则存储部6中存储的缩略语生成规则,根据从识别对象语分析部1中发送来的与识别对象语有关的信息,生成该识别对象语的0个或0个词以上的缩略语。具体来说,根据搭配关系,对从识别对象语分析部1发送来的各个单词的音节串进行组合,这样,生成缩略语的候补,对于已生成的缩略语的各个候补,计算出缩略语生成规则存储部6内存储的各个规则的近似度。然后通过乘上一定的权重,并且对各个近似度进行合计,来计算出各个候补的发音概率,把具有一定值或一定值以上的发音概率的候补作为最终缩略语,与该发音概率和原来的识别对象语建立对应关系,存储到词汇存储部8内。也就是说,被缩略语生成部7判断为具有一定值或一定值以上的发音概率的缩略语,和表示是意思与已输入的识别对象语相同的单词的信息、以及其发音概率一同,作为声音识别用辞典登记在词汇存储部8内。
词汇存储部8是在保存可以改写的声音识别用辞典并进行登记处理的部分,它将由缩略语生成部7生成的缩略语和发音概率,与输入到该声音识别用辞典编制装置10内的识别对象语建立对应关系之外,将这些识别对象语、缩略语和发音概率登记作为声音识别用辞典。
以下结合具体例子,详细说明下述结构的声音识别用辞典编制装置10的动作。
图2是由声音识别用辞典编制装置10的各个部分来执行的词典编制处理动作的流程图。而且,在本图中箭头的左侧,表示出作为识别对象语而输入了“朝の連続ドラマ”的情况下的具体的中间数据和最终数据等;在右侧表示出作为参照或存储对象的数据名。
首先,在S21步骤,识别对象语被读入到识别对象语分析部1的单词划分部2内。单词划分部2按照分析用单词辞典存储部4内存储的单词信息以及分析规则存储部5内存储的单词划分规则,将该识别对象语划分成结构单词,并求出各结构单词的搭配关系。也就是说,进行形态要素分析和句法结构分析。这样,识别对象语“朝の連続ドラマ”,例如划分成“朝”、“の”、“連続”、“ドラマ”这样的结构单词,作为其搭配关系,生成(朝)→((連続→(ドラマ))这样的关系。而且,在该搭配关系的表示中,箭头的根部表示修饰语;箭头的头部表示被修饰语。
在S22步骤,音节串取得部3对在单词划分处理步骤S21步骤中被划分的各结构单词,赋予作为其音韵系列的音节串。在该步骤中,为了获得结构单词的音韵系列,利用分析用单词辞典存储部4内存储的单词的音韵信息。其结果,对在单词划分部2内取得的结构单词“朝”、“の”、“連続”、“ドラマ”,分别赋予“アサ”、“ノ”、“レソゾク”、“トテマ”这样的音节串。这样获得的音节串,与在上述S21步骤获得的结构单词和搭配关系的信息一同发送到缩略语生成部7内。
在S23步骤,根据从识别对象语分析部1发送来的结构单词,搭配关系和音节串,由缩略语生成部7生成缩略语。在此,适用缩略语生成规则存储部6内存储的1个或1个以上的规则。在这些规则中,包括:决定构成识别对象语的单词本身、以及根据其搭配关系从结构单词中抽出部分音节串的单词的规则;根据从结构单词中抽出的部分音节的抽出位置、抽出数及其组合时的总音节数,对适当的部分音节进行抽出的规则;以及根据对已抽出的音节进行连接时的音节连接的自然性,对部分音节进行连接的规则等。缩略语生成部7通过对适用于缩略语的生成的每个规则,分别计算出表示规则的一致度的近似度,并对按照多个规则进行计算的近似度进行综合,来计算出已生成的缩略语的发音概率。其结果,例如,作为缩略语生成“アサドラ”、“レンドラ”、“アサレンドラ”,按此顺序由高到低给出发音概率。
在S24步骤,词汇存储部8使缩略语生成部7所生成的缩略语及发音概率的组与识别对象语建立对应关系,存储到声音识别用辞典中。这样,编制出已存储了识别对象语的缩略语及其发音概率的声音识别用辞典。
以下利用图3~图5,详细说明图2所示的缩略语生成处理(S23)的详细过程。图3是表示其详细过程的流程图,图4表示缩略语生成部7所具有的处理表(用于存储临时发生的中间数据等的表),图5表示缩略语生成规则存储部6内存储的缩略语生成规则6a的例子。
首先,缩略语生成部7根据从识别对象语分析部1发送来的结构单词、搭配关系及音节串,生成缩略语的候补(图3的S30)。具体来说,生成由从识别对象语分析部1发送来的结构单词的搭配关系所表示的修饰语和被修饰语构成的所有的组合,作为缩略语候补。这时,如图4的处理表中的“缩略语的候补”所示,对于各修饰语和被修饰语,不仅采用结构单词的音节串,也采用其一部分丢失了的部分音节串。例如,修饰语“レンゾク”和被修饰语“ドラマ”的组合,不仅生成“レンゾクドラマ”,还生成“レンゾクドラ”、“レンドラマ”、“レンドラ”等丢掉一个或一个以上的音节而构成的所有的音节串,均作为缩略语候补。
然后,由缩略语生成部7对已生成的缩略语的各候补(图3的S31~),分别计算出在缩略语生成规则存储部6内存储的每个缩略语生成规则的近似度(图3的S32~S34),在一定的加权下通过对各近似度进行合计而计算出发音概率(图3的S35),以上的处理反复进行(图3的S30~S36)。
例如,缩略语生成规则之一,如图5的规则1所示,是涉及搭配关系的规则,假设定义了:使修饰语和被修饰语按此顺序进行结合的规则,以及表示修饰语和被修饰语的距离(图4上部表示的搭配关系图中的段数)越小则近似度越高的的函数等。那么,由缩略语生成部7对各个候补缩略语,计算出对应于这种规则1的近似度。例如对“レンドラ”,在确认其是修饰语和被修饰语按该顺序结合的缩略语(否则把近似度定为0)的情况下,还确定修饰语“レン”和被修饰语“ドラ”的距离(这里“レン(ゾク)”修饰“ドラ(マ)”,所以为1段),并根据上述函数来确定与该距离相对应的近似度(这里为0.102)。
再有,若是“アサドラ”,则修饰语“アサ”和被修饰语“ドラ”的距离因“アサ”修饰“レンゾクトラマ”,所以为2段,并且,若是“アサレンドラ”,则修饰语和被修饰语的距离,因为具有上述“レンドラ”和“アサドラ”两者的搭配关系,所以变成这2个距离的平均值,即成为1.5段。
并且,缩略语生成规则的另一例,如图5的规则2所示,是有关部分音节串的规则,假设定义了:与部分音节串的位置有关的规则以及与长度无关的规则等。具体来说,作为与部分音节串的位置有关的规则,定义了:作为修饰语或被修饰语采用的音节串(部分音节串)的位置越接近原结构单词的开头则表示越高的其近似度的规则,即表示离开开头的距离(原结构单词的开头和部音节串的开头之间夹着的音节个数)和近似度的关系的函数等。并且,作为与部分音节串的长度有关的规则,定义了:构成部分音节串的音节的个数越接近2则表示近似度越高的规则,即表示部分音节串的长度(音节数)和近似度的关系的函数。缩略语生成部7对各个候补缩略语,分别计算出与这种规则2相对应的近似度。例如,对于“アサドラ”,对部分音节串“アサ”和“ドラ”分别确定在结构单词“アサ”和“トラマ”中的位置和长度,并根据上述函数来确定各近似度,将这些近似度的平均值作为规则2的近似度(在此为0.128)。
并且,缩略语生成规则的另一例如图5的规则3所示,是与音韵的连接有关的规则,假设定义了:与部分音节串的结合部分有关的规则等。在此,作为与部分音节串的结合部分有关的规则被定义了:在所结合的2个部分音节串中前面的部分音节串的最末尾音节和后面的部分音节串的开头音节的结合是不自然的音韵组合(发音困难的音韵)的情况下,作为近似度低的数据表。缩略语生成部7对各个候补缩略语,计算出对应于这种规则3的近似度。具体来说,对各部分音节串的结合部分是否属于登记在规则3的不自然的连接的某一种进行判断,若属于,则分配与该连接对应的近似度;不属于该连接时,分配默认值的近似度(在此为0.050)。例如“アサレンドラ”,对于部分音节串“アサ”和“レン”的结合部分“サレ”是否属于登记在规则3内的不自然的连接,进行判断。在此,因为不属于任一种,所以,把近似度定为默认(default)值(0.050)。
这样,当对各个缩略语的候补计算出每个缩略语生成规则的近似度时,缩略语生成部7根据图3的S35步骤所示的发音概率P(w)的计算式,对各个近似度x乘上权重(图5所示的对应的每个规则的权重α)并进行合计,这样计算出每个候补的发音概率(图3的S35)。
最后,缩略语生成部7从所有的候补中确定发音概率超过预先设定的一定阈值的候补,将其作为最终的缩略语,与发音概率一起输出到词汇存储部8(图3的S37)。这样,在词汇存储部8如图6所示,编制出声音识别用辞典8a,其中包括识别对象语的缩略语和发音概率。
按以上方法制作的声音识别用辞典8a,不仅识别对象语,而且其缩略语也和发音概率一起被登记。所以,利用由该声音识别用辞典编制装置10编制的声音识别用辞典,能够实现这样一种声音识别装置,即无论发音正式单词的情况下,还是发音缩略语的情况下,均能够检测出是相同意图的发音,能够以高识别率来识别声音。例如,在上述“朝の連続ドラマ”的例中,编制这样的用于声音识别装置的声音识别用辞典,该声音识别用辞典无论是在用户发音“アサノレンゾクドラマ”的情况下,还是发音“アサドラ”的情况下,均能够将其识别为“朝の連続ドラマ”,所述声音识别装置具有相同的功能。
[第2实施方式]
第2实施方式涉及安装第1实施方式的声音识别用辞典编制装置10,利用由该声音识别用辞典编制装置10编制的声音识别用辞典8a的声音识别装置的例子。本发明实施方式涉及这样的声音识别装置,它具有从字符串信息中自动地抽出识别对象语、并将其存储到声音识别用辞典中的辞典更改功能,而且,由于利用与基于过去用户使用缩略语的履历的信息来控制缩略语的生成,因此,具有能够抑制在声音识别用辞典中登记使用的可能性小的缩略语的功能。而且,所谓字符串信息是指包括作为声音识别装置的识别对象的词语(识别对象语)的信息,例如,若是根据收看数字电视节目的观众发出的节目名称进行节目自动切换的声音识别装置的应用例,则节目名称变成识别对象语,从广播站发射来的电子节目数据变成字符串信息。
图7是表示第2实施方式的声音识别装置30的结构的功能框图。该声音识别装置30除了具有第1实施方式中的声音识别用辞典编制装置10外,还具有:字符串信息取得部17、识别对象语抽出条件存储部18、识别对象语抽出部19、声音识别部20、用户接口部25、缩略语使用履历存储部26以及缩略语生成规则控制部27。而且,声音识别用辞典编制装置10与第1实施方式的相同,其说明从略。
字符串信息取得部17、识别对象语抽出条件存储部18、识别对象语抽出部19是用于从包含识别对象语的字符串信息中抽出识别对象语的部分。根据该结构,字符串信息取得部17取得包含识别对象语的字符串信息,接着在识别对象语抽出部19中从该字符串信息中抽出识别对象语。为了从字符串信息中抽出识别对象语,字符串信息在经过形态要素分析后,根据识别对象语抽出条件存储部18内存储的识别对象语抽出条件进行抽出。被抽出的识别对象语发送到声音识别用辞典编制装置10内,进行该缩略语的编制和往识别辞典中的登记。
这样,本实施方式的声音识别装置30中,从像电子节目数据那样的字符串信息中自动抽出像节目名称那样的检索关键字,编制出即使发出该关键字以及由该关键字生成的缩略语中的任一个均能正确进行声音识别的声音识别用辞典。而且,所谓识别对象语抽出条件存储部18内存储的识别对象语抽出条件是指例如对输入到数字广播接收机内的数字广播数据中的电子节目数据进行识别的信息或对电子节目数据中的节目名称进行识别的信息等。
声音识别部20是对从话筒等输入的输入声音根据由声音识别用辞典编制装置10编制的声音识别用辞典来进行声音识别的处理部,包括:音响分析部21、音响模型存储部22、固定词汇存储部23和核对部24。从话筒等输入的声音,由音响分析部21进行频率分析等,变换成特征参数的系列(mel-cepstrum梅尔-倒频谱系数等)。在核对部24内,采用音响模型存储部22内存储的模型(例如隐形马尔可夫模型和混合高斯分布模型等),根据固定词汇存储部23内存储的词汇(固定词汇)或者词汇存储部8内存储的词汇(通常语和缩略语),一边合成用于识别各词汇的模型,一边与输入声音进行合成。其结果,获得了较高近似度的单词作为识别结果候补,发送到用户接口部25。
根据这种结构,由该声音识别部20把机器控制指令(例如节目切换中的发音“切换”)等系统构成时可决定的词汇存储到固定词汇存储部23中,并将像节目切换用的节目名称那样需要根据节目名称的变化可进行更改的词汇存储到词汇存储部8,由此能够同时识别双方的词汇。
并且,在词汇存储部8内不仅存储缩略语,而且也存储发音概率。该发音概率在核对部24内进行声音的核对时被使用,由于发音概率低的缩略语难于识别,所以能够抑制缩略语的过多出现造成的声音识别装置的性能降低。例如,核对部24在表示输入的声音和存储在词汇存储部8内的词汇的相关性的近似度上,加上与存储在词汇存储部8内的发音概率对应的近似度(例如发音概率的对数值),把求得的加法计算值作为识别结果的最终近似度,在该最终近似度超过一定的阈值的情况下,把该词汇作为识别结果候补而发送到用户接口部25。而且,在超过一定阈值的识别结果候补有多个的情况下,仅将其中的近似度最高的候补起一定顺序内的候补发送到用户接口25。
但是,利用这种声音识别用辞典编制装置10也能够对多个不同的识别对象语生成作为共用的音韵系列的缩略语。这是由于缩略语生成规则中存在的模糊性而产生的问题。通常,用户认为一个缩略语用于表示一个对应的识别对象语。所以,需要能够消除缩略语生成规则中存在的模糊性、根据已发音的缩略语提示适当的动作,并通过长期使用来提高识别率的具有学习功能的声音识别装置。用户接口部25、缩略语使用履历存储部26、缩略语生成规则控制部27是用于该学习功能的结构要素。
也就是说,用户接口部25,在用核对部24进行声音核对的结果,不能够把识别结果候补压缩成一个的情况下,向用户提示这些多个候补,并从用户取得选择指示。例如,对用户的发话,将取得的多个识别结果的候补(作为切换目标的多个节目名称)显示到电视画面上。用户利用遥控器等从中选择一个正确的候补,即可获得所需的动作(用声音来切换节目)。
这样,发送到用户接口部25的缩略语,或者由用户从发送到用户接口部25的多个缩略语中选择的缩略语,被作为履历信息发送并存储到缩略语使用履历存储部26。存储在缩略语使用履历存储部26内的履历信息,汇集在缩略语生成规则控制部27内,用于对缩略语生成规则存储部6内存储的缩略语生成用规则或参数、以及用于计算缩略语发音概率的参数进行更改。同时通过用户使用缩略语,在本来的单词及其缩略语之间获得1对1的对应关系的情况下,该信息也存储在缩略语生成规则存储部中。并且,关于这种缩略语生成规则存储部6的规则的增加、更改、删除的信息,也被发送到词汇存储部8,对已登记的缩略语进行重新评估,进行缩略语的删除、更改,来进行辞典的更新。
图8是表示这种声音识别装置30的学习功能的流程图。
在从核对部24发送来的识别结果候补中包括存储在词汇存储部8内的缩略语的情况下,用户接口部25通过把该缩略语发送到缩略语使用履历存储部26,将其存储到缩略语使用履历存储部26(S40)。这时,对于用户选择的缩略语,增加表示其内容的信息之后发送到缩略语使用履历存储部26。
缩略语生成规则控制部27,每经过一定时间,或者每当一定的信息量存储到缩略语使用履历存储部26内时,对存储在缩略语使用履历存储部26内的缩略语进行统计性分析,以此生成规则性(S41)。例如,生成与缩略语的长度(音节数)有关的频率分布以及与构成缩略语的音节连接有关的频率分布等。并且,根据用户的选择信息等,例如在能够确认把节目名“朝の連続ドラマ”称为“レンドラ”的情况下,也生成表示这些识别对象语和缩略语的一对一的对应关系的信息。而且,结束这种规则性的生成之后,缩略语生成规则控制部27把缩略语使用履历存储部26的存储内容删除,准备进一步存储。
并且,缩略语生成规则控制部27根据已生成的规则性,对缩略语生成规则存储部6内存储的缩略语生成规则进行增加、更改或删除(S42)。例如,根据与缩略语长度有关的频率分布,修改与图5的规则2内包括的部分音节串长度有关的规则(从表示分布的函数的参数中,确定平均值的参数等)。并且,在生成了表示识别对象语和缩略语的一对一的对应关系的信息的情况下,把该对应关系登记作为新的缩略语生成规则。
缩略语生成部7根据这样增加、更改、删除后的缩略语生成规则,反复进行对识别对象语的缩略语的生成,以此对词汇存储部8内存储的声音识别用辞典进行重新评估(S43)。例如,在根据新的缩略语生成规则重新计算缩略语“アサドラ”的发音概率的情况下,在对该发音概率进行更新,或者在由用户对识别对象语“朝の連続ドラマ”选择了“レントラ”作为缩略语的情况下,增加缩略语“レンドラ”的发音概率。
这样,不仅利用本声音识别装置30来进行包括缩略语在内的声音识别,而且,根据识别结果来更新缩略语生成规则,更改声音识别用辞典,所以能够发挥随使用时间的增加能够提高识别率的学习功能。
图9(a)是表示这种声音识别装置30的应用例的图。
在此,表示采用声音的电视节目自动切换系统。该系统包括:内置有声音识别装置30的STB(机顶盒;数字广播接收机)40、电视接收机41和具有无线话筒功能的遥控器42。用户的发话通过遥控器42的话筒作为声音数据而发送到STB40,利用STB40中内置的声音识别装置30进行声音识别,根据其识别结果进行节目切换。
例如,假设用户的发话是“レンドラニキリカエ”。此时,该声音通过遥控器42发送到STB40中内置的声音识别装置30。声音识别装置30的声音识别部20如图9(b)的处理过程所示,通过参照词汇缩略语部8和固定词汇存储部23,对已输入的声音“レンドラニキリカエ”,检测出其中包含有可变词汇“レンドラ”(即识别对象语“朝の連続ドラマ”)和固定词汇“キリカエ”。根据其结果,由STB40确认在预先作为广播数据而接收并保持的电子节目数据中存在当前广播中的节目“朝の連続ドラマ”之后,进行选择该节目(在此为频道6)的切换控制。
这样,在本实施方式的声音识别装置中,不仅能够同时进行像机器控制用命令语那样的固定词汇的识别、以及像节目检索用节目名称那样的可变词汇的识别,而且,无论是固定词汇,还是可变词汇,以及其缩略语表现,通过与机器的控制等进行连动,即可进行所需要的处理。再者,利用考虑了用户的过去的使用履历的学习,能够消除缩略语生成过程的模糊性,高效率地编制具有高识别率的声音识别用辞典。
以上根据实施方式说明了涉及本发明的声音识别用辞典编制装置和声音识别装置。但本发明并不仅限于这些实施方式。
例如,在第1和第2实施方式中,表示以日语为对象的声音识别用辞典编制装置10和声音识别装置30的例子,但不言而喻,本发明不仅能够适用于日语,也能够适用于汉语和英语等日语以外的语言。图10(a)是表示从汉语的识别对象语中利用声音识别用辞典编制装置10生成的缩略语的例的图。图10(b)是表示从英文的识别对象语中利用声音识别用辞典编制装置10生成的缩略语的例的图。这些缩略语的生成,例如可以利用例如图5所示的缩略语生成规则6a,“以识别对象语的开头1个音节(syllable)为缩略语”、“将对构成识别对象语的各单词的开头1音节(syllable)进行连接的作为缩略语”等缩略语生成规则。
并且,第1实施方式的声音识别用辞典编制装置10生成发音概率高的缩略语,但也可以把未缩略的通常语作为生成对象。例如,缩略语生成部7不仅对缩略语,而且也可以对未缩略的识别对象语所对应的音节串(モ一ラ列),与预定的一定的发音概率一同以固定方式登记在词汇存储部8的声音识别用辞典中。或者,在声音识别装置中,通过不仅将该声音识别用辞典中所登记的缩略语包括在识别对象内,还将作为声音识别用辞典的索引的识别对象语也包括在识别对象内,由此,不仅能够识别缩略语,而且能够同时识别与全拼字(音)相对应的通常词语。
并且,在第1实施方式中,缩略语生成规则控制部27对存储在缩略语生成规则存储部6内的缩略语生成规则进行了更改等,但也可以直接对词汇存储部8的内容进行更改。具体来说,也可以对存储在词汇存储部8内的声音识别用辞典8a中登记的缩略语进行增加、更改或删除,或者对被登记的缩略语的发音概率进行增减。这样,根据存储在缩略语使用履历存储部26内的使用履历信息,直接修正声音识别用辞典。
并且,存储在缩略语生成规则存储部6内的缩略语生成规则和规则中的术语的定义不仅限于本实施方式。例如在本实施方式中,修饰语和被修饰语的距离表示搭配关系图中的段数,但并不仅限于这种定义,也可以把表现修饰语和被修饰语的意思的继续性的好坏的值定义为“修饰语和被修饰语的距离”。例如,“火红的(夕阳))”和“(蔚蓝色的(夕阳))”,因前者从意思上看是自然的,所以也可以采用使前者为近距离的尺度。
并且,在第2实施方式中,作为声音识别装置30的适用例,表示了数字广播接收系统中的自动节目切换。但这种自动节目切换并不仅限于广播系统等的单方向的通信系统,不言而喻,也可以适用于互联网和电话网等双向通信系统中的节目切换。例如,通过把涉及本发明的声音识别装置安装在携带式电话机内,能够实现内容分配系统,用于对用户需要的内容的指定进行声音识别,从互联网上的地址对该内容进行下载。例如,若用户发话为“クマピ-ヲダウンロ-ド”,则被识别为可变词汇“クマピ-(“くまのピ-
ん”的缩略语)”和固定词汇“ダウンロ-ド”,从互联网上的地址把来电铃声“くまのピ-さん(小熊)”下载到携带式电话机上。
同样,涉及本发明的声音识别装置30不仅限于广播系统和内容分配系统等通信系统,而且也能够适用于独立的设备。例如,把涉及本发明的声音识别装置30内置于汽车导航装置,实现对司机发话的行驶目的地名称等进行声音识别、并自动地显示出其行驶目的地的地图的既方便又安全的汽车导航装置。例如,若一边开车,一边发话“カドカドヲヒヨウジ”,则可变词汇“カドカド”(“大阪府门真市大字门真”的缩略语)”和固定词汇“ヒヨウジ”被识别,在汽车导航画面上自动显示“大阪府门真市大字门真”附近的地图。
如上所述,利用本发明,可编制声音识别装置用的声音识别用辞典,其不仅在识别对象语的正式发音时,而且在其缩略语发音时也同样地工作。并且,本发明适用着眼于作为日语声音的发音节奏的音节的缩略语生成规则,并且进一步赋予考虑了这些缩略语的发音概率的权重,所以,能够避免无用的缩略语的生成和在识别辞典中的登记,且加权的并用,能够避免出现的缩略语对声音识别装置的性能产生不良影响。
并且,在安装了这种声音识别用辞典编制装置的声音识别装置中,在声音识别用辞典编制部利用与缩略语使用有关的用户履历,由此,能够消除因缩略语生成规则的模糊性而产生的原单词与缩略语之间的多对多的对应关系,能够高效率地编制声音识别用辞典。
再者,涉及本发明的声音识别装置中,形成了把识别结果反映在声音识别用辞典的编制过程的反馈,所以,能够发挥随着装置的使用而不断提高识别率的学习效果。
这样,利用本发明,能够以高识别率来识别包括缩略语的声音,利用包括缩略语的声音来进行广播节目的切换、对移动电话手机的操作、以及对汽车导航装置的指示等,本发明有很高的实用价值。