CN100559463C - 声音识别用辞典编制装置和声音识别装置 - Google Patents

声音识别用辞典编制装置和声音识别装置 Download PDF

Info

Publication number
CN100559463C
CN100559463C CNB2003801030485A CN200380103048A CN100559463C CN 100559463 C CN100559463 C CN 100559463C CN B2003801030485 A CNB2003801030485 A CN B2003801030485A CN 200380103048 A CN200380103048 A CN 200380103048A CN 100559463 C CN100559463 C CN 100559463C
Authority
CN
China
Prior art keywords
abbreviation
mentioned
dictionary
voice recognition
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB2003801030485A
Other languages
English (en)
Other versions
CN1711586A (zh
Inventor
冲本纯幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1711586A publication Critical patent/CN1711586A/zh
Application granted granted Critical
Publication of CN100559463C publication Critical patent/CN100559463C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明的高效率编制对省略单词的改变说法的表现也能够高效率识别的声音识别用辞典的声音识别用辞典编制装置(10),具有:单词划分部(2),把由一个或一个以上的单词构成的识别对象语划分成结构单词;音节串取得部(3),根据被划分的每个结构单词的读音,生成每个结构单词的音节串;省略语生成规则存储部(6),存储采用音节的缩略语的生成规则;缩略语生成部(7),从每个结构单词的音节串中取出音节并进行连接,这样来生成由一个或一个以上的音节构成的缩略语的候补,并对这些候补,使用缩略语生成规则,由此生成缩略语;以及词汇存储部(8),将所生成的缩略语和上述识别对象语一同作为上述声音识别用辞典进行存储。

Description

声音识别用辞典编制装置和声音识别装置
技术领域
本发明涉及对以非特定讲话人为对象的声音识别装置中所使用的辞典进行编制的声音识别用辞典编制装置以及利用该辞典来识别声音的声音识别装置。
背景技术
过去,在以非特定的讲话人为对象的声音识别装置中,规定识别词汇的声音识别用辞典是必不可少的。识别对象词汇在系统设计时能够规定的情况下,采用了事先编制的声音识别用辞典,但在不能规定词汇的情况下,或者应动态更改的情况下,通过人工输入或者自动根据字符串信息来编制声音识别用词汇,并登记在辞典中。例如,电视节目切换装置中的声音识别装置中,对包含节目信息的字符串信息进行形态要素分析,求出其标注的读音,把得到的读音登记在上述声音识别用辞典中。例如对于“NHK新闻10”这一节目,把它的读音“えぬえいちけいにゆ-すてん”作为表示该节目的单词登记在声音识别用辞典中。这样,对用户的“えぬえいちけいにゆ-すてん”这一发音,能够实现把频道切换到“NHK新闻10”上的功能。
并且,有一种方法是,考虑到用户不是说完整的单词,将其分割成构成复合单词的单词,并将由重新连接的部分字符串构成的改变说法的表现登记在辞典中(例如,特开2002-41081号公报公开的技术)。上述公报中所述的声音识别用辞典编制装置,对作为字符串信息而输入的单词进行分析,考虑全部读音和全部连接单词,编制发音单位/读音的搭配,登记到声音识别用辞典中。这样,例如,希望对于上述“NHK新闻10”这一节目名称,把“えぬえいちけいにゆ-す”、“にゆ-すてん”这样的读音登记到辞典中,即可正确地处理用户的这些发音。
再者,上述声音识别用辞典编制方法,提出了以下方法:考虑上述改变说法的表现中附加的表示读音准确性的优良度、构成改变说法表现的单词的出现顺序、该单词在改变说法表现中利用的频率等进行加权,丙登记在声音识别用辞典中。这样,作为改变说法表现,希望通过语音核对而选择出更准确的单词。
这样,上述过去的声音识别用辞典编制方法的目的在于:对输入的字符串信息进行分析,重新构成所有组合的单词串,将其作为该单词的改变说法表现,将其读音登记在声音识别用辞典中,这样,不仅能够适应正式的单词发音,而且也能够适应用户的任意省略的发音。
然而,上述过去的声音识别用辞典编制方法,存在下列问题。
也就是说,首先,第1、在全包罗地生成了所有组合的字符串的情况下,其数量庞大。将其全部登记在声音识别用辞典中的情况下,辞典巨大,由于计算量增加,以及类似音韵的许多单词进行登记,有可能造成识别率降低。再者,由不同单词生成的上述改变说法的表现变成相同的字符串、相同读音的可能性大,比如即使想要正确地对其进行识别,也很难认出用户的发音本来的意图是哪个单词。
并且,利用上述过去的声音识别用辞典编制方法,为了从登记的非常多的改变说法的表现候补中选择出看起来更正确的,主要利用与在改变说法的表现中表示的单词相关的近似度(尤度),求出改变说法的表现的权重。但是,例如考虑到对“金曜ドラマ”进行缩略而发出“きんどら”的语音的这种情况下,决定生成改变说法的表现的主要原因除了组合使用的单词外,并未考虑从所使用的单词中抽出的音韵的个数以及作为各种音韵的连接的日语的自然性所产生的影响。因此,存在的问题是对改变说法的表现的近似度达不到适当值。
再者,单词的改变说法的表现,在对单词加以特定的情况下,大致上是一一对应的,尤其在限定用户的情况下,可以认为其趋势是极显著的。上述过去的声音识别用辞典编制方法,对考虑了这种改变说法表现的使用履历的改变说法的表现生成未进行控制,所以存在的问题是:不能适当压缩那种生成并登记在识别辞典中的改变说法的表现的个数。
发明内容
因此,本发明的目的在于提供高效率地编制省略单词的改变说法的表现也能够高效率识别的声音识别用辞典的声音识别用辞典编制装置、以及利用这样编制的声音识别用辞典的节省资源且高性能的声音识别装置。
为了达到上述目的,本发明的声音识别用辞典编制装置,编制声音识别用辞典,其特征在于,具有:缩略语生成单元,对于由一个以上的单词构成的识别对象语,对由上述识别对象语划分成的结构单词的一部分连接而生成的上述识别对象语的缩略语候补,根据考虑了发音的容易程度的规则即生成规则,生成上述识别对象语的缩略语;词汇存储单元,将已决定的上述缩略语和由上述生成规则决定的该缩略语的发音概率及上述识别对象语一同作为上述声音识别用辞典进行存储。
在此,上述声音识别用辞典编制装置还具有:上述声音识别用辞典编制装置还具有:单词划分单元,把上述识别对象语划分成结构单词。这时,上述缩略语生成装置也可以具有:缩略语生成规则存储部,存储上述生成规则;候补生成部,通过对由上述识别对象语划分成的结构单词的一部分进行连接,来生成缩略语的候补;以及缩略语决定部,对已生成的缩略语的候补,根据上述缩略语生成规则存储部中存储的上述生成规则,来决定最终生成的缩略语。
根据上述结构制成的声音识别用辞典编制装置,实现构筑从结构单词的音节串中抽出部分音节串、并将其连接起来构成缩略语表现的规则。这样,对新的识别对象语也能够生成可能性大的缩略语表现,并将其作为识别词汇登记在识别用辞典中,由此,能够实现不仅能够正确识别对象语、而且能够正确识别该单词的缩略语表现的发音声音识别装置。
并且,上述缩略语决定部对已生成的缩略语的候补,计算出上述缩略语生成规则存储部中存储的生成规则分别对应的近似度,通过对已算出的近似度综合考虑,决定发音概率,上述词汇存储单元将由上述缩略语决定部决定的缩略语及发音概率与上述识别对象语一同进行存储。在此,也可以上述缩略语决定部,将上述生成规则对应的近似度乘上对应的加权系数而获得的值进行合计,来决定上述发音概率。并且,也可以上述缩略语决定部,在上述缩略语的候补的发音概率超过一定阈值的情况下,决定为最终生成的缩略语。
根据上述结构,对识别对象语生成的1个或1个词以上的缩略语,分别计算出发音概率,在上述声音识别用辞典中与缩略语关联起来进行存储。这样,能够编制可实现如下声音识别装置的声音识别用辞典,该声音识别装置即使在对一个词的识别对象语生成了2个或2个词以上的缩略语的情况下,也不由这些缩略语集中到一个词上,而是将与已计算出的发音概率对应的权重赋予各缩略语,对于预计比较难于作为缩略语使用的缩略语赋予低的概率,在与声音核对时能够表现出高的识别精度。
并且,在上述缩略语生成规则存储部中,存储了与单词搭配有关的第1规则,上述缩略语决定部可以根据上述第1规则,从上述候补中决定最终生成的缩略语。例如,在上述第1规则中也可以包括通过使修饰语和被修饰语配成对而生成缩略语的条件;也可以包括构成缩略语的修饰语和被修饰语的距离与上述近似度的关系。
根据上述结构,在生成与识别对象语相对应的缩略语时,能够考虑构成识别对象语的单词之间的关系,能够生成基于结构单词之间的关系的缩略语。这样,能够编制可实现如下的声音识别装置的声音识别用辞典,该生意识别装置在识别对象语中所包含的结构单词中除去包含在缩略语中的可能性小的单词,或者相反重点使用包含在缩略语中的可能性大的单词,能够生成更适当的缩略语,并能够避免把使用的可能性小的缩略语登记在识别用辞典中的情况,具有高的识别精度。
并且,在上述缩略语生成规则存储部中存储第2规则,该第2规则涉及生成缩略语时从结构单词的音节串中取出的部分音节串的长度及该取出的部分音节串在结构单词中的位置中的至少一个,上述缩略语决定部可以根据上述第2规则,从上述候补者中决定最终生成的缩略语。例如,在上述第2规则中可以包括表示上述部分音节串的长度的音节数和上述近似度的关系;在上述第2规则中也可以包括音节数和上述近似度的关系,所述音节数表示上述部分音节串在结构单词中的位置、并对应于从结构单词的开头起的距离。
根据上述结构,能够考虑在连接构成该单词的单词的部分音节来生成缩略语时的、抽出的部分音节串的个数和各个音节的出现位置、生成的缩略语的总音节个数。这样,能够利用叫做音节的日语等语言中的音韵的基本单位,使由多个单词构成的单词和长的单词按音韵切短来生成缩略语时的与音韵抽出有关的一般的趋势具有规则化。因此,在生成对应于识别对象语的缩略语的情况下,能够生成更适当的缩略语,能够避免把使用的可能性小的缩略语登记在识别用辞典中,能够编制可实现具有高识别精度的声音识别装置的声音识别用辞典。
并且,在上述缩略语生成规则存储部中,存储与构成缩略语的部分音节串的连接有关的第3规则,上述缩略语决定部可以根据上述第3规则,从上述候补中决定最终生成的缩略语。例如,在上述第3规则中可以包括这样的规则,该规则表示连接的2个部分音节串中位于前面的部分音节串的最后音节和位于后面的部分音节串的开头音节的组合与上述近似度的关系。
根据上述结构,在从多个单词构成的单词和长的单词生成缩略语时,使作为日语等语言其音韵串最好自然的一般趋势,以所谓音节的连接概率的形式进行规则化。这样,能够编制可实现具有高识别精度的声音识别装置的声音识别用辞典,该声音识别装置在由识别对象语生成缩略语时,能够生成更适当的缩略语,能够避免把使用可能性小的缩略语登记在识别用辞典中。
并且,上述声音识别用辞典编制装置,也可以具有:抽出条件存储单元,存储从包含识别对象语在内的字符串信息中抽出识别对象语的条件;字符串信息取得单元,取得包含识别对象语在内的字符串信息;以及识别对象语抽出单元,根据上述抽出条件存储单元内存储的条件,从由上述字符串信息取得单元所取得的字符串信息中抽出识别对象语,并发送到上述单词划分单元。
根据上述结构,能够根据从字符串信息中抽出识别对象语的条件,适当地抽出识别对象语,而且,能够自动编制与该单词对应的缩略语,并存储到声音识别用辞典中。再者,对上述编制的各缩略语,根据与在缩略语的生成中适用的规则对应的近似度计算出发音概率,将该发音概率也同时存储到声音识别用辞典中。这样,对于从字符串信息中自动编制的1个或1个词以上的缩略语,分别赋予发音概率,能够编制可实现在与声音核对时能够达到很高的识别精度的声音识别装置的声音识别用辞典。
并且,为了达到上述目的,涉及本发明的声音识别装置,利用声音识别用辞典中所登记的词汇所对应的模型,对被输入的声音进行核对,来进行识别,其特征在于,具有:词典编制单元,利用上述声音识别用辞典编制装置编制声音识别用辞典;以及识别单元,利用由上述词典编制单元编制的声音识别用辞典,来识别上述声音。
根据上述结构,不仅事前编制的声音识别用辞典中的词汇能够作为识别核对的对象,而且,由本发明的声音识别用辞典编制装置编制的、存储了从字符串信息中抽出的识别对象语和由其生成的缩略语的声音识别用辞典中的词汇,也能够作为识别核对的对象。这样,能够实现这样的声音识别装置,其除了能够正确识别像指令词那样的固定词汇外,在发音如检索关键字那样从字符串信息中抽出的词汇、以及其缩略语中的某词汇时,也能够正确进行识别。
在此,涉及本发明的声音识别装置,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一同被登记;上述识别单元考虑上述声音识别用辞典中所登记的发音概率,进行上述声音的识别。
根据上述结构,通过把字符串信息输入到已安装的声音识别用辞典编制装置,自动地抽出识别对象语,并生成其缩略语,将其存储到声音识别用辞典中。因为声音识别用辞典中存储的这些词汇在声音识别装置中能够和声音进行核对,所以,在具有应可变地增加、更改的词汇的声音识别装置中,能够从字符串信息中自动取得该词汇及其缩略语,并登记到声音识别用辞典中。
在此,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一被登记,上述声音识别装置可以考虑上述声音识别用辞典中所登记的发音概率,来进行上述声音的识别。并且,上述声音识别装置可以将作为上述声音识别结果的候补和该候补的近似度一同生成,并在所生成的近似度上加上与上述发音概率对应的近似度,根据得到的加法运算值,把上述候补作为最终识别结果进行输出。
根据上述结构,在从字符串信息中抽出识别对象语且生成其缩略语的过程中,对各缩略语的发音概率也进行计算,并存储到声音识别用辞典中。在声音识别装置中,当进行声音核对时能够把各缩略语的发音概率考虑在内进行核对,对于作为缩略语的可能性较小的缩略语,能够进行赋予低概率的控制,能够控制因不自然的缩略语的出现而造成声音识别的正确识别概率降低。
并且,上述声音识别装置可以具有:缩略语使用履历存储单元,将对上述声音进行识别的缩略语和与该缩略语相对应的识别对象语作为使用履历信息进行存储;以及缩略语生成控制单元,根据上述缩略语使用履历存储单元中存储的使用履历信息,控制上述缩略语生成单元生成缩略语。例如,上述声音识别用辞典编制装置的缩略语生成单元可以具有:缩略语生成规则存储部,存储上述生成规则;候补生成部,通过对由上述识别对象语划分成的结构单词的一部分进行连接,来生成缩略语候补;以及缩略语决定部,对已生成的缩略语的候补,根据上述缩略语生成规则存储部中存储的生成规则,来决定最终生成的缩略语,上述缩略语生成控制装置通过更改、删除或追加上述缩略语生成规则存储部中存储的上述生成规则,来控制上述缩略语的生成。
同样,上述声音识别装置还可以具有:缩略语使用履历存储单元,将对上述声音进行识别的缩略语和与该缩略语相对应的识别对象语作为使用履历信息进行存储;以及辞典编制装置,根据存储在上述缩略语使用履历存储装置中的使用履历信息,对上述声音识别用辞典中存储的缩略语进行编辑。例如,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一同被登记;上述辞典更改单元通过更改上述缩略语的发音概率,来对上述缩略语进行编辑。
根据上述结构,能够根据用户过去的与缩略语的使用有关的履历信息,考虑与用户的缩略语使用有关的趋势,对上述缩略语生成规则进行控制。这是因为着眼于用户的缩略语使用有一定的趋势,且没有对同一单词充其量也只用2个词的缩略语的情况。也就是说,在缩略语的新生成中能够根据过去的缩略语利用情况,仅生成利用趋势强的缩略语。并且,即使对于已存储在上述声音识别用辞典中的缩略语,也是在由同一单词生成多个缩略语的情况下,如果很明显是只用某一缩略语,而不用其他缩略语,则可以从辞典中删除这些不用的缩略语。利用这种功能,能够防止在上述声音识别用辞典中登记多余的缩略语,控制声音识别性能的降低。并且,在对不同的识别对象语生成的各缩略语中,即使存在共用的缩略语的情况下,也能够根据过去的用户的具体的缩略语使用信息来预测出其意图是在哪个识别对象语。
而且,本发明不仅能够实现作为如上述的声音识别用辞典编制装置和声音识别装置,而且能够作为把这些装置具有的特征性手段作为步骤的声音识别用辞典编制方法和声音识别方法来实现;或者能够作为使计算机执行这些步骤的程序来而实现。并且,不言而喻,这种程序能够通过CD-ROM等记录媒体和互联网等通信媒体来进行分配。
附图说明
图1是表示本发明第1实施方式中的声音识别用辞典编制装置的结构的功能框图。
图2是表示该声音识别用辞典编制装置进行的辞典编制处理的流程图。
图3是表示图2所示的缩略语生成处理(S23)的详细过程的流程图。
图4是表示该声音识别用辞典编制装置的缩略语生成部所具有的处理表(存储临时发生的中间数据等的表)的图。
图5是表示存储在该声音识别用辞典编制装置的缩略语生成规则存储部内的缩略语生成规则的例的图。
图6是表示存储在该声音识别用辞典编制装置的词汇存储部内的声音识别用辞典的例的图。
图7是表示本发明第2实施方式中的声音识别装置的结构的功能框图。
图8是表示该声音识别装置的学习功能的流程图。
图9是表示该声音识别装置的应用例的图。
图10(a)是表示从中文的识别对象语中利用声音识别用辞典编制装置10生成的缩略语的例的图。
图10(b)是表示从英文的识别对象语中利用声音识别用辞典编制装置10生成的缩略语的例的图。
具体实施方式
以下参照附图,详细说明本发明的实施方式。
[第1实施方式]
图1是表示本发明第1实施方式中的声音识别用辞典编制装置10的结构的功能框图。该声音识别用辞典编制装置10是从识别对象语中生成其缩略语并登记作为辞典的装置,其包括:作为程序或逻辑电路实现的识别对象语分析部1和缩略语生成部7、用硬盘或非挥发性存储器等存储装置等实现的分析用单词辞典存储部4、分析规则存储部5、缩略语生成规则存储部6以及词汇存储部8。
分析用单词辞典存储部4预先存储了用于把识别对象语划分成结构单词的与单位单词(形态要素)及其音韵系列的定义(音韵信息)有关的辞典。分析规则存储部5预先存储了用于把识别对象语划分成在分析用单词辞典存储部4中存储的单位单词的规则(句法结构分析用规则)。
缩略语生成规则存储部6预先存储了用于生成预先构成的单词的缩略语的多个规则即考虑了发音的容易程度的多个规则。在这些规则中,例如包括:决定构成识别对象语的单词本身、以及根据其搭配关系对从结构单词中抽出部分音节(mora)串的单词的规则;根据从结构单词中抽出的部分音节的抽出位置、抽出个数及其组合时的总音节个数,对适当的部分音节进行抽出的规则;以及根据对已抽出的音节进行连接时的音节连接的自然性,对部分音节进行连接的规则等。
而且,所谓“音节”是指被看作是1个音(1拍)的音韵。若是日语,则大致上相当于平假名表示时的平假名的每一个字符。并且,对应于对俳句的5、7、5进行计数时的1个音。但是,对于拗音(带有小写的ヤゆよ的音)、促音(小写的つ/缩短了的音)、拨音(鼻音)(ん),根据其是否作为1个音(1拍)发音,来决定是否作为独立的1个音节进行处理。例如,若是“东京”,则由4个音节“と”、“う”、“きよ”、“う”构成;若是“札幌“,则由4个音节“さ”、“つ”、“ぽ”、“る”构成;若是“群马”,则由3个音节“ぐ”、“ん”、“ま”构成。
识别对象语分析部1是对已输入到该声音识别用辞典编制装置10内的识别对象语进行形态要素分析、句法结构分析、音节分析等的处理部,它由单词划分部2和音节串取得部3构成。单词划分部2根据分析用单词辞典存储部4内存储的单词信息和分析规则存储部5内存储的句法结构分析规则,把已输入的识别对象语划分成用于构成该识别对象语的单词(结构单词),并且,生成已划分的结构单词的搭配关系(表示修饰语和被修饰语的关系的信息)。音节串取得部3根据分析用单词辞典存储部4内存储的单词的音韵信息,对由该单词划分部2生成的每个结构单词生成音节串。该识别对象语分析部1的分析结果,即由单词划分部2生成的信息(构成识别对象语的单词信息和单词之间的搭配关系)、以及从音节串取得部3生成的信息(表示各结构单词的音韵系列的音节串)被发送到缩略语生成部7。
缩略语生成部7利用缩略语生成规则存储部6中存储的缩略语生成规则,根据从识别对象语分析部1中发送来的与识别对象语有关的信息,生成该识别对象语的0个或0个词以上的缩略语。具体来说,根据搭配关系,对从识别对象语分析部1发送来的各个单词的音节串进行组合,这样,生成缩略语的候补,对于已生成的缩略语的各个候补,计算出缩略语生成规则存储部6内存储的各个规则的近似度。然后通过乘上一定的权重,并且对各个近似度进行合计,来计算出各个候补的发音概率,把具有一定值或一定值以上的发音概率的候补作为最终缩略语,与该发音概率和原来的识别对象语建立对应关系,存储到词汇存储部8内。也就是说,被缩略语生成部7判断为具有一定值或一定值以上的发音概率的缩略语,和表示是意思与已输入的识别对象语相同的单词的信息、以及其发音概率一同,作为声音识别用辞典登记在词汇存储部8内。
词汇存储部8是在保存可以改写的声音识别用辞典并进行登记处理的部分,它将由缩略语生成部7生成的缩略语和发音概率,与输入到该声音识别用辞典编制装置10内的识别对象语建立对应关系之外,将这些识别对象语、缩略语和发音概率登记作为声音识别用辞典。
以下结合具体例子,详细说明下述结构的声音识别用辞典编制装置10的动作。
图2是由声音识别用辞典编制装置10的各个部分来执行的词典编制处理动作的流程图。而且,在本图中箭头的左侧,表示出作为识别对象语而输入了“朝の連続ドラマ”的情况下的具体的中间数据和最终数据等;在右侧表示出作为参照或存储对象的数据名。
首先,在S21步骤,识别对象语被读入到识别对象语分析部1的单词划分部2内。单词划分部2按照分析用单词辞典存储部4内存储的单词信息以及分析规则存储部5内存储的单词划分规则,将该识别对象语划分成结构单词,并求出各结构单词的搭配关系。也就是说,进行形态要素分析和句法结构分析。这样,识别对象语“朝の連続ドラマ”,例如划分成“朝”、“の”、“連続”、“ドラマ”这样的结构单词,作为其搭配关系,生成(朝)→((連続→(ドラマ))这样的关系。而且,在该搭配关系的表示中,箭头的根部表示修饰语;箭头的头部表示被修饰语。
在S22步骤,音节串取得部3对在单词划分处理步骤S21步骤中被划分的各结构单词,赋予作为其音韵系列的音节串。在该步骤中,为了获得结构单词的音韵系列,利用分析用单词辞典存储部4内存储的单词的音韵信息。其结果,对在单词划分部2内取得的结构单词“朝”、“の”、“連続”、“ドラマ”,分别赋予“アサ”、“ノ”、“レソゾク”、“トテマ”这样的音节串。这样获得的音节串,与在上述S21步骤获得的结构单词和搭配关系的信息一同发送到缩略语生成部7内。
在S23步骤,根据从识别对象语分析部1发送来的结构单词,搭配关系和音节串,由缩略语生成部7生成缩略语。在此,适用缩略语生成规则存储部6内存储的1个或1个以上的规则。在这些规则中,包括:决定构成识别对象语的单词本身、以及根据其搭配关系从结构单词中抽出部分音节串的单词的规则;根据从结构单词中抽出的部分音节的抽出位置、抽出数及其组合时的总音节数,对适当的部分音节进行抽出的规则;以及根据对已抽出的音节进行连接时的音节连接的自然性,对部分音节进行连接的规则等。缩略语生成部7通过对适用于缩略语的生成的每个规则,分别计算出表示规则的一致度的近似度,并对按照多个规则进行计算的近似度进行综合,来计算出已生成的缩略语的发音概率。其结果,例如,作为缩略语生成“アサドラ”、“レンドラ”、“アサレンドラ”,按此顺序由高到低给出发音概率。
在S24步骤,词汇存储部8使缩略语生成部7所生成的缩略语及发音概率的组与识别对象语建立对应关系,存储到声音识别用辞典中。这样,编制出已存储了识别对象语的缩略语及其发音概率的声音识别用辞典。
以下利用图3~图5,详细说明图2所示的缩略语生成处理(S23)的详细过程。图3是表示其详细过程的流程图,图4表示缩略语生成部7所具有的处理表(用于存储临时发生的中间数据等的表),图5表示缩略语生成规则存储部6内存储的缩略语生成规则6a的例子。
首先,缩略语生成部7根据从识别对象语分析部1发送来的结构单词、搭配关系及音节串,生成缩略语的候补(图3的S30)。具体来说,生成由从识别对象语分析部1发送来的结构单词的搭配关系所表示的修饰语和被修饰语构成的所有的组合,作为缩略语候补。这时,如图4的处理表中的“缩略语的候补”所示,对于各修饰语和被修饰语,不仅采用结构单词的音节串,也采用其一部分丢失了的部分音节串。例如,修饰语“レンゾク”和被修饰语“ドラマ”的组合,不仅生成“レンゾクドラマ”,还生成“レンゾクドラ”、“レンドラマ”、“レンドラ”等丢掉一个或一个以上的音节而构成的所有的音节串,均作为缩略语候补。
然后,由缩略语生成部7对已生成的缩略语的各候补(图3的S31~),分别计算出在缩略语生成规则存储部6内存储的每个缩略语生成规则的近似度(图3的S32~S34),在一定的加权下通过对各近似度进行合计而计算出发音概率(图3的S35),以上的处理反复进行(图3的S30~S36)。
例如,缩略语生成规则之一,如图5的规则1所示,是涉及搭配关系的规则,假设定义了:使修饰语和被修饰语按此顺序进行结合的规则,以及表示修饰语和被修饰语的距离(图4上部表示的搭配关系图中的段数)越小则近似度越高的的函数等。那么,由缩略语生成部7对各个候补缩略语,计算出对应于这种规则1的近似度。例如对“レンドラ”,在确认其是修饰语和被修饰语按该顺序结合的缩略语(否则把近似度定为0)的情况下,还确定修饰语“レン”和被修饰语“ドラ”的距离(这里“レン(ゾク)”修饰“ドラ(マ)”,所以为1段),并根据上述函数来确定与该距离相对应的近似度(这里为0.102)。
再有,若是“アサドラ”,则修饰语“アサ”和被修饰语“ドラ”的距离因“アサ”修饰“レンゾクトラマ”,所以为2段,并且,若是“アサレンドラ”,则修饰语和被修饰语的距离,因为具有上述“レンドラ”和“アサドラ”两者的搭配关系,所以变成这2个距离的平均值,即成为1.5段。
并且,缩略语生成规则的另一例,如图5的规则2所示,是有关部分音节串的规则,假设定义了:与部分音节串的位置有关的规则以及与长度无关的规则等。具体来说,作为与部分音节串的位置有关的规则,定义了:作为修饰语或被修饰语采用的音节串(部分音节串)的位置越接近原结构单词的开头则表示越高的其近似度的规则,即表示离开开头的距离(原结构单词的开头和部音节串的开头之间夹着的音节个数)和近似度的关系的函数等。并且,作为与部分音节串的长度有关的规则,定义了:构成部分音节串的音节的个数越接近2则表示近似度越高的规则,即表示部分音节串的长度(音节数)和近似度的关系的函数。缩略语生成部7对各个候补缩略语,分别计算出与这种规则2相对应的近似度。例如,对于“アサドラ”,对部分音节串“アサ”和“ドラ”分别确定在结构单词“アサ”和“トラマ”中的位置和长度,并根据上述函数来确定各近似度,将这些近似度的平均值作为规则2的近似度(在此为0.128)。
并且,缩略语生成规则的另一例如图5的规则3所示,是与音韵的连接有关的规则,假设定义了:与部分音节串的结合部分有关的规则等。在此,作为与部分音节串的结合部分有关的规则被定义了:在所结合的2个部分音节串中前面的部分音节串的最末尾音节和后面的部分音节串的开头音节的结合是不自然的音韵组合(发音困难的音韵)的情况下,作为近似度低的数据表。缩略语生成部7对各个候补缩略语,计算出对应于这种规则3的近似度。具体来说,对各部分音节串的结合部分是否属于登记在规则3的不自然的连接的某一种进行判断,若属于,则分配与该连接对应的近似度;不属于该连接时,分配默认值的近似度(在此为0.050)。例如“アサレンドラ”,对于部分音节串“アサ”和“レン”的结合部分“サレ”是否属于登记在规则3内的不自然的连接,进行判断。在此,因为不属于任一种,所以,把近似度定为默认(default)值(0.050)。
这样,当对各个缩略语的候补计算出每个缩略语生成规则的近似度时,缩略语生成部7根据图3的S35步骤所示的发音概率P(w)的计算式,对各个近似度x乘上权重(图5所示的对应的每个规则的权重α)并进行合计,这样计算出每个候补的发音概率(图3的S35)。
最后,缩略语生成部7从所有的候补中确定发音概率超过预先设定的一定阈值的候补,将其作为最终的缩略语,与发音概率一起输出到词汇存储部8(图3的S37)。这样,在词汇存储部8如图6所示,编制出声音识别用辞典8a,其中包括识别对象语的缩略语和发音概率。
按以上方法制作的声音识别用辞典8a,不仅识别对象语,而且其缩略语也和发音概率一起被登记。所以,利用由该声音识别用辞典编制装置10编制的声音识别用辞典,能够实现这样一种声音识别装置,即无论发音正式单词的情况下,还是发音缩略语的情况下,均能够检测出是相同意图的发音,能够以高识别率来识别声音。例如,在上述“朝の連続ドラマ”的例中,编制这样的用于声音识别装置的声音识别用辞典,该声音识别用辞典无论是在用户发音“アサノレンゾクドラマ”的情况下,还是发音“アサドラ”的情况下,均能够将其识别为“朝の連続ドラマ”,所述声音识别装置具有相同的功能。
[第2实施方式]
第2实施方式涉及安装第1实施方式的声音识别用辞典编制装置10,利用由该声音识别用辞典编制装置10编制的声音识别用辞典8a的声音识别装置的例子。本发明实施方式涉及这样的声音识别装置,它具有从字符串信息中自动地抽出识别对象语、并将其存储到声音识别用辞典中的辞典更改功能,而且,由于利用与基于过去用户使用缩略语的履历的信息来控制缩略语的生成,因此,具有能够抑制在声音识别用辞典中登记使用的可能性小的缩略语的功能。而且,所谓字符串信息是指包括作为声音识别装置的识别对象的词语(识别对象语)的信息,例如,若是根据收看数字电视节目的观众发出的节目名称进行节目自动切换的声音识别装置的应用例,则节目名称变成识别对象语,从广播站发射来的电子节目数据变成字符串信息。
图7是表示第2实施方式的声音识别装置30的结构的功能框图。该声音识别装置30除了具有第1实施方式中的声音识别用辞典编制装置10外,还具有:字符串信息取得部17、识别对象语抽出条件存储部18、识别对象语抽出部19、声音识别部20、用户接口部25、缩略语使用履历存储部26以及缩略语生成规则控制部27。而且,声音识别用辞典编制装置10与第1实施方式的相同,其说明从略。
字符串信息取得部17、识别对象语抽出条件存储部18、识别对象语抽出部19是用于从包含识别对象语的字符串信息中抽出识别对象语的部分。根据该结构,字符串信息取得部17取得包含识别对象语的字符串信息,接着在识别对象语抽出部19中从该字符串信息中抽出识别对象语。为了从字符串信息中抽出识别对象语,字符串信息在经过形态要素分析后,根据识别对象语抽出条件存储部18内存储的识别对象语抽出条件进行抽出。被抽出的识别对象语发送到声音识别用辞典编制装置10内,进行该缩略语的编制和往识别辞典中的登记。
这样,本实施方式的声音识别装置30中,从像电子节目数据那样的字符串信息中自动抽出像节目名称那样的检索关键字,编制出即使发出该关键字以及由该关键字生成的缩略语中的任一个均能正确进行声音识别的声音识别用辞典。而且,所谓识别对象语抽出条件存储部18内存储的识别对象语抽出条件是指例如对输入到数字广播接收机内的数字广播数据中的电子节目数据进行识别的信息或对电子节目数据中的节目名称进行识别的信息等。
声音识别部20是对从话筒等输入的输入声音根据由声音识别用辞典编制装置10编制的声音识别用辞典来进行声音识别的处理部,包括:音响分析部21、音响模型存储部22、固定词汇存储部23和核对部24。从话筒等输入的声音,由音响分析部21进行频率分析等,变换成特征参数的系列(mel-cepstrum梅尔-倒频谱系数等)。在核对部24内,采用音响模型存储部22内存储的模型(例如隐形马尔可夫模型和混合高斯分布模型等),根据固定词汇存储部23内存储的词汇(固定词汇)或者词汇存储部8内存储的词汇(通常语和缩略语),一边合成用于识别各词汇的模型,一边与输入声音进行合成。其结果,获得了较高近似度的单词作为识别结果候补,发送到用户接口部25。
根据这种结构,由该声音识别部20把机器控制指令(例如节目切换中的发音“切换”)等系统构成时可决定的词汇存储到固定词汇存储部23中,并将像节目切换用的节目名称那样需要根据节目名称的变化可进行更改的词汇存储到词汇存储部8,由此能够同时识别双方的词汇。
并且,在词汇存储部8内不仅存储缩略语,而且也存储发音概率。该发音概率在核对部24内进行声音的核对时被使用,由于发音概率低的缩略语难于识别,所以能够抑制缩略语的过多出现造成的声音识别装置的性能降低。例如,核对部24在表示输入的声音和存储在词汇存储部8内的词汇的相关性的近似度上,加上与存储在词汇存储部8内的发音概率对应的近似度(例如发音概率的对数值),把求得的加法计算值作为识别结果的最终近似度,在该最终近似度超过一定的阈值的情况下,把该词汇作为识别结果候补而发送到用户接口部25。而且,在超过一定阈值的识别结果候补有多个的情况下,仅将其中的近似度最高的候补起一定顺序内的候补发送到用户接口25。
但是,利用这种声音识别用辞典编制装置10也能够对多个不同的识别对象语生成作为共用的音韵系列的缩略语。这是由于缩略语生成规则中存在的模糊性而产生的问题。通常,用户认为一个缩略语用于表示一个对应的识别对象语。所以,需要能够消除缩略语生成规则中存在的模糊性、根据已发音的缩略语提示适当的动作,并通过长期使用来提高识别率的具有学习功能的声音识别装置。用户接口部25、缩略语使用履历存储部26、缩略语生成规则控制部27是用于该学习功能的结构要素。
也就是说,用户接口部25,在用核对部24进行声音核对的结果,不能够把识别结果候补压缩成一个的情况下,向用户提示这些多个候补,并从用户取得选择指示。例如,对用户的发话,将取得的多个识别结果的候补(作为切换目标的多个节目名称)显示到电视画面上。用户利用遥控器等从中选择一个正确的候补,即可获得所需的动作(用声音来切换节目)。
这样,发送到用户接口部25的缩略语,或者由用户从发送到用户接口部25的多个缩略语中选择的缩略语,被作为履历信息发送并存储到缩略语使用履历存储部26。存储在缩略语使用履历存储部26内的履历信息,汇集在缩略语生成规则控制部27内,用于对缩略语生成规则存储部6内存储的缩略语生成用规则或参数、以及用于计算缩略语发音概率的参数进行更改。同时通过用户使用缩略语,在本来的单词及其缩略语之间获得1对1的对应关系的情况下,该信息也存储在缩略语生成规则存储部中。并且,关于这种缩略语生成规则存储部6的规则的增加、更改、删除的信息,也被发送到词汇存储部8,对已登记的缩略语进行重新评估,进行缩略语的删除、更改,来进行辞典的更新。
图8是表示这种声音识别装置30的学习功能的流程图。
在从核对部24发送来的识别结果候补中包括存储在词汇存储部8内的缩略语的情况下,用户接口部25通过把该缩略语发送到缩略语使用履历存储部26,将其存储到缩略语使用履历存储部26(S40)。这时,对于用户选择的缩略语,增加表示其内容的信息之后发送到缩略语使用履历存储部26。
缩略语生成规则控制部27,每经过一定时间,或者每当一定的信息量存储到缩略语使用履历存储部26内时,对存储在缩略语使用履历存储部26内的缩略语进行统计性分析,以此生成规则性(S41)。例如,生成与缩略语的长度(音节数)有关的频率分布以及与构成缩略语的音节连接有关的频率分布等。并且,根据用户的选择信息等,例如在能够确认把节目名“朝の連続ドラマ”称为“レンドラ”的情况下,也生成表示这些识别对象语和缩略语的一对一的对应关系的信息。而且,结束这种规则性的生成之后,缩略语生成规则控制部27把缩略语使用履历存储部26的存储内容删除,准备进一步存储。
并且,缩略语生成规则控制部27根据已生成的规则性,对缩略语生成规则存储部6内存储的缩略语生成规则进行增加、更改或删除(S42)。例如,根据与缩略语长度有关的频率分布,修改与图5的规则2内包括的部分音节串长度有关的规则(从表示分布的函数的参数中,确定平均值的参数等)。并且,在生成了表示识别对象语和缩略语的一对一的对应关系的信息的情况下,把该对应关系登记作为新的缩略语生成规则。
缩略语生成部7根据这样增加、更改、删除后的缩略语生成规则,反复进行对识别对象语的缩略语的生成,以此对词汇存储部8内存储的声音识别用辞典进行重新评估(S43)。例如,在根据新的缩略语生成规则重新计算缩略语“アサドラ”的发音概率的情况下,在对该发音概率进行更新,或者在由用户对识别对象语“朝の連続ドラマ”选择了“レントラ”作为缩略语的情况下,增加缩略语“レンドラ”的发音概率。
这样,不仅利用本声音识别装置30来进行包括缩略语在内的声音识别,而且,根据识别结果来更新缩略语生成规则,更改声音识别用辞典,所以能够发挥随使用时间的增加能够提高识别率的学习功能。
图9(a)是表示这种声音识别装置30的应用例的图。
在此,表示采用声音的电视节目自动切换系统。该系统包括:内置有声音识别装置30的STB(机顶盒;数字广播接收机)40、电视接收机41和具有无线话筒功能的遥控器42。用户的发话通过遥控器42的话筒作为声音数据而发送到STB40,利用STB40中内置的声音识别装置30进行声音识别,根据其识别结果进行节目切换。
例如,假设用户的发话是“レンドラニキリカエ”。此时,该声音通过遥控器42发送到STB40中内置的声音识别装置30。声音识别装置30的声音识别部20如图9(b)的处理过程所示,通过参照词汇缩略语部8和固定词汇存储部23,对已输入的声音“レンドラニキリカエ”,检测出其中包含有可变词汇“レンドラ”(即识别对象语“朝の連続ドラマ”)和固定词汇“キリカエ”。根据其结果,由STB40确认在预先作为广播数据而接收并保持的电子节目数据中存在当前广播中的节目“朝の連続ドラマ”之后,进行选择该节目(在此为频道6)的切换控制。
这样,在本实施方式的声音识别装置中,不仅能够同时进行像机器控制用命令语那样的固定词汇的识别、以及像节目检索用节目名称那样的可变词汇的识别,而且,无论是固定词汇,还是可变词汇,以及其缩略语表现,通过与机器的控制等进行连动,即可进行所需要的处理。再者,利用考虑了用户的过去的使用履历的学习,能够消除缩略语生成过程的模糊性,高效率地编制具有高识别率的声音识别用辞典。
以上根据实施方式说明了涉及本发明的声音识别用辞典编制装置和声音识别装置。但本发明并不仅限于这些实施方式。
例如,在第1和第2实施方式中,表示以日语为对象的声音识别用辞典编制装置10和声音识别装置30的例子,但不言而喻,本发明不仅能够适用于日语,也能够适用于汉语和英语等日语以外的语言。图10(a)是表示从汉语的识别对象语中利用声音识别用辞典编制装置10生成的缩略语的例的图。图10(b)是表示从英文的识别对象语中利用声音识别用辞典编制装置10生成的缩略语的例的图。这些缩略语的生成,例如可以利用例如图5所示的缩略语生成规则6a,“以识别对象语的开头1个音节(syllable)为缩略语”、“将对构成识别对象语的各单词的开头1音节(syllable)进行连接的作为缩略语”等缩略语生成规则。
并且,第1实施方式的声音识别用辞典编制装置10生成发音概率高的缩略语,但也可以把未缩略的通常语作为生成对象。例如,缩略语生成部7不仅对缩略语,而且也可以对未缩略的识别对象语所对应的音节串(モ一ラ列),与预定的一定的发音概率一同以固定方式登记在词汇存储部8的声音识别用辞典中。或者,在声音识别装置中,通过不仅将该声音识别用辞典中所登记的缩略语包括在识别对象内,还将作为声音识别用辞典的索引的识别对象语也包括在识别对象内,由此,不仅能够识别缩略语,而且能够同时识别与全拼字(音)相对应的通常词语。
并且,在第1实施方式中,缩略语生成规则控制部27对存储在缩略语生成规则存储部6内的缩略语生成规则进行了更改等,但也可以直接对词汇存储部8的内容进行更改。具体来说,也可以对存储在词汇存储部8内的声音识别用辞典8a中登记的缩略语进行增加、更改或删除,或者对被登记的缩略语的发音概率进行增减。这样,根据存储在缩略语使用履历存储部26内的使用履历信息,直接修正声音识别用辞典。
并且,存储在缩略语生成规则存储部6内的缩略语生成规则和规则中的术语的定义不仅限于本实施方式。例如在本实施方式中,修饰语和被修饰语的距离表示搭配关系图中的段数,但并不仅限于这种定义,也可以把表现修饰语和被修饰语的意思的继续性的好坏的值定义为“修饰语和被修饰语的距离”。例如,“火红的(夕阳))”和“(蔚蓝色的(夕阳))”,因前者从意思上看是自然的,所以也可以采用使前者为近距离的尺度。
并且,在第2实施方式中,作为声音识别装置30的适用例,表示了数字广播接收系统中的自动节目切换。但这种自动节目切换并不仅限于广播系统等的单方向的通信系统,不言而喻,也可以适用于互联网和电话网等双向通信系统中的节目切换。例如,通过把涉及本发明的声音识别装置安装在携带式电话机内,能够实现内容分配系统,用于对用户需要的内容的指定进行声音识别,从互联网上的地址对该内容进行下载。例如,若用户发话为“クマピ-ヲダウンロ-ド”,则被识别为可变词汇“クマピ-(“くまのピ-
Figure C20038010304800271
ん”的缩略语)”和固定词汇“ダウンロ-ド”,从互联网上的地址把来电铃声“くまのピ-さん(小熊)”下载到携带式电话机上。
同样,涉及本发明的声音识别装置30不仅限于广播系统和内容分配系统等通信系统,而且也能够适用于独立的设备。例如,把涉及本发明的声音识别装置30内置于汽车导航装置,实现对司机发话的行驶目的地名称等进行声音识别、并自动地显示出其行驶目的地的地图的既方便又安全的汽车导航装置。例如,若一边开车,一边发话“カドカドヲヒヨウジ”,则可变词汇“カドカド”(“大阪府门真市大字门真”的缩略语)”和固定词汇“ヒヨウジ”被识别,在汽车导航画面上自动显示“大阪府门真市大字门真”附近的地图。
如上所述,利用本发明,可编制声音识别装置用的声音识别用辞典,其不仅在识别对象语的正式发音时,而且在其缩略语发音时也同样地工作。并且,本发明适用着眼于作为日语声音的发音节奏的音节的缩略语生成规则,并且进一步赋予考虑了这些缩略语的发音概率的权重,所以,能够避免无用的缩略语的生成和在识别辞典中的登记,且加权的并用,能够避免出现的缩略语对声音识别装置的性能产生不良影响。
并且,在安装了这种声音识别用辞典编制装置的声音识别装置中,在声音识别用辞典编制部利用与缩略语使用有关的用户履历,由此,能够消除因缩略语生成规则的模糊性而产生的原单词与缩略语之间的多对多的对应关系,能够高效率地编制声音识别用辞典。
再者,涉及本发明的声音识别装置中,形成了把识别结果反映在声音识别用辞典的编制过程的反馈,所以,能够发挥随着装置的使用而不断提高识别率的学习效果。
这样,利用本发明,能够以高识别率来识别包括缩略语的声音,利用包括缩略语的声音来进行广播节目的切换、对移动电话手机的操作、以及对汽车导航装置的指示等,本发明有很高的实用价值。
产业上的可利用性
本发明作为编制以不确定的讲话人为对象的声音识别装置中使用的辞典的声音识别用辞典编制装置、以及利用该辞典来识别声音的声音识别装置等,尤其作为对包括缩略语的词汇进行识别的声音识别装置等,例如能够用于数字广播接收机和汽车导航装置等。

Claims (27)

1、一种声音识别用辞典编制装置,编制声音识别用辞典,其特征在于,具有:
缩略语生成单元,对于由一个以上的单词构成的识别对象语,对由上述识别对象语划分成的结构单词的一部分连接而生成的上述识别对象语的缩略语候补,根据考虑了发音的容易程度的规则即生成规则,生成上述识别对象语的缩略语;
词汇存储单元,将已决定的上述缩略语和由上述生成规则决定的该缩略语的发音概率及上述识别对象语一同作为上述声音识别用辞典进行存储。
2、如权利要求1所述的声音识别用辞典编制装置,其特征在于,
上述声音识别用辞典编制装置还具有:
单词划分单元,把上述识别对象语划分成结构单词。
3、如权利要求1或2所述的声音识别用辞典编制装置,其特征在于,上述缩略语生成单元具有:
缩略语生成规则存储部,存储上述生成规则;
候补生成部,通过对由上述识别对象语划分成的结构单词的一部分进行连接,来生成缩略语的候补;以及
缩略语决定部,对已生成的缩略语的候补,根据上述缩略语生成规则存储部中存储的上述生成规则,来决定最终生成的缩略语。
4、如权利要求3所述的声音识别用辞典编制装置,其特征在于,
上述缩略语决定部对于已生成的缩略语的候补,计算出与上述缩略语生成规则存储部中存储的生成规则对应的近似度,通过对已算出的近似度综合考虑,决定发音概率,
上述词汇存储单元将由上述缩略语决定部决定的缩略语及发音概率与上述识别对象语一同进行存储。
5、如权利要求4所述的声音识别用辞典编制装置,其特征在于,上述缩略语决定部通过将与上述生成规则对应的近似度乘上对应的加权系数而获得的值进行合计,来决定上述发音概率。
6、如权利要求5所述的声音识别用辞典编制装置,其特征在于,上述缩略语决定部,在上述缩略语的候补的发音概率超过一定阈值的情况下,决定为最终生成的缩略语。
7、如权利要求4所述的声音识别用辞典编制装置,其特征在于,在上述缩略语生成规则存储部中,存储了与单词搭配有关的第1规则,上述缩略语决定部根据上述第1规则,从上述候补中决定最终生成的缩略语。
8、如权利要求7所述的声音识别用辞典编制装置,其特征在于,在上述第1规则中包括通过将修饰语和被修饰语配成对而生成缩略语的条件。
9、如权利要求7所述的声音识别用辞典编制装置,其特征在于,在上述第1规则中包括表示构成缩略语的修饰语和被修饰语的距离与上述近似度之间关系的规则。
10、如权利要求4所述的声音识别用辞典编制装置,其特征在于,上述缩略语生成规则存储部中存储第2规则,该第2规则涉及生成缩略语时从结构单词的音节串中取出的部分音节串的长度及该取出的部分音节串在结构单词中的位置中的至少一个,
上述缩略语决定部根据上述第2规则,从上述缩略语候补中决定最终生成的缩略语。
11、如权利要求10所述的声音识别用辞典编制装置,其特征在于,在上述第2规则中包括表示上述部分音节串的长度的音节数和上述近似度的关系的规则。
12、如权利要求10所述的声音识别用辞典编制装置,其特征在于,在上述第2规则中包括这样的规则,该规则表示音节数和上述近似度的关系,所述音节数表示上述部分音节串在结构单词中的位置、且对应于从结构单词的开头起的距离。
13、如权利要求4所述的声音识别用辞典编制装置,其特征在于,在上述缩略语生成规则存储部中,存储与构成缩略语的部分音节串的连接有关的第3规则,上述缩略语决定部根据上述第3规则,从上述候补中决定最终生成的缩略语。
14、如权利要求13所述的声音识别用辞典编制装置,其特征在于,在上述第3规则中包括这样的规则,该规则表示所连接的2个部分音节串中位于前面的部分音节串的最后音节和位于后面的部分音节串的开头音节的组合与上述近似度的关系。
15、如权利要求2所述的声音识别用辞典编制装置,其特征在于,
上述声音识别用辞典编制装置,还具有:
抽出条件存储单元,存储从包含识别对象语的字符串信息中抽出识别对象语的条件;
字符串信息取得单元,取得包含识别对象语的字符串信息;以及
识别对象语抽出单元,根据上述抽出条件存储单元中存储的条件,从由上述字符串信息取得单元所取得的字符串信息中抽出识别对象语,并发送到上述单词划分单元。
16、一种声音识别装置,利用声音识别用辞典中登记的词汇所对应的模型,对被输入的声音进行核对,来进行识别,其特征在于,该声音识别装置具有:
词典编制单元,利用权利要求1记载的声音识别用辞典编制装置编制声音识别用辞典;以及
识别单元,利用由上述词典编制单元编制的声音识别用辞典来识别声音。
17、如权利要求16所述的声音识别装置,其特征在于,
在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一同被登记;
上述识别单元考虑上述声音识别用辞典中所登记的发音概率,进行上述声音的识别。
18、如权利要求17所述的声音识别装置,其特征在于,上述识别单元将作为上述声音的识别结果的候补和该候补的近似度一同生成,并在生成的近似度上加上与上述发音概率相对应的近似度,根据得到的加法运算值,把上述候补作为最终识别结果进行输出。
19、如权利要求16所述的声音识别装置,其特征在于,上述声音识别装置还具有:
缩略语使用履历存储单元,将对上述声音进行识别的缩略语和与该缩略语相对应的识别对象语作为使用履历信息进行存储;以及
缩略语生成控制单元,根据上述缩略语使用履历存储单元中存储的使用履历信息,控制上述缩略语生成单元生成缩略语。
20、如权利要求19所述的声音识别装置,其特征在于,
上述声音识别用辞典编制装置的缩略语生成单元具有:
缩略语生成规则存储部,存储上述生成规则;
候补生成部,通过对由上述识别对象语划分成的结构单词的一部分进行连接,来生成缩略语候补;以及
缩略语决定部,对已生成的缩略语的候补,根据上述缩略语生成规则存储部中存储的生成规则,来决定最终生成的缩略语,
上述缩略语生成控制装置通过更改、删除或追加上述缩略语生成规则存储部中存储的上述生成规则,来控制上述缩略语的生成。
21、如权利要求16所述的声音识别装置,其特征在于,上述声音识别装置还具有:
缩略语使用履历存储单元,将对上述声音进行识别的缩略语和与该缩略语相对应的识别对象语作为使用履历信息进行存储;以及
辞典编辑单元,根据存储在上述缩略语使用履历存储单元中的使用履历信息,对上述声音识别用辞典中存储的缩略语进行编辑。
22、如权利要求21所述的声音识别装置,其特征在于,在上述声音识别用辞典中,上述缩略语和该缩略语的发音概率与上述识别对象语一同被登记;
上述辞典编辑单元通过更改上述缩略语的发音概率,来对上述缩略语进行编辑。
23、一种声音识别装置,利用声音识别用辞典中所登记的词汇所对应的模型,对被输入的声音进行核对,来进行识别,其特征在于,具有:
权利要求1所述的声音识别用辞典编制装置;以及
识别单元,利用由上述声音识别用辞典编制装置编制的声音识别用辞典,识别上述声音。
24、一种声音识别用辞典的编制方法,编制声音识别用辞典,其特征在于,具有:
缩略语生成步骤,对于由一个以上的单词构成的识别对象语,对由上述识别对象语划分成的结构单词的一部分连接而生成的上述识别对象语的缩略语候补,根据考虑了发音的容易程度的规则即生成规则,决定上述识别对象语的缩略语;以及
词汇登记步骤,将已决定的上述缩略语和由上述生成规则决定的该缩略语的发音概率及上述识别对象语一同登记在上述声音识别用辞典上。
25、如权利要求24所述的声音识别用辞典编制方法,其特征在于,
上述声音识别用辞典编制方法还具有:
单词划分步骤,把上述识别对象语划分成结构单词。
26、一种声音识别方法,利用声音识别用辞典中所登记的词汇所对应的模型,对被输入的声音进行核对,来进行识别,其特征在于,包括识别步骤,利用由权利要求24所述的声音识别用辞典编制方法编制的声音识别用辞典,识别上述声音。
27、一种声音识别方法,利用声音识别用辞典中所登记的词汇所对应的模型,对被输入的声音进行核对,来进行识别,其特征在于,包括:
权利要求24所述的声音识别用辞典编制方法中的步骤;以及
利用由上述声音识别用辞典编制方法编制的声音识别用辞典,来识别上述声音的步骤。
CNB2003801030485A 2002-11-11 2003-11-07 声音识别用辞典编制装置和声音识别装置 Expired - Lifetime CN100559463C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP326503/2002 2002-11-11
JP2002326503 2002-11-11

Publications (2)

Publication Number Publication Date
CN1711586A CN1711586A (zh) 2005-12-21
CN100559463C true CN100559463C (zh) 2009-11-11

Family

ID=32310501

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801030485A Expired - Lifetime CN100559463C (zh) 2002-11-11 2003-11-07 声音识别用辞典编制装置和声音识别装置

Country Status (5)

Country Link
US (1) US20060106604A1 (zh)
JP (1) JP3724649B2 (zh)
CN (1) CN100559463C (zh)
AU (1) AU2003277587A1 (zh)
WO (1) WO2004044887A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102341843A (zh) * 2009-03-03 2012-02-01 三菱电机株式会社 语音识别装置

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682897B1 (ko) 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
JP4322785B2 (ja) * 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
WO2006070373A2 (en) * 2004-12-29 2006-07-06 Avraham Shpigel A system and a method for representing unrecognized words in speech to text conversions as syllables
JP2006330577A (ja) * 2005-05-30 2006-12-07 Alpine Electronics Inc 音声認識装置及び音声認識方法
JP4680714B2 (ja) * 2005-08-03 2011-05-11 パナソニック株式会社 音声認識装置および音声認識方法
JP4997796B2 (ja) * 2006-03-13 2012-08-08 株式会社デンソー 音声認識装置、及びナビゲーションシステム
JP4767754B2 (ja) * 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
JPWO2007138875A1 (ja) * 2006-05-31 2009-10-01 日本電気株式会社 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP4967519B2 (ja) * 2006-08-11 2012-07-04 日産自動車株式会社 音声認識装置
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US8165879B2 (en) * 2007-01-11 2012-04-24 Casio Computer Co., Ltd. Voice output device and voice output program
WO2009016729A1 (ja) * 2007-07-31 2009-02-05 Fujitsu Limited 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
WO2009019830A1 (ja) * 2007-08-03 2009-02-12 Panasonic Corporation 関連語提示装置
JP5178109B2 (ja) * 2007-09-25 2013-04-10 株式会社東芝 検索装置、方法及びプログラム
WO2009041220A1 (ja) * 2007-09-26 2009-04-02 Nec Corporation 略語生成装置およびプログラム、並びに、略語生成方法
JP5098613B2 (ja) 2007-12-10 2012-12-12 富士通株式会社 音声認識装置及びコンピュータプログラム
JP5248121B2 (ja) * 2008-01-11 2013-07-31 株式会社東芝 愛称を推定する装置、方法およびプログラム
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP5146429B2 (ja) * 2009-09-18 2013-02-20 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
CN102725790B (zh) 2010-02-05 2014-04-16 三菱电机株式会社 识别词典制作装置及声音识别装置
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
JP5703747B2 (ja) * 2010-12-27 2015-04-22 富士通株式会社 音声認識装置,および音声認識プログラム
JP5824829B2 (ja) * 2011-03-15 2015-12-02 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US9465517B2 (en) * 2011-05-24 2016-10-11 Mitsubishi Electric Corporation Character input device and car navigation device equipped with character input device
US9008489B2 (en) * 2012-02-17 2015-04-14 Kddi Corporation Keyword-tagging of scenes of interest within video content
US20150019224A1 (en) * 2012-05-02 2015-01-15 Mitsubishi Electric Corporation Voice synthesis device
US11055745B2 (en) * 2014-12-10 2021-07-06 Adobe Inc. Linguistic personalization of messages for targeted campaigns
CN106959958B (zh) * 2016-01-11 2020-04-07 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
JP6821393B2 (ja) * 2016-10-31 2021-01-27 パナソニック株式会社 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
JP6782944B2 (ja) * 2017-02-03 2020-11-11 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
JP6880956B2 (ja) * 2017-04-10 2021-06-02 富士通株式会社 解析プログラム、解析方法および解析装置
DE102017219616B4 (de) * 2017-11-06 2022-06-30 Audi Ag Sprachsteuerung für ein Fahrzeug
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
KR102453833B1 (ko) 2018-05-10 2022-10-14 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7467314B2 (ja) * 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03194653A (ja) * 1989-12-25 1991-08-26 Tokai Tv Hoso Kk 情報検索システムにおける略語検索法
US5454063A (en) * 1993-11-29 1995-09-26 Rossides; Michael T. Voice input system for data retrieval
JPH08272789A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
JPH11110408A (ja) * 1997-10-07 1999-04-23 Sharp Corp 情報検索装置および方法
JPH11328166A (ja) * 1998-05-15 1999-11-30 Brother Ind Ltd 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US6279018B1 (en) * 1998-12-21 2001-08-21 Kudrollis Software Inventions Pvt. Ltd. Abbreviating and compacting text to cope with display space constraint in computer software
JP2001034290A (ja) * 1999-07-26 2001-02-09 Omron Corp 音声応答装置および方法、並びに記録媒体
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
JP3639776B2 (ja) * 2000-07-28 2005-04-20 シャープ株式会社 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
MY141150A (en) * 2001-11-02 2010-03-15 Panasonic Corp Channel selecting apparatus utilizing speech recognition, and controling method thereof
US7503001B1 (en) * 2002-10-28 2009-03-10 At&T Mobility Ii Llc Text abbreviation methods and apparatus and systems using same
US20040186819A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Telephone directory information retrieval system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102341843A (zh) * 2009-03-03 2012-02-01 三菱电机株式会社 语音识别装置
CN102341843B (zh) * 2009-03-03 2014-01-29 三菱电机株式会社 语音识别装置

Also Published As

Publication number Publication date
AU2003277587A1 (en) 2004-06-03
JPWO2004044887A1 (ja) 2006-03-16
CN1711586A (zh) 2005-12-21
US20060106604A1 (en) 2006-05-18
WO2004044887A1 (ja) 2004-05-27
JP3724649B2 (ja) 2005-12-07

Similar Documents

Publication Publication Date Title
CN100559463C (zh) 声音识别用辞典编制装置和声音识别装置
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
JP3955880B2 (ja) 音声認識装置
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
CN1249667C (zh) 声控服务
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US9418662B2 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
CN103699530A (zh) 根据语音输入信息在目标应用中输入文本的方法与设备
CN103559880B (zh) 语音输入系统和方法
CN110335625A (zh) 背景音乐的提示及识别方法、装置、设备以及介质
CN101681365A (zh) 用于分布式语音搜索的方法和装置
JPWO2008114708A1 (ja) 音声認識システム、音声認識方法、および音声認識処理プログラム
WO2011121649A1 (ja) 音声認識装置
JP2009175630A (ja) 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体
US20080091427A1 (en) Hierarchical word indexes used for efficient N-gram storage
CN114550718A (zh) 热词语音识别方法、装置、设备与计算机可读存储介质
US7110948B1 (en) Method and a system for voice dialling
CN106162254A (zh) 一种用户语音分析方法及系统
CN118280356A (zh) 语音交互方法、电子设备、车辆及存储介质
CN109754820B (zh) 目标音频获取方法及装置、存储介质及终端
US10140981B1 (en) Dynamic arc weights in speech recognition models
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
CN113077793B (zh) 一种语音识别方法、装置、设备及存储介质
CN112735394B (zh) 一种语音的语义解析方法及装置
CN113113002B (zh) 车辆语音交互方法和系统、以及语音更新系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140926

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140926

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20091111