JP4316494B2

JP4316494B2 - 音声認識装置

Info

Publication number: JP4316494B2
Application number: JP2004508528A
Authority: JP
Inventors: 敏幸宮崎
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2002-05-10
Filing date: 2003-05-07
Publication date: 2009-08-19
Anticipated expiration: 2023-05-07
Also published as: KR100650473B1; DE60323362D1; EP1505573B1; JPWO2003096324A1; WO2003096324A1; CN1320520C; AU2003235868A1; US20050203737A1; EP1505573A1; CN1653518A; EP1505573A4; US7487091B2; KR20040102224A

Description

技術分野
本発明は、不特定話者用の音声モデルに基づいて音声認識を行うシステムに係り、特に、不特定話者音声認識を行うにあたって必要なメモリ容量を低減するのに好適な音声認識装置に関する。
背景技術
音声認識の世界では、一般に、不特定話者を対象として音声を認識する技術を不特定話者音声認識と呼び、特定話者を対象として音声を認識する技術を特定話者音声認識と呼んでいる。
音声認識の方法の一つとしては、例えば、一つの単語を構成する音韻を音声単位として、各音韻ごとに音声パラメータによってモデル化した音声モデルを用いて音声を認識するというものがある。「北海道」という単語を例にとれば、「ｈ」、「ｏ」、「ｔｓ」、「ｋ」、「ａ」、「ｉ」、「ｄ」、「ｏ」、「ｕ」という９個の音韻を直列に接続したネットワークで「北海道」の音声モデルを作成する。その他、「青森」とか「秋田」という別の単語を認識する場合には、これに対応した音声モデルをそれぞれ用意する必要がある。不特定話者認識の場合には、この音声モデルが、多くの話者に共通する音声パラメータによってモデル化されている。
従来、このような音韻の音声モデルを用いて不特定話者音声認識を行う技術としては、隠れマルコフモデル（以下、単にＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）という。）が広く知られており、例えば、「音声・音情報のディジタル信号処理」（鹿野清宏、中村哲、伊勢史郎共著、（株）昭晃堂）に詳しく述べられている。
ＨＭＭによる不特定話者音声認識の方法を図７および図８を参照しながら簡単に説明する。図７は、所定区分に分類した音韻セットを示す図である。図８は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。
ＨＭＭによれば日本語の場合、まず、図７に示すように、母音、摩擦音、破擦音、破裂音、半母音および鼻音のいずれかの音韻を用いて、一つの単語を、音韻を直列に接続したネットワークで構成する。そして、これに対応する状態遷移を作成し、各状態について、次の状態に遷移する確率を表す遷移確率、および次の状態に遷移するときに音声パラメータを出力する確率を表す出力確率を規定することにより音声モデルを作成する。例えば、「北海道」という単語についての音声モデルは、図８（Ａ）に示すように、９個の音韻を発声順に直列に接続したネットワークでモデル化することができる。図８（Ｂ）には、各音韻のＨＭＭの状態遷移が示されている。
ここで、図８（Ｂ）中のａ（Ｉ，Ｊ）は、状態Ｉから状態Ｊへの遷移確率を示し、例えば図中のａ（１，１）は、状態１から状態１への遷移確率を示す。また、ｂ（Ｉ，ｘ）は、音声パラメータｘが得られたときの状態Ｉにおける出力確率を示し、図中のｂ（１，ｘ）は、音声パラメータｘが得られたときの状態１の出力確率を示す。
また、図８（Ｂ）中のｐ（Ｉ）は、状態Ｉの確率を示し、下式（１）により表される。
ｐ（Ｉ）＝ｍａｘ（ｐ（Ｉ）×ａ（Ｉ，Ｉ），ｐ（Ｉ−１）ｘａ（Ｉ−１，Ｉ））×ｂ（Ｉ，Ｘ） …（１）
なお、上式（１）中、「ｍａｘ」は、引数のなかで最大値を選択する関数である。
次に、このような音声モデルを複数用いて比較的長い単語列の音声を認識する場合を図９を参照しながら詳細に説明する。この例としては、住所等のように都道府県名や市町村名を結合した単語列の音声を認識する場合がある。図９は、音声モデルネットワーク５００の構成を示す図である。
音声モデルネットワークは、図９に示すように、入力音声の無音部分を検出するポーズ５０２と、各都道府県名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ５０４と、都道府県の下の階層である各市名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ５０６と、市の下の階層である区名または町名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ５０８と、区または町の下の階層である各地区名を認識可能な複数の音声モデルをグループ化した音声モデルグループ５１０と、入力音声の無音部分を検出するポーズ５１２とで構成されている。
音声モデルグループ５０４は、各都道府県に対応しその都道府県名の音声を認識可能な音声モデルをグループ化したものであり、ポーズ５０２に結合している。
音声モデルグループ５０６は、各市に対応しその市名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ５０４に属する各音声モデルと結合している。図９の例では、音声モデルグループ５０４に属する音声モデルのうち神奈川県の音声を認識可能なものに、神奈川県に属する各市名の音声を認識可能な音声モデルをグループ化した音声モデルグループ５０６が結合されている。
音声モデルグループ５０８は、各区または各町に対応しその区名または町名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ５０６に属する各音声モデルと結合している。図９の例では、音声モデルグループ５０６に属する音声モデルのうち藤沢市の音声を認識可能なものに、藤沢市に属する各町名の音声を認識可能な音声モデルをグループ化した音声モデルグループ５０８が結合されている。
音声モデルグループ５１０は、各地区に対応しその地区名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ５０８に属する各音声モデルと結合している。図９の例では、音声モデルグループ５０８に属する音声モデルのうち北区の音声を認識可能なものに、北区に属する各地区名の音声を認識可能な音声モデルをグループ化した音声モデルグループ５１０が結合されている。
ポーズ５１２は、音声モデルグループ５０８または音声モデルグループ５１０に結合している。
また、これらの結合関係においては、音声パラメータを与えるに伴って、ポーズ５０２、音声モデルグループ５０４、音声モデルグループ５０６、音声モデルグループ５０８、音声モデルグループ５１０およびポーズ５１２の順で、またはポーズ５０２、音声モデルグループ５０４、音声モデルグループ５０６、音声モデルグループ５０８およびポーズ５１２の順で生起確率の変動が伝搬するようになっている。
このように、不特定話者音声認識を行うにあたっては、複数の音声モデルをあらかじめ用意しておき、それら音声モデルをＲＡＭ等のメモリに配置して音声認識を行うようになっている。
しかしながら、この方法では、結合単語数が増加してくると、単語数が組み合わせ爆発的に増大し、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が増大し、カーナナビゲーションのような組込型システムでは、システムを構成するメモリ容量が増大してしまう。例えば、地名認識を行う場合、都道府県名に続けて市町村名まで連続する単語列の音声を認識可能な音声モデルネットワークでは、認識すべき単語数は３５００個程度となるが、都道府県、市町村名に続いてさらに区名、群名等まで連続する単語列を認識可能な音声モデルネットワークでは、認識すべき単語数は１０万語を超えてしまう。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、不特定話者音声認識を行うにあたって必要なメモリ容量を低減するのに好適な音声認識装置を提供することを目的としている。
発明の開示
上記目的を達成するために、本発明に係る請求の範囲第１項記載の音声認識装置は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う装置であって、前記音声モデルを展開するための音声モデル展開用記憶手段を備え、前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、音声認識を行う際は、前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、音声認識を行う際は、非特定音声認識用音声モデルおよび親音声モデルグループに属する音声モデルが音声モデル展開用記憶手段に展開され、入力音声から抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って親音声モデルグループに属する音声モデルから出力される生起確率および非特定音声認識用音声モデルから出力される生起確率に基づいて、子音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
ここで、親音声モデルグループおよび子音声モデルグループは、どのような結合関係を有していてもよく、例えば、親音声モデルグループの後方に子音声モデルグループが結合している場合、または子音声モデルグループの後方に親音声モデルグループが結合している場合が想定される。ここで、後方とは、生起確率の変動が伝搬する方向に対して後方であることを意味する。このことは、親音声モデルグループおよび非特定音声認識用音声モデルの結合関係、または子音声モデルグループおよび非特定音声認識用音声モデルの結合関係についても同じである。以下、請求の範囲第１２項記載の音声認識プログラム、および請求の範囲第１４項記載の音声認識方法において同じである。
また、音声モデルは、所定の音声単位でモデル化したものであって、所定の音声単位としては、音韻であってもよいし、複数の音韻の系列であってもよい。以下、請求の範囲第２項記載の音声認識装置、請求の範囲第１２および第１３項記載の音声認識プログラム、並びに請求の範囲第１４および第１５項記載の音声認識方法において同じである。
また、音声モデル展開用記憶手段は、音声モデルをあらゆる手段でかつあらゆる時期に記憶するものであり、音声モデルをあらかじめ記憶してあるものであってもよいし、音声モデルをあらかじめ記憶することなく、本装置の動作時に外部からの入力等によって音声モデルを記憶するようになっていてもよい。以下、請求の範囲第２項記載の音声認識装置、請求の範囲第１２および第１３項記載の音声認識プログラム、並びに請求の範囲第１４および第１５項記載の音声認識方法において同じである。
さらに、本発明に係る請求の範囲第２項記載の音声認識装置は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う装置であって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した第１音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第１音声モデルグループに属するいずれかの音声モデルと結合関係を有する第２音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第１音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第３音声モデルグループと、前記第１音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、前記音声モデルを展開するための音声モデル展開用記憶手段と、前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段と、前記第１音声モデルグループ、前記第２音声モデルグループおよび前記第３音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段とを備え、前記音声認識手段は、前記第１音声モデルグループに属する音声モデルおよび前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第１音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、話者から音声が入力されると、音声パラメータ抽出手段により、音声パラメータが入力音声から抽出される。そして、音声認識手段により、第１音声モデルグループに属する音声モデルおよび非特定音声認識用音声モデルが音声モデル展開用記憶手段に展開され、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って第１音声モデルグループに属する音声モデルから出力される生起確率および非特定音声認識用音声モデルから出力される生起確率に基づいて、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
ここで、第１音声モデルグループ、第２音声モデルグループおよび第３音声モデルグループは、どのような結合関係を有していてもよく、例えば、第１音声モデルグループの後方に第２音声モデルグループおよび第３音声モデルグループが結合している場合、または第２音声モデルグループおよび第３音声モデルグループの後方に第１音声モデルグループが結合している場合が想定される。ここで、後方とは、生起確率の変動が伝搬する方向に対して後方であることを意味する。このことは、第１音声モデルグループおよび非特定音声認識用音声モデルの結合関係、または第２音声モデルグループおよび第３音声モデルグループ並びに非特定音声認識用音声モデルの結合関係についても同じである。
さらに、本発明に係る請求の範囲第３項記載の音声認識装置は、請求の範囲第２項記載の音声認識装置において、前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が所定値以上となったときは、前記第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、音声認識手段により、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えらえる。これに伴って非特定音声認識用音声モデルから出力される生起確率が所定値以上となると、第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
さらに、本発明に係る請求の範囲第４項記載の音声認識装置は、請求の範囲第２および第３項のいずれかに記載の音声認識装置において、前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第１音声モデルグループに属する音声モデルおよび前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段から削除し、前記第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、音声認識手段により、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えらえる。これに伴って非特定音声認識用音声モデルから出力される生起確率が所定値以上となると、第１音声モデルグループに属する音声モデルおよび非特定音声認識用音声モデルが音声モデル展開用記憶手段から削除され、第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
さらに、本発明に係る請求の範囲第５項記載の音声認識装置は、請求の範囲第３および第４項のいずれかに記載の音声認識装置において、前記非特定音声認識用音声モデルは、前記第１音声モデルグループに属する音声モデルと結合しており、前記音声パラメータを与えるに伴って、前記第１音声モデルグループの音声モデルおよび前記非特定音声認識用音声モデルの順で前記生起確率の変動が伝搬するようになっている。
このような構成であれば、音声認識手段により、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えらえる。これに伴って、第１音声モデルグループの音声モデルおよび非特定音声認識用音声モデルの順で生起確率の変動が伝搬する。
さらに、本発明に係る請求の範囲第６項記載の音声認識装置は、請求の範囲第５項記載の音声認識装置において、さらに、前記音声パラメータを記憶するための音声パラメータ記憶手段を備え、前記音声パラメータ抽出手段は、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータを前記音声パラメータ記憶手段に所定順序で格納するようになっており、前記音声認識手段は、前記音声パラメータ記憶手段から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所定順序と逆の順序で所定数戻し、その読出位置から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与えるようになっている。
このような構成であれば、話者から音声が入力されると、音声パラメータ抽出手段により、音声パラメータが入力音声から抽出され、抽出された音声パラメータが音声パラメータ記憶手段に所定順序で格納される。そして、音声認識手段により、音声パラメータ記憶手段から所定順序で音声パラメータが読み出され、読み出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って非特定音声認識用音声モデルから出力される生起確率が所定値以上となると、第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。そして、音声パラメータ記憶手段における音声パラメータの読出位置が所定順序と逆の順序で所定数戻され、その読出位置から所定順序で音声パラメータが読み出され、読み出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。
ここで、音声パラメータ記憶手段は、音声パラメータをあらゆる手段でかつあらゆる時期に記憶するものであり、音声パラメータをあらかじめ記憶してあるものであってもよいし、音声パラメータをあらかじめ記憶することなく、本装置の動作時に外部からの入力等によって音声パラメータを記憶するようになっていてもよい。
さらに、本発明に係る請求の範囲第７項記載の音声認識装置は、請求の範囲第６項記載の音声認識装置において、前記音声認識手段は、前記第１音声モデルグループのなかから前記生起確率が最も高い音声モデルを認識音声モデルとして特定し、前記第２音声モデルグループおよび前記第３音声モデルグループのうち前記認識音声モデルと結合関係を有するものに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記認識音声モデルから前記非特定音声認識用音声モデルに前記生起確率の変動が伝搬するまでの所要時間を算出し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所要時間に相当する数だけ戻すようになっている。
このような構成であれば、音声認識手段により、第１音声モデルグループのなかから生起確率が最も高い音声モデルが認識音声モデルとして特定され、第２音声モデルグループおよび第３音声モデルグループのうち認識音声モデルと結合関係を有するものに属する音声モデルが音声モデル展開用記憶手段に展開される。そして、認識音声モデルから非特定音声認識用音声モデルに生起確率の変動が伝搬するまでの所要時間が算出され、音声パラメータ記憶手段における音声パラメータの読出位置が所要時間に相当する数だけ戻される。
さらに、本発明に係る請求の範囲第８項記載の音声認識装置は、請求の範囲第７項記載の音声認識装置において、前記音声認識手段は、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を、前記認識音声モデルを特定した時点における前記読出位置から前記所要時間に相当する数だけ戻すようになっている。
このような構成であれば、音声認識手段により、音声パラメータ記憶手段における音声パラメータの読出位置が、認識音声モデルを特定した時点における読出位置から、算出された所要時間に相当する数だけ戻される。
さらに、本発明に係る請求の範囲第９項記載の音声認識装置は、請求の範囲第２ないし第８項のいずれかに記載の音声認識装置において、前記第２音声モデルグループおよび前記第３音声モデルグループに属する音声モデルに代えて、それら音声モデルが認識可能な特定音声の発音を表記した発音表記文字列を前記音声モデル展開用記憶手段に記憶するとともに、前記発音表記文字列に基づいて前記音声モデルを構成可能な音声モデルテンプレートを、前記第２音声モデルグループに属する音声モデルの数および前記第３音声モデルグループに属する音声モデルの数のうち多い方に相当する数だけ前記音声モデル展開用記憶手段に記憶しておき、前記音声認識手段は、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する場合は、前記音声モデル展開用記憶手段の発音表記文字列のうち前記音声モデル展開用記憶手段に展開すべき音声モデルに対応するものに基づいて、前記音声モデル展開用記憶手段の音声モデルテンプレートから前記音声モデルを構成するようになっている。
このような構成であれば、音声認識手段により、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルを音声モデル展開用記憶手段に展開する場合は、音声モデル展開用記憶手段の発音表記文字列のうち音声モデル展開用記憶手段に展開すべき音声モデルに対応するものに基づいて、音声モデル展開用記憶手段の音声モデルテンプレートから音声モデルが構成される。
さらに、本発明に係る請求の範囲第１０項記載の音声認識装置は、請求の範囲第２ないし第９項のいずれかに記載の音声認識装置において、前記音声認識手段は、前記第１音声モデルグループのなかから前記生起確率が最も高い音声モデルを第１認識音声モデルとして特定し、前記第２音声モデルグループおよび前記第３音声モデルグループのうち前記音声モデル展開用記憶手段に展開したもののなかから前記生起確率が最も高い音声モデルを第２認識音声モデルとして特定し、前記第１認識音声モデルの特定音声および前記第２認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定するようになっている。
このような構成であれば、音声認識手段により、第１音声モデルグループのなかから生起確率が最も高い音声モデルが第１認識音声モデルとして特定され、第２音声モデルグループおよび第３音声モデルグループのうち音声モデル展開用記憶手段に展開したもののなかから生起確率が最も高い音声モデルが第２認識音声モデルとして特定される。そして、第１認識音声モデルの特定音声および第２認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定される。
さらに、本発明に係る請求の範囲第１１項記載の音声認識装置は、請求の範囲第２ないし第１０項のいずれかに記載の音声認識装置において、前記非特定音声認識用音声モデルは、ガーベージモデルである。
このような構成であれば、話者から音声が入力されると、音声パラメータ抽出手段により、音声パラメータが入力音声から抽出される。そして、音声認識手段により、第１音声モデルグループに属する音声モデルおよびガーベージモデルが音声モデル展開用記憶手段に展開され、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って第１音声モデルグループに属する音声モデルから出力される生起確率およびガーベージモデルから出力される生起確率に基づいて、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
一方、上記目的を達成するために、本発明に係る請求の範囲第１２項記載の音声認識プログラムは、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行うプログラムであって、前記音声モデルを展開するための音声モデル展開用記憶手段を備えたコンピュータに対して、前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、音声認識を行う際は、前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する処理を実行させるためのプログラムである。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求の範囲第１項記載の音声認識装置と同等の作用が得られる。
さらに、本発明に係る請求の範囲第１３項記載の音声認識プログラムは、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行うプログラムであって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した第１音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第１音声モデルグループに属するいずれかの音声モデルと結合関係を有する第２音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第１音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第３音声モデルグループと、前記第１音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、前記音声モデルを展開するための音声モデル展開用記憶手段とを利用可能なコンピュータに対して、前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段、並びに、前記第１音声モデルグループ、前記第２音声モデルグループおよび前記第３音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段として実現される処理を実行させるためのプログラムであり、前記音声認識手段は、前記第１音声モデルグループに属する音声モデルおよび前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第１音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求の範囲第２項記載の音声認識装置と同等の作用が得られる。
一方、上記目的を達成するために、本発明に係る請求の範囲第１４項記載の音声認識方法は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う方法であって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、音声認識を行う際は、前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記親音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する。
さらに、本発明に係る請求の範囲第１５項記載の音声認識方法は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う方法であって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した第１音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第１音声モデルグループに属するいずれかの音声モデルと結合関係を有する第２音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第１音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第３音声モデルグループとを構成し、前記音声パラメータを入力音声から抽出する音声パラメータ抽出ステップと、前記第１音声モデルグループ、前記第２音声モデルグループおよび前記第３音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出ステップで抽出した音声パラメータに基づいて音声認識を行う音声認識ステップとを含み、前記音声認識ステップは、前記第１音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記第１音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出ステップで抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第１音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループおよび前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する。
発明を実施するための最良の形態
以下、本発明の第１の実施の形態を図面を参照しながら説明する。図１ないし図６は、本発明に係る音声認識装置の第１の実施の形態を示す図である。
本実施の形態は、本発明に係る音声認識装置を、図１に示すように、複数の音声モデルを結合した音声モデルネットワークを利用して住所等の比較的長い単語列の音声を認識する場合について適用したものである。
まず、音声認識装置１００の構成を図１を参照しながら説明する。図１は、音声認識装置１００の構成を示すブロック図である。
音声認識装置１００は、ＣＰＵ、ＲＯＭ、ＲＡＭおよびＩ／Ｆ等をバス接続した一般的なコンピュータと同一機能を有して構成されており、図１に示すように、マイク１０２と、マイク１０２からの入力音声をＡ／Ｄ変換するＡ／Ｄ変換器１０４と、Ａ／Ｄ変換器１０４で変換した音声データから音声パラメータを抽出する音声パラメータ抽出部１０６と、音声パラメータ抽出部１０６で抽出した音声パラメータを記憶するリングバッファ１０８と、音声モデルを記憶する音声モデル記憶部１１０と、音声モデル記憶部１１０の音声モデルを展開するためのＲＡＭ１１２と、照合処理部１１４と、音声パラメータ抽出部１０６および照合処理部１１４のプログラム等を記憶したＲＯＭ１１６と、照合処理部１１４の認識結果を出力する出力部１１８とで構成されている。
リングバッファ１０８は、音声パラメータを記憶するための所定の記憶領域を有する。リングバッファ１０８への書込では、音声パラメータ抽出部１０６で抽出した音声パラメータを書込ポインタが指し示すアドレスに書き込み、書込ポインタを１加算する。ただし、書込ポインタが記憶領域の末尾のアドレスに達したときは、書込ポインタを先頭のアドレスに設定する。これを繰り返すことにより、音声パラメータは、音声パラメータ抽出部１０６から抽出された順番でリングバッファ１０８に循環的に書き込まれていく。なお、書込ポインタは、音声パラメータ抽出部１０６により制御される。
また、リングバッファ１０８からの読出では、読出ポインタが指し示すアドレスから音声パラメータを読み出し、読出ポインタを１加算する。ただし、読出ポインタが記憶領域の末尾のアドレスに達したときは、読出ポインタを先頭のアドレスに設定する。これを繰り返すことにより、音声パラメータは、リングバッファ１０８に書き込まれた順番でリングバッファ１０８から循環的に読み出されていく。なお、読出ポインタは、照合処理部１１４により制御され、書込ポインタを追い越さないように調整される。
音声モデル記憶部１１０には、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに生起確率が高くなるようにモデル化された音声モデルが記憶されている。
ＨＭＭによる不特定話者音声認識の方法を図２を参照しながら簡単に説明する。図２は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。
ＨＭＭによれば日本語の場合、まず、母音、摩擦音、破擦音、破裂音、半母音および鼻音のいずれかの音韻を用いて、一つの単語を、音韻を直列に接続したネットワークで構成する。そして、これに対応する状態遷移を作成し、各状態について、次の状態に遷移する確率を表す遷移確率、および次の状態に遷移するときに音声パラメータを出力する確率を表す出力確率を規定することにより音声モデルを作成する。例えば、「北海道」という単語についての音声モデルは、図２（Ａ）に示すように、９個の音韻を発声順に直列に接続したネットワークでモデル化することができる。図２（Ｂ）には、各音韻のＨＭＭの状態遷移が示されている。
ここで、図２（Ｂ）中のａ（Ｉ，Ｊ）は、状態Ｉから状態Ｊへの遷移確率を示し、例えば図中のａ（１，１）は、状態１から状態１への遷移確率を示す。また、ｂ（Ｉ，ｘ）は、音声パラメータｘが得られたときの状態Ｉにおける出力確率を示し、図中のｂ（１，ｘ）は、音声パラメータｘが得られたときの状態１の出力確率を示す。
また、図２（Ｂ）中のｐ（Ｉ）は、状態Ｉの確率を示し、上式（１）により表される。
このような音声モデルを複数用いて、住所等のように都道府県名や市町村名を結合した単語列の音声を認識する場合は、複数の音声モデルを結合した音声モデルネットワークを構築する。
本実施の形態において、音声モデルネットワークは、ＲＡＭ１１２に展開する単位ごとに構成されており、第１音声モデルネットワーク３００と、第２音声モデルネットワーク４００とからなっている。第２音声モデルネットワーク４００は、第１音声モデルネットワーク３００の後方に論理的に結合するものである。ここで、後方とは、生起確率の変動が伝搬する方向に対して後方であることを意味する。
第１音声モデルネットワーク３００の構成を図３を参照しながら詳細に説明する。図３は、第１音声モデルネットワーク３００の構成を示す図である。
第１音声モデルネットワーク３００は、図３に示すように、入力音声の無音部分を検出するポーズ３０２と、各都道府県名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ３０４と、都道府県の下の階層である各市名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ３０６と、市の下の階層である区名または町名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ３０８とで構成されている。
音声モデルグループ３０４は、各都道府県に対応しその都道府県名の音声を認識可能な音声モデルをグループ化したものであり、ポーズ３０２に結合している。
音声モデルグループ３０６は、各市に対応しその市名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ３０４に属する各音声モデルと結合している。図３の例では、音声モデルグループ３０４に属する音声モデルのうち神奈川県の音声を認識可能なものに、神奈川県に属する各市名の音声を認識可能な音声モデルをグループ化した音声モデルグループ３０６が結合されている。
音声モデルグループ３０８は、各区または各町に対応しその区名または町名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ３０６に属する各音声モデルと結合している。図３の例では、音声モデルグループ３０６に属する音声モデルのうち藤沢市の音声を認識可能なものに、藤沢市に属する各町名の音声を認識可能な音声モデルをグループ化した音声モデルグループ３０８が結合されている。
また、第１音声モデルネットワーク３００の後方には、ガーベージモデル３５０が結合している。ガーベージモデル３５０は、音声モデルグループ３０４、音声モデルグループ３０６および音声モデルグループ３０８に属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに生起確率が高くなるようにモデル化されたものであり、音声モデルグループ３０６または音声モデルグループ３０８に結合している。ガーベージモデル３５０は、未知冗長語に対するフィラーモデルであり、音声モデルネットワークのなかで、任意の経路上にある音声モデルの列（以下、ラベル系列という。）にない単語を発話した場合、その生起確立（尤度）が高くなる性質を持ったモデルである。例えば、図４に示される例は、県名のみを認識する音声モデルグループであり、県名の前に「あのー」とか「そのー」といった冗長語を伴った発話に対して県名の認識率を向上させるものである。ガーベージモデル３５０に関する記述に関しては、従来文献「Ｈ．Ｂｏｕｌａｒｄ，Ｂ．Ｄ’ ｈｏｏｒｅａｎｄＪ．−Ｍ．Ｂｏｌｉｔｅ，″ＯｐｔｉｍｉｚｉｎｇｒｅｃｏｇｎｉｔｉｏｎａｎｄＲｅｊｅｃｔｉｏｎＰｅｒｆｏｒｍａｎｃｅｉｎＷｏｒｄｓｐｏｔｔｉｎｇＳｙｓｔｅｍｓ″，″Ｐｏｒｃ．ＩＣＡＳＳＰ，Ａｄｅｌａｉｄｅ，Ａｕｓｔｒｉａ，ｐｐ．Ｉ−３７３−３７６，１９９４」を参照されたい。
また、これらの結合関係においては、音声パラメータを与えるに伴って、ポーズ３０２、音声モデルグループ３０４、音声モデルグループ３０６、音声モデルグループ３０８およびガーベージモデル３５０の順で、またはポーズ３０２、音声モデルグループ３０４、音声モデルグループ３０６およびガーベージモデル３５０の順で生起確率の変動が伝搬するようになっている。
次に、第２音声モデルネットワーク４００の構成を図５を参照しながら詳細に説明する。図５は、第２音声モデルネットワーク４００の構成を示す図である。
第２音声モデルネットワーク４００は、図５に示すように、区または町の下の階層である各地区名を認識可能な複数の音声モデルをグループ化した音声モデルグループ４０２と、入力音声の無音部分を検出するポーズ４０４とで構成されている。
音声モデルグループ４０２は、各地区に対応しその地区名の音声を認識可能な音声モデルをグループ化したものであり、ガーベージモデル３５０と結合している。図５の例では、北区に属する各地区名の音声を認識可能な音声モデルをグループ化した音声モデルグループ４０２がガーベージモデル３５０に結合されている。
ポーズ４０４は、音声モデルグループ４０２に結合している。
次に、照合処理部１１４の構成を説明する。
照合処理部１１４は、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０を音声モデル記憶部１１０から読み出し、読み出した音声モデルおよびガーベージモデル３５０をＲＡＭ１１２に展開する。
次いで、リングバッファ１０８において読出ポインタが示すアドレスから音声パラメータを読み出し、読出ポインタを１加算する。ただし、読出ポインタが記憶領域の末尾のアドレスに達したときは、読出ポインタを先頭のアドレスに設定する。
次いで、読み出した音声パラメータをＲＡＭ１１２の音声モデルに与える。これに伴ってガーベージモデル３５０から出力される生起確率が所定値以上となったときは、第１音声モデルネットワーク３００のなかから、生起確率の積算値が最も高いラベル系列を第１認識音声モデルとして特定する。
次いで、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０をＲＡＭ１１２から削除し、音声モデルグループ４０２のうち第１認識音声モデルの末尾に結合すべきものに属する音声モデルおよびポーズ４０４を音声モデル記憶部１１０から読み出し、読み出した音声モデルおよびポーズ４０４をＲＡＭ１１２に展開する。
次いで、第１認識音声モデルからガーベージモデル３５０に生起確率の変動が伝搬するまでの所要時間を算出し、リングバッファ１０８における音声パラメータの読出ポインタを、算出した所要時間に相当する数だけ戻す。ただし、読出ポインタが記憶領域の先頭のアドレスに達したときは、読出ポインタを末尾のアドレスに設定する。
そして、リングバッファ１０８において読出ポインタが示すアドレスから音声パラメータを読み出し、読み出した音声パラメータをＲＡＭ１１２の音声モデルに与える。これに伴って音声モデルグループ４０２のなかから、生起確率の積算値が最も高い音声モデルを第２認識音声モデルとして特定し、第１認識音声モデルの特定音声および第２認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定する。
次に、本実施の形態の動作を図６を参照しながら説明する。図６は、音声モデルネットワークの切換タイミングを示すタイムチャートである。
ここでは、カーナビゲーション等で用いられる住所等の比較的長い単語列の音声を認識する場合を例にとって説明する。
音声認識を行うにあたっては、照合処理部１１４により、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０が音声モデル記憶部１１０から読み出され、読み出された音声モデルおよびガーベージモデル３５０がＲＡＭ１１２に展開される。
この状態で、話者からの音声がマイク１０２から入力されると、Ａ／Ｄ変換器１０４により、マイク１０２からの入力音声がＡ／Ｄ変換され、音声パラメータ抽出部１０６により、Ａ／Ｄ変換器１０４で変換された音声データから音声パラメータが抽出され、抽出された音声パラメータがリングバッファ１０８において書込ポインタが指し示すアドレスに書き込まれる。これにより、音声パラメータは、音声パラメータ抽出部１０６から抽出された順番でリングバッファ１０８に循環的に書き込まれていく。
次いで、照合処理部１１４により、リングバッファ１０８において読出ポインタが示すアドレスから音声パラメータが読み出され、読出ポインタが１加算される。このとき、読出ポインタが記憶領域の末尾のアドレスに達すると、読出ポインタが先頭のアドレスに設定される。
次いで、読み出された音声パラメータがＲＡＭ１１２の音声モデルに与えられる。これに伴ってガーベージモデル３５０から出力される生起確率が所定値以上となると、第１音声モデルネットワーク３００のなかから、生起確率の積算値が最も高いラベル系列が第１認識音声モデルとして特定される。図６の例では、「神奈川県藤沢市弥勒寺」という音声が話者から入力されると、音声モデルグループ３０４のなかでは、「神奈川県」という特定音声を認識可能な音声モデルが、音声モデルグループ３０６のなかでは、「藤沢市」という特定音声を認識可能な音声モデルが第１認識音声モデルとして特定される。
次いで、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０がＲＡＭ１１２から削除され、音声モデルグループ４０２のうち第１認識音声モデルの末尾に結合すべきものに属する音声モデルおよびポーズ４０４が音声モデル記憶部１１０から読み出され、読み出された音声モデルおよびポーズ４０４がＲＡＭ１１２に展開される。図６の例では、第１認識音声モデルの末尾には、藤沢市の下の階層である各地区名を認識可能な複数の音声モデルをグループ化した音声モデルグループ４０２が結合されているので、そのような音声モデルグループ４０２が読み出される。
次いで、第１認識音声モデルからガーベージモデル３５０に生起確率の変動が伝搬するまでの所要時間が算出され、リングバッファ１０８における音声パラメータの読出ポインタが、算出された所要時間に相当する数だけ戻される。このとき、読出ポインタが記憶領域の先頭のアドレスに達すると、読出ポインタが末尾のアドレスに設定される。読出ポインタを戻すのは、ガーベージモデル３５０の生起確率が所定値となるまでの遅延時間の影響を低減するためである。図６の例では、さかのぼりフレーム数として読出ポインタを１減少させている。
そして、リングバッファ１０８において読出ポインタが示すアドレスから音声パラメータが読み出され、読み出された音声パラメータがＲＡＭ１１２の音声モデルに与えられる。これに伴って音声モデルグループ４０２のなかから、生起確率の積算値が最も高い音声モデルが第２認識音声モデルとして特定される。図６の例では、「神奈川県藤沢市弥勒寺」という音声が話者から入力されると、音声モデルグループ４０２のなかでは、「弥勒寺」という特定音声を認識可能な音声モデルが第２認識音声モデルとして特定される。第１認識音声モデルおよび第２認識音声モデルが特定されると、第１認識音声モデルの特定音声および第２認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定される。すなわち、「神奈川県藤沢市弥勒寺」という音声が入力音声に含まれていると判定される。
［実施例］
次に、本発明の実施例を説明する。
第１音声モデルネットワーク３００には、約３５００単語の音声を認識可能な音声モデルが含まれ、第２音声モデルネットワーク４００には、最大で約１０００単語の音声を認識可能な音声モデルをグループ化した音声モデルグループ４０２が含まれているものとする。
従来のように、第１音声モデルネットワーク３００および第２音声モデルネットワーク４００に属するすべての音声モデルをＲＡＭ１１２に展開して音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約２０〔ＭＢｙｔｅ〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約１〔ＭＢｙｔｅ〕となり、合計２１〔ＭＢｙｔｅ〕のメモリ容量を消費することとなる。
これに対し、本発明のように、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０をＲＡＭ１１２に展開して前段の音声認識を行い、それを削除した後に、第２音声モデルネットワーク４００に属する音声モデルをＲＡＭ１１２に展開して後段の音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約１．４〔ＭＢｙｔｅ〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約０．５〔ＭＢｙｔｅ〕となり、合計１．９〔ＭＢｙｔｅ〕のメモリ容量を消費することとなる。したがって、従来に比して、必要なメモリ容量を９１％低減することができた。
このようにして、本実施の形態では、照合処理部１１４は、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０をＲＡＭ１１２に展開し、音声パラメータ抽出部１０６で抽出した音声パラメータをＲＡＭ１１２の音声モデルに与え、これに伴って第１音声モデルネットワーク３００に属する音声モデルから出力される生起確率およびガーベージモデル３５０から出力される生起確率に基づいて、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開するようになっている。
これにより、結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合であっても、ＲＡＭ１１２には、音声モデルグループ４０２のすべてについてその音声モデルを展開することなく、音声モデルグループ４０２のうちいずれかについてその音声モデルを展開するだけですむので、従来に比して、音声認識を行うにあたって必要なメモリ容量を低減することができる。
さらに、本実施の形態では、照合処理部１１４は、音声パラメータ抽出部１０６で抽出した音声パラメータをＲＡＭ１１２の音声モデルに与え、これに伴ってガーベージモデル３５０から出力される生起確率が所定値以上となったときは、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０をＲＡＭ１１２から削除し、第１音声モデルネットワーク３００に属する音声モデルから出力される生起確率に基づいて、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開するようになっている。
これにより、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開するに伴って、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０がＲＡＭ１１２から削除されるので、音声認識を行うにあたって必要なメモリ容量をさらに低減することができる。
さらに、本実施の形態では、ガーベージモデル３５０は、第１音声モデルネットワーク３００に属する音声モデルと結合しており、音声パラメータを与えるに伴って、第１音声モデルネットワーク３００の音声モデルおよびガーベージモデル３５０の順で生起確率の変動が伝搬するようになっている。
これにより、第１音声モデルネットワーク３００を上位階層として階層的な結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合に、必要なメモリ容量を低減することができる。例えば、本実施の形態のように、カーナビゲーション等で用いられる住所等の比較的長い単語列の音声を認識する場合に有利である。
さらに、本実施の形態では、音声パラメータ抽出部１０６は、音声パラメータを入力音声から抽出し、抽出した音声パラメータをリングバッファ１０８に所定順序で格納するようになっており、照合処理部１１４は、リングバッファ１０８から所定順序で音声パラメータを読み出し、読み出した音声パラメータをＲＡＭ１１２の音声モデルに与え、これに伴ってガーベージモデル３５０から出力される生起確率が所定値以上となったときは、第１音声モデルネットワーク３００に属する音声モデルから出力される生起確率に基づいて、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開し、リングバッファ１０８における音声パラメータの読出ポインタを所定順序と逆の順序で所定数戻し、その読出ポインタから所定順序で音声パラメータを読み出し、読み出した音声パラメータをＲＡＭ１１２の音声モデルに与えるようになっている。
これにより、ガーベージモデル３５０の生起確率が所定値となるまである程度の遅延時間を要するので、リングバッファ１０８における音声パラメータの読出ポインタを戻すことにより、音声モデルグループ４０２のうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響を低減し、比較的正確な音声認識を行うことができる。
さらに、本実施の形態では、照合処理部１１４は、第１音声モデルネットワーク３００のなかから生起確率が最も高いラベル系列を第１認識音声モデルとして特定し、音声モデルグループ４０２のうち第１認識音声モデルと結合関係を有するものに属する音声モデルをＲＡＭ１１２に展開し、第１認識音声モデルからガーベージモデル３５０に生起確率の変動が伝搬するまでの所要時間を算出し、リングバッファ１０８における音声パラメータの読出ポインタを所要時間に相当する数だけ戻すようになっている。
これにより、第１認識音声モデルからガーベージモデル３５０に生起確率の変動が伝搬するまでの時間に相当する数だけ音声パラメータの読出ポインタが戻されるので、音声モデルグループ４０２のうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができる。
さらに、本実施の形態では、照合処理部１１４は、リングバッファ１０８における音声パラメータの読出ポインタを、第１認識音声モデルを特定した時点における読出ポインタから所要時間に相当する数だけ戻すようになっている。
これにより、音声パラメータの読出ポインタが、第１認識音声モデルを特定した時点における読出ポインタを基準として、第１認識音声モデルからガーベージモデル３５０に生起確率の変動が伝搬するまでの時間に相当する数だけ戻されるので、音声モデルグループ４０２のうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができる。
上記第１の実施の形態において、音声パラメータ抽出部１０６は、請求の範囲第２ないし第４、第６または第１３項記載の音声パラメータ抽出手段に対応し、音声パラメータ抽出部１０６による抽出は、請求の範囲第１５項記載の音声パラメータ抽出ステップに対応し、リングバッファ１０８は、請求の範囲第６ないし第８項記載の音声パラメータ記憶手段に対応している。また、ＲＡＭ１１２は、請求の範囲第１ないし第４、第６、第７、第１０、第１２ないし第１５項記載の音声モデル展開用記憶手段に対応し、照合処理部１１４は、請求の範囲第２ないし第４、第６ないし第８、第１０または第１３項記載の音声認識手段に対応している。
また、上記第１の実施の形態において、第１音声モデルネットワーク３００および第２音声モデルネットワーク４００は、請求の範囲第１、第１２または第１４項記載の音声モデルネットワークに対応し、音声モデルグループ３０６または音声モデルグループ３０８は、請求の範囲第１、第１２若しくは第１４項記載の親音声モデルグループ、または請求の範囲第２ないし第７、第１０、第１３若しくは第１５項記載の第１音声モデルグループに対応している。また、ガーベージモデル３５０は、請求の範囲第１ないし第７、第１１ないし第１５項記載の非特定音声認識用音声モデルに対応し、音声モデルグループ４０２は、請求の範囲第１、第１２若しくは第１４項記載の子音声モデルグループ、請求の範囲第２ないし第４、第６、第７、第１０、第１３若しくは第１５項記載の第２音声モデルグループ、または請求の範囲第２ないし第４、第６、第７、第１０、第１３若しくは第１５項記載の第３音声モデルグループに対応している。
次に、本発明の第２の実施の形態を説明する。
本実施の形態は、本発明に係る音声認識装置を、図１に示すように、複数の音声モデルを結合した音声モデルネットワークを利用して住所等の比較的長い単語列の音声を認識する場合について適用したものであり、上記第１の実施の形態と異なるのは、音声モデルテンプレートから音声モデルを構成する点にある。
音声モデル記憶部１１０には、音声モデルグループ４０２に属する音声モデルに代えて、それら音声モデルが認識可能な特定音声の発音を表記した仮名文字列を記憶されているとともに、仮名文字列に基づいて音声モデルを構成可能な音声モデルテンプレートを、音声モデルグループ４０２に属する音声モデルの数だけ記憶されている。
照合処理部１１４は、第１音声モデルネットワーク３００に属する音声モデル、ガーベージモデル３５０、仮名文字列および音声モデルテンプレートを音声モデル記憶部１１０から読み出し、読み出した音声モデル、ガーベージモデル３５０、仮名文字列および音声モデルテンプレートをＲＡＭ１１２に展開する。
次いで、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開する場合は、ＲＡＭ１１２の仮名文字列のうちＲＡＭ１１２に展開すべき音声モデルに対応するものに基づいて、ＲＡＭ１１２の音声モデルテンプレートから音声モデルを構成する。
ＨＭＭを用いた音声認識を行う場合、最終的には、認識させたい単語、例えば「ほっかいどう」をＨＭＭ系列に変換することが必要となる。この場合、まず、「ほっかいどう」を、音韻系列「ｈ，ｑ，ｔｓ，ｋ，ａ，ｉ，ｄ，ｏ，ｕ」に変換する。その後、さらに、音韻系列「ｈ，ｑ，ｔｓ，ｋ，ａ，ｉ，ｄ，ｏ，ｕ」をさらに詳細な音韻系列に分割することもあるが、最終的には、各音韻系列に対応したＨＭＭ系列を作成する。
図２の例では、それぞれの音韻系列に対して、ＨＭＭの状態が３つ割り当てられている。すなわち、「ほっかいどう」という文字データが、９（音韻系列）×３（状態数）＝２７の状態となることを意味する。「ほっかいどう」は、半角仮名で表せば、６［Ｂｙｔｅ］のデータとなる。一方、ＨＭＭの各状態は、各２［Ｂｙｔｅ］で表されるとすれば、２７×２＝５４［Ｂｙｔｅ］となる。
また、音声モデルネットワークのデータとしては、音声モデルと音声モデルの連結情報（グラマーまたはルール）が記述されている。例えば、「ほっかいどう」という単語は、「北海道の市町村名」に連結されている情報である。さらに、単語が認識された場合に単語のＩＤとして認識結果を返す場合は、単語のＩＤ値等が含まれる場合もある。その他、音声認識では、これ以上のデータが音声モデルネットワークのデータとして含まれている。
したがって、音声モデルをＲＡＭ１１２にそのまま展開する場合と、仮名文字列および音声モデルテンプレートをＲＡＭ１１２に展開しておき、音声認識に必要な分だけ音声モデルを構成する場合とを比較すると、後者の方が必要なメモリ容量が少ない。
次に、本実施の形態の動作を説明する。
ここでは、カーナビゲーション等で用いられる住所等の比較的長い単語列の音声を認識する場合を例にとって説明する。
音声認識を行うにあたっては、照合処理部１１４により、第１音声モデルネットワーク３００に属する音声モデル、ガーベージモデル３５０、仮名文字列および音声モデルテンプレートが音声モデル記憶部１１０から読み出され、読み出された音声モデル、ガーベージモデル３５０、仮名文字列および音声モデルテンプレートがＲＡＭ１１２に展開される。
この状態で、話者からの音声がマイク１０２から入力されると、Ａ／Ｄ変換器１０４により、マイク１０２からの入力音声がＡ／Ｄ変換され、音声パラメータ抽出部１０６により、Ａ／Ｄ変換器１０４で変換された音声データから音声パラメータが抽出され、抽出された音声パラメータがリングバッファ１０８において書込ポインタが指し示すアドレスに書き込まれる。これにより、音声パラメータは、音声パラメータ抽出部１０６から抽出された順番でリングバッファ１０８に循環的に書き込まれていく。
次いで、照合処理部１１４により、リングバッファ１０８において読出ポインタが示すアドレスから音声パラメータが読み出され、読出ポインタが１加算される。このとき、読出ポインタが記憶領域の末尾のアドレスに達すると、読出ポインタが先頭のアドレスに設定される。
次いで、読み出された音声パラメータがＲＡＭ１１２の音声モデルに与えられる。これに伴ってガーベージモデル３５０から出力される生起確率が所定値以上となると、第１音声モデルネットワーク３００のなかから、生起確率の積算値が最も高いラベル系列が第１認識音声モデルとして特定される。
次いで、音声モデルグループ４０２のうち第１認識音声モデルの末尾に結合すべきものに属する音声モデルおよびポーズ４０４をＲＡＭ１１２に展開する必要があるが、この場合、ＲＡＭ１１２の仮名文字列のうちＲＡＭ１１２に展開すべき音声モデルに対応するものに基づいて、ＲＡＭ１１２の音声モデルテンプレートから音声モデルが構成される。
次いで、第１認識音声モデルからガーベージモデル３５０に生起確率の変動が伝搬するまでの所要時間が算出され、リングバッファ１０８における音声パラメータの読出ポインタが、算出された所要時間に相当する数だけ戻される。このとき、読出ポインタが記憶領域の先頭のアドレスに達すると、読出ポインタが末尾のアドレスに設定される。読出ポインタを戻すのは、ガーベージモデル３５０の生起確率が所定値となるまでの遅延時間の影響を低減するためである。
そして、リングバッファ１０８において読出ポインタが示すアドレスから音声パラメータが読み出され、読み出された音声パラメータがＲＡＭ１１２の音声モデルに与えられる。これに伴って音声モデルグループ４０２のなかから、生起確率の積算値が最も高い音声モデルが第２認識音声モデルとして特定される。
［実施例］
次に、本発明の実施例を説明する。なお、単語数等の条件は、上記実施例と同様とする。
従来のように、第１音声モデルネットワーク３００および第２音声モデルネットワーク４００に属するすべての音声モデルをＲＡＭ１１２に展開して音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約２０〔ＭＢｙｔｅ〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約１〔ＭＢｙｔｅ〕となり、合計２１〔ＭＢｙｔｅ〕のメモリ容量を消費することとなる。
これに対し、本発明のように、第１音声モデルネットワーク３００に属する音声モデルおよびガーベージモデル３５０をＲＡＭ１１２に展開して前段の音声認識を行い、仮名文字列に基づいて音声テンプレートから音声モデルを構成して後段の音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約０．８６〔ＭＢｙｔｅ〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約０．５〔ＭＢｙｔｅ〕となり、合計１．３６〔ＭＢｙｔｅ〕のメモリ容量を消費することとなる。したがって、従来に比して、必要なメモリ容量を９３％低減することができた。
このようにして、本実施の形態では、照合処理部１１４は、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開する場合は、ＲＡＭ１１２の仮名文字列のうちＲＡＭ１１２に展開すべき音声モデルに対応するものに基づいて、ＲＡＭ１１２の音声モデルテンプレートから音声モデルを構成するようになっている。
これにより、一般に音声モデルテンプレートは音声モデルに比してデータ容量が少ないので、音声モデルを必要なときに動的に展開することにより、音声認識を行うにあたって必要なメモリ容量をさらに低減することができる。また、一連の音声認識を行うにあたって、音声モデル記憶部１１０から音声モデルの読出が行われないので、音声モデルの読出に要する時間を低減することができる。
上記第２の実施の形態において、ＲＡＭ１１２は、請求の範囲第９項記載の音声モデル展開用記憶手段に対応し、照合処理部１１４は、請求の範囲第９項記載の音声認識手段に対応し、音声モデルグループ４０２は、請求の範囲第９項記載の第２音声モデルグループ、または請求の範囲第９項記載の第３音声モデルグループに対応している。また、仮名文字列は、請求の範囲第９項記載の発音表記文字列に対応している。
なお、上記第２の実施の形態において、照合処理部１１４は、第１音声モデルネットワーク３００に属する音声モデル、ガーベージモデル３５０、仮名文字列および音声モデルテンプレートを音声モデル記憶部１１０から読み出し、読み出した音声モデル、ガーベージモデル３５０、仮名文字列および音声モデルテンプレートをＲＡＭ１１２に展開し、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開する場合は、ＲＡＭ１１２の仮名文字列のうちＲＡＭ１１２に展開すべき音声モデルに対応するものに基づいて、ＲＡＭ１１２の音声モデルテンプレートから音声モデルを構成するようにしたが、これに限らず、仮名文字列または音声モデルテンプレートについては後段の音声認識（第２音声モデルネットワーク４００による音声認識）に必要な分だけＲＡＭ１１２に読み込むように構成するしてもよい。
また、上記第１および第２の実施の形態においては、第１音声モデルネットワーク３００の後方にガーベージモデル３５０を結合するように構成したが、これに限らず、第１音声モデルネットワーク３００の前方にガーベージモデル３５０を結合し、第１音声モデルネットワーク３００に属する音声モデルから出力される生起確率に基づいて、音声モデルグループ４０２のうちいずれかに属する音声モデルをＲＡＭ１１２に展開するように構成してもよい。
また、上記第１および第２の実施の形態において、ガーベージモデル３５０が複数の履歴情報をもつことができる場合は、音声モデルネットワークの切換時において、所望の候補数に応じた音声モデルネットワークを構築し、認識処理を行うことができる。上記地名認識の例では、例えば、第１音声モデルネットワーク３００で得られた第一候補がラベル系列「神奈川県→藤沢市」で、第二候補がラベル系列「神奈川県→厚木市」である場合は、ラベル系列「神奈川県→藤沢市」に結合すべき音声モデルネットワークと、ラベル系列「神奈川県→厚木市」に結合すべき音声モデルネットワークとを構築し、一方の音声モデルネットワークにおけるそれぞれの生起確率と、他方の音声モデルネットワークにおけるそれぞれの生起確率を考慮して、最終認識結果を出力することができる。
また、上記第１および第２の実施の形態において、音声パラメータ抽出部１０６および照合処理部１１４の機能を実現するにあたってはいずれも、ＲＯＭ１１６にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをＲＡＭ１１２に読み込んで実行するようにしてもよい。
ここで、記憶媒体とは、ＲＡＭ、ＲＯＭ等の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
また、上記第１および第２の実施の形態においては、本発明に係る音声認識装置を、図１に示すように、複数の音声モデルを結合した音声モデルネットワークを利用して住所等の比較的長い単語列の音声を認識する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。
産業上の利用可能性
以上説明したように、本発明に係る請求の範囲第１項記載の音声認識装置によれば、結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合であっても、音声モデル展開用記憶手段には、すべての子音声モデルグループについてその音声モデルを展開することなく、いずれかの子音声モデルグループについてその音声モデルを展開するだけですむので、従来に比して、音声認識を行うにあたって必要なメモリ容量を低減することができるという効果が得られる。
さらに、本発明に係る請求の範囲第２ないし第１１項記載の音声認識装置によれば、結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合であっても、音声モデル展開用記憶手段には、第２音声モデルグループおよび第３音声モデルグループの両方についてその音声モデルを展開することなく、第２音声モデルグループおよび第３音声モデルグループのうちいずれかについてその音声モデルを展開するだけですむので、従来に比して、音声認識を行うにあたって必要なメモリ容量を低減することができるという効果が得られる。
さらに、本発明に係る請求の範囲第４項記載の音声認識装置によれば、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルを音声モデル展開用記憶手段に展開するに伴って、第１音声モデルグループに属する音声モデルおよび非特定音声認識用音声モデルが音声モデル展開用記憶手段から削除されるので、音声認識を行うにあたって必要なメモリ容量をさらに低減することができるという効果も得られる。
さらに、本発明に係る請求の範囲第５ないし第８項記載の音声認識装置によれば、第１音声モデルグループを上位階層として階層的な結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合に、必要なメモリ容量を低減することができるという効果も得られる。
さらに、本発明に係る請求の範囲第６ないし第８項記載の音声認識装置によれば、非特定音声認識用音声モデルの生起確率が所定値となるまである程度の遅延時間を要するので、音声パラメータ記憶手段における音声パラメータの読出位置を戻すことにより、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響を低減し、比較的正確な音声認識を行うことができるという効果も得られる。
さらに、本発明に係る請求の範囲第７または第８項記載の音声認識装置によれば、認識音声モデルから非特定音声認識用音声モデルに生起確率の変動が伝搬するまでの時間に相当する数だけ音声パラメータの読出位置が戻されるので、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができるという効果も得られる。
さらに、本発明に係る請求の範囲第８項記載の音声認識装置によれば、音声パラメータの読出位置が、認識音声モデルを特定した時点における読出位置を基準として、認識音声モデルから非特定音声認識用音声モデルに生起確率の変動が伝搬するまでの時間に相当する数だけ戻されるので、第２音声モデルグループおよび第３音声モデルグループのうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができるという効果も得られる。
さらに、本発明に係る請求の範囲第９項記載の音声認識装置によれば、一般に音声モデルテンプレートは音声モデルに比してデータ容量が少ないので、音声モデルを必要なときに動的に展開することにより、音声認識を行うにあたって必要なメモリ容量をさらに低減することができるという効果も得られる。
一方、本発明に係る請求の範囲第１２項記載の音声認識プログラムによれば、請求の範囲第１項記載の音声認識装置と同等の効果が得られる。
さらに、本発明に係る請求の範囲第１３項記載の音声認識プログラムによれば、請求の範囲第２項記載の音声認識装置と同等の効果が得られる。
一方、本発明に係る請求の範囲第１４項記載の音声認識方法によれば、請求の範囲第１項記載の音声認識装置と同等の効果が得られる。
さらに、本発明に係る請求の範囲第１５項記載の音声認識方法によれば、請求の範囲第２項記載の音声認識装置と同等の効果が得られる。
【図面の簡単な説明】
図１は、音声認識装置１００の構成を示すブロック図である。図２は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。図２（Ａ）は、音韻の直列接続による単語音声モデルを示す図であり、図２（Ｂ）は、各音韻のＨＭＭ状態遷移を示す図である。図３は、第１音声モデルネットワーク３００の構成を示す図である。図４は、ガーベージモデル３５０の構成を示す図である。図５は、第２音声モデルネットワーク４００の構成を示す図である。図６は、音声モデルネットワークの切換タイミングを示すタイムチャートである。図７は、所定区分に分類した音韻セットを示す図である。
図８は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。図８（Ａ）は、音韻の直列接続ネットワークによる男女共用単語音声モデルを示す図であり、図８（Ｂ）は、各音韻のＨＭＭ状態遷移を示す図である。図９は、音声モデルネットワーク５００の構成を示す図である。

Claims

与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う装置であって、
前記音声モデルを展開するための音声モデル展開用記憶手段を備え、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、
前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、
音声認識を行う際は、
前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、
入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。
与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う装置であって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した第１音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第１音声モデルグループに属するいずれかの音声モデルと結合関係を有する第２音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第１音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第３音声モデルグループと、
前記第１音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、
前記音声モデルを展開するための音声モデル展開用記憶手段と、
前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段と、
前記第１音声モデルグループ、前記第２音声モデルグループ及び前記第３音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段とを備え、
前記音声認識手段は、前記第１音声モデルグループに属する音声モデル及び前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第１音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。
請求の範囲第２項において、
前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が所定値以上となったときは、前記第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。
請求の範囲第２及び第３項のいずれかにおいて、
前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第１音声モデルグループに属する音声モデル及び前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段から削除し、前記第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。
請求の範囲第３及び第４項のいずれかにおいて、
前記非特定音声認識用音声モデルは、前記第１音声モデルグループに属する音声モデルと結合しており、
前記音声パラメータを与えるに伴って、前記第１音声モデルグループの音声モデル及び前記非特定音声認識用音声モデルの順で前記生起確率の変動が伝搬するようになっていることを特徴とする音声認識装置。
請求の範囲第５項において、
さらに、前記音声パラメータを記憶するための音声パラメータ記憶手段を備え、
前記音声パラメータ抽出手段は、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータを前記音声パラメータ記憶手段に所定順序で格納するようになっており、
前記音声認識手段は、前記音声パラメータ記憶手段から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第１音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所定順序と逆の順序で所定数戻し、その読出位置から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与えるようになっていることを特徴とする音声認識装置。
請求の範囲第６項において、
前記音声認識手段は、前記第１音声モデルグループのなかから前記生起確率が最も高い音声モデルを認識音声モデルとして特定し、前記第２音声モデルグループ及び前記第３音声モデルグループのうち前記認識音声モデルと結合関係を有するものに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記認識音声モデルから前記非特定音声認識用音声モデルに前記生起確率の変動が伝搬するまでの所要時間を算出し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所要時間に相当する数だけ戻すようになっていることを特徴とする音声認識装置。
請求の範囲第７項において、
前記音声認識手段は、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を、前記認識音声モデルを特定した時点における前記読出位置から前記所要時間に相当する数だけ戻すようになっていることを特徴とする音声認識装置。
請求の範囲第２乃至第８項のいずれかにおいて、
前記第２音声モデルグループ及び前記第３音声モデルグループに属する音声モデルに代えて、それら音声モデルが認識可能な特定音声の発音を表記した発音表記文字列を前記音声モデル展開用記憶手段に記憶するとともに、前記発音表記文字列に基づいて前記音声モデルを構成可能な音声モデルテンプレートを、前記第２音声モデルグループに属する音声モデルの数及び前記第３音声モデルグループに属する音声モデルの数のうち多い方に相当する数だけ前記音声モデル展開用記憶手段に記憶しておき、
前記音声認識手段は、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する場合は、前記音声モデル展開用記憶手段の発音表記文字列のうち前記音声モデル展開用記憶手段に展開すべき音声モデルに対応するものに基づいて、前記音声モデル展開用記憶手段の音声モデルテンプレートから前記音声モデルを構成するようになっていることを特徴とする音声認識装置。
請求の範囲第２乃至第９項のいずれかにおいて、
前記音声認識手段は、前記第１音声モデルグループのなかから前記生起確率が最も高い音声モデルを第１認識音声モデルとして特定し、前記第２音声モデルグループ及び前記第３音声モデルグループのうち前記音声モデル展開用記憶手段に展開したもののなかから前記生起確率が最も高い音声モデルを第２認識音声モデルとして特定し、前記第１認識音声モデルの特定音声及び前記第２認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定するようになっていることを特徴とする音声認識装置。
請求の範囲第２乃至第１０項のいずれかにおいて、
前記非特定音声認識用音声モデルは、ガーベージモデルであることを特徴とする音声認識装置。
与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行うプログラムであって、
前記音声モデルを展開するための音声モデル展開用記憶手段を備えたコンピュータに対して、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、
前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、
音声認識を行う際は、
前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、
入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する処理を実行させるためのプログラムであることを特徴とする音声認識プログラム。
与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行うプログラムであって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した第１音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第１音声モデルグループに属するいずれかの音声モデルと結合関係を有する第２音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第１音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第３音声モデルグループと、
前記第１音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、
前記音声モデルを展開するための音声モデル展開用記憶手段とを利用可能なコンピュータに対して、
前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段、並びに、前記第１音声モデルグループ、前記第２音声モデルグループ及び前記第３音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段として実現される処理を実行させるためのプログラムであり、
前記音声認識手段は、前記第１音声モデルグループに属する音声モデル及び前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第１音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識プログラム。
与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う方法であって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、
前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、
音声認識を行う際は、
前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記親音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、
入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開することを特徴とする音声認識方法。
与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う方法であって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した第１音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第１音声モデルグループに属するいずれかの音声モデルと結合関係を有する第２音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第１音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第３音声モデルグループとを構成し、
前記音声パラメータを入力音声から抽出する音声パラメータ抽出ステップと、
前記第１音声モデルグループ、前記第２音声モデルグループ及び前記第３音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出ステップで抽出した音声パラメータに基づいて音声認識を行う音声認識ステップとを含み、
前記音声認識ステップは、前記第１音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記第１音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出ステップで抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第１音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第２音声モデルグループ及び前記第３音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開することを特徴とする音声認識方法。