JP4316494B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4316494B2 JP4316494B2 JP2004508528A JP2004508528A JP4316494B2 JP 4316494 B2 JP4316494 B2 JP 4316494B2 JP 2004508528 A JP2004508528 A JP 2004508528A JP 2004508528 A JP2004508528 A JP 2004508528A JP 4316494 B2 JP4316494 B2 JP 4316494B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- model
- speech model
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
本発明は、不特定話者用の音声モデルに基づいて音声認識を行うシステムに係り、特に、不特定話者音声認識を行うにあたって必要なメモリ容量を低減するのに好適な音声認識装置に関する。
背景技術
音声認識の世界では、一般に、不特定話者を対象として音声を認識する技術を不特定話者音声認識と呼び、特定話者を対象として音声を認識する技術を特定話者音声認識と呼んでいる。
音声認識の方法の一つとしては、例えば、一つの単語を構成する音韻を音声単位として、各音韻ごとに音声パラメータによってモデル化した音声モデルを用いて音声を認識するというものがある。「北海道」という単語を例にとれば、「h」、「o」、「ts」、「k」、「a」、「i」、「d」、「o」、「u」という9個の音韻を直列に接続したネットワークで「北海道」の音声モデルを作成する。その他、「青森」とか「秋田」という別の単語を認識する場合には、これに対応した音声モデルをそれぞれ用意する必要がある。不特定話者認識の場合には、この音声モデルが、多くの話者に共通する音声パラメータによってモデル化されている。
従来、このような音韻の音声モデルを用いて不特定話者音声認識を行う技術としては、隠れマルコフモデル(以下、単にHMM(Hidden Markov Model)という。)が広く知られており、例えば、「音声・音情報のディジタル信号処理」(鹿野清宏、中村哲、伊勢史郎共著、(株)昭晃堂)に詳しく述べられている。
HMMによる不特定話者音声認識の方法を図7および図8を参照しながら簡単に説明する。図7は、所定区分に分類した音韻セットを示す図である。図8は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。
HMMによれば日本語の場合、まず、図7に示すように、母音、摩擦音、破擦音、破裂音、半母音および鼻音のいずれかの音韻を用いて、一つの単語を、音韻を直列に接続したネットワークで構成する。そして、これに対応する状態遷移を作成し、各状態について、次の状態に遷移する確率を表す遷移確率、および次の状態に遷移するときに音声パラメータを出力する確率を表す出力確率を規定することにより音声モデルを作成する。例えば、「北海道」という単語についての音声モデルは、図8(A)に示すように、9個の音韻を発声順に直列に接続したネットワークでモデル化することができる。図8(B)には、各音韻のHMMの状態遷移が示されている。
ここで、図8(B)中のa(I,J)は、状態Iから状態Jへの遷移確率を示し、例えば図中のa(1,1)は、状態1から状態1への遷移確率を示す。また、b(I,x)は、音声パラメータxが得られたときの状態Iにおける出力確率を示し、図中のb(1,x)は、音声パラメータxが得られたときの状態1の出力確率を示す。
また、図8(B)中のp(I)は、状態Iの確率を示し、下式(1)により表される。
p(I)=max(p(I)×a(I,I),p(I−1)xa(I−1,I))×b(I,X) …(1)
なお、上式(1)中、「max」は、引数のなかで最大値を選択する関数である。
次に、このような音声モデルを複数用いて比較的長い単語列の音声を認識する場合を図9を参照しながら詳細に説明する。この例としては、住所等のように都道府県名や市町村名を結合した単語列の音声を認識する場合がある。図9は、音声モデルネットワーク500の構成を示す図である。
音声モデルネットワークは、図9に示すように、入力音声の無音部分を検出するポーズ502と、各都道府県名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ504と、都道府県の下の階層である各市名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ506と、市の下の階層である区名または町名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ508と、区または町の下の階層である各地区名を認識可能な複数の音声モデルをグループ化した音声モデルグループ510と、入力音声の無音部分を検出するポーズ512とで構成されている。
音声モデルグループ504は、各都道府県に対応しその都道府県名の音声を認識可能な音声モデルをグループ化したものであり、ポーズ502に結合している。
音声モデルグループ506は、各市に対応しその市名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ504に属する各音声モデルと結合している。図9の例では、音声モデルグループ504に属する音声モデルのうち神奈川県の音声を認識可能なものに、神奈川県に属する各市名の音声を認識可能な音声モデルをグループ化した音声モデルグループ506が結合されている。
音声モデルグループ508は、各区または各町に対応しその区名または町名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ506に属する各音声モデルと結合している。図9の例では、音声モデルグループ506に属する音声モデルのうち藤沢市の音声を認識可能なものに、藤沢市に属する各町名の音声を認識可能な音声モデルをグループ化した音声モデルグループ508が結合されている。
音声モデルグループ510は、各地区に対応しその地区名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ508に属する各音声モデルと結合している。図9の例では、音声モデルグループ508に属する音声モデルのうち北区の音声を認識可能なものに、北区に属する各地区名の音声を認識可能な音声モデルをグループ化した音声モデルグループ510が結合されている。
ポーズ512は、音声モデルグループ508または音声モデルグループ510に結合している。
また、これらの結合関係においては、音声パラメータを与えるに伴って、ポーズ502、音声モデルグループ504、音声モデルグループ506、音声モデルグループ508、音声モデルグループ510およびポーズ512の順で、またはポーズ502、音声モデルグループ504、音声モデルグループ506、音声モデルグループ508およびポーズ512の順で生起確率の変動が伝搬するようになっている。
このように、不特定話者音声認識を行うにあたっては、複数の音声モデルをあらかじめ用意しておき、それら音声モデルをRAM等のメモリに配置して音声認識を行うようになっている。
しかしながら、この方法では、結合単語数が増加してくると、単語数が組み合わせ爆発的に増大し、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が増大し、カーナナビゲーションのような組込型システムでは、システムを構成するメモリ容量が増大してしまう。例えば、地名認識を行う場合、都道府県名に続けて市町村名まで連続する単語列の音声を認識可能な音声モデルネットワークでは、認識すべき単語数は3500個程度となるが、都道府県、市町村名に続いてさらに区名、群名等まで連続する単語列を認識可能な音声モデルネットワークでは、認識すべき単語数は10万語を超えてしまう。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、不特定話者音声認識を行うにあたって必要なメモリ容量を低減するのに好適な音声認識装置を提供することを目的としている。
発明の開示
上記目的を達成するために、本発明に係る請求の範囲第1項記載の音声認識装置は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う装置であって、前記音声モデルを展開するための音声モデル展開用記憶手段を備え、前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、音声認識を行う際は、前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、音声認識を行う際は、非特定音声認識用音声モデルおよび親音声モデルグループに属する音声モデルが音声モデル展開用記憶手段に展開され、入力音声から抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って親音声モデルグループに属する音声モデルから出力される生起確率および非特定音声認識用音声モデルから出力される生起確率に基づいて、子音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
ここで、親音声モデルグループおよび子音声モデルグループは、どのような結合関係を有していてもよく、例えば、親音声モデルグループの後方に子音声モデルグループが結合している場合、または子音声モデルグループの後方に親音声モデルグループが結合している場合が想定される。ここで、後方とは、生起確率の変動が伝搬する方向に対して後方であることを意味する。このことは、親音声モデルグループおよび非特定音声認識用音声モデルの結合関係、または子音声モデルグループおよび非特定音声認識用音声モデルの結合関係についても同じである。以下、請求の範囲第12項記載の音声認識プログラム、および請求の範囲第14項記載の音声認識方法において同じである。
また、音声モデルは、所定の音声単位でモデル化したものであって、所定の音声単位としては、音韻であってもよいし、複数の音韻の系列であってもよい。以下、請求の範囲第2項記載の音声認識装置、請求の範囲第12および第13項記載の音声認識プログラム、並びに請求の範囲第14および第15項記載の音声認識方法において同じである。
また、音声モデル展開用記憶手段は、音声モデルをあらゆる手段でかつあらゆる時期に記憶するものであり、音声モデルをあらかじめ記憶してあるものであってもよいし、音声モデルをあらかじめ記憶することなく、本装置の動作時に外部からの入力等によって音声モデルを記憶するようになっていてもよい。以下、請求の範囲第2項記載の音声認識装置、請求の範囲第12および第13項記載の音声認識プログラム、並びに請求の範囲第14および第15項記載の音声認識方法において同じである。
さらに、本発明に係る請求の範囲第2項記載の音声認識装置は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う装置であって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した第1音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第1音声モデルグループに属するいずれかの音声モデルと結合関係を有する第2音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第1音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第3音声モデルグループと、前記第1音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、前記音声モデルを展開するための音声モデル展開用記憶手段と、前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段と、前記第1音声モデルグループ、前記第2音声モデルグループおよび前記第3音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段とを備え、前記音声認識手段は、前記第1音声モデルグループに属する音声モデルおよび前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第1音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、話者から音声が入力されると、音声パラメータ抽出手段により、音声パラメータが入力音声から抽出される。そして、音声認識手段により、第1音声モデルグループに属する音声モデルおよび非特定音声認識用音声モデルが音声モデル展開用記憶手段に展開され、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って第1音声モデルグループに属する音声モデルから出力される生起確率および非特定音声認識用音声モデルから出力される生起確率に基づいて、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
ここで、第1音声モデルグループ、第2音声モデルグループおよび第3音声モデルグループは、どのような結合関係を有していてもよく、例えば、第1音声モデルグループの後方に第2音声モデルグループおよび第3音声モデルグループが結合している場合、または第2音声モデルグループおよび第3音声モデルグループの後方に第1音声モデルグループが結合している場合が想定される。ここで、後方とは、生起確率の変動が伝搬する方向に対して後方であることを意味する。このことは、第1音声モデルグループおよび非特定音声認識用音声モデルの結合関係、または第2音声モデルグループおよび第3音声モデルグループ並びに非特定音声認識用音声モデルの結合関係についても同じである。
さらに、本発明に係る請求の範囲第3項記載の音声認識装置は、請求の範囲第2項記載の音声認識装置において、前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が所定値以上となったときは、前記第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、音声認識手段により、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えらえる。これに伴って非特定音声認識用音声モデルから出力される生起確率が所定値以上となると、第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
さらに、本発明に係る請求の範囲第4項記載の音声認識装置は、請求の範囲第2および第3項のいずれかに記載の音声認識装置において、前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第1音声モデルグループに属する音声モデルおよび前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段から削除し、前記第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、音声認識手段により、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えらえる。これに伴って非特定音声認識用音声モデルから出力される生起確率が所定値以上となると、第1音声モデルグループに属する音声モデルおよび非特定音声認識用音声モデルが音声モデル展開用記憶手段から削除され、第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
さらに、本発明に係る請求の範囲第5項記載の音声認識装置は、請求の範囲第3および第4項のいずれかに記載の音声認識装置において、前記非特定音声認識用音声モデルは、前記第1音声モデルグループに属する音声モデルと結合しており、前記音声パラメータを与えるに伴って、前記第1音声モデルグループの音声モデルおよび前記非特定音声認識用音声モデルの順で前記生起確率の変動が伝搬するようになっている。
このような構成であれば、音声認識手段により、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えらえる。これに伴って、第1音声モデルグループの音声モデルおよび非特定音声認識用音声モデルの順で生起確率の変動が伝搬する。
さらに、本発明に係る請求の範囲第6項記載の音声認識装置は、請求の範囲第5項記載の音声認識装置において、さらに、前記音声パラメータを記憶するための音声パラメータ記憶手段を備え、前記音声パラメータ抽出手段は、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータを前記音声パラメータ記憶手段に所定順序で格納するようになっており、前記音声認識手段は、前記音声パラメータ記憶手段から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所定順序と逆の順序で所定数戻し、その読出位置から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与えるようになっている。
このような構成であれば、話者から音声が入力されると、音声パラメータ抽出手段により、音声パラメータが入力音声から抽出され、抽出された音声パラメータが音声パラメータ記憶手段に所定順序で格納される。そして、音声認識手段により、音声パラメータ記憶手段から所定順序で音声パラメータが読み出され、読み出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って非特定音声認識用音声モデルから出力される生起確率が所定値以上となると、第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。そして、音声パラメータ記憶手段における音声パラメータの読出位置が所定順序と逆の順序で所定数戻され、その読出位置から所定順序で音声パラメータが読み出され、読み出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。
ここで、音声パラメータ記憶手段は、音声パラメータをあらゆる手段でかつあらゆる時期に記憶するものであり、音声パラメータをあらかじめ記憶してあるものであってもよいし、音声パラメータをあらかじめ記憶することなく、本装置の動作時に外部からの入力等によって音声パラメータを記憶するようになっていてもよい。
さらに、本発明に係る請求の範囲第7項記載の音声認識装置は、請求の範囲第6項記載の音声認識装置において、前記音声認識手段は、前記第1音声モデルグループのなかから前記生起確率が最も高い音声モデルを認識音声モデルとして特定し、前記第2音声モデルグループおよび前記第3音声モデルグループのうち前記認識音声モデルと結合関係を有するものに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記認識音声モデルから前記非特定音声認識用音声モデルに前記生起確率の変動が伝搬するまでの所要時間を算出し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所要時間に相当する数だけ戻すようになっている。
このような構成であれば、音声認識手段により、第1音声モデルグループのなかから生起確率が最も高い音声モデルが認識音声モデルとして特定され、第2音声モデルグループおよび第3音声モデルグループのうち認識音声モデルと結合関係を有するものに属する音声モデルが音声モデル展開用記憶手段に展開される。そして、認識音声モデルから非特定音声認識用音声モデルに生起確率の変動が伝搬するまでの所要時間が算出され、音声パラメータ記憶手段における音声パラメータの読出位置が所要時間に相当する数だけ戻される。
さらに、本発明に係る請求の範囲第8項記載の音声認識装置は、請求の範囲第7項記載の音声認識装置において、前記音声認識手段は、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を、前記認識音声モデルを特定した時点における前記読出位置から前記所要時間に相当する数だけ戻すようになっている。
このような構成であれば、音声認識手段により、音声パラメータ記憶手段における音声パラメータの読出位置が、認識音声モデルを特定した時点における読出位置から、算出された所要時間に相当する数だけ戻される。
さらに、本発明に係る請求の範囲第9項記載の音声認識装置は、請求の範囲第2ないし第8項のいずれかに記載の音声認識装置において、前記第2音声モデルグループおよび前記第3音声モデルグループに属する音声モデルに代えて、それら音声モデルが認識可能な特定音声の発音を表記した発音表記文字列を前記音声モデル展開用記憶手段に記憶するとともに、前記発音表記文字列に基づいて前記音声モデルを構成可能な音声モデルテンプレートを、前記第2音声モデルグループに属する音声モデルの数および前記第3音声モデルグループに属する音声モデルの数のうち多い方に相当する数だけ前記音声モデル展開用記憶手段に記憶しておき、前記音声認識手段は、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する場合は、前記音声モデル展開用記憶手段の発音表記文字列のうち前記音声モデル展開用記憶手段に展開すべき音声モデルに対応するものに基づいて、前記音声モデル展開用記憶手段の音声モデルテンプレートから前記音声モデルを構成するようになっている。
このような構成であれば、音声認識手段により、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルを音声モデル展開用記憶手段に展開する場合は、音声モデル展開用記憶手段の発音表記文字列のうち音声モデル展開用記憶手段に展開すべき音声モデルに対応するものに基づいて、音声モデル展開用記憶手段の音声モデルテンプレートから音声モデルが構成される。
さらに、本発明に係る請求の範囲第10項記載の音声認識装置は、請求の範囲第2ないし第9項のいずれかに記載の音声認識装置において、前記音声認識手段は、前記第1音声モデルグループのなかから前記生起確率が最も高い音声モデルを第1認識音声モデルとして特定し、前記第2音声モデルグループおよび前記第3音声モデルグループのうち前記音声モデル展開用記憶手段に展開したもののなかから前記生起確率が最も高い音声モデルを第2認識音声モデルとして特定し、前記第1認識音声モデルの特定音声および前記第2認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定するようになっている。
このような構成であれば、音声認識手段により、第1音声モデルグループのなかから生起確率が最も高い音声モデルが第1認識音声モデルとして特定され、第2音声モデルグループおよび第3音声モデルグループのうち音声モデル展開用記憶手段に展開したもののなかから生起確率が最も高い音声モデルが第2認識音声モデルとして特定される。そして、第1認識音声モデルの特定音声および第2認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定される。
さらに、本発明に係る請求の範囲第11項記載の音声認識装置は、請求の範囲第2ないし第10項のいずれかに記載の音声認識装置において、前記非特定音声認識用音声モデルは、ガーベージモデルである。
このような構成であれば、話者から音声が入力されると、音声パラメータ抽出手段により、音声パラメータが入力音声から抽出される。そして、音声認識手段により、第1音声モデルグループに属する音声モデルおよびガーベージモデルが音声モデル展開用記憶手段に展開され、抽出された音声パラメータが音声モデル展開用記憶手段の音声モデルに与えられる。これに伴って第1音声モデルグループに属する音声モデルから出力される生起確率およびガーベージモデルから出力される生起確率に基づいて、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルが音声モデル展開用記憶手段に展開される。
一方、上記目的を達成するために、本発明に係る請求の範囲第12項記載の音声認識プログラムは、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行うプログラムであって、前記音声モデルを展開するための音声モデル展開用記憶手段を備えたコンピュータに対して、前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、音声認識を行う際は、前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する処理を実行させるためのプログラムである。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求の範囲第1項記載の音声認識装置と同等の作用が得られる。
さらに、本発明に係る請求の範囲第13項記載の音声認識プログラムは、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行うプログラムであって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した第1音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第1音声モデルグループに属するいずれかの音声モデルと結合関係を有する第2音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第1音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第3音声モデルグループと、前記第1音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、前記音声モデルを展開するための音声モデル展開用記憶手段とを利用可能なコンピュータに対して、前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段、並びに、前記第1音声モデルグループ、前記第2音声モデルグループおよび前記第3音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段として実現される処理を実行させるためのプログラムであり、前記音声認識手段は、前記第1音声モデルグループに属する音声モデルおよび前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第1音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっている。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求の範囲第2項記載の音声認識装置と同等の作用が得られる。
一方、上記目的を達成するために、本発明に係る請求の範囲第14項記載の音声認識方法は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う方法であって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、音声認識を行う際は、前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記親音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する。
さらに、本発明に係る請求の範囲第15項記載の音声認識方法は、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータおよび前記音声モデルに基づいて音声認識を行う方法であって、前記特定音声パラメータが異なる複数の音声モデルをグループ化した第1音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第1音声モデルグループに属するいずれかの音声モデルと結合関係を有する第2音声モデルグループと、前記特定音声パラメータが異なる複数の音声モデルをグループ化しかつ前記第1音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第3音声モデルグループとを構成し、前記音声パラメータを入力音声から抽出する音声パラメータ抽出ステップと、前記第1音声モデルグループ、前記第2音声モデルグループおよび前記第3音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出ステップで抽出した音声パラメータに基づいて音声認識を行う音声認識ステップとを含み、前記音声認識ステップは、前記第1音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、および前記第1音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出ステップで抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第1音声モデルグループに属する音声モデルから出力される生起確率および前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループおよび前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する。
発明を実施するための最良の形態
以下、本発明の第1の実施の形態を図面を参照しながら説明する。図1ないし図6は、本発明に係る音声認識装置の第1の実施の形態を示す図である。
本実施の形態は、本発明に係る音声認識装置を、図1に示すように、複数の音声モデルを結合した音声モデルネットワークを利用して住所等の比較的長い単語列の音声を認識する場合について適用したものである。
まず、音声認識装置100の構成を図1を参照しながら説明する。図1は、音声認識装置100の構成を示すブロック図である。
音声認識装置100は、CPU、ROM、RAMおよびI/F等をバス接続した一般的なコンピュータと同一機能を有して構成されており、図1に示すように、マイク102と、マイク102からの入力音声をA/D変換するA/D変換器104と、A/D変換器104で変換した音声データから音声パラメータを抽出する音声パラメータ抽出部106と、音声パラメータ抽出部106で抽出した音声パラメータを記憶するリングバッファ108と、音声モデルを記憶する音声モデル記憶部110と、音声モデル記憶部110の音声モデルを展開するためのRAM112と、照合処理部114と、音声パラメータ抽出部106および照合処理部114のプログラム等を記憶したROM116と、照合処理部114の認識結果を出力する出力部118とで構成されている。
リングバッファ108は、音声パラメータを記憶するための所定の記憶領域を有する。リングバッファ108への書込では、音声パラメータ抽出部106で抽出した音声パラメータを書込ポインタが指し示すアドレスに書き込み、書込ポインタを1加算する。ただし、書込ポインタが記憶領域の末尾のアドレスに達したときは、書込ポインタを先頭のアドレスに設定する。これを繰り返すことにより、音声パラメータは、音声パラメータ抽出部106から抽出された順番でリングバッファ108に循環的に書き込まれていく。なお、書込ポインタは、音声パラメータ抽出部106により制御される。
また、リングバッファ108からの読出では、読出ポインタが指し示すアドレスから音声パラメータを読み出し、読出ポインタを1加算する。ただし、読出ポインタが記憶領域の末尾のアドレスに達したときは、読出ポインタを先頭のアドレスに設定する。これを繰り返すことにより、音声パラメータは、リングバッファ108に書き込まれた順番でリングバッファ108から循環的に読み出されていく。なお、読出ポインタは、照合処理部114により制御され、書込ポインタを追い越さないように調整される。
音声モデル記憶部110には、与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに生起確率が高くなるようにモデル化された音声モデルが記憶されている。
HMMによる不特定話者音声認識の方法を図2を参照しながら簡単に説明する。図2は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。
HMMによれば日本語の場合、まず、母音、摩擦音、破擦音、破裂音、半母音および鼻音のいずれかの音韻を用いて、一つの単語を、音韻を直列に接続したネットワークで構成する。そして、これに対応する状態遷移を作成し、各状態について、次の状態に遷移する確率を表す遷移確率、および次の状態に遷移するときに音声パラメータを出力する確率を表す出力確率を規定することにより音声モデルを作成する。例えば、「北海道」という単語についての音声モデルは、図2(A)に示すように、9個の音韻を発声順に直列に接続したネットワークでモデル化することができる。図2(B)には、各音韻のHMMの状態遷移が示されている。
ここで、図2(B)中のa(I,J)は、状態Iから状態Jへの遷移確率を示し、例えば図中のa(1,1)は、状態1から状態1への遷移確率を示す。また、b(I,x)は、音声パラメータxが得られたときの状態Iにおける出力確率を示し、図中のb(1,x)は、音声パラメータxが得られたときの状態1の出力確率を示す。
また、図2(B)中のp(I)は、状態Iの確率を示し、上式(1)により表される。
このような音声モデルを複数用いて、住所等のように都道府県名や市町村名を結合した単語列の音声を認識する場合は、複数の音声モデルを結合した音声モデルネットワークを構築する。
本実施の形態において、音声モデルネットワークは、RAM112に展開する単位ごとに構成されており、第1音声モデルネットワーク300と、第2音声モデルネットワーク400とからなっている。第2音声モデルネットワーク400は、第1音声モデルネットワーク300の後方に論理的に結合するものである。ここで、後方とは、生起確率の変動が伝搬する方向に対して後方であることを意味する。
第1音声モデルネットワーク300の構成を図3を参照しながら詳細に説明する。図3は、第1音声モデルネットワーク300の構成を示す図である。
第1音声モデルネットワーク300は、図3に示すように、入力音声の無音部分を検出するポーズ302と、各都道府県名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ304と、都道府県の下の階層である各市名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ306と、市の下の階層である区名または町名の音声を認識可能な複数の音声モデルをグループ化した音声モデルグループ308とで構成されている。
音声モデルグループ304は、各都道府県に対応しその都道府県名の音声を認識可能な音声モデルをグループ化したものであり、ポーズ302に結合している。
音声モデルグループ306は、各市に対応しその市名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ304に属する各音声モデルと結合している。図3の例では、音声モデルグループ304に属する音声モデルのうち神奈川県の音声を認識可能なものに、神奈川県に属する各市名の音声を認識可能な音声モデルをグループ化した音声モデルグループ306が結合されている。
音声モデルグループ308は、各区または各町に対応しその区名または町名の音声を認識可能な音声モデルをグループ化したものであり、音声モデルグループ306に属する各音声モデルと結合している。図3の例では、音声モデルグループ306に属する音声モデルのうち藤沢市の音声を認識可能なものに、藤沢市に属する各町名の音声を認識可能な音声モデルをグループ化した音声モデルグループ308が結合されている。
また、第1音声モデルネットワーク300の後方には、ガーベージモデル350が結合している。ガーベージモデル350は、音声モデルグループ304、音声モデルグループ306および音声モデルグループ308に属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに生起確率が高くなるようにモデル化されたものであり、音声モデルグループ306または音声モデルグループ308に結合している。ガーベージモデル350は、未知冗長語に対するフィラーモデルであり、音声モデルネットワークのなかで、任意の経路上にある音声モデルの列(以下、ラベル系列という。)にない単語を発話した場合、その生起確立(尤度)が高くなる性質を持ったモデルである。例えば、図4に示される例は、県名のみを認識する音声モデルグループであり、県名の前に「あのー」とか「そのー」といった冗長語を伴った発話に対して県名の認識率を向上させるものである。ガーベージモデル350に関する記述に関しては、従来文献「H.Boulard,B.D’ hoore and J.−M.Bolite,″Optimizing recognition and Rejection Performance in Wordspotting Systems″,″Porc.ICASSP,Adelaide,Austria,pp.I−373−376,1994」を参照されたい。
また、これらの結合関係においては、音声パラメータを与えるに伴って、ポーズ302、音声モデルグループ304、音声モデルグループ306、音声モデルグループ308およびガーベージモデル350の順で、またはポーズ302、音声モデルグループ304、音声モデルグループ306およびガーベージモデル350の順で生起確率の変動が伝搬するようになっている。
次に、第2音声モデルネットワーク400の構成を図5を参照しながら詳細に説明する。図5は、第2音声モデルネットワーク400の構成を示す図である。
第2音声モデルネットワーク400は、図5に示すように、区または町の下の階層である各地区名を認識可能な複数の音声モデルをグループ化した音声モデルグループ402と、入力音声の無音部分を検出するポーズ404とで構成されている。
音声モデルグループ402は、各地区に対応しその地区名の音声を認識可能な音声モデルをグループ化したものであり、ガーベージモデル350と結合している。図5の例では、北区に属する各地区名の音声を認識可能な音声モデルをグループ化した音声モデルグループ402がガーベージモデル350に結合されている。
ポーズ404は、音声モデルグループ402に結合している。
次に、照合処理部114の構成を説明する。
照合処理部114は、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350を音声モデル記憶部110から読み出し、読み出した音声モデルおよびガーベージモデル350をRAM112に展開する。
次いで、リングバッファ108において読出ポインタが示すアドレスから音声パラメータを読み出し、読出ポインタを1加算する。ただし、読出ポインタが記憶領域の末尾のアドレスに達したときは、読出ポインタを先頭のアドレスに設定する。
次いで、読み出した音声パラメータをRAM112の音声モデルに与える。これに伴ってガーベージモデル350から出力される生起確率が所定値以上となったときは、第1音声モデルネットワーク300のなかから、生起確率の積算値が最も高いラベル系列を第1認識音声モデルとして特定する。
次いで、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350をRAM112から削除し、音声モデルグループ402のうち第1認識音声モデルの末尾に結合すべきものに属する音声モデルおよびポーズ404を音声モデル記憶部110から読み出し、読み出した音声モデルおよびポーズ404をRAM112に展開する。
次いで、第1認識音声モデルからガーベージモデル350に生起確率の変動が伝搬するまでの所要時間を算出し、リングバッファ108における音声パラメータの読出ポインタを、算出した所要時間に相当する数だけ戻す。ただし、読出ポインタが記憶領域の先頭のアドレスに達したときは、読出ポインタを末尾のアドレスに設定する。
そして、リングバッファ108において読出ポインタが示すアドレスから音声パラメータを読み出し、読み出した音声パラメータをRAM112の音声モデルに与える。これに伴って音声モデルグループ402のなかから、生起確率の積算値が最も高い音声モデルを第2認識音声モデルとして特定し、第1認識音声モデルの特定音声および第2認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定する。
次に、本実施の形態の動作を図6を参照しながら説明する。図6は、音声モデルネットワークの切換タイミングを示すタイムチャートである。
ここでは、カーナビゲーション等で用いられる住所等の比較的長い単語列の音声を認識する場合を例にとって説明する。
音声認識を行うにあたっては、照合処理部114により、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350が音声モデル記憶部110から読み出され、読み出された音声モデルおよびガーベージモデル350がRAM112に展開される。
この状態で、話者からの音声がマイク102から入力されると、A/D変換器104により、マイク102からの入力音声がA/D変換され、音声パラメータ抽出部106により、A/D変換器104で変換された音声データから音声パラメータが抽出され、抽出された音声パラメータがリングバッファ108において書込ポインタが指し示すアドレスに書き込まれる。これにより、音声パラメータは、音声パラメータ抽出部106から抽出された順番でリングバッファ108に循環的に書き込まれていく。
次いで、照合処理部114により、リングバッファ108において読出ポインタが示すアドレスから音声パラメータが読み出され、読出ポインタが1加算される。このとき、読出ポインタが記憶領域の末尾のアドレスに達すると、読出ポインタが先頭のアドレスに設定される。
次いで、読み出された音声パラメータがRAM112の音声モデルに与えられる。これに伴ってガーベージモデル350から出力される生起確率が所定値以上となると、第1音声モデルネットワーク300のなかから、生起確率の積算値が最も高いラベル系列が第1認識音声モデルとして特定される。図6の例では、「神奈川県藤沢市弥勒寺」という音声が話者から入力されると、音声モデルグループ304のなかでは、「神奈川県」という特定音声を認識可能な音声モデルが、音声モデルグループ306のなかでは、「藤沢市」という特定音声を認識可能な音声モデルが第1認識音声モデルとして特定される。
次いで、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350がRAM112から削除され、音声モデルグループ402のうち第1認識音声モデルの末尾に結合すべきものに属する音声モデルおよびポーズ404が音声モデル記憶部110から読み出され、読み出された音声モデルおよびポーズ404がRAM112に展開される。図6の例では、第1認識音声モデルの末尾には、藤沢市の下の階層である各地区名を認識可能な複数の音声モデルをグループ化した音声モデルグループ402が結合されているので、そのような音声モデルグループ402が読み出される。
次いで、第1認識音声モデルからガーベージモデル350に生起確率の変動が伝搬するまでの所要時間が算出され、リングバッファ108における音声パラメータの読出ポインタが、算出された所要時間に相当する数だけ戻される。このとき、読出ポインタが記憶領域の先頭のアドレスに達すると、読出ポインタが末尾のアドレスに設定される。読出ポインタを戻すのは、ガーベージモデル350の生起確率が所定値となるまでの遅延時間の影響を低減するためである。図6の例では、さかのぼりフレーム数として読出ポインタを1減少させている。
そして、リングバッファ108において読出ポインタが示すアドレスから音声パラメータが読み出され、読み出された音声パラメータがRAM112の音声モデルに与えられる。これに伴って音声モデルグループ402のなかから、生起確率の積算値が最も高い音声モデルが第2認識音声モデルとして特定される。図6の例では、「神奈川県藤沢市弥勒寺」という音声が話者から入力されると、音声モデルグループ402のなかでは、「弥勒寺」という特定音声を認識可能な音声モデルが第2認識音声モデルとして特定される。第1認識音声モデルおよび第2認識音声モデルが特定されると、第1認識音声モデルの特定音声および第2認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定される。すなわち、「神奈川県藤沢市弥勒寺」という音声が入力音声に含まれていると判定される。
[実施例]
次に、本発明の実施例を説明する。
第1音声モデルネットワーク300には、約3500単語の音声を認識可能な音声モデルが含まれ、第2音声モデルネットワーク400には、最大で約1000単語の音声を認識可能な音声モデルをグループ化した音声モデルグループ402が含まれているものとする。
従来のように、第1音声モデルネットワーク300および第2音声モデルネットワーク400に属するすべての音声モデルをRAM112に展開して音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約20〔MByte〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約1〔MByte〕となり、合計21〔MByte〕のメモリ容量を消費することとなる。
これに対し、本発明のように、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350をRAM112に展開して前段の音声認識を行い、それを削除した後に、第2音声モデルネットワーク400に属する音声モデルをRAM112に展開して後段の音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約1.4〔MByte〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約0.5〔MByte〕となり、合計1.9〔MByte〕のメモリ容量を消費することとなる。したがって、従来に比して、必要なメモリ容量を91%低減することができた。
このようにして、本実施の形態では、照合処理部114は、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350をRAM112に展開し、音声パラメータ抽出部106で抽出した音声パラメータをRAM112の音声モデルに与え、これに伴って第1音声モデルネットワーク300に属する音声モデルから出力される生起確率およびガーベージモデル350から出力される生起確率に基づいて、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開するようになっている。
これにより、結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合であっても、RAM112には、音声モデルグループ402のすべてについてその音声モデルを展開することなく、音声モデルグループ402のうちいずれかについてその音声モデルを展開するだけですむので、従来に比して、音声認識を行うにあたって必要なメモリ容量を低減することができる。
さらに、本実施の形態では、照合処理部114は、音声パラメータ抽出部106で抽出した音声パラメータをRAM112の音声モデルに与え、これに伴ってガーベージモデル350から出力される生起確率が所定値以上となったときは、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350をRAM112から削除し、第1音声モデルネットワーク300に属する音声モデルから出力される生起確率に基づいて、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開するようになっている。
これにより、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開するに伴って、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350がRAM112から削除されるので、音声認識を行うにあたって必要なメモリ容量をさらに低減することができる。
さらに、本実施の形態では、ガーベージモデル350は、第1音声モデルネットワーク300に属する音声モデルと結合しており、音声パラメータを与えるに伴って、第1音声モデルネットワーク300の音声モデルおよびガーベージモデル350の順で生起確率の変動が伝搬するようになっている。
これにより、第1音声モデルネットワーク300を上位階層として階層的な結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合に、必要なメモリ容量を低減することができる。例えば、本実施の形態のように、カーナビゲーション等で用いられる住所等の比較的長い単語列の音声を認識する場合に有利である。
さらに、本実施の形態では、音声パラメータ抽出部106は、音声パラメータを入力音声から抽出し、抽出した音声パラメータをリングバッファ108に所定順序で格納するようになっており、照合処理部114は、リングバッファ108から所定順序で音声パラメータを読み出し、読み出した音声パラメータをRAM112の音声モデルに与え、これに伴ってガーベージモデル350から出力される生起確率が所定値以上となったときは、第1音声モデルネットワーク300に属する音声モデルから出力される生起確率に基づいて、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開し、リングバッファ108における音声パラメータの読出ポインタを所定順序と逆の順序で所定数戻し、その読出ポインタから所定順序で音声パラメータを読み出し、読み出した音声パラメータをRAM112の音声モデルに与えるようになっている。
これにより、ガーベージモデル350の生起確率が所定値となるまである程度の遅延時間を要するので、リングバッファ108における音声パラメータの読出ポインタを戻すことにより、音声モデルグループ402のうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響を低減し、比較的正確な音声認識を行うことができる。
さらに、本実施の形態では、照合処理部114は、第1音声モデルネットワーク300のなかから生起確率が最も高いラベル系列を第1認識音声モデルとして特定し、音声モデルグループ402のうち第1認識音声モデルと結合関係を有するものに属する音声モデルをRAM112に展開し、第1認識音声モデルからガーベージモデル350に生起確率の変動が伝搬するまでの所要時間を算出し、リングバッファ108における音声パラメータの読出ポインタを所要時間に相当する数だけ戻すようになっている。
これにより、第1認識音声モデルからガーベージモデル350に生起確率の変動が伝搬するまでの時間に相当する数だけ音声パラメータの読出ポインタが戻されるので、音声モデルグループ402のうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができる。
さらに、本実施の形態では、照合処理部114は、リングバッファ108における音声パラメータの読出ポインタを、第1認識音声モデルを特定した時点における読出ポインタから所要時間に相当する数だけ戻すようになっている。
これにより、音声パラメータの読出ポインタが、第1認識音声モデルを特定した時点における読出ポインタを基準として、第1認識音声モデルからガーベージモデル350に生起確率の変動が伝搬するまでの時間に相当する数だけ戻されるので、音声モデルグループ402のうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができる。
上記第1の実施の形態において、音声パラメータ抽出部106は、請求の範囲第2ないし第4、第6または第13項記載の音声パラメータ抽出手段に対応し、音声パラメータ抽出部106による抽出は、請求の範囲第15項記載の音声パラメータ抽出ステップに対応し、リングバッファ108は、請求の範囲第6ないし第8項記載の音声パラメータ記憶手段に対応している。また、RAM112は、請求の範囲第1ないし第4、第6、第7、第10、第12ないし第15項記載の音声モデル展開用記憶手段に対応し、照合処理部114は、請求の範囲第2ないし第4、第6ないし第8、第10または第13項記載の音声認識手段に対応している。
また、上記第1の実施の形態において、第1音声モデルネットワーク300および第2音声モデルネットワーク400は、請求の範囲第1、第12または第14項記載の音声モデルネットワークに対応し、音声モデルグループ306または音声モデルグループ308は、請求の範囲第1、第12若しくは第14項記載の親音声モデルグループ、または請求の範囲第2ないし第7、第10、第13若しくは第15項記載の第1音声モデルグループに対応している。また、ガーベージモデル350は、請求の範囲第1ないし第7、第11ないし第15項記載の非特定音声認識用音声モデルに対応し、音声モデルグループ402は、請求の範囲第1、第12若しくは第14項記載の子音声モデルグループ、請求の範囲第2ないし第4、第6、第7、第10、第13若しくは第15項記載の第2音声モデルグループ、または請求の範囲第2ないし第4、第6、第7、第10、第13若しくは第15項記載の第3音声モデルグループに対応している。
次に、本発明の第2の実施の形態を説明する。
本実施の形態は、本発明に係る音声認識装置を、図1に示すように、複数の音声モデルを結合した音声モデルネットワークを利用して住所等の比較的長い単語列の音声を認識する場合について適用したものであり、上記第1の実施の形態と異なるのは、音声モデルテンプレートから音声モデルを構成する点にある。
音声モデル記憶部110には、音声モデルグループ402に属する音声モデルに代えて、それら音声モデルが認識可能な特定音声の発音を表記した仮名文字列を記憶されているとともに、仮名文字列に基づいて音声モデルを構成可能な音声モデルテンプレートを、音声モデルグループ402に属する音声モデルの数だけ記憶されている。
照合処理部114は、第1音声モデルネットワーク300に属する音声モデル、ガーベージモデル350、仮名文字列および音声モデルテンプレートを音声モデル記憶部110から読み出し、読み出した音声モデル、ガーベージモデル350、仮名文字列および音声モデルテンプレートをRAM112に展開する。
次いで、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開する場合は、RAM112の仮名文字列のうちRAM112に展開すべき音声モデルに対応するものに基づいて、RAM112の音声モデルテンプレートから音声モデルを構成する。
HMMを用いた音声認識を行う場合、最終的には、認識させたい単語、例えば「ほっかいどう」をHMM系列に変換することが必要となる。この場合、まず、「ほっかいどう」を、音韻系列「h,q,ts,k,a,i,d,o,u」に変換する。その後、さらに、音韻系列「h,q,ts,k,a,i,d,o,u」をさらに詳細な音韻系列に分割することもあるが、最終的には、各音韻系列に対応したHMM系列を作成する。
図2の例では、それぞれの音韻系列に対して、HMMの状態が3つ割り当てられている。すなわち、「ほっかいどう」という文字データが、9(音韻系列)×3(状態数)=27の状態となることを意味する。「ほっかいどう」は、半角仮名で表せば、6[Byte]のデータとなる。一方、HMMの各状態は、各2[Byte]で表されるとすれば、27×2=54[Byte]となる。
また、音声モデルネットワークのデータとしては、音声モデルと音声モデルの連結情報(グラマーまたはルール)が記述されている。例えば、「ほっかいどう」という単語は、「北海道の市町村名」に連結されている情報である。さらに、単語が認識された場合に単語のIDとして認識結果を返す場合は、単語のID値等が含まれる場合もある。その他、音声認識では、これ以上のデータが音声モデルネットワークのデータとして含まれている。
したがって、音声モデルをRAM112にそのまま展開する場合と、仮名文字列および音声モデルテンプレートをRAM112に展開しておき、音声認識に必要な分だけ音声モデルを構成する場合とを比較すると、後者の方が必要なメモリ容量が少ない。
次に、本実施の形態の動作を説明する。
ここでは、カーナビゲーション等で用いられる住所等の比較的長い単語列の音声を認識する場合を例にとって説明する。
音声認識を行うにあたっては、照合処理部114により、第1音声モデルネットワーク300に属する音声モデル、ガーベージモデル350、仮名文字列および音声モデルテンプレートが音声モデル記憶部110から読み出され、読み出された音声モデル、ガーベージモデル350、仮名文字列および音声モデルテンプレートがRAM112に展開される。
この状態で、話者からの音声がマイク102から入力されると、A/D変換器104により、マイク102からの入力音声がA/D変換され、音声パラメータ抽出部106により、A/D変換器104で変換された音声データから音声パラメータが抽出され、抽出された音声パラメータがリングバッファ108において書込ポインタが指し示すアドレスに書き込まれる。これにより、音声パラメータは、音声パラメータ抽出部106から抽出された順番でリングバッファ108に循環的に書き込まれていく。
次いで、照合処理部114により、リングバッファ108において読出ポインタが示すアドレスから音声パラメータが読み出され、読出ポインタが1加算される。このとき、読出ポインタが記憶領域の末尾のアドレスに達すると、読出ポインタが先頭のアドレスに設定される。
次いで、読み出された音声パラメータがRAM112の音声モデルに与えられる。これに伴ってガーベージモデル350から出力される生起確率が所定値以上となると、第1音声モデルネットワーク300のなかから、生起確率の積算値が最も高いラベル系列が第1認識音声モデルとして特定される。
次いで、音声モデルグループ402のうち第1認識音声モデルの末尾に結合すべきものに属する音声モデルおよびポーズ404をRAM112に展開する必要があるが、この場合、RAM112の仮名文字列のうちRAM112に展開すべき音声モデルに対応するものに基づいて、RAM112の音声モデルテンプレートから音声モデルが構成される。
次いで、第1認識音声モデルからガーベージモデル350に生起確率の変動が伝搬するまでの所要時間が算出され、リングバッファ108における音声パラメータの読出ポインタが、算出された所要時間に相当する数だけ戻される。このとき、読出ポインタが記憶領域の先頭のアドレスに達すると、読出ポインタが末尾のアドレスに設定される。読出ポインタを戻すのは、ガーベージモデル350の生起確率が所定値となるまでの遅延時間の影響を低減するためである。
そして、リングバッファ108において読出ポインタが示すアドレスから音声パラメータが読み出され、読み出された音声パラメータがRAM112の音声モデルに与えられる。これに伴って音声モデルグループ402のなかから、生起確率の積算値が最も高い音声モデルが第2認識音声モデルとして特定される。
[実施例]
次に、本発明の実施例を説明する。なお、単語数等の条件は、上記実施例と同様とする。
従来のように、第1音声モデルネットワーク300および第2音声モデルネットワーク400に属するすべての音声モデルをRAM112に展開して音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約20〔MByte〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約1〔MByte〕となり、合計21〔MByte〕のメモリ容量を消費することとなる。
これに対し、本発明のように、第1音声モデルネットワーク300に属する音声モデルおよびガーベージモデル350をRAM112に展開して前段の音声認識を行い、仮名文字列に基づいて音声テンプレートから音声モデルを構成して後段の音声認識を行う場合は、音声モデルを展開するのに必要なメモリ容量が約0.86〔MByte〕となり、ビタビアルゴリズム等の音声認識処理で必要なメモリ容量が約0.5〔MByte〕となり、合計1.36〔MByte〕のメモリ容量を消費することとなる。したがって、従来に比して、必要なメモリ容量を93%低減することができた。
このようにして、本実施の形態では、照合処理部114は、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開する場合は、RAM112の仮名文字列のうちRAM112に展開すべき音声モデルに対応するものに基づいて、RAM112の音声モデルテンプレートから音声モデルを構成するようになっている。
これにより、一般に音声モデルテンプレートは音声モデルに比してデータ容量が少ないので、音声モデルを必要なときに動的に展開することにより、音声認識を行うにあたって必要なメモリ容量をさらに低減することができる。また、一連の音声認識を行うにあたって、音声モデル記憶部110から音声モデルの読出が行われないので、音声モデルの読出に要する時間を低減することができる。
上記第2の実施の形態において、RAM112は、請求の範囲第9項記載の音声モデル展開用記憶手段に対応し、照合処理部114は、請求の範囲第9項記載の音声認識手段に対応し、音声モデルグループ402は、請求の範囲第9項記載の第2音声モデルグループ、または請求の範囲第9項記載の第3音声モデルグループに対応している。また、仮名文字列は、請求の範囲第9項記載の発音表記文字列に対応している。
なお、上記第2の実施の形態において、照合処理部114は、第1音声モデルネットワーク300に属する音声モデル、ガーベージモデル350、仮名文字列および音声モデルテンプレートを音声モデル記憶部110から読み出し、読み出した音声モデル、ガーベージモデル350、仮名文字列および音声モデルテンプレートをRAM112に展開し、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開する場合は、RAM112の仮名文字列のうちRAM112に展開すべき音声モデルに対応するものに基づいて、RAM112の音声モデルテンプレートから音声モデルを構成するようにしたが、これに限らず、仮名文字列または音声モデルテンプレートについては後段の音声認識(第2音声モデルネットワーク400による音声認識)に必要な分だけRAM112に読み込むように構成するしてもよい。
また、上記第1および第2の実施の形態においては、第1音声モデルネットワーク300の後方にガーベージモデル350を結合するように構成したが、これに限らず、第1音声モデルネットワーク300の前方にガーベージモデル350を結合し、第1音声モデルネットワーク300に属する音声モデルから出力される生起確率に基づいて、音声モデルグループ402のうちいずれかに属する音声モデルをRAM112に展開するように構成してもよい。
また、上記第1および第2の実施の形態において、ガーベージモデル350が複数の履歴情報をもつことができる場合は、音声モデルネットワークの切換時において、所望の候補数に応じた音声モデルネットワークを構築し、認識処理を行うことができる。上記地名認識の例では、例えば、第1音声モデルネットワーク300で得られた第一候補がラベル系列「神奈川県→藤沢市」で、第二候補がラベル系列「神奈川県→厚木市」である場合は、ラベル系列「神奈川県→藤沢市」に結合すべき音声モデルネットワークと、ラベル系列「神奈川県→厚木市」に結合すべき音声モデルネットワークとを構築し、一方の音声モデルネットワークにおけるそれぞれの生起確率と、他方の音声モデルネットワークにおけるそれぞれの生起確率を考慮して、最終認識結果を出力することができる。
また、上記第1および第2の実施の形態において、音声パラメータ抽出部106および照合処理部114の機能を実現するにあたってはいずれも、ROM116にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをRAM112に読み込んで実行するようにしてもよい。
ここで、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
また、上記第1および第2の実施の形態においては、本発明に係る音声認識装置を、図1に示すように、複数の音声モデルを結合した音声モデルネットワークを利用して住所等の比較的長い単語列の音声を認識する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。
産業上の利用可能性
以上説明したように、本発明に係る請求の範囲第1項記載の音声認識装置によれば、結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合であっても、音声モデル展開用記憶手段には、すべての子音声モデルグループについてその音声モデルを展開することなく、いずれかの子音声モデルグループについてその音声モデルを展開するだけですむので、従来に比して、音声認識を行うにあたって必要なメモリ容量を低減することができるという効果が得られる。
さらに、本発明に係る請求の範囲第2ないし第11項記載の音声認識装置によれば、結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合であっても、音声モデル展開用記憶手段には、第2音声モデルグループおよび第3音声モデルグループの両方についてその音声モデルを展開することなく、第2音声モデルグループおよび第3音声モデルグループのうちいずれかについてその音声モデルを展開するだけですむので、従来に比して、音声認識を行うにあたって必要なメモリ容量を低減することができるという効果が得られる。
さらに、本発明に係る請求の範囲第4項記載の音声認識装置によれば、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルを音声モデル展開用記憶手段に展開するに伴って、第1音声モデルグループに属する音声モデルおよび非特定音声認識用音声モデルが音声モデル展開用記憶手段から削除されるので、音声認識を行うにあたって必要なメモリ容量をさらに低減することができるという効果も得られる。
さらに、本発明に係る請求の範囲第5ないし第8項記載の音声認識装置によれば、第1音声モデルグループを上位階層として階層的な結合関係を有する複数の音声モデルグループを利用して音声認識を行う場合に、必要なメモリ容量を低減することができるという効果も得られる。
さらに、本発明に係る請求の範囲第6ないし第8項記載の音声認識装置によれば、非特定音声認識用音声モデルの生起確率が所定値となるまである程度の遅延時間を要するので、音声パラメータ記憶手段における音声パラメータの読出位置を戻すことにより、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響を低減し、比較的正確な音声認識を行うことができるという効果も得られる。
さらに、本発明に係る請求の範囲第7または第8項記載の音声認識装置によれば、認識音声モデルから非特定音声認識用音声モデルに生起確率の変動が伝搬するまでの時間に相当する数だけ音声パラメータの読出位置が戻されるので、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができるという効果も得られる。
さらに、本発明に係る請求の範囲第8項記載の音声認識装置によれば、音声パラメータの読出位置が、認識音声モデルを特定した時点における読出位置を基準として、認識音声モデルから非特定音声認識用音声モデルに生起確率の変動が伝搬するまでの時間に相当する数だけ戻されるので、第2音声モデルグループおよび第3音声モデルグループのうちいずれかに属する音声モデルを利用して音声認識を行う場合に、遅延時間の影響をさらに低減し、より正確な音声認識を行うことができるという効果も得られる。
さらに、本発明に係る請求の範囲第9項記載の音声認識装置によれば、一般に音声モデルテンプレートは音声モデルに比してデータ容量が少ないので、音声モデルを必要なときに動的に展開することにより、音声認識を行うにあたって必要なメモリ容量をさらに低減することができるという効果も得られる。
一方、本発明に係る請求の範囲第12項記載の音声認識プログラムによれば、請求の範囲第1項記載の音声認識装置と同等の効果が得られる。
さらに、本発明に係る請求の範囲第13項記載の音声認識プログラムによれば、請求の範囲第2項記載の音声認識装置と同等の効果が得られる。
一方、本発明に係る請求の範囲第14項記載の音声認識方法によれば、請求の範囲第1項記載の音声認識装置と同等の効果が得られる。
さらに、本発明に係る請求の範囲第15項記載の音声認識方法によれば、請求の範囲第2項記載の音声認識装置と同等の効果が得られる。
【図面の簡単な説明】
図1は、音声認識装置100の構成を示すブロック図である。図2は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。図2(A)は、音韻の直列接続による単語音声モデルを示す図であり、図2(B)は、各音韻のHMM状態遷移を示す図である。図3は、第1音声モデルネットワーク300の構成を示す図である。図4は、ガーベージモデル350の構成を示す図である。図5は、第2音声モデルネットワーク400の構成を示す図である。図6は、音声モデルネットワークの切換タイミングを示すタイムチャートである。図7は、所定区分に分類した音韻セットを示す図である。
図8は、音韻の直列接続ネットワークによりモデル化した音声モデルの概念を示す図である。図8(A)は、音韻の直列接続ネットワークによる男女共用単語音声モデルを示す図であり、図8(B)は、各音韻のHMM状態遷移を示す図である。図9は、音声モデルネットワーク500の構成を示す図である。
Claims (15)
- 与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う装置であって、
前記音声モデルを展開するための音声モデル展開用記憶手段を備え、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、
前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、
音声認識を行う際は、
前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、
入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。 - 与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを備え、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う装置であって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した第1音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第1音声モデルグループに属するいずれかの音声モデルと結合関係を有する第2音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第1音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第3音声モデルグループと、
前記第1音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、
前記音声モデルを展開するための音声モデル展開用記憶手段と、
前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段と、
前記第1音声モデルグループ、前記第2音声モデルグループ及び前記第3音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段とを備え、
前記音声認識手段は、前記第1音声モデルグループに属する音声モデル及び前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第1音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。 - 請求の範囲第2項において、
前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が所定値以上となったときは、前記第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。 - 請求の範囲第2及び第3項のいずれかにおいて、
前記音声認識手段は、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第1音声モデルグループに属する音声モデル及び前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段から削除し、前記第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識装置。 - 請求の範囲第3及び第4項のいずれかにおいて、
前記非特定音声認識用音声モデルは、前記第1音声モデルグループに属する音声モデルと結合しており、
前記音声パラメータを与えるに伴って、前記第1音声モデルグループの音声モデル及び前記非特定音声認識用音声モデルの順で前記生起確率の変動が伝搬するようになっていることを特徴とする音声認識装置。 - 請求の範囲第5項において、
さらに、前記音声パラメータを記憶するための音声パラメータ記憶手段を備え、
前記音声パラメータ抽出手段は、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータを前記音声パラメータ記憶手段に所定順序で格納するようになっており、
前記音声認識手段は、前記音声パラメータ記憶手段から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記非特定音声認識用音声モデルから出力される生起確率が前記所定値以上となったときは、前記第1音声モデルグループに属する音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所定順序と逆の順序で所定数戻し、その読出位置から前記所定順序で前記音声パラメータを読み出し、読み出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与えるようになっていることを特徴とする音声認識装置。 - 請求の範囲第6項において、
前記音声認識手段は、前記第1音声モデルグループのなかから前記生起確率が最も高い音声モデルを認識音声モデルとして特定し、前記第2音声モデルグループ及び前記第3音声モデルグループのうち前記認識音声モデルと結合関係を有するものに属する音声モデルを前記音声モデル展開用記憶手段に展開し、前記認識音声モデルから前記非特定音声認識用音声モデルに前記生起確率の変動が伝搬するまでの所要時間を算出し、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を前記所要時間に相当する数だけ戻すようになっていることを特徴とする音声認識装置。 - 請求の範囲第7項において、
前記音声認識手段は、前記音声パラメータ記憶手段における前記音声パラメータの読出位置を、前記認識音声モデルを特定した時点における前記読出位置から前記所要時間に相当する数だけ戻すようになっていることを特徴とする音声認識装置。 - 請求の範囲第2乃至第8項のいずれかにおいて、
前記第2音声モデルグループ及び前記第3音声モデルグループに属する音声モデルに代えて、それら音声モデルが認識可能な特定音声の発音を表記した発音表記文字列を前記音声モデル展開用記憶手段に記憶するとともに、前記発音表記文字列に基づいて前記音声モデルを構成可能な音声モデルテンプレートを、前記第2音声モデルグループに属する音声モデルの数及び前記第3音声モデルグループに属する音声モデルの数のうち多い方に相当する数だけ前記音声モデル展開用記憶手段に記憶しておき、
前記音声認識手段は、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する場合は、前記音声モデル展開用記憶手段の発音表記文字列のうち前記音声モデル展開用記憶手段に展開すべき音声モデルに対応するものに基づいて、前記音声モデル展開用記憶手段の音声モデルテンプレートから前記音声モデルを構成するようになっていることを特徴とする音声認識装置。 - 請求の範囲第2乃至第9項のいずれかにおいて、
前記音声認識手段は、前記第1音声モデルグループのなかから前記生起確率が最も高い音声モデルを第1認識音声モデルとして特定し、前記第2音声モデルグループ及び前記第3音声モデルグループのうち前記音声モデル展開用記憶手段に展開したもののなかから前記生起確率が最も高い音声モデルを第2認識音声モデルとして特定し、前記第1認識音声モデルの特定音声及び前記第2認識音声モデルの特定音声を結合したものが入力音声に含まれていると判定するようになっていることを特徴とする音声認識装置。 - 請求の範囲第2乃至第10項のいずれかにおいて、
前記非特定音声認識用音声モデルは、ガーベージモデルであることを特徴とする音声認識装置。 - 与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行うプログラムであって、
前記音声モデルを展開するための音声モデル展開用記憶手段を備えたコンピュータに対して、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、
前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、
音声認識を行う際は、
前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記親音声モデルグループに属する音声モデルを前記音声モデル展開用記憶手段に展開し、
入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開する処理を実行させるためのプログラムであることを特徴とする音声認識プログラム。 - 与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行うプログラムであって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した第1音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第1音声モデルグループに属するいずれかの音声モデルと結合関係を有する第2音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第1音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第3音声モデルグループと、
前記第1音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデルと、
前記音声モデルを展開するための音声モデル展開用記憶手段とを利用可能なコンピュータに対して、
前記音声パラメータを入力音声から抽出する音声パラメータ抽出手段、並びに、前記第1音声モデルグループ、前記第2音声モデルグループ及び前記第3音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出手段で抽出した音声パラメータに基づいて音声認識を行う音声認識手段として実現される処理を実行させるためのプログラムであり、
前記音声認識手段は、前記第1音声モデルグループに属する音声モデル及び前記非特定音声認識用音声モデルを前記音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出手段で抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第1音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開するようになっていることを特徴とする音声認識プログラム。 - 与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う方法であって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した音声モデルグループを複数構成し、それら音声モデルグループについて所定の結合関係を規定した音声モデルネットワークを構成し、
前記音声モデルネットワークのうち複数の音声モデルグループと結合関係を有するものを親音声モデルグループとし、前記音声モデルネットワークのうち前記親音声モデルグループと結合関係を有するものを子音声モデルグループとし、
音声認識を行う際は、
前記親音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記親音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、
入力音声から抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記親音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記子音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開することを特徴とする音声認識方法。 - 与えられた音声パラメータに基づいて入力音声に特定音声が含まれている可能性を生起確率として出力するとともに特定音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された音声モデルを利用し、前記音声パラメータを入力音声から抽出し、抽出した音声パラメータ及び前記音声モデルに基づいて音声認識を行う方法であって、
前記特定音声パラメータが異なる複数の音声モデルをグループ化した第1音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第1音声モデルグループに属するいずれかの音声モデルと結合関係を有する第2音声モデルグループと、
前記特定音声パラメータが異なる複数の音声モデルをグループ化し且つ前記第1音声モデルグループに属する他のいずれかの音声モデルと結合関係を有する第3音声モデルグループとを構成し、
前記音声パラメータを入力音声から抽出する音声パラメータ抽出ステップと、
前記第1音声モデルグループ、前記第2音声モデルグループ及び前記第3音声モデルグループに属する音声モデル、並びに前記音声パラメータ抽出ステップで抽出した音声パラメータに基づいて音声認識を行う音声認識ステップとを含み、
前記音声認識ステップは、前記第1音声モデルグループに属する音声モデルが認識可能な特定音声以外の音声を示す音声パラメータが与えられたときに前記生起確率が高くなるようにモデル化された非特定音声認識用音声モデル、及び前記第1音声モデルグループに属する音声モデルを音声モデル展開用記憶手段に展開し、前記音声パラメータ抽出ステップで抽出した音声パラメータを前記音声モデル展開用記憶手段の音声モデルに与え、これに伴って前記第1音声モデルグループに属する音声モデルから出力される生起確率及び前記非特定音声認識用音声モデルから出力される生起確率に基づいて、前記第2音声モデルグループ及び前記第3音声モデルグループのうちいずれかに属する音声モデルを前記音声モデル展開用記憶手段に展開することを特徴とする音声認識方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002135770 | 2002-05-10 | ||
JP2002135770 | 2002-05-10 | ||
PCT/JP2003/005695 WO2003096324A1 (fr) | 2002-05-10 | 2003-05-07 | Dispositif de reconnaissance vocale |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2003096324A1 JPWO2003096324A1 (ja) | 2005-09-15 |
JP4316494B2 true JP4316494B2 (ja) | 2009-08-19 |
Family
ID=29416761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004508528A Expired - Fee Related JP4316494B2 (ja) | 2002-05-10 | 2003-05-07 | 音声認識装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7487091B2 (ja) |
EP (1) | EP1505573B1 (ja) |
JP (1) | JP4316494B2 (ja) |
KR (1) | KR100650473B1 (ja) |
CN (1) | CN1320520C (ja) |
AU (1) | AU2003235868A1 (ja) |
DE (1) | DE60323362D1 (ja) |
WO (1) | WO2003096324A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1564721A1 (en) * | 2002-11-21 | 2005-08-17 | Matsushita Electric Industrial Co., Ltd. | Standard model creating device and standard model creating method |
WO2005034086A1 (ja) * | 2003-10-03 | 2005-04-14 | Asahi Kasei Kabushiki Kaisha | データ処理装置及びデータ処理装置制御プログラム |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
JP5166425B2 (ja) * | 2006-10-24 | 2013-03-21 | ヴォイスエイジ・コーポレーション | 音声信号中の遷移フレームの符号化のための方法およびデバイス |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
US8595010B2 (en) * | 2009-02-05 | 2013-11-26 | Seiko Epson Corporation | Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
EP2357647B1 (de) * | 2010-01-11 | 2013-01-02 | Svox AG | Verfahren zur Spracherkennung |
US9001976B2 (en) * | 2012-05-03 | 2015-04-07 | Nexidia, Inc. | Speaker adaptation |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
WO2015034504A1 (en) * | 2013-09-05 | 2015-03-12 | Intel Corporation | Mobile phone with variable energy consuming speech recognition module |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
US9542927B2 (en) | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
US10053616B2 (en) * | 2015-04-09 | 2018-08-21 | Saudi Arabian Oil Company | Encapsulated nanocompositions for increasing hydrocarbon recovery |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
CN110556103B (zh) * | 2018-05-31 | 2023-05-30 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、系统、设备和存储介质 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
CN110875033A (zh) * | 2018-09-04 | 2020-03-10 | 蔚来汽车有限公司 | 用于确定语音结束点的方法、装置和计算机存储介质 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
CN110517679B (zh) * | 2018-11-15 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 一种人工智能的音频数据处理方法及装置、存储介质 |
KR20200063521A (ko) | 2018-11-28 | 2020-06-05 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
KR20210001082A (ko) * | 2019-06-26 | 2021-01-06 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 |
US11694685B2 (en) * | 2020-12-10 | 2023-07-04 | Google Llc | Hotphrase triggering based on a sequence of detections |
CN112786055A (zh) * | 2020-12-25 | 2021-05-11 | 北京百度网讯科技有限公司 | 资源挂载方法、装置、设备、存储介质及计算机程序产品 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6417292A (en) * | 1987-07-09 | 1989-01-20 | Nec Corp | Static memory circuit |
US5909666A (en) * | 1992-11-13 | 1999-06-01 | Dragon Systems, Inc. | Speech recognition system which creates acoustic models by concatenating acoustic models of individual words |
US6230128B1 (en) * | 1993-03-31 | 2001-05-08 | British Telecommunications Public Limited Company | Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links |
JP2775140B2 (ja) * | 1994-03-18 | 1998-07-16 | 株式会社エイ・ティ・アール人間情報通信研究所 | パターン認識方法、音声認識方法および音声認識装置 |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
JP3039634B2 (ja) * | 1997-06-16 | 2000-05-08 | 日本電気株式会社 | 音声認識装置 |
JPH1115492A (ja) * | 1997-06-24 | 1999-01-22 | Mitsubishi Electric Corp | 音声認識装置 |
CA2216224A1 (en) | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6073095A (en) * | 1997-10-15 | 2000-06-06 | International Business Machines Corporation | Fast vocabulary independent method and apparatus for spotting words in speech |
US6061653A (en) * | 1998-07-14 | 2000-05-09 | Alcatel Usa Sourcing, L.P. | Speech recognition system using shared speech models for multiple recognition processes |
JP2000089782A (ja) | 1998-09-17 | 2000-03-31 | Kenwood Corp | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 |
FI116991B (fi) * | 1999-01-18 | 2006-04-28 | Nokia Corp | Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6195639B1 (en) * | 1999-05-14 | 2001-02-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Matching algorithm for isolated speech recognition |
JP4642953B2 (ja) | 1999-09-09 | 2011-03-02 | クラリオン株式会社 | 音声検索装置、および、音声認識ナビゲーション装置 |
GB2364814A (en) * | 2000-07-12 | 2002-02-06 | Canon Kk | Speech recognition |
JP4116233B2 (ja) | 2000-09-05 | 2008-07-09 | パイオニア株式会社 | 音声認識装置ならびにその方法 |
JP4283984B2 (ja) * | 2000-10-12 | 2009-06-24 | パイオニア株式会社 | 音声認識装置ならびに方法 |
JP3584002B2 (ja) * | 2001-03-29 | 2004-11-04 | 三洋電機株式会社 | 音声認識装置および音声認識方法 |
US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
-
2003
- 2003-05-07 AU AU2003235868A patent/AU2003235868A1/en not_active Abandoned
- 2003-05-07 WO PCT/JP2003/005695 patent/WO2003096324A1/ja active IP Right Grant
- 2003-05-07 JP JP2004508528A patent/JP4316494B2/ja not_active Expired - Fee Related
- 2003-05-07 DE DE60323362T patent/DE60323362D1/de not_active Expired - Lifetime
- 2003-05-07 EP EP03723248A patent/EP1505573B1/en not_active Expired - Fee Related
- 2003-05-07 KR KR1020047018136A patent/KR100650473B1/ko not_active IP Right Cessation
- 2003-05-07 US US10/513,753 patent/US7487091B2/en not_active Expired - Fee Related
- 2003-05-07 CN CNB038105667A patent/CN1320520C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100650473B1 (ko) | 2006-11-29 |
DE60323362D1 (de) | 2008-10-16 |
EP1505573B1 (en) | 2008-09-03 |
JPWO2003096324A1 (ja) | 2005-09-15 |
WO2003096324A1 (fr) | 2003-11-20 |
CN1320520C (zh) | 2007-06-06 |
AU2003235868A1 (en) | 2003-11-11 |
US20050203737A1 (en) | 2005-09-15 |
EP1505573A1 (en) | 2005-02-09 |
CN1653518A (zh) | 2005-08-10 |
EP1505573A4 (en) | 2005-07-13 |
US7487091B2 (en) | 2009-02-03 |
KR20040102224A (ko) | 2004-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4316494B2 (ja) | 音声認識装置 | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
WO2017213055A1 (ja) | 音声認識装置及びコンピュータプログラム | |
US9093061B1 (en) | Speech recognition with hierarchical networks | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
Moore et al. | Juicer: A weighted finite-state transducer speech decoder | |
US20030009335A1 (en) | Speech recognition with dynamic grammars | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
JP3803029B2 (ja) | 音声認識装置 | |
JP4671898B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラム | |
KR20130059476A (ko) | 음성 인식용 탐색 공간 생성 방법 및 장치 | |
JPH0728487A (ja) | 音声認識方法 | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
JP4940057B2 (ja) | 音声認識装置及びその方法 | |
WO2002029615A1 (en) | Search method based on single triphone tree for large vocabulary continuous speech recognizer | |
JP2003208195A5 (ja) | ||
WO2003060878A1 (fr) | Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
US8260614B1 (en) | Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP6995967B2 (ja) | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 | |
JPH08248975A (ja) | 標準パターン学習装置およびこの装置を使用した音声認識装置 | |
JP2018013590A (ja) | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ | |
JP2004110673A (ja) | 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090520 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4316494 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120529 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120529 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130529 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130529 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140529 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |