JP2017116714A

JP2017116714A - 音声入力装置、その方法及びプログラム

Info

Publication number: JP2017116714A
Application number: JP2015251507A
Authority: JP
Inventors: 亮増村; Akira Masumura; 賢昭佐藤; Takaaki Sato
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2017-06-29
Anticipated expiration: 2035-12-24
Also published as: JP6367786B2

Abstract

【課題】N階層の階層的フレーズ木に基づく入力において、音声入力により、第n-1階層以下を入力せずに第n階層の入力することができ、同時に第n-1階層以下の入力値を取得することができる音声入力装置等を提供する。
【解決手段】音声入力装置は、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む。
【選択図】図３

Description

本発明は、入力音声に対する音声認識結果を入力対象に入力する音声入力装置、その方法及びプログラムに関する。

既存のパソコン（以下「PC」ともいう）やスマートフォン上の入力は、キーボード入力やクリックによる入力など多種多様であるが、音声認識と組み合わせることでさらなる利便性の向上が検討されてきた。例えば、音声検索では、従来キーボートで文字列を入力することで検索していたものを、音声で入力することで検索し、利便化が図られている。例えば音声検索の従来技術として特許文献１が挙げられる。

また、入力システムとして階層的フレーズ木に基づく入力がある。例えば、医療分野における所見情報入力システムや、流通分野における発注情報入力システムにおいては、しばしば階層的フレーズ木を利用した入力システムが組まれている。階層的フレーズ木とは、複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものである。階層的フレーズ木の例を図１に示す。例えば流通分野におけるスーパーの発注システムであれば、第一階層のカテゴリは例えば「商品の大カテゴリ」であり、「食品」、「雑貨」、「日用品」などがフレーズとして存在する。第二階層のカテゴリは例えば「商品の中カテゴリ」であり、第一階層のカテゴリが「食品」の場合、その木の枝につながる第二階層のフレーズは「飲料」「野菜」「鮮魚」「その他の食品」などが考えられる。第三階層であれば、例えばカテゴリは「商品名」であり、第一階層が「食品」、第二階層が「鮮魚」の場合、その木の枝につながる第三階層には「まぐろ」「鮭」「さんま」「鯖」などのフレーズが存在することが考えられる。以下、同様に第三階層、第四階層と複数の階層について階層木構造をなしている。

このような階層的フレーズ木を利用した入力システムは、通常PC等で動作するソフトウエアにおいて、図２のようなカラム入力として作られることが多い。第一カラムが階層的フレーズ木の第一階層と対応付いている。同様に、第二カラム以降が階層的フレーズ木の第二階層以降と対応付いている。つまり、階層的フレーズ木の第n階層のフレーズ群が第nカラムの入力に対応する。各カラムには、各階層に属するフレーズが入力可能な候補となっており、選択式でカラムに入力する内容を決定することができる。また階層的フレーズ木を活かして、効率的に候補を絞ることができる。例えば第一カラムで「食品」を指定すると、第二カラムでは第一カラムで指定した木につながる候補である「飲料」「野菜」「鮮魚」「その他の食品」のみが候補として出てきて、その中から選択式でカラムの入力を選ぶことが可能となっている。言い換えると、第n-1階層で選択されたカラムの入力値に基づき、第n階層で選択可能なフレーズ群が絞られる。

このような階層的フレーズ木に基づく入力は、入力情報の構造化（データベース化）と深く結びついており、「食品」がどの程度発注されているか？「鮮魚」がどの程度発注されているか？などの情報を構造化しておくことに優れている。また、このような階層的フレーズ木に基づく入力は、階層的フレーズ木を準備すれば、簡単に構築することができる。

米国特許第７０２７９８７号明細書

階層的フレーズ木に基づく入力では、第一カラムから順番に入力することで、効率的に候補を減らしながら、カラムを埋めることが可能である。しかしながら、第一カラムから順番にカラムを指定していく行為はしばしば有用でない場合がある。例えば、前述の発注システムで「さんま」を発注したいと考えた場合、第一カラムで「食品」、第二カラムで「鮮魚」、第三カラムで「さんま」と順番に選択する必要があるが、第一カラムや第二カラムの選択は、しばしば労力となり得る。つまり、既存の階層的フレーズ木に基づく入力の課題は「利便性」である。

なお、既存の階層的フレーズ木に基づく入力が上述のような形態をとっている理由は２つある。一つは、最初から第三カラムを指定可能な入力としてしまうと、「食品」、「雑貨」、「日用品」のあらゆる第三カラムの存在の中から選択する必要があり、その指定の行為は非現実的である。もう一つは、第一カラムや第二カラムで指定される情報も、構造化しておきたいからである。

本発明は、N階層の階層的フレーズ木に基づく入力において、音声入力により、第n-1階層、第n-2階層、…、第1階層を入力せずに第n階層の入力することができ、同時に第n-1階層、第n-2階層、…、第1階層の入力値を取得することができる音声入力装置、その方法及びプログラムを提供することを目的とする。ただし、n=1,2,…,Nである。

上記の課題を解決するために、本発明の一態様によれば、音声入力装置は、複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音声入力方法は、複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、認識結果決定部が、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定ステップと、入力決定部が、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定ステップとを含む。

本発明によれば、第n-1階層、第n-2階層、…、第1階層を入力せずに第n階層の入力を行うことができ、同時に第n-1階層、第n-2階層、…、第1階層の入力値を取得することができるという効果を奏する。

階層的フレーズ木の例を示す図。階層的フレーズ木に基づく入力の例を示す図。第一実施形態に係る音声入力装置の機能ブロック図。第一実施形態に係る音声入力装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、階層的フレーズ木と大語彙連続音声認識システムを利用した音声によるカラム入力を実現する。本実施形態のポイントは階層的フレーズ木と大語彙連続音声認識システムを組み合わせる点にある。まず、階層的フレーズ木では、子ノードは、必ず、１つの親ノードを持つ（言い換えると、子ノードは複数の親ノードを持たない）ため、「深い階層のフレーズが決まれば、浅い階層のフレーズを一意に特定できる」。そのため、第n階層のカラムの入力値から根元までは一意に遡ることができる。本実施形態では、階層的フレーズ木のこの性質を利用する。例えば、前述の発注システムの例であれば、深い階層の「さんま」が決まれば、浅い階層の「鮮魚」や「食品」を一意に特定可能である。さらに、階層的フレーズ木の性質を大語彙連続音声認識システムと組み合わせることで、利便性に優れたカラム入力を実現する。具体的には、大語彙連続音声認識システムにより、あらゆる階層のフレーズの音声による入力をはじめから許容し、入力されたフレーズに応じて、浅い階層を含めた各カラムのフレーズを特定する仕組みを実現する。例えば前述の入力システムであれば、「さんま」と発話するのみで、第一カラム「食品」、第二カラム「鮮魚」、第三カラム「さんま」が埋まる仕組みである。さらに本実施形態では、階層的フレーズ木と大語彙連続音声認識の相性を上げるアルゴリズムを導入する。大語彙連続音声認識システムは公知の通り１００％正確に音声認識できるわけではなく、音声認識誤りを起こしてしまう。そこで、大語彙連続音声認識システム自体が音声認識誤りを起こした場合でも、フレーズの入力がうまく動作するようにする。

＜第一実施形態＞
本実施形態には、階層的フレーズ木と大語彙連続音声認識システムが必要となる。例えば、階層的フレーズ木は電子データとして保存されているものであり、各フレーズに対して、階層の深さ、親階層のフレーズ、子階層のフレーズ群が分かるものを指す。また、大語彙連続音声認識システムは、階層的フレーズ木の全てのフレーズを認識可能な状態であれば、任意のものを使用できる。例えば、参考文献１や参考文献２に書かれたような技術を利用した大語彙連続音声認識システムを使用できる。
（参考文献１）鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄，“IT Text 音声認識システム”,オーム社出版局,2001年.
（参考文献２）荒木雅弘，“イラストで学ぶ音声認識”,講談社,2015年1月.
以下では、階層的フレーズ木と大語彙連続音声性認識システムがあるとして、ある音声が入力された場合のカラムの入力の決定方法についての流れを述べる。

＜第一実施形態に係る音声入力装置１００＞
図３は第一実施形態に係る音声入力装置１００の機能ブロック図を、図４はその処理フローを示す。音声入力装置１００は、大語彙連続音声認識部１０１、大語彙連続音声認識システム記憶部１０２、カラム入力情報決定部１０３及び階層的フレーズ木記憶部１２０を含む。さらに、カラム入力情報決定部１０３は、認識結果決定部１１０及びカラム入力決定部１３０を含む。

音声入力装置１００の入出力は以下の通りである。
入力：入力音声、階層的フレーズ木、大語彙連続音声認識システム
出力：各階層のカラムの入力情報

なお、この入力音声は人間が発話するものである。出力は図示しない後段のアプリケーションのカラムに入れたい入力情報である。例えば、入力音声「さんま」という発話であれば、出力は、「第一カラム：食品、第二カラム：鮮魚、第三カラム：さんま」といった情報になる。

階層的フレーズ木は音声入力に先立ち予め階層的フレーズ木記憶部１２０に記憶しておく。また、大語彙連続音声認識システムは、音声入力に先立ち予め大語彙連続音声認識システム記憶部１０２に記憶しておき、さらに、音声入力に先立ち予め大語彙連続音声認識システム記憶部１０２から取り出し、大語彙連続音声認識部１０１で利用できるようにしておく。以下、大語彙連続音声認識部１０１及びカラム入力情報決定部１０３における処理の概要を説明する。

＜大語彙連続音声認識部１０１＞
入力：入力音声、大語彙連続音声認識システム
出力：K個の音声認識結果候補
大語彙連続音声認識部１０１は、入力音声に対して大語彙連続音声認識システムで音声認識を行い（Ｓ１０１）、K個の音声認識結果候補を出力する。なお、Kは1以上の整数の何れかである。

大語彙連続音声認識システムは前述の通り任意のものを利用でき、その認識アルゴリズムはシステムによって異なる。K個の音声認識結果候補で受け取る。このK個の音声認識結果候補とは、大語彙連続音声認識システム側でランキング化されたものであり、通常N-best候補と呼ばれている。例えば、100-best候補であれば、上位100位の認識結果の候補を指す。N-bestの作成方法も同様に、大語彙連続音声認識システムに依存する。

大語彙連続音声認識部１０１は、K個の音声認識結果候補を出力する。例えば、K個の音声認識結果候補は順位付きで出力する。この順位は、認識時のスコアが高い順に順位づけされたものである。Kは、例えば100である。具体的な例としては、ここでは5個の認識結果候補を受け取ることとすると、入力が＜さんま＞という音声であった場合、出力は一位：「三間」、二位：「さんま」、三位「あっ三間」、四位「あっさんま」、五位「さん」といった出力である。なお、この例では、二位の結果が真の正解音声認識結果候補であり、それ以外の音声認識結果候補は音声認識誤りを起こしている。本来は「さんま」が一位にくることが優れた音声認識システムであるが、しばしばこのような音声認識誤りを起こすことは公知の事実である。また、各音声認識結果候補は、単語分割されている状態とする。つまり前述の、四位「あっさんま」であれば「あっ／さんま」と単語分割が分かる状態で出力される。

＜カラム入力情報決定部１０３＞
入力：K個の音声認識結果候補、階層的フレーズ木
出力：各カラムの入力情報
カラム入力情報決定部１０３は、K個の音声認識結果候補の情報と、階層的フレーズ木に基づいて各カラムの入力情報を決定し（Ｓ１０３）、出力する。以下、カラム入力情報決定部１０３に含まれる認識結果決定部１１０とカラム入力決定部１３０の処理内容を説明する。

＜認識結果決定部１１０＞
入力：K個の音声認識結果候補、階層的フレーズ木
出力：音声認識結果
認識結果決定部１１０は、階層的フレーズ木に基づき、入力音声に対してK個の音声認識結果候補の中から一つの最も信頼できる音声認識結果k^を決定し（Ｓ１１０）、出力する。

認識結果決定部の具体的な流れについて述べる。まず、K=1とした場合は、決定の余地がないため、その1つの音声認識結果候補自体が音声認識結果k^となる。K≧2の場合は、K個の音声認識結果候補の中の1つをどれか決定し、その音声認識結果候補が音声認識結果k^となる。では2個以上の場合の決定方法について述べる。

まず、次の(1)と(2)の2つの値を求める必要がある。なお、フレーズとは階層的フレーズ木の各ノードに存在する文字列のことを指す。

(1)各音声認識結果候補kに階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値N_kを求める。これはフレーズが多い音声認識結果候補ほど正しい可能性が高いという考えに基づく項である。ここでは音声認識結果候補kについてのフレーズの数を第一カウント値N_kとする。前述の例である、一位：「三間」、二位：「さんま」、三位「あっ三間」、四位「あっさんま」、五位「さん」という5個の音声認識結果候補についてそれぞれフレーズが含まれている個数を数えるとすると、図1の階層的フレーズ木を用いる場合、N₁=0、N₂=1、N₃=0、N₄=1、N₅=0となる。フレーズを数える手段は、各音声認識結果候補kの単語分割は分かる状態であるので、その各単語がフレーズ木の各ノードと同じものが何個あるかを数えることで容易に実現できる。

(2)2以上のフレーズが含まれる音声認識結果候補k(第一カウント値N_kが2以上の音声認識結果候補)に対して、音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値M_kを求める。ここでは、音声認識結果候補kについての合致しない数を第二カウント値M_kとする。これは合致しない音声認識結果候補に対するペナルティ項である。ここでは複数のフレーズが入力されてる場合の例が必要であるため、新たな例を挙げる。一位：「鮮魚の三間」、二位：「鮮魚のさんま」、三位「鮮魚のあっ三間」、四位「野菜あっさんま」、五位「野菜さん」という5個の音声認識結果候補だとする。なお、各音声認識結果候補の単語分割は、一位：「鮮魚／の／三間」、二位：「鮮魚／の／さんま」、三位「鮮魚／の／あっ／三間」、四位「野菜／あっ／さんま」、五位「野菜／さん」とする。この場合について図１の階層的フレーズ木を用いて(1)で計算したものは、それぞれN₁=1、N₂=2、N₃=1、N₄=2、N₅=1である。また(2)で計算するべきM_kについては、M₁=0、M₂=0、M₃=0、M₄=1、M₅=0となる。ここで、N_kが1以下の場合は、M_kは必ず0となる(M_k=0)。二位：「鮮魚のさんま」でM₂=0となるのは、「鮮魚」「さんま」という２つのフレーズについて、第三階層の「さんま」というフレーズについての木を根元にさかのぼった際に第二階層に「鮮魚」があるため、これは木構造に合致する。よって0となっている。一方、四位「野菜あっさんま」でM₄=1となるのは、「野菜」「さんま」という２つのフレーズについて、第三階層の「さんま」というフレーズについて木を根元にさかのぼった際にどこにも「野菜」が見つからないため、木構造に合致しないと判断され、1となっている。なお、「最も深い位置に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズ」とは、階層的フレーズ木には含まれるフレーズであって、最も深い位置に位置するフレーズから根元に遡った際に存在するフレーズには含まれないフレーズのことである。なお、各音声認識結果候補に1つのフレーズしか含まれない場合は、M_k=0となる。

以上の、(1)(2)で算出した値を元に、本大語彙連続音声認識部１０１の出力であるK個の音声認識結果候補kから一つを選択し、音声認識結果k^として出力する。

例えば、以下の式で一意に音声認識結果k^が決定される。

ここでk^は最も信頼できる音声認識結果候補がどれかを示すインデクスである。言い換えると、N_kとM_kとの差分N_k-M_kが最大となる音声認識結果候補を選択し、これを音声認識結果k^とする。

前述の一位：「鮮魚の三間」、二位：「鮮魚のさんま」、三位：「鮮魚のあっ三間」、四位：「野菜あっさんま」、五位：「野菜さん」（N₁=1、N₂=2、N₃=1、N₄=2、N₅=1、M₁=0、M₂=0、M₃=0、M₄=1、M₅=0）の場合、k^=2となり、二位の認識結果候補：「鮮魚のさんま」を出力の認識結果とする。なお、該当するk^が複数存在する場合は、大語彙連続音声認識システムによる順位が高いものを選択する。つまり、大語彙連続音声認識システムによる順位が1位のものと5位のものとが両者とも上記のk^に該当する場合、順位が高い1位の音声認識結果候補を音声認識結果k^として出力する。

＜カラム入力決定部１３０＞
入力：音声認識結果、階層的フレーズ木
出力：各カラムの入力情報
カラム入力決定部１３０は、認識結果と階層的フレーズ木に基づき、各カラムに入る情報を補完して各カラムの入力値を決定し（Ｓ１２０）、補間後の各カラムの入力情報を出力する。カラム入力決定部１３０の具体的な流れを述べる。

カラム入力決定部１３０は、階層的フレーズ木を元に、音声認識結果k^に含まれるフレーズの中から階層的フレーズ木の最も深い階層に位置するフレーズを特定する。なお、音声認識結果k^に同階層のフレーズが複数あった場合、最も後に発話されたフレーズを探索する。例えば、「鮮魚のさんま」が音声認識結果であった場合、図1の階層的フレーズ木を参考にした場合、この認識結果に含まれるフレーズは「鮮魚」と「さんま」であるが、最も深い位置にあるフレーズは第三階層に存在する「さんま」である。なお、音声認識結果の各フレーズと階層的フレーズ木の各ノードの対応は文字列マッチングで簡単に特定できる。また、音声認識結果が「さんま、鯖」で認識結果に含まれるフレーズが「さんま」と「鯖」のように同階層の場合は、あとに発話されたフレーズである「鯖」と決定する。

もっとも深い位置にあるフレーズを特定した後に、そのフレーズから階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得、保持し、第n階層において取得したフレーズを第nカラムの入力として決定する。例えば、図1の階層的フレーズ木について「さんま」に対して１つ根元に進むと「鮮魚」、もう１つ根元に進むと「食品」がある。これらの各フレーズを根元からの深さに応じて、「第一カラム：食品、第二カラム：鮮魚、第三カラム：さんま」といった形で、各カラムの入力情報を出力する。

＜効果＞
以上の構成により、第n-1階層、第n-2階層、…、第1階層のカラムを入力せずに第n階層のカラムを入力を行うことができ、同時に第n-1階層、第n-2階層、…、第1階層のカラムの入力値を取得することができる。よって、第一カラムから人手で順番に指定したりすることなく、入力したいフレーズ群を即座に入力可能な利便性の高い入力方式を作成できる。

＜変形例＞
本実施形態の音声入力装置１００は、大語彙連続音声認識部１０１、大語彙連続音声認識システム記憶部１０２を含むが、別装置として構成してもよい。その場合、音声入力装置１００は、K個の音声認識結果候補を入力とし、カラム入力情報決定部１０３において、本実施形態と同様の処理を行う。

本実施形態では、カラム入力を対象としたが、階層的フレーズ木に基づく入力方法であって、第n-1階層で選択されたフレーズに基づき、第n階層で選択可能なフレーズ群を絞るような入力方法であれば適用可能である。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、
階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定部と、
前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから前記階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定部とを含む、
音声入力装置。
請求項１の音声入力装置であって、
k=1,2,…,Kとし、前記認識結果決定部は、各音声認識結果候補kに前記階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値N_kを求め、前記第一カウント値N_kが2未満のとき、第二カウント値M_k=0とし、前記第一カウント値N_kが2以上のとき、前記各音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値M_kを求め、第一カウント値N_kと前記第二カウント値M_kとの差分N_k-M_kが最大となる音声認識結果候補を選択し、これを前記音声認識結果k^とする、
音声入力装置。
請求項１または請求項２の音声入力装置であって、
入力音声に対して音声認識を行い得られるK個の音声認識結果候補には、音声認識時のスコアが高い順に順位づけされた順位が付与されているものとし、
前記認識結果決定部は、前記差分N_k-M_kが同じ音声認識結果候補が複数存在する場合には、音声認識時のスコアが高いものを前記音声認識結果k^とする、
音声入力装置。
請求項１から請求項３の何れかの音声入力装置であって、
前記入力決定部は、前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定する際に、最も深い階層に位置するフレーズが複数個ある場合には、その中で最も後に発話されたフレーズをフレーズfとして特定する、
音声入力装置。
複数のフレーズ群が、あらかじめ階層木構造を持っており、階層ごとにカテゴリが決まっているものを階層的フレーズ木とし、階層的フレーズ木の第n階層のフレーズ群が第n入力に対応し、
認識結果決定部が、階層的フレーズ木に基づき、入力音声に対して音声認識を行い得られるK個の音声認識結果候補の中から一つの音声認識結果k^を決定する認識結果決定ステップと、
入力決定部が、前記音声認識結果k^に含まれるフレーズの中から前記階層的フレーズ木の最も深い階層に位置するフレーズfを特定し、そのフレーズfから前記階層的フレーズ木の根元に至る途中にある各ノードのフレーズを取得し、第n階層において取得したフレーズを第n入力として決定する入力決定ステップとを含む、
音声入力方法。
請求項５の音声入力方法であって、
k=1,2,…,Kとし、前記認識結果決定ステップは、各音声認識結果候補kに前記階層的フレーズ木のフレーズが何個含まれているかカウントして第一カウント値N_kを求め、前記第一カウント値N_kが2未満のとき、第二カウント値M_k=0とし、前記第一カウント値N_kが2以上のとき、前記各音声認識結果候補kに含まれるフレームの中の、最も深い階層に位置するフレーズを基準として、フレーズ間の関係が階層的フレーズ木の木構造に合致しないフレーズの個数をカウントして第二カウント値M_kを求め、第一カウント値N_kと前記第二カウント値M_kとの差分N_k-M_kが最大となる音声認識結果候補を選択し、これを前記音声認識結果k^とする、
音声入力方法。
請求項５または請求項６の音声入力方法であって、
入力音声に対して音声認識を行い得られるK個の音声認識結果候補には、音声認識時のスコアが高い順に順位づけされた順位が付与されているものとし、
前記認識結果決定ステップは、前記差分N_k-M_kが同じ音声認識結果候補が複数存在する場合には、音声認識時のスコアが高いものを前記音声認識結果k^とする、
音声入力方法。
請求項１から請求項４の何れかの音声入力装置としてコンピュータを機能させるためのプログラム。