JP2014048514A

JP2014048514A - 音声認識装置、音声認識方法及びプログラム

Info

Publication number: JP2014048514A
Application number: JP2012192158A
Authority: JP
Inventors: Koji Okabe; 浩司岡部; Takeshi Hanazawa; 健花沢; Takenori Tsujikawa; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2014-03-17
Anticipated expiration: 2032-08-31
Also published as: JP6098072B2

Abstract

【課題】高精度な音声認識を行うことができる技術を提供する。
【解決手段】音声の入力を受付ける入力受付部１０と、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識部２０と、入力音声の到来方向を推定する方向推定部３０と、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、方向推定部３０が推定した入力音声の到来方向を用いて、入力音声の入力条件の尤度を特定する方向由来尤度特定部４０と、方向由来尤度特定部４０が特定した入力条件の尤度を利用して、音声認識部２０が算出した複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする認識結果特定部６０と、を有する音声認識装置１。
【選択図】図３

Description

本発明は、音声認識装置、音声認識方法及びプログラムに関する。

特許文献１に、発話ごとに言語が入れ代わる音声を入力されると、自動的に各発話の言語を識別する言語自動識別方法が開示されている。当該方法は、入力された自然言語の音声の信号を分析して解析を行うステップと、分析して解析された音声を、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いてそれぞれ並列に探索し、該探索された結果の尤度をそれぞれ計算するステップと、計算されたそれぞれの尤度を比較して、入力された自然言語の言語を識別するステップと、を有する。

特許文献２には、発話音声の方向情報を用いて発話の話者を識別する手段が開示されている。

特開２００４−３４７７３２号公報特開２００９−３０１１２５号公報

特許文献１に記載の技術の場合、第１の言語用のモデル及び辞書等を用いて行われた探索の結果の尤度と、第２の言語用のモデル及び辞書等を用いて行われた探索の結果の尤度との間に十分な差が付き難い条件で利用された場合、識別結果を誤る場合がある。

例えば、短い発声や雑音下での発声等、言語的、音響的な尤度の絶対値が低い条件では、入力発声の言語と異なった言語の認識結果の尤度の方が入力発声言語の認識結果の尤度よりも高くなってしまい、識別結果を誤ってしまう場合がある。

なお、言語識別だけでなく、話者適応音響モデルを用いた複数の音声認識を行う場合等にも同様の問題がある。

本発明は、複数の言語が混じった音声が入力された場合であっても、高精度な音声認識を行うことができる技術を提供することを課題とする。

本発明によれば、
音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置が提供される。

また、本発明によれば、
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラムが提供される。

また、本発明によれば、
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法が提供される。

本発明によれば、複数の言語が混じった音声が入力された場合であっても、高精度な音声認識を行うことが可能になる。

本実施形態の音声認識装置の使用例を示す図である。本実施形態の方向別確率情報の一例を示す図である。本実施形態の音声認識装置の機能ブロック図の一例である。本実施形態の音声認識装置の機能ブロック図の一例である。本実施形態の音声認識装置がディスプレイに表示するインターフェイスの一例である。本実施形態の音声認識装置の使用例を示す図である。本実施形態の方向別確率情報の一例を示す図である。本実施形態の音声認識装置がディスプレイに表示するインターフェイスの一例である。本実施形態の音声認識装置がディスプレイに表示するインターフェイスの一例である。本実施形態の音声認識方法の処理の流れの一例を示すフローチャートである。本実施形態の音声認識装置の機能ブロック図の一例である。

以下、本発明の実施の形態について図面を用いて説明する。

なお、本実施形態の装置は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム（あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、ＣＤ等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む）、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インターフェイスを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

また、本実施形態の説明において利用する機能ブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は１つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。

＜第１の実施形態＞
まず、本実施形態の概要について説明する。

本実施形態の音声認識装置は、音声の入力を受付けると、当該入力音声に対し複数の認識条件各々を用いて音声認識処理を行う。例えば、入力音声が日本語であることを前提とした認識条件、入力音声が英語であることを前提とした認識条件、入力音声が中国語であることを前提とした認識条件等各々を用いて、入力音声に対して音声認識処理を行う。そして、認識条件毎に、認識結果と、その認識結果に対する尤度を算出する。

また、本実施形態の音声認識装置は、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報を保持しておく。入力条件は、例えば入力言語である。

例えば、図１に示すように、日本語で話す第１の話者１０２と、英語で話す第２の話者１０３とが対面した状態で対話している状況において、２人の間に音声の入力を受付けるマイク１０１が配置されている場合、図示する０度方向から到来した入力音声の入力言語（入力条件）は日本語である可能性が高く、また、１８０度方向から到来した入力音声の入力言語（入力条件）は英語である可能性が高い。

このような状況での対話における方向別確率情報は、例えば、図２に示すような確率分布を示す情報であってもよい。図２に示す情報は、横軸は音声到来方向を示し、縦軸は入力音声が日本語である確率を示している。音声到来方向が０度の場合、入力音声が日本語である確率は８０％と高くなっている。なお、例えば図２に示す方向別確率情報を用い、１００％−（入力音声が日本語である確率）＝（入力音声が英語である確率）の式により、各方向から到来した入力音声が英語で入力された確率を特定してもよい。

本実施形態の音声認識装置は、ユーザから受付けた入力内容、又は、当該対話を分析した分析データを用いて当該対話における方向別確率情報を生成し、保持しておくことができる。

そして、本実施形態の音声認識装置は、入力音声の到来方向を特定すると、特定した到来方向と、上記方向別確率情報（図２参照）とを利用して、入力音声の入力条件（入力言語）の尤度を算出する。例えば、音声到来方向が０度であった場合、入力音声が日本語である確率は８０％であり、英語である確率は２０％と特定することができる。

その後、本実施形態の音声認識装置は、入力音声の入力条件（入力言語）の尤度を利用して、複数の認識条件各々を用いて算出された認識結果の尤度を補正する。そして、補正後の尤度が最も高い認識結果を、その入力音声の認識結果とする。

以下、本実施形態の構成について詳細に説明する。

図３に、本実施形態の音声認識装置１の機能ブロック図の一例を示す。図示するように、本実施形態の音声認識装置１は、入力受付部１０と、音声認識部２０と、方向推定部３０と、方向由来尤度特定部４０と、方向別確率情報記憶部５０と、認識結果特定部６０とを有する。

図４に、本実施形態の音声認識装置１の機能ブロック図の他の一例を示す。当該例の音声認識装置１は、図３に示す例に比べて、さらに、ユーザ位置誘導部９０を有する点で異なる。

以下、各部について説明する。

入力受付部１０は、マイク等を含んで構成され、音声の入力を受付ける。

音声認識部２０は、入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果（認識した言語：例えば「部屋」、「ｈａｉｒ」等）及び当該複数の認識結果各々の尤度を算出する。図示する音声認識部２０は、第１音声認識部２１と、第２音声認識部２２とを有する。

第１音声認識部２１は、入力音声に対して、第１の入力条件（例：入力言語が日本語）で入力された音声用の第１の認識条件で音声認識処理を行い、認識結果と当該認識結果の尤度を算出する。

第２音声認識部２２は、入力音声に対して、第２の入力条件（例：入力言語が英語）で入力された音声用の第２の認識条件で音声認識処理を行い、認識結果と当該認識結果の尤度を算出する。なお、第１の認識条件と第２の認識条件は異なる。

音声認識部２０は、互いに異なる任意のＮ個の認識条件各々に対応した第１乃至第Ｎの音声認識部を有することができる。

音声認識処理の詳細は特段制限されないが、例えば、入力音声からｍｆｃｃ等の音声特徴量を抽出した後、抽出した特徴量を入力として予め定められた認識パラメータの内の１つである認識パラメータを用いて音声認識を行うことができる。

例えば、第１音声認識部２１は、抽出した特徴量を入力として、日本語用の音響モデル、日本語の言語モデル及び日本語の発音辞書等を用いて、入力音声が日本語であることを前提とした音声認識を行う。また、第２音声認識部２２は、抽出した特徴量を入力として、英語用の音響モデル、英語の言語モデル及び英語の発音辞書等を用いて、入力音声が英語であることを前提とした音声認識を行う。

方向推定部３０は、ＩＣＡ（Independent component analysis）やビームフォーミング等の手法を利用して、入力受付部１０が受付けた入力音声の到来方向を推定する。

例えば、入力受付部１０は、異なる方向にビームフォーミングを行う複数の音声検出部（不図示）を含んで構成されてもよい。複数の音声検出部は、各々、所定の方向にビームフォーミングを行い、ビームの方向から±ｘ度（設計的事項、例えば１５度）の音声のみ検出し、切り出してもよい。そして、方向推定部３０は、いずれの音声検出部に検出された入力音声であるかを特定することで、各入力音声の到来方向を推定してもよい。

方向別確率情報記憶部５０は、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件（所定の入力言語）で入力された確率を示す方向別確率情報を記憶する。

図２に方向別確率情報の一例を示す。例えば図１に示すように、日本語で話す第１の話者１０２と、英語で話す第２の話者１０３とが対面した状態で対話している状況において、２人の間に音声の入力を受付けるマイク１０１が配置された場合、図示する０度方向から到来した入力音声の入力言語（入力条件）は日本語である可能性が高く、また、１８０度方向から到来した入力音声の入力言語（入力条件）は日本語でない可能性が高い。このような状況における方向別確率情報（各方向から到来した入力音声の入力言語が日本語である確率を示す情報）は、例えば、図２に示すような確率分布で表わされることができる。

図２に示す情報は、横軸は音声到来方向を示し、縦軸は入力音声が日本語である確率を示している。音声到来方向が０度の場合、入力音声が日本語である確率は８０％と高くなっている。なお、図１に示す対話において、方向別確率情報記憶部５０は、さらに、横軸は音声到来方向を示し、縦軸は入力音声が英語である確率を示す方向別確率情報を保持してもよい。または、図２に示す方向別確率情報（各方向から到来した入力音声の入力言語が日本語である確率を示す情報）を用いて、１００％−（入力音声が日本語である確率）＝（入力音声が英語である確率）の式により、各方向から到来した入力音声が英語で入力された確率を特定してもよい。

音声認識装置１は、このような方向別確率情報を、例えばユーザから受付けた入力内容に従い、又は、各対話を分析した分析データを用いて生成し、方向別確率情報記憶部５０に記憶することができる。以下、ユーザから受付けた入力内容に従い方向別確率情報を生成する例を説明する。なお、各対話を分析した分析データを用いて方向別確率情報を生成する例は、以下の実施形態で説明する。

例えば、音声認識装置１は、対話ごとに、ユーザから、対話スタイル等を特定する入力を受付ける。例えば、音声認識装置１は、図５に示すようなインターフェイスをディスプレイ１００に表示し、所定の入力を受付けることができる。図示するインターフェイスは、話者が２人であることを前提にしたインターフェイスである。

まず、対話スタイルの入力により、２人の話者と、マイク（音声認識装置１）との相対的な位置関係が特定される。「対面対話」は、図１に示すように、２人の話者１０２及び１０３が対面する位置関係である。かかる場合、音声の入力を受付けるマイク１０１（音声認識装置１）は、図１に示すように、２人の間に配置される傾向にある。なお、図５に示すように、各対話スタイルに対応付けて、マイクの配置位置を誘導する情報を提供してもよい。

次に、「となり合って対話」は、図６に示すように、２人の話者６０２及び６０３が隣り合い同じ方向を向いた位置関係である。当該位置関係は、例えば、２人の話者６０２及び６０３が車の運転席及び助手席各々に位置する状態や、又は、バーのカウンターに並んで座った状態などが考えられる。かかる場合、音声の入力を受付けるマイク６０１（音声認識装置１）は、２人の前方であって略中央に配置される傾向にある。なお、図５に示すように、各対話スタイルに対応付けて、マイクの配置位置を誘導する情報を提供してもよい。

なお、ここで例示した対話スタイルはあくまで一例であり、その他の対話スタイルが選択できてもよい。

また、図５に示すインターフェイスは、２人の話者各々の言語を選択する入力を受付けるよう構成されている。

図５に示すインターフェイスによれば、対話ごとに、２人の話者とマイク（音声認識装置１）との相対的な位置関係と、２人の話者各々の言語を特定することができる。音声認識装置１は、当該情報を利用し、予め定められた所定のルールに従い、対話ごとに、図２及び７に示すような方向別確率情報を生成することができる。所定のルールは設計的事項であり、例えば、正規分布曲線で方向別確率情報を表してもよいし、正規分布曲線と他のルールの組み合わせで方向別確率情報を表してもよい。

図２に示す方向別確率情報は、図１に示すような状況での対話において、マイク１０１と第１の話者１０２とを結ぶ方向を０度、マイク１０１と第２の話者１０３とを結ぶ方向を１８０度（又は、−１８０度）とした場合に、各方向から到来した入力音声が日本語である確率を示している。

図７に示す方向別確率情報は、図６に示すような状況での対話において、マイク６０１と第１の話者６０２とを結ぶ方向を４５度、マイク６０１と第２の話者６０３とを結ぶ方向を１３５度とした場合に、各方向から到来した入力音声が日本語である確率を示している。

なお、音声認識装置１は、例えば図５に示すようなインターフェイスを領して、２人の話者とマイク（音声認識装置１）との相対的な位置関係と、２人の話者各々の言語を特定する情報の入力を受付けた後、例えば図８に示すように、２人の話者の間に配置される音声認識装置１（図１参照））の配置向きを誘導する情報（所定位置に所定の向きで配置された音声認識装置１に対して２人の話者がいるべき位置を誘導する情報）をディスプレイ１００に提示してもよい（ユーザ位置誘導部９０）。図８の誘導情報は、対話スタイルが体面対話であり、第１の話者及び第２の話者の一方は英語話者で他方は日本語話者である場合の例である。このようにすれば、入力条件が最尤となる方向から音声を入力するようユーザを誘導することができる。結果、認識精度が向上する。

なお、図８に示すインターフェイスにおいて、タッチパネルディスプレイを介した入力等により矢印の向きを変更する入力を受付けることができてもよい。すなわち、２人の話者とマイク（音声認識装置１）との位置関係を変更する入力ができてもよい。そして、当該入力に応じて、当該対話における方向別確率情報の内容が変更されてもよい。このようにすれば、例えば２人の話者とマイク（音声認識装置１）との位置関係が、第１の話者が０度の位置、第２の話者が１７０度の位置等のような中途半端な位置関係であっても、精度の高い認識が実現できる。

その他の例として、音声認識装置１は、図９に示すようなインターフェイスをディスプレイ１００に表示し、当該インターフェイスから対話スタイル等を特定する入力を受付けてもよい。

図９（ａ）及び（ｂ）に示すインターフェイスは、タッチパネルディスプレイを介した方向の入力（例：指をタッチした状態で一方向にスライド移動）により、マイク（音声認識装置１）を基準にした複数の話者各々の位置（方向）の入力を受付けるようになっている。なお、方向の入力は複数受付けることができてもよい。すなわち、話者が３人以上である場合、３つ以上の方向の入力を受付けることができる。そして、当該インターフェイスでは、方向の入力を受付けると（図９（ａ））、その後、その方向にいる話者の言語の選択入力を受付けるように構成されている（図９（ｂ））。

このようなインターフェイスによれば、音声認識装置１は、対話ごとに、複数の話者とマイク（音声認識装置１）との相対的な位置関係と、複数の話者各々の言語を特定することができる。音声認識装置１は、当該情報を利用し、予め定められた所定のルールに従い、対話ごとに方向別確率情報を生成することができる。

なお、当該例の場合、当該インターフェイスを対話の間も表示し続けておいてもよい（ユーザ位置誘導部９０）。このようにすれば、音声認識装置１の配置位置及び向き、または、所定位置に所定の向きで配置された音声認識装置１に対して複数の話者がいるべき位置を、ユーザに誘導することができる。すなわち、入力条件が最尤となる方向から音声を入力するようユーザを誘導することができる。結果、認識精度が向上する。

図３及び４に戻り、方向由来尤度特定部４０は、方向別確率情報記憶部５０が記憶する方向別確率情報（図２、７等）、及び、方向推定部３０が推定した入力音声の到来方向を用いて、入力音声の入力条件（入力言語）の尤度を特定する。

例えば、図１に示すように、日本語で話す第１の話者１０２と、英語で話す第２の話者１０３とが対面するとともに、２人の間に音声の入力を受付けるマイク１０１を配置した状態で対話しており、方向別確率情報記憶部５０は図２に示すような方向別確率情報を記憶しているとする。このような状況において、方向推定部３０が入力音声の到来方向を０度と推定すると、方向由来尤度特定部４０は、当該入力音声が日本語である確率は８０％であり、英語である確率は２０％であると特定する。また、方向推定部３０が入力音声の到来方向を６０度と推定すると、方向由来尤度特定部４０は、当該入力音声が日本語である確率は６５％であり、英語である確率は３５％であると特定する。

図３及び４に戻り、認識結果特定部６０は、方向由来尤度特定部４０が特定した入力条件の尤度を利用して、音声認識部２０が算出した複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする。なお、第Ｎの入力条件で入力された音声用の認識条件で算出された認識結果の尤度を、入力音声が第Ｎの入力条件で入力された尤度で補正する。以下、補正手段の一例を説明する。

例えば、第１の音声認識部２１が算出した認識結果（入力音声が日本語であることを前提とした認識条件による認識処理で算出した認識結果）の尤度をｐ_SRとする。そして、方向由来尤度特定部４０が特定した入力音声の入力条件が第１の入力条件（入力言語が日本語）である尤度をｐ_LANGとする。これらを、以下の式（１）により統合し、統合音声認識尤度ＬＬを得てもよい。なお、α（＞０）は重みであり、あらかじめ決めておくができる設計的事項である。

認識結果特定部６０は、音声認識部２０が算出した複数の認識結果の尤度各々を、例えば上述のような手段により補正し、補正後の統合音声認識尤度ＬＬが最も大きい認識結果を特定する。そして、特定した認識結果を、当該入力音声の入力結果とする。

このようにして統合音声認識尤度ＬＬを算出し、統合音声認識尤度ＬＬが最も大きい認識結果を当該入力音声の入力結果とする場合、以下のような作用効果が得られる。

例えば、図１に示す対話状態において、±１８０度方向よりも０度方向に近い方向から到来した音声は、logｐ_LANG（ＪＰ）＞logｐ_LANG（ＥＮＧ）となる。なお、ｐ_LANG（ＪＰ）は、入力言語が日本語である尤度であり、ｐ_LANG（ＥＮＧ）は、入力言語が英語である尤度である。このため、音声認識部２０が出力する単純な音声認識尤度の結果が、日本語音声認識尤度ｐ_SR（ＪＰ）＜英語音声認識尤度ｐ_SR（ＥＮＧ）となってしまった場合でも、ｐ_LANG（ＪＰ）及びｐ_LANG（ＥＮＧ）を用いてこれらを補正した最終的な統合音声認識尤度ＬＬは、日本語音声認識の方が高くなる可能性があり、より高精度に言語識別を行った上で音声認識を行うことが可能である。

０度と±１８０度の２方向からの発声の時が、入力方向推定による言語尤度の差が最も大きくなるので、より正確に言語識別ができるようになる。

一方で、本実施形態は、方向推定によってのみで言語方向を決めてしまうわけではなく、音声認識部２０による認識結果をも考慮しているので、ユーザが誤って、想定される方向とは逆に近い方向から入力してしまった場合でも、発声の音響尤度や言語尤度が高ければ正しく言語識別を行い、正しい認識結果を得ることが可能である。

次に、図１０のフローチャートを用いて、本実施形態の音声認識方法の処理の流れの一例を説明する。

まず、音声認識装置は、ユーザ入力に従い、複数の話者とマイク（音声認識装置１）との相対的な位置関係と、複数の話者各々の言語を特定する。そして、当該情報を利用し、予め定められた所定のルールに従い方向別確率情報を生成して、方向別確率情報記憶部５０に記憶する。

なお、ここでは、図１に示すように、日本語で話す第１の話者１０２と、英語で話す第２の話者１０３とが対面するとともに、２人の間に音声の入力を受付けるマイク１０１を配置した状態で対話しており、方向別確率情報記憶部５０は図２に示すような方向別確率情報を記憶しているとする。

ステップＳ１０では、入力受付部１０が音声の入力を受付ける。

ステップＳ２０では、方向推定部３０が入力音声の到来方向を推定する。

ステップＳ３０では、音声認識部２０が入力音声から特徴量を抽出する。

ステップＳ４０では、音声認識部２０が、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する。なお、当該例では、話者は日本語で話す第１の話者１０２と、英語で話す第２の話者１０３とに特定されているので、入力音声が日本語であることを前提とした認識条件と、入力音声が英語であることを前提とした認識条件のみを用いて、音声認識処理を行えばよい。

ステップＳ５０では、方向由来尤度特定部４０が、ステップＳ２０で推定された入力音声の到来方向、及び、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報を用いて、入力音声の入力条件の尤度を特定する。その後、方向由来尤度特定部４０が特定した入力条件の尤度を利用して、認識結果特定部６０が、Ｓ４０で算出された複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする。その後、当該認識結果が出力される（ステップＳ６０）。

以上説明した本実施形態によれば、入力音声に対して認識処理を行って得られた認識結果の尤度が最も高い認識結果をそのまま入力音声の認識結果とするのでなく、当該尤度を、音声の到来方向から算出される入力条件（入力言語）の尤度を利用して補正した尤度（統合音声認識尤度ＬＬ）が最も高い認識結果を入力音声の認識結果とする。このため、入力音声に対して認識処理を行って得られた認識結果の尤度が最も高い認識結果をそのまま入力音声の認識結果とする技術に比べて、高精度な音声認識が実現される。

＜第２の実施形態＞
本実施形態の音声認識装置１は、対話を分析した分析データを用いて方向別確率情報を生成する点で、第１の実施形態と異なる。その他の構成は第１の実施形態と同様であるので詳細な説明は省略する。

図１１に、本実施形態の音声認識装置１の機能ブロック図の一例を示す。図示するように、本実施形態の音声認識装置１は、入力受付部１０と、音声認識部２０と、方向推定部３０と、方向由来尤度特定部４０と、方向別確率情報記憶部５０と、認識結果特定部６０と、結果蓄積部７０と、確率情報生成部８０とを有する。なお、さらに、ユーザ位置誘導部９０を有してもよい。

入力受付部１０、音声認識部２０、方向推定部３０、方向由来尤度特定部４０、方向別確率情報記憶部５０、認識結果特定部６０、及び、ユーザ位置誘導部９０の構成は第１の実施形態と同様であるので、ここでの説明は省略する。以下、結果蓄積部７０と確率情報生成部８０の構成について説明する。

結果蓄積部７０は、対話ごとに、方向推定部３０が推定した入力音声の到来方向、及び、認識結果特定部６０が特定した入力音声の認識結果を対応付けた情報（方向・結果対応情報）を蓄積する。

確率情報生成部８０は、結果蓄積部７０に蓄積されている情報を利用して、対話ごとに、方向別確率情報を生成する。

例えば、結果蓄積部７０は、図１に示すように、日本語で話す第１の話者１０２と、英語で話す第２の話者１０３とが対面するとともに、２人の間に音声の入力を受付けるマイク１０１を配置した状態での対話における方向・結果対応情報を蓄積しているとする。

確率情報生成部８０は、当該方向・結果対応情報を例えば音声到来方向毎に分析する。分析の結果、例えば、０度方向から到来した入力音声の認識結果（認識結果特定部６０が特定した認識結果）の割合が、日本語７０％、英語３０％であった場合、確率情報生成部８０は、０度方向から到来する入力音声の入力言語が日本語である確率は７０％であり、英語である確率率は３０％であることを示す確率情報を生成する。そのたの到来方向においても同様の処理を行い、これらをまとめることで、図２及び７に示すような確率分布を生成することができる。

このような本実施形態によれば、あらかじめ確率分布関数（方向別確率情報）を用意することができない場合でも、はじめは等確率の確率分布を持たせて、音声認識尤度のみで入力条件識別を行い、確率分布関数を学習させていくことができ、学習が進むにつれ、より高精度に識別ができるようになる。

＜＜付記＞＞
上記説明によれば、以下の発明の説明がなされている。
＜発明１＞
音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置。
＜発明２＞
発明１に記載の音声認識装置において、
前記方向別確率情報を記憶する方向別確率情報記憶手段をさらに有する音声認識装置。
＜発明３＞
発明１又は２に記載の音声認識装置において、
第１の前記認識条件は第１の言語用の認識条件であり、第２の前記認識条件は前記第１の言語と異なる第２の言語用の認識条件である音声認識装置。
＜発明４＞
発明１から３のいずれかに記載の音声認識装置において、
第１の前記認識条件で行う前記音声認識処理における音響モデルと、第２の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識装置。
＜発明５＞
発明１から４のいずれかに記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段をさらに有する音声認識装置。
＜発明６＞
発明５に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段をさらに有する音声認識装置。
＜発明７＞
発明１から６のいずれかに記載の音声認識装置において、
入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段をさらに有する音声認識装置。
＜発明８＞
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラム。
＜発明８−２＞
発明８に記載のプログラムにおいて、
前記コンピュータを、前記方向別確率情報を記憶する方向別確率情報記憶手段としてさらに機能させるためのプログラム。
＜発明８−３＞
発明８又は８−２に記載のプログラムにおいて、
第１の前記認識条件は第１の言語用の認識条件であり、第２の前記認識条件は前記第１の言語と異なる第２の言語用の認識条件であるプログラム。
＜発明８−４＞
発明８から８−３のいずれかに記載のプログラムにおいて、
第１の前記認識条件で行う前記音声認識処理における音響モデルと、第２の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なるプログラム。
＜発明８−５＞
発明８から８−４のいずれかに記載のプログラムにおいて、
前記コンピュータを、前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段としてさらに機能させるためのプログラム。
＜発明８−６＞
発明８−５に記載のプログラムにおいて、
前記コンピュータを、前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段としてさらに機能させるためのプログラム。
＜発明８−７＞
発明８から８−６のいずれかに記載のプログラムにおいて、
前記コンピュータを、入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段としてさらに機能させるためのプログラム。
＜発明９＞
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法。
＜発明９−２＞
発明９に記載の音声認識方法において、
第１の前記認識条件は第１の言語用の認識条件であり、第２の前記認識条件は前記第１の言語と異なる第２の言語用の認識条件である音声認識方法。
＜発明９−３＞
発明９または９−２に記載の音声認識方法において、
第１の前記認識条件で行う前記音声認識処理における音響モデルと、第２の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識方法。
＜発明９−４＞
発明９から９−３のいずれかに記載の音声認識方法において、
前記コンピュータが、前記方向推定ステップで推定した前記入力音声の到来方向、及び、前記認識結果特定ステップで特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成ステップをさらに実行する音声認識方法。
＜発明９−５＞
発明９−４に記載の音声認識方法において、
前記コンピュータが、前記方向推定ステップで推定した前記入力音声の到来方向、及び、前記認識結果特定ステップで特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積ステップをさらに実行する音声認識方法。
＜発明９−６＞
発明９から９−５のいずれかに記載の音声認識方法において、
前記コンピュータが、入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導ステップをさらに実行する音声認識方法。

１音声認識装置
１０入力受付部
２０音声認識部
２１第１音声認識部
２２第２音声認識部
３０方向推定部
４０方向由来尤度特定部
５０方向別確率情報記憶部
６０認識結果特定部
７０結果蓄積部
８０確率情報生成部
９０ユーザ位置誘導部
１００ディスプレイ
１０１マイク
１０２第１の話者
１０３第２の話者
６０１マイク
６０２第１の話者
６０３第２の話者

Claims

音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置。
請求項１に記載の音声認識装置において、
前記方向別確率情報を記憶する方向別確率情報記憶手段をさらに有する音声認識装置。
請求項１又は２に記載の音声認識装置において、
第１の前記認識条件は第１の言語用の認識条件であり、第２の前記認識条件は前記第１の言語と異なる第２の言語用の認識条件である音声認識装置。
請求項１から３のいずれか１項に記載の音声認識装置において、
第１の前記認識条件で行う前記音声認識処理における音響モデルと、第２の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識装置。
請求項１から４のいずれか１項に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段をさらに有する音声認識装置。
請求項５に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段をさらに有する音声認識装置。
請求項１から６のいずれか１項に記載の音声認識装置において、
入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段をさらに有する音声認識装置。
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラム。
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法。