JP7117972B2

JP7117972B2 - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP7117972B2
Application number: JP2018197858A
Authority: JP
Inventors: 宏成高橋; 圭子小島
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2022-08-15
Anticipated expiration: 2038-10-19
Also published as: JP2020064267A

Description

本発明は、音声認識装置、端末、音声認識方法および音声認識プログラムに関する。

近年、カーナビゲーション、スマートフォン、スマートスピーカーなどユーザが音声で機器に指示を出し、操作するものが増えてきている。このようにユーザが発話した音声データを音声認識するためのモデルとして、例えば、平均的な音声データに基づいてチューニングされたモデルが適用されることが知られている。

特開２０１６－１８０９１６号公報

しかしながら、従来の技術では、音声認識の精度が低いくなる場合があるという課題があった。例えば、従来の技術では、音声認識するためのモデルとして、平均的な音声データに基づいてチューニングされたモデルが適用されているため、音声データの認識率が一定ではなく、ご認識が多発する場合がある。

上述した課題を解決し、目的を達成するために、本発明の音声認識装置は、カメラにより撮像された画像に含まれるユーザを識別する識別部と、前記識別部によって識別されたユーザに関する属性情報を取得する取得部と、各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習部と、前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識部とを有することを特徴とする。

また、本発明の音声認識方法は、音声認識装置によって実行される音声認識方法であって、カメラにより撮像された画像に含まれるユーザを識別する識別工程と、前記識別工程によって識別されたユーザに関する属性情報を取得する取得工程と、各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習工程と、前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識工程とを含むことを特徴とする。

また、本発明の音声認識プログラムは、カメラにより撮像された画像に含まれるユーザを識別する識別ステップと、前記識別ステップによって識別されたユーザに関する属性情報を取得する取得ステップと、各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習ステップと、前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識ステップとをコンピュータに実行させることを特徴とする。

本発明によれば、音声認識の精度を向上させることができるという効果を奏する。

図１は、第１の実施形態に係る音声認識システムの構成例を示すブロック図である。図２は、第１の実施形態に係る音声認識装置の構成例を示すブロック図である。図３は、プロファイル記憶部に記憶されるデータの一例を示す図である。図４は、ユーザ毎に音響モデルを学習する処理を説明する図である。図５は、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習する処理を説明する図である。図６は、第１の実施形態に係る音声認識装置におけるプロファイル作成処理の流れの一例を示すフローチャートである。図７は、第１の実施形態に係る音声認識装置における学習処理の流れの一例を示すフローチャートである。図８は、第１の実施形態に係る音声認識装置における制御実行処理の流れの一例を示すフローチャートである。図９は、第２の実施形態に係る音声認識システムの構成例を示すブロック図である。図１０は、プロファイル記憶部に記憶されるデータの一例を示す図である。図１１は、音響モデルを学習する処理を説明する図である。図１２は、変形例に係るサーバおよび端末の構成例を示すブロック図である。図１３は、音声認識プログラムを実行するコンピュータを示す図である。

以下に、本願に係る音声認識装置、端末、音声認識方法および音声認識プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る音声認識装置、端末、音声認識方法および音声認識プログラムが限定されるものではない。

［第１の実施形態］
以下の実施の形態では、第１の実施形態に係る音声認識システム１００の構成、音声認識装置１０の構成、音声認識装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［音声認識システムの構成］
図１は、第１の実施形態に係る音声認識システムの構成例を示すブロック図である。第１の実施形態に係る音声認識システム１００は、音声認識装置１０および複数の自動車２０を有し、音声認識装置１０と自動車２０とはネットワーク３０を介して互いに接続されている。なお、図１に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。例えば、音声認識装置１０が自動車２０とネットワーク３０を介して互いに接続されていている場合に限定されるものではなく、例えば、音声認識装置１０は、自動車２０の中に設置されていてもよい。

音声認識装置１０は、ユーザが発話した音声を認識し、認識した音声に応じて所定の制御処理を行うサーバである。例えば、音声認識装置１０は、自動車２０に乗っているユーザの指示に関する音声データを受信し、音声データを解析して発話の内容を認識し、発話の内容に含まれる指示の実行可否を判定し、実行可であると判定した場合に、指示に対応する制御処理を実行する。

音声認識装置１０は、ユーザごとに音声認識に関するモデルを有する。つまり、音声認識装置１０は、各ユーザの音声データを用いてそれぞれ学習された音声認識に関するモデルを有する。なお、ここで、音声認識に関するモデルとは、例えば、音響モデル、言語モデルおよびユーザ辞書ファイル等のうち、いずれか一つまたは複数を含むものである。

自動車２０は、車内のユーザが発話した音声に応じて、各種処理を実行可能な車両である。例えば、自動車２０は、各種処理として、運転モードの切替や、ドアの開閉、カーナビの操作、オーディオの操作、エアコンの操作、シートリクライニングの調整などを音声による指示を受け付けることによって実行する。

自動車２０は、例えば、車内の音声を集音するマイクからユーザが発話した音声を集音する。なお、音声を集音する処理については、自動車に搭載されたカーナビゲーションやユーザが所有するスマートフォン、スマートスピーカー等であってもよい。また、自動車２０は、車内の画像を撮像するカメラが搭載されている。自動車２０は、撮像した画像データとともに、マイクで集音した音声データを定期的に音声認識装置１０に送信する。

［音声認識装置の構成］
次に、図２を用いて、音声認識装置１０の構成を説明する。図２は、第１の実施形態に係る音声認識装置の構成例を示すブロック図である。図２に示すように、この音声認識装置１０は、通信処理部１１、制御部１２および記憶部１３を有する。以下に音声認識装置１０が有する各部の処理を説明する。

通信処理部１１は、各種情報に関する通信を制御する。例えば、通信処理部１１は、画像データおよび音声データを自動車２０から受信し、音声データに含まれる指示に対応する処理内容を自動車２０に対して送信する。

記憶部１３は、制御部１２による各種処理に必要なデータおよびプログラムを格納する。記憶部１３は、プロファイル記憶部１３ａおよびモデル情報記憶部１３ｂを有する。例えば、記憶部１３は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

プロファイル記憶部１３ａは、ユーザに関する属性情報と音声認識に関するモデルの識別情報とが対応付けられた個人別の音声認識プロファイルを記憶する。例えば、プロファイル記憶部１３ａは、図３に例示するように、プロファイルを識別する「プロファイルＩＤ」と、ユーザを識別する「ユーザＩＤ」と、ユーザの「性別」と、ユーザの「年齢」と、ユーザの自動車２０における「着座位置」と、音響モデルを識別する「音響モデルＩＤ」と、言語モデルを識別する「言語モデルＩＤ」と、ユーザ辞書ファイルを識別する「ユーザ辞書ファイル」とを対応付けて記憶する。

また、プロファイル記憶部１３ａは、図３の例では、ユーザおよび着座位置の組み合わせごとに音声認識プロファイルを記憶する。つまり、図３の例を挙げて説明すると、プロファイル記憶部１３ａでは、ユーザ「Ａ」について、着座位置が「運転席」である場合と、着座位置が「助手席」である場合とでは、プロファイルＩＤ「１」の音声認識プロファイルとプロファイルＩＤ「２」の音声認識プロファイルをそれぞれ記憶している。

モデル情報記憶部１３ｂは、ユーザごとに、音声認識に関するモデルを記憶する。例えば、モデル情報記憶部１３ｂは、ユーザおよび着座位置の組み合わせごとに、それぞれチューニングされた音響モデル、言語モデルおよびユーザ辞書ファイルを記憶する。モデル情報記憶部１３ｂでは、音響モデル、言語モデルおよびユーザ辞書ファイルが、それぞれ音響モデルＩＤ、言語モデルＩＤおよびユーザ辞書ファイルＩＤにそれぞれ紐付けられているものとする。

制御部１２は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部１２は、識別部１２ａ、取得部１２ｂ、学習部１２ｃ、認識部１２ｄおよび制御部１２ｅを有する。ここで、制御部１２は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

識別部１２ａは、カメラにより撮像された画像に含まれるユーザを識別する。具体的には、識別部１２ａは、自動車２０に搭載されたカメラにより撮像された車内の画像に含まれるユーザを識別する。

例えば、識別部１２ａは、車内の画像データを自動車２０から定期的に受信すると、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する。そして、識別部１２ａは、識別したユーザがプロファイル記憶部１３ａにおいて未登録のユーザであるか否かを判定する。この結果、識別部１２ａは、未登録のユーザであると判定した場合には、ユーザの属性情報の取得を取得部１２ｂに指示する。また、識別部１２ａは、登録済みのユーザである場合には、認識したユーザのユーザＩＤを学習部１２ｃおよび認識部１２ｄに通知する。

取得部１２ｂは、識別部１２ａによって識別されたユーザに関する属性情報を取得する。具体的には、取得部１２ｂは、識別部１２ａによって識別されたユーザに関する属性情報として、ユーザの性別、ユーザの年齢およびユーザの着座位置のいずれか一つまたは複数を取得する。

例えば、取得部１２ｂは、ユーザの属性情報の取得指示を識別部１２ａから受け付けた場合には、属性情報として、未登録のユーザの性別、ユーザの年齢およびユーザの着座位置を取得する。ここで、取得部１２ｂは、どのように属性情報を取得するようにしてもよい。

例えば、取得部１２ｂは、カメラによって撮像された画像データから性別や年齢（大人または子供）、着座位置を特定することで属性情報を取得してもよいし、ユーザの手動入力により属性情報を取得するようにしてもよい。そして、取得部１２ｂは、未登録ユーザの属性情報に基づいて、音声認識プロファイルを作成する。つまり、取得部１２ｂは、取得した未登録のユーザの属性情報と、ユーザおよび着座位置の組み合わせに対応する音声モデルＩＤ、言語モデルＩＤおよびユーザ辞書ファイルＩＤとを紐付けた音声認識プロファイルをプロファイル記憶部１３ａに格納する。また、取得部１２ｂは、特定した着座位置を学習部１２ｃおよび認識部１２ｄを通知する。

学習部１２ｃは、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。例えば、学習部１２ｃは、識別部１２ａによって認識されたユーザのユーザＩＤを受信した場合には、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部１３ｂから取得する。そして、学習部１２ｃは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する。なお、学習手法については、どのような手法であってもよい。

ここで図４を用いて、ユーザ毎に音響モデルを学習する処理を説明する。図４は、ユーザ毎に音響モデルを学習する処理を説明する図である。図４の例では、自動車の運転席にユーザＡが座り、助手席にユーザＢが座り、後部座席にユーザＣが座っている。このような場合に、図４に例示するように、学習部１２ｃは、ユーザＡの音声データを取得すると、ユーザＡに対応する音響モデルＸ１にユーザＡの音声データを入力し、音響モデルＸ１を学習させる。

また、学習部１２ｃは、ユーザＢの音声データを取得すると、ユーザＢに対応する音響モデルＸ３にユーザＢの音声データを入力し、音響モデルＸ３を学習させる。また、学習部１２ｃは、ユーザＣの音声データを取得すると、ユーザＣに対応する音響モデルＸ４にユーザＣの音声データを入力し、音響モデルＸ４を学習させる。このように、ユーザを識別して、ユーザごとの音声データを用いて発話者別に音響モデル等を学習するので、ユーザ毎の話す言葉の特徴や癖なども加味した音響モデル等にチューニングできるため、音声認識精度を向上させることが可能である。

また、学習部１２ｃは、ユーザおよびユーザの位置の組み合わせに対応するモデルをそれぞれ学習するようにしてもよい。例えば、学習部１２ｃは、識別部１２ａによって認識されたユーザのユーザＩＤと取得部１２ｂによって特定された着座位置とを受信した場合には、ユーザおよび着座位置に対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部１３ｂから取得する。そして、学習部１２ｃは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する。

ここで図５を用いて、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習する処理を説明する。図５は、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習する処理を説明する図である。図５の例では、自動車の運転席にユーザＢが座り、助手席にユーザＡが座っている。図５に例示するように、学習部１２ｃは、ユーザＡの音声データを取得すると、ユーザＡに対応する音響モデルＸ２にユーザＡの音声データを入力し、音響モデルＸ２を学習させる。

つまり、前述の図４の例では、ユーザＡが運転席に座っている場合にはユーザＡの音声データを音響モデルＸ１に入力していたが、ユーザＡが助手席に座っている場合にはユーザＡの音声データを別の音響モデルＸ２に入力する。このように、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習するので、ユーザ毎の話す言葉の特徴や癖だけでなく、着座位置で発話した際の音響や雑音の影響なども加味した音響モデル等にチューニングできるため、音声認識精度をさらに向上させることが可能である。なお、図４および図５の例では、音響モデルのみを例示し、言語モデルやユーザ辞書ファイルについては図示を省略しているが、音響モデル同様に、ユーザごとに学習するものとする。

認識部１２ｄは、ユーザの音声データを入力として、該ユーザに対応する音声認識に関するモデルを用いて、音声認識を行う。例えば、認識部１２ｄは、識別部１２ａによって認識されたユーザのユーザＩＤを受信した場合には、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部１３ｂから取得する。そして、認識部１２ｄは、ユーザの音声データを入力として、取得した音響モデル、言語モデル、ユーザ辞書ファイルを用いて、音声認識を行う。

また、認識部１２ｄは、ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応するモデルを用いて、音声認識を行うようにしてもよい。例えば、図４の例を用いて説明すると、ユーザＡが運転席に着座している場合には、プロファイル記憶部１３ａを参照し、ユーザおよびユーザの位置に対応する音響モデルＸ１、言語モデルＹ１、ユーザ辞書ファイルＺ１を取得する。

つまり、認識部１２ｄは、ユーザＡが運転席に着座している際の最適なチェーニングが施された音響モデル等を取得する。そして、認識部１２ｄは、音声データを入力として、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを用いて音声認識を行う。なお、音声認識手法については、どのような手法であってもよい。その後、認識部１２ｄは、音声認識を行った結果である音声認識結果を制御部１２ｅに通知する。

制御部１２ｅは、認識部１２ｄによって認識された音声に所定の指示が含まれ、かつ、該指示が所定の条件を満たす場合には、該指示に対応する処理を実行するように制御する。具体的には、制御部１２ｅは、認識部１２ｄによって認識された音声が指示内容を含むか判定する。この結果、制御部１２ｅは、認識部１２ｄによって認識された音声が指示内容を含む場合には、該指示内容が所定の条件を満たすか判定する。この結果、制御部１２ｅは、指示内容が所定の条件を満たす場合には、指示に対応する処理を自動車２０に対して実行するように指示する。

例えば、制御部１２ｅは、所定の条件として、運転モード切替や自動運転、ドアの開閉などの即事故に関わる重要な指示については、運転席に座る人の音声による指示のみを実行するように制御する。また、例えば、制御部１２ｅは、カーナビ、オーディオ等のエンタメ系、エアコン、シートリクライニング等についえは、機能毎に受付可否を制御するようにしてもよい。また、例えば、制御部１２ｅは、カーナビ操作については、運転席に座る人または助手席に座る人の音声による指示のみを実行するように制御する。また、例えば、制御部１２ｅは、エンタメ系のメディア、音楽再生に対する指示はいずれも実行するように制御する。

また、例えば、制御部１２ｅは、窓の開閉制御、シートリクライニング制御、車内灯制御、エアコン制御等の社内環境に関する指示はいずれの音声も受け付け、各席毎に実行できるように制御する。また、制御部１２ｅは、例えば、運転席のユーザの音声のみ、他席の窓開閉やシートリクライニング等に対する指示を受け付けて実行するようにしてもよい。また、所定の条件については、事前に設定変更できるものとする。

さらに、制御部１２ｅは、識別部１２ａによって識別されたユーザの属性情報に応じて、出力する情報を変更するようにしてもよい。例えば、制御部１２ｅは、運転手が夫（男性・大人）の場合と、妻（女性・大人）の場合では、カーナビが案内する道が異なるように制御してもよい。例えば、制御部１２ｅは、運転手が夫（男性・大人）の場合には、近道である狭い裏道を案内し、妻（女性・大人）の場合には、運転のし易い広い幹線道路を案内するように制御する。また、制御部１２ｅは、ユーザの属性情報に応じて、エンタメ系の再生リストを自動呼出しして提案するように制御したり、エアコン温度や風量、風向き制御を自動制御したりしてもよい。

［音声認識装置の処理手順］
次に、図６～図８を用いて、第１の実施形態に係る音声認識装置１０による処理手順の例を説明する。図６は、第１の実施形態に係る音声認識装置におけるプロファイル作成処理の流れの一例を示すフローチャートである。図７は、第１の実施形態に係る音声認識装置における学習処理の流れの一例を示すフローチャートである。図８は、第１の実施形態に係る音声認識装置における制御実行処理の流れの一例を示すフローチャートである。

まず、図６の例を用いて、音声認識装置１０におけるプロファイル作成処理の流れを説明する。図６に例示するように、識別部１２ａは、車内の画像データを自動車２０から受信すると（ステップＳ１０１）、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する（ステップＳ１０２）。

そして、識別部１２ａは、識別したユーザがプロファイル記憶部１３ａにおいて未登録のユーザであるか否かを判定する（ステップＳ１０３）。この結果、識別部１２ａは、未登録のユーザでないと判定した場合には（ステップＳ１０３否定）、そのまま処理を終了する。一方、識別部１２ａが未登録のユーザであると判定した場合には（ステップＳ１０３肯定）、取得部１２ｂは、識別部１２ａによって識別されたユーザに関する属性情報を取得する（ステップＳ１０４）。例えば、取得部１２ｂは、属性情報として、未登録のユーザの性別、ユーザの年齢およびユーザの着座位置を取得する。

そして、取得部１２ｂは、未登録ユーザの属性情報に基づいて、音声認識プロファイルを作成する（ステップＳ１０５）。つまり、取得部１２ｂは、取得した未登録のユーザの属性情報と、ユーザおよび着座位置の組み合わせに対応する音声モデルＩＤ、言語モデルＩＤおよびユーザ辞書ファイルＩＤとを紐付けた音声認識プロファイルをプロファイル記憶部１３ａに格納する。

次に、図７の例を用いて、音声認識装置における学習処理の流れを説明する。図７に例示するように、識別部１２ａは、車内の画像データを自動車２０から受信すると（ステップＳ２０１肯定）、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する（ステップＳ２０２）。

そして、学習部１２ｃは、識別部１２ａによって認識されたユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部１３ｂから取得する（ステップＳ２０３）。そして、学習部１２ｃは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する（ステップＳ２０４）。

次に、図８の例を用いて、音声認識装置における制御実行処理の流れを説明する。図８に例示するように、識別部１２ａは、車内の画像データを自動車２０から受信すると（ステップＳ３０１肯定）、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する（ステップＳ３０２）。

そして、認識部１２ｄは、識別部１２ａによって認識されたユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部１３ｂから取得する（ステップＳ３０３）。続いて、認識部１２ｄは、ユーザの音声データを入力として、取得した音響モデル、言語モデル、ユーザ辞書ファイルを用いて、音声認識を行う（ステップＳ３０４）。

そして、制御部１２ｅは、認識部１２ｄによって認識された音声が指示内容を含むか判定する（ステップＳ３０５）。この結果、制御部１２ｅは、認識部１２ｄによって認識された音声が指示内容を含む場合には（ステップＳ３０５肯定）、該指示内容が所定の条件を満たすか判定する（ステップＳ３０６）。

この結果、制御部１２ｅは、指示内容が所定の条件を満たす場合には（ステップＳ３０６肯定）、指示に対応する制御を自動車２０に対して実行する（ステップＳ３０７）。なお、制御部１２ｅが、認識部１２ｄによって認識された音声が指示内容を含まないと判定した場合（ステップＳ３０５否定）、もしくは、指示内容が所定の条件を満たさない場合には（ステップＳ３０６否定）、そのまま処理を終了する。

（第１の実施形態の効果）
第１の実施形態に係る音声認識装置１０では、カメラにより撮像された画像に含まれるユーザを識別し、識別したユーザに関する属性情報を取得し、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。また、音声認識装置１０は、ユーザの音声データを入力として、該ユーザに対応するモデルを用いて、音声認識を行う。このため、音声認識装置１０では、音声認識の精度を向上させることが可能である。

つまり、音声認識装置１０では、音声認識に関するモデルを構築する際、発話者を認識して発話者別の音声データを用いて、発話者毎にモデルを学習出来るようにすることで、ユーザ毎の話す言葉の特徴や癖なども加味した音響モデル等にチューニングできるため、音声認識精度を向上させることが可能である。

また、第１の実施形態に係る音声認識装置１０では、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習するので、ユーザ毎の話す言葉の特徴や癖だけでなく、着座位置で発話した際の音響や雑音の影響なども加味した音響モデル等にチューニングできるため、音声認識精度を向上させることが可能である。

（第２の実施形態）
上述した第１の実施形態では、自動車２０の乗っている各ユーザの音声データに対して音声認識を行う場合を説明したが、これに限定されるものではなく、例えば、会社のオフィスや自宅等における各ユーザの音声データに対して音声認識を行うようにしてもよい。

そこで、以下では、第２の実施形態に係る音声認識システム１００Ａでは、会社において、ユーザＩＤおよびユーザがいる部屋の組み合わせごとにモデルを学習して記憶する場合を説明する。なお、第２の実施形態に係る音声認識システム１００と同様の構成や処理については説明を省略する。

図９は、第２の実施形態に係る音声認識システムの構成例を示すブロック図である。第２の実施形態に係る音声認識システム１００Ａは、音声認識装置１０および複数の室内カメラ４０Ａ、４０Ｂを有し、音声認識装置１０と室内カメラ４０Ａ、４０Ｂとはネットワーク３０を介して互いに接続されている。なお、図１に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。

第２の実施形態に係る音声認識装置１０は、ユーザが発話した音声を認識し、認識した音声に応じて所定の制御処理を行うサーバである。例えば、音声認識装置１０は、室内カメラ４０Ａ、４０Ｂから画像データを受信し、ユーザを識別する。そして、音声認識装置１０は、会議室にいるユーザの指示に関する音声データを受信し、ユーザに対応する音声認識に関するモデルを用いて、音声データを解析して発話の内容を認識し、発話の内容に含まれる指示の実行可否を判定し、実行可であると判定した場合に、指示に対応する制御処理を実行する。

また、音声認識装置１０は、ユーザごとに音声認識に関するモデルを有する。つまり、音声認識装置１０は、各ユーザの音声データを用いてそれぞれ学習された音声認識に関するモデルを有する。

室内カメラ４０Ａ、４０Ｂは、室内の画像を撮像するとともに、室内の音声を集音するマイクからユーザが発話した音声を集音する。そして、室内カメラ４０Ａ、４０Ｂは、撮像した画像データとともに、マイクで集音した音声データを定期的に音声認識装置１０に送信する。なお、音声を集音する処理については、ユーザが所有するスマートフォン、室内に設置されたスマートスピーカー等であってもよい。

第２の実施形態に係る音声認識装置１０のプロファイル記憶部１３ａは、ユーザに関する属性情報と音声認識に関するモデルの識別情報とが対応付けられた個人別の音声認識プロファイルを記憶する。例えば、プロファイル記憶部１３ａは、図１０に例示するように、プロファイルを識別する「プロファイルＩＤ」と、ユーザを識別する「ユーザＩＤ」と、ユーザの「性別」と、ユーザの「年齢」と、ユーザの位置する部屋を示す「場所」と、音響モデルを識別する「音響モデルＩＤ」と、言語モデルを識別する「言語モデルＩＤ」と、ユーザ辞書ファイルを識別する「ユーザ辞書ファイル」とを対応付けて記憶する。

また、プロファイル記憶部１３ａは、図１０の例では、ユーザおよび場所の組み合わせごとに音声認識プロファイルを記憶する。つまり、図１０の例を挙げて説明すると、プロファイル記憶部１３ａでは、ユーザ「Ａ」について、場所が「会議室」である場合と、場所が「食堂」である場合とでは、プロファイルＩＤ「１」の音声認識プロファイルとプロファイルＩＤ「２」の音声認識プロファイルをそれぞれ記憶している。

また、第２の実施形態に係る音声認識装置１０の識別部１２ａは、室内に搭載されたカメラにより撮像された画像に含まれるユーザを識別する。また、第２の実施形態に係る音声認識装置１０の取得部１２ｂは、識別部１２ａによって識別されたユーザに関する属性情報として、ユーザの性別、ユーザの年齢およびユーザがいる部屋のいずれか一つまたは複数を取得する。

また、第２の実施形態に係る音声認識装置１０の学習部１２ｃは、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。例えば、学習部１２ｃは、識別部１２ａによって認識されたユーザのユーザＩＤを受信した場合には、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部１３ｂから取得する。そして、学習部１２ｃは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する。また、学習部１２ｃは、ユーザおよびユーザの位置の組み合わせに対応するモデルをそれぞれ学習するようにしてもよい。

ここで図１１を用いて、ユーザ毎に音響モデルを学習する処理を説明する。図１１は、音響モデルを学習する処理を説明する図である。図１１（１）の例では、会議室にユーザＡおよびユーザＢがいる。このような場合に、図１１に例示するように、学習部１２ｃは、ユーザＡの音声データを取得すると、ユーザＡに対応する音響モデルＸ１にユーザＡの音声データを入力し、音響モデルＸ１を学習させる。また、学習部１２ｃは、ユーザＢの音声データを取得すると、ユーザＢに対応する音響モデルＸ３にユーザＢの音声データを入力し、音響モデルＸ３を学習させる。

また、図１１（２）の例では、学習部１２ｃは、食堂にユーザＡいる。図１１（２）に例示するように、学習部１２ｃは、ユーザＡの音声データを取得すると、ユーザＡに対応する音響モデルＸ２にユーザＡの音声データを入力し、音響モデルＸ２を学習させる。つまり、前述の図１１（１）の例では、ユーザＡが会議室にいる場合にはユーザＡの音声データを音響モデルＸ１に入力していたが、ユーザＡが食堂にいる場合にはユーザＡの音声データを別の音響モデルＸ２に入力する。

このように、ユーザおよび部屋の組み合わせ毎に音響モデルを学習するので、ユーザ毎の話す言葉の特徴や癖だけでなく、部屋で発話した際の音響や雑音の影響なども加味した音響モデル等にチューニングできるため、音声認識精度をさらに向上させることが可能である。なお、図１１の例では、音響モデルのみを例示し、言語モデルやユーザ辞書ファイルについては図示を省略しているが、音響モデル同様に、ユーザごとに学習するものとする。

（変形例）
また、上記した音声認識装置１０が実行する処理の一部をユーザの端末が実行するようにしてもよい。例えば、図２に例示した音声認識装置１０（サーバ）の認識部１２ｄの機能を端末が有していてもよい。

ここで、図１２を用いて、変形例に係るサーバおよび端末の構成例について説明する。
図１２は、変形例に係るサーバおよび端末の構成例を示すブロック図である。図１２に例示するように、サーバ５０と端末６０とはネットワーク３０を介して互いに接続されている。ここでサーバ５０は、図２に例示した音声認識装置１０の認識部１２ｄ以外の機能を有するものとする。

また、端末６０は、ユーザのスマートフォン等の端末装置である。端末６０は、受付部６１および認識部６２を有する。受付部６１は、ユーザの音声データを受け付ける。また、認識部６２は、受付部６１によってユーザの音声データが受け付けられると、各ユーザの音声データを用いてユーザ別に学習された複数の音声認識に関するモデルのうちユーザに対応するモデルに対して、受け付けたユーザの音声データを入力し、モデルの出力データに基づいて、音声認識を行う。

つまり、サーバ５０側でユーザごとの音声データを用いて発話者別に音響モデル等を学習してユーザ毎の話す言葉の特徴や癖なども加味したモデルにチューニングし、ユーザの端末６０側でユーザ毎に学習されたモデルを適用して音声認識を行う。なお、図１２に示す構成は一例にすぎず、これに限定されるものではなく、サーバ５０および端末６０がそれぞれどのように機能や処理を分担してもよい。

（システム構成等）
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

（プログラム）
また、上記実施形態において説明した音声認識装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る音声認識装置１０が実行する処理をコンピュータが実行可能な言語で記述した音声認識プログラムを作成することもできる。この場合、コンピュータが音声認識プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された音声認識プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

図１３は、音声認識プログラムを実行するコンピュータを示す図である。図１３に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、図１３に例示するように、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図１３に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図１３に例示するように、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図１３に例示するように、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図１３に例示するように、例えばディスプレイ１１３０に接続される。

ここで、図１３に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の、音声認識プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０９０に記憶される。

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

なお、音声認識プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、音声認識プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０音声認識装置
１１通信処理部
１２制御部
１２ａ識別部
１２ｂ取得部
１２ｃ学習部
１２ｄ認識部
１２ｅ制御部
１３記憶部
１３ａプロファイル記憶部
１３ｂモデル情報記憶部
２０自動車
３０ネットワーク
４０Ａ、４０Ｂ室内カメラ
５０サーバ
６０端末
６１受付部
６２認識部
１００、１００Ａ音声認識システム

Claims

カメラにより撮像された画像に含まれるユーザを識別する識別部と、
前記識別部によって識別されたユーザに関する属性情報を取得する取得部と、
各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習部と、
前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識部と
を有し、
前記学習部は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識部は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識装置。
前記認識部によって認識された音声に所定の指示が含まれ、かつ、該指示が所定の条件を満たす場合には、該指示に対応する処理を実行するように制御する制御部をさらに有することを特徴とする請求項１に記載の音声認識装置。
前記識別部は、自動車に搭載されたカメラにより撮像された車内の画像に含まれるユーザを識別し、
前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザの着座位置のいずれか一つまたは複数を取得することを特徴とする請求項１に記載の音声認識装置。
前記識別部は、室内に搭載されたカメラにより撮像された画像に含まれるユーザを識別し、
前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザがいる部屋のいずれか一つまたは複数を取得することを特徴とする請求項１に記載の音声認識装置。
音声認識装置によって実行される音声認識方法であって、
カメラにより撮像された画像に含まれるユーザを識別する識別工程と、
前記識別工程によって識別されたユーザに関する属性情報を取得する取得工程と、
各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習工程と、
前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識工程と
を含み、
前記学習工程は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識工程は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識方法。
カメラにより撮像された画像に含まれるユーザを識別する識別ステップと、
前記識別ステップによって識別されたユーザに関する属性情報を取得する取得ステップと、
各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習ステップと、
前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識ステップと
をコンピュータに実行させ、
前記学習ステップは、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識ステップは、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識プログラム。