JP7117972B2 - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP7117972B2
JP7117972B2 JP2018197858A JP2018197858A JP7117972B2 JP 7117972 B2 JP7117972 B2 JP 7117972B2 JP 2018197858 A JP2018197858 A JP 2018197858A JP 2018197858 A JP2018197858 A JP 2018197858A JP 7117972 B2 JP7117972 B2 JP 7117972B2
Authority
JP
Japan
Prior art keywords
user
speech recognition
unit
recognition
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018197858A
Other languages
English (en)
Other versions
JP2020064267A (ja
Inventor
宏成 高橋
圭子 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2018197858A priority Critical patent/JP7117972B2/ja
Publication of JP2020064267A publication Critical patent/JP2020064267A/ja
Application granted granted Critical
Publication of JP7117972B2 publication Critical patent/JP7117972B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識装置、端末、音声認識方法および音声認識プログラムに関する。
近年、カーナビゲーション、スマートフォン、スマートスピーカーなどユーザが音声で機器に指示を出し、操作するものが増えてきている。このようにユーザが発話した音声データを音声認識するためのモデルとして、例えば、平均的な音声データに基づいてチューニングされたモデルが適用されることが知られている。
特開2016-180916号公報
しかしながら、従来の技術では、音声認識の精度が低いくなる場合があるという課題があった。例えば、従来の技術では、音声認識するためのモデルとして、平均的な音声データに基づいてチューニングされたモデルが適用されているため、音声データの認識率が一定ではなく、ご認識が多発する場合がある。
上述した課題を解決し、目的を達成するために、本発明の音声認識装置は、カメラにより撮像された画像に含まれるユーザを識別する識別部と、前記識別部によって識別されたユーザに関する属性情報を取得する取得部と、各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習部と、前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識部とを有することを特徴とする。
また、本発明の音声認識方法は、音声認識装置によって実行される音声認識方法であって、カメラにより撮像された画像に含まれるユーザを識別する識別工程と、前記識別工程によって識別されたユーザに関する属性情報を取得する取得工程と、各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習工程と、前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識工程とを含むことを特徴とする。
また、本発明の音声認識プログラムは、カメラにより撮像された画像に含まれるユーザを識別する識別ステップと、前記識別ステップによって識別されたユーザに関する属性情報を取得する取得ステップと、各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習ステップと、前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識ステップとをコンピュータに実行させることを特徴とする。
本発明によれば、音声認識の精度を向上させることができるという効果を奏する。
図1は、第1の実施形態に係る音声認識システムの構成例を示すブロック図である。 図2は、第1の実施形態に係る音声認識装置の構成例を示すブロック図である。 図3は、プロファイル記憶部に記憶されるデータの一例を示す図である。 図4は、ユーザ毎に音響モデルを学習する処理を説明する図である。 図5は、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習する処理を説明する図である。 図6は、第1の実施形態に係る音声認識装置におけるプロファイル作成処理の流れの一例を示すフローチャートである。 図7は、第1の実施形態に係る音声認識装置における学習処理の流れの一例を示すフローチャートである。 図8は、第1の実施形態に係る音声認識装置における制御実行処理の流れの一例を示すフローチャートである。 図9は、第2の実施形態に係る音声認識システムの構成例を示すブロック図である。 図10は、プロファイル記憶部に記憶されるデータの一例を示す図である。 図11は、音響モデルを学習する処理を説明する図である。 図12は、変形例に係るサーバおよび端末の構成例を示すブロック図である。 図13は、音声認識プログラムを実行するコンピュータを示す図である。
以下に、本願に係る音声認識装置、端末、音声認識方法および音声認識プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る音声認識装置、端末、音声認識方法および音声認識プログラムが限定されるものではない。
[第1の実施形態]
以下の実施の形態では、第1の実施形態に係る音声認識システム100の構成、音声認識装置10の構成、音声認識装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
[音声認識システムの構成]
図1は、第1の実施形態に係る音声認識システムの構成例を示すブロック図である。第1の実施形態に係る音声認識システム100は、音声認識装置10および複数の自動車20を有し、音声認識装置10と自動車20とはネットワーク30を介して互いに接続されている。なお、図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。例えば、音声認識装置10が自動車20とネットワーク30を介して互いに接続されていている場合に限定されるものではなく、例えば、音声認識装置10は、自動車20の中に設置されていてもよい。
音声認識装置10は、ユーザが発話した音声を認識し、認識した音声に応じて所定の制御処理を行うサーバである。例えば、音声認識装置10は、自動車20に乗っているユーザの指示に関する音声データを受信し、音声データを解析して発話の内容を認識し、発話の内容に含まれる指示の実行可否を判定し、実行可であると判定した場合に、指示に対応する制御処理を実行する。
音声認識装置10は、ユーザごとに音声認識に関するモデルを有する。つまり、音声認識装置10は、各ユーザの音声データを用いてそれぞれ学習された音声認識に関するモデルを有する。なお、ここで、音声認識に関するモデルとは、例えば、音響モデル、言語モデルおよびユーザ辞書ファイル等のうち、いずれか一つまたは複数を含むものである。
自動車20は、車内のユーザが発話した音声に応じて、各種処理を実行可能な車両である。例えば、自動車20は、各種処理として、運転モードの切替や、ドアの開閉、カーナビの操作、オーディオの操作、エアコンの操作、シートリクライニングの調整などを音声による指示を受け付けることによって実行する。
自動車20は、例えば、車内の音声を集音するマイクからユーザが発話した音声を集音する。なお、音声を集音する処理については、自動車に搭載されたカーナビゲーションやユーザが所有するスマートフォン、スマートスピーカー等であってもよい。また、自動車20は、車内の画像を撮像するカメラが搭載されている。自動車20は、撮像した画像データとともに、マイクで集音した音声データを定期的に音声認識装置10に送信する。
[音声認識装置の構成]
次に、図2を用いて、音声認識装置10の構成を説明する。図2は、第1の実施形態に係る音声認識装置の構成例を示すブロック図である。図2に示すように、この音声認識装置10は、通信処理部11、制御部12および記憶部13を有する。以下に音声認識装置10が有する各部の処理を説明する。
通信処理部11は、各種情報に関する通信を制御する。例えば、通信処理部11は、画像データおよび音声データを自動車20から受信し、音声データに含まれる指示に対応する処理内容を自動車20に対して送信する。
記憶部13は、制御部12による各種処理に必要なデータおよびプログラムを格納する。記憶部13は、プロファイル記憶部13aおよびモデル情報記憶部13bを有する。例えば、記憶部13は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
プロファイル記憶部13aは、ユーザに関する属性情報と音声認識に関するモデルの識別情報とが対応付けられた個人別の音声認識プロファイルを記憶する。例えば、プロファイル記憶部13aは、図3に例示するように、プロファイルを識別する「プロファイルID」と、ユーザを識別する「ユーザID」と、ユーザの「性別」と、ユーザの「年齢」と、ユーザの自動車20における「着座位置」と、音響モデルを識別する「音響モデルID」と、言語モデルを識別する「言語モデルID」と、ユーザ辞書ファイルを識別する「ユーザ辞書ファイル」とを対応付けて記憶する。
また、プロファイル記憶部13aは、図3の例では、ユーザおよび着座位置の組み合わせごとに音声認識プロファイルを記憶する。つまり、図3の例を挙げて説明すると、プロファイル記憶部13aでは、ユーザ「A」について、着座位置が「運転席」である場合と、着座位置が「助手席」である場合とでは、プロファイルID「1」の音声認識プロファイルとプロファイルID「2」の音声認識プロファイルをそれぞれ記憶している。
モデル情報記憶部13bは、ユーザごとに、音声認識に関するモデルを記憶する。例えば、モデル情報記憶部13bは、ユーザおよび着座位置の組み合わせごとに、それぞれチューニングされた音響モデル、言語モデルおよびユーザ辞書ファイルを記憶する。モデル情報記憶部13bでは、音響モデル、言語モデルおよびユーザ辞書ファイルが、それぞれ音響モデルID、言語モデルIDおよびユーザ辞書ファイルIDにそれぞれ紐付けられているものとする。
制御部12は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部12は、識別部12a、取得部12b、学習部12c、認識部12dおよび制御部12eを有する。ここで、制御部12は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
識別部12aは、カメラにより撮像された画像に含まれるユーザを識別する。具体的には、識別部12aは、自動車20に搭載されたカメラにより撮像された車内の画像に含まれるユーザを識別する。
例えば、識別部12aは、車内の画像データを自動車20から定期的に受信すると、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する。そして、識別部12aは、識別したユーザがプロファイル記憶部13aにおいて未登録のユーザであるか否かを判定する。この結果、識別部12aは、未登録のユーザであると判定した場合には、ユーザの属性情報の取得を取得部12bに指示する。また、識別部12aは、登録済みのユーザである場合には、認識したユーザのユーザIDを学習部12cおよび認識部12dに通知する。
取得部12bは、識別部12aによって識別されたユーザに関する属性情報を取得する。具体的には、取得部12bは、識別部12aによって識別されたユーザに関する属性情報として、ユーザの性別、ユーザの年齢およびユーザの着座位置のいずれか一つまたは複数を取得する。
例えば、取得部12bは、ユーザの属性情報の取得指示を識別部12aから受け付けた場合には、属性情報として、未登録のユーザの性別、ユーザの年齢およびユーザの着座位置を取得する。ここで、取得部12bは、どのように属性情報を取得するようにしてもよい。
例えば、取得部12bは、カメラによって撮像された画像データから性別や年齢(大人または子供)、着座位置を特定することで属性情報を取得してもよいし、ユーザの手動入力により属性情報を取得するようにしてもよい。そして、取得部12bは、未登録ユーザの属性情報に基づいて、音声認識プロファイルを作成する。つまり、取得部12bは、取得した未登録のユーザの属性情報と、ユーザおよび着座位置の組み合わせに対応する音声モデルID、言語モデルIDおよびユーザ辞書ファイルIDとを紐付けた音声認識プロファイルをプロファイル記憶部13aに格納する。また、取得部12bは、特定した着座位置を学習部12cおよび認識部12dを通知する。
学習部12cは、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。例えば、学習部12cは、識別部12aによって認識されたユーザのユーザIDを受信した場合には、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部13bから取得する。そして、学習部12cは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する。なお、学習手法については、どのような手法であってもよい。
ここで図4を用いて、ユーザ毎に音響モデルを学習する処理を説明する。図4は、ユーザ毎に音響モデルを学習する処理を説明する図である。図4の例では、自動車の運転席にユーザAが座り、助手席にユーザBが座り、後部座席にユーザCが座っている。このような場合に、図4に例示するように、学習部12cは、ユーザAの音声データを取得すると、ユーザAに対応する音響モデルX1にユーザAの音声データを入力し、音響モデルX1を学習させる。
また、学習部12cは、ユーザBの音声データを取得すると、ユーザBに対応する音響モデルX3にユーザBの音声データを入力し、音響モデルX3を学習させる。また、学習部12cは、ユーザCの音声データを取得すると、ユーザCに対応する音響モデルX4にユーザCの音声データを入力し、音響モデルX4を学習させる。このように、ユーザを識別して、ユーザごとの音声データを用いて発話者別に音響モデル等を学習するので、ユーザ毎の話す言葉の特徴や癖なども加味した音響モデル等にチューニングできるため、音声認識精度を向上させることが可能である。
また、学習部12cは、ユーザおよびユーザの位置の組み合わせに対応するモデルをそれぞれ学習するようにしてもよい。例えば、学習部12cは、識別部12aによって認識されたユーザのユーザIDと取得部12bによって特定された着座位置とを受信した場合には、ユーザおよび着座位置に対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部13bから取得する。そして、学習部12cは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する。
ここで図5を用いて、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習する処理を説明する。図5は、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習する処理を説明する図である。図5の例では、自動車の運転席にユーザBが座り、助手席にユーザAが座っている。図5に例示するように、学習部12cは、ユーザAの音声データを取得すると、ユーザAに対応する音響モデルX2にユーザAの音声データを入力し、音響モデルX2を学習させる。
つまり、前述の図4の例では、ユーザAが運転席に座っている場合にはユーザAの音声データを音響モデルX1に入力していたが、ユーザAが助手席に座っている場合にはユーザAの音声データを別の音響モデルX2に入力する。このように、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習するので、ユーザ毎の話す言葉の特徴や癖だけでなく、着座位置で発話した際の音響や雑音の影響なども加味した音響モデル等にチューニングできるため、音声認識精度をさらに向上させることが可能である。なお、図4および図5の例では、音響モデルのみを例示し、言語モデルやユーザ辞書ファイルについては図示を省略しているが、音響モデル同様に、ユーザごとに学習するものとする。
認識部12dは、ユーザの音声データを入力として、該ユーザに対応する音声認識に関するモデルを用いて、音声認識を行う。例えば、認識部12dは、識別部12aによって認識されたユーザのユーザIDを受信した場合には、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部13bから取得する。そして、認識部12dは、ユーザの音声データを入力として、取得した音響モデル、言語モデル、ユーザ辞書ファイルを用いて、音声認識を行う。
また、認識部12dは、ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応するモデルを用いて、音声認識を行うようにしてもよい。例えば、図4の例を用いて説明すると、ユーザAが運転席に着座している場合には、プロファイル記憶部13aを参照し、ユーザおよびユーザの位置に対応する音響モデルX1、言語モデルY1、ユーザ辞書ファイルZ1を取得する。
つまり、認識部12dは、ユーザAが運転席に着座している際の最適なチェーニングが施された音響モデル等を取得する。そして、認識部12dは、音声データを入力として、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを用いて音声認識を行う。なお、音声認識手法については、どのような手法であってもよい。その後、認識部12dは、音声認識を行った結果である音声認識結果を制御部12eに通知する。
制御部12eは、認識部12dによって認識された音声に所定の指示が含まれ、かつ、該指示が所定の条件を満たす場合には、該指示に対応する処理を実行するように制御する。具体的には、制御部12eは、認識部12dによって認識された音声が指示内容を含むか判定する。この結果、制御部12eは、認識部12dによって認識された音声が指示内容を含む場合には、該指示内容が所定の条件を満たすか判定する。この結果、制御部12eは、指示内容が所定の条件を満たす場合には、指示に対応する処理を自動車20に対して実行するように指示する。
例えば、制御部12eは、所定の条件として、運転モード切替や自動運転、ドアの開閉などの即事故に関わる重要な指示については、運転席に座る人の音声による指示のみを実行するように制御する。また、例えば、制御部12eは、カーナビ、オーディオ等のエンタメ系、エアコン、シートリクライニング等についえは、機能毎に受付可否を制御するようにしてもよい。また、例えば、制御部12eは、カーナビ操作については、運転席に座る人または助手席に座る人の音声による指示のみを実行するように制御する。また、例えば、制御部12eは、エンタメ系のメディア、音楽再生に対する指示はいずれも実行するように制御する。
また、例えば、制御部12eは、窓の開閉制御、シートリクライニング制御、車内灯制御、エアコン制御等の社内環境に関する指示はいずれの音声も受け付け、各席毎に実行できるように制御する。また、制御部12eは、例えば、運転席のユーザの音声のみ、他席の窓開閉やシートリクライニング等に対する指示を受け付けて実行するようにしてもよい。また、所定の条件については、事前に設定変更できるものとする。
さらに、制御部12eは、識別部12aによって識別されたユーザの属性情報に応じて、出力する情報を変更するようにしてもよい。例えば、制御部12eは、運転手が夫(男性・大人)の場合と、妻(女性・大人)の場合では、カーナビが案内する道が異なるように制御してもよい。例えば、制御部12eは、運転手が夫(男性・大人)の場合には、近道である狭い裏道を案内し、妻(女性・大人)の場合には、運転のし易い広い幹線道路を案内するように制御する。また、制御部12eは、ユーザの属性情報に応じて、エンタメ系の再生リストを自動呼出しして提案するように制御したり、エアコン温度や風量、風向き制御を自動制御したりしてもよい。
[音声認識装置の処理手順]
次に、図6~図8を用いて、第1の実施形態に係る音声認識装置10による処理手順の例を説明する。図6は、第1の実施形態に係る音声認識装置におけるプロファイル作成処理の流れの一例を示すフローチャートである。図7は、第1の実施形態に係る音声認識装置における学習処理の流れの一例を示すフローチャートである。図8は、第1の実施形態に係る音声認識装置における制御実行処理の流れの一例を示すフローチャートである。
まず、図6の例を用いて、音声認識装置10におけるプロファイル作成処理の流れを説明する。図6に例示するように、識別部12aは、車内の画像データを自動車20から受信すると(ステップS101)、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する(ステップS102)。
そして、識別部12aは、識別したユーザがプロファイル記憶部13aにおいて未登録のユーザであるか否かを判定する(ステップS103)。この結果、識別部12aは、未登録のユーザでないと判定した場合には(ステップS103否定)、そのまま処理を終了する。一方、識別部12aが未登録のユーザであると判定した場合には(ステップS103肯定)、取得部12bは、識別部12aによって識別されたユーザに関する属性情報を取得する(ステップS104)。例えば、取得部12bは、属性情報として、未登録のユーザの性別、ユーザの年齢およびユーザの着座位置を取得する。
そして、取得部12bは、未登録ユーザの属性情報に基づいて、音声認識プロファイルを作成する(ステップS105)。つまり、取得部12bは、取得した未登録のユーザの属性情報と、ユーザおよび着座位置の組み合わせに対応する音声モデルID、言語モデルIDおよびユーザ辞書ファイルIDとを紐付けた音声認識プロファイルをプロファイル記憶部13aに格納する。
次に、図7の例を用いて、音声認識装置における学習処理の流れを説明する。図7に例示するように、識別部12aは、車内の画像データを自動車20から受信すると(ステップS201肯定)、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する(ステップS202)。
そして、学習部12cは、識別部12aによって認識されたユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部13bから取得する(ステップS203)。そして、学習部12cは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する(ステップS204)。
次に、図8の例を用いて、音声認識装置における制御実行処理の流れを説明する。図8に例示するように、識別部12aは、車内の画像データを自動車20から受信すると(ステップS301肯定)、既存の顔認証技術等を用いて、画像に含まれるユーザを識別する(ステップS302)。
そして、認識部12dは、識別部12aによって認識されたユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部13bから取得する(ステップS303)。続いて、認識部12dは、ユーザの音声データを入力として、取得した音響モデル、言語モデル、ユーザ辞書ファイルを用いて、音声認識を行う(ステップS304)。
そして、制御部12eは、認識部12dによって認識された音声が指示内容を含むか判定する(ステップS305)。この結果、制御部12eは、認識部12dによって認識された音声が指示内容を含む場合には(ステップS305肯定)、該指示内容が所定の条件を満たすか判定する(ステップS306)。
この結果、制御部12eは、指示内容が所定の条件を満たす場合には(ステップS306肯定)、指示に対応する制御を自動車20に対して実行する(ステップS307)。なお、制御部12eが、認識部12dによって認識された音声が指示内容を含まないと判定した場合(ステップS305否定)、もしくは、指示内容が所定の条件を満たさない場合には(ステップS306否定)、そのまま処理を終了する。
(第1の実施形態の効果)
第1の実施形態に係る音声認識装置10では、カメラにより撮像された画像に含まれるユーザを識別し、識別したユーザに関する属性情報を取得し、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。また、音声認識装置10は、ユーザの音声データを入力として、該ユーザに対応するモデルを用いて、音声認識を行う。このため、音声認識装置10では、音声認識の精度を向上させることが可能である。
つまり、音声認識装置10では、音声認識に関するモデルを構築する際、発話者を認識して発話者別の音声データを用いて、発話者毎にモデルを学習出来るようにすることで、ユーザ毎の話す言葉の特徴や癖なども加味した音響モデル等にチューニングできるため、音声認識精度を向上させることが可能である。
また、第1の実施形態に係る音声認識装置10では、ユーザおよび着座位置の組み合わせ毎に音響モデルを学習するので、ユーザ毎の話す言葉の特徴や癖だけでなく、着座位置で発話した際の音響や雑音の影響なども加味した音響モデル等にチューニングできるため、音声認識精度を向上させることが可能である。
(第2の実施形態)
上述した第1の実施形態では、自動車20の乗っている各ユーザの音声データに対して音声認識を行う場合を説明したが、これに限定されるものではなく、例えば、会社のオフィスや自宅等における各ユーザの音声データに対して音声認識を行うようにしてもよい。
そこで、以下では、第2の実施形態に係る音声認識システム100Aでは、会社において、ユーザIDおよびユーザがいる部屋の組み合わせごとにモデルを学習して記憶する場合を説明する。なお、第2の実施形態に係る音声認識システム100と同様の構成や処理については説明を省略する。
図9は、第2の実施形態に係る音声認識システムの構成例を示すブロック図である。第2の実施形態に係る音声認識システム100Aは、音声認識装置10および複数の室内カメラ40A、40Bを有し、音声認識装置10と室内カメラ40A、40Bとはネットワーク30を介して互いに接続されている。なお、図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。
第2の実施形態に係る音声認識装置10は、ユーザが発話した音声を認識し、認識した音声に応じて所定の制御処理を行うサーバである。例えば、音声認識装置10は、室内カメラ40A、40Bから画像データを受信し、ユーザを識別する。そして、音声認識装置10は、会議室にいるユーザの指示に関する音声データを受信し、ユーザに対応する音声認識に関するモデルを用いて、音声データを解析して発話の内容を認識し、発話の内容に含まれる指示の実行可否を判定し、実行可であると判定した場合に、指示に対応する制御処理を実行する。
また、音声認識装置10は、ユーザごとに音声認識に関するモデルを有する。つまり、音声認識装置10は、各ユーザの音声データを用いてそれぞれ学習された音声認識に関するモデルを有する。
室内カメラ40A、40Bは、室内の画像を撮像するとともに、室内の音声を集音するマイクからユーザが発話した音声を集音する。そして、室内カメラ40A、40Bは、撮像した画像データとともに、マイクで集音した音声データを定期的に音声認識装置10に送信する。なお、音声を集音する処理については、ユーザが所有するスマートフォン、室内に設置されたスマートスピーカー等であってもよい。
第2の実施形態に係る音声認識装置10のプロファイル記憶部13aは、ユーザに関する属性情報と音声認識に関するモデルの識別情報とが対応付けられた個人別の音声認識プロファイルを記憶する。例えば、プロファイル記憶部13aは、図10に例示するように、プロファイルを識別する「プロファイルID」と、ユーザを識別する「ユーザID」と、ユーザの「性別」と、ユーザの「年齢」と、ユーザの位置する部屋を示す「場所」と、音響モデルを識別する「音響モデルID」と、言語モデルを識別する「言語モデルID」と、ユーザ辞書ファイルを識別する「ユーザ辞書ファイル」とを対応付けて記憶する。
また、プロファイル記憶部13aは、図10の例では、ユーザおよび場所の組み合わせごとに音声認識プロファイルを記憶する。つまり、図10の例を挙げて説明すると、プロファイル記憶部13aでは、ユーザ「A」について、場所が「会議室」である場合と、場所が「食堂」である場合とでは、プロファイルID「1」の音声認識プロファイルとプロファイルID「2」の音声認識プロファイルをそれぞれ記憶している。
また、第2の実施形態に係る音声認識装置10の識別部12aは、室内に搭載されたカメラにより撮像された画像に含まれるユーザを識別する。また、第2の実施形態に係る音声認識装置10の取得部12bは、識別部12aによって識別されたユーザに関する属性情報として、ユーザの性別、ユーザの年齢およびユーザがいる部屋のいずれか一つまたは複数を取得する。
また、第2の実施形態に係る音声認識装置10の学習部12cは、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。例えば、学習部12cは、識別部12aによって認識されたユーザのユーザIDを受信した場合には、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルをモデル情報記憶部13bから取得する。そして、学習部12cは、音声データを用いて、ユーザに対応する音響モデル、言語モデル、ユーザ辞書ファイルを学習する。また、学習部12cは、ユーザおよびユーザの位置の組み合わせに対応するモデルをそれぞれ学習するようにしてもよい。
ここで図11を用いて、ユーザ毎に音響モデルを学習する処理を説明する。図11は、音響モデルを学習する処理を説明する図である。図11(1)の例では、会議室にユーザAおよびユーザBがいる。このような場合に、図11に例示するように、学習部12cは、ユーザAの音声データを取得すると、ユーザAに対応する音響モデルX1にユーザAの音声データを入力し、音響モデルX1を学習させる。また、学習部12cは、ユーザBの音声データを取得すると、ユーザBに対応する音響モデルX3にユーザBの音声データを入力し、音響モデルX3を学習させる。
また、図11(2)の例では、学習部12cは、食堂にユーザAいる。図11(2)に例示するように、学習部12cは、ユーザAの音声データを取得すると、ユーザAに対応する音響モデルX2にユーザAの音声データを入力し、音響モデルX2を学習させる。つまり、前述の図11(1)の例では、ユーザAが会議室にいる場合にはユーザAの音声データを音響モデルX1に入力していたが、ユーザAが食堂にいる場合にはユーザAの音声データを別の音響モデルX2に入力する。
このように、ユーザおよび部屋の組み合わせ毎に音響モデルを学習するので、ユーザ毎の話す言葉の特徴や癖だけでなく、部屋で発話した際の音響や雑音の影響なども加味した音響モデル等にチューニングできるため、音声認識精度をさらに向上させることが可能である。なお、図11の例では、音響モデルのみを例示し、言語モデルやユーザ辞書ファイルについては図示を省略しているが、音響モデル同様に、ユーザごとに学習するものとする。
(変形例)
また、上記した音声認識装置10が実行する処理の一部をユーザの端末が実行するようにしてもよい。例えば、図2に例示した音声認識装置10(サーバ)の認識部12dの機能を端末が有していてもよい。
ここで、図12を用いて、変形例に係るサーバおよび端末の構成例について説明する。
図12は、変形例に係るサーバおよび端末の構成例を示すブロック図である。図12に例示するように、サーバ50と端末60とはネットワーク30を介して互いに接続されている。ここでサーバ50は、図2に例示した音声認識装置10の認識部12d以外の機能を有するものとする。
また、端末60は、ユーザのスマートフォン等の端末装置である。端末60は、受付部61および認識部62を有する。受付部61は、ユーザの音声データを受け付ける。また、認識部62は、受付部61によってユーザの音声データが受け付けられると、各ユーザの音声データを用いてユーザ別に学習された複数の音声認識に関するモデルのうちユーザに対応するモデルに対して、受け付けたユーザの音声データを入力し、モデルの出力データに基づいて、音声認識を行う。
つまり、サーバ50側でユーザごとの音声データを用いて発話者別に音響モデル等を学習してユーザ毎の話す言葉の特徴や癖なども加味したモデルにチューニングし、ユーザの端末60側でユーザ毎に学習されたモデルを適用して音声認識を行う。なお、図12に示す構成は一例にすぎず、これに限定されるものではなく、サーバ50および端末60がそれぞれどのように機能や処理を分担してもよい。
(システム構成等)
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
(プログラム)
また、上記実施形態において説明した音声認識装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る音声認識装置10が実行する処理をコンピュータが実行可能な言語で記述した音声認識プログラムを作成することもできる。この場合、コンピュータが音声認識プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された音声認識プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
図13は、音声認識プログラムを実行するコンピュータを示す図である。図13に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
メモリ1010は、図13に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図13に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図13に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図13に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図13に例示するように、例えばディスプレイ1130に接続される。
ここで、図13に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、音声認識プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
なお、音声認識プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、音声認識プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10 音声認識装置
11 通信処理部
12 制御部
12a 識別部
12b 取得部
12c 学習部
12d 認識部
12e 制御部
13 記憶部
13a プロファイル記憶部
13b モデル情報記憶部
20 自動車
30 ネットワーク
40A、40B 室内カメラ
50 サーバ
60 端末
61 受付部
62 認識部
100、100A 音声認識システム

Claims (6)

  1. カメラにより撮像された画像に含まれるユーザを識別する識別部と、
    前記識別部によって識別されたユーザに関する属性情報を取得する取得部と、
    各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習部と、
    前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識部と
    を有し、
    前記学習部は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
    前記認識部は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識装置。
  2. 前記認識部によって認識された音声に所定の指示が含まれ、かつ、該指示が所定の条件を満たす場合には、該指示に対応する処理を実行するように制御する制御部をさらに有することを特徴とする請求項1に記載の音声認識装置。
  3. 前記識別部は、自動車に搭載されたカメラにより撮像された車内の画像に含まれるユーザを識別し、
    前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザの着座位置のいずれか一つまたは複数を取得することを特徴とする請求項1に記載の音声認識装置。
  4. 前記識別部は、室内に搭載されたカメラにより撮像された画像に含まれるユーザを識別し、
    前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザがいる部屋のいずれか一つまたは複数を取得することを特徴とする請求項1に記載の音声認識装置。
  5. 音声認識装置によって実行される音声認識方法であって、
    カメラにより撮像された画像に含まれるユーザを識別する識別工程と、
    前記識別工程によって識別されたユーザに関する属性情報を取得する取得工程と、
    各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習工程と、
    前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識工程と
    を含み、
    前記学習工程は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
    前記認識工程は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識方法。
  6. カメラにより撮像された画像に含まれるユーザを識別する識別ステップと、
    前記識別ステップによって識別されたユーザに関する属性情報を取得する取得ステップと、
    各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習ステップと、
    前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識ステップと
    をコンピュータに実行させ
    前記学習ステップは、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
    前記認識ステップは、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識プログラム。
JP2018197858A 2018-10-19 2018-10-19 音声認識装置、音声認識方法および音声認識プログラム Active JP7117972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018197858A JP7117972B2 (ja) 2018-10-19 2018-10-19 音声認識装置、音声認識方法および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018197858A JP7117972B2 (ja) 2018-10-19 2018-10-19 音声認識装置、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2020064267A JP2020064267A (ja) 2020-04-23
JP7117972B2 true JP7117972B2 (ja) 2022-08-15

Family

ID=70388269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018197858A Active JP7117972B2 (ja) 2018-10-19 2018-10-19 音声認識装置、音声認識方法および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP7117972B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6977004B2 (ja) * 2019-08-23 2021-12-08 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
KR102502387B1 (ko) * 2022-06-15 2023-02-23 주식회사 모아시스템즈 음성 인식 기반 물류 처리 방법, 장치 및 시스템
CN115376512B (zh) * 2022-08-22 2023-05-30 深圳市长量智能有限公司 一种基于人物画像的语音识别系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010221893A (ja) 2009-03-24 2010-10-07 Mitsubishi Electric Corp 車載情報機器
WO2015029379A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法、表示制御方法及び購入決済方法
US20150161999A1 (en) 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
WO2017145373A1 (ja) 2016-02-26 2017-08-31 三菱電機株式会社 音声認識装置
WO2018175959A1 (en) 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010221893A (ja) 2009-03-24 2010-10-07 Mitsubishi Electric Corp 車載情報機器
WO2015029379A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法、表示制御方法及び購入決済方法
US20150161999A1 (en) 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
WO2017145373A1 (ja) 2016-02-26 2017-08-31 三菱電機株式会社 音声認識装置
WO2018175959A1 (en) 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
原信一,今村弘樹,顔画像を用いた個人識別による話者適応型音声認識手法,電子情報通信学会技術研究報告,2012年07月,第112巻,第141号,p.29-32

Also Published As

Publication number Publication date
JP2020064267A (ja) 2020-04-23

Similar Documents

Publication Publication Date Title
US10515640B2 (en) Generating dialogue based on verification scores
US10818296B2 (en) Method and system of robust speaker recognition activation
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
JP7117972B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20220139389A1 (en) Speech Interaction Method and Apparatus, Computer Readable Storage Medium and Electronic Device
US20210065712A1 (en) Automotive visual speech recognition
US9293133B2 (en) Improving voice communication over a network
EP2987312B1 (en) System and method for acoustic echo cancellation
US10255913B2 (en) Automatic speech recognition for disfluent speech
US20190355352A1 (en) Voice and conversation recognition system
KR20160098771A (ko) 음성 기능 운용 방법 및 이를 지원하는 전자 장치
EP3955245A1 (en) Apparatus, method and program for parsing an utterance using a speaker feature vector
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
US11626104B2 (en) User speech profile management
JP2017090612A (ja) 音声認識制御システム
WO2022206602A1 (zh) 语音唤醒方法、装置、存储介质及系统
JPWO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
Gogate et al. Av speech enhancement challenge using a real noisy corpus
WO2020079733A1 (ja) 音声認識装置、音声認識システム、及び音声認識方法
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
KR20200041642A (ko) 차량용 음성인식 시스템 및 그 제어 방법
JP2018055155A (ja) 音声対話装置および音声対話方法
JP2020101778A (ja) 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体
US20230252987A1 (en) Vehicle and control method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220802

R150 Certificate of patent or registration of utility model

Ref document number: 7117972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150