JP7309095B2

JP7309095B2 - 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Info

Publication number: JP7309095B2
Application number: JP2023514700A
Authority: JP
Inventors: 咲子二本柳; 啓吾川島
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-07-14
Anticipated expiration: 2041-05-20
Also published as: WO2022244178A1; JPWO2022244178A1

Description

本開示は、受話者推定装置、受話者推定方法、及び受話者推定プログラムに関する。

会話の参加者の映像情報及び音声情報などに基づいて発話者が発する音声の受け手である受話者を推定する受話者推定装置の提案がある。例えば、特許文献１を参照。この技術を用いれば、発話者が意図する受話者を推定することができる。受話者は、例えば、発話者以外の参加者又は音声操作を受け付けることができる機器である。

国際公開第２０２０／２４０７３０号

しかしながら、上記受話者推定装置において、受話者の推定精度を向上させたいという要求がある。

本開示は、受話者の推定精度を向上させることができる受話者推定装置、受話者推定方法、及び受話者推定プログラムを提供することを目的とする。

本開示の受話者推定装置は、発話者が発する音声の受話者を推定する装置であって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第２の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する予備動作情報選択部と、前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、を有することを特徴とする。

本開示の受話者推定方法は、発話者が発する音声の受話者を推定する受話者推定装置によって実行される方法であって、状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第２の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成するステップと、前記加工特徴量情報に基づいて前記受話者を推定するステップと、を有することを特徴とする。

本開示によれば、受話者の推定精度を向上させることができる。

実施の形態１に係る受話者推定システムの構成を概略的に示す図である。実施の形態１に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る受話者推定装置のハードウェア構成の例を示す図である。実施の形態１に係る受話者推定装置の動作を示すフローチャートである。図１に示される制約状態情報取得部の動作の例を示す図である。図１に示される特徴量抽出部の動作の例を示す図である。図１に示される予備動作条件データの例を示す図である。図１に示される予備動作条件データの他の例を示す図である。図１に示される予備動作情報選択部の動作の例を示す図である。図１に示される特徴量加工部の動作の例を示す図である。図１に示される特徴量加工部の動作の他の例を示す図である。実施の形態２に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態２に係る受話者推定装置の動作を示すフローチャートである。図１２に示される予備動作種別取得部の動作を示す図である。図１２に示される予備動作情報選択部の動作の例を示す図である。

以下に、実施の形態に係る受話者推定装置、受話者推定方法、及び受話者推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。

《１》実施の形態１
《１－１》構成の概要
〈受話者推定システム〉
図１は、実施の形態１に係る受話者推定システムの構成を概略的に示す図である。受話者推定システムは、状態取得部２０と、機器３０と、入力部４０と、受話者推定装置１００と、出力部５０とを有する。入力部４０及び出力部５０は、受話者推定装置１００の一部であってもよい。入力部４０は、信号を受信する入力装置としての入力インタフェースである。出力部５０は、信号を出力する出力装置としての出力インタフェースである。

受話者推定装置１００は、１人以上の会話の参加者のうちのいずれか１人である発話者が発する音声の受話者すなわち発話者が意図する受話者を推定する。参加者は、予め決められた領域１０に存在する。会話の参加者は、例えば、複数の参加者１１，１２，…である。発話者が、音声操作を受け付ける対象機器３１に宛てた音声（例えば、音声操作のための音声メッセージ）を発する場合には、会話の参加者は発話者である１名の参加者であってもよい。受話者推定システムは、例えば、車両に搭載される車両用のシステムである。領域１０は、例えば、車両の車室である。参加者は、例えば、車両の運転者と同乗者である。

状態取得部２０は、領域１０内の状態を示す領域状態情報Ａ０を取得し、領域状態情報Ａ０を入力部４０に送信する。状態取得部２０は、例えば、領域１０内における音声を取得することによって音声情報Ａ１を生成する音声取得部２１と、領域１０内の映像を撮影することによって映像情報Ａ２を生成する映像取得部２２とを有する。音声取得部２１は、例えば、１台以上のマイクを有する。映像取得部２２は、例えば、１台以上のカメラを有する。領域状態情報Ａ０は、音声情報Ａ１及び映像情報Ａ２の少なくとも１つを含む情報である。音声情報Ａ１は、参加者である発話者が発する音声（すなわち、発話者の発話）に基づく情報である。映像情報Ａ２は、発話者を含む参加者を撮影することによって取得された動画像又は静止画像の情報である。映像情報Ａ２は、例えば、参加者の発話時における振る舞いを含む動画像又は静止画像の情報である。例えば、映像情報Ａ２は、参加者の顔又は参加者の身体の全体の動作を示す画像の情報である。映像情報Ａ２は、時系列に並ぶ複数フレームの画像から構成される動画像の情報であってもよい。

機器３０は、機器３０自身の状態を示す機器情報（「機器状態情報」ともいう。）Ｂ０を入力部４０に送信する。機器３０は、例えば、参加者によって操作される対象機器３１と、参加者によって操作される周辺機器３２とを有する。対象機器３１は、音声による指示に従って動作する音声操作機能を有する機器（「音声対話機器」とも称される。）である。対象機器３１は、例えば、車両内に備えられたカーナビゲーションシステムを含む車載機器又は対話型の音声操作に対応したスピーカであるスマートスピーカである。対象機器情報Ｂ１は、例えば、地図情報を利用可能なカーナビゲーションシステムにおける測位装置であるＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）によって計測されるＧＰＳ情報などの現在地情報、走行経路に関する案内音声情報、などを含んでもよい。対象機器３１は、表示画面３３を有してもよい。

周辺機器３２は、対象機器３１以外の機器である。周辺機器３２は、例えば、車両自体又は車両の一部である。周辺機器３２は、車両の車室などの参加者の会話の場（すなわち、領域１０）の周囲に存在する機器である。周辺機器３２は、参加者のいずれかによって操作されたときに、参加者の行動を制約する状態が生じ得る機器である。参加者の行動は、例えば、参加者の姿勢及び動作（すなわち、動き）を含む。参加者の行動は、参加者の振る舞いとも称される。また、参加者の行動を制約する状態は、例えば、参加者の座席の位置、参加者が機器３０を操作している状態、参加者が前方を注視している状態、などを含む。周辺機器情報Ｂ２は、領域１０の周囲に存在する周辺機器３２の状態を表す情報を少なくとも含む。例えば、周辺機器情報Ｂ２は、周辺機器３２が自動車であれば車速及びハンドル操作情報を含むＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）情報、走行状態を示す走行状態情報、などを含む。走行状態情報は、車両が走行中である状態、車両が停車中である状態、などを含む。

対象機器３１は、対象機器３１自身の状態を示す対象機器情報Ｂ１を入力部４０に送信する。周辺機器３２は、周辺機器３２自身の状態を示す周辺機器情報Ｂ２を入力部４０に送信する。機器情報Ｂ０は、対象機器情報Ｂ１及び周辺機器情報Ｂ２の少なくとも１つを含む情報である。

受話者推定装置１００は、機器情報Ｂ０、領域状態情報Ａ０、及び予め記憶された各種の基準データ（例えば、後述の図２に示されるＣ１、Ｃ２など）に基づいて、発話者が意図する受話者を推定し、推定された受話者を示す情報を含む推定結果情報Ｄ４を出力する。受話者推定装置１００は、受話者の推定に用いられる加工特徴量情報（後述の図２に示されるＤ３）の取得のために、参加者の行動を制約する制約状態項目を含む制約状態情報（後述の図２に示されるＤ２）を考慮に入れる。つまり、制約状態情報は、複数の制約状態項目を含む。制約状態項目は、例えば、発話者の座席の位置、発話者が機器３０を操作している状態、発話者が前方を注視している状態、などを含む。図１の例では、受話者は、参加者のうちの発話者以外の参加者又は対象機器３１である。

出力部５０は、推定結果情報Ｄ４に基づく出力情報Ｄ５を出力する。例えば、受話者が対象機器３１であると推定された場合、出力部５０は、対象機器３１に、受話者が対象機器３１であることを示す出力情報Ｄ５を送信する。出力情報Ｄ５を受信した対象機器３１は、発話者が発する音声が自己に対する音声操作であると判断し、音声操作に従って動作することができる。一方、対象機器３１は、受話者が対象機器３１であることを示す出力情報Ｄ５を受信しない場合又は受話者が対象機器３１でないことを示す出力情報Ｄ５を受信した場合には、発話者が発する音声が自己に対する音声操作ではないと判断することができる。

〈受話者推定装置１００〉
図２は、実施の形態１に係る受話者推定装置１００の構成を概略的に示す機能ブロック図である。受話者推定装置１００は、実施の形態１に係る受話者推定方法を実施することができる装置である。図２に示されるように、受話者推定装置１００は、制約状態情報取得部１１０と、制約基準データＣ１を記憶する第１の記憶部１５０と、特徴量抽出部１２０と、特徴量加工部１３０と、受話者推定部１４０と、予備動作情報選択部１６０と、予備動作条件データＣ２を記憶する第２の記憶部１７０とを有する。受話者推定装置１００は、入力部４０を介して受け取った機器情報Ｂ０及び領域状態情報Ａ０と、予め記憶された各種の基準データである制約基準データＣ１及び予備動作条件データとに基づいて受話者を推定するための処理を行い、推定の結果を示す推定結果情報Ｄ４を出力する。出力部５０は、推定結果情報Ｄ４に基づく出力情報Ｄ５を出力する。第１の記憶部１５０と第２の記憶部１７０とは、互いに異なる記憶装置であってもよい。第１の記憶部１５０と第２の記憶部１７０とは、同じ記憶装置の中の互いに異なる記憶領域であってもよい。

図３は、実施の形態１に係る受話者推定装置１００のハードウェア構成の例を示す図である。受話者推定装置１００は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態１に係る受話者推定プログラムを格納する記憶装置としてのメモリ２０２と、メモリ２０２に格納されたプログラムを実行する情報処理部としてのプロセッサ２０１とを備える。受話者推定装置１００は、汎用のコンピュータであってもよい。プロセッサ２０１は、演算装置である。演算装置は、ＣＰＵ（ＣｅｎｔａｒａｌＰｒｏｃｅｓｓｉｏｎｇＵｎｉｔ）を有する。演算装置は、ＣＰＵに加えてＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有してもよい。演算装置は、時刻情報を提供する時刻提供機能を備えてもよい。

受話者推定プログラムは、情報を記憶する記憶媒体から媒体読取装置（図示せず）を介して又はインターネットなどに接続可能な通信インタフェース（図示せず）を介してメモリ２０２に格納される。また、受話者推定装置１００は、データベースなどの各種情報を格納する記憶装置であるストレージ２０３を有してもよい。ストレージ２０３は、通信インタフェース（図示せず）を介して接続可能なクラウド上に存在する記憶装置であってもよい。プロセッサ２０１は、種々のプログラムをストレージ２０３から読み込んで、メモリ２０２を作業エリアとしてプログラムを実行する。また、受話者推定装置１００は、画像を表示するディスプレイを有してもよい。

図２に示される制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、及び受話者推定部１４０は、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現されることができる。また、図２に示される各構成の一部を、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現してもよい。また、図２に示される第１の記憶部１５０及び第２の記憶部１７０は、ストレージ２０３の一部であってもよい。

入力装置である入力インタフェース２０４は、図２に示される入力部４０である。出力装置である出力インタフェース２０５は、図２に示される出力部５０である。

なお、図２に示される入力部４０、制約状態情報取得部１１０、特徴量抽出部１２０、予備動作情報選択部１６０、特徴量加工部１３０、受話者推定部１４０、及び出力部５０の全体又は一部は、電気回路によって実現されてもよい。

図４は、受話者推定装置１００の動作を示すフローチャートである。入力部４０は、機器情報Ｂ０及び領域状態情報Ａ０を入力情報として受信する。機器情報Ｂ０及び領域状態情報Ａ０は、受話者推定装置１００に提供される。機器情報Ｂ０は、対象機器情報Ｂ１、又は周辺機器情報Ｂ２、又はこれらの両方を含む。領域状態情報Ａ０は、音声情報Ａ１、又は映像情報Ａ２、又はこれらの両方を含む。入力部４０は、受信された機器情報Ｂ０及び領域状態情報Ａ０を、制約状態情報取得部１１０に提供する。また、入力部４０は、領域状態情報Ａ０を特徴量抽出部１２０に提供する。

制約状態情報取得部１１０は、発話者を含む１人以上の参加者が存在する領域１０内の状態を示す領域状態情報Ａ０を取得し、音声による操作を受け付ける対象機器３１を含む機器３０の状態を示す機器情報Ｂ０を取得し、領域１０内において参加者の行動を制約する状態を示すデータである制約基準データＣ１を取得し、領域状態情報Ａ０、機器情報Ｂ０、及び制約基準データＣ１に基づいて、参加者の行動を制約している状態を示す制約状態情報Ｄ２を取得する（ステップＳ１０、Ｓ２０）。特徴量抽出部１２０は、発話者を含む１人以上の参加者が存在する領域１０内の状態を示す領域状態情報Ａ０から領域１０内の状態についての特徴量を抽出することによって、特徴量情報Ｄ０を生成する（ステップＳ３０）。

予備動作情報選択部１６０は、予め想定された制約状態情報Ｄ２´と特徴量情報Ｄ０の取得期間を含む予備動作情報との関係を示す予備動作条件データＣ２を予め記憶する第２の記憶部１７０から、制約状態情報Ｄ２に対応する取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報Ｄ１を出力する（ステップＳ４０）。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて取得期間の特徴量情報Ｄ１から受話者の推定に用いられる１つ以上の特徴量を選択し、１つ以上の特徴量に基づく加工特徴量情報Ｄ３を生成する（ステップＳ６０）。受話者推定部１４０は、加工特徴量情報Ｄ３に基づいて受話者を推定する（ステップＳ７０）。

《１－２》構成の詳細
〈制約状態情報取得部１１０〉
次に、各構成を詳細に説明する。制約状態情報取得部１１０は、受話者の発話時に、機器情報Ｂ０及び領域状態情報Ａ０を入力部４０から受け取る。また、制約状態情報取得部１１０は、制約基準データＣ１を参照する。制約状態情報取得部１１０は、参加者の行動を制約する制約状態を示す制約状態情報Ｄ２を取得（すなわち、生成）する。制約状態情報取得部１１０は、取得された制約状態情報Ｄ２を、特徴量加工部１３０と予備動作情報選択部１６０に提供する。制約状態情報Ｄ２は、例えば、発話者の姿勢の制約、周囲状況による発話者の動きの制約、などの発話者の行動の制約を示す情報を含む。制約状態情報Ｄ２は、例えば、文字列情報、数値情報、などで表現される。

図５は、制約状態情報取得部１１０の動作の例を示す図である。図５は、第１の記憶部１５０に記憶されている制約基準データＣ１の例と制約状態情報取得部１１０によって生成される制約状態情報Ｄ２の例とを表形式で示している。図５は、図４のステップＳ２０の動作を示す。図５では、制約基準データＣ１は、制約条件Ｒ＿１からＲ＿ｍとして示される、制約状態基準項目を含んでいる。ｍは、正の整数である。図５の例では、制約基準データＣ１は、制約の大きさ（すなわち、制約の程度）を示す情報を含んでいる。制約条件Ｒ＿１からＲ＿ｍとして示される制約状態基準項目の各々は、走行状態情報、周辺機器３２の操作状態である機器操作情報、発話者の座席の位置である席位置情報、などを含んでいる。ただし、制約基準データＣ１は、図５の例に限定されない。

制約状態情報取得部１１０は、機器情報Ｂ０、領域状態情報Ａ０、及び制約基準データＣ１に基づいて制約状態情報Ｄ２を生成する。図３に示される制約状態情報Ｄ２は、時系列順に並ぶフレーム番号ｔ＿１からｔ＿ｎのｎ個のフレームの各々における制約状態項目を含んでいる。制約状態情報取得部１１０は、制約状態情報Ｄ２を特徴量加工部１３０と予備動作情報選択部１６０に提供する。また、制約状態情報Ｄ２は、発話時における受話者の候補である参加者に関する項目を含んでもよい。制約状態情報取得部１１０は、生成される制約状態情報Ｄ２に含まれる複数のフレームの各々における制約状態項目の種類を予め定めていてもよい。制約状態情報取得部１１０は、制約基準データＣ１に含まれる制約状態項目として、例えば、走行状態情報、機器操作情報、席位置情報、などを設定する。

例えば、参加者が存在する領域１０が車内である場合、制約状態情報取得部１１０は、生成される制約状態情報Ｄ２に含まれる制約状態項目を、周辺機器情報Ｂ２に基づいて車両の走行状態情報、周辺機器３２の機器操作情報、参加者の席位置情報、などに設定することができる。車両の走行状態情報は、例えば、車両が走行中である走行状態、車両が徐行している徐行状態、車両が停止している停止状態のいずれかを示す情報である。機器操作情報は、例えば、周辺機器３２としての車両のハンドルによる右折操作、左折操作、などを含む。制約状態情報取得部１１０は、生成される制約状態情報Ｄ２に含まれる制約状態項目として、映像情報Ａ２に基づいて、発話者及び発話者以外の参加者の席位置情報を含めることができる。席位置情報は、例えば、車両の運転席、助手席、後部座席、などである。

図５に示されるように、制約基準データＣ１は、制約状態を表す情報と、各制約状態の組み合わせのパターンと、そのパターン毎に制約の大きさを定めた情報と、で構成された複数の制約状態基準項目を含むデータベースである。制約基準データＣ１は、例えば、図５に示されるように、制約状態を表す複数列の情報と、制約状態の組み合わせによって決定される制約の大きさを定めた情報と、を互いに対応付けた複数の制約状態基準項目で構成される。複数の制約状態基準項目には、識別記号として制約条件Ｒ＿１からＲ＿ｍが付される。制約状態情報取得部１１０は、制約基準データＣ１から取得する制約状態基準項目として、例えば、図５に示される制約基準データＣ１で定義された各列の制約状態（例えば、走行状態情報、機器操作情報、席位置情報、など）を取得する。

〈特徴量抽出部１２０〉
特徴量抽出部１２０は、入力部４０から領域状態情報Ａ０を受け取る。つまり、特徴量抽出部１２０は、入力部４０から音声情報Ａ１及び映像情報Ａ２のうちの少なくとも１つを受け取る。特徴量抽出部１２０は、発話者が意図する受話者の推定に用いられる１つ以上の特徴量を抽出することによって、特徴量情報Ｄ０を生成する。特徴量抽出部１２０は、特徴量情報Ｄ０を特徴量加工部１３０に提供する。

図６は、特徴量抽出部１２０の動作の例を示す図である。図６は、特徴量抽出部１２０によって生成される特徴量情報Ｄ０の例を表形式で示している。特徴量情報Ｄ０は、音の基本周波数成分（すなわち、ピッチ）、音圧（すなわち、パワー）、音のスペクトル、などの音声特徴量を含むことができる。特徴量情報Ｄ０は、参加者の顔向き、視線方向、口の開き度合を示す開口度などの画像特徴量を含むことができる。図６に示されるように、特徴量情報Ｄ０は、時系列に対応するフレーム番号ｔ＿１からｔ＿ｎのフレーム毎に抽出された音声特徴量及び画像特徴量を表形式で示している。また、特徴量情報Ｄ０は、受話者の候補である参加者の発話単位での音声情報Ａ１の平均値又は分散などの統計値を含んでもよい。発話単位とは、同じ発話者による１回の発話の開始から終了までに対応する。特徴量情報Ｄ０は、音声情報Ａ１から抽出された音声特徴量及び映像情報Ａ２から抽出された画像特徴量の少なくとも１つの特徴量を表す文字列情報、数値情報、などを含んでもよい。特徴量抽出部１２０は、音声情報Ａ１及び映像情報Ａ２から抽出される特徴量の種類として、図６の例に示される種類以外の種類の特徴量を設定してもよい。

〈予備動作情報選択部１６０〉
予備動作情報選択部１６０は、予め想定された（すなわち、予め決められた）制約状態情報Ｄ２´と特徴量情報Ｄ０の取得期間を含む予備動作情報との関係を示す予備動作条件データＣ２をデータベースとして予め記憶する第２の記憶部１７０から、制約状態情報Ｄ２に対応する取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報Ｄ１を出力する。

図７は、予備動作情報選択部１６０によって使用される予備動作条件データＣ２の例を示す図である。図７の例では、予備動作条件データＣ２は、予め想定された制約状態情報Ｄ２´として、車両の走行状態、車両の走行速度、機器操作、席位置、走行している道路の道路種別、次の右左折地点までの距離、ナビゲーション案内（すなわち、ナビ案内）の内容、及び道路状況を含んでおり、これらの予め想定された制約状態情報Ｄ２´に対応する特徴量情報Ｄ０の取得期間を含んでいる。

図７の予備動作条件データＣ２のＲ＿１は、予備動作を短い区間（過去５秒）で捉える時の例である。例えば、車両が早い速度（例えば、予め決められた閾値より速い速度）で走行しているときには、運転者の制約が大きく、時間に余裕のない発話者の発話は、短い予備動作（例えば、ナビ案内「次を右折です」のすぐ後、車両が「交差点付近」を走行している、など）に続いて行われる傾向がある。このような場合には、短い取得期間（例えば、過去５秒）の特徴量情報Ｄ１を用いることで、これより長い取得期間の特徴量情報Ｄ１を用いる場合（すなわち、余分な情報を含んでいる場合）よりも、受話者の推定精度が向上すると考えられる。

図７の予備動作条件データＣ２のＲ＿３は、予備動作を長い区間（過去２０秒）で捉える時の例である。例えば、車両が遅い速度（例えば、予め決められた閾値以下の速度）で徐行しているときには、運転者の制約が小さく、時間に余裕のある発話者の発話は、長い予備動作（例えば、ナビ案内「直進です」の後、車両が「信号付近」を走行している、など）に続いて行われる傾向がある。このような場合には、長い取得期間（例えば、過去２０秒）の特徴量情報Ｄ１を用いることで、これより短い取得期間の特徴量情報Ｄ１を用いる場合（すなわち、必要な情報を含んでいない場合）よりも、受話者の推定精度が向上すると考えられる。

図８は、予備動作情報選択部１６０によって使用される予備動作条件データＣ２の他の例を示す図である。図８の例では、予備動作条件データＣ２は、予め想定された制約状態情報Ｄ２´として、車両の走行状態、車両の走行速度、機器操作、席位置、走行している道路の道路種別、次の右左折地点までの距離、ナビゲーション案内（すなわち、ナビ案内）の内容、及び道路状況を含んでおり、これらの予め想定された制約状態情報Ｄ２´に対応する特徴量情報Ｄ０の取得期間を含んでいる。

図８の予備動作条件データＣ２のＲ＿２は、予備動作を中間の長さの区間（過去１５秒）で捉える時の例である。例えば、道路種別により、制約が常時大きいと推測できるときには、運転者に時間の余裕があまりないので、発話者の発話は、比較的短い予備動作に続いて行われる傾向がある。例えば、高速道路の走行は常時緊張感を強いられるため制約が大きいが、発話者の予備動作がある程度余裕を持って起こすため、比較的長い区間で予備動作を捉える必要がある。このような場合には、比較的長い取得期間（例えば、過去１５秒）の特徴量情報Ｄ１を用いることで、これより短い取得期間の特徴量情報Ｄ１を用いる場合（すなわち、必要な情報を含んでいない場合）よりも、受話者の推定精度が向上すると考えられる。

図９は、予備動作情報選択部１６０の動作の例を示す図である。図９は、図４のステップＳ４０の動作の例を示す。図９に示されるように、予備動作情報選択部１６０は、予め想定された（すなわち、予め決められた）制約状態情報Ｄ２´（例えば、条件、走行状態、機器操作、席位置の項目を含む）と特徴量情報Ｄ０の取得期間を含む予備動作情報（例えば、取得予備動作の期間）との関係を示す予備動作条件データＣ２から、制約状態情報Ｄ２（例えば、フレーム番号ｔ＿２０、走行状態が走行、席位置が運転席）に対応する取得期間を含む予備動作情報（例えば、条件Ｒ＿１、走行状態が走行、機器操作が左折、席位置が運転席、取得予備動作の期間が現時点から過去１０秒までの期間である。）を選択する。予備動作情報選択部１６０は、現時点から過去１０秒までの取得期間（フレーム番号ｔ＿１０からｔ＿２０の期間）の特徴量情報Ｄ０を選択し、この予備動作情報に基づく取得期間（フレーム番号ｔ＿１０からｔ＿２０の期間）の特徴量情報Ｄ１を出力する。

〈特徴量加工部１３０〉
特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて取得期間（フレーム番号ｔ＿１０からｔ＿２０の期間）の特徴量情報Ｄ１から受話者の推定に用いられる特徴量を選択し、選択された１つ以上の特徴量に基づく加工特徴量情報Ｄ３を生成する。特徴量加工部１３０は、加工特徴量情報Ｄ３を受話者推定部１４０に提供する。

図１０は、特徴量加工部１３０の動作の例を示す図である。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて特徴量情報Ｄ１から１つ以上の特徴量を選択し、選択された１つ以上の特徴量を加工特徴量情報Ｄ３とする。図５に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２に基づいて、制約基準データＣ１から参照する情報である制約条件Ｒ＿１からＲ＿ｍのいずれかで示される制約状態基準項目を取得する。図１０の例では、制約状態情報Ｄ２は、走行状態、機器操作、席位置、などを示す制約状態項目を含む。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて、参加者の制約の大きさを「大」と設定する加工特徴量情報Ｄ３を生成する。特徴量加工部１３０は、加工特徴量情報Ｄ３として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部１３０は、「制約の大きさ」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部１３０は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。

図１１は、特徴量加工部１３０の動作の他の例を示す図である。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて得られた制約状態に基づいて特徴量情報Ｄ１から１つ以上の特徴量を選択し、選択された１つ以上の特徴量の各々に重み付けを行うことによって加工特徴量情報Ｄ３を生成してもよい。図１１は、制約状態情報Ｄ２に基づいて制約基準データＣ１から取得する制約状態基準項目の例を示す。図１１に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２に基づいて、制約基準データＣ１から参照する情報である制約条件Ｒ＿１からＲ＿ｍのいずれかで示される制約状態基準項目を取得する。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて、参加者の制約の大きさを「大」、重みを「０．５」と設定する加工特徴量情報Ｄ３を生成する。特徴量加工部１３０は、加工特徴量情報Ｄ３として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部１３０は、「制約の大きさ」及び制約の「重み」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部１３０は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。設定された重みは、特徴量を表す値を加工するために用いられる値であればよい。設定された重みは、受話者を推定する際に用いられる統計モデル、ＳＶＭ（サポートベクターマシン）又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いる値であってもよい。

〈受話者推定部１４０〉
受話者推定部１４０は、加工特徴量情報Ｄ３を受け取り、受話者を推定した結果を示す推定結果情報Ｄ４を出力部５０に提供する。加工特徴量情報Ｄ３は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を表す値の少なくとも１つを含む。受話者の推定には、記憶部に記憶されている推定基準データを用いてもよい。ここで、推定基準データは、参加者の発話時における発話内容、顔向き又は視線方向などの加工特徴量情報Ｄ３の組み合わせによる受話者の推定のルールが予め定められた基準データを含む。また、加工特徴量情報Ｄ３を基に受話者を推定するための、統計モデル、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）又はニューラルネットワークなどのパラメータ又はモデルであればよい。

〈出力部５０〉
出力部５０は、推定結果情報Ｄ４に基づく、受話者の推定の結果を示す出力情報Ｄ５を出力する。推定結果情報Ｄ４は、例えば、受話者が参加者のうちのいずれであるかを示す文字列情報又は数値情報を含む。また、推定結果情報Ｄ４は、参加者のうちのいずれかが受話者であることを示す確率を表現した数値情報などであってもよい。出力情報Ｄ５は、推定結果情報Ｄ４を基に、例えば、受話者の推定の結果を示す情報を表した文字列情報又は数値情報、又は受話者を示す画像などの情報である。また、出力情報Ｄ５は、参加者のうちのいずれかが受話者であることを示す確率を表した数値情報を含んでもよい。

《１－３》動作
次に、実施の形態１に係る受話者推定装置１００の動作を詳細に説明する。

（図４のステップＳ１０）
入力部４０は、機器情報Ｂ０及び領域状態情報Ａ０を受信する。すなわち、入力部４０は、対象機器情報Ｂ１及び周辺機器情報Ｂ２の少なくとも１つと、音声情報Ａ１及び映像情報Ａ２の少なくとも１つを受信する。

（図４のステップＳ２０）
制約状態情報取得部１１０は、機器情報Ｂ０、領域状態情報Ａ０、及び制約基準データＣ１に基づいて制約状態情報Ｄ２を取得（すなわち、生成）する。

制約状態情報取得部１１０は、予め定められた制約状態項目（例えば、図５の制約状態情報Ｄ２における走行状態、機器操作、席位置、など）に基づいて、対象機器情報Ｂ１、周辺機器情報Ｂ２、音声情報Ａ１、及び映像情報Ａ２、から該当する制約状態項目を取得することによって制約状態情報Ｄ２を生成する。また、制約状態情報取得部１１０は、制約基準データＣ１を参照し、制約基準データＣ１から、予め定められた制約状態項目に対応する情報を抽出することによって制約状態情報Ｄ２を生成してもよい。

例えば、受話者推定装置１００が車内における参加者の会話の受話者を推定する場合、制約状態情報取得部１１０は、図５に示される制約基準データＣ１から、制約状態である走行状態、機器操作、席位置、などの情報を取得する。制約状態情報取得部１１０は、取得した制約状態に対応する制約状態として、周辺機器情報Ｂ２から車両の走行状態（例えば、走行、停止）又は機器操作（例えば、ハンドル操作、アクセル操作、ウィンカー操作）、映像情報Ａ２から車両内における参加者の席位置（例えば、運転席、助手席）などの情報を取得する。制約状態情報取得部１１０は、取得した制約状態を示す情報を、図５に示されるように、時系列に並ぶフレーム毎の情報として提供する。

（図４のステップＳ３０）
特徴量抽出部１２０は、領域状態情報Ａ０から特徴量を抽出することによって特徴量情報Ｄ０を生成する。すなわち、特徴量抽出部１２０は、音声情報Ａ１及び映像情報Ａ２の少なくとも１つから特徴量を抽出することによって特徴量情報Ｄ０を生成する。

例えば、特徴量抽出部１２０は、音声情報Ａ１から、音のピッチ、パワー、スペクトルなどの音声特徴量を抽出する。また、特徴量抽出部１２０は、映像情報Ａ２から、参加者の顔向き、視線方向、口の開き度合である開口度、などの画像特徴量を抽出する。映像情報Ａ２から画像特徴量を抽出する手法としては、公知の方法を使用することができる。特徴量抽出部１２０は、抽出した特徴量を、図６に示されるように時系列に対応するフレーム毎に格納することによって、特徴量情報Ｄ０を生成してもよい。また、図６では、特徴量抽出部１２０は、時系列に並ぶフレーム毎に特徴量を抽出しているが、受話者の推定の対象となる発話単位で特徴量を抽出してもよい。この場合、特徴量抽出部１２０は、特徴量情報Ｄ０に含まれる値として、各発話単位における統計値（例えば、平均値、最大値、代表値など）を用いてもよい。

（図４のステップＳ４０）
予備動作情報選択部１６０は、図７から図９に示されるように、予備動作条件データＣ２から、制約状態情報Ｄ２（例えば、フレーム番号ｔ＿２０、走行状態が走行、席位置が運転席）に対応する取得期間を含む予備動作情報（例えば、条件Ｒ＿１、走行状態が走行、機器操作が左折、席位置が運転席、取得予備動作の期間が現時点から過去１０秒までの期間である。）を選択する。予備動作情報選択部１６０は、現時点から過去１０秒までの取得期間の特徴量情報Ｄ０を選択し、この予備動作情報に基づく取得期間の特徴量情報Ｄ１を出力する。

（図４のステップＳ５０）
特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１を用いて、特徴量情報Ｄ１から加工特徴量情報Ｄ３を生成する。

図１０に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２と、制約基準データＣ１から得られた制約状態基準項目とに基づいて、特徴量情報Ｄ１のうちの所望の情報を選択することによって加工特徴量情報Ｄ３を生成する。図１０の例では、特徴量加工部１３０は、制約状態情報Ｄ２から走行状態情報、機器操作情報、席位置情報、などを含む制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データＣ１の制約状態基準項目を取得する。

また、図１１に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２と、制約基準データＣ１とから得られた制約状態基準項目とに基づいて、特徴量情報Ｄ１のうちの所望の情報を選択し、重み付けすることによって加工特徴量情報Ｄ３を生成する。図１１の例では、特徴量加工部１３０は、制約状態情報Ｄ２から走行状態情報、機器操作情報、席位置情報、などの制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データＣ１の制約状態基準項目を取得する。例えば、特徴量加工部１３０は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」、重みを「０．５」に設定する。制約の大きさが「大」、重みが「０．５」である場合には、特徴量加工部１３０は、制約の大きさと重みに基づいて、特徴量情報Ｄ０における画像特徴量の「顔向き」の列の情報に重みを設定することによって、加工特徴量情報Ｄ３を生成する。

（図４のステップＳ６０）
受話者推定部１４０は、加工特徴量情報Ｄ３から受話者を推定し、推定の結果を示す推定結果情報Ｄ４を出力する。つまり、受話者推定部１４０は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を少なくとも１つを含む加工特徴量情報Ｄ３を受け取り、受話者を推定する。

（図４のステップＳ７０）
出力部５０は、推定結果情報Ｄ４に基づく出力情報Ｄ５を出力する。出力部５０は、推定結果情報Ｄ４に基づく文字列情報、数値情報、受話者を示す画像、などを出力情報Ｄ５として出力する。また、出力部５０は、参加者の各々が受話者である確率を示す数値情報を出力情報Ｄ５として出力してもよい。

《１－４》効果
以上に説明したように、実施の形態１に係る受話者推定装置１００、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて、且つ、予備動作情報に基づく取得期間（例えば、フレーム番号ｔ＿１０からｔ＿２０の期間）の特徴量情報Ｄ１を用いて、加工特徴量情報Ｄ３を生成し、受話者を推定するので、受話者の推定の精度を向上させることができる。

《２》実施の形態２
《２－１》構成
図１２は、実施の形態２に係る受話者推定装置２００の構成を概略的に示す機能ブロック図である。受話者推定装置２００は、実施の形態２に係る受話者推定方法を実施することができる装置である。図１２において、図２に示される構成要素と同一又は対応する構成要素には、図２に示される符号と同じ符号が付される。実施の形態２に係る受話者推定装置２００は、特徴量情報Ｄ０に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を出力する予備動作種別取得部１８０を更に有し、制約状態情報取得部１１０で取得された制約状態情報Ｄ２に対応する第１の期間と予備動作種別情報が示す第２の期間とからなる取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報Ｄ１を出力する点において、実施の形態１に係る受話者推定装置１００と相違する。他の構成に関して、実施の形態２に係る受話者推定装置２００は、実施の形態１に係る受話者推定装置１００と同じである。

図１３は、受話者推定装置２００の動作を示すフローチャートである。受話者推定装置２００は、予備動作種別取得部１８０が特徴量情報Ｄ０に基づいて予備動作種別情報を取得する点（ステップＳ３５）と、予備動作情報選択部１６０が特徴量情報Ｄ０、制約状態情報Ｄ２、予備動作条件データＣ２、及び予備動作種別情報に基づいて、予備動作条件データＣ２から予備動作情報を選択し、選択された予備動作情報に基づく取得期間の特徴量情報Ｄ１を出力する点（ステップＳ４０）とにおいて、実施の形態１に係る受話者推定装置１００と相違する。他の動作に関して、実施の形態２に係る受話者推定装置２００は、実施の形態１に係る受話者推定装置１００と同じである。

図１４は、図１２に示される予備動作種別取得部１８０の動作を示す図である。予備動作種別取得部１８０は、特徴量情報Ｄ０に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を予備動作情報選択部１６０に出力する。図１４は、音声パワーが大きいときに発話中であること、機器に向かって発話するときには大きな音声パワーになることを示している。また、図１４は、口の開き具合を示す開口度が０のどきは発話しておらず、口の開口度が大きい値であるときは、発話中であることを示している。

図１５は、図１２に示される予備動作情報選択部１６０の動作の例を示す図である。予備動作情報選択部１６０は、第２の記憶部１７０から、制約状態情報取得部１１０で取得された制約状態情報Ｄ２に対応する第１の期間と予備動作種別情報が示す第２の期間とからなる取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて取得期間の前記特徴量情報Ｄ１を出力する。図１５の例では、第１の期間は、発話前の５秒の期間である。第２の期間は、予備動作種別情報が示す期間であり、発話中の期間である。図１５は、予備動作情報選択部１６０が、特徴量情報Ｄ０、制約状態情報Ｄ２、予備動作条件データＣ２、及び予備動作種別情報に基づいて、予備動作条件データＣ２から予備動作情報を選択し、選択された予備動作情報に基づく取得期間の特徴量情報Ｄ１を出力する処理の例を示している。これ以降の処理は、実施の形態１の場合と同じである。

《２－３》効果
以上に説明したように、実施の形態２に係る受話者推定装置２００、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて、且つ、予備動作情報に基づく取得期間（例えば、フレーム番号ｔ＿１５からｔ＿２０の期間）の特徴量情報Ｄ１を用いて、加工特徴量情報Ｄ３を生成し、受話者を推定するので、受話者の推定の精度を向上させることができる。

《３》変形例
上記実施の形態では、第１の記憶部１５０及び第２の記憶部１７０が受話者推定装置の一部として示されているが、これらは、受話者推定装置に接続された外部の記憶装置又は受話者推定装置に備えられた通信装置によって通信可能なネットワーク上のサーバに備えられた記憶装置であってもよい。

１０領域、１１，１２参加者、２０状態取得部、２１音声取得部、２２映像取得部、３０機器、３１対象機器、３２周辺機器、３３表示画面、４０入力部、５０出力部、１００、２００受話者推定装置、１１０制約状態情報取得部、１２０特徴量抽出部、１３０特徴量加工部、１４０受話者推定部、１５０第１の記憶部、１６０予備動作情報選択部、１７０第２の記憶部、１８０予備動作種別取得部、Ａ０領域状態情報、Ａ１音声情報、Ａ２映像情報、Ｂ０機器情報、Ｂ１対象機器情報、Ｂ２周辺機器情報、Ｃ１制約基準データ、Ｃ２予備動作条件データ、Ｄ０特徴量情報、Ｄ１取得期間の特徴量情報、Ｄ２制約状態情報、Ｄ３加工特徴量情報、Ｄ４推定結果情報、Ｄ５出力情報。

Claims

発話者が発する音声の受話者を推定する受話者推定装置であって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、
音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、
予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第２の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する予備動作情報選択部と、
前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、
前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、
を有することを特徴とする受話者推定装置。
前記状態取得部は、前記領域内における音声を取得することによって音声情報を生成する音声取得部と、前記領域内の映像を撮影することによって映像情報を生成する映像取得部とを有し、
前記領域状態情報は、前記音声情報及び前記映像情報のうちの少なくとも１つを含む
ことを特徴とする請求項１に記載の受話者推定装置。
前記音声情報は、前記音声の音圧を示す情報、前記音声の基本周波数成分を示す情報、及び前記音声のスペクトルのうちの少なくとも１つを含むことを特徴とする請求項２に記載の受話者推定装置。
前記映像情報は、前記参加者の座席の位置を示す情報、前記参加者の顔向きを示す情報、前記参加者の視線方向を示す情報、及び前記参加者の口の開口度を示す情報のうちの少なくとも１つを含むことを特徴とする請求項２又は３に記載の受話者推定装置。
前記機器は、前記対象機器の他に、前記参加者によって操作される周辺機器を含むことを特徴とする請求項１から４のいずれか１項に記載の受話者推定装置。
前記機器状態情報は、前記周辺機器の状態及び前記周辺機器に対して実行された操作のうちの少なくとも１つを含むことを特徴とする請求項５に記載の受話者推定装置。
前記受話者推定装置は、車両に搭載される車両用装置であり、
前記予備動作条件データは、前記車両の走行状態を示す情報、前記車両の走行速度を示す情報、前記車両における前記機器の操作を示す情報、前記車両が走行している道路種別を示す情報、前記車両が走行している位置から右左折地点までの距離を示す情報、前記車両の運転を支援するナビゲーション情報、及び前記車両が走行している位置付近の道路状況を示す情報のうちの、１つの情報又は２つ以上の情報の組み合わせと、前記取得期間との関係を示す
ことを特徴とする請求項１から６のいずれか１項に記載の受話者推定装置。
前記取得期間は、前記予備動作情報選択部による予備動作選択の前の予め決められた時間であり、
前記取得期間は、前記車両の走行速度が予め決められた第１の閾値より速い場合に第１の時間に設定され、前記車両の走行速度が前記予め決められた第１の閾値以下の場合に前記第１の時間より長い第２の時間に設定される
ことを特徴とする請求項７に記載の受話者推定装置。
前記取得期間は、前記予備動作情報選択部による予備動作選択の前の予め決められた時間であり、
前記取得期間は、前記車両の走行速度が予め決められた第１の閾値より速く且つ前記車両から右左折地点までの距離が第２の閾値以下である場合に第１の時間より短い時間に設定される
ことを特徴とする請求項８に記載の受話者推定装置。
前記特徴量情報に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を出力する予備動作種別取得部を更に有し、
前記予備動作情報選択部は、前記第２の記憶部から、前記制約状態情報取得部で取得された前記制約状態情報に対応する第１の期間と前記予備動作種別情報が示す第２の期間とからなる前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する
ことを特徴とする請求項７から９のいずれか１項に記載の受話者推定装置。
前記加工特徴量情報は、前記取得期間の前記特徴量情報から選択された前記１つ以上の特徴量を含む情報であることを特徴とする請求項１から１０のいずれか１項に記載の受話者推定装置。
前記加工特徴量情報は、前記取得期間の前記特徴量情報から選択された前記１つ以上の特徴量と、前記１つ以上の特徴量の各々の重みとを含む情報であることを特徴とする請求項１から１０のいずれか１項に記載の受話者推定装置。
前記受話者推定部は、前記対象機器及び前記参加者のうちの前記発話者以外の人の中から、前記受話者を推定することを特徴とする請求項１から１２のいずれか１項に記載の受話者推定装置。
発話者が発する音声の受話者を推定する受話者推定装置によって実行される方法であって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第２の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、
前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
前記加工特徴量情報に基づいて前記受話者を推定するステップと、
を有することを特徴とする受話者推定方法。
発話者が発する音声の受話者を推定する処理をコンピュータに実行させる受話者推定プログラムであって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第２の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、
前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
前記加工特徴量情報に基づいて前記受話者を推定するステップと、
を前記コンピュータに実行させることを特徴とする受話者推定プログラム。