JP6945767B2

JP6945767B2 - 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Info

Publication number: JP6945767B2
Application number: JP2021521651A
Authority: JP
Inventors: 咲子二本柳; 岡登　洋平; 洋平岡登; 啓吾川島; 相川　勇之; 勇之相川; 聖崇加藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-10-06
Anticipated expiration: 2039-05-29
Also published as: WO2020240730A1; JPWO2020240730A1

Description

本発明は、受話者推定装置、受話者推定方法、及び受話者推定プログラムに関する。

会話の参加者を撮影することで得られた映像情報に基づいて発話者が発する音声の受け手である受話者を推定する技術が提案されている。例えば、特許文献１及び２を参照。これらの技術を用いれば、発話者が発する音声の受話者すなわち発話者が意図する受話者を推定することができる。受話者は、例えば、発話者以外の参加者又は音声操作を受け付けることができる機器である。

特開２０１７−１１８３６４号公報特開２００７−１４７７６２号公報

しかしながら、発話者の行動を制約する状態が存在する場合には、発話者が意図する受話者の推定の精度が低下するという問題がある。ここで、発話者の行動は、例えば、発話者の姿勢及び動作を含む。また、発話者の行動を制約する状態は、例えば、発話者の座席の位置、発話者が機器を操作している状態、発話者が前方を注視している状態、などを含む。

本発明は、上記従来の課題を解決するためになされたものであり、発話者が発する音声の受話者の推定の精度を向上させることができる受話者推定装置、受話者推定方法、及び受話者推定プログラムを提供することを目的とする。

本発明の一態様に係る受話者推定装置は、発話者が発する音声の受話者を推定する装置であって、状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、を有することを特徴とする。

本発明の一態様に係る受話者推定方法は、発話者が発する音声の受話者を推定する受話者推定装置が実施する方法であって、状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成するステップと、前記加工特徴量情報に基づいて前記受話者を推定するステップと、を有することを特徴とする。

本発明によれば、発話者が発する音声の受話者の推定の精度を向上させることができる。

本発明の実施の形態１に係る受話者推定システムの構成を概略的に示す図である。実施の形態１に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る受話者推定装置の制約状態情報取得部の動作の例を示す図である。実施の形態１に係る受話者推定装置の特徴量抽出部の動作の例を示す図である。実施の形態１に係る受話者推定装置の特徴量加工部の動作の例を示す図である。実施の形態１に係る受話者推定装置の特徴量加工部の動作の他の例を示す図である。実施の形態１に係る受話者推定装置のハードウェア構成の例を示す図である。実施の形態１に係る受話者推定装置の動作を示すフローチャートである。実施の形態１に係る受話者推定装置の制約状態情報取得部の動作の例を示す図である。実施の形態１に係る受話者推定装置の特徴量加工部の動作の例を示す図である。実施の形態１に係る受話者推定装置の特徴量加工部の動作の他の例を示す図である。本発明の実施の形態２に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態２に係る受話者推定装置の動作を示すフローチャートである。本発明の実施の形態３に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態３に係る受話者推定装置の動作を示すフローチャートである。本発明の実施の形態４に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態４の変形例に係る受話者推定装置の構成を概略的に示す機能ブロック図である。実施の形態４に係る受話者推定装置の動作を示すフローチャートである。

以下に、本発明の実施の形態に係る受話者推定装置、受話者推定方法、及び受話者推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。

《１》実施の形態１
《１−１》構成
図１は、実施の形態１に係る受話者推定システムの構成を概略的に示す図である。受話者推定システムは、状態取得部２０と、機器３０と、入力部４０と、受話者推定装置１００と、出力部５０とを有する。入力部４０及び出力部５０は、受話者推定装置１００の一部であってもよい。入力部４０は、信号を受信する入力装置として入力インタフェースである。出力部５０は、信号を出力する出力装置として出力インタフェースである。

受話者推定装置１００は、１人以上の会話の参加者のうちのいずれか１人である発話者が発する音声の受話者すなわち発話者が意図する受話者を推定する。参加者は、予め決められた領域１０に存在する。会話の参加者は、例えば、複数の参加者１１，１２，…である。発話者が、音声操作を受け付ける対象機器３１に宛てた音声（例えば、音声操作のための音声メッセージ）を発する場合には、会話の参加者は発話者である１名の参加者であってもよい。領域１０は、例えば、車両の車室である。参加者は、例えば、車両の運転者と同乗者である。

状態取得部２０は、領域１０内の状態を示す領域状態情報Ａ０を取得し、領域状態情報Ａ０を入力部４０に送信する。状態取得部２０は、例えば、領域１０内における音声を取得することによって音声情報Ａ１を生成する音声取得部２１と、領域１０内の映像を撮影することによって映像情報Ａ２を生成する映像取得部２２とを有する。音声取得部２１は、例えば、１台以上のマイクを有する。映像取得部２２は、例えば、１台以上のカメラを有する。領域状態情報Ａ０は、音声情報Ａ１及び映像情報Ａ２の少なくとも１つを含む情報である。音声情報Ａ１は、参加者である発話者が発する音声（すなわち、発話者の発話）に基づく情報である。映像情報Ａ２は、発話者を含む参加者を撮影することによって取得された動画像又は静止画像の情報である。映像情報Ａ２は、例えば、参加者の発話時における振る舞いを含む動画像又は静止画像の情報である。例えば、映像情報Ａ２は、参加者の顔又は参加者の身体の全体の動作を示す画像の情報である。映像情報Ａ２は、時系列に並ぶ複数フレームの画像から構成される動画像の情報であってもよい。

機器３０は、機器３０自身の状態を示す機器情報Ｂ０を入力部４０に送信する。機器３０は、例えば、参加者によって操作される対象機器３１と、参加者によって操作される周辺機器３２とを有する。対象機器３１は、音声による指示に従って動作する音声操作機能を有する機器（「音声対話機器」とも称される。）である。対象機器３１は、例えば、車両内に備えられたカーナビゲーションシステムを含む車載機器又は対話型の音声操作に対応したスピーカであるスマートスピーカである。対象機器情報Ｂ１は、例えば、カーナビゲーションシステムにおけるＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）情報などの現在地情報、走行経路に関する案内音声情報、などを含んでもよい。対象機器３１は、表示画面３３を有してもよい。

周辺機器３２は、対象機器３１以外の機器である。周辺機器３２は、例えば、車両自体である。周辺機器３２は、車両の車室などの参加者の会話の場（すなわち、領域１０）の周囲に存在する機器である。周辺機器３２は、参加者のいずれかによって操作されたときに、参加者の行動を制約する状態が生じ得る機器である。参加者の行動は、例えば、参加者の姿勢及び動作（すなわち、動き）を含む。参加者の行動は、参加者の振る舞いとも称される。また、参加者の行動を制約する状態は、例えば、参加者の座席の位置、参加者が機器３０を操作している状態、参加者が前方を注視している状態、などを含む。周辺機器情報Ｂ２は、領域１０の周囲に存在する周辺機器３２の状態を表す情報を少なくとも含む。例えば、周辺機器情報Ｂ２は、周辺機器３２が自動車であれば車速及びハンドル操作情報を含むＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）情報、走行状態を示す走行状態情報、などを含む。走行状態情報は、車両が走行中である状態、車両が停車中である状態、などを含む。

対象機器３１は、対象機器３１自身の状態を示す対象機器情報Ｂ１を入力部４０に送信する。周辺機器３２は、周辺機器３２自身の状態を示す周辺機器情報Ｂ２を入力部４０に送信する。機器情報Ｂ０は、対象機器情報Ｂ１及び周辺機器情報Ｂ２の少なくとも１つを含む情報である。

受話者推定装置１００は、機器情報Ｂ０、領域状態情報Ａ０、及び予め記憶された各種の基準データ（後述の図２に示されるＣ１、Ｃ２）に基づいて、発話者が意図する受話者を推定し、推定された受話者を示す情報を含む推定結果情報Ｄ４を出力する。受話者推定装置１００は、受話者の推定に用いられる加工特徴量情報（後述の図２に示されるＤ３）の取得のために、参加者の行動を制約する制約状態項目を含む制約状態情報（後述の図２に示されるＤ２）を考慮に入れる。つまり、制約状態情報は、複数の制約状態項目を含む。制約状態項目は、例えば、発話者の座席の位置、発話者が機器３０を操作している状態、発話者が前方を注視している状態、などを含む。図１の例では、受話者は、参加者のうちの発話者以外の参加者又は対象機器３１である。

出力部５０は、推定結果情報Ｄ４に基づく出力情報Ｄ５を出力する。例えば、受話者が対象機器３１であると推定された場合、出力部５０は、対象機器３１に、受話者が対象機器３１であることを示す出力情報Ｄ５を送信する。出力情報Ｄ５を受信した対象機器３１は、発話者が発する音声が自己に対する音声操作であると判断し、音声操作に従って動作することができる。一方、対象機器３１は、受話者が対象機器３１であることを示す出力情報Ｄ５を受信しない場合又は受話者が対象機器３１でないことを示す出力情報Ｄ５を受信した場合には、発話者が発する音声が自己に対する音声操作ではないと判断することができる。

図２は、実施の形態１に係る受話者推定装置１００の構成を概略的に示す機能ブロック図である。受話者推定装置１００は、実施の形態１に係る受話者推定方法を実施することができる装置である。図２に示されるように、受話者推定装置１００は、制約状態情報取得部１１０と、制約基準データＣ１を記憶する第１の記憶部１５０と、特徴量抽出部１２０と、特徴量加工部１３０と、受話者推定部１４０と、推定基準データＣ２を記憶する第２の記憶部１６０とを有する。受話者推定装置１００は、入力部４０を介して受け取った機器情報Ｂ０及び領域状態情報Ａ０と、予め記憶された各種の基準データである制約基準データＣ１及び推定基準データＣ２とに基づいて受話者を推定するための処理を行い、推定の結果を示す推定結果情報Ｄ４を出力する。出力部５０は、推定結果情報Ｄ４に基づく出力情報Ｄ５を出力する。第１の記憶部１５０と第２の記憶部１６０とは、互いに異なる記憶装置であってもよい。第１の記憶部１５０と第２の記憶部１６０とは、同じ記憶装置の中の互いに異なる記憶領域であってもよい。

次に、各構成を詳細に説明する。入力部４０は、機器情報Ｂ０及び領域状態情報Ａ０を入力情報として受信する。機器情報Ｂ０及び領域状態情報Ａ０は、受話者推定装置１００に提供される。機器情報Ｂ０は、対象機器情報Ｂ１、又は周辺機器情報Ｂ２、又はこれらの両方を含む。領域状態情報Ａ０は、音声情報Ａ１、又は映像情報Ａ２、又はこれらの両方を含む。入力部４０は、受信された機器情報Ｂ０及び領域状態情報Ａ０を、制約状態情報取得部１１０に提供する。また、入力部４０は、領域状態情報Ａ０を特徴量抽出部１２０に提供する。

制約状態情報取得部１１０は、受話者の発話時に、機器情報Ｂ０及び領域状態情報Ａ０を入力部４０から受け取る。また、制約状態情報取得部１１０は、制約基準データＣ１を参照する。制約状態情報取得部１１０は、参加者の行動を制約する制約状態を示す制約状態情報Ｄ２を取得（すなわち、生成）する。制約状態情報取得部１１０は、取得された制約状態情報Ｄ２を、特徴量加工部１３０に提供する。制約状態情報Ｄ２は、例えば、発話者の姿勢の制約、周囲状況による発話者の動きの制約、などの発話者の行動の制約を示す情報を含む。制約状態情報Ｄ２は、例えば、文字列情報、数値情報、などで表現される。

図３は、受話者推定装置１００の制約状態情報取得部１１０の動作の例を示す図である。図３は、第１の記憶部１５０に記憶されている制約基準データＣ１の例と制約状態情報取得部１１０によって生成される制約状態情報Ｄ２の例とを表形式で示している。図３に示される制約基準データＣ１は、制約条件Ｒ＿１からＲ＿ｍとして示される、制約状態基準項目を含んでいる。ｍは、正の整数である。図３の例では、制約基準データＣ１は、制約の大きさ（すなわち、制約の程度）を示す情報を含んでいる。制約条件Ｒ＿１からＲ＿ｍとして示される制約状態基準項目の各々は、走行状態情報、周辺機器３２の操作状態である機器操作情報、発話者の座席の位置である席位置情報、などを含んでいる。ただし、制約基準データＣ１は、図３の例に限定されない。

制約状態情報取得部１１０は、機器情報Ｂ０、領域状態情報Ａ０、及び制約基準データＣ１に基づいて制約状態情報Ｄ２を生成する。図３に示される制約状態情報Ｄ２は、時系列順に並ぶフレーム番号ｔ＿１からｔ＿ｎのｎ個のフレームの各々における制約状態項目を含んでいる。制約状態情報取得部１１０は、制約状態情報Ｄ２を特徴量加工部１３０に提供する。また、制約状態情報Ｄ２は、発話時における受話者の候補である参加者に関する項目を含んでもよい。制約状態情報取得部１１０は、生成される制約状態情報Ｄ２に含まれる複数のフレームの各々における制約状態項目の種類を予め定めていてもよい。制約状態情報取得部１１０は、制約基準データＣ１に含まれる制約状態項目として、例えば、走行状態情報、機器操作情報、席位置情報、などを設定する。

例えば、参加者が存在する領域１０が車内である場合、制約状態情報取得部１１０は、生成される制約状態情報Ｄ２に含まれる制約状態項目を、周辺機器情報Ｂ２に基づいて車両の走行状態情報、周辺機器３２の機器操作情報、参加者の席位置情報、などに設定することができる。車両の走行状態情報は、車両が走行中である走行状態情報であるか車両が停止している停止状態であるか、を含む。機器操作情報は、例えば、周辺機器３２としての車両のハンドルによる右折操作、左折操作、などを含む。制約状態情報取得部１１０は、生成される制約状態情報Ｄ２に含まれる制約状態項目として、映像情報Ａ２に基づいて、発話者及び発話者以外の参加者の席位置情報を含めることができる。席位置情報は、例えば、車両の運転席、助手席、後部座席、などである。

図３に示されるように、制約基準データＣ１は、制約状態を表す情報と、各制約状態の組み合わせのパターンと、そのパターン毎に制約の大きさを定めた情報と、で構成された複数の制約状態基準項目を含むデータベースである。制約基準データＣ１は、例えば、図３に示されるように、制約状態を表す複数列の情報と、制約状態の組み合わせによって決定される制約の大きさを定めた情報と、を互いに対応付けた複数の制約状態基準項目で構成される。複数の制約状態基準項目には、識別記号として制約条件Ｒ＿１からＲ＿ｍが付される。制約状態情報取得部１１０は、制約基準データＣ１から取得する制約状態基準項目として、例えば、図３に示される制約基準データＣ１で定義された各列の制約状態（例えば、走行状態情報、機器操作情報、席位置情報、など）を取得する。

特徴量抽出部１２０は、入力部４０から領域状態情報Ａ０を受け取る。つまり、特徴量抽出部１２０は、入力部４０から音声情報Ａ１及び映像情報Ａ２のうちの少なくとも１つを受け取る。特徴量抽出部１２０は、発話者が意図する受話者の推定に用いられる１つ以上の特徴量を抽出することによって、特徴量情報Ｄ１を生成する。特徴量抽出部１２０は、特徴量情報Ｄ１を特徴量加工部１３０に提供する。

図４は、実施の形態１に係る受話者推定装置１００の特徴量抽出部１２０の動作の例を示す図である。図４は、特徴量抽出部１２０によって生成される特徴量情報Ｄ１の例を表形式で示している。特徴量情報Ｄ１は、音の基本周波数成分（すなわち、ピッチ）、音圧（すなわち、パワー）、音のスペクトル、などの音声特徴量を含むことができる。特徴量情報Ｄ１は、参加者の顔向き、視線方向、口の開き度合を示す開口度などの画像特徴量を含むことができる。図４に示されるように、特徴量情報Ｄ１は、時系列に対応するフレームｔ＿１からｔ＿ｎ毎に抽出された音声特徴量及び画像特徴量を表形式で示している。また、特徴量情報Ｄ１は、受話者の候補である参加者の発話単位での音声情報Ａ１の平均値又は分散などの統計値を含んでもよい。発話単位とは、同じ発話者による１回の発話の開始から終了までに対応する。特徴量情報Ｄ１は、音声情報Ａ１から抽出された音声特徴量及び映像情報Ａ２から抽出された画像特徴量の少なくとも１つの特徴量を表す文字列情報、数値情報、などを含んでもよい。特徴量抽出部１２０は、音声情報Ａ１及び映像情報Ａ２から抽出される特徴量の種類として、図４の例に示される種類以外の種類の特徴量を設定してもよい。

特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて特徴量情報Ｄ１から受話者の推定に用いられる１つ以上の特徴量を選択し、選択された１つ以上の特徴量に基づく加工特徴量情報Ｄ３を生成する。特徴量加工部１３０は、加工特徴量情報Ｄ３を受話者推定部１４０に提供する。

図５は、受話者推定装置１００の特徴量加工部１３０の動作の例を示す図である。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて特徴量情報Ｄ１から１つ以上の特徴量を選択し、選択された１つ以上の特徴量を加工特徴量情報Ｄ３とする。図５に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２に基づいて、制約基準データＣ１から参照する情報である制約条件Ｒ＿１からＲ＿ｍのいずれかで示される制約状態基準項目を取得する。図５の例では、制約状態情報Ｄ２は、走行状態情報、機器操作情報、席位置情報、などを示す制約状態項目を含む。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて、参加者の制約の大きさを「大」と設定する加工特徴量情報Ｄ３（後述する図１０に示される）を生成する。特徴量加工部１３０は、加工特徴量情報Ｄ３として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部１３０は、「制約の大きさ」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部１３０は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。

図６は、受話者推定装置１００の特徴量加工部１３０の動作の他の例を示す図である。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて得られた制約状態に基づいて特徴量情報Ｄ１から１つ以上の特徴量を選択し、選択された１つ以上の特徴量の各々に重み付けを行うことによって加工特徴量情報Ｄ３を生成してもよい。図６は、制約状態情報Ｄ２に基づいて制約基準データＣ１から取得する制約状態基準項目の例を示す。図６に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２に基づいて、制約基準データＣ１から参照する情報である制約条件Ｒ＿１からＲ＿ｍのいずれかで示される制約状態基準項目を取得する。特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１に基づいて、参加者の制約の大きさを「大」、重みを「０．５」と設定する加工特徴量情報Ｄ３（後述する図１１に示される）を生成する。特徴量加工部１３０は、加工特徴量情報Ｄ３として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部１３０は、「制約の大きさ」及び制約の「重み」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部１３０は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。設定された重みは、特徴量を表す値を加工するために用いられる値であればよい。設定された重みは、受話者を推定する際に用いられる統計モデル、ＳＶＭ（サポートベクターマシン）又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いる値であってもよい。

受話者推定部１４０は、加工特徴量情報Ｄ３を受け取り、推定基準データＣ２を参照し、加工特徴量情報Ｄ３及び推定基準データＣ２に基づいて受話者を推定した結果を示す推定結果情報Ｄ４を出力部５０に提供する。

加工特徴量情報Ｄ３は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を表す値の少なくとも１つを含む。推定基準データＣ２は、参加者の発話時における発話内容、顔向き又は視線方向などの加工特徴量情報Ｄ３の組み合わせによる受話者の推定のルールが予め定められた基準データを含む。また、加工特徴量情報Ｄ３を基に受話者を推定するための、統計モデル、ＳＶＭ又はニューラルネットワークなどのパラメータ又はモデルであればよい。

出力部５０は、推定結果情報Ｄ４に基づく、受話者の推定の結果を示す出力情報Ｄ５を出力する。

推定結果情報Ｄ４は、例えば、受話者が参加者のうちのいずれであるかを示す文字列情報又は数値情報を含む。また、推定結果情報Ｄ４は、参加者のうちのいずれかが受話者であることを示す確率を表現した数値情報などであってもよい。出力情報Ｄ５は、推定結果情報Ｄ４を基に、例えば、受話者の推定の結果を示す情報を表した文字列情報又は数値情報、又は受話者を示す画像などの情報である。また、出力情報Ｄ５は、参加者のうちのいずれかが受話者であることを示す確率を表した数値情報を含んでもよい。

図７は、実施の形態１に係る受話者推定装置１００のハードウェア構成の例を示す図である。受話者推定装置１００は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態１に係る受話者推定プログラムを格納する記憶装置としてのメモリ２０２と、メモリ２０２に格納されたプログラムを実行する情報処理部としてのプロセッサ２０１とを備える。受話者推定装置１００は、汎用のコンピュータであってもよい。プロセッサ２０１は、演算装置である。演算装置は、ＣＰＵ（ＣｅｎｔａｒａｌＰｒｏｃｅｓｓｉｏｎｇＵｎｉｔ）を有する。演算装置は、ＣＰＵに加えてＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有してもよい。演算装置は、時刻情報を提供する時刻提供機能を備えてもよい。

受話者推定プログラムは、情報を記憶する記憶媒体から媒体読取装置（図示せず）を介して又はインターネットなどに接続可能な通信インタフェース（図示せず）を介してメモリ２０２に格納される。また、受話者推定装置１００は、データベースなどの各種情報を格納する記憶装置であるストレージ２０３を有してもよい。ストレージ２０３は、通信インタフェース（図示せず）を介して接続可能なクラウド上に存在する記憶装置であってもよい。プロセッサ２０１は、種々のプログラムをストレージ２０３から読み込んで、メモリ２０２を作業エリアとしてプログラムを実行する。また、受話者推定装置１００は、画像を表示するディスプレイを有してもよい。

図２に示される制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、及び受話者推定部１４０は、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現されることができる。また、図２に示される各構成の一部を、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現してもよい。また、図２に示される第１の記憶部１５０及び第２の記憶部１６０は、ストレージ２０３の一部であってもよい。

入力装置である入力インタフェース２０４は、図２に示される入力部４０である。出力装置である出力インタフェース２０５は、図２に示される出力部５０である。

なお、図２に示される入力部４０、制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、受話者推定部１４０、及び出力部５０の全体又は一部は、電気回路によって実現されてもよい。

《１−２》動作
次に、実施の形態１に係る受話者推定装置１００の動作を説明する。図８は、受話者推定装置１００の動作を示すフローチャートである。

（ステップＳ１０）
ステップＳ１０において、入力部４０は、機器情報Ｂ０及び領域状態情報Ａ０を受信する。すなわち、入力部４０は、対象機器情報Ｂ１及び周辺機器情報Ｂ２の少なくとも１つと、音声情報Ａ１及び映像情報Ａ２の少なくとも１つを受信する。

（ステップＳ２０）
ステップＳ２０において、制約状態情報取得部１１０は、機器情報Ｂ０、領域状態情報Ａ０、及び制約基準データＣ１に基づいて制約状態情報Ｄ２を取得（すなわち、生成）する。

制約状態情報取得部１１０は、予め定められた制約状態項目（例えば、図３の制約状態情報Ｄ２における走行状態情報、機器操作情報、席位置情報、など）に基づいて、対象機器情報Ｂ１、周辺機器情報Ｂ２、音声情報Ａ１、及び映像情報Ａ２、から該当する制約状態項目を取得することによって制約状態情報Ｄ２を生成する。また、制約状態情報取得部１１０は、制約基準データＣ１を参照し、制約基準データＣ１から、予め定められた制約状態項目に対応する情報を抽出することによって制約状態情報Ｄ２を生成してもよい。

例えば、受話者推定装置１００が車内における参加者の会話の受話者を推定する場合、制約状態情報取得部１１０は、図３に示される制約基準データＣ１から、制約状態である走行状態情報、機器操作情報、席位置情報、などを取得する。制約状態情報取得部１１０は、取得した制約状態に対応する制約状態として、周辺機器情報Ｂ２から車両の走行状態情報（例えば、走行、停止）又は機器操作情報（例えば、ハンドル操作、アクセル操作、ウィンカー操作）、映像情報Ａ２から車両内における参加者の席位置情報（例えば、運転席、助手席）などを取得する。制約状態情報取得部１１０は、取得した制約状態を示す情報を、図３に示されるように、時系列に並ぶフレーム毎の情報として提供する。

図９は、受話者推定装置１００の制約状態情報取得部１１０の動作の例を示す図である。図９は、制約状態情報取得部１１０が、周辺機器情報Ｂ２と映像情報Ａ２とから制約状態情報Ｄ２を生成する例を示している。図９に示されるように、制約状態情報取得部１１０は、時系列に並ぶ情報である周辺機器情報Ｂ２及び映像情報Ａ２から制約状態項目を抽出することで、制約状態情報Ｄ２を生成する。また、図９では、制約状態情報取得部１１０は、時系列に並ぶフレーム毎に制約状態情報Ｄ２を生成しているが、受話者の推定の対象となる発話単位で制約状態情報Ｄ２を生成してもよい。この場合、制約状態情報取得部１１０は、制約状態情報に含まれる値として、発話単位における統計値（例えば、平均値、最大値、代表値など）を用いてもよい。

（ステップＳ３０）
ステップＳ３０において、特徴量抽出部１２０は、領域状態情報Ａ０から特徴量を抽出することによって特徴量情報Ｄ１を生成する。すなわち、特徴量抽出部１２０は、音声情報Ａ１及び映像情報Ａ２の少なくとも１つから特徴量を抽出することによって特徴量情報Ｄ１を生成する。

例えば、特徴量抽出部１２０は、音声情報Ａ１から、音のピッチ、パワー、スペクトルなどの音声特徴量を抽出する。また、特徴量抽出部１２０は、映像情報Ａ２から、参加者の顔向き、視線方向、口の開き度合である開口度、などの画像特徴量を抽出する。映像情報Ａ２から画像特徴量を抽出する手法としては、公知の方法を使用することができる。特徴量抽出部１２０は、抽出した特徴量を、図４に示されるように時系列に対応するフレーム毎に格納することによって、特徴量情報Ｄ１を生成してもよい。また、図４では、特徴量抽出部１２０は、時系列に並ぶフレーム毎に特徴量を抽出しているが、受話者の推定の対象となる発話単位で特徴量を抽出してもよい。この場合、特徴量抽出部１２０は、特徴量情報Ｄ１に含まれる値として、各発話単位における統計値（例えば、平均値、最大値、代表値など）を用いてもよい。

（ステップＳ４０）
ステップＳ４０において、特徴量加工部１３０は、制約状態情報Ｄ２及び制約基準データＣ１を用いて、特徴量情報Ｄ１から加工特徴量情報Ｄ３を生成する。

図１０は、受話者推定装置１００の特徴量加工部１３０の動作の例を示す図である。図１０に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２と、制約基準データＣ１から得られた制約状態基準項目とに基づいて、特徴量情報Ｄ１のうちの所望の情報を選択することによって加工特徴量情報Ｄ３を生成する。図１０の例では、特徴量加工部１３０は、制約状態情報Ｄ２から走行状態情報、機器操作情報、席位置情報、などを含む制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データＣ１の制約状態基準項目を取得する。例えば、特徴量加工部１３０は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」に設定する。制約の大きさが「大」である場合には、運転者の顔向きなどの身体動作が抑制されるので、特徴量加工部１３０は、特徴量情報Ｄ１から、画像特徴量の「顔向き」の列の情報を削除することによって、加工特徴量情報Ｄ３を生成する。また、特徴量加工部１３０は、制約状態基準項目に応じて選択又は加工される特徴量を予め定めておき、制約の大きさに応じて、特徴量の選定又は加工の方法を決定してもよい。また、特徴量加工部１３０は、選定される特徴量を制約状態基準項目ごとに予め定めておいてもよい。

図１１は、受話者推定装置１００の特徴量加工部１３０の動作の他の例を示す図である。図１１に示されるように、特徴量加工部１３０は、制約状態情報Ｄ２と、制約基準データＣ１とから得られた制約状態基準項目とに基づいて、特徴量情報Ｄ１のうちの所望の情報を選択し、重み付けすることによって加工特徴量情報Ｄ３を生成する。図１１の例では、特徴量加工部１３０は、制約状態情報Ｄ２から走行状態情報、機器操作情報、席位置情報、などの制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データＣ１の制約状態基準項目を取得する。例えば、特徴量加工部１３０は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」、重みを「０．５」に設定する。制約の大きさが「大」、重みが「０．５」である場合には、特徴量加工部１３０は、制約の大きさと重みに基づいて、特徴量情報Ｄ１における画像特徴量の「顔向き」の列の情報に重みを設定することによって、加工特徴量情報Ｄ３を生成する。また、特徴量加工部１３０は、制約状態基準項目に応じて重み付けされる特徴量を予め定めておき、制約の大きさ及び重みに応じて、特徴量の選定又は重み付け処理の方法を決定してもよい。また、特徴量加工部１３０は、重み付けされる特徴量を制約状態基準項目ごとに予め定めておいてもよい。特徴量加工部１３０は、設定された重みを、特徴量を表す値を加工するために用いてもよい。また、特徴量加工部１３０は、設定された重みを、受話者を推定する際に用いる統計モデル又はＳＶＭ又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いてもよい。

（ステップＳ５０）
ステップＳ５０において、受話者推定部１４０は、推定基準データＣ２を参照して、加工特徴量情報Ｄ３から受話者を推定し、推定の結果を示す推定結果情報Ｄ４を出力する。つまり、受話者推定部１４０は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を少なくとも１つを含む加工特徴量情報Ｄ３を受け取り、加工特徴量情報Ｄ３と推定基準データＣ２とに基づいて、受話者を推定する。ただし、受話者推定部１４０は、推定基準データＣ２を用いないで、加工特徴量情報Ｄ３から受話者を推定してもよい。

推定基準データＣ２は、例えば、参加者の発話時における、発話内容を示す情報、参加者の顔向き、参加者の視線方向、などの加工特徴量情報Ｄ３の項目の組み合わせによる受話者の推定のルールが予め定められたデータである、受話者推定部１４０は、加工特徴量情報Ｄ３及び推定基準データＣ２に基づいて受話者を推定することができる。例えば、受話者推定部１４０は、参加者による受話者の推定の対象となる発話に、参加者の中の任意の人又はモノを示す情報が含まれている場合、その対象を受話者と推定してもよい。また、受話者推定部１４０は、特徴量毎に受話者を識別するための閾値を設けておき、閾値に基づいて受話者を推定してもよい。また、受話者推定部１４０は、加工特徴量情報Ｄ３を受け取り、統計モデル、ＳＶＭ又はニューラルネットワークなどによりモデルを学習して推定基準データＣ２とし、受話者を推定してもよい。また、受話者推定部１４０は、その他の公知の受話者、聞き手、発話の受け手などの推定、判定、識別、検出手法を用いて受話者を推定してもよい。

推定結果情報Ｄ４は、発話に対する受話者が参加者のうちのいずれかであるかを示す文字列情報、数値情報、参加者の各々が受話者である確率を示す数値情報、などであってもよい。受話者推定部１４０は、推定結果情報Ｄ４を出力部５０に提供する。

（ステップＳ６０）
ステップＳ６０において、出力部５０は、推定結果情報Ｄ４に基づく出力情報Ｄ５を出力する。出力部５０は、推定結果情報Ｄ４に基づく文字列情報、数値情報、受話者を示す画像、などを出力情報Ｄ５として出力する。また、出力部５０は、参加者の各々が受話者である確率を示す数値情報を出力情報Ｄ５として出力してもよい。

《１−３》効果
以上に説明したように、実施の形態１に係る受話者推定装置１００、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報Ｄ３を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。例えば、図１０又は図１１に示されるように、制約状態情報Ｄ２に応じて受話者の推定に用いられる加工特徴量情報Ｄ３を設定するので、受話者の推定の精度を向上させることができる。

《２》実施の形態２
《２−１》構成
図１２は、実施の形態２に係る受話者推定装置２００の構成を概略的に示す機能ブロック図である。受話者推定装置２００は、実施の形態２に係る受話者推定方法を実施することができる装置である。図１２において、図２に示される構成要素と同一又は対応する構成要素には、図２に示される符号と同じ符号が付される。実施の形態２に係る受話者推定装置２００は、特徴量抽出部１２０が、特徴量としての要件を示すデータである特徴量基準データＣ３を予め記憶する第３の記憶部１７０から特徴量基準データＣ３を取得し、取得された特徴量基準データＣ３によって示される特徴量としての要件を満たす特徴量を領域状態情報Ａ０から抽出することによって特徴量情報Ｄ１を生成する点において、実施の形態１に係る受話者推定装置１００と相違する。他の点に関して、実施の形態２に係る受話者推定装置２００は、実施の形態１に係る受話者推定装置１００と同じである。

実施の形態２において、制約状態情報取得部１１０は、制約状態情報Ｄ２に基づいて特徴量基準データＣ３を更新する。特徴量基準データＣ３は、例えば、音声情報Ａ１から音声特徴量を抽出する際又は映像情報Ａ２から画像特徴量を抽出する際に用いられる閾値を示す閾値情報を含む。閾値情報は、第３の記憶部１７０に入力される制約状態情報Ｄ２に応じて更新される。この更新の処理は、例えば、制約状態情報取得部１１０によって行われる。特徴量抽出部１２０は、制約状態情報Ｄ２に基づいて、顔向き情報又は口の開き度合を示す開口度情報などを画像特徴量として抽出する際に、異なる閾値を用いてもよい。

例えば、受話者推定装置２００が車内における参加者の会話の受話者を推定する場合、運転者は、通常の直進走行時には、前方の路面又は先行車などの前方とその周囲の状況に意識を集中することが必要である（すなわち、制約の度合いが大きい）。このため、運転者が発話者である場合、運転者による顔向きの動作は、最小限である。また、運転者が、助手席などにいる他の参加者に話しかける際には、運転者は、受話者に対して一瞬顔を向ける程度であり、顔を受話者に大きく向けることはない。しかし、信号機などの指示にしたがって車両が停車しているときには、運転者による前方とその周囲の状況への注意の程度は低い（すなわち、制約の程度は小さい）。このため、発話者は、受話者に対しては通常走行時の場合より、顔を受話者に大きく向けることが多い。この際、特徴量抽出部１２０は、画像特徴量として顔向き情報を「左」又は「右」、席位置情報を「助手席」又は「後部座席」などの顔向き対象を表す情報として抽出する場合、直進走行時と停車時とで同様の閾値を用いると、顔向き情報を誤って抽出する場合がある。そこで、特徴量基準データＣ３に含まれる閾値などの基準データを、制約状態情報Ｄ２に含まれる「走行」、「停車」などの走行状態情報又は「右左折」などの機器操作情報に基づいて変更できるようにすることで、特徴量抽出部１２０は、参加者の状況に応じて適切に特徴量を抽出することができる。

特徴量基準データＣ３は、特徴量を抽出する際の基準となる閾値情報を数値情報で表したものでもよい。また、特徴量基準データＣ３は、特徴量抽出モデルのパラメータを表す情報であってもよく、特徴量抽出モデルを制約状態情報Ｄ２に応じて学習したものでもよい。

特徴量抽出部１２０は、音声情報Ａ１又は映像情報Ａ２のいずれか１つを受け取り、特徴量基準データＣ３を参照して特徴量を抽出することによって、受話者の推定に用いる特徴量情報Ｄ１を生成する。特徴量抽出部１２０は、特徴量情報Ｄ１を、特徴量加工部１３０に提供する。

特徴量基準データＣ３は、例えば、音声特徴量又は画像特徴量を抽出する際の閾値情報を含むように構成されてもよい。特徴量抽出部１２０は、この閾値に基づいて特徴量を抽出して、特徴量情報Ｄ１を生成してもよい。また、特徴量基準データＣ３は、特徴量抽出モデルのパラメータを表す情報又は特徴量抽出モデルそのものであってもよい。また、特徴量抽出部１２０は、特徴量基準データＣ３におけるパラメータ情報又は特徴量抽出モデルに基づいて特徴量を抽出することによって特徴量情報Ｄ１を生成してもよい。

制約状態情報取得部１１０は、制約状態情報Ｄ２に基づいて、受話者の推定に用いる推定基準データＣ２を更新する。

推定基準データＣ２は、例えば、参加者の発話時における発話内容、参加者の顔向き、参加者の視線方向、などの加工特徴量情報Ｄ３に含まれる音声特徴量又は画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含むように構成される。推定基準データＣ２における閾値情報は、制約状態情報Ｄ２に応じて変更されるように構成されてもよい。受話者推定部１４０は、例えば、制約状態情報Ｄ２に基づいて（すなわち、制約が大きいか小さいかに応じて）、推定基準データＣ２における参加者の顔向き情報又は参加者の口の開き度合を示す開口度情報について、異なる閾値を用いてもよい。

例えば、受話者推定装置２００が車内における参加者の会話の受話者を推定する場合、運転者は、通常の直進走行時には、前方の路面又は先行車などの前方とその周囲の状況に意識を集中する必要があり、顔向きの動作は最小限である。そのため、助手席などの他の参加者に話しかける際も、受話者に対しては一瞬顔を向ける程度であり、あまり顔を受話者に大きく向けることはない。しかし、停車時には、前方とその周囲の状況への注意の程度が低くなり、発話者は、会話の受話者に対しては通常走行時と比較し大きく顔を向ける場合がある。この際、画像特徴量である顔向き情報を「左」又は「右」、席位置情報を「助手席」又は「後部座席」などの顔向き対象を表す情報に変換し受話者の推定で使用する場合、通常の直進走行時と停車時で同様の閾値を用いると、受話者を誤って推定する場合がある。そこで、推定基準データＣ２に含まれる閾値などの基準データを、制約状態情報Ｄ２に含まれる「走行」、「停車」などの走行状態情報又は「右左折」などの機器操作情報に基づいて変更できるようにすることで、参加者の状況に応じた受話者の推定が行える。推定基準データＣ２は、加工特徴量情報Ｄ３を基に受話者を推定するための、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよいし、統計モデル、ＳＶＭ又はニューラルネットワークなどのパラメータ又はモデルであってもよく、モデルは、制約状態情報Ｄ２に応じて学習したものでもよい。

図１２に示される制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、及び受話者推定部１４０は、図７に示されるメモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現されることができる。また、図２に示される各構成の一部を、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現してもよい。また、図１２に示される第１の記憶部１５０、第２の記憶部１６０及び第３の記憶部１７０は、ストレージ２０３の一部であってもよい。

なお、図１２に示される入力部４０、制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、受話者推定部１４０、及び出力部５０の全体又は一部は、電気回路によって実現されてもよい。

《２−２》動作
次に、実施の形態２の受話者推定装置の動作を説明する。図１３は、受話者推定装置２００の動作を示すフローチャートである。図１３において、図８に示される処理ステップと同一又は対応する処理ステップには、図８に示される符号と同じ符号が付される。

（ステップＳ２１）
ステップＳ２１において、制約状態情報取得部１１０は、特徴量基準データＣ３を、制約状態情報Ｄ２を参照して更新する。

特徴量基準データＣ３は、音声情報Ａ１、映像情報Ａ２から音声特徴量又は画像特徴量を抽出する際の閾値情報又は特徴量抽出モデルのパラメータを表す情報又は特徴量抽出モデルそのものを含むように構成してもよく、閾値情報又はパラメータ情報又は特徴量抽出モデルは、制約状態情報Ｄ２に応じて変更することができるようにしてもよい。例えば、顔向き情報又は口の開き度合を示す開口度情報などを画像特徴量として抽出する際に、制約状態情報Ｄ２が示す制約の大きさ又は種類に応じて、閾値情報又はパラメータ情報が更新されてもよい。

（ステップＳ３０）
ステップＳ３０において、特徴量抽出部１２０は、音声情報Ａ１又は映像情報Ａ２のいずれか１つを受け取り、特徴量基準データＣ３を参照して、特徴量を抽出することによって特徴量情報Ｄ１を生成する。

特徴量抽出部１２０は、音声情報Ａ１から音のピッチ、パワー、スペクトル、などの音声特徴量を抽出する。特徴量抽出部１２０は、映像情報Ａ２から顔向き、視線方向、口の開き度合を示す開口度、などの画像特徴量を抽出する。音声特徴量、及び画像特徴量などの特徴量情報Ｄ１は、公知の特徴量抽出手法を用いて抽出されてもよい。また、特徴量抽出部１２０は、抽出の際に、特徴量基準データを参照し、特徴量抽出に伴う閾値情報又は特徴量抽出モデルのパラメータ情報又は特徴量抽出モデルそのものを用いてもよい。

特徴量抽出部１２０は、特徴量情報Ｄ１を、図４に示されるように、時系列に対応するフレーム毎に格納した形式で生成し、提供してもよく、また、特徴量の時系列情報の他、受話者の候補である参加者の発話単位での平均値又は分散などの統計値として提供してもよい。特徴量情報Ｄ１は、音声情報Ａ１から抽出された音声特徴量、及び映像情報Ａ２から抽出された画像特徴量から少なくとも１つの特徴量を表す文字列情報又は数値情報を含む情報であればよい。

（ステップＳ４１）
ステップＳ４１において、推定基準データＣ２は、制約状態情報Ｄ２を参照し、受話者の推定に用いる基準データを更新する。

推定基準データＣ２は、例えば、参加者の発話時における発話内容又は顔向き、視線方向などの加工特徴量情報Ｄ３に含まれる音声特徴量又は画像特徴量の組み合わせ、受話者の推定を行う際の閾値情報、受話者の推定モデルのパラメータ情報、受話者の推定モデルを含んでもよい。推定基準データＣ２は、制約状態情報Ｄ２に応じて、閾値情報などが更新されてもよい。例えば、制約状態情報Ｄ２は、顔向き情報又は口の開き度合を示す開口度情報などを受話者の推定に用いる際に、制約の程度の大きさに応じて、異なる閾値を有してもよい。推定基準データＣ２は、加工特徴量情報Ｄ３を基に受話者を推定するための、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよいし、統計モデル、ＳＶＭ又はニューラルネットワークなどのパラメータ又はモデルであってもよい。モデルは、制約状態情報Ｄ２に応じて学習したものであってもよい。

《２−３》効果
以上に説明したように、実施の形態２に係る受話者推定装置２００、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報Ｄ３を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。

また、特徴量抽出部１２０は、予め記憶された特徴量基準データＣ３を用いて特徴量を抽出するので、適切な特徴量情報Ｄ１を生成することができる。さらに、特徴量基準データＣ３は、制約状態情報Ｄ２に基づいて更新されるので、特徴量抽出部１２０は、より適切な特徴量情報を生成することができる。

また、特徴量基準データＣ３は、制約状態情報Ｄ２に基づいて特徴量抽出時の基準値を定められるようにしたので、参加者の周囲状況などに応じて特徴量抽出に用いる閾値又はモデルを適切に変更、調整、更新、学習することができるという効果がある。

また、制約基準データＣ１は、制約状態情報Ｄ２に基づいて受話者の推定時の基準値を定められるようにしたので、受話者の候補である参加者の周囲状況などに応じて、受話者の推定に用いる特徴量の閾値又はモデルを適切に変更、調整、更新、学習することができるという効果がある。

《３》実施の形態３
《３−１》構成
図１４は、実施の形態３に係る受話者推定装置３００の構成を概略的に示す機能ブロック図である。受話者推定装置３００は、実施の形態３に係る受話者推定方法を実施することができる装置である。図１４において、図２に示される構成要素と同一又は対応する構成要素には、図２に示される符号と同じ符号が付される。実施の形態３に係る受話者推定装置３００は、機器情報Ｂ０に基づいて対象機器３１が表示画面を有するか否かを示す画面有無情報Ｆ１を取得する画面有無情報取得部１８０をさらに有し、特徴量加工部１３０が制約状態情報Ｄ２、制約基準データＣ１、及び画面有無情報Ｆ１に基づいて加工特徴量情報Ｄ３を生成する点において、実施の形態１に係る受話者推定装置１００と相違する。他の点に関して、実施の形態３に係る受話者推定装置３００は、実施の形態１に係る受話者推定装置１００と同じである。

画面有無情報取得部１８０は、機器情報Ｂ０のうちの対象機器情報Ｂ１に基づいて画面有無情報Ｆ１を取得する。対象機器３１は、例えば、カーナビゲーションシステム又はスマートスピーカなどである。画面有無情報取得部１８０は、対象機器情報Ｂ１に含まれる基本スペック情報又は対象機器３１に備えられるユーザ操作部（例えば、タッチパネル）による入力情報などに基づいて対象機器３１が表示画面（例えば、図１に示される表示画面３３）を有するか否かを判別し、判別の結果を示す画面有無情報Ｆ１を生成する。

特徴量加工部１３０は、制約状態情報Ｄ２、特徴量情報Ｄ１、及び画面有無情報Ｆ１を受け取り、制約基準データＣ１を参照し、特徴量情報Ｄ１から受話者の推定に用いる特徴量を選択し、又は選択及び加工する。特徴量加工部１３０は、加工特徴量情報Ｄ３を受話者推定部１４０に提供する。

受話者推定装置３００が車内における参加者の会話の受話者を推定する場合、発話者はカーナビゲーションシステムのような表示画面がある機器に対しては顔を向ける傾向が高い。逆に、発話者はスマートスピーカのような表示画面がない機器に対しては顔を向ける傾向は低い。したがって、受話者推定装置３００は、対象機器が表示画面を有する場合には顔向き情報を受話者の推定の特徴量として使用し、対象機器が表示画面を有しない場合には顔向き情報を受話者の推定の特徴量として使用しない。あるいは、受話者推定装置３００は、対象機器が表示画面を有する場合には顔向き情報を受話者の推定の特徴量として使用し且つ重みを大きな値に設定し、対象機器が表示画面を有しない場合には顔向き情報を受話者の推定の特徴量として使用し且つ重みを小さな値に設定する。

例えば、受話者推定装置３００は、制約状態情報Ｄ２に加えて、画面有無情報Ｆ１を用いて、制約基準データＣ１を参照して取得した制約状態基準項目（例えば、図５に示される）に基づいて、特徴量情報Ｄ１の任意の情報を選択、又は重み付けしたものを加工特徴量情報Ｄ３としてもよい。制約状態情報Ｄ２に基づいて、制約基準データＣ１から制約状態基準項目を取得する例は、図５に示されているが、制約状態情報Ｄ２は、走行状態情報、機器操作情報、席位置情報の情報に加えて画面有無情報Ｆ１を制約状態情報として含んでもよい。例えば、制約状態情報取得部１１０は、制約状態情報Ｄ２に基づいて制約状態基準項目を取得する場合、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、画面有無情報Ｆ１が「無」である場合に、制約基準データＣ１に示されるルールにしたがって、参加者の制約の大きさを「大」と設定してもよい。

図１４に示される制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、及び受話者推定部１４０は、図７に示されるメモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現されることができる。また、図１４に示される各構成の一部を、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現してもよい。また、図１２に示される第１の記憶部１５０、第２の記憶部１６０及び第３の記憶部１７０は、ストレージ２０３の一部であってもよい。

なお、図１４に示される入力部４０、制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、受話者推定部１４０、及び出力部５０の全体又は一部は、電気回路によって実現されてもよい。

《３−２》動作
次に、実施の形態３に係る受話者推定装置３００の動作を説明する。図１５は、受話者推定装置３００の動作を示すフローチャートである。図１５において、図８に示される処理ステップと同一又は対応する処理ステップには、図８に示される符号と同じ符号が付される。

（ステップＳ１１）
ステップＳ１１において、画面有無情報取得部１８０は、対象機器情報Ｂ１を参照して、画面有無情報Ｆ１を取得する。

（ステップＳ４０）
ステップＳ４０において、特徴量加工部１３０は、制約状態情報Ｄ２、画面有無情報Ｆ１、及び制約基準データＣ１を用いて、特徴量情報Ｄ１から加工特徴量情報Ｄ３を生成する。

特徴量加工部１３０は、制約状態情報Ｄ２と、画面有無情報Ｆ１と、制約基準データＣ１から得られた制約状態基準項目とに基づいて、特徴量情報Ｄ１のうちの所望の情報を選択することによって加工特徴量情報Ｄ３を生成する。加工特徴量情報Ｄ３は、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、画面有無情報Ｆ１が「無」である場合、参加者の制約を「大」に設定する。制約が大きい場合、顔向きなどの身体動作が抑制されるので、特徴量情報Ｄ１から、画像特徴量の「顔向き」列を削除して、加工特徴量情報Ｄ３を生成する。特徴量加工部１３０は、制約状態基準項目に応じて選択又は加工される特徴量を予め定めておき、制約の大きさに応じて、特徴量の選定又は加工の方法を決定してもよい。また、特徴量加工部１３０は、選定される特徴量を制約状態基準項目ごとに予め定めておいてもよい。

また、特徴量加工部１３０は、制約状態基準項目に応じて重み付けされる特徴量を予め定めておき、制約の大きさ及び重みに応じて、特徴量の選定又は重み付け処理の方法を決定してもよい。また、特徴量加工部１３０は、重み付けされる特徴量を制約状態基準項目ごとに予め定めておいてもよい。特徴量加工部１３０は、設定された重みを、特徴量を表す値を加工するために用いてもよい。また、特徴量加工部１３０は、設定された重みを、受話者を推定する際に用いる統計モデル又はＳＶＭ又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いてもよい。

《３−３》効果
以上に説明したように、実施の形態３に係る受話者推定装置３００、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報Ｄ３を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。

また、対象機器３１が表示画面を有しているか否かにより、会話時における参加者の行動が変化する場合に、行動の変化に応じて適切に特徴量の選択及び加工（例えば、重み付け）を行うことができ、受話者の推定の精度を向上させることができるという効果がある。

また、特徴量加工部１３０は、制約状態情報Ｄ２に加え画面有無情報Ｆ１を制約状態情報とし、制約基準データを参照し特徴量の選択及び加工を行うようにしたので、参加者の制約状態をより詳細に設定することで、参加者の状態に応じた適切な特徴量を選択することができるという効果がある。

《４》実施の形態４
《４−１》構成
図１６は、実施の形態４に係る受話者推定装置４００の構成を概略的に示す機能ブロック図である。受話者推定装置４００は、実施の形態４に係る受話者推定方法を実施することができる装置である。図１６において、図２に示される構成要素と同一又は対応する構成要素には、図２に示される符号と同じ符号が付される。実施の形態４に係る受話者推定装置４００は、参加者の互いの関係を示す情報である参加者情報Ｇ１を受け取り、参加者情報Ｇ１に基づいて参加者の互いの親密度を示す親密度情報Ｇ２を生成する親密度取得部１９０をさらに有し、特徴量加工部１３０は、制約状態情報Ｄ２、制約基準データＣ１、及び親密度情報Ｇ２に基づいて加工特徴量情報Ｄ３を生成する点において、実施の形態１に係る受話者推定装置１００と相違する。他の点に関して、実施の形態４に係る受話者推定装置４００は、実施の形態１に係る受話者推定装置１００と同じである。

図１６に示される親密度取得部１９０は、参加者情報Ｇ１を受け取り、参加者情報Ｇ１に基づいて親密度情報Ｇ２を生成する。

参加者情報Ｇ１は、予め参加者同士の関係性を表す情報を記憶している記憶部（図示せず）から提供される。この記憶部は、図７に示されるストレージ２０３であってもよい。また、参加者情報Ｇ１は、ネットワーク上のサーバから提供されてもよい。また、参加者情報Ｇ１は、ユーザ操作を受け付けるキーボードなどのユーザ操作装置から入力されてもよい。参加者同士の関係性を表す情報は、例えば、「上司と部下」のような上下関係のある関係性、「家族」のような親密性の高い関係性、などである。参加者情報Ｇ１は、参加者同士の関係性を文字列情報として表したもの、参加者の親密度を数値であらわしたもの、などであってもよい。

親密度取得部１９０は、参加者情報Ｇ１に含まれる参加者同士の関係性を表す情報に基づいて、親密度情報Ｇ２を生成する。親密度情報Ｇ２は、例えば、参加者情報Ｇ１に含まれる参加者同士の関係性を表す文字列情報を数値情報に置換したものである。また、親密度情報Ｇ２は、例えば、参加者同士の関係性を表す情報に基づいて、親密度の程度（例えば、「高」「低」など）を表した情報でもよい。また、親密度取得部１９０は、参加者情報Ｇ１に含まれる参加者同士の関係性を表す数値列情報に基づいて、親密度を計算することによって親密度情報Ｇ２を生成してもよい。親密度情報Ｇ２は、例えば、参加者の親密度を表す文字列情報、又は数値情報、又はこれらの両方を含んでいる。

特徴量加工部１３０は、制約状態情報Ｄ２、特徴量情報Ｄ１、及び親密度情報Ｇ２を受け取り、制約基準データＣ１を参照し、特徴量情報Ｄ１から受話者の推定に用いる特徴量を選択及び加工する。特徴量加工部１３０は、加工特徴量情報Ｄ３を受話者推定部１４０に提供する。

一般的に、親密度が高い参加者同士であると、会話の際に発話に伴う動作を怠けやすくなり、上下関係があるなどで親密度が低い場合、発話の際の行動は動作を伴ったものとなりやすい。この際、親密度の違いによらず同様の特徴量情報を受話者の推定の特徴量として使用すると、受話者を誤って推定する可能性が高い。そこで、特徴量加工部１３０は、制約状態情報Ｄ２に加え、親密度情報Ｇ２を制約状態情報として用いて、制約基準データＣ１を参照して取得した制約状態基準項目に基づいて、特徴量情報Ｄ１の任意の特徴量情報を選択、又は重み付けしたものを加工特徴量情報Ｄ３とする。また、特徴量加工部１３０は、親密度情報Ｇ２に含まれる参加者の親密度を表す情報として、親密度の程度を表す情報（例えば、「高」又は「低」）をそのまま用いてもよい。また、特徴量加工部１３０は、親密度情報Ｇ２に含まれる参加者の親密度を表す情報が、親密度が数値情報で表されている場合、その数値が指定の値の範囲（例えば、「０．５＜親密度＜１．０」）に入っているかを判定し、この条件を満たす場合の制約状態情報Ｄ２を加工特徴量の算出に用いてもよい。

図１７は、実施の形態４の変形例に係る受話者推定装置５００の構成を概略的に示す機能ブロック図である。図１７において、図１６に示される構成要素と同一又は対応する構成要素には、図１６に示される符号と同じ符号が付される。受話者推定装置５００は、受話者の推定に用いられる推定基準データＣ２が親密度情報Ｇ２に基づいて更新される点において、受話者推定装置４００と相違する。他の点に関して、受話者推定装置５００は、受話者推定装置４００と同じである。

図１７における推定基準データＣ２は、例えば、加工特徴量情報Ｄ３に含まれる音声特徴量及び画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含んでいる。閾値情報は、親密度情報Ｇ２に応じて更新されてもよい。推定基準データＣ２は、基準となる閾値情報又はルールを数値又は文字列情報で表したものである。推定基準データＣ２は、統計モデル、ＳＶＭ又はニューラルネットワークなどのパラメータ又はモデルであってもよい。推定基準データＣ２は、親密度情報Ｇ２に基づいて加工又は学習したものであってもよい。

図１６又は図１７に示される制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、及び受話者推定部１４０は、図７に示されるメモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現されることができる。また、図１６又は図１７に示される構成の一部を、メモリ２０２に格納されているプログラムを実行するプロセッサ２０１によって実現してもよい。また、図１６又は図１７に示される第１の記憶部１５０及び第２の記憶部１６０は、ストレージ２０３の一部であってもよい。

なお、図１６又は図１７に示される入力部４０、制約状態情報取得部１１０、特徴量抽出部１２０、特徴量加工部１３０、受話者推定部１４０、及び出力部５０の全体又は一部は、電気回路によって実現されてもよい。

《４−２》動作
次に、実施の形態４に係る受話者推定装置４００の動作を説明する。図１８は、受話者推定装置４００の動作を示すフローチャートである。図１８において、図８に示される処理ステップと同一又は対応する処理ステップには、図８に示される符号と同じ符号が付される。

（ステップＳ３１）
ステップＳ３１において、親密度取得部１９０は、参加者情報Ｇ１に基づいて親密度情報Ｇ２を取得（すなわち、生成）する。

親密度取得部１９０は、例えば、予め設定された参加者同士の関係性を表す情報又は操作機器から直接入力された参加者同士の関係性を表す情報を含む参加者情報Ｇ１から、親密度情報Ｇ２を抽出する。参加者情報Ｇ１には、例えば、「上司と部下」のような上下関係を表す情報又は「家族」のような親密性の高い関係性を表す情報を含んでもよく、これらの関係性を文字列情報として表したもの又はそれぞれの参加者の親密度を表す数値として表現してもよい。親密度を示す数値が大きいほど、親密度は高い。例えば、「上司と部下」であれば、上司の親密度を「０．３」、部下の親密度を「０．２」として各値を参加者同士の関係性を表す値として参加者情報Ｇ１としてもよい。また、「家族」であれば親の親密度を「０．８」、子の親密度を「０．７」としてもよい。これらの情報を、数値列情報として参加者情報Ｇ１としてもよい。

親密度取得部１９０で抽出する親密度情報Ｇ２は、参加者情報Ｇ１に参加者同士の関係性を表す文字列情報が含まれている場合、それを予め設定したルールに基づいて数値情報に置換してもよい。例えば、親密度取得部１９０は、「上司と部下」の場合には親密度を「０．５」、「家族」の場合には親密度を「１．５」のように設定することで親密度情報Ｇ２を生成してもよい。また、親密度情報Ｇ２は、参加者同士の関係性を表す情報から、親密度の程度を表した情報でもよい。例えば、親密度取得部１９０は、「上司と部下」であれば親密度「低」、「家族」であれば親密度「高」と設定してもよい。また、親密度情報Ｇ２は、参加者情報Ｇ１に参加者同士の関係性を表す数値列情報が含まれている場合、数値列に基づいて親密度を計算してもよい。例えば、親密度取得部１９０は、「上司と部下」の関係性を表す値として上司の親密度「０．３」、部下の親密度「０．２」のように値が設定された数値列情報であった場合、親密度を加算し、上司と部下の親密度「０．５」のように親密度情報Ｇ２を設定してもよい。親密度情報Ｇ２は、参加者の親密度を表す文字列情報、又は数値情報を含む。親密度取得部１９０は、親密度情報Ｇ２を特徴量加工部１３０に提供する。また、親密度取得部１９０は、親密度情報Ｇ２を第２の記憶部１６０に提供し、推定基準データＣ２を更新する。

（ステップＳ３２）
ステップＳ３２において、推定基準データＣ２は、親密度情報Ｇ２に基づいて、受話者の推定に用いる基準データ情報が更新される。

推定基準データＣ２は、例えば、加工特徴量情報Ｄ３に含まれる音声特徴量又は画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含んでいる。閾値情報は、親密度情報Ｇ２に応じて更新されてもよい。例えば、親密度情報Ｇ２に基づいて、顔向き情報又は口の開き度合を示す開口度情報などを受話者の推定に用いられる閾値として、異なる閾値が設定されてもよい。また、親密度が高い場合、人は会話時の動作を怠ける傾向があるため、その際は顔向き情報を用いるときの閾値が下がるように設定されてもよい。推定基準データＣ２は、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよく、統計モデル、ＳＶＭ又はニューラルネットワークなどのパラメータ又はモデルであってもよく、それらの基準データは親密度情報Ｇ２に基づいて加工又は学習を行ってもよい。

（ステップＳ４０）
ステップＳ４０において、特徴量加工部１３０は、制約状態情報Ｄ２と、親密度情報Ｇ２と、制約基準データＣ１とを参照し、特徴量情報Ｄ１を選択及び加工し、加工特徴量情報Ｄ３として出力する。

特徴量加工部１３０は、制約状態情報Ｄ２に加え、親密度情報Ｇ２を制約状態情報として用いて、制約基準データＣ１を参照して取得した制約状態基準項目に基づいて、特徴量情報Ｄ１の任意の特徴量情報を選択、又は重み付けすることによって、加工特徴量情報Ｄ３を生成する。制約状態情報Ｄ２に基づいて、制約基準データＣ１から制約状態基準項目を取得する例は、図５の場合と同様である。親密度情報を用いた場合、例えば、図５では、走行状態情報、機器操作情報、席位置情報、親密度などの制約状態項目を予め含む情報としてもよい。これらの制約状態項目に基づいて制約状態基準項目を取得する場合、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、親密度が「高」である場合、制約基準データＣ１に示されるようなルールとの一致により、参加者の制約の大きさは「大」に設定されてもよい。

また、親密度情報Ｇ２に含まれる参加者の親密度を表す情報は、親密度の程度を表す情報（「高」又は「低」）をそのまま制約状態項目に含んでもよい。また、親密度が数値情報で表されている場合、その数値が指定の値の範囲（例えば、「０．５＜親密度＜１．０」）に入っているかを示す情報を制約状態項目としてもよい。また、親密度情報Ｇ２に含まれる親密度を表す数値情報を用いて特徴量情報Ｄ１に重み付け処理を行う場合、制約基準データＣ１から制約状態基準項目を取得する例である図６の場合と同様に、制約基準データＣ１、６０３の各制約状態基準項目に設定された重みを、親密度を表す数値情報を用いて加工してもよい。例えば、重み「０．５」を取得した場合、親密度情報Ｇ２に設定された親密度「０．５」を加算、減算、乗算、除算などを用いて重みの値を調整してもよい。

《４−３》効果
以上に説明したように、実施の形態４に係る受話者推定装置４００又は５００、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報Ｄ３を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。

また、親密度取得部１９０を備えるようにしたことで、参加者の親密度により会話時の発話に伴う行動が変化する場合に、受話者の推定に用いる特徴量を適切に選択及び加工することができ、受話者の推定の精度を向上させることができるという効果がある。

また、特徴量加工部１３０は、制約状態情報Ｄ２に加え親密度情報Ｇ２を制約状態情報とし、制約基準データを参照し特徴量選択及び加工を行うようにしたので、参加者の制約状態をより詳細に設定することで、参加者の親密度に応じた適切な特徴量を選択することができるという効果がある。

また、推定基準データＣ２を参加者の親密度情報Ｇ２に基づいて、更新できるようにしたので、参加者の親密度の違いにより会話時の行動に変化が生じた場合でも、参加者の親密度に応じて適切な特徴量の閾値又はモデルを、特徴量抽出又は受話者の推定に用いることができ、受話者の推定の精度を向上させることができるという効果がある。

《５》変形例
上記実施の形態では、第１の記憶部１５０、第２の記憶部１６０、及び第３の記憶部１７０が受話者推定装置の一部として示されているが、これらは、受話者推定装置に接続された外部の記憶装置又は受話者推定装置に備えられた通信装置によって通信可能なネットワーク上のサーバに備えられた記憶装置であってもよい。

１０領域、１１，１２，… 参加者、２０状態取得部、２１音声取得部、２２映像取得部、３０機器、３１対象機器、３２周辺機器、３３表示画面、４０入力部、５０出力部、１００、２００、３００、４００、５００受話者推定装置、１１０制約状態情報取得部、１２０特徴量抽出部、１３０特徴量加工部、１４０受話者推定部、１５０第１の記憶部、１６０第２の記憶部、１７０第３の記憶部、１８０画面有無情報取得部、１９０親密度取得部、Ａ０領域状態情報、Ａ１音声情報Ａ２映像情報、Ｂ０機器情報、Ｂ１対象機器情報、Ｂ２周辺機器情報、Ｃ１制約基準データ、Ｃ２推定基準データ、Ｃ３特徴量基準データ、Ｄ１特徴量情報、Ｄ２制約状態情報、Ｄ３加工特徴量情報、Ｄ４推定結果情報、Ｄ５出力情報。

Claims

発話者が発する音声の受話者を推定する受話者推定装置であって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、
音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、
前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、
前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、
を有することを特徴とする受話者推定装置。
前記状態取得部は、前記領域内における音声を取得することによって音声情報を生成する音声取得部と、前記領域内の映像を撮影することによって映像情報を生成する映像取得部とを有し、
前記領域状態情報は、前記音声情報及び前記映像情報のうちの少なくとも１つを含む
ことを特徴とする請求項１に記載の受話者推定装置。
前記音声情報は、前記音声の音圧を示す情報、前記音声の基本周波数成分を示す情報、及び前記音声のスペクトルのうちの少なくとも１つを含むことを特徴とする請求項２に記載の受話者推定装置。
前記映像情報は、前記参加者の座席の位置を示す情報、前記参加者の顔向きを示す情報、前記参加者の視線方向を示す情報、及び前記参加者の口の開口度を示す情報のうちの少なくとも１つを含むことを特徴とする請求項２又は３に記載の受話者推定装置。
前記機器は、前記対象機器の他に、前記参加者によって操作される周辺機器を含むことを特徴とする請求項１から４のいずれか１項に記載の受話者推定装置。
前記機器状態情報は、前記周辺機器の状態及び前記周辺機器に対して実行された操作のうちの少なくとも１つを含むことを特徴とする請求項５に記載の受話者推定装置。
前記加工特徴量情報は、前記特徴量抽出部によって生成された前記特徴量情報から選択された前記１つ以上の特徴量を含む情報であることを特徴とする請求項１から６のいずれか１項に記載の受話者推定装置。
前記加工特徴量情報は、前記特徴量抽出部によって生成された前記特徴量情報から選択された前記１つ以上の特徴量と、前記１つ以上の特徴量の各々の重みとを含む情報であることを特徴とする請求項１から６のいずれか１項に記載の受話者推定装置。
前記受話者推定部は、
前記参加者のいずれか１人が発話するときの前記参加者が存在する領域内の状態を示す推定基準データを予め記憶している第２の記憶部から前記推定基準データを取得し、
前記推定基準データと前記加工特徴量情報とに基づいて前記受話者を推定する
ことを特徴とする請求項１から８のいずれか１項に記載の受話者推定装置。
前記受話者推定部は、前記対象機器及び前記参加者のうちの前記発話者以外の人の中から、前記受話者を推定することを特徴とする請求項１から９のいずれか１項に記載の受話者推定装置。
前記特徴量抽出部は、
前記特徴量としての要件を示すデータである特徴量基準データを予め記憶する第３の記憶部から前記特徴量基準データを取得し、
前記特徴量基準データによって示される前記特徴量としての前記要件を満たす特徴量を前記領域状態情報から抽出することによって前記特徴量情報を生成する
ことを特徴とする請求項１から１０のいずれか１項に記載の受話者推定装置。
前記特徴量基準データは、前記制約状態情報に基づいて更新されることを特徴とする請求項１１に記載の受話者推定装置。
前記機器状態情報に基づいて前記対象機器が表示画面を有するか否かを示す画面有無情報を取得する画面有無情報取得部をさらに有し、
前記特徴量加工部は、前記制約状態情報、前記制約基準データ、及び前記画面有無情報に基づいて前記加工特徴量情報を生成する
ことを特徴とする請求項１から１２のいずれか１項に記載の受話者推定装置。
前記参加者の互いの関係を示す情報である参加者情報を受け取り、前記参加者情報に基づいて前記参加者の互いの親密度を示す親密度情報を取得する親密度取得部をさらに有し、
前記特徴量加工部は、前記制約状態情報、前記制約基準データ、及び前記親密度情報に基づいて前記加工特徴量情報を生成する
ことを特徴とする請求項１から１３のいずれか１項に記載の受話者推定装置。
前記参加者の互いに関係を示す情報である参加者情報を受け取り、前記参加者情報に基づいて前記参加者の互いの親密度を示す親密度情報を取得する親密度取得部をさらに有し、
前記推定基準データは、前記親密度情報に基づいて更新される
ことを特徴とする請求項９に記載の受話者推定装置。
発話者が発する音声の受話者を推定する受話者推定装置が実施する受話者推定方法であって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
前記加工特徴量情報に基づいて前記受話者を推定するステップと、
を有することを特徴とする受話者推定方法。
発話者が発する音声の受話者を推定する処理をコンピュータに実行させる受話者推定プログラムであって、
状態取得部によって取得された、前記発話者を含む１人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する処理と、
音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第１の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する処理と、
前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる１つ以上の特徴量を選択し、前記１つ以上の特徴量に基づく加工特徴量情報を生成する処理と、
前記加工特徴量情報に基づいて前記受話者を推定する処理と、
を前記コンピュータに実行させることを特徴とする受話者推定プログラム。