JP6945767B2 - 受話者推定装置、受話者推定方法、及び受話者推定プログラム - Google Patents

受話者推定装置、受話者推定方法、及び受話者推定プログラム Download PDF

Info

Publication number
JP6945767B2
JP6945767B2 JP2021521651A JP2021521651A JP6945767B2 JP 6945767 B2 JP6945767 B2 JP 6945767B2 JP 2021521651 A JP2021521651 A JP 2021521651A JP 2021521651 A JP2021521651 A JP 2021521651A JP 6945767 B2 JP6945767 B2 JP 6945767B2
Authority
JP
Japan
Prior art keywords
information
feature amount
receiver
constraint
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021521651A
Other languages
English (en)
Other versions
JPWO2020240730A1 (ja
Inventor
咲子 二本柳
咲子 二本柳
岡登 洋平
洋平 岡登
啓吾 川島
啓吾 川島
相川 勇之
勇之 相川
聖崇 加藤
聖崇 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2020240730A1 publication Critical patent/JPWO2020240730A1/ja
Application granted granted Critical
Publication of JP6945767B2 publication Critical patent/JP6945767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Description

本発明は、受話者推定装置、受話者推定方法、及び受話者推定プログラムに関する。
会話の参加者を撮影することで得られた映像情報に基づいて発話者が発する音声の受け手である受話者を推定する技術が提案されている。例えば、特許文献1及び2を参照。これらの技術を用いれば、発話者が発する音声の受話者すなわち発話者が意図する受話者を推定することができる。受話者は、例えば、発話者以外の参加者又は音声操作を受け付けることができる機器である。
特開2017−118364号公報 特開2007−147762号公報
しかしながら、発話者の行動を制約する状態が存在する場合には、発話者が意図する受話者の推定の精度が低下するという問題がある。ここで、発話者の行動は、例えば、発話者の姿勢及び動作を含む。また、発話者の行動を制約する状態は、例えば、発話者の座席の位置、発話者が機器を操作している状態、発話者が前方を注視している状態、などを含む。
本発明は、上記従来の課題を解決するためになされたものであり、発話者が発する音声の受話者の推定の精度を向上させることができる受話者推定装置、受話者推定方法、及び受話者推定プログラムを提供することを目的とする。
本発明の一態様に係る受話者推定装置は、発話者が発する音声の受話者を推定する装置であって、状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、を有することを特徴とする。
本発明の一態様に係る受話者推定方法は、発話者が発する音声の受話者を推定する受話者推定装置が実施する方法であって、状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、前記加工特徴量情報に基づいて前記受話者を推定するステップと、を有することを特徴とする。
本発明によれば、発話者が発する音声の受話者の推定の精度を向上させることができる。
本発明の実施の形態1に係る受話者推定システムの構成を概略的に示す図である。 実施の形態1に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る受話者推定装置の制約状態情報取得部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量抽出部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の他の例を示す図である。 実施の形態1に係る受話者推定装置のハードウェア構成の例を示す図である。 実施の形態1に係る受話者推定装置の動作を示すフローチャートである。 実施の形態1に係る受話者推定装置の制約状態情報取得部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の他の例を示す図である。 本発明の実施の形態2に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態2に係る受話者推定装置の動作を示すフローチャートである。 本発明の実施の形態3に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態3に係る受話者推定装置の動作を示すフローチャートである。 本発明の実施の形態4に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態4の変形例に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態4に係る受話者推定装置の動作を示すフローチャートである。
以下に、本発明の実施の形態に係る受話者推定装置、受話者推定方法、及び受話者推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。
《1》実施の形態1
《1−1》構成
図1は、実施の形態1に係る受話者推定システムの構成を概略的に示す図である。受話者推定システムは、状態取得部20と、機器30と、入力部40と、受話者推定装置100と、出力部50とを有する。入力部40及び出力部50は、受話者推定装置100の一部であってもよい。入力部40は、信号を受信する入力装置として入力インタフェースである。出力部50は、信号を出力する出力装置として出力インタフェースである。
受話者推定装置100は、1人以上の会話の参加者のうちのいずれか1人である発話者が発する音声の受話者すなわち発話者が意図する受話者を推定する。参加者は、予め決められた領域10に存在する。会話の参加者は、例えば、複数の参加者11,12,…である。発話者が、音声操作を受け付ける対象機器31に宛てた音声(例えば、音声操作のための音声メッセージ)を発する場合には、会話の参加者は発話者である1名の参加者であってもよい。領域10は、例えば、車両の車室である。参加者は、例えば、車両の運転者と同乗者である。
状態取得部20は、領域10内の状態を示す領域状態情報A0を取得し、領域状態情報A0を入力部40に送信する。状態取得部20は、例えば、領域10内における音声を取得することによって音声情報A1を生成する音声取得部21と、領域10内の映像を撮影することによって映像情報A2を生成する映像取得部22とを有する。音声取得部21は、例えば、1台以上のマイクを有する。映像取得部22は、例えば、1台以上のカメラを有する。領域状態情報A0は、音声情報A1及び映像情報A2の少なくとも1つを含む情報である。音声情報A1は、参加者である発話者が発する音声(すなわち、発話者の発話)に基づく情報である。映像情報A2は、発話者を含む参加者を撮影することによって取得された動画像又は静止画像の情報である。映像情報A2は、例えば、参加者の発話時における振る舞いを含む動画像又は静止画像の情報である。例えば、映像情報A2は、参加者の顔又は参加者の身体の全体の動作を示す画像の情報である。映像情報A2は、時系列に並ぶ複数フレームの画像から構成される動画像の情報であってもよい。
機器30は、機器30自身の状態を示す機器情報B0を入力部40に送信する。機器30は、例えば、参加者によって操作される対象機器31と、参加者によって操作される周辺機器32とを有する。対象機器31は、音声による指示に従って動作する音声操作機能を有する機器(「音声対話機器」とも称される。)である。対象機器31は、例えば、車両内に備えられたカーナビゲーションシステムを含む車載機器又は対話型の音声操作に対応したスピーカであるスマートスピーカである。対象機器情報B1は、例えば、カーナビゲーションシステムにおけるGPS(Global Positioning System)情報などの現在地情報、走行経路に関する案内音声情報、などを含んでもよい。対象機器31は、表示画面33を有してもよい。
周辺機器32は、対象機器31以外の機器である。周辺機器32は、例えば、車両自体である。周辺機器32は、車両の車室などの参加者の会話の場(すなわち、領域10)の周囲に存在する機器である。周辺機器32は、参加者のいずれかによって操作されたときに、参加者の行動を制約する状態が生じ得る機器である。参加者の行動は、例えば、参加者の姿勢及び動作(すなわち、動き)を含む。参加者の行動は、参加者の振る舞いとも称される。また、参加者の行動を制約する状態は、例えば、参加者の座席の位置、参加者が機器30を操作している状態、参加者が前方を注視している状態、などを含む。周辺機器情報B2は、領域10の周囲に存在する周辺機器32の状態を表す情報を少なくとも含む。例えば、周辺機器情報B2は、周辺機器32が自動車であれば車速及びハンドル操作情報を含むCAN(Controller Area Network)情報、走行状態を示す走行状態情報、などを含む。走行状態情報は、車両が走行中である状態、車両が停車中である状態、などを含む。
対象機器31は、対象機器31自身の状態を示す対象機器情報B1を入力部40に送信する。周辺機器32は、周辺機器32自身の状態を示す周辺機器情報B2を入力部40に送信する。機器情報B0は、対象機器情報B1及び周辺機器情報B2の少なくとも1つを含む情報である。
受話者推定装置100は、機器情報B0、領域状態情報A0、及び予め記憶された各種の基準データ(後述の図2に示されるC1、C2)に基づいて、発話者が意図する受話者を推定し、推定された受話者を示す情報を含む推定結果情報D4を出力する。受話者推定装置100は、受話者の推定に用いられる加工特徴量情報(後述の図2に示されるD3)の取得のために、参加者の行動を制約する制約状態項目を含む制約状態情報(後述の図2に示されるD2)を考慮に入れる。つまり、制約状態情報は、複数の制約状態項目を含む。制約状態項目は、例えば、発話者の座席の位置、発話者が機器30を操作している状態、発話者が前方を注視している状態、などを含む。図1の例では、受話者は、参加者のうちの発話者以外の参加者又は対象機器31である。
出力部50は、推定結果情報D4に基づく出力情報D5を出力する。例えば、受話者が対象機器31であると推定された場合、出力部50は、対象機器31に、受話者が対象機器31であることを示す出力情報D5を送信する。出力情報D5を受信した対象機器31は、発話者が発する音声が自己に対する音声操作であると判断し、音声操作に従って動作することができる。一方、対象機器31は、受話者が対象機器31であることを示す出力情報D5を受信しない場合又は受話者が対象機器31でないことを示す出力情報D5を受信した場合には、発話者が発する音声が自己に対する音声操作ではないと判断することができる。
図2は、実施の形態1に係る受話者推定装置100の構成を概略的に示す機能ブロック図である。受話者推定装置100は、実施の形態1に係る受話者推定方法を実施することができる装置である。図2に示されるように、受話者推定装置100は、制約状態情報取得部110と、制約基準データC1を記憶する第1の記憶部150と、特徴量抽出部120と、特徴量加工部130と、受話者推定部140と、推定基準データC2を記憶する第2の記憶部160とを有する。受話者推定装置100は、入力部40を介して受け取った機器情報B0及び領域状態情報A0と、予め記憶された各種の基準データである制約基準データC1及び推定基準データC2とに基づいて受話者を推定するための処理を行い、推定の結果を示す推定結果情報D4を出力する。出力部50は、推定結果情報D4に基づく出力情報D5を出力する。第1の記憶部150と第2の記憶部160とは、互いに異なる記憶装置であってもよい。第1の記憶部150と第2の記憶部160とは、同じ記憶装置の中の互いに異なる記憶領域であってもよい。
次に、各構成を詳細に説明する。入力部40は、機器情報B0及び領域状態情報A0を入力情報として受信する。機器情報B0及び領域状態情報A0は、受話者推定装置100に提供される。機器情報B0は、対象機器情報B1、又は周辺機器情報B2、又はこれらの両方を含む。領域状態情報A0は、音声情報A1、又は映像情報A2、又はこれらの両方を含む。入力部40は、受信された機器情報B0及び領域状態情報A0を、制約状態情報取得部110に提供する。また、入力部40は、領域状態情報A0を特徴量抽出部120に提供する。
制約状態情報取得部110は、受話者の発話時に、機器情報B0及び領域状態情報A0を入力部40から受け取る。また、制約状態情報取得部110は、制約基準データC1を参照する。制約状態情報取得部110は、参加者の行動を制約する制約状態を示す制約状態情報D2を取得(すなわち、生成)する。制約状態情報取得部110は、取得された制約状態情報D2を、特徴量加工部130に提供する。制約状態情報D2は、例えば、発話者の姿勢の制約、周囲状況による発話者の動きの制約、などの発話者の行動の制約を示す情報を含む。制約状態情報D2は、例えば、文字列情報、数値情報、などで表現される。
図3は、受話者推定装置100の制約状態情報取得部110の動作の例を示す図である。図3は、第1の記憶部150に記憶されている制約基準データC1の例と制約状態情報取得部110によって生成される制約状態情報D2の例とを表形式で示している。図3に示される制約基準データC1は、制約条件R_1からR_mとして示される、制約状態基準項目を含んでいる。mは、正の整数である。図3の例では、制約基準データC1は、制約の大きさ(すなわち、制約の程度)を示す情報を含んでいる。制約条件R_1からR_mとして示される制約状態基準項目の各々は、走行状態情報、周辺機器32の操作状態である機器操作情報、発話者の座席の位置である席位置情報、などを含んでいる。ただし、制約基準データC1は、図3の例に限定されない。
制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を生成する。図3に示される制約状態情報D2は、時系列順に並ぶフレーム番号t_1からt_nのn個のフレームの各々における制約状態項目を含んでいる。制約状態情報取得部110は、制約状態情報D2を特徴量加工部130に提供する。また、制約状態情報D2は、発話時における受話者の候補である参加者に関する項目を含んでもよい。制約状態情報取得部110は、生成される制約状態情報D2に含まれる複数のフレームの各々における制約状態項目の種類を予め定めていてもよい。制約状態情報取得部110は、制約基準データC1に含まれる制約状態項目として、例えば、走行状態情報、機器操作情報、席位置情報、などを設定する。
例えば、参加者が存在する領域10が車内である場合、制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目を、周辺機器情報B2に基づいて車両の走行状態情報、周辺機器32の機器操作情報、参加者の席位置情報、などに設定することができる。車両の走行状態情報は、車両が走行中である走行状態情報であるか車両が停止している停止状態であるか、を含む。機器操作情報は、例えば、周辺機器32としての車両のハンドルによる右折操作、左折操作、などを含む。制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目として、映像情報A2に基づいて、発話者及び発話者以外の参加者の席位置情報を含めることができる。席位置情報は、例えば、車両の運転席、助手席、後部座席、などである。
図3に示されるように、制約基準データC1は、制約状態を表す情報と、各制約状態の組み合わせのパターンと、そのパターン毎に制約の大きさを定めた情報と、で構成された複数の制約状態基準項目を含むデータベースである。制約基準データC1は、例えば、図3に示されるように、制約状態を表す複数列の情報と、制約状態の組み合わせによって決定される制約の大きさを定めた情報と、を互いに対応付けた複数の制約状態基準項目で構成される。複数の制約状態基準項目には、識別記号として制約条件R_1からR_mが付される。制約状態情報取得部110は、制約基準データC1から取得する制約状態基準項目として、例えば、図3に示される制約基準データC1で定義された各列の制約状態(例えば、走行状態情報、機器操作情報、席位置情報、など)を取得する。
特徴量抽出部120は、入力部40から領域状態情報A0を受け取る。つまり、特徴量抽出部120は、入力部40から音声情報A1及び映像情報A2のうちの少なくとも1つを受け取る。特徴量抽出部120は、発話者が意図する受話者の推定に用いられる1つ以上の特徴量を抽出することによって、特徴量情報D1を生成する。特徴量抽出部120は、特徴量情報D1を特徴量加工部130に提供する。
図4は、実施の形態1に係る受話者推定装置100の特徴量抽出部120の動作の例を示す図である。図4は、特徴量抽出部120によって生成される特徴量情報D1の例を表形式で示している。特徴量情報D1は、音の基本周波数成分(すなわち、ピッチ)、音圧(すなわち、パワー)、音のスペクトル、などの音声特徴量を含むことができる。特徴量情報D1は、参加者の顔向き、視線方向、口の開き度合を示す開口度などの画像特徴量を含むことができる。図4に示されるように、特徴量情報D1は、時系列に対応するフレームt_1からt_n毎に抽出された音声特徴量及び画像特徴量を表形式で示している。また、特徴量情報D1は、受話者の候補である参加者の発話単位での音声情報A1の平均値又は分散などの統計値を含んでもよい。発話単位とは、同じ発話者による1回の発話の開始から終了までに対応する。特徴量情報D1は、音声情報A1から抽出された音声特徴量及び映像情報A2から抽出された画像特徴量の少なくとも1つの特徴量を表す文字列情報、数値情報、などを含んでもよい。特徴量抽出部120は、音声情報A1及び映像情報A2から抽出される特徴量の種類として、図4の例に示される種類以外の種類の特徴量を設定してもよい。
特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて特徴量情報D1から受話者の推定に用いられる1つ以上の特徴量を選択し、選択された1つ以上の特徴量に基づく加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
図5は、受話者推定装置100の特徴量加工部130の動作の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量を加工特徴量情報D3とする。図5に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。図5の例では、制約状態情報D2は、走行状態情報、機器操作情報、席位置情報、などを示す制約状態項目を含む。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」と設定する加工特徴量情報D3(後述する図10に示される)を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。
図6は、受話者推定装置100の特徴量加工部130の動作の他の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて得られた制約状態に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量の各々に重み付けを行うことによって加工特徴量情報D3を生成してもよい。図6は、制約状態情報D2に基づいて制約基準データC1から取得する制約状態基準項目の例を示す。図6に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」、重みを「0.5」と設定する加工特徴量情報D3(後述する図11に示される)を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」及び制約の「重み」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。設定された重みは、特徴量を表す値を加工するために用いられる値であればよい。設定された重みは、受話者を推定する際に用いられる統計モデル、SVM(サポートベクターマシン)又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いる値であってもよい。
受話者推定部140は、加工特徴量情報D3を受け取り、推定基準データC2を参照し、加工特徴量情報D3及び推定基準データC2に基づいて受話者を推定した結果を示す推定結果情報D4を出力部50に提供する。
加工特徴量情報D3は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を表す値の少なくとも1つを含む。推定基準データC2は、参加者の発話時における発話内容、顔向き又は視線方向などの加工特徴量情報D3の組み合わせによる受話者の推定のルールが予め定められた基準データを含む。また、加工特徴量情報D3を基に受話者を推定するための、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであればよい。
出力部50は、推定結果情報D4に基づく、受話者の推定の結果を示す出力情報D5を出力する。
推定結果情報D4は、例えば、受話者が参加者のうちのいずれであるかを示す文字列情報又は数値情報を含む。また、推定結果情報D4は、参加者のうちのいずれかが受話者であることを示す確率を表現した数値情報などであってもよい。出力情報D5は、推定結果情報D4を基に、例えば、受話者の推定の結果を示す情報を表した文字列情報又は数値情報、又は受話者を示す画像などの情報である。また、出力情報D5は、参加者のうちのいずれかが受話者であることを示す確率を表した数値情報を含んでもよい。
図7は、実施の形態1に係る受話者推定装置100のハードウェア構成の例を示す図である。受話者推定装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態1に係る受話者推定プログラムを格納する記憶装置としてのメモリ202と、メモリ202に格納されたプログラムを実行する情報処理部としてのプロセッサ201とを備える。受話者推定装置100は、汎用のコンピュータであってもよい。プロセッサ201は、演算装置である。演算装置は、CPU(Centaral Processiong Unit)を有する。演算装置は、CPUに加えてGPU(Graphics Processing Unit)を有してもよい。演算装置は、時刻情報を提供する時刻提供機能を備えてもよい。
受話者推定プログラムは、情報を記憶する記憶媒体から媒体読取装置(図示せず)を介して又はインターネットなどに接続可能な通信インタフェース(図示せず)を介してメモリ202に格納される。また、受話者推定装置100は、データベースなどの各種情報を格納する記憶装置であるストレージ203を有してもよい。ストレージ203は、通信インタフェース(図示せず)を介して接続可能なクラウド上に存在する記憶装置であってもよい。プロセッサ201は、種々のプログラムをストレージ203から読み込んで、メモリ202を作業エリアとしてプログラムを実行する。また、受話者推定装置100は、画像を表示するディスプレイを有してもよい。
図2に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図2に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図2に示される第1の記憶部150及び第2の記憶部160は、ストレージ203の一部であってもよい。
入力装置である入力インタフェース204は、図2に示される入力部40である。出力装置である出力インタフェース205は、図2に示される出力部50である。
なお、図2に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《1−2》動作
次に、実施の形態1に係る受話者推定装置100の動作を説明する。図8は、受話者推定装置100の動作を示すフローチャートである。
(ステップS10)
ステップS10において、入力部40は、機器情報B0及び領域状態情報A0を受信する。すなわち、入力部40は、対象機器情報B1及び周辺機器情報B2の少なくとも1つと、音声情報A1及び映像情報A2の少なくとも1つを受信する。
(ステップS20)
ステップS20において、制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を取得(すなわち、生成)する。
制約状態情報取得部110は、予め定められた制約状態項目(例えば、図3の制約状態情報D2における走行状態情報、機器操作情報、席位置情報、など)に基づいて、対象機器情報B1、周辺機器情報B2、音声情報A1、及び映像情報A2、から該当する制約状態項目を取得することによって制約状態情報D2を生成する。また、制約状態情報取得部110は、制約基準データC1を参照し、制約基準データC1から、予め定められた制約状態項目に対応する情報を抽出することによって制約状態情報D2を生成してもよい。
例えば、受話者推定装置100が車内における参加者の会話の受話者を推定する場合、制約状態情報取得部110は、図3に示される制約基準データC1から、制約状態である走行状態情報、機器操作情報、席位置情報、などを取得する。制約状態情報取得部110は、取得した制約状態に対応する制約状態として、周辺機器情報B2から車両の走行状態情報(例えば、走行、停止)又は機器操作情報(例えば、ハンドル操作、アクセル操作、ウィンカー操作)、映像情報A2から車両内における参加者の席位置情報(例えば、運転席、助手席)などを取得する。制約状態情報取得部110は、取得した制約状態を示す情報を、図3に示されるように、時系列に並ぶフレーム毎の情報として提供する。
図9は、受話者推定装置100の制約状態情報取得部110の動作の例を示す図である。図9は、制約状態情報取得部110が、周辺機器情報B2と映像情報A2とから制約状態情報D2を生成する例を示している。図9に示されるように、制約状態情報取得部110は、時系列に並ぶ情報である周辺機器情報B2及び映像情報A2から制約状態項目を抽出することで、制約状態情報D2を生成する。また、図9では、制約状態情報取得部110は、時系列に並ぶフレーム毎に制約状態情報D2を生成しているが、受話者の推定の対象となる発話単位で制約状態情報D2を生成してもよい。この場合、制約状態情報取得部110は、制約状態情報に含まれる値として、発話単位における統計値(例えば、平均値、最大値、代表値など)を用いてもよい。
(ステップS30)
ステップS30において、特徴量抽出部120は、領域状態情報A0から特徴量を抽出することによって特徴量情報D1を生成する。すなわち、特徴量抽出部120は、音声情報A1及び映像情報A2の少なくとも1つから特徴量を抽出することによって特徴量情報D1を生成する。
例えば、特徴量抽出部120は、音声情報A1から、音のピッチ、パワー、スペクトルなどの音声特徴量を抽出する。また、特徴量抽出部120は、映像情報A2から、参加者の顔向き、視線方向、口の開き度合である開口度、などの画像特徴量を抽出する。映像情報A2から画像特徴量を抽出する手法としては、公知の方法を使用することができる。特徴量抽出部120は、抽出した特徴量を、図4に示されるように時系列に対応するフレーム毎に格納することによって、特徴量情報D1を生成してもよい。また、図4では、特徴量抽出部120は、時系列に並ぶフレーム毎に特徴量を抽出しているが、受話者の推定の対象となる発話単位で特徴量を抽出してもよい。この場合、特徴量抽出部120は、特徴量情報D1に含まれる値として、各発話単位における統計値(例えば、平均値、最大値、代表値など)を用いてもよい。
(ステップS40)
ステップS40において、特徴量加工部130は、制約状態情報D2及び制約基準データC1を用いて、特徴量情報D1から加工特徴量情報D3を生成する。
図10は、受話者推定装置100の特徴量加工部130の動作の例を示す図である。図10に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1から得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択することによって加工特徴量情報D3を生成する。図10の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などを含む制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。例えば、特徴量加工部130は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」に設定する。制約の大きさが「大」である場合には、運転者の顔向きなどの身体動作が抑制されるので、特徴量加工部130は、特徴量情報D1から、画像特徴量の「顔向き」の列の情報を削除することによって、加工特徴量情報D3を生成する。また、特徴量加工部130は、制約状態基準項目に応じて選択又は加工される特徴量を予め定めておき、制約の大きさに応じて、特徴量の選定又は加工の方法を決定してもよい。また、特徴量加工部130は、選定される特徴量を制約状態基準項目ごとに予め定めておいてもよい。
図11は、受話者推定装置100の特徴量加工部130の動作の他の例を示す図である。図11に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1とから得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択し、重み付けすることによって加工特徴量情報D3を生成する。図11の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などの制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。例えば、特徴量加工部130は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」、重みを「0.5」に設定する。制約の大きさが「大」、重みが「0.5」である場合には、特徴量加工部130は、制約の大きさと重みに基づいて、特徴量情報D1における画像特徴量の「顔向き」の列の情報に重みを設定することによって、加工特徴量情報D3を生成する。また、特徴量加工部130は、制約状態基準項目に応じて重み付けされる特徴量を予め定めておき、制約の大きさ及び重みに応じて、特徴量の選定又は重み付け処理の方法を決定してもよい。また、特徴量加工部130は、重み付けされる特徴量を制約状態基準項目ごとに予め定めておいてもよい。特徴量加工部130は、設定された重みを、特徴量を表す値を加工するために用いてもよい。また、特徴量加工部130は、設定された重みを、受話者を推定する際に用いる統計モデル又はSVM又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いてもよい。
(ステップS50)
ステップS50において、受話者推定部140は、推定基準データC2を参照して、加工特徴量情報D3から受話者を推定し、推定の結果を示す推定結果情報D4を出力する。つまり、受話者推定部140は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を少なくとも1つを含む加工特徴量情報D3を受け取り、加工特徴量情報D3と推定基準データC2とに基づいて、受話者を推定する。ただし、受話者推定部140は、推定基準データC2を用いないで、加工特徴量情報D3から受話者を推定してもよい。
推定基準データC2は、例えば、参加者の発話時における、発話内容を示す情報、参加者の顔向き、参加者の視線方向、などの加工特徴量情報D3の項目の組み合わせによる受話者の推定のルールが予め定められたデータである、受話者推定部140は、加工特徴量情報D3及び推定基準データC2に基づいて受話者を推定することができる。例えば、受話者推定部140は、参加者による受話者の推定の対象となる発話に、参加者の中の任意の人又はモノを示す情報が含まれている場合、その対象を受話者と推定してもよい。また、受話者推定部140は、特徴量毎に受話者を識別するための閾値を設けておき、閾値に基づいて受話者を推定してもよい。また、受話者推定部140は、加工特徴量情報D3を受け取り、統計モデル、SVM又はニューラルネットワークなどによりモデルを学習して推定基準データC2とし、受話者を推定してもよい。また、受話者推定部140は、その他の公知の受話者、聞き手、発話の受け手などの推定、判定、識別、検出手法を用いて受話者を推定してもよい。
推定結果情報D4は、発話に対する受話者が参加者のうちのいずれかであるかを示す文字列情報、数値情報、参加者の各々が受話者である確率を示す数値情報、などであってもよい。受話者推定部140は、推定結果情報D4を出力部50に提供する。
(ステップS60)
ステップS60において、出力部50は、推定結果情報D4に基づく出力情報D5を出力する。出力部50は、推定結果情報D4に基づく文字列情報、数値情報、受話者を示す画像、などを出力情報D5として出力する。また、出力部50は、参加者の各々が受話者である確率を示す数値情報を出力情報D5として出力してもよい。
《1−3》効果
以上に説明したように、実施の形態1に係る受話者推定装置100、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。例えば、図10又は図11に示されるように、制約状態情報D2に応じて受話者の推定に用いられる加工特徴量情報D3を設定するので、受話者の推定の精度を向上させることができる。
《2》実施の形態2
《2−1》構成
図12は、実施の形態2に係る受話者推定装置200の構成を概略的に示す機能ブロック図である。受話者推定装置200は、実施の形態2に係る受話者推定方法を実施することができる装置である。図12において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態2に係る受話者推定装置200は、特徴量抽出部120が、特徴量としての要件を示すデータである特徴量基準データC3を予め記憶する第3の記憶部170から特徴量基準データC3を取得し、取得された特徴量基準データC3によって示される特徴量としての要件を満たす特徴量を領域状態情報A0から抽出することによって特徴量情報D1を生成する点において、実施の形態1に係る受話者推定装置100と相違する。他の点に関して、実施の形態2に係る受話者推定装置200は、実施の形態1に係る受話者推定装置100と同じである。
実施の形態2において、制約状態情報取得部110は、制約状態情報D2に基づいて特徴量基準データC3を更新する。特徴量基準データC3は、例えば、音声情報A1から音声特徴量を抽出する際又は映像情報A2から画像特徴量を抽出する際に用いられる閾値を示す閾値情報を含む。閾値情報は、第3の記憶部170に入力される制約状態情報D2に応じて更新される。この更新の処理は、例えば、制約状態情報取得部110によって行われる。特徴量抽出部120は、制約状態情報D2に基づいて、顔向き情報又は口の開き度合を示す開口度情報などを画像特徴量として抽出する際に、異なる閾値を用いてもよい。
例えば、受話者推定装置200が車内における参加者の会話の受話者を推定する場合、運転者は、通常の直進走行時には、前方の路面又は先行車などの前方とその周囲の状況に意識を集中することが必要である(すなわち、制約の度合いが大きい)。このため、運転者が発話者である場合、運転者による顔向きの動作は、最小限である。また、運転者が、助手席などにいる他の参加者に話しかける際には、運転者は、受話者に対して一瞬顔を向ける程度であり、顔を受話者に大きく向けることはない。しかし、信号機などの指示にしたがって車両が停車しているときには、運転者による前方とその周囲の状況への注意の程度は低い(すなわち、制約の程度は小さい)。このため、発話者は、受話者に対しては通常走行時の場合より、顔を受話者に大きく向けることが多い。この際、特徴量抽出部120は、画像特徴量として顔向き情報を「左」又は「右」、席位置情報を「助手席」又は「後部座席」などの顔向き対象を表す情報として抽出する場合、直進走行時と停車時とで同様の閾値を用いると、顔向き情報を誤って抽出する場合がある。そこで、特徴量基準データC3に含まれる閾値などの基準データを、制約状態情報D2に含まれる「走行」、「停車」などの走行状態情報又は「右左折」などの機器操作情報に基づいて変更できるようにすることで、特徴量抽出部120は、参加者の状況に応じて適切に特徴量を抽出することができる。
特徴量基準データC3は、特徴量を抽出する際の基準となる閾値情報を数値情報で表したものでもよい。また、特徴量基準データC3は、特徴量抽出モデルのパラメータを表す情報であってもよく、特徴量抽出モデルを制約状態情報D2に応じて学習したものでもよい。
特徴量抽出部120は、音声情報A1又は映像情報A2のいずれか1つを受け取り、特徴量基準データC3を参照して特徴量を抽出することによって、受話者の推定に用いる特徴量情報D1を生成する。特徴量抽出部120は、特徴量情報D1を、特徴量加工部130に提供する。
特徴量基準データC3は、例えば、音声特徴量又は画像特徴量を抽出する際の閾値情報を含むように構成されてもよい。特徴量抽出部120は、この閾値に基づいて特徴量を抽出して、特徴量情報D1を生成してもよい。また、特徴量基準データC3は、特徴量抽出モデルのパラメータを表す情報又は特徴量抽出モデルそのものであってもよい。また、特徴量抽出部120は、特徴量基準データC3におけるパラメータ情報又は特徴量抽出モデルに基づいて特徴量を抽出することによって特徴量情報D1を生成してもよい。
制約状態情報取得部110は、制約状態情報D2に基づいて、受話者の推定に用いる推定基準データC2を更新する。
推定基準データC2は、例えば、参加者の発話時における発話内容、参加者の顔向き、参加者の視線方向、などの加工特徴量情報D3に含まれる音声特徴量又は画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含むように構成される。推定基準データC2における閾値情報は、制約状態情報D2に応じて変更されるように構成されてもよい。受話者推定部140は、例えば、制約状態情報D2に基づいて(すなわち、制約が大きいか小さいかに応じて)、推定基準データC2における参加者の顔向き情報又は参加者の口の開き度合を示す開口度情報について、異なる閾値を用いてもよい。
例えば、受話者推定装置200が車内における参加者の会話の受話者を推定する場合、運転者は、通常の直進走行時には、前方の路面又は先行車などの前方とその周囲の状況に意識を集中する必要があり、顔向きの動作は最小限である。そのため、助手席などの他の参加者に話しかける際も、受話者に対しては一瞬顔を向ける程度であり、あまり顔を受話者に大きく向けることはない。しかし、停車時には、前方とその周囲の状況への注意の程度が低くなり、発話者は、会話の受話者に対しては通常走行時と比較し大きく顔を向ける場合がある。この際、画像特徴量である顔向き情報を「左」又は「右」、席位置情報を「助手席」又は「後部座席」などの顔向き対象を表す情報に変換し受話者の推定で使用する場合、通常の直進走行時と停車時で同様の閾値を用いると、受話者を誤って推定する場合がある。そこで、推定基準データC2に含まれる閾値などの基準データを、制約状態情報D2に含まれる「走行」、「停車」などの走行状態情報又は「右左折」などの機器操作情報に基づいて変更できるようにすることで、参加者の状況に応じた受話者の推定が行える。推定基準データC2は、加工特徴量情報D3を基に受話者を推定するための、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよいし、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよく、モデルは、制約状態情報D2に応じて学習したものでもよい。
図12に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、図7に示されるメモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図2に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図12に示される第1の記憶部150、第2の記憶部160及び第3の記憶部170は、ストレージ203の一部であってもよい。
なお、図12に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《2−2》動作
次に、実施の形態2の受話者推定装置の動作を説明する。図13は、受話者推定装置200の動作を示すフローチャートである。図13において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示される符号と同じ符号が付される。
(ステップS21)
ステップS21において、制約状態情報取得部110は、特徴量基準データC3を、制約状態情報D2を参照して更新する。
特徴量基準データC3は、音声情報A1、映像情報A2から音声特徴量又は画像特徴量を抽出する際の閾値情報又は特徴量抽出モデルのパラメータを表す情報又は特徴量抽出モデルそのものを含むように構成してもよく、閾値情報又はパラメータ情報又は特徴量抽出モデルは、制約状態情報D2に応じて変更することができるようにしてもよい。例えば、顔向き情報又は口の開き度合を示す開口度情報などを画像特徴量として抽出する際に、制約状態情報D2が示す制約の大きさ又は種類に応じて、閾値情報又はパラメータ情報が更新されてもよい。
(ステップS30)
ステップS30において、特徴量抽出部120は、音声情報A1又は映像情報A2のいずれか1つを受け取り、特徴量基準データC3を参照して、特徴量を抽出することによって特徴量情報D1を生成する。
特徴量抽出部120は、音声情報A1から音のピッチ、パワー、スペクトル、などの音声特徴量を抽出する。特徴量抽出部120は、映像情報A2から顔向き、視線方向、口の開き度合を示す開口度、などの画像特徴量を抽出する。音声特徴量、及び画像特徴量などの特徴量情報D1は、公知の特徴量抽出手法を用いて抽出されてもよい。また、特徴量抽出部120は、抽出の際に、特徴量基準データを参照し、特徴量抽出に伴う閾値情報又は特徴量抽出モデルのパラメータ情報又は特徴量抽出モデルそのものを用いてもよい。
特徴量抽出部120は、特徴量情報D1を、図4に示されるように、時系列に対応するフレーム毎に格納した形式で生成し、提供してもよく、また、特徴量の時系列情報の他、受話者の候補である参加者の発話単位での平均値又は分散などの統計値として提供してもよい。特徴量情報D1は、音声情報A1から抽出された音声特徴量、及び映像情報A2から抽出された画像特徴量から少なくとも1つの特徴量を表す文字列情報又は数値情報を含む情報であればよい。
(ステップS41)
ステップS41において、推定基準データC2は、制約状態情報D2を参照し、受話者の推定に用いる基準データを更新する。
推定基準データC2は、例えば、参加者の発話時における発話内容又は顔向き、視線方向などの加工特徴量情報D3に含まれる音声特徴量又は画像特徴量の組み合わせ、受話者の推定を行う際の閾値情報、受話者の推定モデルのパラメータ情報、受話者の推定モデルを含んでもよい。推定基準データC2は、制約状態情報D2に応じて、閾値情報などが更新されてもよい。例えば、制約状態情報D2は、顔向き情報又は口の開き度合を示す開口度情報などを受話者の推定に用いる際に、制約の程度の大きさに応じて、異なる閾値を有してもよい。推定基準データC2は、加工特徴量情報D3を基に受話者を推定するための、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよいし、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよい。モデルは、制約状態情報D2に応じて学習したものであってもよい。
《2−3》効果
以上に説明したように、実施の形態2に係る受話者推定装置200、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。
また、特徴量抽出部120は、予め記憶された特徴量基準データC3を用いて特徴量を抽出するので、適切な特徴量情報D1を生成することができる。さらに、特徴量基準データC3は、制約状態情報D2に基づいて更新されるので、特徴量抽出部120は、より適切な特徴量情報を生成することができる。
また、特徴量基準データC3は、制約状態情報D2に基づいて特徴量抽出時の基準値を定められるようにしたので、参加者の周囲状況などに応じて特徴量抽出に用いる閾値又はモデルを適切に変更、調整、更新、学習することができるという効果がある。
また、制約基準データC1は、制約状態情報D2に基づいて受話者の推定時の基準値を定められるようにしたので、受話者の候補である参加者の周囲状況などに応じて、受話者の推定に用いる特徴量の閾値又はモデルを適切に変更、調整、更新、学習することができるという効果がある。
《3》実施の形態3
《3−1》構成
図14は、実施の形態3に係る受話者推定装置300の構成を概略的に示す機能ブロック図である。受話者推定装置300は、実施の形態3に係る受話者推定方法を実施することができる装置である。図14において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態3に係る受話者推定装置300は、機器情報B0に基づいて対象機器31が表示画面を有するか否かを示す画面有無情報F1を取得する画面有無情報取得部180をさらに有し、特徴量加工部130が制約状態情報D2、制約基準データC1、及び画面有無情報F1に基づいて加工特徴量情報D3を生成する点において、実施の形態1に係る受話者推定装置100と相違する。他の点に関して、実施の形態3に係る受話者推定装置300は、実施の形態1に係る受話者推定装置100と同じである。
画面有無情報取得部180は、機器情報B0のうちの対象機器情報B1に基づいて画面有無情報F1を取得する。対象機器31は、例えば、カーナビゲーションシステム又はスマートスピーカなどである。画面有無情報取得部180は、対象機器情報B1に含まれる基本スペック情報又は対象機器31に備えられるユーザ操作部(例えば、タッチパネル)による入力情報などに基づいて対象機器31が表示画面(例えば、図1に示される表示画面33)を有するか否かを判別し、判別の結果を示す画面有無情報F1を生成する。
特徴量加工部130は、制約状態情報D2、特徴量情報D1、及び画面有無情報F1を受け取り、制約基準データC1を参照し、特徴量情報D1から受話者の推定に用いる特徴量を選択し、又は選択及び加工する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
受話者推定装置300が車内における参加者の会話の受話者を推定する場合、発話者はカーナビゲーションシステムのような表示画面がある機器に対しては顔を向ける傾向が高い。逆に、発話者はスマートスピーカのような表示画面がない機器に対しては顔を向ける傾向は低い。したがって、受話者推定装置300は、対象機器が表示画面を有する場合には顔向き情報を受話者の推定の特徴量として使用し、対象機器が表示画面を有しない場合には顔向き情報を受話者の推定の特徴量として使用しない。あるいは、受話者推定装置300は、対象機器が表示画面を有する場合には顔向き情報を受話者の推定の特徴量として使用し且つ重みを大きな値に設定し、対象機器が表示画面を有しない場合には顔向き情報を受話者の推定の特徴量として使用し且つ重みを小さな値に設定する。
例えば、受話者推定装置300は、制約状態情報D2に加えて、画面有無情報F1を用いて、制約基準データC1を参照して取得した制約状態基準項目(例えば、図5に示される)に基づいて、特徴量情報D1の任意の情報を選択、又は重み付けしたものを加工特徴量情報D3としてもよい。制約状態情報D2に基づいて、制約基準データC1から制約状態基準項目を取得する例は、図5に示されているが、制約状態情報D2は、走行状態情報、機器操作情報、席位置情報の情報に加えて画面有無情報F1を制約状態情報として含んでもよい。例えば、制約状態情報取得部110は、制約状態情報D2に基づいて制約状態基準項目を取得する場合、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、画面有無情報F1が「無」である場合に、制約基準データC1に示されるルールにしたがって、参加者の制約の大きさを「大」と設定してもよい。
図14に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、図7に示されるメモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図14に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図12に示される第1の記憶部150、第2の記憶部160及び第3の記憶部170は、ストレージ203の一部であってもよい。
なお、図14に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《3−2》動作
次に、実施の形態3に係る受話者推定装置300の動作を説明する。図15は、受話者推定装置300の動作を示すフローチャートである。図15において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示される符号と同じ符号が付される。
(ステップS11)
ステップS11において、画面有無情報取得部180は、対象機器情報B1を参照して、画面有無情報F1を取得する。
(ステップS40)
ステップS40において、特徴量加工部130は、制約状態情報D2、画面有無情報F1、及び制約基準データC1を用いて、特徴量情報D1から加工特徴量情報D3を生成する。
特徴量加工部130は、制約状態情報D2と、画面有無情報F1と、制約基準データC1から得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択することによって加工特徴量情報D3を生成する。加工特徴量情報D3は、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、画面有無情報F1が「無」である場合、参加者の制約を「大」に設定する。制約が大きい場合、顔向きなどの身体動作が抑制されるので、特徴量情報D1から、画像特徴量の「顔向き」列を削除して、加工特徴量情報D3を生成する。特徴量加工部130は、制約状態基準項目に応じて選択又は加工される特徴量を予め定めておき、制約の大きさに応じて、特徴量の選定又は加工の方法を決定してもよい。また、特徴量加工部130は、選定される特徴量を制約状態基準項目ごとに予め定めておいてもよい。
また、特徴量加工部130は、制約状態基準項目に応じて重み付けされる特徴量を予め定めておき、制約の大きさ及び重みに応じて、特徴量の選定又は重み付け処理の方法を決定してもよい。また、特徴量加工部130は、重み付けされる特徴量を制約状態基準項目ごとに予め定めておいてもよい。特徴量加工部130は、設定された重みを、特徴量を表す値を加工するために用いてもよい。また、特徴量加工部130は、設定された重みを、受話者を推定する際に用いる統計モデル又はSVM又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いてもよい。
《3−3》効果
以上に説明したように、実施の形態3に係る受話者推定装置300、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。
また、対象機器31が表示画面を有しているか否かにより、会話時における参加者の行動が変化する場合に、行動の変化に応じて適切に特徴量の選択及び加工(例えば、重み付け)を行うことができ、受話者の推定の精度を向上させることができるという効果がある。
また、特徴量加工部130は、制約状態情報D2に加え画面有無情報F1を制約状態情報とし、制約基準データを参照し特徴量の選択及び加工を行うようにしたので、参加者の制約状態をより詳細に設定することで、参加者の状態に応じた適切な特徴量を選択することができるという効果がある。
《4》実施の形態4
《4−1》構成
図16は、実施の形態4に係る受話者推定装置400の構成を概略的に示す機能ブロック図である。受話者推定装置400は、実施の形態4に係る受話者推定方法を実施することができる装置である。図16において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態4に係る受話者推定装置400は、参加者の互いの関係を示す情報である参加者情報G1を受け取り、参加者情報G1に基づいて参加者の互いの親密度を示す親密度情報G2を生成する親密度取得部190をさらに有し、特徴量加工部130は、制約状態情報D2、制約基準データC1、及び親密度情報G2に基づいて加工特徴量情報D3を生成する点において、実施の形態1に係る受話者推定装置100と相違する。他の点に関して、実施の形態4に係る受話者推定装置400は、実施の形態1に係る受話者推定装置100と同じである。
図16に示される親密度取得部190は、参加者情報G1を受け取り、参加者情報G1に基づいて親密度情報G2を生成する。
参加者情報G1は、予め参加者同士の関係性を表す情報を記憶している記憶部(図示せず)から提供される。この記憶部は、図7に示されるストレージ203であってもよい。また、参加者情報G1は、ネットワーク上のサーバから提供されてもよい。また、参加者情報G1は、ユーザ操作を受け付けるキーボードなどのユーザ操作装置から入力されてもよい。参加者同士の関係性を表す情報は、例えば、「上司と部下」のような上下関係のある関係性、「家族」のような親密性の高い関係性、などである。参加者情報G1は、参加者同士の関係性を文字列情報として表したもの、参加者の親密度を数値であらわしたもの、などであってもよい。
親密度取得部190は、参加者情報G1に含まれる参加者同士の関係性を表す情報に基づいて、親密度情報G2を生成する。親密度情報G2は、例えば、参加者情報G1に含まれる参加者同士の関係性を表す文字列情報を数値情報に置換したものである。また、親密度情報G2は、例えば、参加者同士の関係性を表す情報に基づいて、親密度の程度(例えば、「高」「低」など)を表した情報でもよい。また、親密度取得部190は、参加者情報G1に含まれる参加者同士の関係性を表す数値列情報に基づいて、親密度を計算することによって親密度情報G2を生成してもよい。親密度情報G2は、例えば、参加者の親密度を表す文字列情報、又は数値情報、又はこれらの両方を含んでいる。
特徴量加工部130は、制約状態情報D2、特徴量情報D1、及び親密度情報G2を受け取り、制約基準データC1を参照し、特徴量情報D1から受話者の推定に用いる特徴量を選択及び加工する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
一般的に、親密度が高い参加者同士であると、会話の際に発話に伴う動作を怠けやすくなり、上下関係があるなどで親密度が低い場合、発話の際の行動は動作を伴ったものとなりやすい。この際、親密度の違いによらず同様の特徴量情報を受話者の推定の特徴量として使用すると、受話者を誤って推定する可能性が高い。そこで、特徴量加工部130は、制約状態情報D2に加え、親密度情報G2を制約状態情報として用いて、制約基準データC1を参照して取得した制約状態基準項目に基づいて、特徴量情報D1の任意の特徴量情報を選択、又は重み付けしたものを加工特徴量情報D3とする。また、特徴量加工部130は、親密度情報G2に含まれる参加者の親密度を表す情報として、親密度の程度を表す情報(例えば、「高」又は「低」)をそのまま用いてもよい。また、特徴量加工部130は、親密度情報G2に含まれる参加者の親密度を表す情報が、親密度が数値情報で表されている場合、その数値が指定の値の範囲(例えば、「0.5<親密度<1.0」)に入っているかを判定し、この条件を満たす場合の制約状態情報D2を加工特徴量の算出に用いてもよい。
図17は、実施の形態4の変形例に係る受話者推定装置500の構成を概略的に示す機能ブロック図である。図17において、図16に示される構成要素と同一又は対応する構成要素には、図16に示される符号と同じ符号が付される。受話者推定装置500は、受話者の推定に用いられる推定基準データC2が親密度情報G2に基づいて更新される点において、受話者推定装置400と相違する。他の点に関して、受話者推定装置500は、受話者推定装置400と同じである。
図17における推定基準データC2は、例えば、加工特徴量情報D3に含まれる音声特徴量及び画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含んでいる。閾値情報は、親密度情報G2に応じて更新されてもよい。推定基準データC2は、基準となる閾値情報又はルールを数値又は文字列情報で表したものである。推定基準データC2は、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよい。推定基準データC2は、親密度情報G2に基づいて加工又は学習したものであってもよい。
図16又は図17に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、図7に示されるメモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図16又は図17に示される構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図16又は図17に示される第1の記憶部150及び第2の記憶部160は、ストレージ203の一部であってもよい。
なお、図16又は図17に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《4−2》動作
次に、実施の形態4に係る受話者推定装置400の動作を説明する。図18は、受話者推定装置400の動作を示すフローチャートである。図18において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示される符号と同じ符号が付される。
(ステップS31)
ステップS31において、親密度取得部190は、参加者情報G1に基づいて親密度情報G2を取得(すなわち、生成)する。
親密度取得部190は、例えば、予め設定された参加者同士の関係性を表す情報又は操作機器から直接入力された参加者同士の関係性を表す情報を含む参加者情報G1から、親密度情報G2を抽出する。参加者情報G1には、例えば、「上司と部下」のような上下関係を表す情報又は「家族」のような親密性の高い関係性を表す情報を含んでもよく、これらの関係性を文字列情報として表したもの又はそれぞれの参加者の親密度を表す数値として表現してもよい。親密度を示す数値が大きいほど、親密度は高い。例えば、「上司と部下」であれば、上司の親密度を「0.3」、部下の親密度を「0.2」として各値を参加者同士の関係性を表す値として参加者情報G1としてもよい。また、「家族」であれば親の親密度を「0.8」、子の親密度を「0.7」としてもよい。これらの情報を、数値列情報として参加者情報G1としてもよい。
親密度取得部190で抽出する親密度情報G2は、参加者情報G1に参加者同士の関係性を表す文字列情報が含まれている場合、それを予め設定したルールに基づいて数値情報に置換してもよい。例えば、親密度取得部190は、「上司と部下」の場合には親密度を「0.5」、「家族」の場合には親密度を「1.5」のように設定することで親密度情報G2を生成してもよい。また、親密度情報G2は、参加者同士の関係性を表す情報から、親密度の程度を表した情報でもよい。例えば、親密度取得部190は、「上司と部下」であれば親密度「低」、「家族」であれば親密度「高」と設定してもよい。また、親密度情報G2は、参加者情報G1に参加者同士の関係性を表す数値列情報が含まれている場合、数値列に基づいて親密度を計算してもよい。例えば、親密度取得部190は、「上司と部下」の関係性を表す値として上司の親密度「0.3」、部下の親密度「0.2」のように値が設定された数値列情報であった場合、親密度を加算し、上司と部下の親密度「0.5」のように親密度情報G2を設定してもよい。親密度情報G2は、参加者の親密度を表す文字列情報、又は数値情報を含む。親密度取得部190は、親密度情報G2を特徴量加工部130に提供する。また、親密度取得部190は、親密度情報G2を第2の記憶部160に提供し、推定基準データC2を更新する。
(ステップS32)
ステップS32において、推定基準データC2は、親密度情報G2に基づいて、受話者の推定に用いる基準データ情報が更新される。
推定基準データC2は、例えば、加工特徴量情報D3に含まれる音声特徴量又は画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含んでいる。閾値情報は、親密度情報G2に応じて更新されてもよい。例えば、親密度情報G2に基づいて、顔向き情報又は口の開き度合を示す開口度情報などを受話者の推定に用いられる閾値として、異なる閾値が設定されてもよい。また、親密度が高い場合、人は会話時の動作を怠ける傾向があるため、その際は顔向き情報を用いるときの閾値が下がるように設定されてもよい。推定基準データC2は、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよく、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよく、それらの基準データは親密度情報G2に基づいて加工又は学習を行ってもよい。
(ステップS40)
ステップS40において、特徴量加工部130は、制約状態情報D2と、親密度情報G2と、制約基準データC1とを参照し、特徴量情報D1を選択及び加工し、加工特徴量情報D3として出力する。
特徴量加工部130は、制約状態情報D2に加え、親密度情報G2を制約状態情報として用いて、制約基準データC1を参照して取得した制約状態基準項目に基づいて、特徴量情報D1の任意の特徴量情報を選択、又は重み付けすることによって、加工特徴量情報D3を生成する。制約状態情報D2に基づいて、制約基準データC1から制約状態基準項目を取得する例は、図5の場合と同様である。親密度情報を用いた場合、例えば、図5では、走行状態情報、機器操作情報、席位置情報、親密度などの制約状態項目を予め含む情報としてもよい。これらの制約状態項目に基づいて制約状態基準項目を取得する場合、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、親密度が「高」である場合、制約基準データC1に示されるようなルールとの一致により、参加者の制約の大きさは「大」に設定されてもよい。
また、親密度情報G2に含まれる参加者の親密度を表す情報は、親密度の程度を表す情報(「高」又は「低」)をそのまま制約状態項目に含んでもよい。また、親密度が数値情報で表されている場合、その数値が指定の値の範囲(例えば、「0.5<親密度<1.0」)に入っているかを示す情報を制約状態項目としてもよい。また、親密度情報G2に含まれる親密度を表す数値情報を用いて特徴量情報D1に重み付け処理を行う場合、制約基準データC1から制約状態基準項目を取得する例である図6の場合と同様に、制約基準データC1、603の各制約状態基準項目に設定された重みを、親密度を表す数値情報を用いて加工してもよい。例えば、重み「0.5」を取得した場合、親密度情報G2に設定された親密度「0.5」を加算、減算、乗算、除算などを用いて重みの値を調整してもよい。
《4−3》効果
以上に説明したように、実施の形態4に係る受話者推定装置400又は500、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。
また、親密度取得部190を備えるようにしたことで、参加者の親密度により会話時の発話に伴う行動が変化する場合に、受話者の推定に用いる特徴量を適切に選択及び加工することができ、受話者の推定の精度を向上させることができるという効果がある。
また、特徴量加工部130は、制約状態情報D2に加え親密度情報G2を制約状態情報とし、制約基準データを参照し特徴量選択及び加工を行うようにしたので、参加者の制約状態をより詳細に設定することで、参加者の親密度に応じた適切な特徴量を選択することができるという効果がある。
また、推定基準データC2を参加者の親密度情報G2に基づいて、更新できるようにしたので、参加者の親密度の違いにより会話時の行動に変化が生じた場合でも、参加者の親密度に応じて適切な特徴量の閾値又はモデルを、特徴量抽出又は受話者の推定に用いることができ、受話者の推定の精度を向上させることができるという効果がある。
《5》変形例
上記実施の形態では、第1の記憶部150、第2の記憶部160、及び第3の記憶部170が受話者推定装置の一部として示されているが、これらは、受話者推定装置に接続された外部の記憶装置又は受話者推定装置に備えられた通信装置によって通信可能なネットワーク上のサーバに備えられた記憶装置であってもよい。
10 領域、 11,12,… 参加者、 20 状態取得部、 21 音声取得部、 22 映像取得部、 30 機器、 31 対象機器、 32 周辺機器、 33 表示画面、 40 入力部、 50 出力部、 100、200、300、400、500 受話者推定装置、 110 制約状態情報取得部、 120 特徴量抽出部、 130 特徴量加工部、 140 受話者推定部、 150 第1の記憶部、 160 第2の記憶部、 170 第3の記憶部、 180 画面有無情報取得部、 190 親密度取得部、 A0 領域状態情報、 A1 音声情報 A2 映像情報、 B0 機器情報、 B1 対象機器情報、 B2 周辺機器情報、 C1 制約基準データ、 C2 推定基準データ、 C3 特徴量基準データ、 D1 特徴量情報、 D2 制約状態情報、 D3 加工特徴量情報、 D4 推定結果情報、 D5 出力情報。

Claims (17)

  1. 発話者が発する音声の受話者を推定する受話者推定装置であって、
    状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、
    音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、
    前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、
    前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、
    を有することを特徴とする受話者推定装置。
  2. 前記状態取得部は、前記領域内における音声を取得することによって音声情報を生成する音声取得部と、前記領域内の映像を撮影することによって映像情報を生成する映像取得部とを有し、
    前記領域状態情報は、前記音声情報及び前記映像情報のうちの少なくとも1つを含む
    ことを特徴とする請求項1に記載の受話者推定装置。
  3. 前記音声情報は、前記音声の音圧を示す情報、前記音声の基本周波数成分を示す情報、及び前記音声のスペクトルのうちの少なくとも1つを含むことを特徴とする請求項2に記載の受話者推定装置。
  4. 前記映像情報は、前記参加者の座席の位置を示す情報、前記参加者の顔向きを示す情報、前記参加者の視線方向を示す情報、及び前記参加者の口の開口度を示す情報のうちの少なくとも1つを含むことを特徴とする請求項2又は3に記載の受話者推定装置。
  5. 前記機器は、前記対象機器の他に、前記参加者によって操作される周辺機器を含むことを特徴とする請求項1から4のいずれか1項に記載の受話者推定装置。
  6. 前記機器状態情報は、前記周辺機器の状態及び前記周辺機器に対して実行された操作のうちの少なくとも1つを含むことを特徴とする請求項5に記載の受話者推定装置。
  7. 前記加工特徴量情報は、前記特徴量抽出部によって生成された前記特徴量情報から選択された前記1つ以上の特徴量を含む情報であることを特徴とする請求項1から6のいずれか1項に記載の受話者推定装置。
  8. 前記加工特徴量情報は、前記特徴量抽出部によって生成された前記特徴量情報から選択された前記1つ以上の特徴量と、前記1つ以上の特徴量の各々の重みとを含む情報であることを特徴とする請求項1から6のいずれか1項に記載の受話者推定装置。
  9. 前記受話者推定部は、
    前記参加者のいずれか1人が発話するときの前記参加者が存在する領域内の状態を示す推定基準データを予め記憶している第2の記憶部から前記推定基準データを取得し、
    前記推定基準データと前記加工特徴量情報とに基づいて前記受話者を推定する
    ことを特徴とする請求項1から8のいずれか1項に記載の受話者推定装置。
  10. 前記受話者推定部は、前記対象機器及び前記参加者のうちの前記発話者以外の人の中から、前記受話者を推定することを特徴とする請求項1から9のいずれか1項に記載の受話者推定装置。
  11. 前記特徴量抽出部は、
    前記特徴量としての要件を示すデータである特徴量基準データを予め記憶する第3の記憶部から前記特徴量基準データを取得し、
    前記特徴量基準データによって示される前記特徴量としての前記要件を満たす特徴量を前記領域状態情報から抽出することによって前記特徴量情報を生成する
    ことを特徴とする請求項1から10のいずれか1項に記載の受話者推定装置。
  12. 前記特徴量基準データは、前記制約状態情報に基づいて更新されることを特徴とする請求項11に記載の受話者推定装置。
  13. 前記機器状態情報に基づいて前記対象機器が表示画面を有するか否かを示す画面有無情報を取得する画面有無情報取得部をさらに有し、
    前記特徴量加工部は、前記制約状態情報、前記制約基準データ、及び前記画面有無情報に基づいて前記加工特徴量情報を生成する
    ことを特徴とする請求項1から12のいずれか1項に記載の受話者推定装置。
  14. 前記参加者の互いの関係を示す情報である参加者情報を受け取り、前記参加者情報に基づいて前記参加者の互いの親密度を示す親密度情報を取得する親密度取得部をさらに有し、
    前記特徴量加工部は、前記制約状態情報、前記制約基準データ、及び前記親密度情報に基づいて前記加工特徴量情報を生成する
    ことを特徴とする請求項1から13のいずれか1項に記載の受話者推定装置。
  15. 前記参加者の互いに関係を示す情報である参加者情報を受け取り、前記参加者情報に基づいて前記参加者の互いの親密度を示す親密度情報を取得する親密度取得部をさらに有し、
    前記推定基準データは、前記親密度情報に基づいて更新される
    ことを特徴とする請求項9に記載の受話者推定装置。
  16. 発話者が発する音声の受話者を推定する受話者推定装置が実施する受話者推定方法であって、
    状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
    音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
    前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
    前記加工特徴量情報に基づいて前記受話者を推定するステップと、
    を有することを特徴とする受話者推定方法。
  17. 発話者が発する音声の受話者を推定する処理をコンピュータに実行させる受話者推定プログラムであって、
    状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する処理と、
    音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する処理と、
    前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する処理と、
    前記加工特徴量情報に基づいて前記受話者を推定する処理と、
    を前記コンピュータに実行させることを特徴とする受話者推定プログラム。
JP2021521651A 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム Active JP6945767B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021287 WO2020240730A1 (ja) 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2020240730A1 JPWO2020240730A1 (ja) 2021-09-30
JP6945767B2 true JP6945767B2 (ja) 2021-10-06

Family

ID=73552773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521651A Active JP6945767B2 (ja) 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Country Status (2)

Country Link
JP (1) JP6945767B2 (ja)
WO (1) WO2020240730A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7309095B2 (ja) * 2021-05-20 2023-07-14 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079427A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 携帯情報機器
JP4804801B2 (ja) * 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
JP5235722B2 (ja) * 2009-03-02 2013-07-10 日本電信電話株式会社 発話向き推定装置、方法及びプログラム
CN104539873B (zh) * 2015-01-09 2017-09-29 京东方科技集团股份有限公司 远程会议系统和进行远程会议的方法
WO2019097674A1 (ja) * 2017-11-17 2019-05-23 日産自動車株式会社 車両用操作支援装置
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム
JP2020095121A (ja) * 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Also Published As

Publication number Publication date
WO2020240730A1 (ja) 2020-12-03
JPWO2020240730A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
JP6869339B2 (ja) 音声認識のためのシステム及び方法
US10943400B2 (en) Multimodal user interface for a vehicle
US20180204572A1 (en) Dialog device and dialog method
US10872603B2 (en) Dialog device and dialog method
US10929652B2 (en) Information providing device and information providing method
US20190279629A1 (en) Speech system
JP2019164345A (ja) サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法
JP6713490B2 (ja) 情報提供装置及び情報提供方法
US11995536B2 (en) Learning device, estimating device, estimating system, learning method, estimating method, and storage medium to estimate a state of vehicle-occupant with respect to vehicle equipment
JP2020109578A (ja) 情報処理装置及びプログラム
KR20190056720A (ko) 뉴럴 네트워크 학습 방법 및 디바이스
CN107825429A (zh) 对话装置和方法
JP6552548B2 (ja) 地点提案装置及び地点提案方法
JP6945767B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP2020068973A (ja) 感情推定統合装置、感情推定統合方法およびプログラム
JP2019101472A (ja) 感情推定装置
CN112988990A (zh) 信息提供装置、信息提供方法及存储介质
JP7309095B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP2019053785A (ja) サービス提供装置
US20220227375A1 (en) Information processing device, information processing method, computer readable medium, and map storage device
JP2016095705A (ja) 不明事項解消処理システム
CN114296680B (zh) 基于面部图像识别的虚拟试驾装置、方法和存储介质
WO2023210171A1 (ja) 音声対話装置及び音声対話方法
JP2023162857A (ja) 音声対話装置及び音声対話方法
JP2021108072A (ja) レコメンドシステム、レコメンド方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210514

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210914

R150 Certificate of patent or registration of utility model

Ref document number: 6945767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150