JP7309095B2 - 受話者推定装置、受話者推定方法、及び受話者推定プログラム - Google Patents

受話者推定装置、受話者推定方法、及び受話者推定プログラム Download PDF

Info

Publication number
JP7309095B2
JP7309095B2 JP2023514700A JP2023514700A JP7309095B2 JP 7309095 B2 JP7309095 B2 JP 7309095B2 JP 2023514700 A JP2023514700 A JP 2023514700A JP 2023514700 A JP2023514700 A JP 2023514700A JP 7309095 B2 JP7309095 B2 JP 7309095B2
Authority
JP
Japan
Prior art keywords
information
state
constraint
feature amount
listener
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023514700A
Other languages
English (en)
Other versions
JPWO2022244178A1 (ja
Inventor
咲子 二本柳
啓吾 川島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022244178A1 publication Critical patent/JPWO2022244178A1/ja
Application granted granted Critical
Publication of JP7309095B2 publication Critical patent/JP7309095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、受話者推定装置、受話者推定方法、及び受話者推定プログラムに関する。
会話の参加者の映像情報及び音声情報などに基づいて発話者が発する音声の受け手である受話者を推定する受話者推定装置の提案がある。例えば、特許文献1を参照。この技術を用いれば、発話者が意図する受話者を推定することができる。受話者は、例えば、発話者以外の参加者又は音声操作を受け付けることができる機器である。
国際公開第2020/240730号
しかしながら、上記受話者推定装置において、受話者の推定精度を向上させたいという要求がある。
本開示は、受話者の推定精度を向上させることができる受話者推定装置、受話者推定方法、及び受話者推定プログラムを提供することを目的とする。
本開示の受話者推定装置は、発話者が発する音声の受話者を推定する装置であって、
状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する予備動作情報選択部と、前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、を有することを特徴とする。
本開示の受話者推定方法は、発話者が発する音声の受話者を推定する受話者推定装置によって実行される方法であって、状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、前記加工特徴量情報に基づいて前記受話者を推定するステップと、を有することを特徴とする。
本開示によれば、受話者の推定精度を向上させることができる。
実施の形態1に係る受話者推定システムの構成を概略的に示す図である。 実施の形態1に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る受話者推定装置のハードウェア構成の例を示す図である。 実施の形態1に係る受話者推定装置の動作を示すフローチャートである。 図1に示される制約状態情報取得部の動作の例を示す図である。 図1に示される特徴量抽出部の動作の例を示す図である。 図1に示される予備動作条件データの例を示す図である。 図1に示される予備動作条件データの他の例を示す図である。 図1に示される予備動作情報選択部の動作の例を示す図である。 図1に示される特徴量加工部の動作の例を示す図である。 図1に示される特徴量加工部の動作の他の例を示す図である。 実施の形態2に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態2に係る受話者推定装置の動作を示すフローチャートである。 図12に示される予備動作種別取得部の動作を示す図である。 図12に示される予備動作情報選択部の動作の例を示す図である。
以下に、実施の形態に係る受話者推定装置、受話者推定方法、及び受話者推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。
《1》実施の形態1
《1-1》構成の概要
〈受話者推定システム〉
図1は、実施の形態1に係る受話者推定システムの構成を概略的に示す図である。受話者推定システムは、状態取得部20と、機器30と、入力部40と、受話者推定装置100と、出力部50とを有する。入力部40及び出力部50は、受話者推定装置100の一部であってもよい。入力部40は、信号を受信する入力装置としての入力インタフェースである。出力部50は、信号を出力する出力装置としての出力インタフェースである。
受話者推定装置100は、1人以上の会話の参加者のうちのいずれか1人である発話者が発する音声の受話者すなわち発話者が意図する受話者を推定する。参加者は、予め決められた領域10に存在する。会話の参加者は、例えば、複数の参加者11,12,…である。発話者が、音声操作を受け付ける対象機器31に宛てた音声(例えば、音声操作のための音声メッセージ)を発する場合には、会話の参加者は発話者である1名の参加者であってもよい。受話者推定システムは、例えば、車両に搭載される車両用のシステムである。領域10は、例えば、車両の車室である。参加者は、例えば、車両の運転者と同乗者である。
状態取得部20は、領域10内の状態を示す領域状態情報A0を取得し、領域状態情報A0を入力部40に送信する。状態取得部20は、例えば、領域10内における音声を取得することによって音声情報A1を生成する音声取得部21と、領域10内の映像を撮影することによって映像情報A2を生成する映像取得部22とを有する。音声取得部21は、例えば、1台以上のマイクを有する。映像取得部22は、例えば、1台以上のカメラを有する。領域状態情報A0は、音声情報A1及び映像情報A2の少なくとも1つを含む情報である。音声情報A1は、参加者である発話者が発する音声(すなわち、発話者の発話)に基づく情報である。映像情報A2は、発話者を含む参加者を撮影することによって取得された動画像又は静止画像の情報である。映像情報A2は、例えば、参加者の発話時における振る舞いを含む動画像又は静止画像の情報である。例えば、映像情報A2は、参加者の顔又は参加者の身体の全体の動作を示す画像の情報である。映像情報A2は、時系列に並ぶ複数フレームの画像から構成される動画像の情報であってもよい。
機器30は、機器30自身の状態を示す機器情報(「機器状態情報」ともいう。)B0を入力部40に送信する。機器30は、例えば、参加者によって操作される対象機器31と、参加者によって操作される周辺機器32とを有する。対象機器31は、音声による指示に従って動作する音声操作機能を有する機器(「音声対話機器」とも称される。)である。対象機器31は、例えば、車両内に備えられたカーナビゲーションシステムを含む車載機器又は対話型の音声操作に対応したスピーカであるスマートスピーカである。対象機器情報B1は、例えば、地図情報を利用可能なカーナビゲーションシステムにおける測位装置であるGPS(Global Positioning System)によって計測されるGPS情報などの現在地情報、走行経路に関する案内音声情報、などを含んでもよい。対象機器31は、表示画面33を有してもよい。
周辺機器32は、対象機器31以外の機器である。周辺機器32は、例えば、車両自体又は車両の一部である。周辺機器32は、車両の車室などの参加者の会話の場(すなわち、領域10)の周囲に存在する機器である。周辺機器32は、参加者のいずれかによって操作されたときに、参加者の行動を制約する状態が生じ得る機器である。参加者の行動は、例えば、参加者の姿勢及び動作(すなわち、動き)を含む。参加者の行動は、参加者の振る舞いとも称される。また、参加者の行動を制約する状態は、例えば、参加者の座席の位置、参加者が機器30を操作している状態、参加者が前方を注視している状態、などを含む。周辺機器情報B2は、領域10の周囲に存在する周辺機器32の状態を表す情報を少なくとも含む。例えば、周辺機器情報B2は、周辺機器32が自動車であれば車速及びハンドル操作情報を含むCAN(Controller Area Network)情報、走行状態を示す走行状態情報、などを含む。走行状態情報は、車両が走行中である状態、車両が停車中である状態、などを含む。
対象機器31は、対象機器31自身の状態を示す対象機器情報B1を入力部40に送信する。周辺機器32は、周辺機器32自身の状態を示す周辺機器情報B2を入力部40に送信する。機器情報B0は、対象機器情報B1及び周辺機器情報B2の少なくとも1つを含む情報である。
受話者推定装置100は、機器情報B0、領域状態情報A0、及び予め記憶された各種の基準データ(例えば、後述の図2に示されるC1、C2など)に基づいて、発話者が意図する受話者を推定し、推定された受話者を示す情報を含む推定結果情報D4を出力する。受話者推定装置100は、受話者の推定に用いられる加工特徴量情報(後述の図2に示されるD3)の取得のために、参加者の行動を制約する制約状態項目を含む制約状態情報(後述の図2に示されるD2)を考慮に入れる。つまり、制約状態情報は、複数の制約状態項目を含む。制約状態項目は、例えば、発話者の座席の位置、発話者が機器30を操作している状態、発話者が前方を注視している状態、などを含む。図1の例では、受話者は、参加者のうちの発話者以外の参加者又は対象機器31である。
出力部50は、推定結果情報D4に基づく出力情報D5を出力する。例えば、受話者が対象機器31であると推定された場合、出力部50は、対象機器31に、受話者が対象機器31であることを示す出力情報D5を送信する。出力情報D5を受信した対象機器31は、発話者が発する音声が自己に対する音声操作であると判断し、音声操作に従って動作することができる。一方、対象機器31は、受話者が対象機器31であることを示す出力情報D5を受信しない場合又は受話者が対象機器31でないことを示す出力情報D5を受信した場合には、発話者が発する音声が自己に対する音声操作ではないと判断することができる。
〈受話者推定装置100〉
図2は、実施の形態1に係る受話者推定装置100の構成を概略的に示す機能ブロック図である。受話者推定装置100は、実施の形態1に係る受話者推定方法を実施することができる装置である。図2に示されるように、受話者推定装置100は、制約状態情報取得部110と、制約基準データC1を記憶する第1の記憶部150と、特徴量抽出部120と、特徴量加工部130と、受話者推定部140と、予備動作情報選択部160と、予備動作条件データC2を記憶する第2の記憶部170とを有する。受話者推定装置100は、入力部40を介して受け取った機器情報B0及び領域状態情報A0と、予め記憶された各種の基準データである制約基準データC1及び予備動作条件データとに基づいて受話者を推定するための処理を行い、推定の結果を示す推定結果情報D4を出力する。出力部50は、推定結果情報D4に基づく出力情報D5を出力する。第1の記憶部150と第2の記憶部170とは、互いに異なる記憶装置であってもよい。第1の記憶部150と第2の記憶部170とは、同じ記憶装置の中の互いに異なる記憶領域であってもよい。
図3は、実施の形態1に係る受話者推定装置100のハードウェア構成の例を示す図である。受話者推定装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態1に係る受話者推定プログラムを格納する記憶装置としてのメモリ202と、メモリ202に格納されたプログラムを実行する情報処理部としてのプロセッサ201とを備える。受話者推定装置100は、汎用のコンピュータであってもよい。プロセッサ201は、演算装置である。演算装置は、CPU(Centaral Processiong Unit)を有する。演算装置は、CPUに加えてGPU(Graphics Processing Unit)を有してもよい。演算装置は、時刻情報を提供する時刻提供機能を備えてもよい。
受話者推定プログラムは、情報を記憶する記憶媒体から媒体読取装置(図示せず)を介して又はインターネットなどに接続可能な通信インタフェース(図示せず)を介してメモリ202に格納される。また、受話者推定装置100は、データベースなどの各種情報を格納する記憶装置であるストレージ203を有してもよい。ストレージ203は、通信インタフェース(図示せず)を介して接続可能なクラウド上に存在する記憶装置であってもよい。プロセッサ201は、種々のプログラムをストレージ203から読み込んで、メモリ202を作業エリアとしてプログラムを実行する。また、受話者推定装置100は、画像を表示するディスプレイを有してもよい。
図2に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図2に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図2に示される第1の記憶部150及び第2の記憶部170は、ストレージ203の一部であってもよい。
入力装置である入力インタフェース204は、図2に示される入力部40である。出力装置である出力インタフェース205は、図2に示される出力部50である。
なお、図2に示される入力部40、制約状態情報取得部110、特徴量抽出部120、予備動作情報選択部160、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
図4は、受話者推定装置100の動作を示すフローチャートである。入力部40は、機器情報B0及び領域状態情報A0を入力情報として受信する。機器情報B0及び領域状態情報A0は、受話者推定装置100に提供される。機器情報B0は、対象機器情報B1、又は周辺機器情報B2、又はこれらの両方を含む。領域状態情報A0は、音声情報A1、又は映像情報A2、又はこれらの両方を含む。入力部40は、受信された機器情報B0及び領域状態情報A0を、制約状態情報取得部110に提供する。また、入力部40は、領域状態情報A0を特徴量抽出部120に提供する。
制約状態情報取得部110は、発話者を含む1人以上の参加者が存在する領域10内の状態を示す領域状態情報A0を取得し、音声による操作を受け付ける対象機器31を含む機器30の状態を示す機器情報B0を取得し、領域10内において参加者の行動を制約する状態を示すデータである制約基準データC1を取得し、領域状態情報A0、機器情報B0、及び制約基準データC1に基づいて、参加者の行動を制約している状態を示す制約状態情報D2を取得する(ステップS10、S20)。特徴量抽出部120は、発話者を含む1人以上の参加者が存在する領域10内の状態を示す領域状態情報A0から領域10内の状態についての特徴量を抽出することによって、特徴量情報D0を生成する(ステップS30)。
予備動作情報選択部160は、予め想定された制約状態情報D2´と特徴量情報D0の取得期間を含む予備動作情報との関係を示す予備動作条件データC2を予め記憶する第2の記憶部170から、制約状態情報D2に対応する取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報D1を出力する(ステップS40)。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて取得期間の特徴量情報D1から受話者の推定に用いられる1つ以上の特徴量を選択し、1つ以上の特徴量に基づく加工特徴量情報D3を生成する(ステップS60)。受話者推定部140は、加工特徴量情報D3に基づいて受話者を推定する(ステップS70)。
《1-2》構成の詳細
〈制約状態情報取得部110〉
次に、各構成を詳細に説明する。制約状態情報取得部110は、受話者の発話時に、機器情報B0及び領域状態情報A0を入力部40から受け取る。また、制約状態情報取得部110は、制約基準データC1を参照する。制約状態情報取得部110は、参加者の行動を制約する制約状態を示す制約状態情報D2を取得(すなわち、生成)する。制約状態情報取得部110は、取得された制約状態情報D2を、特徴量加工部130と予備動作情報選択部160に提供する。制約状態情報D2は、例えば、発話者の姿勢の制約、周囲状況による発話者の動きの制約、などの発話者の行動の制約を示す情報を含む。制約状態情報D2は、例えば、文字列情報、数値情報、などで表現される。
図5は、制約状態情報取得部110の動作の例を示す図である。図5は、第1の記憶部150に記憶されている制約基準データC1の例と制約状態情報取得部110によって生成される制約状態情報D2の例とを表形式で示している。図5は、図4のステップS20の動作を示す。図5では、制約基準データC1は、制約条件R_1からR_mとして示される、制約状態基準項目を含んでいる。mは、正の整数である。図5の例では、制約基準データC1は、制約の大きさ(すなわち、制約の程度)を示す情報を含んでいる。制約条件R_1からR_mとして示される制約状態基準項目の各々は、走行状態情報、周辺機器32の操作状態である機器操作情報、発話者の座席の位置である席位置情報、などを含んでいる。ただし、制約基準データC1は、図5の例に限定されない。
制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を生成する。図3に示される制約状態情報D2は、時系列順に並ぶフレーム番号t_1からt_nのn個のフレームの各々における制約状態項目を含んでいる。制約状態情報取得部110は、制約状態情報D2を特徴量加工部130と予備動作情報選択部160に提供する。また、制約状態情報D2は、発話時における受話者の候補である参加者に関する項目を含んでもよい。制約状態情報取得部110は、生成される制約状態情報D2に含まれる複数のフレームの各々における制約状態項目の種類を予め定めていてもよい。制約状態情報取得部110は、制約基準データC1に含まれる制約状態項目として、例えば、走行状態情報、機器操作情報、席位置情報、などを設定する。
例えば、参加者が存在する領域10が車内である場合、制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目を、周辺機器情報B2に基づいて車両の走行状態情報、周辺機器32の機器操作情報、参加者の席位置情報、などに設定することができる。車両の走行状態情報は、例えば、車両が走行中である走行状態、車両が徐行している徐行状態、車両が停止している停止状態のいずれかを示す情報である。機器操作情報は、例えば、周辺機器32としての車両のハンドルによる右折操作、左折操作、などを含む。制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目として、映像情報A2に基づいて、発話者及び発話者以外の参加者の席位置情報を含めることができる。席位置情報は、例えば、車両の運転席、助手席、後部座席、などである。
図5に示されるように、制約基準データC1は、制約状態を表す情報と、各制約状態の組み合わせのパターンと、そのパターン毎に制約の大きさを定めた情報と、で構成された複数の制約状態基準項目を含むデータベースである。制約基準データC1は、例えば、図5に示されるように、制約状態を表す複数列の情報と、制約状態の組み合わせによって決定される制約の大きさを定めた情報と、を互いに対応付けた複数の制約状態基準項目で構成される。複数の制約状態基準項目には、識別記号として制約条件R_1からR_mが付される。制約状態情報取得部110は、制約基準データC1から取得する制約状態基準項目として、例えば、図5に示される制約基準データC1で定義された各列の制約状態(例えば、走行状態情報、機器操作情報、席位置情報、など)を取得する。
〈特徴量抽出部120〉
特徴量抽出部120は、入力部40から領域状態情報A0を受け取る。つまり、特徴量抽出部120は、入力部40から音声情報A1及び映像情報A2のうちの少なくとも1つを受け取る。特徴量抽出部120は、発話者が意図する受話者の推定に用いられる1つ以上の特徴量を抽出することによって、特徴量情報D0を生成する。特徴量抽出部120は、特徴量情報D0を特徴量加工部130に提供する。
図6は、特徴量抽出部120の動作の例を示す図である。図6は、特徴量抽出部120によって生成される特徴量情報D0の例を表形式で示している。特徴量情報D0は、音の基本周波数成分(すなわち、ピッチ)、音圧(すなわち、パワー)、音のスペクトル、などの音声特徴量を含むことができる。特徴量情報D0は、参加者の顔向き、視線方向、口の開き度合を示す開口度などの画像特徴量を含むことができる。図6に示されるように、特徴量情報D0は、時系列に対応するフレーム番号t_1からt_nのフレーム毎に抽出された音声特徴量及び画像特徴量を表形式で示している。また、特徴量情報D0は、受話者の候補である参加者の発話単位での音声情報A1の平均値又は分散などの統計値を含んでもよい。発話単位とは、同じ発話者による1回の発話の開始から終了までに対応する。特徴量情報D0は、音声情報A1から抽出された音声特徴量及び映像情報A2から抽出された画像特徴量の少なくとも1つの特徴量を表す文字列情報、数値情報、などを含んでもよい。特徴量抽出部120は、音声情報A1及び映像情報A2から抽出される特徴量の種類として、図6の例に示される種類以外の種類の特徴量を設定してもよい。
〈予備動作情報選択部160〉
予備動作情報選択部160は、予め想定された(すなわち、予め決められた)制約状態情報D2´と特徴量情報D0の取得期間を含む予備動作情報との関係を示す予備動作条件データC2をデータベースとして予め記憶する第2の記憶部170から、制約状態情報D2に対応する取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報D1を出力する。
図7は、予備動作情報選択部160によって使用される予備動作条件データC2の例を示す図である。図7の例では、予備動作条件データC2は、予め想定された制約状態情報D2´として、車両の走行状態、車両の走行速度、機器操作、席位置、走行している道路の道路種別、次の右左折地点までの距離、ナビゲーション案内(すなわち、ナビ案内)の内容、及び道路状況を含んでおり、これらの予め想定された制約状態情報D2´に対応する特徴量情報D0の取得期間を含んでいる。
図7の予備動作条件データC2のR_1は、予備動作を短い区間(過去5秒)で捉える時の例である。例えば、車両が早い速度(例えば、予め決められた閾値より速い速度)で走行しているときには、運転者の制約が大きく、時間に余裕のない発話者の発話は、短い予備動作(例えば、ナビ案内「次を右折です」のすぐ後、車両が「交差点付近」を走行している、など)に続いて行われる傾向がある。このような場合には、短い取得期間(例えば、過去5秒)の特徴量情報D1を用いることで、これより長い取得期間の特徴量情報D1を用いる場合(すなわち、余分な情報を含んでいる場合)よりも、受話者の推定精度が向上すると考えられる。
図7の予備動作条件データC2のR_3は、予備動作を長い区間(過去20秒)で捉える時の例である。例えば、車両が遅い速度(例えば、予め決められた閾値以下の速度)で徐行しているときには、運転者の制約が小さく、時間に余裕のある発話者の発話は、長い予備動作(例えば、ナビ案内「直進です」の後、車両が「信号付近」を走行している、など)に続いて行われる傾向がある。このような場合には、長い取得期間(例えば、過去20秒)の特徴量情報D1を用いることで、これより短い取得期間の特徴量情報D1を用いる場合(すなわち、必要な情報を含んでいない場合)よりも、受話者の推定精度が向上すると考えられる。
図8は、予備動作情報選択部160によって使用される予備動作条件データC2の他の例を示す図である。図8の例では、予備動作条件データC2は、予め想定された制約状態情報D2´として、車両の走行状態、車両の走行速度、機器操作、席位置、走行している道路の道路種別、次の右左折地点までの距離、ナビゲーション案内(すなわち、ナビ案内)の内容、及び道路状況を含んでおり、これらの予め想定された制約状態情報D2´に対応する特徴量情報D0の取得期間を含んでいる。
図8の予備動作条件データC2のR_2は、予備動作を中間の長さの区間(過去15秒)で捉える時の例である。例えば、道路種別により、制約が常時大きいと推測できるときには、運転者に時間の余裕があまりないので、発話者の発話は、比較的短い予備動作に続いて行われる傾向がある。例えば、高速道路の走行は常時緊張感を強いられるため制約が大きいが、発話者の予備動作がある程度余裕を持って起こすため、比較的長い区間で予備動作を捉える必要がある。このような場合には、比較的長い取得期間(例えば、過去15秒)の特徴量情報D1を用いることで、これより短い取得期間の特徴量情報D1を用いる場合(すなわち、必要な情報を含んでいない場合)よりも、受話者の推定精度が向上すると考えられる。
図9は、予備動作情報選択部160の動作の例を示す図である。図9は、図4のステップS40の動作の例を示す。図9に示されるように、予備動作情報選択部160は、予め想定された(すなわち、予め決められた)制約状態情報D2´(例えば、条件、走行状態、機器操作、席位置の項目を含む)と特徴量情報D0の取得期間を含む予備動作情報(例えば、取得予備動作の期間)との関係を示す予備動作条件データC2から、制約状態情報D2(例えば、フレーム番号t_20、走行状態が走行、席位置が運転席)に対応する取得期間を含む予備動作情報(例えば、条件R_1、走行状態が走行、機器操作が左折、席位置が運転席、取得予備動作の期間が現時点から過去10秒までの期間である。)を選択する。予備動作情報選択部160は、現時点から過去10秒までの取得期間(フレーム番号t_10からt_20の期間)の特徴量情報D0を選択し、この予備動作情報に基づく取得期間(フレーム番号t_10からt_20の期間)の特徴量情報D1を出力する。
〈特徴量加工部130〉
特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて取得期間(フレーム番号t_10からt_20の期間)の特徴量情報D1から受話者の推定に用いられる特徴量を選択し、選択された1つ以上の特徴量に基づく加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
図10は、特徴量加工部130の動作の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量を加工特徴量情報D3とする。図5に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。図10の例では、制約状態情報D2は、走行状態、機器操作、席位置、などを示す制約状態項目を含む。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」と設定する加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。
図11は、特徴量加工部130の動作の他の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて得られた制約状態に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量の各々に重み付けを行うことによって加工特徴量情報D3を生成してもよい。図11は、制約状態情報D2に基づいて制約基準データC1から取得する制約状態基準項目の例を示す。図11に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」、重みを「0.5」と設定する加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」及び制約の「重み」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。設定された重みは、特徴量を表す値を加工するために用いられる値であればよい。設定された重みは、受話者を推定する際に用いられる統計モデル、SVM(サポートベクターマシン)又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いる値であってもよい。
〈受話者推定部140〉
受話者推定部140は、加工特徴量情報D3を受け取り、受話者を推定した結果を示す推定結果情報D4を出力部50に提供する。加工特徴量情報D3は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を表す値の少なくとも1つを含む。受話者の推定には、記憶部に記憶されている推定基準データを用いてもよい。ここで、推定基準データは、参加者の発話時における発話内容、顔向き又は視線方向などの加工特徴量情報D3の組み合わせによる受話者の推定のルールが予め定められた基準データを含む。また、加工特徴量情報D3を基に受話者を推定するための、統計モデル、SVM(Support Vector Machine)又はニューラルネットワークなどのパラメータ又はモデルであればよい。
〈出力部50〉
出力部50は、推定結果情報D4に基づく、受話者の推定の結果を示す出力情報D5を出力する。推定結果情報D4は、例えば、受話者が参加者のうちのいずれであるかを示す文字列情報又は数値情報を含む。また、推定結果情報D4は、参加者のうちのいずれかが受話者であることを示す確率を表現した数値情報などであってもよい。出力情報D5は、推定結果情報D4を基に、例えば、受話者の推定の結果を示す情報を表した文字列情報又は数値情報、又は受話者を示す画像などの情報である。また、出力情報D5は、参加者のうちのいずれかが受話者であることを示す確率を表した数値情報を含んでもよい。
《1-3》動作
次に、実施の形態1に係る受話者推定装置100の動作を詳細に説明する。
(図4のステップS10)
入力部40は、機器情報B0及び領域状態情報A0を受信する。すなわち、入力部40は、対象機器情報B1及び周辺機器情報B2の少なくとも1つと、音声情報A1及び映像情報A2の少なくとも1つを受信する。
(図4のステップS20)
制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を取得(すなわち、生成)する。
制約状態情報取得部110は、予め定められた制約状態項目(例えば、図5の制約状態情報D2における走行状態、機器操作、席位置、など)に基づいて、対象機器情報B1、周辺機器情報B2、音声情報A1、及び映像情報A2、から該当する制約状態項目を取得することによって制約状態情報D2を生成する。また、制約状態情報取得部110は、制約基準データC1を参照し、制約基準データC1から、予め定められた制約状態項目に対応する情報を抽出することによって制約状態情報D2を生成してもよい。
例えば、受話者推定装置100が車内における参加者の会話の受話者を推定する場合、制約状態情報取得部110は、図5に示される制約基準データC1から、制約状態である走行状態、機器操作、席位置、などの情報を取得する。制約状態情報取得部110は、取得した制約状態に対応する制約状態として、周辺機器情報B2から車両の走行状態(例えば、走行、停止)又は機器操作(例えば、ハンドル操作、アクセル操作、ウィンカー操作)、映像情報A2から車両内における参加者の席位置(例えば、運転席、助手席)などの情報を取得する。制約状態情報取得部110は、取得した制約状態を示す情報を、図5に示されるように、時系列に並ぶフレーム毎の情報として提供する。
(図4のステップS30)
特徴量抽出部120は、領域状態情報A0から特徴量を抽出することによって特徴量情報D0を生成する。すなわち、特徴量抽出部120は、音声情報A1及び映像情報A2の少なくとも1つから特徴量を抽出することによって特徴量情報D0を生成する。
例えば、特徴量抽出部120は、音声情報A1から、音のピッチ、パワー、スペクトルなどの音声特徴量を抽出する。また、特徴量抽出部120は、映像情報A2から、参加者の顔向き、視線方向、口の開き度合である開口度、などの画像特徴量を抽出する。映像情報A2から画像特徴量を抽出する手法としては、公知の方法を使用することができる。特徴量抽出部120は、抽出した特徴量を、図6に示されるように時系列に対応するフレーム毎に格納することによって、特徴量情報D0を生成してもよい。また、図6では、特徴量抽出部120は、時系列に並ぶフレーム毎に特徴量を抽出しているが、受話者の推定の対象となる発話単位で特徴量を抽出してもよい。この場合、特徴量抽出部120は、特徴量情報D0に含まれる値として、各発話単位における統計値(例えば、平均値、最大値、代表値など)を用いてもよい。
(図4のステップS40)
予備動作情報選択部160は、図7から図9に示されるように、予備動作条件データC2から、制約状態情報D2(例えば、フレーム番号t_20、走行状態が走行、席位置が運転席)に対応する取得期間を含む予備動作情報(例えば、条件R_1、走行状態が走行、機器操作が左折、席位置が運転席、取得予備動作の期間が現時点から過去10秒までの期間である。)を選択する。予備動作情報選択部160は、現時点から過去10秒までの取得期間の特徴量情報D0を選択し、この予備動作情報に基づく取得期間の特徴量情報D1を出力する。
(図4のステップS50)
特徴量加工部130は、制約状態情報D2及び制約基準データC1を用いて、特徴量情報D1から加工特徴量情報D3を生成する。
図10に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1から得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択することによって加工特徴量情報D3を生成する。図10の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などを含む制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。
また、図11に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1とから得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択し、重み付けすることによって加工特徴量情報D3を生成する。図11の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などの制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。例えば、特徴量加工部130は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」、重みを「0.5」に設定する。制約の大きさが「大」、重みが「0.5」である場合には、特徴量加工部130は、制約の大きさと重みに基づいて、特徴量情報D0における画像特徴量の「顔向き」の列の情報に重みを設定することによって、加工特徴量情報D3を生成する。
(図4のステップS60)
受話者推定部140は、加工特徴量情報D3から受話者を推定し、推定の結果を示す推定結果情報D4を出力する。つまり、受話者推定部140は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を少なくとも1つを含む加工特徴量情報D3を受け取り、受話者を推定する。
(図4のステップS70)
出力部50は、推定結果情報D4に基づく出力情報D5を出力する。出力部50は、推定結果情報D4に基づく文字列情報、数値情報、受話者を示す画像、などを出力情報D5として出力する。また、出力部50は、参加者の各々が受話者である確率を示す数値情報を出力情報D5として出力してもよい。
《1-4》効果
以上に説明したように、実施の形態1に係る受話者推定装置100、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて、且つ、予備動作情報に基づく取得期間(例えば、フレーム番号t_10からt_20の期間)の特徴量情報D1を用いて、加工特徴量情報D3を生成し、受話者を推定するので、受話者の推定の精度を向上させることができる。
《2》実施の形態2
《2-1》構成
図12は、実施の形態2に係る受話者推定装置200の構成を概略的に示す機能ブロック図である。受話者推定装置200は、実施の形態2に係る受話者推定方法を実施することができる装置である。図12において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態2に係る受話者推定装置200は、特徴量情報D0に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を出力する予備動作種別取得部180を更に有し、制約状態情報取得部110で取得された制約状態情報D2に対応する第1の期間と予備動作種別情報が示す第2の期間とからなる取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報D1を出力する点において、実施の形態1に係る受話者推定装置100と相違する。他の構成に関して、実施の形態2に係る受話者推定装置200は、実施の形態1に係る受話者推定装置100と同じである。
図13は、受話者推定装置200の動作を示すフローチャートである。受話者推定装置200は、予備動作種別取得部180が特徴量情報D0に基づいて予備動作種別情報を取得する点(ステップS35)と、予備動作情報選択部160が特徴量情報D0、制約状態情報D2、予備動作条件データC2、及び予備動作種別情報に基づいて、予備動作条件データC2から予備動作情報を選択し、選択された予備動作情報に基づく取得期間の特徴量情報D1を出力する点(ステップS40)とにおいて、実施の形態1に係る受話者推定装置100と相違する。他の動作に関して、実施の形態2に係る受話者推定装置200は、実施の形態1に係る受話者推定装置100と同じである。
図14は、図12に示される予備動作種別取得部180の動作を示す図である。予備動作種別取得部180は、特徴量情報D0に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を予備動作情報選択部160に出力する。図14は、音声パワーが大きいときに発話中であること、機器に向かって発話するときには大きな音声パワーになることを示している。また、図14は、口の開き具合を示す開口度が0のどきは発話しておらず、口の開口度が大きい値であるときは、発話中であることを示している。
図15は、図12に示される予備動作情報選択部160の動作の例を示す図である。予備動作情報選択部160は、第2の記憶部170から、制約状態情報取得部110で取得された制約状態情報D2に対応する第1の期間と予備動作種別情報が示す第2の期間とからなる取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて取得期間の前記特徴量情報D1を出力する。図15の例では、第1の期間は、発話前の5秒の期間である。第2の期間は、予備動作種別情報が示す期間であり、発話中の期間である。図15は、予備動作情報選択部160が、特徴量情報D0、制約状態情報D2、予備動作条件データC2、及び予備動作種別情報に基づいて、予備動作条件データC2から予備動作情報を選択し、選択された予備動作情報に基づく取得期間の特徴量情報D1を出力する処理の例を示している。これ以降の処理は、実施の形態1の場合と同じである。
《2-3》効果
以上に説明したように、実施の形態2に係る受話者推定装置200、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて、且つ、予備動作情報に基づく取得期間(例えば、フレーム番号t_15からt_20の期間)の特徴量情報D1を用いて、加工特徴量情報D3を生成し、受話者を推定するので、受話者の推定の精度を向上させることができる。
《3》変形例
上記実施の形態では、第1の記憶部150及び第2の記憶部170が受話者推定装置の一部として示されているが、これらは、受話者推定装置に接続された外部の記憶装置又は受話者推定装置に備えられた通信装置によって通信可能なネットワーク上のサーバに備えられた記憶装置であってもよい。
10 領域、 11,12 参加者、 20 状態取得部、 21 音声取得部、 22 映像取得部、 30 機器、 31 対象機器、 32 周辺機器、 33 表示画面、 40 入力部、 50 出力部、 100、200 受話者推定装置、 110 制約状態情報取得部、 120 特徴量抽出部、 130 特徴量加工部、 140 受話者推定部、 150 第1の記憶部、 160 予備動作情報選択部、 170 第2の記憶部、 180 予備動作種別取得部、 A0 領域状態情報、 A1 音声情報、 A2 映像情報、 B0 機器情報、 B1 対象機器情報、 B2 周辺機器情報、 C1 制約基準データ、 C2 予備動作条件データ、 D0 特徴量情報、 D1 取得期間の特徴量情報、 D2 制約状態情報、 D3 加工特徴量情報、 D4 推定結果情報、 D5 出力情報。

Claims (15)

  1. 発話者が発する音声の受話者を推定する受話者推定装置であって、
    状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、
    音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、
    予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する予備動作情報選択部と、
    前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、
    前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、
    を有することを特徴とする受話者推定装置。
  2. 前記状態取得部は、前記領域内における音声を取得することによって音声情報を生成する音声取得部と、前記領域内の映像を撮影することによって映像情報を生成する映像取得部とを有し、
    前記領域状態情報は、前記音声情報及び前記映像情報のうちの少なくとも1つを含む
    ことを特徴とする請求項1に記載の受話者推定装置。
  3. 前記音声情報は、前記音声の音圧を示す情報、前記音声の基本周波数成分を示す情報、及び前記音声のスペクトルのうちの少なくとも1つを含むことを特徴とする請求項2に記載の受話者推定装置。
  4. 前記映像情報は、前記参加者の座席の位置を示す情報、前記参加者の顔向きを示す情報、前記参加者の視線方向を示す情報、及び前記参加者の口の開口度を示す情報のうちの少なくとも1つを含むことを特徴とする請求項2又は3に記載の受話者推定装置。
  5. 前記機器は、前記対象機器の他に、前記参加者によって操作される周辺機器を含むことを特徴とする請求項1から4のいずれか1項に記載の受話者推定装置。
  6. 前記機器状態情報は、前記周辺機器の状態及び前記周辺機器に対して実行された操作のうちの少なくとも1つを含むことを特徴とする請求項5に記載の受話者推定装置。
  7. 前記受話者推定装置は、車両に搭載される車両用装置であり、
    前記予備動作条件データは、前記車両の走行状態を示す情報、前記車両の走行速度を示す情報、前記車両における前記機器の操作を示す情報、前記車両が走行している道路種別を示す情報、前記車両が走行している位置から右左折地点までの距離を示す情報、前記車両の運転を支援するナビゲーション情報、及び前記車両が走行している位置付近の道路状況を示す情報のうちの、1つの情報又は2つ以上の情報の組み合わせと、前記取得期間との関係を示す
    ことを特徴とする請求項1から6のいずれか1項に記載の受話者推定装置。
  8. 前記取得期間は、前記予備動作情報選択部による予備動作選択の前の予め決められた時間であり、
    前記取得期間は、前記車両の走行速度が予め決められた第1の閾値より速い場合に第1の時間に設定され、前記車両の走行速度が前記予め決められた第1の閾値以下の場合に前記第1の時間より長い第2の時間に設定される
    ことを特徴とする請求項7に記載の受話者推定装置。
  9. 前記取得期間は、前記予備動作情報選択部による予備動作選択の前の予め決められた時間であり、
    前記取得期間は、前記車両の走行速度が予め決められた第1の閾値より速く且つ前記車両から右左折地点までの距離が第2の閾値以下である場合に第1の時間より短い時間に設定される
    ことを特徴とする請求項8に記載の受話者推定装置。
  10. 前記特徴量情報に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を出力する予備動作種別取得部を更に有し、
    前記予備動作情報選択部は、前記第2の記憶部から、前記制約状態情報取得部で取得された前記制約状態情報に対応する第1の期間と前記予備動作種別情報が示す第2の期間とからなる前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する
    ことを特徴とする請求項7から9のいずれか1項に記載の受話者推定装置。
  11. 前記加工特徴量情報は、前記取得期間の前記特徴量情報から選択された前記1つ以上の特徴量を含む情報であることを特徴とする請求項1から10のいずれか1項に記載の受話者推定装置。
  12. 前記加工特徴量情報は、前記取得期間の前記特徴量情報から選択された前記1つ以上の特徴量と、前記1つ以上の特徴量の各々の重みとを含む情報であることを特徴とする請求項1から10のいずれか1項に記載の受話者推定装置。
  13. 前記受話者推定部は、前記対象機器及び前記参加者のうちの前記発話者以外の人の中から、前記受話者を推定することを特徴とする請求項1から12のいずれか1項に記載の受話者推定装置。
  14. 発話者が発する音声の受話者を推定する受話者推定装置によって実行される方法であって、
    状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
    音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
    予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、
    前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
    前記加工特徴量情報に基づいて前記受話者を推定するステップと、
    を有することを特徴とする受話者推定方法。
  15. 発話者が発する音声の受話者を推定する処理をコンピュータに実行させる受話者推定プログラムであって、
    状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
    音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
    予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、
    前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
    前記加工特徴量情報に基づいて前記受話者を推定するステップと、
    を前記コンピュータに実行させることを特徴とする受話者推定プログラム。
JP2023514700A 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム Active JP7309095B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019147 WO2022244178A1 (ja) 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2022244178A1 JPWO2022244178A1 (ja) 2022-11-24
JP7309095B2 true JP7309095B2 (ja) 2023-07-14

Family

ID=84141501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023514700A Active JP7309095B2 (ja) 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Country Status (2)

Country Link
JP (1) JP7309095B2 (ja)
WO (1) WO2022244178A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338529A (ja) 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007272534A (ja) 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
WO2019097674A1 (ja) 2017-11-17 2019-05-23 日産自動車株式会社 車両用操作支援装置
WO2020240730A1 (ja) 2019-05-29 2020-12-03 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079427A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 携帯情報機器
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム
JP2020095121A (ja) * 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338529A (ja) 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007272534A (ja) 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
WO2019097674A1 (ja) 2017-11-17 2019-05-23 日産自動車株式会社 車両用操作支援装置
WO2020240730A1 (ja) 2019-05-29 2020-12-03 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Also Published As

Publication number Publication date
WO2022244178A1 (ja) 2022-11-24
JPWO2022244178A1 (ja) 2022-11-24

Similar Documents

Publication Publication Date Title
US11361452B2 (en) Information processing apparatus, control method, and program
CN108725440B (zh) 前向碰撞控制方法和装置、电子设备、程序和介质
US10222226B2 (en) Navigation systems and associated methods
US10943400B2 (en) Multimodal user interface for a vehicle
JP6639444B2 (ja) 情報提供装置及び情報提供方法
US10872603B2 (en) Dialog device and dialog method
JP6382273B2 (ja) 施設満足度算出装置
JP6713490B2 (ja) 情報提供装置及び情報提供方法
JP6612707B2 (ja) 情報提供装置
DE112018003014T5 (de) Erfahrung-bereitstellungssystem, erfahrung-bereitstellungsverfahren und erfahrung-bereitstellungsprogramm
CN108932290B (zh) 地点提案装置及地点提案方法
US11460309B2 (en) Control apparatus, control method, and storage medium storing program
CN110929078A (zh) 一种汽车语音形象换装方法、装置、设备及存储介质
WO2021258671A1 (zh) 基于车载数字人的辅助驾驶交互方法及装置、存储介质
JP7309095B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP7354888B2 (ja) 情報処理装置、プログラム、及び、情報処理方法
JP6945767B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
WO2020003392A1 (ja) 運転支援装置および運転モード判断モデル生成装置
JPWO2008038375A1 (ja) 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2023136194A (ja) 情報処理装置、移動体、それらの制御方法、プログラム、及び記憶媒体
JP2020095389A (ja) 地点情報記録システム、地点情報案内システム、地点情報記録プログラムおよび地点情報案内プログラム
CN112951216B (zh) 一种车载语音处理方法及车载信息娱乐系统
US20220388511A1 (en) System for controlling a driving speed of a vehicle and a method thereof
JP2021108072A (ja) レコメンドシステム、レコメンド方法およびプログラム
JP2023162857A (ja) 音声対話装置及び音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230301

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230704

R150 Certificate of patent or registration of utility model

Ref document number: 7309095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150