JP2018169494A - 発話意図推定装置および発話意図推定方法 - Google Patents

発話意図推定装置および発話意図推定方法 Download PDF

Info

Publication number
JP2018169494A
JP2018169494A JP2017066738A JP2017066738A JP2018169494A JP 2018169494 A JP2018169494 A JP 2018169494A JP 2017066738 A JP2017066738 A JP 2017066738A JP 2017066738 A JP2017066738 A JP 2017066738A JP 2018169494 A JP2018169494 A JP 2018169494A
Authority
JP
Japan
Prior art keywords
utterance
intention
feature amount
intention estimation
acoustic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017066738A
Other languages
English (en)
Inventor
池野 篤司
Tokuji Ikeno
篤司 池野
健郎 相原
Tateo Aihara
健郎 相原
河野 進
Susumu Kono
進 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Organization of Information and Systems
Toyota Motor Corp
Original Assignee
Research Organization of Information and Systems
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Organization of Information and Systems, Toyota Motor Corp filed Critical Research Organization of Information and Systems
Priority to JP2017066738A priority Critical patent/JP2018169494A/ja
Publication of JP2018169494A publication Critical patent/JP2018169494A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

【課題】発話テキストが得られなくても発話の意図を推定可能とする。【解決手段】発話意図推定装置は、ユーザ発話の音声データを取得する音声取得手段と、発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、を備える。前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されてもよく、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合やテキストから発話意図を推定できなかった場合には音響特徴量を用いて意図を推定することも好ましい。【選択図】図5

Description

本発明は、ユーザ発話の意図を推定する技術に関する。
近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。例えば、特許文献1は、複数の人間が会話している状況において意思決定を支援するためにコンピュータが介入する技術を開示する。
このような介入を行うためには、会話の状況や会話中の話者グループの状態を、会話音声に基づいて把握する必要がある。特許文献2は、複数の話者による発話の関係性を分析する技術を開示する。特許文献3は、会話を行っている話者グループの状態を判定する技術を開示する。ここで、上述のような会話状況やグループ状態を判定するために、特許文献2や特許文献3では発話内容からその意図を推定(抽出)し、推定された意図を利用している。
また、特許文献4は、発話が相手への質問、説明、相づちのいずれの意図を示すものであるかを判定し、使用語彙数などと共に発話意図を用いて、発話者の知識量を推定することを開示する。
発話意図の推定は、いずれの先行技術において、発話のテキストに基づいて行われている。
特開2017−10309号公報 特開2017−9825号公報 特開2017−9826号公報 特開2013−167765号公報
上述のように従来の発話意図推定は音声認識精度の影響を強く受ける。音声認識処理すなわち発話内容のテキスト化処理は、必ずしも確実に行えるわけではない。そして、音声認識に失敗した場合には、発話意図推定が行えなくなる。
上記のような問題を考慮して、本発明は、音声認識ができない場合でも発話の意図を推定可能な技術を提供することを目的とする。
上記目的を達成するために、本発明の第一の態様に係る発話意図推定装置は、ユーザ発話の音声データを取得する音声取得手段と、前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、を備えることを特徴とする。
本開示において、「発話」とは言語を音声として発声すること、およびその結果として発声された音声を意味する。音響特徴量は、発話(音声)の音響的な特徴量であり、その例として、発話の音圧レベル、基本周波数、発話長、発話速度、間隔または重なりが挙げ
られる。また、発話の意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。
本態様によれば、発話テキストを利用することなく意図推定が可能となるので、音声認識ができないような場合でも発話の意図を推定できる。
本態様に係る発話意図推定装置は、前記音声データから前記ユーザ発話のテキストを抽出する音声認識手段をさらに備え、前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されていてもよい。この場合、本態様に係る発話意図推定装置は、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合には音響特徴量を用いて意図を推定することが好ましい。なお、「ユーザ発話のテキストを抽出できた場合」とは、閾値以上の信頼度でテキストを抽出できた場合と表現してもよい。
このような構成によれば、テキストが抽出できた場合にはテキストに基づいて発話意図を推定し、テキストが週出できなかった場合に音響特徴量に基づいて発話意図を推定できる。したがって、テキストを用いる意図推定が失敗する場合でも、意図を推定することが可能となる。
本態様に係る発話意図推定装置は、さらに、発話のテキストを用いた意図の推定が失敗した場合に、音響特徴量を用いて意図を推定するように構成されてもよい。
テキスト抽出に成功したが意図推定に失敗する場合の例として、意図推定の根拠となる語彙が発話内に含まれない場合が挙げられる。このような構成によれば、意図推定の精度をさらに向上させることができる。
本態様における意図推定手段として、機械学習処理によって作成された識別器を利用できる。機械学習処理では、発話意図が既知の発話データとその音響特徴量を学習データとして用いればよい。発話意図の正解は、話者本人あるいは第三者が手動で割り当てればよい。識別器は、複数の2クラス識別器として作成してもよいし、1つの多クラス識別器として作成してもよい。また、本態様における意図推定手段は、ルールベースの判定を行うものであってもよい。
発話意図の推定に用いられる音響特徴量の一つである基本周波数は、話者の性別や年齢によって変化の傾向が異なる。基本周波数以外の音響特徴量にも、話者の性別や年齢によって異なるものがある。そこで、本態様に係る発話意図推定装置は、発話者の性別および年齢層を特定する話者識別手段をさらに備え、前記識別器は、発話者の性別および年齢層に応じて複数種類があらかじめ作成されており、前記意図推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器を用いて、前記音響特徴量から前記ユーザ発話の意図を推定する、ことも好ましい。
本態様における話者識別手段はどのようにして話者の性別や年齢層を特定してもよいが、例えば、音声データから取得される音響特徴量に基づいて特定してもよいし、話者の顔を撮影した顔画像を用いて特定してもよい。
このような構成によれば、発話テキストを利用できなくても発話の意図を推定可能となる。
なお、本発明は、上記手段の少なくとも一部を備える発話意図推定装置あるいは支援装
置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する発話意図推定装置による発話意図推定方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、発話の意図を精度良く推定することができる。
図1は、実施形態に係る音声処理装置(発話意図推定装置)の機能ブロック図である。 図2は、コーパス辞書に含まれる発話意図判別用のキーワードの例を示す。 図3は、特徴量ベース意図推定部(識別器)を学習するための学習装置の機能ブロック図である。 図4は、特徴量ベース意図推定部(識別器)の学習方法の流れを示すフローチャートである。 図5は、実施形態に係る発話意図推定処理の流れを示すフローチャートである。 図6は、変形例に係る音声処理装置(発話意図推定装置)の機能ブロック図である。 図7は、変形例に係る音声処理装置(発話意図推定装置)の機能ブロック図である。 図8は、変形例に係る音声処理装置(発話意図推定装置)の機能ブロック図である。 図9は、音声処理装置(発話意図推定装置)を含む会話介入支援システムの構成例を示す図である。
(第1の実施形態)
本実施形態は、複数人による会話をモニタして、それぞれの発話の意図を推定する音声処理装置(発話意図推定装置)である。本実施形態に係る音声処理装置は、ユーザと会話を行ったりユーザ間の会話に対して仲介を行ったりする音声処理システムの一部として使われることが想定されるが、ここでは発話意図推定処理に焦点を当てて説明する。
<システム構成>
図1は本実施形態に係る音声処理装置100の機能ブロック図である。音声処理装置100は、CPUなどの演算装置、RAMやROMなどの記憶装置、キーボードやマイクなどの入力装置、ディスプレイやスピーカーなどの出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、図1に示す各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、音声処理装置100は、1台の装置として構成する必要はなく、通信回線を介して結合された複数の装置(コンピュータ)を用いて構成し、それぞれの装置間で機能を分担して実行しても構わない。
図1に示すように、音声処理装置100は、マイク(音声入力部)101、雑音除去部102、音源分離部(話者分離部)103、発話区間検出部104、音声認識部105、音響特徴量抽出部106、発話意図推定部107、コーパス辞書108をその機能部として含む。
マイク101は、複数のユーザによる会話音声を取得する。使用するマイク101の数や配置は特に限定されないが、複数のマイクやアレイマイクを用いて音源の方向を特定できるように構成することが好ましい。
雑音除去部102は、マイク101から取得される音声データから雑音を除去する機能部である。雑音除去部102は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去するように構成される。雑音除去部102は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去するよう構成されてもよい。
音源分離部103は、雑音除去部102によって雑音が除去された音声データを対象として、それぞれの音声の音源(話者)を特定する機能部である。音源分離部103は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出することによって、話者を特定するように構成される。
発話区間検出部104は、音源分離部103によって分離された音声データを対象に、一人のユーザによるひとまとまりの発話を発話区間として検出する機能部である。発話区間検出には、音声モデルやスペクトラムエントロピーを用いた手法など既存の任意の手法を利用できる。以下では、ひとまとまりの発話の音声データを発話データとも称する。
音声認識部105は、発話区間検出部104によって検出されたそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する機能部である。音声認識処理には既存の技術、例えば、音響モデル・言語モデル・発音辞書を用いたモデルベースの手法を適用すればよい。音声認識部105は、音声認識の結果(テキスト)とともに、音声認識結果の信頼度も計算する。
音響特徴量抽出部106は、発話区間検出部104によって検出されたそれぞれの発話データについて、その発話の音響的な発話特徴量(音響特徴量)を計算する機能部である。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。
発話意図推定部107は、音声認識結果のテキストまたは発話の音響的な特徴量(音響特徴量)に基づいて、発話の意図を推定する機能部である。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。発話意図推定部107は、テキストに基づく意図推定を行うテキストベース意図推定部107aと、音響特徴量に基づく意図推定を行う特徴量ベース意図推定部107bを有する。
テキストベース意図推定部107aは、発話テキストに基づいて発話意図を推定する機能部である。テキストベース意図推定部107aは、意図推定用のコーパス辞書108を参照して発話意図を推定する。発話意図推定用のコーパス辞書108には、発話意図を推定するための判別用のキーワード(単語や言い回し)が格納される。図2は、コーパス辞書108に含まれるキーワードの一例を示す。このようなキーワードは、実際の会話に現れる語彙等からあらかじめ生成しておけばよい。テキストベース意図推定部107aは、発話テキストをコーパス辞書108と照合して発話テキストの中に意図判別用キーワードが含まれているか判断することによって、発話意図を推定する。
特徴量ベース意図推定部107bは、発話の音響特徴量に基づいて発話意図を推定する機能部である。本実施形態においては、特徴量ベース意図推定部107bは、音響特徴量を入力として受け付け、この音響特徴量があらかじめ定義された複数の発話意図のいずれ
に該当するかを決定する識別器である。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約を含むことができる。特徴量ベース意図推定部107bは、入力された音響特徴量が話題切り出し、提案、肯定、否定、質問、回答、集約に該当するか否かをそれぞれ判別する複数の2クラス識別器として生成されてもよいし、これらを識別する1つの多クラス識別器として生成されてもよい。
<学習処理>
ここで図3および図4を参照して、特徴量ベース意図推定部107bの学習(生成)処理について説明する。図3は、特徴量ベース意図推定部107bを生成するための学習装置150の構成を示す。図4は、特徴量ベース意図推定部107bの学習処理の流れを示すフローチャートである。
ステップS101において、学習データ取得部151が、学習データを取得する。学習データは、発話の意図がラベル付けされた音声データとすることができる。複数人による会話データに対する発話意図のラベル付けは、例えば、管理者が手動でその意図(本実施形態では、話題切り出し、提案、肯定、否定、質問、回答、集約のいずれか)を決定して行える。学習データ取得部151は、このようにして用意された学習データを取得する。
ステップS102では、学習データに含まれる音声データに前処理を施して、会話音声から話者ごとのそれぞれの発話を抽出する。前処理は、具体的には、雑音除去部102による雑音除去処理、音源分離部103による音源(話者)分離処理、発話区間検出部104による発話区間検出処理を含む。
ステップS103では、音響特徴量抽出部106を用いて、発話データから発話の音響特徴量を抽出する。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。
ステップS104では、学習部152が、学習データに含まれる発話意図とステップS103で抽出した音響特徴量を用いて、音響特徴量から発話意図を推定するための識別器を機械学習処理により生成する。機械学習アルゴリズムは特に限定されず、SVM(サポートベクタマシーン)、決定木、ランダムフォレスト、ニューラルネットワーク、ロジスティック回帰などの任意の教師あり学習アルゴリズムを採用可能である。
以上の処理によって、特徴量ベース意図推定部107b(識別器)が生成できる。
<発話意図推定処理>
図5は、本実施形態に係る音声処理装置100が行う、発話意図推定処理の流れを示すフローチャートである。
ステップS201において、音声処理装置100が、マイク101を介して複数のユーザによる会話音声を取得する。ステップS202では、取得された音声データに前処理を施す。前処理は、具体的には、雑音除去部102による雑音除去処理、音源分離部103による音源(話者)分離処理、発話区間検出部104による発話区間検出処理を含む。ステップS201前処理により、話者ごとのそれぞれの発話データが得られる。
ステップS203において、音声認識部105がそれぞれの発話に対して音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術、例えば、音響モデル・言語モデル・発音辞書を用いたモデルベースの手法を適用すればよい。音声認識部105は、音声認識の結果(テキスト)とともに、音声認識結果の信頼度も計算する。
ステップS204において、ステップS103の音声認識処理が成功したか否かが判断される。ここでは音声認識結果の信頼度が所定の閾値以上であれば音声認識処理に成功したと判断され、そうでない場合には音声認識処理に失敗したと判断される。
ステップS203の音声認識処理が成功であった場合(S204−YES)、ステップS205に進んで、発話テキストに基づく発話意図推定処理を行う。一方、音声認識処理に失敗した場合(S204−NO)は、ステップS207に進んで、音響特徴量に基づく発話意図推定処理を行う。
ステップS205では、テキストベース意図推定部107aが、発話テキストに基づいて発話意図の推定を行う。テキストベース意図推定部107aは、発話テキストをコーパス辞書108と照合して、発話テキストの中に意図判別用キーワードが含まれているか判断することによって、発話意図を推定する。テキストベース意図推定部107aは、発話意図推定結果と共に、発話意図の推定精度も計算する。
ステップS206では、ステップS205における発話意図の推定精度が閾値以上であるか否かを判定する。推定精度が閾値以上であれば(S206−YES)、ステップS205で得られた発話意図を最終的な推定結果として確定する。
一方、推定精度が閾値未満であれば(S206−NO)、ステップS207に進んで、音響特徴量に基づく発話意図推定処理を行う。なお、発話意図の推定精度が低くなるのは、発話テキストの中に発話意図を推定できるキーワードが存在しない場合や、発話テキストの中に異なる意図に対応するキーワードが混在している場合に生じうる。
ステップS207は、音声認識処理に失敗した場合(S204−NO)あるいは発話テキストに基づく発話意図推定精度が低い場合(S206−NO)に実行される。ステップS207では、音響特徴量抽出部106が、それぞれの発話について、その発話の音響的な特徴量(音響特徴量)を計算する。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。
ステップS208では、特徴量ベース意図推定部107bが、ステップS207において抽出された音響特徴量を用いて、発話の意図を推定する。本実施形態においては、特徴量ベース意図推定部107bは、音響特徴量を入力として受け付け、この音響特徴量があらかじめ定義された複数の発話意図のいずれに該当するかを決定する識別器である。したがって、特徴量ベース意図推定部107bは、入力された音響特徴量から、その発話意図を推定できる。
以上のように、本実施形態では、テキストベースの発話意図推定が成功した場合にはその結果を最終的な推定結果とし、テキストベースの発話意図推定が行えなかったり失敗したりした場合には、特徴量ベースの発話意図推定の結果を最終的な推定結果として確定する。
<本実施形態の有利な効果>
本実施形態によれば、音声認識処理が正しく行えなかった場合や、発話内容に発話意図を推定できるキーワードが含まれなかった場合であっても、発話の意図を推定できる。したがって、発話テキストのみに基づいて意図推定を行う手法と比較して、より多くの場面で発話意図の推定が行えるようになる。
発話意図は会話の状況や内容を判断するために重要な要素の一つであり、発話意図推定がより多くの場面で推定できることで、会話状況や内容の判断がより適確に行えるように
なる。さらには、会話に対する応答や介入をより適確に行えるようになる。
(変形例1)
上記の説明において、特徴量ベース意図推定部107bは、音響特徴量のみに基づいて発話意図を推定している。しかしながら、音響特徴量以外の要素を考慮して発話意図を推定するようにしてもよい。
図6は、上記第1の実施形態の変形例に係る音声処理装置200の機能ブロック図である。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ201、表情抽出部202、およびジェスチャー抽出部203が追加されている点で異なる。また、特徴量ベース意図推定部204の構成も変更されている。
カメラ201は、ユーザ(話者)の顔および身体を含む全身を撮影する。表情抽出部202は、カメラ201の撮影画像に含まれる顔画像から、話者の表情を抽出する。ジェスチャー抽出部203は、カメラ201の撮影画像に含まれる身体画像から、話者のジェスチャーを抽出する。表情抽出やジェスチャー抽出には、既存の任意の手法が適用できる。
特徴量ベース意図推定部204は、音響特徴量と表情とジェスチャーを入力として、発話意図を識別する識別器である。特徴量ベース意図推定部204の生成(学習)方法は、上記で図4を参照して説明した方法とほぼ同様であり、学習データとして発話データだけでなく表情やジェスチャーに関するデータも利用すればよい。
ここでは、表情やジェスチャーを利用する例を説明したが、それ以外にも、脳波・心拍・脈拍などの生体データを用いてもよい。
(変形例2)
第1の実施形態では、特徴量ベース意図推定部107b,204として機械学習処理により生成した識別器を利用している。しかしながら、特徴量ベース意図推定部107b,204は、機械学習により生成される必要はなく、設計者によって定められた判別ロジック(算出条件)にしたがって入力データから発話意図を推定するように構成してもかまわない。
(変形例3)
第1の実施形態では、発話テキストに基づく発話意図推定ができない場合に、音響特徴量を利用して発話意図推定を行っている。しかしながら、発話テキストが抽出できた場合にも、音響特徴量を考慮して発話意図を推定するようにしてもよい。一例として、発話テキストが抽出できた場合に、テキストベース意図推定部107aによる意図推定結果と、特徴量ベース意図推定部107b(204)の意図推定結果とを考慮した結果を最終的な意図推定結果とすることができる。
あるいはまた、全てのケースにおいて、発話テキストを用いずに音響特徴量に基づいて発話意図を推定するように構成してもかまわない。
(変形例4)
第1の実施形態では、特徴量ベース意図推定部107bを1種類のみ用いている。しかしながら、発話意図の推定に用いられる音響特徴量の一つである基本周波数は、話者の性別や年齢によって平均値や平均値からの変化の傾向が異なることが想定される。したがって、話者の性別ごとおよび年齢層ごとに異なる特徴量ベース意図推定部107b(識別器)を生成して用いることが音響特徴量の分析の精度向上に、更には発話意図推定精度の向
上につながる。
図7は、本変形例に係る音声処理装置300の機能ブロックを示す図である。本変形例では、意図推定時において話者の性別および年齢層を特定することが必要となる。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ301、および性別年齢層特定部302が追加されている点で異なる。また、特徴量ベース意図推定部107bが話者の性別および年齢層ごとに複数用意されている。
カメラ301は、少なくとも話者の顔を撮影するように設置される。性別年齢層特定部302は、カメラ301が撮影した顔画像に基づいて、話者の性別と年齢層を特定する。なお、年齢層の定義は適宜行えばよい。例えば、10代未満、10代、20代、30代、40代、50代、60代以上の7区分を利用できる。もちろん、より細かく分類してもよいし、より粗く分類してもよい。顔画像から性別および年齢を推定するためには、既存の顔認識技術が利用可能である。
特徴量ベース意図推定部107bは、性別および年齢層グループごとの学習データを用いて、第1の実施形態で説明した方法と同様の方法によって生成すればよい。
本変形例において、特徴量を用いて発話意図推定を行う場合(図5のステップS208)には、発話意図推定部107に、音響特徴量抽出部106が抽出した音響特徴量と、性別年齢層特定部302が特定した話者の性別および年齢層が入力される。発話意図推定部107は、話者の性別および年齢層に対応した特徴量ベース意図推定部107bを選択し、選択された特徴量ベース意図推定部107bに音響特徴量を入力して、話者の発話意図を推定する。
図8は、さらなる変形例に係る音声処理装置400の機能ブロックを示す図である。図7では、顔画像に基づいて話者の性別および年齢層を特定しているが、本構成例では、性別・年齢層特定部401を利用して、音響特徴量に基づいて話者の性別および年齢層を特定する。性別・年齢層特定部401は音響特徴量抽出部106から音響特徴量を取得して、話者の性別および年齢層を特定する。音響特徴量から話者の性別および年齢を推定するためには、既存の音声処理技術が利用可能である。
(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態に係る音声処理装置(発話意図推定装置)を適用した会話介入支援システムである。会話介入支援システムは、車両内の複数の話者による会話に対して、情報提供や意思決定の支援を行うものである。
図9は本実施形態に係る会話介入支援システム500の構成の一例を示す図である。ナビゲーション装置511がマイクを介して取得した乗員の会話音声は、通信装置514を経由して会話支援サーバ520に送られる。会話支援サーバ520は、車両510から送信された会話音声を分析して、グループの状態や各話者の会話満足度を推定し、状況に応じて適切な情報提供や意思決定支援などの介入を行う。会話支援サーバ520は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム531、店舗広告情報DB532、関連情報WEBサイト540から取得する。この際に、会話支援サーバ520は、ユーザ情報・利用履歴DB533に格納されているユーザの嗜好や店舗等の利用履歴も考慮して、ユーザに合った情報を取得する。会話支援サーバ520は介入指示を車両510に送信し、車両510はナビゲーション装置511のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両510は、現在位置を取得するGPS装置512および乗員(話者)の顔や体
を撮影するカメラ513も備える。
発話意図推定処理に関して説明すると、第1の実施形態で説明した発話意図推定のための各機能部(図1参照)は、車両510と会話支援サーバ520に適宜分散して実装することができる。例えば、雑音除去、音源分離、発話区間検出、音響特徴量抽出を車両510で実施し、音声認識および発話意図推定を会話支援サーバ520で行うように実装できる。ただしこれは機能分担の一例であり、これとは異なるように機能分担してもよい。また、会話支援サーバ520が、複数のコンピュータ(例えば、音声認識サーバ、意図抽出サーバ、会話分析サーバ、会話エージェントサーバ)によって実現されてもよい。
会話支援サーバ520は、発話意図推定結果も用いながら、会話内容や会話状況の分析、グループ状態の分析、各話者の会話における満足度の推定などの処理を行う。また、会話エージェントを用いて、どのようなシステム発話を行うかを決定する。例えば、ユーザが話題としている事物に関する情報を検索して提供したり、会話に参加できず満足度が低いユーザに対して意見提示の機会を与えるように介入したりすることが考えられる。会話エージェントがシステム発話の内容(テキスト)を決定して、車両510に送信すると、車両510は音声合成処理によってそのテキストを音声化して、スピーカーから出力する。これらの処理は、例えば特許文献1−3に詳しく記載されている。
本実装例では、車両内のカメラ513を用いて、上記変形例で説明した表情やジェスチャーを用いた発話意図推定や表情やジェスチャーに基づく性別および年齢層の推定を行うこともできる。
本実装例では、発話意図の推定精度および推定可能機会が向上するので、会話の内容や状況をより適確に分析できるようになり、より適確な介入が実現できるようになる。
本実装例は、車両とサーバ装置とが連携するテレマティクスサービスとして構成する会話介入支援システムであるが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
101:マイク
102:雑音除去部
103:音源(話者)分離部
104:発話区間検出部
105:音声認識部
106:音響特徴量抽出部
107:発話意図推定部
107a:テキストベース意図推定部
107b:特徴量ベース意図推定部
108:コーパス辞書

Claims (11)

  1. ユーザ発話の音声データを取得する音声取得手段と、
    前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、
    前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、
    を備える、発話意図推定装置。
  2. 前記音声データから前記ユーザ発話のテキストを抽出する音声認識手段をさらに備え、
    前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されており、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合には音響特徴量を用いて意図を推定する、
    請求項1に記載の発話意図推定装置。
  3. 前記意図推定手段は、発話のテキストを用いた意図の推定が失敗した場合に、音響特徴量を用いて意図を推定する、
    請求項2に記載の発話意図推定装置。
  4. 前記意図推定手段は、意図が既知の発話と当該発話の音響特徴量を元に学習処理によってあらかじめ作成された識別器である、
    請求項1から3のいずれか1項に記載の発話意図推定装置。
  5. 発話者の性別および年齢層を特定する話者識別手段をさらに備え、
    前記識別器は、発話者の性別および年齢層に応じて複数種類があらかじめ作成されており、
    前記意図推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器を用いて、前記音響特徴量から前記ユーザ発話の意図を推定する、
    請求項4に記載の発話意図推定装置。
  6. 前記話者識別手段は、前記音響特徴量に基づいて発話者の性別および年齢層を特定する、
    請求項5に記載の発話意図推定装置。
  7. 前記話者識別手段は、発話者の顔画像を用いて発話者の性別および年齢層を特定する、
    請求項5または6に記載の発話意図推定装置。
  8. 前記音響特徴量は、発話の音圧レベル、基本周波数、発話長、発話速度、間隔または重なり、の少なくともいずれかを含む、
    請求項1から7のいずれか1項に記載の発話意図推定装置。
  9. 前記発話の意図は、話題切り出し、提案、肯定、否定、質問、回答、集約、の少なくともいずれかを含む、
    請求項1から8のいずれか1項に記載の発話意図推定装置。
  10. 発話意図推定装置が実行する発話意図推定方法であって、
    ユーザ発話の音声データを取得する音声取得ステップと、
    前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得ステップと、
    前記音響特徴量から前記ユーザ発話の意図を推定する意図推定ステップと、
    を含む、発話意図推定方法。
  11. 請求項10に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2017066738A 2017-03-30 2017-03-30 発話意図推定装置および発話意図推定方法 Pending JP2018169494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017066738A JP2018169494A (ja) 2017-03-30 2017-03-30 発話意図推定装置および発話意図推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017066738A JP2018169494A (ja) 2017-03-30 2017-03-30 発話意図推定装置および発話意図推定方法

Publications (1)

Publication Number Publication Date
JP2018169494A true JP2018169494A (ja) 2018-11-01

Family

ID=64018759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017066738A Pending JP2018169494A (ja) 2017-03-30 2017-03-30 発話意図推定装置および発話意図推定方法

Country Status (1)

Country Link
JP (1) JP2018169494A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489749A (zh) * 2019-01-28 2020-08-04 丰田自动车株式会社 交互设备、交互方法和程序
JP2020140210A (ja) * 2019-02-28 2020-09-03 ネイバー コーポレーションNAVER Corporation 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム
JP2020142555A (ja) * 2019-03-04 2020-09-10 本田技研工業株式会社 車両制御システム、車両制御方法、およびプログラム
JP2021086144A (ja) * 2019-11-25 2021-06-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
KR20210087147A (ko) * 2020-01-02 2021-07-12 주식회사 티오이십일콤즈 사용자 맞춤형 목적지정보 제공 장치 및 방법
JP2021117940A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP2021117941A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP2021144263A (ja) * 2020-03-10 2021-09-24 Kddi株式会社 対象人物の特徴的な身振りを推定するプログラム、装置及び方法
WO2023128586A1 (ko) * 2021-12-28 2023-07-06 경북대학교 산학협력단 인공지능에 기초한 대화상황예측과 의도분류 시스템 및 그 방법
US11869488B2 (en) 2019-12-18 2024-01-09 Toyota Jidosha Kabushiki Kaisha Agent device, agent system, and computer-readable storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP2010152866A (ja) * 2008-12-23 2010-07-08 Korea Electronics Telecommun 音声及び映像に基づく性別−年齢識別方法及びその装置
JP2017032738A (ja) * 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP2010152866A (ja) * 2008-12-23 2010-07-08 Korea Electronics Telecommun 音声及び映像に基づく性別−年齢識別方法及びその装置
JP2017032738A (ja) * 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
細木 光宏 MITSUHIRO HOSOKI: "韻律を用いた自由発話対話の意図の判定 Extraction of Utterance Intention in Japanese Spontaneous Spee", 第31回 言語・音声理解と対話処理研究会資料 (SIG−SLUD−A003), JPN6020030186, 27 February 2001 (2001-02-27), JP, pages 25 - 1, ISSN: 0004424986 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489749A (zh) * 2019-01-28 2020-08-04 丰田自动车株式会社 交互设备、交互方法和程序
US11403345B2 (en) 2019-02-28 2022-08-02 Naver Corporation Method and system for processing unclear intent query in conversation system
JP2020140210A (ja) * 2019-02-28 2020-09-03 ネイバー コーポレーションNAVER Corporation 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム
JP2020142555A (ja) * 2019-03-04 2020-09-10 本田技研工業株式会社 車両制御システム、車両制御方法、およびプログラム
US11541906B2 (en) 2019-03-04 2023-01-03 Honda Motor Co., Ltd. Vehicle control device, vehicle control method, and storage medium
JP7145105B2 (ja) 2019-03-04 2022-09-30 本田技研工業株式会社 車両制御システム、車両制御方法、およびプログラム
JP2021086144A (ja) * 2019-11-25 2021-06-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
JP7208951B2 (ja) 2019-11-25 2023-01-19 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
US11250854B2 (en) 2019-11-25 2022-02-15 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice interaction, device and computer-readable storage medium
US11869488B2 (en) 2019-12-18 2024-01-09 Toyota Jidosha Kabushiki Kaisha Agent device, agent system, and computer-readable storage medium
KR20210087147A (ko) * 2020-01-02 2021-07-12 주식회사 티오이십일콤즈 사용자 맞춤형 목적지정보 제공 장치 및 방법
KR102349665B1 (ko) * 2020-01-02 2022-01-12 주식회사 티오이십일콤즈 사용자 맞춤형 목적지정보 제공 장치 및 방법
JP2021117941A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP7272293B2 (ja) 2020-01-29 2023-05-12 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP7338493B2 (ja) 2020-01-29 2023-09-05 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP2021117940A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP2021144263A (ja) * 2020-03-10 2021-09-24 Kddi株式会社 対象人物の特徴的な身振りを推定するプログラム、装置及び方法
JP7257349B2 (ja) 2020-03-10 2023-04-13 Kddi株式会社 対象人物の特徴的な身振りを推定するプログラム、装置及び方法
WO2023128586A1 (ko) * 2021-12-28 2023-07-06 경북대학교 산학협력단 인공지능에 기초한 대화상황예측과 의도분류 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
JP6938784B2 (ja) オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
CN104598644B (zh) 喜好标签挖掘方法和装置
Maghilnan et al. Sentiment analysis on speaker specific speech data
CN110634472B (zh) 一种语音识别方法、服务器及计算机可读存储介质
US20160019915A1 (en) Real-time emotion recognition from audio signals
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
JP7485858B2 (ja) 実世界ノイズを使用した音声個性化および連合訓練
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
US10592997B2 (en) Decision making support device and decision making support method
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
Chouhan et al. Structural support vector machine for speech recognition classification with CNN approach
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
JP7526846B2 (ja) 音声認識
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
JP5083033B2 (ja) 感情推定装置及びプログラム
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
Alghifari et al. On the use of voice activity detection in speech emotion recognition
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
JP2015102914A (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
Yasmin et al. Discrimination of male and female voice using occurrence pattern of spectral flux
KR102535244B1 (ko) 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210119