JP6202041B2

JP6202041B2 - 車両用音声対話システム

Info

Publication number: JP6202041B2
Application number: JP2015089033A
Authority: JP
Inventors: 悠輔谷澤
Original assignee: Mazda Motor Corp
Current assignee: Mazda Motor Corp
Priority date: 2015-04-24
Filing date: 2015-04-24
Publication date: 2017-09-27
Anticipated expiration: 2035-04-24
Also published as: JP2016206469A

Description

本発明は、運転者からの音声入力に応じて対話可能な車両用音声対話システムに関し、特に運転者と同乗者との対話中におけるシステムからの発話タイミングを決定可能な車両用音声対話システムに関する。

従来より、車両の運転者から発せられた音声を認識して、運転者に対する情報の提供等を行う音声対話システムが知られている。この音声対話システムは、車両内の端末（例えばスマートフォン等の携帯型端末装置や通信機能を有する車載ＰＣ等）によって運転者からの音声を取得し、この端末から外部のサーバ（例えば大型計算機を有する情報センタ等）に音声データを送信して音声認識を行い、この処理結果に応じた音声を端末から出力している。

このような音声対話システムでは、今後、運転者の発話を聞き取る音声認識技術に加えて、運転者の発話に対して適切に応答する対話管理技術や曖昧な質問を理解する自然言語処理技術の確立が期待されている。
特に、車両用音声対話システムの場合、システムと運転者との対話は、運転者が能動的に車両を操作していることから、車両特有の要因、例えば、自車両が走行している道路や車両の走行状態等によっては操作の支障になる虞がある。

特許文献１の車両用音声対話システムでは、音声認識部と、構文解析部と、シナリオ制御部と、音声合成部とを備え、車両の走行環境に基づいて運転者と対話可能な時間を算出し、その対話可能時間に応じた対話制御を実行している。
これにより、運転者の運転状況に柔軟に対応し、運転操作に影響を与えることなく適切な時間で運転者の要望に合致した対話を行うことができる。

特開２００８−２３３６７８号公報

運転者が単独で車両に乗車したときには、特定のタスク達成（例えば経路案内や室温調節等）を目的としたタスク指向型対話がシステムとの間で主に行われている。
運転者の単独乗車におけるタスク指向型対話では、運転者がシステムに対して特定の操作タスクを指示し、指示を受けたシステムが対象となる車載機器への操作指令を実行した後に操作タスクの完了を運転者に報告するという定形の対話シナリオに従っているため、システム側の発話内容が限定されており、事前に人手によって作成準備が必要な発話生成ルールについても比較的少量で賄うことができる。しかも、１対１の直接的な対話であるため、システムからの発話タイミングについては、特許文献１のように運転者の運転状況に焦点を合わせることにより運転者の要望に合致させることができる。
一方、運転者が同乗者と共に車両に乗車したときには、運転者からの発話は、システムに向けた発話と、同乗者に向けた発話との２種類の発話になることが予想される。
運転者からシステムに向けた発話の場合、前述したように、システムに対するタスク指向型対話が主に行われ、運転者の要望に合致した対話が実行可能である。

ところで、複数乗員によるドライブにおいて、運転する喜びやドライブする楽しさ、所謂わくわく感は、乗員間の感情の同一性、期待感、達成感の３要素によって構成されている。それ故、運転者と同乗者とによる乗員同士の対話によって感情の同一性を高めることができ、更に、乗員間の対話に対してシステムから行動目的や目的地に関する付加情報の提供等が行われることによって期待感を向上させることができる。
即ち、複数乗員によるドライブにおいて、乗員間の対話に対してもシステムからの自律的な介入を行うことで、わくわく感を飛躍的に増加させることができる。

しかし、運転者から同乗者に向けた発話の場合、会話の趣旨が多岐に渡り、特定の行動を誘発する行動誘発系対話と、特定の行動を誘発しない非タスク指向型対話とが混在していることから、発話意図を限定することができず、発話生成ルールの作成が容易ではない。
しかも、システムからの発話タイミングについては、発話元の運転者が単独であるのに対して受け手となる同乗者が１又は複数の複合的な形態になるため、システムが運転者の運転状況に合わせたタイミングで発話したとしても、運転者と対話をしている同乗者にとっては不適切な発話タイミングになることもあり、結果的に複数の乗員とシステムとの協調対話が成立しない虞がある。

運転者と同乗者とが取り交わす全ての対話を追跡し、意図理解モデルに基づいて運転者及び同乗者の発話意図を解析することにより全ての乗員にとって適切なタイミングでシステムからの自律的な発話を実行させることも考えられるが、大規模なコーパス（語彙索引データ）の作成、意図解析手法の確立、対話処理時間の短縮化等技術的・コスト的に解決すべき問題が存在している。

本発明の目的は、複数の乗員とシステムとの協調対話の実現と対話処理の高速化とを両立できる車両用音声対話システム等を提供することである。

請求項１の発明は、運転者からの音声入力に応じて対話可能な車両用音声対話システムにおいて、運転者の音声を入力する音声入力手段と、同乗者に対する運転者の音声に含まれた対話終了ワードを判定可能な対話終了ワード判定手段と、前記システムから発話可能な音声出力手段と、運転者が同乗者と対話している際、前記対話終了ワード判定手段によって対話終了ワードが判定されたときに前記システムから発話を発生可能な発話タイミングを決定する発話タイミング決定手段と、複数の合意ワードと複数の終息ワードとを記憶した対話終了ワードデータベースとを有し、前記運転者と同乗者の対話を行動誘発系対話と前記行動誘発系対話以外の対話とに分類し、前記行動誘発系対話のとき、前記合意ワードに基づいて前記発話タイミングを決定し、前記行動誘発系対話以外の対話のとき、前記終息ワードに基づいて前記発話タイミングを決定することを特徴としている。

この車両用音声対話システムでは、運転者が同乗者と対話している際、対話終了ワード判定手段によって対話終了ワードが判定されたときにシステムから発話を発生可能な発話タイミングを決定する発話タイミング決定手段を設けたため、複数乗員による対話終了ワードを追跡するのみで、乗員間の対話を阻害することなく、システムからの発話の最適な発話タイミングを決定することができる。
また、構成の複雑化を伴うことなく、運転者と同乗者との行動誘発系対話及び行動誘発系対話以外の対話への発話タイミングを決定することができる。

請求項２の発明は、請求項１の発明において、前記合意ワードに基づいて前記発話タイミングを決定したとき、前記行動誘発系対話に関連した発話を行うことを特徴としている。
この構成によれば、運転者と同乗者との共通行動目的に関する発話を自律的に行うため、運転者と同乗者の暗黙的な要望に合致した発話によって全乗員の気分を高揚させることができる。

請求項３の発明は、請求項１又は２の発明において、前記システムからの発話を、運転者の状態と車両の走行状態のうち、少なくとも一方の状態によって制限することを特徴としている。
この構成によれば、運転操作に影響を与えることなく適切なタイミングでシステムからの発話を行うことができる。
請求項４の発明は、運転者からの音声入力に応じて対話可能な車両用音声対話システムにおいて、運転者の音声を入力する音声入力手段と、同乗者に対する運転者の音声に含まれた対話終了ワードを判定可能な対話終了ワード判定手段と、前記システムから発話可能な音声出力手段と、運転者が同乗者と対話している際、前記対話終了ワード判定手段によって対話終了ワードが判定されたときに前記システムから発話を発生可能な発話タイミングを決定する発話タイミング決定手段と、複数の合意ワードと複数の終息ワードとを記憶した対話終了ワードデータベースとを有し、前記運転者と同乗者の対話を行動誘発系対話と前記行動誘発系対話以外の対話とに分類し、前記合意ワードに基づいて前記発話タイミングを決定したとき、前記行動誘発系対話に関連した発話を行うことを特徴としている。
この構成によれば、運転者が同乗者と対話している際、対話終了ワード判定手段によって対話終了ワードが判定されたときにシステムから発話を発生可能な発話タイミングを決定する発話タイミング決定手段を設けたため、複数乗員による対話終了ワードを追跡するのみで、乗員間の対話を阻害することなく、システムからの発話の最適な発話タイミングを決定することができる。
また、運転者と同乗者との共通行動目的に関する発話を自律的に行うため、運転者と同乗者の暗黙的な要望に合致した発話によって全乗員の気分を高揚させることができる。

本発明の車両用音声対話システムによれば、構成の複雑化を伴うことなくシステムからの発話の最適な割込タイミングを決定するため、複数の乗員とシステムとの協調対話の実現と対話処理の高速化とを両立させることができる。

実施例１に係る車両用音声対話システムの機能ブロック図である。対話処理部と周辺機器との機能ブロック図である。記憶部の説明図である。音声対話処理のステップチャートである。発話タイミング決定処理のフローチャートである。対話例１を示す図である。対話例２を示す図である。対話例３を示す図である。

以下、本発明の実施形態を図面に基づいて詳細に説明する。
以下の説明は、本発明を車両Ｖに適用したものを例示したものであり、本発明、その適用物、或いは、その用途を制限するものではない。

以下、本発明の実施例１について図１〜図８に基づいて説明する。
図１に示すように、車両用音声対話システム１（以下、システム１と略す）は、車両Ｖに搭載された音声対話装置２と、情報センタＣに設けられたサーバ３等を備えている。
音声対話装置２は、１の例では、スマートフォン等の携帯型端末装置であり、他の例では、車両Ｖに搭載された通信機能を有する車載ＰＣ（ナビゲーション機能等を備えても良い）である。また、携帯型端末装置と車載ＰＣとが協調制御を行う場合には、これら携帯型端末装置及び車載ＰＣが音声対話装置２に相当している。
サーバ３は、大量のデータ処理能力及び大量のデータ容量を有する大型計算機によって形成され、音声対話装置２との間で種々の情報について相互に送受信を行っている。

まず、音声対話装置２について説明する。
図１に示すように、音声対話装置２は、マイク４（音声入力手段）と、同乗者検出部５と、生体情報取得部６と、走行状態取得部７と、車載機器８ａ〜８ｃと、スピーカ９（音声出力手段）と、通信部１０等に電気的に接続されている。
マイク４は、車両Ｖに乗車している運転者による音声が入力されるものであり、車室内の所定位置に設置されている。このマイク４は、運転者からの音声入力開始から、入力された音声を運転者からの発話として取得することができる。

同乗者検出部５は、運転者以外の同乗者が着座可能な座席に取り付けた感圧センサ（図示略）によって構成されている。尚、この同乗者検出部５は、座席近傍に乗員が着座したときに遮られる赤外線センサや超音波センサ等によって同乗者の有無を検出しても良い。
生体情報取得部６は、運転者の生体情報に基づいて運転者の感情や疲れ具合を検出可能に構成されている。この生体情報取得部６は、例えば、ステアリングホイールに設けられた発汗計（図示略）によって検出された運転者の手の発汗度合い、運転席に内蔵された心拍センサ（図示略）によって検出された運転者の心拍数、車室内に配設された室内カメラ（図示略）によって撮像された運転者の瞳孔径や視線方向等を取得している。
発汗度合いや心拍数は、運転者の活性度と相関関係があり、瞳孔径や視線方向は、運転者の快度と相関関係があるため、運転者の精神状態を推定することができる。
これらの検出結果と運転者の感情及び疲れ具合との相関関係は、予め実験等によって準備されている。

走行状態取得部７は、運転者の運転状態と車両Ｖの走行環境状態とを検出している。
運転者の運転状態は、車両ＶのＣＡＮ（Controller Area Network）を介してアクセル開度センサ（図示略）によって検出されたアクセル操作量や舵角センサ（図示略）によって検出されたステアリング操作量等によって取得されている。
車両Ｖの走行環境状態は、車両Ｖのナビゲーションシステム８ｂやＣＡＮ等からの情報に基づき車両Ｖの挙動（停車、右折、左折、旋回等）や走行環境（走行している道路種別、交差点での一時停止、渋滞状況等）を検出している。

車載機器８ａ〜８ｃは、具体的には、車両Ｖに装備されたオーディオ８ａ、ナビゲーションシステム８ｂ、エアコンディショナ８ｃ等である。
車載機器８ａ〜８ｃは、運転者自身の操作や音声によって、制御可能な構成要素（ディバイス、コンテンツ等）、機能、動作等が予め規定されている。
オーディオ８ａでは、デバイスがＣＤ、ＭＰ３、ラジオ、スピーカであり、機能が音量であり、動作が変更、オン、オフ、再生、停止、選局、音量の上下調節等である。
ナビゲーションシステム８ｂでは、コンテンツが画面表示、経路誘導、ＰＯＩ検索であり、機能が誘導、検索であり、動作が変更、拡大、縮小等である。
エアコンディショナ８ｃでは、機能が風量、設定温度であり、動作がオン、オフ、変更、風量や設定温度の上下調節等である。

通信部１０は、アンテナ（図示略）等を備え、サーバ３と通信部２０を介して通信可能に構成され、サーバ３との間で種々の情報を送受信可能に構成されている。
尚、音声対話装置２は、サーバ３と通信可能な通信部１０以外にも、ＶＩＣＳ（登録商標）センタと通信する通信部を別途設けてＶＩＣＳ情報を受信しても良い。

図１，図２に示すように、音声対話装置２は、音声認識部１１と、対話処理部１２と、音声合成部１３等を備えている。
音声認識部１１は、マイク４に入力された運転者の音声をＡ／Ｄコンバータによってデジタル信号として取り込み、このデジタル信号を波形データに変換した後、周波数分析して特徴ベクトルを抽出する。この音声認識部１１は、記憶部１２ｄに記憶された言語モデルと運転者の音声との一致度を演算し、入力された音声を認識した後、単語列で表現されたテキストとして対話処理部１２に出力している。

次に、対話処理部１２について説明する。
対話処理部１２は、運転者からシステム１への操作タスクに対する完了報告や各種問い合わせに対する回答に関する応答用テキストを生成可能に構成されている。
図２に示すように、対話処理部１２は、制御部１２ａと、対話終了ワード判定部１２ｂ（対話終了ワード判定手段）と、発話タイミング決定部１２ｃ（発話タイミング決定手段）と、記憶部１２ｄ等を備えている。

制御部１２ａは、運転者とシステム１との応答規則を記述した対話シナリオを用いて対話が成立するように車載機器８ａ〜８ｃを含めて各機能部を協調制御している。
制御部１２ａは、音声認識部１１によって認識されたテキストから概念を抽出し、その概念をシステム１が取扱可能な形式で出力する意図理解機能と、この意図理解機能の出力結果に基づきシステム１が応答する概念を決定する対話制御機能と、この対話制御機能から出力された概念に基づき応答用テキスト（タスク指向型対話用テキスト）を生成する応答生成機能と、応答用テキスト又は割込用テキストを発話するタイミングを設定する発話タイミング設定機能とを備え、主に運転者との対話内容や対話タイミング全般を管理可能に構成されている。

制御部１２ａは、抽出された概念が、運転者による車載機器８ａ〜８ｃの操作のように車両Ｖ内で処理できる操作タスクの場合、サーバ３への通信を行うことなく、所定の車載機器８ａ〜８ｃに対して操作指令を出力すると共に車両Ｖ内にて応答用テキスト（タスク指向型対話用テキスト）を生成する。
制御部１２ａは、抽出された概念が、車両Ｖ内で処理できないタスクの場合や乗員同士の対話である場合、単語列で表現された運転者の音声に基づくテキストを情報検索コマンドとしてＵＲＬのフォーマットに変換して情報センタＣに送信する。
情報センタＣは、車両Ｖ内で処理できないタスクに関するテキスト及び乗員同士の対話における運転者の発話に関するテキストを受信する。

ここで、情報センタＣについて簡単に説明する。
情報センタＣは、抽出された概念が車両Ｖ内で処理できない操作タスクの応答用テキスト、又は運転者を含む乗員同士の対話への割込用テキスト（行動誘発系対話用テキスト又は非タスク指向型対話用テキスト）を生成可能に構成されている。
以下、システム１に対する車載機器８ａ〜８ｃの操作や問い合わせのような運転者とシステム１との直接的な操作タスクについての対話をタスク指向型対話、運転者と同乗者との対話であって乗員共通の目的行動を伴う対話を行動誘発系対話、運転者と同乗者との対話であって乗員共通の目的行動を伴わない対話を非タスク指向型対話として説明する。

図１に示すように、情報センタＣは、サーバ３と、通信部２０等を備え、音声対話装置２と通信可能に形成されている。サーバ３は、対話管理部２１と、情報データベース２２と、語彙文法データベース２３等を備えている。
対話管理部２１は、情報データベース２２やインターネットを検索すると共に、語彙文法データベース２３に基づいて検索結果を組み込んだ応答用テキスト又は割込用テキストを生成可能に構成されている。生成された応答用テキスト又は割込用テキストは、所定のフォーマットに変換されて通信部２０から通信部１０に送信される。

図２に戻り、対話終了ワード判定部１２ｂについて説明する。
対話終了ワード判定部１２ｂは、同乗者に対する運転者の音声に含まれた対話終了ワードを判定可能に構成されている。この対話終了ワード判定部１２ｂは、記憶部１２ｄに格納された対話終了ワードとの一致判定によって乗員同士の対話の終了時期を判定している。
対話終了ワードとは、運転者と同乗者との対話において、対話終了の目安になる運転者が発声する特定のキーワードである。対話終了ワードが発声されたことにより、殆どの対話は一旦終了する。対話終了ワードは、行動誘発系対話に対応した合意ワードと、非タスク指向型対話に対応した終息ワードとに分類されている。

次に、発話タイミング決定部１２ｃについて説明する。
発話タイミング決定部１２ｃは、運転者が同乗者と対話している際、対話終了ワード判定手段１２ｂによって対話終了ワードの発話が判定されたとき、システム１から運転者への発話を発生可能な発話タイミングＴを決定するように構成されている。
発話タイミング決定部１２ｃは、運転者の状態及び車両Ｖの走行状態に基づいてシステム１からの発話を制限している。
具体的には、運転者の感情が悪化又は疲れ具合が高い等運転者の生体面から及び高車速、車間距離が狭い、急旋回、急勾配等車両Ｖの運転環境面から運転者がシステム１からの発話を欲していない場合を自律的に判定し、運転者がシステム１からの発話を欲していない場合にはシステム１からの発話を制限する。

次に、記憶部１２ｄについて説明する。
図３に示すように、記憶部１２ｄには、行動誘発系対話ワードデータベースｗ１と、目的ワードデータベースｗ２と、対話終了ワードデータベースｗ３等が記憶されている。
行動誘発系対話ワードは、乗員共通の目的行動を開始するきっかけ（起点）になるワードである。例えば、同乗者が存在する場合に、運転者が「お腹すいた」と発話した場合、車両Ｖがコンビニやレストラン等を目的地として走行する可能性が高く、「間に合うかな」と発話した場合、車両Ｖが駅等の特定の目的地に向かって走行する可能性が高い。
目的ワードは、具体的な行動対象となる場所・目的・意思（ＰＯＩ:Position Objective Intention）を特定するワードである。
対話終了ワードは、運転者と同乗者との対話終了を判定するための判定ワードである。
前述したように、対話終了ワードには、乗員共通の目的行動を伴う行動誘発系対話における合意ワードと、乗員間の共通の目的行動を伴わない非タスク指向型対話における終息ワードとが存在している。基本的に、合意ワードで対話が終了したとき、全乗員は対話内容（目的ワード）に関連した共通の目的意識を持って車両Ｖによる移動を行う。また、終息ワードで対話が終了したとき、対話内容と車両Ｖによる移動との関連性は存在しない。
対話終了ワードデータベースｗ３は、合意ワードデータベースｗ４と終息ワードデータベースｗ５とによって構成されている。

次に、図１に戻り、音声合成部１３について説明する。
音声合成部１３は、対話処理部１２で決定された応答用テキスト、又はサーバ３から受信した応答用テキストや割込用テキストを音声出力に適した表現に正規化し、この正規化したテキストの各単語と記憶部１２ｄ内に記憶された言語モデルを用いて発音データに変換する。そして、音声合成部１３は、発音データをＤ／Ａコンバータによってデジタル信号による波形データに変換し、スピーカ９に出力している。
尚、音声合成部１３には、出力前変換機能を付与しても良い。出力前変換機能は、より自然な対話を行うため、システムからの発話に対して語尾変換（例えば語りかけ口調等）を行い、システムの発話に対して所定の個性を与えることができる。

次に、図４のステップチャートに基づき、システム１による音声対話処理手順について説明する。尚、Ｓｉ（ｉ＝１，２，…）は、各処理のためのステップを示している。
まず、運転者の音声を取り込み（Ｓ１）、単語列で表現されたテキストとして対話処理部１２に出力する。
Ｓ２では、データベース化された意図理解モデルや課題解決知識等に基づいて発話意図（概念）を理解する。対話内容のテキストを作成し、発話意図に基づき、運転者からの操作タスクか否か、乗員間の対話か否かを選別する。車両Ｖ内で処理できない操作タスク及び乗員間の対話については、テキストをサーバ３に送信する。

Ｓ３では、音声対話装置２又はサーバ３において、対話シナリオを決定する。
音声対話装置２は、運転者からの操作指令であり且つ車両Ｖ内で処理できる操作タスクに対する対話シナリオを決定する。サーバ３は、運転者からの操作指令であり且つ車両Ｖ内で処理できない操作タスクに対する対話シナリオ及び乗員間の対話に対する対話シナリオを決定する。

Ｓ４では、音声対話装置２又はサーバ３において、対話シナリオに基づいて応答用テキスト又は割込用テキストを作成する。
音声対話装置２は、車両Ｖ内で処理できる操作タスクの応答用テキストを作成する。サーバ３は、車両Ｖ内で処理できないタスクの応答用テキストや割込用テキストを作成する。
Ｓ５では、応答用テキスト又は割込用テキストに応じて音声を合成し、出力前変換を行った後（Ｓ６）、スピーカ９に出力して終了する。

次に、図５のフローチャートに基づき、システム１（制御部１２ａ）による発話タイミング決定処理手順について説明する。
尚、Ｓｉ（ｉ＝１１，１２，…）は、各処理のためのステップを示している。
まず、運転者の音声を取り込み（Ｓ１１）、運転者の音声が操作タスクか否か判定する（Ｓ１２）。
Ｓ１２の判定の結果、運転者の音声が操作タスクの場合、操作タスクの完了後、Ｓ１３へ移行し、決定された発話タイミングＴにて操作タスクに対する完了報告を行って終了する。
Ｓ１２の判定の結果、運転者の音声が操作タスクではない場合、Ｓ１４へ移行し、同乗者検出部５の検出結果に基づいて同乗者が存在するか判定する。

Ｓ１４の判定の結果、同乗者が存在する場合、運転者は同乗者と対話していると推測されるため、Ｓ１５へ移行し、行動誘発系対話ワードデータベースｗ１に基づいて行動誘発系対話が行われているか否か判定する。
Ｓ１４の判定の結果、同乗者が存在しない場合、運転者の発話は独り言であると推測されるため、ｓ１１にリターンする。
Ｓ１５の判定の結果、行動誘発系対話の場合、運転者と同乗者が共通の目的行動を行うことが推測されるため、Ｓ１６へ移行し、目的ワードデータベースｗ２に基づいて運転者から目的ワードが発声されたか否か判定する。
Ｓ１５の判定の結果、行動誘発系対話ではない場合、乗員間の共通の目的行動を伴わないと推測されるため、Ｓ２０へ移行し、終息ワードが発声されたか否か判定する。

Ｓ１６の判定の結果、目的ワードが発声された場合、乗員共通の目的行動が明確化されたと推測されるため、Ｓｓ１７へ移行し、合意ワードデータベースｗ４に基づいて合意ワードが発声されたか否か判定する。
Ｓ１６の判定の結果、目的ワードが発声されない場合、乗員共通の目的行動が明確化されていないため、Ｓ１１にリターンする。
Ｓ１７の判定の結果、合意ワードが発声された場合、一旦対話が終了されて乗員共通の目的行動が開始されたと推測されるため、Ｓ１８へ移行し、運転者の状態が良好か否か判定する。Ｓ１７の判定の結果、合意ワードが発声されていない場合、対話が継続中と推測されるため、Ｓ１１にリターンする。

Ｓ１８の判定の結果、運転者の状態が良好な場合、Ｓ１９へ移行し、車両Ｖの走行状態に基づき危険度を判定している。
運転者の状態は、生体情報である発汗度合い、心拍数、瞳孔径に基づき精神状態が安定している場合、良好と判定され、興奮状態又は緊張状態の場合、良好ではないと判定される。Ｓ１８の判定の結果、運転者の状態が良好ではない場合、システム１からの発話は運転者に対してストレスを与えるため、Ｓ１１にリターンする。

Ｓ１９の判定の結果、危険度が小さい場合、Ｓ１３へ移行し、決定された発話タイミングＴにてタスク指向型対話又は非タスク指向型対話を行って終了する。
走行状態は、車速、車間距離、旋回操作、地形等によって運転操作負荷が高い場合、危険度が大きいと判定され、運転操作負荷が低い場合、危険度が小さいと判定される。
Ｓ１９の判定の結果、危険度が大きい場合、システム１からの発話は運転操作を阻害するため、Ｓ１１にリターンする。
Ｓ２０の判定の結果、終息ワードが発声された場合、一旦対話が終了されたと推測されるため、Ｓ１８へ移行する。Ｓ２０の判定の結果、終息ワードが発声されない場合、対話が終了していないため、ｓ１１にリターンする。

次に、図６〜図８に基づき、対話例１〜３を説明する。
対話例１は、タスク指向型対話である。
図６に示すように、まず、運転者が「エアコンの温度を下げて。」という操作タスクを指示する。対話処理部１２は、音声認識及び概念判定により車両Ｖ内で処理できる操作タスクに関する発話と判断し、エアコンディショナ８ｃに対して設定温度を２℃下げる操作指令を出力する。そして、対話処理部１２は、操作タスク完了用対話シナリオに基づいて応答用テキストを生成して音声を合成し、スピーカ９から出力させる。具体的には、システム１は、「設定温度を２℃下げました。」という音声がスピーカ９から出力させる。

対話例２は、行動誘発系対話である。
図７に示すように、まず、運転者が「お腹すいたね。」と同乗者に対して発話する。
この運転者の発話に続けて同乗者から「今朝出発が早かったからね。」という返答があり、更に、運転者が「どこかのコンビニでも寄っていく？」との質問に対して同乗者から「最も近いコンビニに行こうよ。」との返答後、運転者による「了解。」との対話が行われる。

対話処理部１２は、「お腹すいたね」のキーワードに基づき車両Ｖ内で処理できない複数の乗員間の行動誘発系対話と判断するため、運転者からの一連の対話内容を単語列で表現されたテキストに変換して情報センタＣに送信する。
サーバ３は、対話内容に含まれた「お腹すいたね」、「コンビニ」等のキーワードに基づき各キーワードに関連する情報をデータベースやインターネット等を用いた検索によって抽出する。具体的には、「お腹すいたね」に関連する情報は食堂やレストランの所在地・経路・お勧めメニュー等、「コンビニ」に関連する情報は所在地・経路等である。

次に、サーバ３は、対話内容に含まれたキーワードに対して最も重み付けが高い情報が含まれる割込用テキストを生成して、音声対話装置２に送信する。
対話処理部１２は、受信した割込用テキストを発音データに合成し、合意ワードである「了解」によって決定された発話タイミングＴの時点において、「最も近いコンビニは、１Ｋｍ直進後、左折します。」という音声をスピーカ９から出力させる。

対話例３は、非タスク指向型対話である。
図８に示すように、まず、運転者が「昨日チームＡは勝ったかな？」と同乗者に対して質問する。
この運転者の質問に続けて同乗者から「最近忙しくて試合を観てないんだ。」という返答後、運転者による「そうなんだ。」との対話が行われる。

対話処理部１２は、行動誘発系対話ワードが存在しないことから、乗員間の非タスク指向型対話と判断するため、乗員間の一連の対話内容を単語列で表現されたテキストに変換して情報センタＣに送信する。
サーバ３は、対話内容に含まれた「昨日」、「チームＡ」、「勝ったかな」等のキーワードに基づき各キーワードに関連する情報をデータベースやインターネット等を用いた検索によって抽出する。
次に、サーバ３は、対話内容に含まれたキーワードに対して最も重み付けが高い情報が含まれた割込用テキストを生成して、音声対話装置２に送信する。
対話処理部１２は、受信した割込用テキストを発音データに合成し、終息ワードである「そうなんだ」によって決定された発話タイミングＴの時点において、「昨日チームＡはチームＢに２対１で勝ちました。」という音声をスピーカ９から出力させる。

次に、上記車両用音声対話システム１の作用、効果について説明する。
本車両用音声対話システム１によれば、運転者が同乗者と対話している際、対話終了ワード判定部１２ｂによって対話終了ワードが判定されたときにシステム１から発話を発生可能な発話タイミングを決定する発話タイミング決定部１２ｃを設けたため、複数乗員による対話終了ワードを追跡するのみで、乗員間の対話を阻害することなく、システム１からの発話の最適な発話タイミングＴを決定することができる。

複数の合意ワードと複数の終息ワードとを記憶した対話終了ワードデータベースｗ３を有し、運転者と同乗者の対話を行動誘発系対話と行動誘発系対話以外の対話とに分類し、行動誘発系対話のとき、合意ワードに基づいて発話タイミングＴを決定し、行動誘発系対話以外の対話のとき、終息ワードに基づいて発話タイミングＴを決定するため、構成の複雑化を伴うことなく、運転者と同乗者との行動誘発系対話及び行動誘発系対話以外の対話へ割り込む発話タイミングＴを決定することができる。

合意ワードに基づいて発話タイミングＴを決定したとき、行動誘発系対話に関連した発話を行う。
これにより、運転者と同乗者との共通行動目的に関する発話を自律的に行うため、運転者と同乗者の暗黙的な要望に合致した発話によって全乗員の気分を高揚させることができる。

システム１からの発話を、運転者の状態と車両Ｖの走行状態のうち、少なくとも一方の状態によって制限するため、運転操作に影響を与えることなく適切なタイミングでシステム１からの発話を行うことができる。

次に、前記実施形態を部分的に変更した変形例について説明する。
１〕前記実施形態においては、運転者の音声のみを入力するマイクを設けた例を説明したが、運転者及び同乗者夫々の音声を入力するマイクを設けても良い。
この場合、システムは、入力された音声に発話した発話者のコードを付与し、運転者の音声によるタスクを同乗者の音声によるタスクに優先して制御を行う。
また、単一の全方向指向型マイクで、全乗員の音声を取得することも可能である。

２〕前記実施形態においては、行動誘発系対話及び非タスク型指向対話について、システムからの割込発話を実行する例を説明したが、共通目的行動を伴わない非タスク型指向対話へのシステムからの発話を制限し、行動誘発系対話に限って割込発話を実行するように構成しても良い。
また、乗員夫々の音声を取得する場合、行動誘発系対話では、運転者からの合意ワードによって発話タイミングを決定し、非タスク型指向対話では、運転者又は同乗者の何れかからの終息ワードによって発話タイミングを決定しても良い。

３〕前記実施形態においては、車両内で処理できる操作タスク以外のタスク及び乗員対話について取得したテキストをサーバに送信する例を説明したが、車両に対話管理部、語彙・文法データベース部等を設け、サーバへの送信を廃止し、全てのデータ処理を車内で行っても良い。

４〕その他、当業者であれば、本発明の趣旨を逸脱することなく、前記実施形態に種々の変更を付加した形態で実施可能であり、本発明はそのような変更形態も包含するものである。

Ｖ車両
１（車両用音声対話）システム
４マイク
９スピーカ
１２ｂ対話終了ワード判定部
１２ｃ発話タイミング決定部
ｗ３対話終了ワードデータベース

Claims

運転者からの音声入力に応じて対話可能な車両用音声対話システムにおいて、
運転者の音声を入力する音声入力手段と、
同乗者に対する運転者の音声に含まれた対話終了ワードを判定可能な対話終了ワード判定手段と、
前記システムから発話可能な音声出力手段と、
運転者が同乗者と対話している際、前記対話終了ワード判定手段によって対話終了ワードが判定されたときに前記システムから発話を発生可能な発話タイミングを決定する発話タイミング決定手段と、
複数の合意ワードと複数の終息ワードとを記憶した対話終了ワードデータベースとを有し、
前記運転者と同乗者の対話を行動誘発系対話と前記行動誘発系対話以外の対話とに分類し、
前記行動誘発系対話のとき、前記合意ワードに基づいて前記発話タイミングを決定し、前記行動誘発系対話以外の対話のとき、前記終息ワードに基づいて前記発話タイミングを決定することを特徴とする車両用音声対話システム。
前記合意ワードに基づいて前記発話タイミングを決定したとき、前記行動誘発系対話に関連した発話を行うことを特徴とする請求項１に記載の車両用音声対話システム。
前記システムからの発話を、運転者の状態と車両の走行状態のうち、少なくとも一方の状態によって制限することを特徴とする請求項１又は２に記載の車両用音声対話システム。
運転者からの音声入力に応じて対話可能な車両用音声対話システムにおいて、
運転者の音声を入力する音声入力手段と、
同乗者に対する運転者の音声に含まれた対話終了ワードを判定可能な対話終了ワード判定手段と、
前記システムから発話可能な音声出力手段と、
運転者が同乗者と対話している際、前記対話終了ワード判定手段によって対話終了ワードが判定されたときに前記システムから発話を発生可能な発話タイミングを決定する発話タイミング決定手段と、
複数の合意ワードと複数の終息ワードとを記憶した対話終了ワードデータベースとを有し、
前記運転者と同乗者の対話を行動誘発系対話と前記行動誘発系対話以外の対話とに分類し、
前記合意ワードに基づいて前記発話タイミングを決定したとき、前記行動誘発系対話に関連した発話を行うことを特徴とする車両用音声対話システム。