JP2017211539A

JP2017211539A - 音声処理システムおよび音声処理方法

Info

Publication number: JP2017211539A
Application number: JP2016105257A
Authority: JP
Inventors: 聡彦渡部; Satohiko Watabe; 池野　篤司; Tokuji Ikeno; 篤司池野; 純一伊藤; Junichi Ito
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2017-11-30
Anticipated expiration: 2036-05-26
Also published as: JP6604267B2

Abstract

【課題】複数の車両間での意思疎通を支援する。【解決手段】音声処理システムは、第１の車両における会話音声に対して音声認識を行う音声認識手段と、前記音声認識の結果に基づいて、前記第１の車両における会話内容を決定する会話内容理解手段と、前記第１の車両の会話内容を知らせる発話を生成し、第２の車両において出力されるよう制御する出力制御手段と、を備える。前記第１の車両における会話内容に基づいて、当該会話内容を前記第２の車両に知らせるか否かを決定する伝達判断手段をさらに備え、前記伝達判断手段によって前記第１の車両における会話内容を第２の車両に知らせると決定した場合に、前記出力制御手段が、前記第１の車両の会話内容を知らせる発話が前記第２の車両において出力されるように制御する、ことが好ましい。【選択図】図１

Description

本発明は、音声処理システムに関し、特に、複数の車両間での意思疎通を支援するための音声処理システムに関連する。

大人数の集団が車両で移動する際、複数の車両に分乗することがある。その際に、車両間で意思疎通するために、電話（ボイスチャットアプリを含む）やテキストチャットを使用することが考えられる。テキストチャットは運転中のドライバが利用できないので、本開示では音声による意思疎通を検討する。

特許文献１は、複数の車両間でチャットを行う車載チャットシステムを開示する。特許文献１が開示する車載チャットシステムは、３台以上の車両から構成され、ある車両からの発話をその他の車両に配信し、配信後一定時間以内に他の２台以上の車両から発生した競合する音声に対しては、選別基準にしたがっていずれか１つのみを選別して各車両に配信する。

特開２００６−１９５５７７号公報

音声伝送は、状況によっては話者が特定できないという問題や、人間同士で発話がかぶりターンテイキング（発話をいつ開始するかの決定）が難しいという問題がある。さらに特許文献１の手法では、複数車両で同時に発話が行われた場合に、１つの音声しか配信されないため、発話が通じないあるいは不自然になる可能性がある。

多人数による対面での会話では音声以外のマルチモーダルな情報を使って話者や発話タイミングを判断している。したがって、車両の乗員が音声のみに頼って意思疎通しようとすると、困難が生じる。

このような状況を考慮して、本発明は、複数の車両間での意思疎通を支援可能な音声処理システムを提供することを目的とする。

本発明の一態様に係る音声処理システムは、
第１の車両における会話音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果に基づいて、前記第１の車両における会話内容を決定する会話内容理解手段と、
前記第１の車両の会話内容を知らせる発話を生成し、第２の車両において出力されるよう制御する出力制御手段と、
を備えることを特徴とする。

このように本態様に係る音声処理システムは、車両内の会話をそのまま他の車両に送信するのではなく、車両内の会話内容を決定してその概要を知らせる。他の車両でどのような会話が行われているかを示す概要を知らせることにより、車両間の意思疎通を十分に支援でき、かつ、従来技術における上述した困難を回避できる。

本態様において、前記第１の車両における会話内容に基づいて、当該会話内容を前記第２の車両に知らせるか否かを決定する伝達判断手段をさらに備え、
前記伝達判断手段によって前記第１の車両における会話内容を第２の車両に知らせると決定した場合に、前記発話生成手段による発話の生成、および前記出力制御手段による発話の送信を実行する、ことが好適である。

このような構成によれば、必要性が低い会話を他車両に通知することを抑制でき、必要な会話に限定して他車両に通知することができる。

本態様において、前記伝達判断手段は、前記第１の車両における会話があらかじめ定められた話題に関する場合に、前記第１の車両における会話内容を前記第２の車両に知らせると決定する、ことができる。あらかじめ定められた話題は任意のものであって構わないが、例として今後の予定、現在地、周囲のランドマーク、目的地、出発地に関する話題とすることができる。各車両のユーザの個人プロファイルが利用できる場合には、グループ内で共通する属性に関する話題を採用することも好適である。

本態様において、前記伝達判断手段は、前記第２の車両の位置情報または車両制御情報も考慮して、前記第１の車両の会話内容を前記第２の車両に知らせるか否かを決定する、ことも好ましい。

たとえば、第２の車両が、交通安全上危険であったり運転操作に集中する必要があると事前に分かっている場所にあるときや、運転操作を頻繁に行っているときには、第２の車両に対して通知を行うと運転を阻害するおそれがあるので、このような場合には第１の車両の会話内容を知らせないことが好ましい。なお、伝達判断手段は、このような状況が解消した時点で、第１の車両の会話内容を第２の車両に通知するように決定する、すなわち、前記第２の車両の位置情報または車両制御情報も考慮して第１の車両の会話内容の通知タイミングを決定するようにすることも好ましい。

本態様において、前記音声認識手段は前記第２の車両における会話音声に対しても音声認識を行い、前記会話内容理解手段は、前記第２の車両の会話音声に対する音声認識結果に基づいて、前記第２の車両の会話内容を決定し、前記伝達判断手段は、前記第２の車両の会話の状況も考慮して、前記第１の車両の会話内容を前記第２の車両に知らせるか否かを決定する、ことも好ましい。

たとえば、第２の車両において会話の活発さに応じて、通知する会話の量が増減するようにするとよい。第２の車両の会話が停滞しているときはより多くの会話を通知するようにし、逆に第２の車両の会話が活発な場合には重要な会話のみを通知するようにすることが考えられる。

本態様において、前記伝達判断手段は、前記第１の車両の車両制御情報に基づいて前記第１の車両が危険回避行動を取ったと判断される場合には、そうでない場合とは異なる判断基準にしたがって前記第１の車両の会話内容を前記第２の車両に知らせるか否かを決定する、ことができる。

危険回避行動は、危険を回避するために取る車両の行動であり、たとえば急ブレーキや急ハンドルが相当する。危険回避行動を取った場合は、車両の安全に関する話題を優先的に他車両に通知するように構成すると、他車両においても危険を察知でき余裕を持って回避行動を取ることができる。

本態様に係る音声処理システムは、たとえば、その機能の全てを第１および第２の車両と通信可能な１台または複数台のコンピュータ（車載以外）によって構成されてもよい。また、一部または全ての機能が、１台または複数台の車両に搭載されても構わない。たとえば、音声認識処理の一部を車両内で実行し、音声認識処理の結果をその他の機能を実行するサーバに送信してもよい。

本態様に係る音声処理システムは、車載コンピュータのみによって構成されてもよい。たとえば、車載コンピュータが車両内の会話を分析して、他の車載コンピュータに会話内容を通知するように構成してもよい。この場合、伝達判断手段の機能は、送信車両と受信車両の双方で分担してもよい。たとえば、送信車両は会話が所定の話題であればその会話内容を送信し、受信車両は適切なタイミングか否かを判断した上で通知された会話内容を出力するようにしてもよい。また、送信車両と受信車両の両方で会話を伝達すべきかを判断してもよい。

なお、本発明は、上記処理の少なくとも一部を実行する発話タイミング決定方法として捉えることもできる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、複数の車両間での意思疎通を適切に支援できる。

第１の実施形態に係る音声処理システムの構成例を示す図。第１の実施形態における処理の流れを示すフローチャート。第１の実施形態における伝達判断処理の流れを示すフローチャート。第２の実施形態における伝達判断処理の流れを示すフローチャート。第３の実施形態に係る音声処理システムの構成例を示す図。第３の実施形態における伝達判断処理の流れを示すフローチャート。第５の実施形態における伝達判断処理の流れを示すフローチャート。変形例に係る音声処理システムの構成例を示す図。別の変形例に係る音声処理システムの構成例を示す図。

以下、図面を参照しながら本発明の例示的な実施形態を説明する。なお、以下の説明は本発明を例示的に説明するものであり、本発明は以下の実施形態に限定されるものではない。

（第１の実施形態）
＜システム構成＞
図１は、第１の実施形態にかかる音声処理システム１のシステム構成を示す図である。本実施形態にかかる音声処理システム１は、車両に搭載された車載システム１０と、センターサーバにより構築されるエージェントシステム２０を含んで構成される。音声処理システム１を構成する車両にはそれぞれ車載システム１０が搭載されている。図１では、３台の車両Ａ〜Ｃを示しているが、音声処理システム１に含まれる車両は２台以上であれば何台であってもよい。

車両Ａ〜Ｃは、同一のグループに属するものとしてエージェントシステム２０に登録されている車両である。たとえば、集団が複数の車両に分乗して同一の目的地に向かうよう
なケースが想定される。ここで、各車両内における会話は車載システム１０からエージェントシステム２０に送信され、エージェントシステム２０は各車両内で行われている会話の内容を把握する。エージェントシステム２０は、ある車両内での会話をグループ内の他の車両に知らせる必要があるか判断し、必要があると判断した場合は、会話内容の要約を他の車両に知らせる制御を行う。このようにすることで、グループ内のユーザは他の車両で行われている会話を知ることができる。

［車載システム］
車載システム１０は、演算プロセッサ、記憶装置、カメラ・マイク・ボタン・タッチパネルのような入力装置、スピーカーやディスプレイのような出力装置、通信装置を含むコンピュータを備える。車載システム１０は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、音声入力部１１、音声出力部１２、制御部１３として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。

音声入力部１１は、１つまたは複数のマイクまたはマイクアレイから音声を取得する。音声入力部１１によって取得された音声は、制御部１３によって通信装置（不図示）を介してエージェントシステム２０に送信されるこの際、音声データをそのままエージェントシステム２０に送信してもよいし、車載システム１０が雑音除去・音源分離・発話特徴量抽出のような前処理を行ってからエージェントシステム２０に送信してもよい。

音声出力部１２は、エージェントシステム２０から送信される発話内容（テキスト）に対応する音声を合成処理により生成し、スピーカーから出力する。音声合成には既存の任意の技術、たとえば波形接続型音声合成やフォルマント合成を利用可能である。

制御部１３は、車載システム１０の全体的な制御を司る。制御部１３は、音声入力部１１からの音声の取得、取得した音声のエージェントシステム２０への送信、エージェントシステム２０から受信した発話指示にしたがった音声出力部１２からの音声出力、のような制御を行う。

車載システム１０は、無線通信装置を介してエージェントシステム２０と無線通信を行う。無線通信装置は、無線ＬＡＮ（ＩＥＥＥ８０２．１１系規格）、ＷｉＭＡＸ（ＩＥＥＥ８０２．１６系規格）、ＬＴＥなどのセルラー通信のような既存の任意の無線通信方式を利用可能である。

［エージェントシステム］
エージェントシステム２０は、演算プロセッサ、記憶装置、入力装置、出力装置、通信装置を含むサーバコンピュータによって構成される。エージェントシステム２０は、演算プロセッサが記憶装置に記憶されたプログラムを実行することにより、音声認識部２１、会話内容理解部２２、伝達判断部２３、発話生成部２４、発話指示部２５として機能する。これらの機能部のうちの一部または全部は、専用のロジック回路により実現されても構わない。

音声認識部２１は、車載システム１０から送信される音声データに対して雑音除去・音源分離・発話特徴量抽出の処理を行い、音響モデル・言語モデル・発話辞書を含む音声認識辞書を参照して、発話の内容をテキスト化する。音声認識部２１は、既存の音声認識技術を用いて音声認識を行えばよい。会話は送信元車両ごとにテキスト化され、好ましくはユーザごとにテキスト化される。音声認識部２１は、認識したユーザの発話を会話内容理解部２２に送信する。

会話内容理解部２２は、音声認識部２１から送信される各車両で行われている会話の内容を理解する。

会話内容理解部２２は、会話に含まれるそれぞれの発話について、記憶部に記憶されている語彙意図理解用辞書（不図示）を参照して、発話の意図および話題を推定する。発話の意図には、例えば、話題の切り出し、提案、提案への賛成・反対、意見の集約が含まれる。発話の話題には、例えば、発話のジャンル、場所、ものが含まれる。発話のジャンルには、例えば、飲食、旅行、音楽、天候が含まれる。話題となっている場所には、例えば、地名、ランドマーク、店舗名、施設名が含まれる。語彙意図理解用辞書には、「話題を切り出す、提案する、質問する、賛成する、反対する、物事を集約する」といった場合にそれぞれ使われる語彙や、発話のジャンルを特定するための「飲食、旅行、音楽、天候」に関する語彙や、話題となっている場所を特定するための「地名、ランドマーク、店舗名、施設名」に関する語彙の辞書が含まれる。

これらの辞書を用いた処理の結果、会話内容理解部２２は、各発話について、「何をどうしたいか」といった話者の意図と、話題となっているジャンルを推定することができる。「お昼にうどん食べたいね？」というテキストについては、辞書との照合により、「お昼」「うどん」「食べたい」という語からジャンルが「昼食」とくに「うどん」であること、「ね？」という語から発話の意図が「提案」であることが推定できる。また、「いいね。いこうか」というテキストから発話の意図が「同意」であると判断できる。

会話内容理解部２２は、会話に含まれる各発話の内容にしたがって、会話の内容を決定する。会話の内容は、たとえば、会話全体の話題、会話の意図、会話の要約によって特定できる。たとえば、会話内容理解部２２は会話の内容が、「昼食にうどんを食べるという決定」、「昼食についての協議」であるというように決定することができる。

伝達判断部２３は、会話内容理解部２２が決定した会話の内容と、伝達基準記憶部２３ａに記憶された伝達基準とに基づいて、会話内容を他の車両に対して伝達するべきであるか否かを判断する。伝達基準は任意のものであってよい。たとえば、会話の話題が特定の話題であるか否かに基づいて、伝達するか否かを判断することができる。他車両に伝達すべき話題の例として、今後の予定、現在地、周囲のランドマーク、目的地、出発地に関する話題を挙げられるが、これらに限定されない。各車両のユーザの個人プロプロファイルが利用できる場合には、グループ内で共通する属性に関する話題を採用するようにしてもよい。

発話生成部２４は、会話内容を他車両に伝達する場合の発話（テキスト）を生成する。生成される発話は、伝達する会話の内容を表すものとする。会話を要約する場合に、どの程度の抽象度で要約するかは適宜決定すればよい。たとえば、ある車両内で昼食に何を食べるか協議し結論が得られた場合に、「車両Ａでは、お昼にうどんを食べたいと言っています」、「車両では昼食をどうするか話しています」のような会話の要約・概要を発話文として生成することができる。

発話指示部２５は、発話生成部２４によって生成された発話文を、当該発話を出力すべき車両に対して送信する。発話指示を受信した車両は、音声出力部１２から生成された発話を出力する。なお、発話生成部２４と発話指示部２５を合わせて本発明における出力制御部と捉えられる。

＜処理フロー＞
図２は、本実施形態に係るエージェントシステム２０における処理の流れを示す図である。図２に示すフローチャートは、１つの会話（１台の車両から得られる会話）に対する
処理であり、グループを構成する各車両から得られる会話に対して同様の処理が行われる。

なお、図２に示す処理の前後に、車載システム１０が音声入力部１１から会話音声を取得しエージェントシステム２０に送信する処理、および音声出力部１２がエージェントシステム２０から送信される発話指示に従って発話音声を出力する処理があるが、ここではエージェントシステム２０での処理に絞って説明する。

ステップＳ１０１において、エージェントシステム２０は、各車両の音声入力部１１が取得した会話音声を、無線通信によって車載システム１０から取得する。ステップＳ１０２において、音声認識部２１が、取得した会話音声に音声認識処理を施し、発話音声をテキスト化する。ステップＳ１０３において、会話内容理解部２２が、発話音声のテキストに基づいて、会話の話題・意図・要約のような会話内容を理解する。ここまでの処理により、それぞれの車両においてどのような会話が行われているかを、エージェントシステム２０が理解できる。

なお、会話内容の理解は、車両単位で行えばよいが、車両内のユーザ（話者）単位で行うとさらに好適である。話者単位でどのような発話を行ったかを把握できると、より詳細に車両内の会話の内容を分析できるためである。

ステップＳ１０４において、伝達判断部２３は、取得した会話を他の車両に対して伝達するか否かを決定する。ステップＳ１０４における伝達判断処理の詳細を図３に示す。伝達判断部２３は、ステップＳ３００において、取得した会話が伝達基準記憶部２３ａに格納されている所定の話題に関するものであるか否かを判断する。取得した会話の話題が所定の話題に関するものであれば（Ｓ３００−ＹＥＳ）、伝達判断部２３はこの会話を他の車両に伝達すると判断し（Ｓ３０１）、そうでなければこの会話は他の車両に伝達しないと判断する（Ｓ３０２）。

会話を他の車両に伝達すると判断された場合（Ｓ１０４−ＹＥＳ）には、ステップＳ１０５に進み、発話生成部２４にこの会話を他車両に知らせる際の発話（テキスト）を決定する。ステップＳ１０６において発話指示部２５は、生成した発話を車両内において出力するように指示する発話指示を、会話を取得した車両以外の車両に対して送信する。

なお、発話指示を受信した車両は、受信直後に発話の出力を行う必要は無く、適宜のタイミングで出力を行えばよい。たとえば、車両内でユーザ同士が会話をしている場合にはその会話が中断したタイミングで発話を出力することが考えられる。また、ドライバが運転操作に集中しているまたは集中する必要があると推定される場合には、そのような状況が解消したタイミングで発話を出力することも考えられる。

＜実施形態の有利な効果＞
本実施形態に係る音声処理システムによれば、ある車両で行われている会話を他車両に伝達する必要があるか否かをエージェントシステム２０が判断し、伝達の必要があると判断される会話については、その会話の要約が他車両に知らされる。異なる車両内のユーザ同士が直接コミュニケーションを取らなくても、エージェントシステムから会話の要約が送信されるので、他の車両内でどのような会話が行われているのかを十分に把握可能である。

本実施形態では、音声を用いた入力および出力（通知）を行っているため、運転中であってもドライバも利用可能である。また、車両内のユーザ数に関わらず、車両内に１つのマイク（入力装置）およびスピーカー（出力装置）があればよいので、構成を単純化でき
る。また、音声を利用しているが、異なる車両間のユーザが直接会話を行わないので、ターンテイキングに関する問題も生じないという利点がある。雑談のような直感的な会話では音声のみでの多人数会話は困難であるが、そのような問題が生じない。また、通信が途絶した場合であっても影響が少なく、通信回復後に他車両の会話の内容の通知を受けることもできる。

（第２の実施形態）
会話を他車両に伝達するか否かの判断は、図３に示す処理以外の方法で行ってもよい。本実施形態は、伝達判断処理Ｓ１０４が第１の実施形態と異なる。その他の構成は第１の実施形態とほぼ同様であるため、相違点についてのみ説明する。

図４は、本実施形態における伝達判断処理Ｓ１０４の内容を示すフローチャートである。なお、第１の実施形態では、会話の内容のみに基づいて伝達するかどうかを決定しているが、本実施形態では、伝達先の車両の状況も考慮して伝達するかどうか決定する。したがって、図４の処理は、伝達元の車両および伝達先の車両ごとに実行される。以下では、伝達先の候補となる車両のことを、対象車両と称する。

エージェントシステム２０は、グループ内の各車両の会話を認識しその内容を理解している。したがって、ステップＳ３０３において、伝達判断部２３は対象車両内における会話の活発度を判定できる。会話の活発度は、たとえば、単位時間あたりの発話数、発話間の時間間隔、発話に使われる言い回しや語句から判定可能である。

対象車両において会話の活発度が通常程度以上に活発であれば（Ｓ３０３−ＮＯ）、伝達判断部２３は、会話を伝達するか否かの基準として通常の基準を採用する（Ｓ３０４）。一方、対象車両において会話が停滞している場合（Ｓ３０３−ＹＥＳ）には、通常よりも緩い基準を採用する（Ｓ３０５）。

本実施形態では、車両内での会話の活発度に応じて伝達する会話の基準を変更できるように、複数の基準を伝達基準記憶部２３ａをあらかじめ記憶しておく。基準が話題に基づく場合には、通常よりも緩い基準では、より多くの話題が他車両として登録される。

ステップＳ３００〜Ｓ３０２の処理内容は第１の実施形態と同様であるので説明を省略する。

本実施形態によれば、車両内で会話が停滞しているときには、より多くの他車両の会話が通知されることになるので、車両内での会話を促すことができる。

なお、上記の説明では会話の活発度に応じて伝達基準を２種類のいずれかから選択するようにしているが、会話の活発度を３段階以上に分類してそれぞれ異なる基準を採用するようにしてもよい。

また、上記の説明では、伝達先車両の会話活発度に応じて伝達基準を変えているが、伝達先車両内のその他の状況を考慮して伝達基準を変えてもよい。たとえば、伝達先車両において行われている会話の内容に基づいて、類似する話題の会話をより積極的に伝達するように判断するような伝達基準を採用することが考えられる。

（第３の実施形態）
第１の実施形態では会話内容に基づいて会話を他車両に伝達するか否かを決定しているが、本実施形態では会話内容以外の情報も用いて、会話を他車両に伝達するか否かを判断する。

図５は本実施形態における音声処理システム１のシステム構成を示す図である。本実施形態において車両が備える車載システム３０は、音声入力部１１、音声出力部１２、制御部１３に加えて、位置情報取得部１４および車両制御情報取得部１５を含む。

位置情報取得部１４は、ＧＰＳ装置（あるいはＧＮＳＳ装置）から車両の現在位置を取得する。車両の現在位置は、携帯基地局測位によって取得したり、ジャイロやマップマッチングにより補正したものであってもよい。

車両制御情報取得部１５は、車両の制御に関する情報、たとえば、速度、加速度、ヨーレート、エンジン回転数、アクセル開度、ブレーキ踏み込み量、ハンドル操舵角、方向指示器のオンオフ、自動運転機能あるいは運転アシスト機能のオンオフのような情報を取得する。

本実施形態では、制御部１３は、音声入力部１１が取得する音声に加えて、位置情報取得部１４が取得する位置情報および車両制御情報取得部１５が取得する車両制御情報もエージェントシステム２０に送信する。

本実施形態におけるエージェントシステム２０の構成は第１の実施形態とほぼ同様であるが、危険箇所記憶部２３ｂを備える点で異なる。危険箇所記憶部２３ｂには、事故が起こりやすい位置あるいは運転に集中する必要がある位置（以下ではこれらを危険箇所と称する）に関する情報が格納される。危険箇所記憶部２３ｂの生成方法は特に限定されない。

図６は、本実施形態における伝達判断処理Ｓ１０４の内容を示すフローチャートである。なお、第１の実施形態では、会話の内容のみに基づいて伝達するかどうかを決定しているが、本実施形態では、伝達先の車両の状況も考慮して伝達するかどうか決定する。したがって、図６の処理は、伝達元の車両および伝達先の車両ごとに実行される。以下では、伝達先の候補となる車両のことを、対象車両と称する。

ステップＳ３００における処理は第１の実施形態と同様である。なお、第２の実施形態態と同様に対象車両の会話状況に応じて、ステップＳ３００の選択基準を動的に変えるようにしても構わない。

会話が所定の話題ではないとき（Ｓ３００−ＮＯ）に伝達しないと判断する（Ｓ３０２）点は第１の実施形態と同じであるが、会話が所定の話題であるとき（Ｓ３００−ＹＥＳ）であっても即座に会話を伝達するとは判断せずにステップＳ３０６に進む。

ステップＳ３０６では、伝達判断部２３は、対象車両が危険箇所に位置するか否かを判定する。この判定は、対象車両から取得される位置情報と、危険箇所記憶部２３ｂにおいて指定されている危険箇所を照合することにより行える。対象車両が危険箇所に位置しない場合（Ｓ３０６−ＮＯ）には、伝達判断部２３はステップＳ３０７においてさらに、対象車両が運転操作に集中する必要があるか否かを判定する。この判定は、対象車両から取得される車両制御情報に基づいて行える。たとえば、ハンドル操作中・車線変更中などの場合に運転操作に集中する必要があると判定できる。

対象車両が危険箇所に位置せず（Ｓ３０６−ＮＯ）かつ運転操作への集中が必要ではない場合（Ｓ３０７−ＮＯ）には、伝達判断部２３は会話を対象車両に伝達すると判断する（Ｓ３０１）。

一方、対象車両が危険箇所に位置する（Ｓ３０６−ＹＥＳ）かまたは運転操作に集中が必要である場合（Ｓ３０７−ＹＥＳ）には、伝達判断部２３は、一定時間の待機（Ｓ３０８）の後に再びステップＳ３０６〜Ｓ３０７の判定を行う。

このようにすれば、対象車両（伝達先の候補の車両）の車両状態も考慮した上で、会話を伝達するかどうかを判断できる。本実施例の手法では、音声出力による通知が適切ではないタイミングにエージェントシステム２０から車載システム３０に対して、発話の指示が送られるのを避けることができる。

（第４の実施形態）
第３の実施形態では対象車両の車両制御情報を、エージェントシステム２０からの発話指示の送信タイミングを決定するために利用しているが、伝達すべき会話内容の選択基準を対象車両の車両制御情報に応じて変えてもよい。たとえば、対象車両の位置情報を考慮して当該位置に対応する会話を伝達すると判断するようにすることができる。あるいは、自動運転機能がオンかオフかによって、異なる基準で会話を伝達するか否かを判断するようにもできる。

（第５の実施形態）
本実施形態では、会話を行っている車両（伝達元の車両）の車両制御状態も考慮して、会話を他車両に送信するか否かを決定する。本実施形態の構成は第３の実施形態と同様である。

図７は、本実施形態における伝達判断処理Ｓ１０４の内容を示すフローチャートである。まず、ステップＳ３０９において、伝達するか否かの判断の対象となっている会話の取得元の車両が、危険回避行動を行ったか否かを伝達判断部２３が判断する。危険回避行動の例として、たとえば急ブレーキや急ハンドルが挙げられる。

車両が危険回避行動を行っていない場合（Ｓ３０９−ＮＯ）には、会話を伝達するか否かの基準として通常の基準を採用する（ステップＳ３１０）。一方、車両が危険回避行動を行った場合（Ｓ３０９−ＹＥＳ）には、会話の伝達基準として、通常の基準に合致する会話に加えて、交通安全や路上の障害物に関する話題も伝達すると判断するような基準を採用する。基準が決定された後のステップＳ３００〜Ｓ３０２の処理は第１の実施形態と同様である。

このようにすれば、たとえば路上に障害物があって回避行動を取った後の、障害物や回避行動に関する会話を他の車両に伝達することができる。

本実施形態において、伝達元の会話を行っている車両の位置と伝達先の車両の位置とを考慮し、伝達先の車両の方が後方に位置することをさらに条件として、判別の基準を変えてもよい。伝達先車両の後方での危険を通知する必要性は低いと考えられるためである。

＜変形例＞
［車両間の直接会話］
車載システム１０に対してユーザが特定のキーワードを発した場合には、車両間で直接会話モードに切り替えるようにしてもよい。このようにすれば、エージェントシステム２０から通知される他車両の会話に基づいて、必要に応じて車両間のユーザが直接会話することができる。

［構成の変形］
上記の説明では、音声処理システム１が車載システム１０とエージェントシステム２０
から構成される例を説明したが、具体的なコンピュータ（ハードウェア）の配置は任意であり、システム全体として上記で説明した機能が提供されればよい。

図８はシステム構成の一変形例を示す図である。この例では、音声認識処理を行う音声認識サーバ４０が導入されており、エージェントシステム２０は音声認識機能を備えない。車載システム１０は会話音声を音声認識サーバ４０に送信し、音声認識サーバ４０が会話音声をテキスト化して車載システム１０へ送信する。車載システム１０は、その後に会話のテキストをエージェントシステム２０に送信する。

図８は音声認識処理の機能を複数の装置によって分担する例といえる。分担する機能は音声認識処理に限られず、上記実施形態中の任意の機能であって構わない。

たとえば、伝達判断部２３の機能をエージェントシステム２０と車載システム１０のあいだで分館することも好ましい。第２から第５の実施形態において、エージェントシステム２０の伝達判断部２３が、発話の内容に加えて対象車両の状況（会話状況や車両制御状況）を考慮して、会話を伝達するか否かを判断している。これに対して、エージェントシステム２０（の伝達判断部２３）が発話の内容に基づいて会話を伝達するか否かを判断し、車載システム１０（の伝達判断部）が当該車両内の会話状況や車両制御状態を考慮して会話の伝達を行うか否かを判断するようにしてもよい。すなわち、エージェントシステム２０において伝達すべきと判断された会話の概要が車載システム１０に通知され、車載システム１０が実際にユーザへの伝達（出力）を行うか否かを決定する。この構成によれば、車両の状況に基づく判断を車両内で行うので、当該処理をサーバ側において行うよりも、正確かつ高速に処理を行えるという利点がある。

図９Ａはシステム構成のさらに別の変形例を示す図である。この例では、エージェントシステム２０はサーバにではなく各車両に搭載される。図９Ｂは図９Ａの構成例における処理例を示す図である。車両Ａ内のエージェントシステム２０が、当該車両Ａ内の会話を取得し（Ｓ２０１）、他の車両Ｂ，Ｃに伝達すべきか否かを判断する（Ｓ２０２）。この判断の際に伝達先の車両Ｂ，Ｃに関する情報が必要であれば、車両間で必要な情報を交換すればよい。他車両Ｂ，Ｃに伝達すべき会話と判断されると、車両Ａは会話の要約を含む発話内容を生成し他車両に送信する（Ｓ２０３）。車両Ｂ，Ｃはこの通知を受信する（Ｓ２０４）と、音声の出力が適切なタイミングであるか、すなわち車両内で会話中でないかあるいは運転操作に忙しくないかを判断し（Ｓ２０５）、音声出力が可能な状況であれば、送信された会話の概要を出力する（Ｓ２０６）。

このように車載タイプのエージェントシステムを用いても、サーバタイプのエージェントシステムを用いた場合と同様の効果を得ることができる。

１：音声処理システム
１０：車載システム１１：音声入力部１２：音声出力部１３：制御部
１４：位置情報取得部１５：車両制御情報取得部
２０：エージェントシステム
２１：音声認識部２２：会話内容理解部
２３：伝達判断部２４：発話生成部２５：発話指示部

Claims

第１の車両における会話音声に対して音声認識を行う音声認識手段と、
前記音声認識の結果に基づいて、前記第１の車両における会話内容を決定する会話内容理解手段と、
前記第１の車両の会話内容を知らせる発話を生成し、第２の車両において出力されるよう制御する出力制御手段と、
を備える、音声処理システム。
前記第１の車両における会話内容に基づいて、当該会話内容を前記第２の車両に知らせるか否かを決定する伝達判断手段をさらに備え、
前記伝達判断手段によって前記第１の車両における会話内容を第２の車両に知らせると決定した場合に、前記出力制御手段は、前記第１の車両の会話内容を知らせる発話が前記第２の車両において出力されるように制御する、
請求項１に記載の音声処理システム。
前記伝達判断手段は、前記第１の車両における会話があらかじめ定められた話題に関する場合に、前記第１の車両における会話内容を前記第２の車両に知らせると決定する、
請求項２に記載の音声処理システム。
前記伝達判断手段は、前記第２の車両の位置情報または車両制御情報も考慮して、前記第１の車両の会話内容を前記第２の車両に知らせるか否かを決定する、
請求項２から３のいずれか１項に記載の音声処理システム。
前記音声認識手段は前記第２の車両における会話音声に対しても音声認識を行い、
前記会話内容理解手段は、前記第２の車両の会話音声に対する音声認識結果に基づいて、前記第２の車両の会話内容を決定し、
前記伝達判断手段は、前記第２の車両の会話の状況も考慮して、前記第１の車両の会話内容を前記第２の車両に知らせるか否かを決定する
請求項２から４のいずれか１項に記載の音声処理システム。
前記伝達判断手段は、前記第１の車両の車両制御情報に基づいて前記第１の車両が危険回避行動を取ったと判断される場合には、そうでない場合とは異なる判断基準にしたがって前記第１の車両の会話内容を前記第２の車両に知らせるか否かを決定する、
請求項２から５のいずれか１項に記載の音声処理システム。
音声処理システムが実行する音声処理方法であって、
第１の車両における会話音声に対して音声認識を行う音声認識ステップと、
前記音声認識の結果に基づいて、前記第１の車両における会話内容を決定する会話内容理解ステップと、
前記第１の車両の会話内容を知らせる発話を生成し、第２の車両において出力されるよう制御する出力制御ステップと、
を含む、音声処理方法。
請求項７に記載の方法の各ステップをコンピュータに実行させるためのプログラム。