JP2021111255A

JP2021111255A - 情報処理システム

Info

Publication number: JP2021111255A
Application number: JP2020004257A
Authority: JP
Inventors: 龍司森田; Ryuji Morita; 佳祐福田; Keisuke Fukuda
Original assignee: RITERA KK
Current assignee: RITERA KK
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2021-08-02

Abstract

【課題】ユーザの要望事項に対応した応答情報をユーザに適切に提供できる情報処理システムを提供する。【解決手段】情報処理システム１は、言語処理サーバ２及び携帯端末３などを備える。目的地を含む音声がユーザから携帯端末３に入力された際、言語処理サーバ２では、言語学習モデル及び所定の自然言語処理を用いて、回答音声におけるユーザの目的地を認識し、これに応じて、所定のデータベースを参照することにより、目的地の第１候補地が決定される。その後、第１候補地を含む音声が携帯端末３から出力される。【選択図】図１６

Description

本発明は、ユーザの要望事項に対応する応答情報をユーザに提供する情報処理システムに関する。

従来、情報処理システムとして、特許文献１に記載されたものが知られている。この情報処理システムは、ユーザから入力された音声情報を認識して応答情報を出力するものであり、同文献の図６に示す例では、第１サーバ、第２サーバ及び端末装置を備えている。この情報処理システムでは、ユーザの音声が端末装置に入力された際、その音声情報が無線通信を介して、第１サーバに送信される。

第１サーバは、音声情報に基づき、ユーザの使用言語の種類を判定し、この判定結果を音声情報とともに、第２サーバに送信する。第２サーバは、音声認識機能により、この音声情報をテキストデータに変換して、第１サーバに返信する。第１サーバは、このテキストデータに応じて、応答テキストフレーズを選択し、これを第２サーバに送信する。第２サーバは、応答テキストフレーズを応答音声フレーズに変換し、これを第１サーバを介して、端末装置に送信する。それにより、応答音声フレーズに対応する応答情報が端末装置から音声として出力される。

特開２０１９−９０９４２号公報

同一言語を使用する民族においても、共通語とそれ以外の方言とが存在するのが一般的である。これに対して、上記従来の情報処理システムによれば、ユーザの使用言語の種類は判定可能であるものの、使用言語に存在する共通語及び方言を判定することはできないという問題がある。それにより、ユーザの要望事項が端末装置に入力された際、その要望事項を適切に認識できないことで、要望事項に対応した応答情報をユーザに適切に提供できない状態になってしまう。

本発明は、上記課題を解決するためになされたもので、ユーザの要望事項に対応した応答情報をユーザに適切に提供できる情報処理システムを提供することを目的とする。

上記目的を達成するために、本発明の情報処理システムは、言語の音声情報及び文字情報の少なくとも一方である入力情報がユーザによって入力される入力インターフェースと、言語における共通語及び方言を所定の機械学習法で学習することにより、言語が入力されたときに共通語及び方言の確率を出力するように構成された言語学習モデルを記憶する言語学習モデル記憶部と、ユーザの要望事項とユーザに対して提供する応答情報とをリンク付けした所定のデータベースを記憶するデータベース記憶部と、入力情報が入力インターフェースに入力された際、言語学習モデル及び所定の自然言語処理を用いて、入力情報の内容を認識する入力情報認識部と、入力情報認識部によって認識された入力情報の内容がユーザの要望事項を含んでいる場合、要望事項に応じて、所定のデータベースを参照することにより、応答情報を決定する応答情報決定部と、応答情報を音声情報及び文字情報の少なくとも一方として出力する出力インターフェースと、を備えることを特徴とする。

この情報処理システムによれば、入力情報がユーザによって入力インターフェースに入力された際、言語の言語学習モデル及び所定の自然言語処理を用いて、入力情報が認識される。この場合、入力情報は、言語の音声情報及び文字情報の少なくとも一方であり、言語学習モデルは、言語における共通語及び方言を所定の機械学習法で学習することにより、言語が入力されたときに共通語及び方言の確率を出力するように構成されたものであるので、特許文献１の場合と異なり、入力情報の内容を、言語の共通語及び方言のいずれにも対応しながら適切に認識することができる。

さらに、そのように認識された入力情報の内容がユーザの要望事項を含んでいる場合、要望事項に応じて、所定のデータベースを参照することにより、応答情報が決定され、応答情報が音声情報及び文字情報の少なくとも一方として出力される。その結果、ユーザの要望事項に対応した応答情報をユーザに適切に提供することができる。なお、本明細書における「情報処理システム」は、地理的属性取得部、入力インターフェース、学習モデル記憶部、データベース記憶部、入力情報認識部、応答情報決定部及び出力インターフェースをまとめて１つの装置に組み込んだ構成も含む。また、本明細書における「共通語」は、複数の国、一国、一国内における複数の地方、一国内における一地方、又は、一国内の一地方の一地域内で会話に使用される共通の言語を含む。

本発明において、ユーザの地理的属性を取得する地理的属性取得部をさらに備え、言語学習モデル記憶部は、言語における共通語及び複数の方言を学習した複数の言語学習モデルを記憶しており、入力情報認識部は、入力情報が入力インターフェースに入力された際、複数の言語学習モデルのうちの、ユーザの地理的属性に対応する言語学習モデル及び所定の自然言語処理を用いて、入力情報の内容を認識することを特徴とする。

この情報処理システムによれば、言語学習モデル記憶部には、言語における共通語及び複数の方言を学習した複数の言語学習モデルが記憶されている。そして、入力情報が入力インターフェースに入力された際、地理的属性取得部によって取得されたユーザの地理的属性に対応する言語の言語学習モデル及び所定の自然言語処理を用いて、入力情報の内容が認識される。以上のように、ユーザの使用言語における共通語及び複数の方言に対応しながら、入力情報の内容を適切に認識することができる。それにより、高い利便性を確保することができる。なお、本明細書における「ユーザの地理的属性」は、ユーザの現在位置及びユーザの出身地などを含む。

本発明において、言語学習モデル記憶部は、言語学習モデルとして、共通語及び複数の方言のいずれか１つが入力されたときに、共通語及び複数の方言の確率を出力する方言識別モデルと、複数の方言が入力されたときに、複数の方言の確率をそれぞれ出力する複数の方言判定モデルとを記憶しており、入力情報認識部は、入力情報の内容を認識する際、方言識別モデルを用いて入力情報が方言であるか否かを判定し、入力情報が方言であると判定した場合、複数の方言判定モデル及び所定の自然言語処理を用いて、入力情報の内容を認識することを特徴とする。

この情報処理システムによれば、言語学習モデルとして、共通語及び複数の方言のいずれか１つが入力されたときに、共通語及び複数の方言の確率を出力する方言識別モデルと、複数の方言が入力されたときに、複数の方言の確率をそれぞれ出力する複数の方言判定モデルとが記憶されており、入力情報の内容を認識する際、方言識別モデルを用いて入力情報が方言であるか否かが判定される。そして、入力情報が方言であると判定された場合、複数の方言判定モデル及び所定の自然言語処理を用いて、入力情報が認識されるので、入力情報の認識精度を向上させることができる。

本発明において、言語学習モデル記憶部は、共通語及び複数の方言のいずれか１つが入力されたときに共通語及び複数の方言の確率を出力する方言識別モデル、及び複数の方言が入力されたときに複数の方言の確率をそれぞれ出力する複数の方言判定モデルを用いて所定の方言を判定した結果と、共通語及び複数の方言のいずれか１つが入力されたときに共通語及び複数の方言の確率を出力する文書ベクトルモデルを用いて所定の方言を判定した結果とを比較した場合において、判定した結果の精度の高い方を言語学習モデルとして記憶しており、方言識別モデル及び複数の方言判定モデルでは、所定の機械学習法として、分散ベクトルを用いた機械学習法が実行され、文書ベクトルモデルでは、所定の機械学習法として、ＢｏＷ（ＢａｇｏｆＷｏｒｄｓ）を用いた機械学習法が実行されることを特徴とする。

この情報処理システムによれば、共通語及び複数の方言のいずれか１つが入力されたときに共通語及び複数の方言の確率を出力する方言識別モデル、及び複数の方言が入力されたときに複数の方言の確率をそれぞれ出力する複数の方言判定モデルを用いて所定の方言を判定した結果と、共通語及び複数の方言のいずれか１つが入力されたときに共通語及び複数の方言の確率を出力する文書ベクトルモデルを用いて所定の方言を判定した結果とを比較した場合において、判定した結果の精度の高い方が言語学習モデルとして記憶されているので、入力情報が所定の方言である場合、その認識精度を向上させることができる。

本発明において、入力情報は、ユーザの要望事項として、ユーザの目的地を含んでおり、所定のデータベースでは、応答情報としての、ユーザの目的地に対応する複数の候補地が、優先順位を付与された状態で目的地にリンク付けされており、応答情報決定部は、ユーザの目的地に応じて、所定のデータベースを参照することにより、複数の候補地の中から優先順位が最も高い第１候補地を選択し、第１候補地が目的地であるか否かをユーザに対して確認する第１確認情報を、応答情報として設定することを特徴とする。

この情報処理システムによれば、ユーザの目的地に応じて、ユーザの目的地に対応する複数の候補地の中から優先順位が最も高い第１候補地を選択し、これが目的地であるか否かをユーザに対して確認することができる。それにより、ユーザの目的地を効率よく確認することができる。なお、本明細書における「目的地」は、目標となる場所に限らず、目標となる建物も含む。

本発明において、応答情報決定部は、第１確認情報が出力インターフェースから出力された後、ユーザの目的地が第１候補地と異なることを表す入力情報が入力インターフェースに入力された際、所定のデータベースを参照することにより、ユーザの目的地に対応する複数の候補地の中から第１候補地の次に優先順位の高い第２候補地を選択し、第２候補地が目的地であるか否かをユーザに対して確認する第２確認情報を、応答情報として設定することを特徴とする。

この情報処理システムによれば、ユーザの目的地が第１候補地と異なっている場合、ユーザの目的地に対応する複数の候補地の中から第１候補地の次に優先順位の高い第２候補地を選択し、これが目的地であるか否かをユーザに対して確認することができる。それにより、ユーザの目的地をさらに効率よく確認することができる。

本発明において、応答情報決定部は、第１確認情報が出力インターフェースから出力された後、ユーザの目的地が第１候補地と異なることを表す入力情報が入力インターフェースに入力された際、所定のデータベースを参照することにより、ユーザの目的地に対応する候補地を選択し、候補地が第１候補地以外に複数存在する場合には、これら複数の候補地を応答情報として決定することを特徴とする。

この情報処理システムによれば、ユーザの目的地が第１候補地と異なっている場合、ユーザの目的地に対応する複数の候補地が目的地であるか否かをユーザに対して確認することができる。それにより、ユーザの目的地をさらに効率よく確認することができる。

本発明において、ユーザによって操作される操作部をさらに備え、言語学習モデル記憶部は、複数の言語における共通語及び複数の方言を学習した複数の言語学習モデルを記憶しており、出力インターフェースは、ユーザによって操作部が操作された際、ユーザの出身国及び出身地を質問する応答情報を出力し、地理的属性取得部は、応答情報が出力インターフェースから出力された後、ユーザの出身国及び出身地を表す入力情報が入力インターフェースに入力された際、ユーザの出身国及び出身地を地理的属性として取得し、入力情報認識部は、複数の言語学習モデルのうちの、ユーザの出身国及び出身地に対応する言語学習モデル及び所定の自然言語処理を用いて、入力情報の内容を認識することを特徴とする。

この情報処理システムによれば、ユーザによって操作部が操作された際、ユーザの出身国及び出身地を質問する応答情報が出力される。さらに、応答情報が出力インターフェースから出力された後、ユーザによってユーザの出身国及び出身地を表す入力情報が入力インターフェースに入力された際、ユーザの出身国及び出身地が地理的属性として取得される。そして、複数の言語学習モデルのうちの、ユーザの出身国及び出身地に対応する言語学習モデル及び所定の自然言語処理を用いて、入力情報の内容が認識されるので、ユーザの使用言語における共通語及び複数の方言に対応しながら、入力情報の内容を適切に認識することができる。それにより、利便性を向上させることができる。

本発明において、入力情報は、ユーザの要望事項として、ユーザの目的地及び目的地の属性を含んでおり、所定のデータベースは、目的地の候補地と候補地の属性とをリンク付けしたデータを含んでおり、応答情報決定部は、目的地及び目的地の属性に応じて、所定のデータベースを参照することにより、目的地の候補地を選択し、候補地が目的地であるか否かをユーザに対して確認する確認情報を、応答情報として設定することを特徴とする。

この情報処理システムによれば、ユーザの目的地及び目的地の属性に応じて、所定のデータベースを参照することにより、目的地の候補地を選択し、これが目的地であるか否かをユーザに対して確認することができる。それにより、ユーザの目的地をより一層、効率よく確認することができる。

本発明において、目的地の属性は、目的地周辺のイベントの開催情報、目的地に関連するトレンドワード、目的地周辺の天候情報及び目的地周辺の季節情報の少なくとも一つであることを特徴とする。

この情報処理システムによれば、目的地周辺のイベントの開催情報、目的地に関連するトレンドワード、目的地周辺の天候情報及び目的地周辺の季節情報の少なくとも一つと目的地に応じて、目的地の候補地を選択することができる。それにより、ユーザの目的地を精度よくかつ適切に確認することができる。

本発明において、ユーザの年齢を取得する年齢取得部をさらに備え、データベース記憶部は、所定のデータベースとして、複数の年齢層にそれぞれ対応する複数のデータベースを記憶しており、応答情報決定部は、ユーザの年齢に応じて、複数のデータベースのいずれか１つを選択し、１つのデータベースを参照することにより、応答情報を決定することを特徴とする。

この情報処理システムによれば、ユーザの年齢が取得され、ユーザの年齢に応じて、複数のデータベースのいずれか１つが選択される。そして、１つのデータベースを参照することにより、応答情報が決定されるので、ユーザの年齢に応じて、応答情報を適切に決定することができる。

本発明の車両管理システムは以上に記載の情報処理システムと、ユーザが目的地まで乗車可能な自動運転車両と、を備えることを特徴とする。

この車両管理システムによれば、ユーザの目的地を確認しながら、ユーザを自動運転車両によって目的地まで適切に送り届けることができる。

本発明の旅客輸送システムは、以上に記載の情報処理システムを備え、出力インターフェースは、ユーザの現在地から目的地までの経路及び費用の少なくとも一方を応答情報として出力することを特徴とする。

この情報処理システムによれば、ユーザの目的地を確認しながら、ユーザの現在地から目的地までの経路及び費用の少なくとも一方をユーザに適切に提供することができる。

本発明の第１実施形態に係る情報処理システムとしての車両管理システムを模式的に示す図である。言語処理サーバの電気的な構成を示すブロック図である。携帯端末の電気的な構成を示すブロック図である。第１学習装置の機能的な構成を示すブロック図である。第２学習装置の機能的な構成を示すブロック図である。沖縄方言の形態素解析結果の一例を示す図である。共通語の形態素解析結果の一例を示す図である。沖縄方言の分散ベクトルの一例を示す図である。共通語の分散ベクトルの一例を示す図である。沖縄方言の２グラム解析結果及び３グラム解析結果の一例を示す図である。共通語の２グラム解析結果及び３グラム解析結果の一例を示す図である。沖縄方言のユニグラム解析結果にｌａｂｅｌｅｎｃｏｄｉｎｇを適用したデータ例を示す図である。共通語のユニグラム解析結果にｌａｂｅｌｅｎｃｏｄｉｎｇを適用したデータ例を示す図である。沖縄方言のＯｎｅ−Ｈｏｔ表現のマトリクスの一例を示す図である。共通語のＯｎｅ−Ｈｏｔ表現のマトリクスの一例を示す図である。車両管理システムにおける情報通信処理の一部を示す図である。車両管理システムにおける情報通信処理の他の一部を示す図である。ユーザ認識処理を示すフローチャートである。携帯端末における選択画面の表示例を示す図である。１回目応答決定処理を示すフローチャートである。２回目応答決定処理を示すフローチャートである。第２実施形態に係る情報処理システムとしての車両管理システムを模式的に示す図である。

以下、図面を参照しながら、本発明の一実施形態に係る情報処理システムとしての車両管理システムについて説明する。図１に示すように、本実施形態の車両管理システム１は、言語処理サーバ２、多数の携帯端末３（１つのみ図示）及び多数の自動運転車両４（１つのみ図示）などで構成されている。

この車両管理システム１は、タクシータイプの自動運転車両４の運行状態を管理するものであり、例えば、自動運転車両４によるユーザ（図示せず）の送迎を管理するものである。

言語処理サーバ２では、後述するように、ユーザの自動運転車両４の利用時、ユーザの携帯端末３との間で情報通信処理などが実行される。なお、本実施形態では、言語処理サーバ２が、言語学習モデル記憶部、データベース記憶部、入力情報認識部及び応答情報決定部に相当する。

言語処理サーバ２は、図２に示すように、演算部２ａ、記憶部２ｂ及び無線通信回路２ｃなどを備えている。この演算部２ａは、ＣＰＵなどで構成されており、後述するように、記憶部２ｂ内の言語学習モデル及びデータベースを用いて、情報通信処理などの各種制御処理を実行する。なお、本実施形態では、演算部２ａが、入力情報認識部及び応答情報決定部に相当する。

また、記憶部２ｂは、ＲＡＭ、Ｅ２ＰＲＯＭ及びＲＯＭなどのメモリ及びＨＤＤなどのストレージで構成されており、言語学習モデル及びデータベースなどを記憶している。これらの言語学習モデルの詳細については後述する。なお、本実施形態では、記憶部２ｂが言語学習モデル記憶部及びデータベース記憶部に相当する。

一方、データベースには、各地方の各地点と、多数の目的地の候補地と、多数の候補地の属性とをリンク付けしたデータが含まれている。これらの多数の候補地は、自動運転車両４の利用者が各地点から目的地とする可能性が高い候補地であり、多数の候補地は、各地点に対して、優先順位を付与された状態でリンク付けされている。この優先順位は、ユーザ全般によって候補地が選択される可能性（確率）に対応するものであり、これらの可能性は、ユーザ全般が自動運転車両４を利用した際の統計データ（例えば各地点からの移動先を過去数年にわたって集計したデータ）などを用いて算出される。

また、目的地としては、医療施設、商業施設、公共施設、アミューズメント施設、店舗及び寺社仏閣などが含まれている。さらに、目的地の属性（関連情報）としては、目的地周辺のイベントの開催情報、目的地に関連するトレンドワード、目的地周辺の天候情報、及び目的地周辺の季節情報の少なくとも一つが含まれている。

さらに、無線通信回路２ｃは、無線通信網５を介して、携帯端末３及び自動運転車両４の後述する車載コントローラ６との間で無線信号を送受信可能に構成されている。以上の構成により、この言語処理サーバ２では、携帯端末３及び車載コントローラ６の間において、データ通信が無線通信網５を介して実行される。

一方、携帯端末３は、スマートフォンタイプのものであり、図３に示すように、演算部３ａ、ディスプレイ３ｂ、スピーカ３ｃ、マイロフォン３ｄ、メモリ３ｅ、位置検出部３ｆ及び無線通信回路３ｇなどを備えている。なお、本実施形態では、携帯端末３が、入力インターフェース、出力インターフェース、地理的属性取得部及び操作部に相当する。

演算部３ａは、ＣＰＵなどで構成されており、後述するように、ユーザの動作に伴い、各種の制御処理を実行する。

また、ディスプレイ３ｂは、静電容量型のタッチパネルで構成されており、携帯端末３の前面のほぼ大部分に渡って配置されている（図１９参照）。このディスプレイ３ｂでは、各種アプリケーションソフトの実行中、各種のアイコン及びメニューなどがＧＵＩ方式で表示される。

さらに、ディスプレイ３ｂでは、ユーザによる入力操作（例えば、タップ、スワイプ、ピンチアウト及びピンチイン）が実行されたときに、それを表す操作信号が演算部３ａに出力される。なお、本実施形態では、ディスプレイ３ｂが入力インターフェース、出力インターフェース及び操作部に相当する。

一方、スピーカ３ｃは、演算部３ａからの音声信号を外部に出力し、マイロフォン３ｄは、ユーザの発音などが入力された際、それを表す音声信号を演算部３ａに送る。なお、本実施形態では、スピーカ３ｃが出力インターフェースに相当し、マイロフォン３ｄが入力インターフェースに相当する。また、メモリ３ｅは、ＲＡＭ、Ｅ２ＰＲＯＭ及びＲＯＭなどで構成されており、各種アプリケーションソフト及び各種データを記憶している。

さらに、位置検出部３ｆは、ＧＰＳユニットなどで構成されており、携帯端末３の現在位置を検出し、それを表す検出信号を演算部３ａに出力する。なお、本実施形態では、位置検出部３ｆが地理的属性取得部に相当する。また、無線通信回路３ｇは、無線通信網５を介して、無線信号を言語処理サーバ２との間で送受信可能に構成されている。以上の構成により、この携帯端末３では、言語処理サーバ２との間のデータ通信が無線通信網５を介して実行される。

一方、自動運転車両４は、図示しない電動機を動力源とするものであり、車載コントローラ６を備えている。この車載コントローラ６は、マイクロコンピュータ及び無線通信回路（いずれも図示せず）などを備えており、無線通信網５を介して、言語処理サーバ２との間でデータ通信を実行する。また、車載コントローラ６は、携帯端末３と同様の位置検出部（図示せず）を備えており、この位置検出部介して、自動運転車両４の位置を取得する。

次に、言語処理サーバ２の記憶部２ｂに記憶されている言語学習モデルについて説明する。本実施形態の場合、各種の言語を学習する学習装置として、図４に示す第１学習装置１０と、図５に示す第２学習装置２０とが用いられ、これらの学習装置１０，２０は、具体的には図示しないコンピュータによって構成されている。

これらの学習装置１０，２０では、各種の言語を学習する際、各種の言語における共通語及び複数の方言が学習される。この場合、各種の言語としては、日本語、英語、フランス語、スペイン語、ドイツ語及び中国語などの多種類の言語が学習され、共通語としては、標準語が学習される。

例えば、日本語を学習する際には、日本語の共通語と、日本の複数の地方の方言が学習されるとともに、複数の地方の方言としては、例えば、各都道府県内の主要な方言が学習される。また、例えば、英語を学習する際には、英語圏の各国（英国、米国、カナダ及び豪州など）における共通語と、各国における複数の地方の方言とが学習される。

以下の説明では、第１及び第２学習装置１０，２０において、日本語の共通語と日本語の方言の一例として沖縄地方の方言とを学習する場合の例について説明する。この場合、沖縄地方の方言としては、沖縄方言、奄美方言及び八重山方言などが存在しており、実際の学習では、これらの方言がそれぞれ学習されることになるが、本実施形態では、沖縄地方の方言として、沖縄方言を学習する場合の例について説明する。

第１学習装置１０は、図４に示すように、形態素解析部１１、第１分散ベクトル作成部１２、Ｎグラム解析部１３、第２分散ベクトル作成部１４、方言識別モデル学習部１５、第１方言判定モデル学習部１６及び第２方言判定モデル学習部１７を備えている。

形態素解析部１１は、方言又は共通語の学習用データが入力された場合、学習用データの形態素解析を実施し、形態素解析の結果を方言又は共通語をラベル付けした状態で第１分散ベクトル作成部１２に出力する。この形態素解析部１１の場合、例えば、学習用データとして、「うきみそーちー」という沖縄方言が入力された場合、図６に示す形態素解析結果の一部又は全部が、「沖縄方言」をラベル付けした状態で第１分散ベクトル作成部１２に対して出力される。

また、例えば、学習用データとして、「おはようございます」という共通語が入力されたときには、図７に示す形態素解析結果の一部又は全部が、「共通語」をラベル付けした状態で第１分散ベクトル作成部１２に対して出力される。

一方、第１分散ベクトル作成部１２は、形態素解析部１１から入力された形態素解析結果に基づき、Ｗｏｒｄ２Ｖｅｃ手法を用いて、分散ベクトルを作成し、この分散ベクトルを、方言識別モデル学習部１５及び第１方言判定モデル学習部１６に出力する。この場合、方言識別モデル学習部１５に対しては、共通語及び方言をラベル付けした状態の分散ベクトルが出力され、第１方言判定モデル学習部１６に対しては、方言をラベル付けした分散ベクトルのみが出力される。

この第１分散ベクトル作成部１２の場合、例えば、図６に示す形態素解析結果が「沖縄方言」をラベル付けした状態で入力された場合、図８に示す３つの分散ベクトルが「沖縄方言」をラベル付けした状態で作成される。また、例えば、図７に示す形態素解析結果が「共通語」をラベル付けした状態で入力されたときには、図９に示す３つの分散ベクトルが「共通語」をラベル付けした状態で作成される。

一方、Ｎグラム解析部１３は、方言又は共通語の学習用データが入力された場合、学習用データの２グラム解析及び３グラム解析を実施し、これらの解析結果を方言又は共通語をラベル付けした状態で第２分散ベクトル作成部１４に出力する。

このＮグラム解析部１３の場合、例えば、学習用データとして、「うきみそーちー」という沖縄方言が入力された場合、図１０に示す２グラム及び３グラムの解析結果が、「沖縄方言」をラベル付けした状態で第２分散ベクトル作成部１４に対して出力される。

また、学習用データとして、「おはようございます」という共通語が入力されたときには、図１１に示す２グラム及び３グラムの解析結果が、「共通語」をラベル付けした状態で第２分散ベクトル作成部１４に対して出力される。

一方、第２分散ベクトル作成部１４は、Ｎグラム解析部１３から入力された２グラム及び３グラムの解析結果に基づき、Ｗｏｒｄ２Ｖｅｃ手法を用いて、分散ベクトルを作成し、この分散ベクトルを、方言識別モデル学習部１５及び第２方言判定モデル学習部１７に出力する。この場合、方言識別モデル学習部１５に対しては、共通語及び方言をラベル付けした状態の分散ベクトルが出力され、第２方言判定モデル学習部１７に対しては、方言をラベル付けした分散ベクトルのみが出力される。

そして、方言識別モデル学習部１５では、第１及び第２分散ベクトル作成部１２，１４からの分散ベクトルを入力として、方言識別モデルの学習が実行される。この場合、方言識別モデルとしては、例えば、Ｓｋｉｐ−Ｇｒａｍモデルが用いられ、その学習法としては、例えば、確率的勾配降下法が用いられる。この方言識別モデル学習部１５では、以上の学習法を繰り返し実行することにより、方言識別モデルの学習が実行される。この方言識別モデルは、方言及び共通語のいずれかが入力されたときに、方言及び共通語をラベルとして、それらのラベルの確率を出力する。これらの確率は、値０〜１の間の値として出力される。

また、第１方言判定モデル学習部１６では、第１分散ベクトル作成部１２からの方言をラベル付けした分散ベクトルを入力として、第１方言判定モデルの学習が実行される。この場合、第１方言判定モデルとしては、例えば、Ｓｋｉｐ−Ｇｒａｍモデルが用いられ、その学習法としては、例えば、確率的勾配降下法が用いられる。この第１方言判定モデル学習部１６では、以上の学習法を繰り返し実行することにより、第１方言判定モデルとして、複数の方言をそれぞれ学習した複数のモデルが作成される。

すなわち、第１方言判定モデル学習部１６では、例えば、沖縄方言を学習したモデルとは別に、他の地方（他の都道府県）の複数の方言を学習した複数のモデルがそれぞれ作成される。複数の第１方言判定モデルの各々は、学習済みの方言が入力されたときに、その方言及び共通語の確率を出力する。これらの確率は、値０〜１の間の値として出力される。

さらに、第２方言判定モデル学習部１７では、第２分散ベクトル作成部１４からの方言をラベル付けした分散ベクトルを入力として、第２方言判定モデルの学習が実行される。この場合、第２方言判定モデルとしては、例えば、Ｓｋｉｐ−Ｇｒａｍモデルが用いられ、その学習法としては、例えば、確率的勾配降下法が用いられる。

この第２方言判定モデル学習部１７では、以上の学習法を繰り返し実行することにより、第２方言判定モデルとして、前述した第１方言判定モデルと同様に、複数の方言をそれぞれ学習した複数のモデルが作成される。

また、前述した第２学習装置２０は、図５に示すように、ユニグラム解析部２１、ｗｏｒｄ２ｉｎｄｅｘ部２２、ｄｏｃ２ｂｏｗ部２３及び文書ベクトルモデル学習部２４を備えている。

ユニグラム解析部２１は、方言又は共通語の学習用データが入力された場合、学習用データのユニグラム解析を実施し、ユニグラム解析の結果を方言又は共通語をラベル付けした状態で出力する。

このユニグラム解析部２１の場合、例えば、学習用データとして、「うきみそーちー」という沖縄方言が入力された場合、「う、き、み、そ、ー、ち、ー」というユニグラム解析結果が、「沖縄方言」をラベル付けした状態で、ｗｏｒｄ２ｉｎｄｅｘ部２２に対して出力される。

また、例えば、学習用データとして、「おはようございます」という共通語が入力されたときには、「お、は、よ、う、ご、ざ、い、ま、す」というユニグラム解析結果が、「共通語」をラベル付けした状態で、ｗｏｒｄ２ｉｎｄｅｘ部２２に対して出力される。

一方、ｗｏｒｄ２ｉｎｄｅｘ部２２では、ユニグラム解析部２１から入力されたユニグラム解析結果に対して、インデックス付けが実施される。例えば、「う、き、み、そ、ー、ち、ー」というユニグラム解析結果に対しては、図１２に示すように、インデックス付けが実施される。また、例えば、「お、は、よ、う、ご、ざ、い、ま、す」というユニグラム解析結果に対しては、図１３に示すように、インデックス付けが実施される。

以上のように、インデックス付けされたユニグラム解析結果のデータは、ラベル付けもされた状態で、ｄｏｃ２ｂｏｗ部２３に入力される。このｄｏｃ２ｂｏｗ部２３では、ＢｏＷ（ＢａｇｏｆＷｏｒｄｓ）により、インデックス付けされたユニグラム解析結果のデータからＯｎｅ−Ｈｏｔ表現を作成し、これらのＯｎｅ−Ｈｏｔ表現を足し合わせることにより、Ｏｎｅ−Ｈｏｔ表現のマトリクスが作成される。

この場合、例えば、図１２に示すデータが入力されたときには、図１４に示すＯｎｅ−Ｈｏｔ表現のマトリクスが作成される。また、図１３に示すデータが入力されたときには、図１５に示すＯｎｅ−Ｈｏｔ表現のマトリクスが作成される。以上のように作成された方言及び共通語のＯｎｅ−Ｈｏｔ表現のマトリクスは、文書ベクトルモデル学習部２４に入力される。

文書ベクトルモデル学習部２４では、上述したＯｎｅ−Ｈｏｔ表現のマトリクスを入力として、文書ベクトルモデルの学習が実行される。この場合、文書ベクトルモデルとしては、例えば、ＬＤＡ（Latent Dirichlet Allocation）モデルが用いられ、その学習アルゴリズムとしては、潜在トピックのトピック分布及び単語の出現分布を算出する手法が用いられる。

以上のように、文書ベクトルモデルの学習が実行され、それにより、文書ベクトルモデルは、方言及び共通語の一方が入力されたときに、方言及び共通語の一方をラベルとして、そのラベルの確率を表す値を出力するように構成される。

本実施形態の第１学習装置１０では、以上の手法により、方言識別モデル、第１方言判定モデル及び第２方言判定モデルの学習が実行され、第２学習装置２０では、文書ベクトルモデルの学習が実行される。

そして、前述した言語処理サーバ２では、第１学習装置１０によって学習が実行された３種類のモデルを用いて、所定の複数の方言を判定したときの判定精度と、第２学習装置２０によって学習が実行された文書ベクトルモデルを用いて、所定の複数の方言を判定したときの判定精度を比較し、判定精度のよい方のモデルが言語学習モデルとして記憶部２ｂ内に記憶されている。

なお、以下の説明では、言語学習モデルとして、第１学習装置１０によって学習が実行された方言識別モデル、第１方言判定モデル及び第２方言判定モデルが言語処理サーバ２の記憶部２ｂ内に記憶されている場合を例にとって説明する。

次に、図１６及び図１７を参照しながら、本実施形態の車両管理システム１における情報通信処理について説明する。同図に示すように、まず、携帯端末３において、ユーザ認識処理（図１６／ＳＴＥＰ１）が実行される。このユーザ認識処理は、ユーザの出身国及び出身地方をユーザの地理的属性として取得／認識するものであり、具体的には、図１８に示すように実行される。

同図に示すように、まず、後述する認識用データが出力済みであるか否かを判定する（図１８／ＳＴＥＰ３０）。この判定が肯定（図１８／ＳＴＥＰ３０…ＹＥＳ）で、認識用データが出力済みであるときには、そのまま本処理を終了する。

一方、この判定が否定（図１８／ＳＴＥＰ３０…ＮＯ）で、認識用データが出力済みでないときには、後述する質問音声を出力済みであるか否かを判定する（図１８／ＳＴＥＰ３１）。この判定が肯定（図１８／ＳＴＥＰ３１…ＹＥＳ）で、質問音声を出力済みであるときには、後述するＳＴＥＰ３７に進む。

一方、この判定が否定（図１８／ＳＴＥＰ３１…ＮＯ）で、質問音声を出力済みでないときには、選択画面を表示中であるか否かを判定する（図１８／ＳＴＥＰ３２）。この判定が肯定（図１８／ＳＴＥＰ３２…ＹＥＳ）で、選択画面を表示中であるときには、後述するＳＴＥＰ３５に進む。

一方、この判定が否定（図１８／ＳＴＥＰ３２…ＮＯ）で、選択画面を表示中でないときには、ユーザ認識処理の開始動作が実行されたか否かを判定する（図１８／ＳＴＥＰ３３）。この場合、携帯端末３において、ユーザ認識処理アプリケーションを開始するためのアイコン（図示せず）がユーザによってタップされたときには、ユーザ認識処理の開始動作が実行されたと判定され、それ以外のときには、ユーザ認識処理の開始動作が実行されていないと判定される。

この判定が否定（図１８／ＳＴＥＰ３３…ＮＯ）で、ユーザ認識処理の開始動作が実行されていないときには、そのまま本処理を終了する。一方、この判定が肯定（図１８／ＳＴＥＰ３３…ＹＥＳ）で、ユーザ認識処理の開始動作が実行されたときには、選択画面の表示処理を実行する（図１８／ＳＴＥＰ３４）。

この選択画面の表示処理では、図１９に示すように、アイコンＡ１〜Ａ６を含む各種の言語用アイコンが携帯端末３のディスプレイ３ｂ上に表示される。この場合、言語用アイコンには、その言語の種類を示す文字が表示される。例えば、日本語用アイコンＡ１には、「日本語」の文字が表示され、英語用アイコンＡ２には、「Ｅｎｇｌｉｓｈ」の文字が表示され、スペイン語用アイコンＡ３には、「Ｅｓｐａｎｏｌ」の文字が表示される。

次いで、選択動作が実行されたか否かを判定する（図１８／ＳＴＥＰ３５）。この場合、ディスプレイ３ｂに表示されているアイコンのいずれかがユーザによってタップされたときには、選択動作が実行されたと判定され、それ以外のときには、選択動作が実行されていないと判定される。

この判定が否定（図１８／ＳＴＥＰ３５…ＮＯ）で、選択動作が実行されていないときには、そのまま本処理を終了する。一方、この判定が肯定（図１８／ＳＴＥＰ３５…ＹＥＳ）で、選択動作が実行されたときには、質問音声を出力する（図１８／ＳＴＥＰ３６）。

この場合、質問音声としては、日本語用アイコンＡ１以外の外国語用アイコンがタップされたときには、例えば、「あなたはどちらの国のどの地方のご出身ですか？」という内容の音声が、タップされた外国語で携帯端末３のスピーカ３ｃから出力される。

一方、日本語用アイコンＡ１がタップされたときには、例えば、「どの都道府県のどの地方のご出身ですか？」という内容の日本語音声が携帯端末３のスピーカ３ｃから出力される。以下、日本語用アイコンＡ１がタップされた場合を例にとって説明する。

次いで、マイロフォン３ｄを介して、ユーザの回答音声が入力されたか否かを判定する（図１８／ＳＴＥＰ３７）。この判定が否定（図１８／ＳＴＥＰ３７…ＮＯ）で、ユーザの回答音声が入力されていないときには、そのまま本処理を終了する。

一方、この判定が肯定（図１８／ＳＴＥＰ３７…ＹＥＳ）で、ユーザの回答音声が入力されたときには、認識用データを決定して（図１８／ＳＴＥＰ３８）、本処理を終了する。

この認識用データは、ユーザがタップした言語用アイコンの種類と、ユーザの回答音声と、携帯端末３の位置（以下「ユーザ位置」という）とを含むデータとして決定される。なお、以下の説明では、ユーザの回答音声が「石川県の能登地方です」であり、ユーザ位置すなわち携帯端末３の位置が能登地方の町である場合を例にとって説明する。

図１６に戻り、以上のようなユーザ認識処理の実行により、認識用データが決定された場合、それを含む認識用データ信号が携帯端末３から言語処理サーバ２に送信される（図１６／ＳＴＥＰ２）。

言語処理サーバ２では、認識用データ信号を受信した場合、言語学習モデルが選択される（図１６／ＳＴＥＰ３）。具体的には、以下に述べるように、認識用データにおける、ユーザがタップした言語用アイコンの種類及びユーザの回答音声に基づき、今回の処理で使用する言語学習モデルが選択される。

本実施形態の場合、ユーザがタップした言語用アイコンが日本語アイコンＡ１であることから、まず、日本語の所定の自然言語処理が選択され、これを用いて、「石川県の能登地方です」というユーザの回答音声から、「石川県」及び「能登地方」という地名が取得される。なお、本実施形態の場合、所定の自然言語処理としては、例えば、ＢＥＲＴなどが用いられる。

そして、この取得結果に基づき、記憶部２ｂ内に記憶されている多数の言語学習モデルの中から、今回の処理で使用する言語学習モデルとして、共通語、石川県の能登地方の方言及び加賀地方の方言を学習済みの、方言識別モデル、第１方言判定モデル及び第２方言判定モデルが選択される。

次いで、言語処理サーバ２では、挨拶音声が決定される（図１６／ＳＴＥＰ４）。この挨拶音声は、例えば、時間に応じた挨拶と、ユーザの行き先の質問とを含むように決定される。すなわち、朝の時間帯の場合、挨拶音声は、「おはようございます。今日はどちらに行かれますか？」という内容に決定される。

以上のように、挨拶音声が決定された場合、それを含む挨拶音声信号が言語処理サーバ２から携帯端末３に送信される（図１６／ＳＴＥＰ５）。

携帯端末３では、挨拶音声信号を受信した場合、以下に述べるように、１回目回答取得処理が実行される（図１６／ＳＴＥＰ６）。この１回目回答取得処理では、まず、挨拶音声信号に含まれる挨拶音声がスピーカ３ｃから出力される。例えば、上述したような「おはようございます。今日はどちらに行かれますか？」という内容の挨拶音声が出力される。

そして、この挨拶音声の出力後、ユーザからの回答音声がマイロフォン３ｄから入力されたときに、この回答音声が１回目回答音声として取得される。なお、以下の説明では、１回目回答音声が「総合病院に行きたいぎわいね」という能登地方の方言である場合を中心に説明する。なお、この回答音声は、共通語の「総合病院に行きたいんです」に相当する。

以上のように、１回目回答音声が取得された場合、それを含む１回目回答音声信号が携帯端末３から言語処理サーバ２に送信される（図１６／ＳＴＥＰ７）。

言語処理サーバ２では、１回目回答音声信号を受信した場合、１回目応答決定処理が実行される（図１６／ＳＴＥＰ８）。この１回目応答決定処理は、具体的には、図２０に示すように実行される。

すなわち、同図に示すように、まず、１回目回答音声を方言識別モデルに入力することにより、方言識別モデルの出力を取得する（図２０／ＳＴＥＰ４０）。この方言識別モデルの出力は、共通語、能登地方の方言及び加賀地方の方言をラベルとして、これら３つのラベルが０〜１の間の確率を伴う値として取得される。

次いで、方言識別モデルの出力に基づき、１回目回答音声が共通語であるか否かを判定する（図２０／ＳＴＥＰ４１）。この場合、方言識別モデルの出力における共通語ラベルの確率が所定値（例えば値０．６）以上であるときには、１回目回答音声が共通語であると判定し、それ以外のときには、１回目回答音声が方言であると判定する。

この判定が肯定（図２０／ＳＴＥＰ４１…ＹＥＳ）で、１回目回答音声が共通語であるときには、共通語用の自然言語処理により、１回目回答音声の内容を取得する（図２０／ＳＴＥＰ４２）。

一方、前述したように、１回目回答音声が「総合病院に行きたいぎわいね」という能登地方の方言であるときには、この判定が否定（図２０／ＳＴＥＰ４１…ＮＯ）となり、その場合には、この１回目回答音声を第１方言判定モデルに入力することにより、その出力を取得する（図２０／ＳＴＥＰ４３）。この場合、第１方言判定モデルの出力は、能登地方の方言及び加賀地方の方言をラベルとして、これら２つのラベルが０〜１の間の確率を伴う値として取得される。

次いで、１回目回答音声を第２方言判定モデルに入力することにより、その出力を取得する（図２０／ＳＴＥＰ４４）。この場合、第２方言判定モデルの出力は、能登地方の方言及び加賀地方の方言をラベルとして、これら２つのラベルが０〜１の間の確率を伴う値として取得される。

次に、以上の第１及び第２方言判定モデルの出力に基づき、１回目回答音声の方言の種類を決定する（図２０／ＳＴＥＰ４５）。この場合、１回目回答音声が能登地方の方言及び加賀地方の方言のいずれであるかが決定される。具体的には、第１及び第２方言判定モデルの出力における能登地方の方言のラベルの確率と、加賀地方の方言のラベルの確率のうち、いずれかのラベルの確率が所定値（例えば値０．６）以上であるときには、そのラベルの方言であると決定される。

上述したように、１回目回答音声が「総合病院に行きたいぎわいね」という能登地方の方言である場合、第１及び第２方言判定モデルの出力における能登地方の方言のラベルの確率がいずれも所定値（例えば値０．６）以上となり、その結果、１回目回答音声が能登地方の方言であると決定される。

以上のように方言の種類を決定した後、その種類の方言用の自然言語処理により、１回目回答音声の内容を取得する（図２０／ＳＴＥＰ４６）。

このように、共通語又は方言である１回目回答音声の内容を取得した後、１回目回答音声の内容に基づき、記憶部２ｂ内の前述したデータベースを検索し、その検索結果に基づき、１回目応答音声を決定する（図２０／ＳＴＥＰ４７）。

前述したように、データベースには、各地方の各地点と、多数の目的地の候補地と、多数の候補地の関連情報とをリンク付けしたデータが含まれている。したがって、例えば、上記のように、１回目回答音声が「総合病院に行きたい」という内容である場合、ユーザ位置に基づき、データベースを参照することにより、ユーザ位置（地点）に対して確率を付与されている「総合病院」の候補地が検索される。

そして、複数の候補地が検索された場合、それらの候補地のうち、最高確率を付与されている「×××町の総合病院」が第１候補地として選択されるとともに、１回目応答音声が、以下に述べるように決定される。すなわち、ユーザの１回目回答音声（以下「ユーザの回答音声」という）が、例えば、能登地方の方言であった場合には、１回目応答音声が、「×××町の総合病院でいいかいね？」という能登地方の方言内容に決定される。なお、この１回目応答音声は、共通語の「×××町の総合病院でよろしいですか？」に相当する。

一方、ユーザの回答音声が共通語であった場合には、１回目応答音声が、「×××町の総合病院でよろしいですか？」という内容に決定される。なお、候補地として、１つの「総合病院」のみが検索された場合にも、それが第１候補地として選択される。以上のように、１回目応答音声を決定した後、１回目応答決定処理を終了する。

図１６に戻り、以上のような１回目応答決定処理の実行により、１回目応答音声が決定された場合、それを含む１回目応答音声信号が言語処理サーバ２から携帯端末３に送信される（図１６／ＳＴＥＰ９）。

携帯端末３では、１回目応答音声信号を受信した場合、以下に述べるように、２回目回答取得処理が実行される（図１６／ＳＴＥＰ１０）。この２回目回答取得処理では、まず、１回目応答音声信号に含まれる１回目応答音声がスピーカ３ｃから出力される。例えば、ユーザの回答音声が能登地方の方言であった場合には、上述したような「×××町の総合病院でいいかいね？」という内容の音声が出力され、ユーザの回答音声が共通語であった場合には、上述したような「×××町の総合病院でよろしいですか？」という内容の音声が出力される。

そして、この１回目応答音声の出力後、ユーザからの回答音声がマイロフォン３ｄから入力されたときに、この回答音声が２回目回答音声として取得される。

以上のように、２回目回答音声が取得された場合、それを含む２回目回答音声信号が携帯端末３から言語処理サーバ２に送信される（図１６／ＳＴＥＰ１１）。

言語処理サーバ２では、２回目回答音声信号を受信した場合、２回目応答決定処理が実行される（図１６／ＳＴＥＰ１２）。この２回目応答決定処理は、具体的には、図２１に示すように実行される。

図２１に示す２回目応答決定処理の場合、図２１のＳＴＥＰ５０〜５６の各処理は、前述した図２０の１回目応答決定処理のＳＴＥＰ４０〜４６と同じ手法により実行されるので、その説明は省略する。

この２回目応答決定処理では、ＳＴＥＰ５０〜５６を実行することにより、２回目回答音声の内容が取得される。次いで、以下に述べるように、２回目応答が決定される（図２１／ＳＴＥＰ５７）。

まず、２回目回答音声信号に含まれるユーザの回答音声が肯定的な意味の方言であるとき、例えば、「そうやわいね」という能登地方の方言であるときには、後述する運賃計算処理（図１７／ＳＴＥＰ２０）に移行し、２回目応答として、この運賃計算処理が実行される。なお、この「そうやわいね」という能登地方の方言は、共通語の「そうです」に相当する。

また、２回目回答音声信号に含まれるユーザの回答音声が肯定的な意味の共通語であるとき、例えば、「そうです」という共通語であるときにも、上記と同様に、後述する運賃計算処理（図１７／ＳＴＥＰ２０）に移行し、２回目応答として、この運賃計算処理が実行される。

一方、２回目回答音声信号に含まれるユーザの回答音声が否定的な意味の方言であるとき、例えば、「ちごうわいね」という能登地方の方言であるときには、前述した図２０のＳＴＥＰ４７で検索した複数の候補地のうち、２番目に確率の高い「○○○町の総合病院」が第２候補地として選択される。なお、この「ちごうわいね」という能登地方の方言は、共通語の「ちがいます」に相当する。

また、２回目回答音声信号に含まれるユーザの回答音声が否定的な共通語であるとき、例えば、「ちがいます」という共通語であるときにも、上記と同様に、「○○○町の総合病院」が第２候補地として選択される

次いで、２回目応答としての２回目応答音声が、ユーザの回答音声が能登地方の方言であるときには、「○○○町の総合病院でいいかいね？」という内容に決定され、ユーザの回答音声が共通語であるときには、「○○○町の総合病院でよろしいですか？」という内容に決定される。なお、この「いいかいね？」という能登地方の方言は、共通語の「よろしいですか？」に相当する。

そして、以上のような２回目応答決定処理の実行により、２回目応答音声が決定された場合、それを含む２回目応答音声信号が言語処理サーバ２から携帯端末３に送信される（図１６／ＳＴＥＰ１３）。

携帯端末３では、２回目応答音声信号を受信した場合、以下に述べるように、３回目回答取得処理が実行される（図１６／ＳＴＥＰ１４）。この３回目回答取得処理では、まず、２回目応答音声信号に含まれる２回目応答音声がスピーカ３ｃから出力される。すなわち、ユーザの回答音声が能登地方の方言であるときには、上述したような「○○○町の総合病院でいいかいね？」という内容の音声が出力され、ユーザの回答音声が共通語であるときには、上述したような「○○○町の総合病院でよろしいですか？」という内容の音声が出力される。

そして、この２回目応答音声の出力後、ユーザからの回答音声がマイロフォン３ｄから入力されたときに、この回答音声が３回目回答音声として取得される。

以上のように、３回目回答音声が取得された場合、それを含む３回目回答音声信号が携帯端末３から言語処理サーバ２に送信される（図１６／ＳＴＥＰ１５）。

言語処理サーバ２では、３回目回答音声信号を受信した場合、３回目応答決定処理が実行される（図１６／ＳＴＥＰ１２）。この３回目応答決定処理は、具体的には、上述した２回目応答決定処理と同様に実行される。

すなわち、３回目回答音声信号に含まれる３回目回答音声が肯定的な意味の言葉であるときには、運賃計算処理（図１７／ＳＴＥＰ２０）に移行し、３回目応答として、運賃計算処理が実行される。一方、３回目回答音声信号に含まれる３回目回答音声が否定的な意味の言葉であるときには、前述した図２０のＳＴＥＰ４７で検索した複数の候補地のうち、３番目に確率の高い「△△△町の総合病院」が第３候補地として選択される。

次いで、３回目応答としての３回目応答音声が、ユーザの回答音声が能登地方の方言であるときには、「△△△町の総合病院でいいかいね？」という内容に決定され、ユーザの回答音声が共通語であるときには、「△△△町の総合病院でよろしいですか？」という内容に決定される。

そして、ＳＴＥＰ１６以降の処理が、上述したＳＴＥＰ１３以降の処理と同様に実行される。以上のように、この情報通信処理では、ユーザから目的地が告げられた場合、その目的地の候補地が確率の高い順にユーザに提示される。

次に、図１７の情報通信処理について説明する。この図１７の情報通信処理は、図１６の情報通信処理に続けて実行されるものである。同図に示すように、まず、言語処理サーバ２において、運賃計算処理が実行される（図１７／ＳＴＥＰ２０）。

この運賃計算処理では、ユーザの現在地と目的地との間のルートが決定され、このルートに応じて、運賃が計算されるとともに、この運賃を報知する運賃報知音声が決定される。例えば、この運賃報知音声は、ユーザの回答音声が能登地方の方言であるときには、「×××町の総合病院までは◆◆◆◆円やわいね」という内容に決定され、ユーザの回答音声が共通語であるときには、「×××町の総合病院までは◆◆◆◆円です」という内容に決定される。なお、この「やわいね」という能登地方の方言は、共通語の「です」に相当する。

以上のように、運賃計算処理が実行された場合、運賃報知音声を含む運賃報知信号が言語処理サーバ２から携帯端末３に送信される（図１７／ＳＴＥＰ２１）。

携帯端末３では、運賃報知信号を受信した場合、以下に述べるように、運賃報知処理が実行される（図１７／ＳＴＥＰ２２）。この運賃報知処理では、まず、運賃報知信号に含まれる運賃報知音声がスピーカ３ｃから出力される。例えば、ユーザの回答音声が能登地方の方言であるときには、上述したような「×××町の総合病院までは◆◆◆◆円やわいね」という内容の運賃報知音声が出力され、ユーザの回答音声が共通語であるときには、上述したような「×××町の総合病院までは◆◆◆◆円です」という内容の運賃報知音声が出力される。

この運賃報知音声の出力後、ユーザによる運賃の支払い操作が完了した否かが判定される。この場合、運賃の支払い操作は、携帯端末３におけるアプリケーションソフトを利用し、Ｓｕｉｃａ（登録商標）などの電子マネー決済又はクレジットカード決済などによって実行される。

そして、運賃の支払い操作が完了した場合には、それを表す支払い完了信号が携帯端末３から言語処理サーバ２に送信される（図１７／ＳＴＥＰ２３）。

言語処理サーバ２では、支払い完了信号を受信した場合、到着予定計算処理が実行される（図１７／ＳＴＥＰ２４）。この到着予定計算処理は、以下に述べるように実行される。まず、空車の自動運転車両４のうち、ユーザ位置を基準として最も近い位置にいるものが検索され、この自動運転車両４の位置からユーザ位置までのルートが計算される。

次いで、このルート及び現在時間に基づき、自動運転車両４がユーザ位置に到達する予定時間が算出され、この到着予定時間を報知する到着予定報知音声が決定される。この到着予定報知音声は、例えば、ユーザの回答音声が能登地方の方言であるときには、「お迎えの車両はそっちに１３：００に到着予定やわいね」という内容に決定され、ユーザの回答音声が共通語であるときには、「お迎えの車両はそちらに１３：００に到着予定です」という内容に決定される。

以上のように、到着予定計算処理が実行された場合、到着予定報知音声を含む到着予定報知信号が言語処理サーバ２から携帯端末３に送信される（図１７／ＳＴＥＰ２５）。携帯端末３では、到着予定報知信号を受信した場合、到着予定報知処理が実行される（図１７／ＳＴＥＰ２６）。この到着予定報知処理では、到着予定報知信号に含まれる到着予定報知音声がスピーカ３ｃから出力される。

例えば、ユーザの回答音声が能登地方の方言であるときには、「お迎えの車両はそっちに１３：００に到着予定やわいね」という内容の到着予定報知音声が出力され、ユーザの回答音声が共通語であるときには、上述したような「お迎えの車両はそちらに１３：００に到着予定です」という内容の到着予定報知音声が出力される。

なお、以上の情報通信処理の説明は、図１９に示す選択画面において、日本語用アイコンＡ１がタップされた場合のものであるが、これ以外のアイコン（例えば、英語用アイコンＡ２）がタップされたときでも、以上の説明と同様に、図１６及び図１７の情報通信処理が実行される。

以上のように、第１実施形態の車両管理システム１によれば、携帯端末３において、ユーザ認識処理が実行されることにより、ユーザの出身国、出身地方及び現在位置が認識用データとして取得される。そして、言語処理サーバ２では、認識用データに基づき、今回の処理で使用する方言識別モデル、第１方言判定モデル及び第２方言判定モデルが、ユーザの出身国及び出身地に対応するものに決定される。

さらに、言語処理サーバ２では、携帯端末３からのユーザの１回目回答音声信号を受信した際、その１回目回答音声を方言識別モデルに入力し、方言判定モデルの出力における共通語ラベル及び方言ラベルの確率に基づいて、１回目回答音声が共通語及び方言のいずれであるかが判定される。

そして、１回目回答音声が方言であると判定された場合、１回目回答音声を第１及び第２方言判定モデルに入力し、これらのモデルの出力における確率に基づき、方言がどの地方の方言であるかが判定される。そして、以上の判定結果に基づき、共通語用又は方言用の自然言語処理を用いて、１回目回答音声の内容が認識されるので、１回目回答音声の内容を、ユーザの出身国の共通語及び方言に同時に対応しながら適切に認識することができる。

さらに、そのように認識された１回目回答音声の内容がユーザの目的地を含んでいる場合、ユーザの現在位置及び目的地に応じて、データベースを参照することにより、ユーザの目的地に対応する候補地が検索される。そして、複数の候補地が検索された場合には、複数の候補地の中から最高確率の第１候補地が選択され、これが目的地であるか否かをユーザに対して確認するための第１応答音声を含む第１応答音声信号が携帯端末３に送信される。それにより、第１応答音声が携帯端末３から出力される。

さらに、第１応答音声の出力後、ユーザの目的地が第１候補地と異なっていることを表す第２回答音声信号が言語処理サーバ２で受信された場合、言語処理サーバ２では、ユーザの目的地に対応する複数の候補地の中から第１候補地の次に高い確率の第２候補地が選択され、これが目的地であるか否かをユーザに対して確認するための第２応答音声を含む第２応答音声信号が携帯端末３に送信される。以上の処理により、ユーザの目的地を効率よく確認することができる。

また、言語処理サーバ２内のデータベースは、医療施設、商業施設、公共施設、アミューズメント施設、店舗及び寺社仏閣のいずれかをユーザの目的地とした場合において、目的地の候補地と候補地の関連情報とをリンク付けしたデータを含んでいるので、ユーザの目的地が上記のいずれかである場合、目的地周辺のイベントの開催情報、目的地に関連するトレンドワード、目的地周辺の天候情報及び目的地周辺の季節情報の少なくとも一つと目的地に応じて、目的地の候補地を選択することができる。それにより、ユーザの目的地を精度よくかつ適切に確認することができる。

なお、以上の第１実施形態では、言語処理サーバ２の記憶部２ｂ内に記憶されている言語学習モデルが、第１学習装置１０によって学習が実行された方言識別モデル、第１方言判定モデル及び第２方言判定モデルである場合を例にとって説明したが、これらに代えて、言語学習モデルとして、第２学習装置２０によって学習が実行された文書ベクトルモデルを用いた場合でも、第１実施形態と同様の作用効果を得ることができる。

また、第１実施形態は、方言識別モデル、第１方言判定モデル及び第２方言判定モデルとして、共通語、石川県の能登地方の方言及び加賀地方の方言を学習済みのものを用いた例であるが、これらに代えて、以下に述べるものを方言識別モデル、第１方言判定モデル及び第２方言判定モデルとして用いてもよい。

例えば、自動運転車両４の運行領域が能登地方に限定されている場合には、能登地方の領域を、珠洲市地方、輪島市地方、鳳珠郡地方及び七尾市地方などのようにより細かく区分して、それらの区域の方言及び共通語を学習したものを用いてもよい。さらに、自動運転車両４の運行領域が地方都市に限定されている場合には、その地方都市内の方言及び共通語を学習したものを用いてもよい。

さらに、第１実施形態は、第１学習装置１０によって学習が実行された３種類のモデルを用いて、所定の複数の方言を判定したときの判定精度と、第２学習装置２０によって学習が実行された文書ベクトルモデルを用いて、所定の複数の方言を判定したときの判定精度とを比較した際の判定精度のよい方を、言語学習モデルとして、言語処理サーバ２の記憶部２ｂ内に記憶した例であるが、第１学習装置１０によって学習が実行された３種類のモデル、又は、第２学習装置２０によって学習が実行された文書ベクトルモデルを言語学習モデルとして記憶するように構成してもよい。

一方、第１実施形態は、ユーザの回答音声が方言のときには、応答音声をユーザの方言と同じ方言になるように構成した例であるが、ユーザの回答音声が方言のときでも、応答音声を共通語になるように構成してもよい。

また、第１実施形態は、言語学習モデルである方言識別モデルとして、Ｓｋｉｐ−Ｇｒａｍモデルを用いた例であるが、これに代えて、方言識別モデルとして、ＣＢｏｗ、Ｇｌｏｖｅ、Ｗｏｒｄｎｅｔ及びＦａｓｔＴｅｘｔなどを用いてもよい。また、方言識別モデルとして、ＤＮＮ、ＲＮＮ及びＣＮＮなどのニューラルネットワークを用いてもよい。

さらに、第１実施形態は、言語学習モデルである第１及び第２方言判定モデルとして、Ｓｋｉｐ−Ｇｒａｍモデルを用いた例であるが、これに代えて、第１及び第２方言判定モデルとして、ＣＢｏｗ、Ｇｌｏｖｅ、Ｗｏｒｄｎｅｔ及びＦａｓｔＴｅｘｔなどを用いてもよい。また、第１及び第２方言判定モデルとして、ＤＮＮ、ＲＮＮ及びＣＮＮなどのニューラルネットワークを用いてもよい。

一方、第１実施形態は、所定の機械学習法として、確率的勾配降下法を用いた例であるが、本発明の所定の機械学習法は、これに限らず、言語学習モデルの学習を実行できるものであればよい。例えば、言語学習モデルがニューラルネットワークである場合には、所定の機械学習法として、誤差逆伝播法を用いてもよい。

また、第１実施形態は、所定の自然言語処理として、ＢＥＲＴを用いた例であるが、これに代えて、所定の自然言語処理として、ＭｅＣａｂ、ＪＵＭＡＮ及びＣａｂｏｃｈａなどを用いてもよい。

さらに、第１実施形態は、本発明の情報処理システムを車両管理システム１に適用した例であるが、本発明の情報処理システムは、これに限らず、他のシステムにも適用可能である。例えば、本発明の情報処理システムを、電車及び路線バスなどの旅客輸送システムに適用してもよい。その場合には、旅客輸送システムにおける目的地確認、切符発券及び運賃支払いなどに適用すればよい。

一方、第１実施形態は、自動運転車両として、タクシータイプの自動運転車両４を用いた例であるが、これに代えて、自動運転車両として、路線バス及び乗り合いタクシーなどの他の旅客車両を用いてもよい。

また、第１実施形態の車両管理システム１を会員登録制とし、その登録データ及び年齢層に対応する複数のデータベースを言語処理サーバ２に記憶するように構成してもよい。このように構成した場合には、前述した情報通信処理において、データベースを参照する際、会員データに基づいて、ユーザの年齢を取得するとともに、ユーザの年齢に応じたデータベースを参照することができる。それにより、ユーザの年齢に応じて、目的地をより適切に決定することができる。この場合、言語処理サーバ２の演算部２ａが年齢取得部に相当する。

また、音声が携帯端末３のスピーカ３ｃから出力される図１６及び図１７の各処理において、音声に代えて文章が携帯端末３のディスプレイ３ｂに表示されるように構成してもよく、音声の出力と文章の表示とが同時に実行されるように構成してもよい。このように構成した場合、ディスプレイ３ｂが出力インターフェースに相当する。

さらに、ユーザの音声がマイロフォン３ｄを介して携帯端末３に入力される図１６及び図１７の各処理において、音声に代えて文章がディスプレイ操作によって携帯端末３に入力されるように構成してもよく、音声の携帯端末３への入力と文章の携帯端末３への入力の双方を実行できるように構成してもよい。このように構成した場合、ディスプレイ３ｂが入力インターフェースに相当する。

また、第１実施形態は、複数の候補地が検索された場合、まず、最高確率を付与されている候補地をユーザに提案した例であるが、これに代えて、複数の候補地を全部、一度に携帯端末３からユーザに提案するように構成してもよい。例えば、全候補地をディスプレイ３ｂ上に表示し、ユーザによるディスプレイ３ｂのタップ操作によって全候補地の中から候補地を選択するように構成してもよい。

さらに、全候補地をディスプレイ３ｂ上に表示する動作と、全候補地をスピーカ３ｃから音声出力する動作とを同時に実行し、ユーザのタップ操作又はマイロフォン３ｄへの音声入力によって、全候補地の中から候補地を選択するように構成してもよい。これに加えて、全候補地をスピーカ３ｃから音声出力する動作のみを実行し、ユーザのマイロフォン３ｄへの音声入力によって、全候補地の中から候補地を選択するように構成してもよい。

次に、図２２を参照しながら、第２実施形態に係る車両管理システム１Ａについて説明する。同図に示すように、この車両管理システム１Ａの場合、車両管理システム１と比較すると、携帯端末３が省略されている点と、操作端末７及びＩＣカードリーダ８が自動運転車両４の車室内に設けられている点などが異なっているので、以下、異なる点を中心に説明する。

この自動運転車両４では、操作端末７が車室内の前席側及び後席側にそれぞれ設けられている。この操作端末７は、携帯端末３と同様に、ディスプレイ、スピーカ及びマイロフォン（いずれも図示せず）などを備えており、車載コントローラ６に電気的に接続されている。

また、ＩＣカードリーダ８は、非接触型のものであり、車室内の前席側及び後席側にそれぞれ設けられている。このＩＣカードリーダ８は、車載コントローラ６に電気的に接続されている。

以上のように構成された車両管理システム１Ａでは、ユーザが自動運転車両４に乗車した後、操作端末７を操作することによって、前述した図１６及び図１７の各処理が車載コントローラ６と言語処理サーバ２との間で実行される。

また、ユーザがＩＣカードをＩＣカードリーダ８に近づけることによって、前述した図１７のＳＴＥＰ２２における運賃支払いが実行される。したがって、本実施形態の車両管理システム１Ａによれば、第１実施形態の車両管理システム１と同様の作用効果を奏することができる。

次に、第２実施形態の車両管理システム１Ａにおいて、図１６の情報通信処理を実行したときの、操作端末７のマイロフォンに入力される１回目以降のユーザの回答音声（以下「ユーザ音声」という）と、操作端末７のスピーカから出力される１回目以降の応答音声とによる対話の例を、第１〜第７対話例として具体的に説明する。なお、以下の説明では、日本語音声の場合について説明する。

第１対話例は、以下に示すように実施される。
・１回目ユーザ音声：「羽田空港、お願いします。」
・１回目応答音声：「羽田空港はどのターミナルですか？」
・２回目ユーザ音声：「ＡＮＡで金沢に行くんだけどね。」
・２回目応答音声：「ＡＮＡ便は、第２ターミナルから出ますので、第２ターミナルに向かいます。」

この場合、言語処理サーバ２内のデータベースでは、「羽田空港」と「ターミナル」が高い確率を付与された状態でリンク付けされ、「ＪＡＬ」又は「日本航空」が「第１ターミナル」と高い確率を付与された状態でリンク付けされ、「ＡＮＡ」又は「全日空」が「第２ターミナル」と高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両４によって、ユーザをＡＮＡ便が出発する第１ターミナルまで適切に送り届けることが可能になる。

また、第２対話例は、以下に示すように実施される。
・１回目ユーザ音声：「センターホテルは判りますか？」
・１回目応答音声：「どのセンターホテルでしょうか？住所は判りますか？」
・２回目ユーザ音声：「佐々木町だったかな。」
・２回目応答音声：「佐々木町にセンターホテルはありませんが、近くの佐伯町と大石町にセンターホテルがあります。」
・３回目ユーザ音声：「青い色のビルだったけど。」
・３回目応答音声：「それは、大石町にあるセンターホテルの方ですね。そちらに向かいます。」

この場合、言語処理サーバ２内のデータベースでは、「センターホテル」と「佐伯町」と「大石町」とが高い確率を付与された状態でリンク付けされ、「センターホテル」と「青い」と「佐伯町」とが高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両４によって、ユーザを大石町のセンターホテルまで適切に送り届けることが可能になる。

さらに、第３対話例は、以下に示すように実施される。
・１回目ユーザ音声：「ここを真っ直ぐ行って、野口の交差点を右に曲がった所にある蕎麦屋まで。」
・１回目応答音声：「その蕎麦屋は“味よし”でしょうか？」
・２回目ユーザ音声：「そうだよ。」
・２回目応答音声：「かしこまりました。味よしに向かいます。」

この場合、言語処理サーバ２内のデータベースでは、「蕎麦屋」と「味よし」と「野口の交差点」とが高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両４によって、ユーザを大石町のセンターホテルまで適切に送り届けることが可能になる。

一方、第４対話例は、以下に示すように実施される。
・１回目ユーザ音声：「妙蓮寺にやってくれ」
・１回目応答音声：「どちらの妙蓮寺でしょうか？」
・２回目ユーザ音声：「えー、葬儀が行われるところだけど。」
・２回目応答音声：「大久保様の葬儀でしょうか？」
・３回目ユーザ音声：「そうそう。」
・３回目応答音声：「それは、妙蓮寺会館の方ですね。そちらに向かいます。」

この場合、言語処理サーバ２内のデータベースでは、時事情報として、「葬儀」と「大久保様」と「妙蓮寺会館」とが高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両４によって、ユーザを妙蓮寺会館まで適切に送り届けることが可能になる。

また、第５対話例は、以下に示すように実施される。
・１回目ユーザ音声：「中野病院に行ってください。」
・１回目応答音声：「現在地よりおよそ１０分の○○市○○町の中野内科クリニックでよろしいでしょうか？」
・２回目ユーザ音声：「はい。」
・２回目応答音声：「○○市○○町の中野内科クリニックに向かいます。」

この場合、名詞「中野」、「病院」、及び、病院の類似名詞「クリニック」、「総合病院」、「内科、外科、……」が取得され、現在位置の付近での「中野」を有する「病院関連」がデータベース内で検索される。そして、現在地から○○市○○町の中野内科クリニックまでのルート又は他の車両の移動情報などに基づき、目的地までの到着予想時間が算出される。そして、過去の目的地統計履歴により、複数の候補地の中から最高確率の候補地が選択される。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両４によって、ユーザを○○市○○町の中野内科クリニックまで適切に送り届けることが可能になる。

さらに、上記の第５の対話例において、２回目ユーザ音声が否定的な内容である場合には、第１実施形態と同様に、２番目に高い確率の候補地を２回目応答音声で提案してもよい。また、２回目ユーザ音声が否定的な内容である場合において、例えば、２番目以降の複数の候補地（例えば、２〜３番目の候補地）が存在するときには、それらの候補地を操作端末７に表示し、ユーザが希望する目的地をタッチ操作で選択したり、ユーザが音声で指示したりするように構成してもよい。

また、第６対話例は、以下に示すように実施される。
・１回目ユーザ音声：「フリーマーケットに行きたいんだけど。」
・１回目応答音声：「本日、○○町公民館にて、地域住民主催、××マーケットが開催されています。こちらでよろしいでしょうか？」
・２回目ユーザ音声：「はい」
・２回目応答音声：「○○町公民館に向かいます。」

この場合、データベースの関連情報として、名詞「フリーマーケット」、その類似名詞「ふりま」、「オークション」、「市場」、「青空市」及び「バザー」などが取得されるとともに、現在位置の付近でのイベント情報として、公共施設予約状況、地域イベント情報、ＳＮＳ情報、近接する道の駅情報などが取得される。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両４によって、ユーザを○○町公民館まで適切に送り届けることが可能になる。

また、第７対話例は、以下に示すように実施される。
・１回目ユーザ音声：「……（無言）」
・１回目応答音声：「どちらに行かれますか？」
・２回目ユーザ音声：「×○△□（意味不明）」
・２回目応答音声：「お客様、どちらに行かれます？」
・３回目ユーザ音声：「ごめん、えっと、東大寺へ？」
・３回目応答音声：「えっ、東大寺ですか。ここからですと５００ｋｍ以上あります。参考までにですが、金額も３５万円程度になりますが、本当に東大寺まで行かれますか？」
・４回目ユーザ音声：「うん。」
・４回目応答音声：「わかりました。長旅になると思いますので、途中で休憩したくなったら言ってくださいね。」

この場合、最初のユーザの回答が無言であったので、行き先を確認する音声が操作端末７から再度出力される。さらに、その回答が不明であったので、行き先を確認する音声が操作端末７から再々度出力される。そして、ユーザの目的地を認識したものの、極めて遠距離の場所であったため、その旨を伝え、金額が参考としてユーザに伝えられる。それにより、ユーザが極めて遠距離の目的地まで行く意思があるか否かを適切に判定でき、その目的地までユーザを適切に送り届けることが可能になる。

なお、上記の４回目ユーザ音声の内容が否定的であった場合には、行き先確認の対話が実施される。さらに、上記の第７対話例の実施後、自動運転車両４の走行中において、ユーザより降車の意図を示す音声（例えば、「やっぱ、降ろして。」）が操作端末７に入力された場合、それまでの走行距離と運賃をユーザに報知し、ユーザの同意を得た後、自動運転車両４を停止することにより、ユーザを降車させる。

さらに、第２実施形態の車両管理システム１Ａを会員登録制とした場合、言語処理サーバ２内には、ユーザの登録内容及び利用履歴などが会員用データベースとして記憶される。それにより、ユーザを乗車時に確認した以降の対話は、例えば、以下に示すように実施される。
・１回目ユーザ音声：「自宅に戻りたいのだけれど。」
・１回目応答音声：「了解致しました。いつものルートですと、本日１６時からお祭りがあり、この時間ですと、環８が混雑しそうです。甲州街道でご自宅まで戻られる方が良さそうですが、どうされますか？」
・２回目ユーザ音声：「じゃあ、甲州街道で。」
・２回目応答音声：「承知致しました。それでは、本日は甲州街道でご自宅に向かいます。」

この場合、会員用データベースを参照することにより、環８経由のルートが検索されたものの、前述したデータベースにおける目的地の関連情報として、お祭りの開催が検索された結果、他の代替ルートを検索し、お祭りの開催と代替ルートがユーザに伝えられる。それにより、ユーザが混雑に起因して時間がかかるのを承知で帰宅する意思があるか否かを適切に確認することが可能になる。

なお、上記の対話例において、２回目ユーザ音声が否定的な内容である場合には、「判りました。いつもの環８経由のルートで帰宅します」という内容の２回目応答音声が、操作端末７から出力される。それにより、会員用データベースにおいて、「自宅」に対する「環８経由のルート」のリンク付けの確率がより高められることになる。

次に、本実施形態の車両管理システム１Ａにおいて、自動運転車両４の走行中における対話について説明する。この場合の対話は、例えば、以下に示すように実施される。
・１回目ユーザ音声：「ここを真っ直ぐ行ってください。」
・１回目応答音声：「はい。」
・２回目ユーザ音声：「その角を左に曲がってください。」
・２回目応答音声：「はい。」
・３回目ユーザ音声：「次の信号を右に曲がって、すぐに左にお願いします。」
・３回目応答音声：「次の信号を右ですね。」
・４回目ユーザ音声：「はい。そうです。」
・５回目ユーザ音声：「そこ、左。」
・５回目応答音声：「はい。」
・６回目ユーザ音声：「あのコンビニの前で止めてください。」
・６回目応答音声：「はい。判りました」

以上のように、本実施形態の車両管理システム１Ａによれば、ユーザが目的地を具体的に告げていない場合でも、ユーザの指示内容に従って自動運転車両４を走行させ、最終的な目的地に到達することができる。この場合、ユーザの指示内容がユーザの要望事項に相当する。

さらに、本実施形態の車両管理システム１Ａにおいて、ユーザが後払い方式の自動運転車両４に乗車した以降の対話の例について説明する。この場合の対話例は、以下に示すように実施される。
・１回目ユーザ音声：「前の車を追いかけて。」
・１回目応答音声：「判りました。前の車を追跡致します。」
（前の車が停車する）
・２回目ユーザ音声：「ここで降ろして。」
・２回目応答音声：「はい。料金は○○円です。」

以上のように、本実施形態の車両管理システム１Ａによれば、ユーザから目的地が具体的に告げられない場合でも、ユーザの指示音声に従い、先行車に追従しながら自動運転車両４を走行させることができる。

なお、第２実施形態の車両管理システム１Ａは、運賃支払いをＩＣカード決済とした例であるが、この場合の運賃支払いは、先払いでも後払いでもよい。また、ＩＣカードのチャージ装置を自動運転車両４内に配置し、ＩＣカードのチャージを車内で実行できるように構成してもよい。

さらに、ＱＲ決済コードリーダを自動運転車両４内に配置し、携帯端末に表示されたＰａｙＰａｙ（登録商標）などのＱＲ決済コードを、ＱＲ決済コードリーダで読み取ることにより、運賃支払いを実施してもよい。また、マイナンバーカードのマイナンバーをカードリーダで読み取り、運賃を後精算としてもよい。

また、自動運転車両４の走行中の目的地変更の場合には、運賃を再計算し、その運賃が支払われたか否かで、それ以降の乗車の可否を決定すればよい。さらに、乗客が自動運転車両４を途中下車し、行方不明になる場合などに対処するため、運賃は先払いが望ましい。

さらに、第２実施形態の車両管理システム１Ａにおいて、例えば、自動運転車両４の運行領域が狭い領域（例えば、地方都市圏）に限定されている場合には、言語処理サーバ２を省略し、言語学習モデルを自動運転車両４の車載コントローラ６内の記憶部（図示せず）に記憶するように構成してもよい。

また、第２実施形態の車両管理システム１Ａにおいて、例えば、自動運転車両４の運行領域が狭い領域（例えば、地方都市圏）に限定されている場合には、前述したＳＴＥＰ１〜２を省略し、ＳＴＥＰ３において、言語学習モデルとして、その運行領域内の方言及び共通語を学習したものを用いてもよい。

１車両管理システム（情報処理システム）
１Ａ車両管理システム（情報処理システム）
２言語処理サーバ（言語学習モデル記憶部、データベース記憶部、入力情報認識部、応答情報決定部、地理的属性取得部）
２ａ演算部（入力情報認識部、応答情報決定部、地理的属性取得部）
２ｂ記憶部（言語学習モデル記憶部、データベース記憶部）
３携帯端末（入力インターフェース、出力インターフェース、地理的属性取得部）
３ｂディスプレイ（入力インターフェース、出力インターフェース）
３ｃスピーカ（出力インターフェース）
３ｄマイロフォン（入力インターフェース）
３ｆ位置検出部（地理的属性取得部）
７操作端末（入力インターフェース、出力インターフェース、地理的属性取得部）

Claims

言語の音声情報及び文字情報の少なくとも一方である入力情報がユーザによって入力される入力インターフェースと、
前記言語における共通語及び方言を所定の機械学習法で学習することにより、前記言語が入力されたときに前記共通語及び前記方言の確率を出力するように構成された言語学習モデルを記憶する言語学習モデル記憶部と、
前記ユーザの要望事項と前記ユーザに対して提供する応答情報とをリンク付けした所定のデータベースを記憶するデータベース記憶部と、
前記入力情報が前記入力インターフェースに入力された際、前記言語学習モデル及び所定の自然言語処理を用いて、前記入力情報の内容を認識する入力情報認識部と、
前記入力情報認識部によって認識された前記入力情報の前記内容が前記ユーザの前記要望事項を含んでいる場合、当該要望事項に応じて、前記所定のデータベースを参照することにより、前記応答情報を決定する応答情報決定部と、
当該応答情報を音声情報及び文字情報の少なくとも一方として出力する出力インターフェースと、
を備えることを特徴とする情報処理システム。
請求項１に記載の情報処理システムにおいて、
ユーザの地理的属性を取得する地理的属性取得部をさらに備え、
前記言語学習モデル記憶部は、前記言語における前記共通語及び複数の前記方言を学習した複数の前記言語学習モデルを記憶しており、
前記入力情報認識部は、前記入力情報が前記入力インターフェースに入力された際、前記複数の言語学習モデルのうちの、前記ユーザの前記地理的属性に対応する前記言語学習モデル及び前記所定の自然言語処理を用いて、前記入力情報の前記内容を認識することを特徴とする情報処理システム。
請求項１又は２に記載の情報処理システムにおいて、
前記言語学習モデル記憶部は、前記言語学習モデルとして、前記共通語及び複数の前記方言のいずれか１つが入力されたときに、前記共通語及び前記複数の前記方言の確率を出力する方言識別モデルと、当該複数の方言が入力されたときに、当該複数の方言の確率をそれぞれ出力する複数の方言判定モデルとを記憶しており、
前記入力情報認識部は、前記入力情報の前記内容を認識する際、前記方言識別モデルを用いて前記入力情報が前記方言であるか否かを判定し、前記入力情報が前記方言であると判定した場合、前記複数の方言判定モデル及び前記所定の自然言語処理を用いて、前記入力情報の前記内容を認識することを特徴とする情報処理システム。
請求項１又は２に記載の情報処理システムにおいて、
前記言語学習モデル記憶部は、前記共通語及び複数の前記方言のいずれか１つが入力されたときに前記共通語及び前記複数の前記方言の確率を出力する方言識別モデル、及び当該複数の方言が入力されたときに当該複数の方言の確率をそれぞれ出力する複数の方言判定モデルを用いて所定の方言を判定した結果と、前記共通語及び複数の前記方言のいずれか１つが入力されたときに前記共通語及び前記複数の前記方言の確率を出力する文書ベクトルモデルを用いて前記所定の方言を判定した結果とを比較した場合において、当該判定した結果の精度の高い方を前記言語学習モデルとして記憶しており、
前記方言識別モデル及び前記複数の方言判定モデルでは、前記所定の機械学習法として、分散ベクトルを用いた機械学習法が実行され、
前記文書ベクトルモデルでは、前記所定の機械学習法として、ＢｏＷ（ＢａｇｏｆＷｏｒｄｓ）を用いた機械学習法が実行されることを特徴とする情報処理システム。
請求項１ないし４のいずれかに記載の情報処理システムにおいて、
前記入力情報は、前記ユーザの前記要望事項として、前記ユーザの目的地を含んでおり、
前記所定のデータベースでは、前記応答情報としての、前記ユーザの前記目的地に対応する複数の候補地が、優先順位を付与された状態で当該目的地にリンク付けされており、
前記応答情報決定部は、前記ユーザの目的地に応じて、前記所定のデータベースを参照することにより、前記複数の候補地の中から優先順位が最も高い第１候補地を選択し、当該第１候補地が前記目的地であるか否かを前記ユーザに対して確認する第１確認情報を、前記応答情報として設定することを特徴とする情報処理システム。
請求項５に記載の情報処理システムにおいて、
前記応答情報決定部は、前記第１確認情報が前記出力インターフェースから出力された後、前記ユーザの前記目的地が前記第１候補地と異なることを表す前記入力情報が前記入力インターフェースに入力された際、前記所定のデータベースを参照することにより、前記ユーザの前記目的地に対応する前記複数の候補地の中から前記第１候補地の次に優先順位の高い第２候補地を選択し、当該第２候補地が前記目的地であるか否かを前記ユーザに対して確認する第２確認情報を、前記応答情報として設定することを特徴とする情報処理システム。