以下、図面を参照しながら、本発明の一実施形態に係る情報処理システムとしての車両管理システムについて説明する。図1に示すように、本実施形態の車両管理システム1は、言語処理サーバ2、多数の携帯端末3(1つのみ図示)及び多数の自動運転車両4(1つのみ図示)などで構成されている。
この車両管理システム1は、タクシータイプの自動運転車両4の運行状態を管理するものであり、例えば、自動運転車両4によるユーザ(図示せず)の送迎を管理するものである。
言語処理サーバ2では、後述するように、ユーザの自動運転車両4の利用時、ユーザの携帯端末3との間で情報通信処理などが実行される。なお、本実施形態では、言語処理サーバ2が、言語学習モデル記憶部、データベース記憶部、入力情報認識部及び応答情報決定部に相当する。
言語処理サーバ2は、図2に示すように、演算部2a、記憶部2b及び無線通信回路2cなどを備えている。この演算部2aは、CPUなどで構成されており、後述するように、記憶部2b内の言語学習モデル及びデータベースを用いて、情報通信処理などの各種制御処理を実行する。なお、本実施形態では、演算部2aが、入力情報認識部及び応答情報決定部に相当する。
また、記憶部2bは、RAM、E2PROM及びROMなどのメモリ及びHDDなどのストレージで構成されており、言語学習モデル及びデータベースなどを記憶している。これらの言語学習モデルの詳細については後述する。なお、本実施形態では、記憶部2bが言語学習モデル記憶部及びデータベース記憶部に相当する。
一方、データベースには、各地方の各地点と、多数の目的地の候補地と、多数の候補地の属性とをリンク付けしたデータが含まれている。これらの多数の候補地は、自動運転車両4の利用者が各地点から目的地とする可能性が高い候補地であり、多数の候補地は、各地点に対して、優先順位を付与された状態でリンク付けされている。この優先順位は、ユーザ全般によって候補地が選択される可能性(確率)に対応するものであり、これらの可能性は、ユーザ全般が自動運転車両4を利用した際の統計データ(例えば各地点からの移動先を過去数年にわたって集計したデータ)などを用いて算出される。
また、目的地としては、医療施設、商業施設、公共施設、アミューズメント施設、店舗及び寺社仏閣などが含まれている。さらに、目的地の属性(関連情報)としては、目的地周辺のイベントの開催情報、目的地に関連するトレンドワード、目的地周辺の天候情報、及び目的地周辺の季節情報の少なくとも一つが含まれている。
さらに、無線通信回路2cは、無線通信網5を介して、携帯端末3及び自動運転車両4の後述する車載コントローラ6との間で無線信号を送受信可能に構成されている。以上の構成により、この言語処理サーバ2では、携帯端末3及び車載コントローラ6の間において、データ通信が無線通信網5を介して実行される。
一方、携帯端末3は、スマートフォンタイプのものであり、図3に示すように、演算部3a、ディスプレイ3b、スピーカ3c、マイロフォン3d、メモリ3e、位置検出部3f及び無線通信回路3gなどを備えている。なお、本実施形態では、携帯端末3が、入力インターフェース、出力インターフェース、地理的属性取得部及び操作部に相当する。
演算部3aは、CPUなどで構成されており、後述するように、ユーザの動作に伴い、各種の制御処理を実行する。
また、ディスプレイ3bは、静電容量型のタッチパネルで構成されており、携帯端末3の前面のほぼ大部分に渡って配置されている(図19参照)。このディスプレイ3bでは、各種アプリケーションソフトの実行中、各種のアイコン及びメニューなどがGUI方式で表示される。
さらに、ディスプレイ3bでは、ユーザによる入力操作(例えば、タップ、スワイプ、ピンチアウト及びピンチイン)が実行されたときに、それを表す操作信号が演算部3aに出力される。なお、本実施形態では、ディスプレイ3bが入力インターフェース、出力インターフェース及び操作部に相当する。
一方、スピーカ3cは、演算部3aからの音声信号を外部に出力し、マイロフォン3dは、ユーザの発音などが入力された際、それを表す音声信号を演算部3aに送る。なお、本実施形態では、スピーカ3cが出力インターフェースに相当し、マイロフォン3dが入力インターフェースに相当する。また、メモリ3eは、RAM、E2PROM及びROMなどで構成されており、各種アプリケーションソフト及び各種データを記憶している。
さらに、位置検出部3fは、GPSユニットなどで構成されており、携帯端末3の現在位置を検出し、それを表す検出信号を演算部3aに出力する。なお、本実施形態では、位置検出部3fが地理的属性取得部に相当する。また、無線通信回路3gは、無線通信網5を介して、無線信号を言語処理サーバ2との間で送受信可能に構成されている。以上の構成により、この携帯端末3では、言語処理サーバ2との間のデータ通信が無線通信網5を介して実行される。
一方、自動運転車両4は、図示しない電動機を動力源とするものであり、車載コントローラ6を備えている。この車載コントローラ6は、マイクロコンピュータ及び無線通信回路(いずれも図示せず)などを備えており、無線通信網5を介して、言語処理サーバ2との間でデータ通信を実行する。また、車載コントローラ6は、携帯端末3と同様の位置検出部(図示せず)を備えており、この位置検出部介して、自動運転車両4の位置を取得する。
次に、言語処理サーバ2の記憶部2bに記憶されている言語学習モデルについて説明する。 本実施形態の場合、各種の言語を学習する学習装置として、図4に示す第1学習装置10と、図5に示す第2学習装置20とが用いられ、これらの学習装置10,20は、具体的には図示しないコンピュータによって構成されている。
これらの学習装置10,20では、各種の言語を学習する際、各種の言語における共通語及び複数の方言が学習される。この場合、各種の言語としては、日本語、英語、フランス語、スペイン語、ドイツ語及び中国語などの多種類の言語が学習され、共通語としては、標準語が学習される。
例えば、日本語を学習する際には、日本語の共通語と、日本の複数の地方の方言が学習されるとともに、複数の地方の方言としては、例えば、各都道府県内の主要な方言が学習される。また、例えば、英語を学習する際には、英語圏の各国(英国、米国、カナダ及び豪州など)における共通語と、各国における複数の地方の方言とが学習される。
以下の説明では、第1及び第2学習装置10,20において、日本語の共通語と日本語の方言の一例として沖縄地方の方言とを学習する場合の例について説明する。この場合、沖縄地方の方言としては、沖縄方言、奄美方言及び八重山方言などが存在しており、実際の学習では、これらの方言がそれぞれ学習されることになるが、本実施形態では、沖縄地方の方言として、沖縄方言を学習する場合の例について説明する。
第1学習装置10は、図4に示すように、形態素解析部11、第1分散ベクトル作成部12、Nグラム解析部13、第2分散ベクトル作成部14、方言識別モデル学習部15、第1方言判定モデル学習部16及び第2方言判定モデル学習部17を備えている。
形態素解析部11は、方言又は共通語の学習用データが入力された場合、学習用データの形態素解析を実施し、形態素解析の結果を方言又は共通語をラベル付けした状態で第1分散ベクトル作成部12に出力する。この形態素解析部11の場合、例えば、学習用データとして、「うきみそーちー」という沖縄方言が入力された場合、図6に示す形態素解析結果の一部又は全部が、「沖縄方言」をラベル付けした状態で第1分散ベクトル作成部12に対して出力される。
また、例えば、学習用データとして、「おはようございます」という共通語が入力されたときには、図7に示す形態素解析結果の一部又は全部が、「共通語」をラベル付けした状態で第1分散ベクトル作成部12に対して出力される。
一方、第1分散ベクトル作成部12は、形態素解析部11から入力された形態素解析結果に基づき、Word2Vec手法を用いて、分散ベクトルを作成し、この分散ベクトルを、方言識別モデル学習部15及び第1方言判定モデル学習部16に出力する。この場合、方言識別モデル学習部15に対しては、共通語及び方言をラベル付けした状態の分散ベクトルが出力され、第1方言判定モデル学習部16に対しては、方言をラベル付けした分散ベクトルのみが出力される。
この第1分散ベクトル作成部12の場合、例えば、図6に示す形態素解析結果が「沖縄方言」をラベル付けした状態で入力された場合、図8に示す3つの分散ベクトルが「沖縄方言」をラベル付けした状態で作成される。また、例えば、図7に示す形態素解析結果が「共通語」をラベル付けした状態で入力されたときには、図9に示す3つの分散ベクトルが「共通語」をラベル付けした状態で作成される。
一方、Nグラム解析部13は、方言又は共通語の学習用データが入力された場合、学習用データの2グラム解析及び3グラム解析を実施し、これらの解析結果を方言又は共通語をラベル付けした状態で第2分散ベクトル作成部14に出力する。
このNグラム解析部13の場合、例えば、学習用データとして、「うきみそーちー」という沖縄方言が入力された場合、図10に示す2グラム及び3グラムの解析結果が、「沖縄方言」をラベル付けした状態で第2分散ベクトル作成部14に対して出力される。
また、学習用データとして、「おはようございます」という共通語が入力されたときには、図11に示す2グラム及び3グラムの解析結果が、「共通語」をラベル付けした状態で第2分散ベクトル作成部14に対して出力される。
一方、第2分散ベクトル作成部14は、Nグラム解析部13から入力された2グラム及び3グラムの解析結果に基づき、Word2Vec手法を用いて、分散ベクトルを作成し、この分散ベクトルを、方言識別モデル学習部15及び第2方言判定モデル学習部17に出力する。この場合、方言識別モデル学習部15に対しては、共通語及び方言をラベル付けした状態の分散ベクトルが出力され、第2方言判定モデル学習部17に対しては、方言をラベル付けした分散ベクトルのみが出力される。
そして、方言識別モデル学習部15では、第1及び第2分散ベクトル作成部12,14からの分散ベクトルを入力として、方言識別モデルの学習が実行される。この場合、方言識別モデルとしては、例えば、Skip−Gramモデルが用いられ、その学習法としては、例えば、確率的勾配降下法が用いられる。この方言識別モデル学習部15では、以上の学習法を繰り返し実行することにより、方言識別モデルの学習が実行される。この方言識別モデルは、方言及び共通語のいずれかが入力されたときに、方言及び共通語をラベルとして、それらのラベルの確率を出力する。これらの確率は、値0〜1の間の値として出力される。
また、第1方言判定モデル学習部16では、第1分散ベクトル作成部12からの方言をラベル付けした分散ベクトルを入力として、第1方言判定モデルの学習が実行される。この場合、第1方言判定モデルとしては、例えば、Skip−Gramモデルが用いられ、その学習法としては、例えば、確率的勾配降下法が用いられる。この第1方言判定モデル学習部16では、以上の学習法を繰り返し実行することにより、第1方言判定モデルとして、複数の方言をそれぞれ学習した複数のモデルが作成される。
すなわち、第1方言判定モデル学習部16では、例えば、沖縄方言を学習したモデルとは別に、他の地方(他の都道府県)の複数の方言を学習した複数のモデルがそれぞれ作成される。複数の第1方言判定モデルの各々は、学習済みの方言が入力されたときに、その方言及び共通語の確率を出力する。これらの確率は、値0〜1の間の値として出力される。
さらに、第2方言判定モデル学習部17では、第2分散ベクトル作成部14からの方言をラベル付けした分散ベクトルを入力として、第2方言判定モデルの学習が実行される。この場合、第2方言判定モデルとしては、例えば、Skip−Gramモデルが用いられ、その学習法としては、例えば、確率的勾配降下法が用いられる。
この第2方言判定モデル学習部17では、以上の学習法を繰り返し実行することにより、第2方言判定モデルとして、前述した第1方言判定モデルと同様に、複数の方言をそれぞれ学習した複数のモデルが作成される。
また、前述した第2学習装置20は、図5に示すように、ユニグラム解析部21、word2index部22、doc2bow部23及び文書ベクトルモデル学習部24を備えている。
ユニグラム解析部21は、方言又は共通語の学習用データが入力された場合、学習用データのユニグラム解析を実施し、ユニグラム解析の結果を方言又は共通語をラベル付けした状態で出力する。
このユニグラム解析部21の場合、例えば、学習用データとして、「うきみそーちー」という沖縄方言が入力された場合、「う、き、み、そ、ー、ち、ー」というユニグラム解析結果が、「沖縄方言」をラベル付けした状態で、word2index部22に対して出力される。
また、例えば、学習用データとして、「おはようございます」という共通語が入力されたときには、「お、は、よ、う、ご、ざ、い、ま、す」というユニグラム解析結果が、「共通語」をラベル付けした状態で、word2index部22に対して出力される。
一方、word2index部22では、ユニグラム解析部21から入力されたユニグラム解析結果に対して、インデックス付けが実施される。例えば、「う、き、み、そ、ー、ち、ー」というユニグラム解析結果に対しては、図12に示すように、インデックス付けが実施される。また、例えば、「お、は、よ、う、ご、ざ、い、ま、す」というユニグラム解析結果に対しては、図13に示すように、インデックス付けが実施される。
以上のように、インデックス付けされたユニグラム解析結果のデータは、ラベル付けもされた状態で、doc2bow部23に入力される。このdoc2bow部23では、BoW(Bag of Words)により、インデックス付けされたユニグラム解析結果のデータからOne−Hot表現を作成し、これらのOne−Hot表現を足し合わせることにより、One−Hot表現のマトリクスが作成される。
この場合、例えば、図12に示すデータが入力されたときには、図14に示すOne−Hot表現のマトリクスが作成される。また、図13に示すデータが入力されたときには、図15に示すOne−Hot表現のマトリクスが作成される。以上のように作成された方言及び共通語のOne−Hot表現のマトリクスは、文書ベクトルモデル学習部24に入力される。
文書ベクトルモデル学習部24では、上述したOne−Hot表現のマトリクスを入力として、文書ベクトルモデルの学習が実行される。この場合、文書ベクトルモデルとしては、例えば、LDA(Latent Dirichlet Allocation)モデルが用いられ、その学習アルゴリズムとしては、潜在トピックのトピック分布及び単語の出現分布を算出する手法が用いられる。
以上のように、文書ベクトルモデルの学習が実行され、それにより、文書ベクトルモデルは、方言及び共通語の一方が入力されたときに、方言及び共通語の一方をラベルとして、そのラベルの確率を表す値を出力するように構成される。
本実施形態の第1学習装置10では、以上の手法により、方言識別モデル、第1方言判定モデル及び第2方言判定モデルの学習が実行され、第2学習装置20では、文書ベクトルモデルの学習が実行される。
そして、前述した言語処理サーバ2では、第1学習装置10によって学習が実行された3種類のモデルを用いて、所定の複数の方言を判定したときの判定精度と、第2学習装置20によって学習が実行された文書ベクトルモデルを用いて、所定の複数の方言を判定したときの判定精度を比較し、判定精度のよい方のモデルが言語学習モデルとして記憶部2b内に記憶されている。
なお、以下の説明では、言語学習モデルとして、第1学習装置10によって学習が実行された方言識別モデル、第1方言判定モデル及び第2方言判定モデルが言語処理サーバ2の記憶部2b内に記憶されている場合を例にとって説明する。
次に、図16及び図17を参照しながら、本実施形態の車両管理システム1における情報通信処理について説明する。同図に示すように、まず、携帯端末3において、ユーザ認識処理(図16/STEP1)が実行される。このユーザ認識処理は、ユーザの出身国及び出身地方をユーザの地理的属性として取得/認識するものであり、具体的には、図18に示すように実行される。
同図に示すように、まず、後述する認識用データが出力済みであるか否かを判定する(図18/STEP30)。この判定が肯定(図18/STEP30…YES)で、認識用データが出力済みであるときには、そのまま本処理を終了する。
一方、この判定が否定(図18/STEP30…NO)で、認識用データが出力済みでないときには、後述する質問音声を出力済みであるか否かを判定する(図18/STEP31)。この判定が肯定(図18/STEP31…YES)で、質問音声を出力済みであるときには、後述するSTEP37に進む。
一方、この判定が否定(図18/STEP31…NO)で、質問音声を出力済みでないときには、選択画面を表示中であるか否かを判定する(図18/STEP32)。この判定が肯定(図18/STEP32…YES)で、選択画面を表示中であるときには、後述するSTEP35に進む。
一方、この判定が否定(図18/STEP32…NO)で、選択画面を表示中でないときには、ユーザ認識処理の開始動作が実行されたか否かを判定する(図18/STEP33)。この場合、携帯端末3において、ユーザ認識処理アプリケーションを開始するためのアイコン(図示せず)がユーザによってタップされたときには、ユーザ認識処理の開始動作が実行されたと判定され、それ以外のときには、ユーザ認識処理の開始動作が実行されていないと判定される。
この判定が否定(図18/STEP33…NO)で、ユーザ認識処理の開始動作が実行されていないときには、そのまま本処理を終了する。一方、この判定が肯定(図18/STEP33…YES)で、ユーザ認識処理の開始動作が実行されたときには、選択画面の表示処理を実行する(図18/STEP34)。
この選択画面の表示処理では、図19に示すように、アイコンA1〜A6を含む各種の言語用アイコンが携帯端末3のディスプレイ3b上に表示される。この場合、言語用アイコンには、その言語の種類を示す文字が表示される。例えば、日本語用アイコンA1には、「日本語」の文字が表示され、英語用アイコンA2には、「English」の文字が表示され、スペイン語用 アイコンA3には、「Espanol」の文字が表示される。
次いで、選択動作が実行されたか否かを判定する(図18/STEP35)。この場合、ディスプレイ3bに表示されているアイコンのいずれかがユーザによってタップされたときには、選択動作が実行されたと判定され、それ以外のときには、選択動作が実行されていないと判定される。
この判定が否定(図18/STEP35…NO)で、選択動作が実行されていないときには、そのまま本処理を終了する。一方、この判定が肯定(図18/STEP35…YES)で、選択動作が実行されたときには、質問音声を出力する(図18/STEP36)。
この場合、質問音声としては、日本語用アイコンA1以外の外国語用アイコンがタップされたときには、例えば、「あなたはどちらの国のどの地方のご出身ですか?」という内容の音声が、タップされた外国語で携帯端末3のスピーカ3cから出力される。
一方、日本語用アイコンA1がタップされたときには、例えば、「どの都道府県のどの地方のご出身ですか?」という内容の日本語音声が携帯端末3のスピーカ3cから出力される。以下、日本語用アイコンA1がタップされた場合を例にとって説明する。
次いで、マイロフォン3dを介して、ユーザの回答音声が入力されたか否かを判定する(図18/STEP37)。この判定が否定(図18/STEP37…NO)で、ユーザの回答音声が入力されていないときには、そのまま本処理を終了する。
一方、この判定が肯定(図18/STEP37…YES)で、ユーザの回答音声が入力されたときには、認識用データを決定して(図18/STEP38)、本処理を終了する。
この認識用データは、ユーザがタップした言語用アイコンの種類と、ユーザの回答音声と、携帯端末3の位置(以下「ユーザ位置」という)とを含むデータとして決定される。なお、以下の説明では、ユーザの回答音声が「石川県の能登地方です」であり、ユーザ位置すなわち携帯端末3の位置が能登地方の町である場合を例にとって説明する。
図16に戻り、以上のようなユーザ認識処理の実行により、認識用データが決定された場合、それを含む認識用データ信号が携帯端末3から言語処理サーバ2に送信される(図16/STEP2)。
言語処理サーバ2では、認識用データ信号を受信した場合、言語学習モデルが選択される(図16/STEP3)。具体的には、以下に述べるように、認識用データにおける、ユーザがタップした言語用アイコンの種類及びユーザの回答音声に基づき、今回の処理で使用する言語学習モデルが選択される。
本実施形態の場合、ユーザがタップした言語用アイコンが日本語アイコンA1であることから、まず、日本語の所定の自然言語処理が選択され、これを用いて、「石川県の能登地方です」というユーザの回答音声から、「石川県」及び「能登地方」という地名が取得される。なお、本実施形態の場合、所定の自然言語処理としては、例えば、BERTなどが用いられる。
そして、この取得結果に基づき、記憶部2b内に記憶されている多数の言語学習モデルの中から、今回の処理で使用する言語学習モデルとして、共通語、石川県の能登地方の方言及び加賀地方の方言を学習済みの、方言識別モデル、第1方言判定モデル及び第2方言判定モデルが選択される。
次いで、言語処理サーバ2では、挨拶音声が決定される(図16/STEP4)。この挨拶音声は、例えば、時間に応じた挨拶と、ユーザの行き先の質問とを含むように決定される。すなわち、朝の時間帯の場合、挨拶音声は、「おはようございます。今日はどちらに行かれますか?」という内容に決定される。
以上のように、挨拶音声が決定された場合、それを含む挨拶音声信号が言語処理サーバ2から携帯端末3に送信される(図16/STEP5)。
携帯端末3では、挨拶音声信号を受信した場合、以下に述べるように、1回目回答取得処理が実行される(図16/STEP6)。この1回目回答取得処理では、まず、挨拶音声信号に含まれる挨拶音声がスピーカ3cから出力される。例えば、上述したような「おはようございます。今日はどちらに行かれますか?」という内容の挨拶音声が出力される。
そして、この挨拶音声の出力後、ユーザからの回答音声がマイロフォン3dから入力されたときに、この回答音声が1回目回答音声として取得される。なお、以下の説明では、1回目回答音声が「総合病院に行きたいぎわいね」という能登地方の方言である場合を中心に説明する。なお、この回答音声は、共通語の「総合病院に行きたいんです」に相当する。
以上のように、1回目回答音声が取得された場合、それを含む1回目回答音声信号が携帯端末3から言語処理サーバ2に送信される(図16/STEP7)。
言語処理サーバ2では、1回目回答音声信号を受信した場合、1回目応答決定処理が実行される(図16/STEP8)。この1回目応答決定処理は、具体的には、図20に示すように実行される。
すなわち、同図に示すように、まず、1回目回答音声を方言識別モデルに入力することにより、方言識別モデルの出力を取得する(図20/STEP40)。この方言識別モデルの出力は、共通語、能登地方の方言及び加賀地方の方言をラベルとして、これら3つのラベルが0〜1の間の確率を伴う値として取得される。
次いで、方言識別モデルの出力に基づき、1回目回答音声が共通語であるか否かを判定する(図20/STEP41)。この場合、方言識別モデルの出力における共通語ラベルの確率が所定値(例えば値0.6)以上であるときには、1回目回答音声が共通語であると判定し、それ以外のときには、1回目回答音声が方言であると判定する。
この判定が肯定(図20/STEP41…YES)で、1回目回答音声が共通語であるときには、共通語用の自然言語処理により、1回目回答音声の内容を取得する(図20/STEP42)。
一方、前述したように、1回目回答音声が「総合病院に行きたいぎわいね」という能登地方の方言であるときには、この判定が否定(図20/STEP41…NO)となり、その場合には、この1回目回答音声を第1方言判定モデルに入力することにより、その出力を取得する(図20/STEP43)。この場合、第1方言判定モデルの出力は、能登地方の方言及び加賀地方の方言をラベルとして、これら2つのラベルが0〜1の間の確率を伴う値として取得される。
次いで、1回目回答音声を第2方言判定モデルに入力することにより、その出力を取得する(図20/STEP44)。この場合、第2方言判定モデルの出力は、能登地方の方言及び加賀地方の方言をラベルとして、これら2つのラベルが0〜1の間の確率を伴う値として取得される。
次に、以上の第1及び第2方言判定モデルの出力に基づき、1回目回答音声の方言の種類を決定する(図20/STEP45)。この場合、1回目回答音声が能登地方の方言及び加賀地方の方言のいずれであるかが決定される。具体的には、第1及び第2方言判定モデルの出力における能登地方の方言のラベルの確率と、加賀地方の方言のラベルの確率のうち、いずれかのラベルの確率が所定値(例えば値0.6)以上であるときには、そのラベルの方言であると決定される。
上述したように、1回目回答音声が「総合病院に行きたいぎわいね」という能登地方の方言である場合、第1及び第2方言判定モデルの出力における能登地方の方言のラベルの確率がいずれも所定値(例えば値0.6)以上となり、その結果、1回目回答音声が能登地方の方言であると決定される。
以上のように方言の種類を決定した後、その種類の方言用の自然言語処理により、1回目回答音声の内容を取得する(図20/STEP46)。
このように、共通語又は方言である1回目回答音声の内容を取得した後、1回目回答音声の内容に基づき、記憶部2b内の前述したデータベースを検索し、その検索結果に基づき、1回目応答音声を決定する(図20/STEP47)。
前述したように、データベースには、各地方の各地点と、多数の目的地の候補地と、多数の候補地の関連情報とをリンク付けしたデータが含まれている。したがって、例えば、上記のように、1回目回答音声が「総合病院に行きたい」という内容である場合、ユーザ位置に基づき、データベースを参照することにより、ユーザ位置(地点)に対して確率を付与されている「総合病院」の候補地が検索される。
そして、複数の候補地が検索された場合、それらの候補地のうち、最高確率を付与されている「×××町の総合病院」が第1候補地として選択されるとともに、1回目応答音声が、以下に述べるように決定される。すなわち、ユーザの1回目回答音声(以下「ユーザの回答音声」という)が、例えば、能登地方の方言であった場合には、1回目応答音声が、「×××町の総合病院でいいかいね?」という能登地方の方言内容に決定される。なお、この1回目応答音声は、共通語の「×××町の総合病院でよろしいですか?」に相当する。
一方、ユーザの回答音声が共通語であった場合には、1回目応答音声が、「×××町の総合病院でよろしいですか?」という内容に決定される。なお、候補地として、1つの「総合病院」のみが検索された場合にも、それが第1候補地として選択される。以上のように、1回目応答音声を決定した後、1回目応答決定処理を終了する。
図16に戻り、以上のような1回目応答決定処理の実行により、1回目応答音声が決定された場合、それを含む1回目応答音声信号が言語処理サーバ2から携帯端末3に送信される(図16/STEP9)。
携帯端末3では、1回目応答音声信号を受信した場合、以下に述べるように、2回目回答取得処理が実行される(図16/STEP10)。この2回目回答取得処理では、まず、1回目応答音声信号に含まれる1回目応答音声がスピーカ3cから出力される。例えば、ユーザの回答音声が能登地方の方言であった場合には、上述したような「×××町の総合病院でいいかいね?」という内容の音声が出力され、ユーザの回答音声が共通語であった場合には、上述したような「×××町の総合病院でよろしいですか?」という内容の音声が出力される。
そして、この1回目応答音声の出力後、ユーザからの回答音声がマイロフォン3dから入力されたときに、この回答音声が2回目回答音声として取得される。
以上のように、2回目回答音声が取得された場合、それを含む2回目回答音声信号が携帯端末3から言語処理サーバ2に送信される(図16/STEP11)。
言語処理サーバ2では、2回目回答音声信号を受信した場合、2回目応答決定処理が実行される(図16/STEP12)。この2回目応答決定処理は、具体的には、図21に示すように実行される。
図21に示す2回目応答決定処理の場合、図21のSTEP50〜56の各処理は、前述した図20の1回目応答決定処理のSTEP40〜46と同じ手法により実行されるので、その説明は省略する。
この2回目応答決定処理では、STEP50〜56を実行することにより、2回目回答音声の内容が取得される。次いで、以下に述べるように、2回目応答が決定される(図21/STEP57)。
まず、2回目回答音声信号に含まれるユーザの回答音声が肯定的な意味の方言であるとき、例えば、「そうやわいね」という能登地方の方言であるときには、後述する運賃計算処理(図17/STEP20)に移行し、2回目応答として、この運賃計算処理が実行される。なお、この「そうやわいね」という能登地方の方言は、共通語の「そうです」に相当する。
また、2回目回答音声信号に含まれるユーザの回答音声が肯定的な意味の共通語であるとき、例えば、「そうです」という共通語であるときにも、上記と同様に、後述する運賃計算処理(図17/STEP20)に移行し、2回目応答として、この運賃計算処理が実行される。
一方、2回目回答音声信号に含まれるユーザの回答音声が否定的な意味の方言であるとき、例えば、「ちごうわいね」という能登地方の方言であるときには、前述した図20のSTEP47で検索した複数の候補地のうち、2番目に確率の高い「○○○町の総合病院」が第2候補地として選択される。なお、この「ちごうわいね」という能登地方の方言は、共通語の「ちがいます」に相当する。
また、2回目回答音声信号に含まれるユーザの回答音声が否定的な共通語であるとき、例えば、「ちがいます」という共通語であるときにも、上記と同様に、「○○○町の総合病院」が第2候補地として選択される
次いで、2回目応答としての2回目応答音声が、ユーザの回答音声が能登地方の方言であるときには、「○○○町の総合病院でいいかいね?」という内容に決定され、ユーザの回答音声が共通語であるときには、「○○○町の総合病院でよろしいですか?」という内容に決定される。なお、この「いいかいね?」という能登地方の方言は、共通語の「よろしいですか?」に相当する。
そして、以上のような2回目応答決定処理の実行により、2回目応答音声が決定された場合、それを含む2回目応答音声信号が言語処理サーバ2から携帯端末3に送信される(図16/STEP13)。
携帯端末3では、2回目応答音声信号を受信した場合、以下に述べるように、3回目回答取得処理が実行される(図16/STEP14)。この3回目回答取得処理では、まず、2回目応答音声信号に含まれる2回目応答音声がスピーカ3cから出力される。すなわち、ユーザの回答音声が能登地方の方言であるときには、上述したような「○○○町の総合病院でいいかいね?」という内容の音声が出力され、ユーザの回答音声が共通語であるときには、上述したような「○○○町の総合病院でよろしいですか?」という内容の音声が出力される。
そして、この2回目応答音声の出力後、ユーザからの回答音声がマイロフォン3dから入力されたときに、この回答音声が3回目回答音声として取得される。
以上のように、3回目回答音声が取得された場合、それを含む3回目回答音声信号が携帯端末3から言語処理サーバ2に送信される(図16/STEP15)。
言語処理サーバ2では、3回目回答音声信号を受信した場合、3回目応答決定処理が実行される(図16/STEP12)。この3回目応答決定処理は、具体的には、上述した2回目応答決定処理と同様に実行される。
すなわち、3回目回答音声信号に含まれる3回目回答音声が肯定的な意味の言葉であるときには、運賃計算処理(図17/STEP20)に移行し、3回目応答として、運賃計算処理が実行される。一方、3回目回答音声信号に含まれる3回目回答音声が否定的な意味の言葉であるときには、前述した図20のSTEP47で検索した複数の候補地のうち、3番目に確率の高い「△△△町の総合病院」が第3候補地として選択される。
次いで、3回目応答としての3回目応答音声が、ユーザの回答音声が能登地方の方言であるときには、「△△△町の総合病院でいいかいね?」という内容に決定され、ユーザの回答音声が共通語であるときには、「△△△町の総合病院でよろしいですか?」という内容に決定される。
そして、STEP16以降の処理が、上述したSTEP13以降の処理と同様に実行される。以上のように、この情報通信処理では、ユーザから目的地が告げられた場合、その目的地の候補地が確率の高い順にユーザに提示される。
次に、図17の情報通信処理について説明する。この図17の情報通信処理は、図16の情報通信処理に続けて実行されるものである。同図に示すように、まず、言語処理サーバ2において、運賃計算処理が実行される(図17/STEP20)。
この運賃計算処理では、ユーザの現在地と目的地との間のルートが決定され、このルートに応じて、運賃が計算されるとともに、この運賃を報知する運賃報知音声が決定される。例えば、この運賃報知音声は、ユーザの回答音声が能登地方の方言であるときには、「×××町の総合病院までは◆◆◆◆円やわいね」という内容に決定され、ユーザの回答音声が共通語であるときには、「×××町の総合病院までは◆◆◆◆円です」という内容に決定される。なお、この「やわいね」という能登地方の方言は、共通語の「です」に相当する。
以上のように、運賃計算処理が実行された場合、運賃報知音声を含む運賃報知信号が言語処理サーバ2から携帯端末3に送信される(図17/STEP21)。
携帯端末3では、運賃報知信号を受信した場合、以下に述べるように、運賃報知処理が実行される(図17/STEP22)。この運賃報知処理では、まず、運賃報知信号に含まれる運賃報知音声がスピーカ3cから出力される。例えば、ユーザの回答音声が能登地方の方言であるときには、上述したような「×××町の総合病院までは◆◆◆◆円やわいね」という内容の運賃報知音声が出力され、ユーザの回答音声が共通語であるときには、上述したような「×××町の総合病院までは◆◆◆◆円です」という内容の運賃報知音声が出力される。
この運賃報知音声の出力後、ユーザによる運賃の支払い操作が完了した否かが判定される。この場合、運賃の支払い操作は、携帯端末3におけるアプリケーションソフトを利用し、Suica(登録商標)などの電子マネー決済又はクレジットカード決済などによって実行される。
そして、運賃の支払い操作が完了した場合には、それを表す支払い完了信号が携帯端末3から言語処理サーバ2に送信される(図17/STEP23)。
言語処理サーバ2では、支払い完了信号を受信した場合、到着予定計算処理が実行される(図17/STEP24)。この到着予定計算処理は、以下に述べるように実行される。まず、空車の自動運転車両4のうち、ユーザ位置を基準として最も近い位置にいるものが検索され、この自動運転車両4の位置からユーザ位置までのルートが計算される。
次いで、このルート及び現在時間に基づき、自動運転車両4がユーザ位置に到達する予定時間が算出され、この到着予定時間を報知する到着予定報知音声が決定される。この到着予定報知音声は、例えば、ユーザの回答音声が能登地方の方言であるときには、「お迎えの車両はそっちに13:00に到着予定やわいね」という内容に決定され、ユーザの回答音声が共通語であるときには、「お迎えの車両はそちらに13:00に到着予定です」という内容に決定される。
以上のように、到着予定計算処理が実行された場合、到着予定報知音声を含む到着予定報知信号が言語処理サーバ2から携帯端末3に送信される(図17/STEP25)。携帯端末3では、到着予定報知信号を受信した場合、到着予定報知処理が実行される(図17/STEP26)。この到着予定報知処理では、到着予定報知信号に含まれる到着予定報知音声がスピーカ3cから出力される。
例えば、ユーザの回答音声が能登地方の方言であるときには、「お迎えの車両はそっちに13:00に到着予定やわいね」という内容の到着予定報知音声が出力され、ユーザの回答音声が共通語であるときには、上述したような「お迎えの車両はそちらに13:00に到着予定です」という内容の到着予定報知音声が出力される。
なお、以上の情報通信処理の説明は、図19に示す選択画面において、日本語用アイコンA1がタップされた場合のものであるが、これ以外のアイコン(例えば、英語用アイコンA2)がタップされたときでも、以上の説明と同様に、図16及び図17の情報通信処理が実行される。
以上のように、第1実施形態の車両管理システム1によれば、携帯端末3において、ユーザ認識処理が実行されることにより、ユーザの出身国、出身地方及び現在位置が認識用データとして取得される。そして、言語処理サーバ2では、認識用データに基づき、今回の処理で使用する方言識別モデル、第1方言判定モデル及び第2方言判定モデルが、ユーザの出身国及び出身地に対応するものに決定される。
さらに、言語処理サーバ2では、携帯端末3からのユーザの1回目回答音声信号を受信した際、その1回目回答音声を方言識別モデルに入力し、方言判定モデルの出力における共通語ラベル及び方言ラベルの確率に基づいて、1回目回答音声が共通語及び方言のいずれであるかが判定される。
そして、1回目回答音声が方言であると判定された場合、1回目回答音声を第1及び第2方言判定モデルに入力し、これらのモデルの出力における確率に基づき、方言がどの地方の方言であるかが判定される。そして、以上の判定結果に基づき、共通語用又は方言用の自然言語処理を用いて、1回目回答音声の内容が認識されるので、1回目回答音声の内容を、ユーザの出身国の共通語及び方言に同時に対応しながら適切に認識することができる。
さらに、そのように認識された1回目回答音声の内容がユーザの目的地を含んでいる場合、ユーザの現在位置及び目的地に応じて、データベースを参照することにより、ユーザの目的地に対応する候補地が検索される。そして、複数の候補地が検索された場合には、複数の候補地の中から最高確率の第1候補地が選択され、これが目的地であるか否かをユーザに対して確認するための第1応答音声を含む第1応答音声信号が携帯端末3に送信される。それにより、第1応答音声が携帯端末3から出力される。
さらに、第1応答音声の出力後、ユーザの目的地が第1候補地と異なっていることを表す第2回答音声信号が言語処理サーバ2で受信された場合、言語処理サーバ2では、ユーザの目的地に対応する複数の候補地の中から第1候補地の次に高い確率の第2候補地が選択され、これが目的地であるか否かをユーザに対して確認するための第2応答音声を含む第2応答音声信号が携帯端末3に送信される。以上の処理により、ユーザの目的地を効率よく確認することができる。
また、言語処理サーバ2内のデータベースは、医療施設、商業施設、公共施設、アミューズメント施設、店舗及び寺社仏閣のいずれかをユーザの目的地とした場合において、目的地の候補地と候補地の関連情報とをリンク付けしたデータを含んでいるので、ユーザの目的地が上記のいずれかである場合、目的地周辺のイベントの開催情報、目的地に関連するトレンドワード、目的地周辺の天候情報及び目的地周辺の季節情報の少なくとも一つと目的地に応じて、目的地の候補地を選択することができる。それにより、ユーザの目的地を精度よくかつ適切に確認することができる。
なお、以上の第1実施形態では、言語処理サーバ2の記憶部2b内に記憶されている言語学習モデルが、第1学習装置10によって学習が実行された方言識別モデル、第1方言判定モデル及び第2方言判定モデルである場合を例にとって説明したが、これらに代えて、言語学習モデルとして、第2学習装置20によって学習が実行された文書ベクトルモデルを用いた場合でも、第1実施形態と同様の作用効果を得ることができる。
また、第1実施形態は、方言識別モデル、第1方言判定モデル及び第2方言判定モデルとして、共通語、石川県の能登地方の方言及び加賀地方の方言を学習済みのものを用いた例であるが、これらに代えて、以下に述べるものを方言識別モデル、第1方言判定モデル及び第2方言判定モデルとして用いてもよい。
例えば、自動運転車両4の運行領域が能登地方に限定されている場合には、能登地方の領域を、珠洲市地方、輪島市地方、鳳珠郡地方及び七尾市地方などのようにより細かく区分して、それらの区域の方言及び共通語を学習したものを用いてもよい。さらに、自動運転車両4の運行領域が地方都市に限定されている場合には、その地方都市内の方言及び共通語を学習したものを用いてもよい。
さらに、第1実施形態は、第1学習装置10によって学習が実行された3種類のモデルを用いて、所定の複数の方言を判定したときの判定精度と、第2学習装置20によって学習が実行された文書ベクトルモデルを用いて、所定の複数の方言を判定したときの判定精度とを比較した際の判定精度のよい方を、言語学習モデルとして、言語処理サーバ2の記憶部2b内に記憶した例であるが、第1学習装置10によって学習が実行された3種類のモデル、又は、第2学習装置20によって学習が実行された文書ベクトルモデルを言語学習モデルとして記憶するように構成してもよい。
一方、第1実施形態は、ユーザの回答音声が方言のときには、応答音声をユーザの方言と同じ方言になるように構成した例であるが、ユーザの回答音声が方言のときでも、応答音声を共通語になるように構成してもよい。
また、第1実施形態は、言語学習モデルである方言識別モデルとして、Skip−Gramモデルを用いた例であるが、これに代えて、方言識別モデルとして、CBow、Glove、Wordnet及びFastTextなどを用いてもよい。また、方言識別モデルとして、DNN、RNN及びCNNなどのニューラルネットワークを用いてもよい。
さらに、第1実施形態は、言語学習モデルである第1及び第2方言判定モデルとして、Skip−Gramモデルを用いた例であるが、これに代えて、第1及び第2方言判定モデルとして、CBow、Glove、Wordnet及びFastTextなどを用いてもよい。また、第1及び第2方言判定モデルとして、DNN、RNN及びCNNなどのニューラルネットワークを用いてもよい。
一方、第1実施形態は、所定の機械学習法として、確率的勾配降下法を用いた例であるが、本発明の所定の機械学習法は、これに限らず、言語学習モデルの学習を実行できるものであればよい。例えば、言語学習モデルがニューラルネットワークである場合には、所定の機械学習法として、誤差逆伝播法を用いてもよい。
また、第1実施形態は、所定の自然言語処理として、BERTを用いた例であるが、これに代えて、所定の自然言語処理として、MeCab、JUMAN及びCabochaなどを用いてもよい。
さらに、第1実施形態は、本発明の情報処理システムを車両管理システム1に適用した例であるが、本発明の情報処理システムは、これに限らず、他のシステムにも適用可能である。例えば、本発明の情報処理システムを、電車及び路線バスなどの旅客輸送システムに適用してもよい。その場合には、旅客輸送システムにおける目的地確認、切符発券及び運賃支払いなどに適用すればよい。
一方、第1実施形態は、自動運転車両として、タクシータイプの自動運転車両4を用いた例であるが、これに代えて、自動運転車両として、路線バス及び乗り合いタクシーなどの他の旅客車両を用いてもよい。
また、第1実施形態の車両管理システム1を会員登録制とし、その登録データ及び年齢層に対応する複数のデータベースを言語処理サーバ2に記憶するように構成してもよい。このように構成した場合には、前述した情報通信処理において、データベースを参照する際、会員データに基づいて、ユーザの年齢を取得するとともに、ユーザの年齢に応じたデータベースを参照することができる。それにより、ユーザの年齢に応じて、目的地をより適切に決定することができる。この場合、言語処理サーバ2の演算部2aが年齢取得部に相当する。
また、音声が携帯端末3のスピーカ3cから出力される図16及び図17の各処理において、音声に代えて文章が携帯端末3のディスプレイ3bに表示されるように構成してもよく、音声の出力と文章の表示とが同時に実行されるように構成してもよい。このように構成した場合、ディスプレイ3bが出力インターフェースに相当する。
さらに、ユーザの音声がマイロフォン3dを介して携帯端末3に入力される図16及び図17の各処理において、音声に代えて文章がディスプレイ操作によって携帯端末3に入力されるように構成してもよく、音声の携帯端末3への入力と文章の携帯端末3への入力の双方を実行できるように構成してもよい。このように構成した場合、ディスプレイ3bが入力インターフェースに相当する。
また、第1実施形態は、複数の候補地が検索された場合、まず、最高確率を付与されている候補地をユーザに提案した例であるが、これに代えて、複数の候補地を全部、一度に携帯端末3からユーザに提案するように構成してもよい。例えば、全候補地をディスプレイ3b上に表示し、ユーザによるディスプレイ3bのタップ操作によって全候補地の中から候補地を選択するように構成してもよい。
さらに、全候補地をディスプレイ3b上に表示する動作と、全候補地をスピーカ3cから音声出力する動作とを同時に実行し、ユーザのタップ操作又はマイロフォン3dへの音声入力によって、全候補地の中から候補地を選択するように構成してもよい。これに加えて、全候補地をスピーカ3cから音声出力する動作のみを実行し、ユーザのマイロフォン3dへの音声入力によって、全候補地の中から候補地を選択するように構成してもよい。
次に、図22を参照しながら、第2実施形態に係る車両管理システム1Aについて説明する。同図に示すように、この車両管理システム1Aの場合、車両管理システム1と比較すると、携帯端末3が省略されている点と、操作端末7及びICカードリーダ8が自動運転車両4の車室内に設けられている点などが異なっているので、以下、異なる点を中心に説明する。
この自動運転車両4では、操作端末7が車室内の前席側及び後席側にそれぞれ設けられている。この操作端末7は、携帯端末3と同様に、ディスプレイ、スピーカ及びマイロフォン(いずれも図示せず)などを備えており、車載コントローラ6に電気的に接続されている。
また、ICカードリーダ8は、非接触型のものであり、車室内の前席側及び後席側にそれぞれ設けられている。このICカードリーダ8は、車載コントローラ6に電気的に接続されている。
以上のように構成された車両管理システム1Aでは、ユーザが自動運転車両4に乗車した後、操作端末7を操作することによって、前述した図16及び図17の各処理が車載コントローラ6と言語処理サーバ2との間で実行される。
また、ユーザがICカードをICカードリーダ8に近づけることによって、前述した図17のSTEP22における運賃支払いが実行される。したがって、本実施形態の車両管理システム1Aによれば、第1実施形態の車両管理システム1と同様の作用効果を奏することができる。
次に、第2実施形態の車両管理システム1Aにおいて、図16の情報通信処理を実行したときの、操作端末7のマイロフォンに入力される1回目以降のユーザの回答音声(以下「ユーザ音声」という)と、操作端末7のスピーカから出力される1回目以降の応答音声とによる対話の例を、第1〜第7対話例として具体的に説明する。なお、以下の説明では、日本語音声の場合について説明する。
第1対話例は、以下に示すように実施される。
・1回目ユーザ音声:「羽田空港、お願いします。」
・1回目応答音声 :「羽田空港はどのターミナルですか?」
・2回目ユーザ音声:「ANAで金沢に行くんだけどね。」
・2回目応答音声 :「ANA便は、第2ターミナルから出ますので、第2ターミナルに向かいます。」
この場合、言語処理サーバ2内のデータベースでは、「羽田空港」と「ターミナル」が高い確率を付与された状態でリンク付けされ、「JAL」又は「日本航空」が「第1ターミナル」と高い確率を付与された状態でリンク付けされ、「ANA」又は「全日空」が「第2ターミナル」と高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両4によって、ユーザをANA便が出発する第1ターミナルまで適切に送り届けることが可能になる。
また、第2対話例は、以下に示すように実施される。
・1回目ユーザ音声:「センターホテルは判りますか?」
・1回目応答音声 :「どのセンターホテルでしょうか?住所は判りますか?」
・2回目ユーザ音声:「佐々木町だったかな。」
・2回目応答音声 :「佐々木町にセンターホテルはありませんが、近くの佐伯町と大石町にセンターホテルがあります。」
・3回目ユーザ音声:「青い色のビルだったけど。」
・3回目応答音声 :「それは、大石町にあるセンターホテルの方ですね。そちらに向かいます。」
この場合、言語処理サーバ2内のデータベースでは、「センターホテル」と「佐伯町」と「大石町」とが高い確率を付与された状態でリンク付けされ、「センターホテル」と「青い」と「佐伯町」とが高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両4によって、ユーザを大石町のセンターホテルまで適切に送り届けることが可能になる。
さらに、第3対話例は、以下に示すように実施される。
・1回目ユーザ音声:「ここを真っ直ぐ行って、野口の交差点を右に曲がった所にある蕎麦屋まで。」
・1回目応答音声 :「その蕎麦屋は“味よし”でしょうか?」
・2回目ユーザ音声:「そうだよ。」
・2回目応答音声 :「かしこまりました。味よしに向かいます。」
この場合、言語処理サーバ2内のデータベースでは、「蕎麦屋」と「味よし」と「野口の交差点」とが高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両4によって、ユーザを大石町のセンターホテルまで適切に送り届けることが可能になる。
一方、第4対話例は、以下に示すように実施される。
・1回目ユーザ音声:「妙蓮寺にやってくれ」
・1回目応答音声 :「どちらの妙蓮寺でしょうか?」
・2回目ユーザ音声:「えー、葬儀が行われるところだけど。」
・2回目応答音声 :「大久保様の葬儀でしょうか?」
・3回目ユーザ音声:「そうそう。」
・3回目応答音声 :「それは、妙蓮寺会館の方ですね。そちらに向かいます。」
この場合、言語処理サーバ2内のデータベースでは、時事情報として、「葬儀」と「大久保様」と「妙蓮寺会館」とが高い確率を付与された状態でリンク付けされている。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両4によって、ユーザを妙蓮寺会館まで適切に送り届けることが可能になる。
また、第5対話例は、以下に示すように実施される。
・1回目ユーザ音声:「中野病院に行ってください。」
・1回目応答音声 :「現在地よりおよそ10分の○○市○○町の中野内科クリニックでよろしいでしょうか?」
・2回目ユーザ音声:「はい。」
・2回目応答音声 :「○○市○○町の中野内科クリニックに向かいます。」
この場合、名詞「中野」、「病院」、及び、病院の類似名詞「クリニック」、「総合病院」、「内科、外科、……」が取得され、現在位置の付近での「中野」を有する「病院関連」がデータベース内で検索される。そして、現在地から○○市○○町の中野内科クリニックまでのルート又は他の車両の移動情報などに基づき、目的地までの到着予想時間が算出される。そして、過去の目的地統計履歴により、複数の候補地の中から最高確率の候補地が選択される。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両4によって、ユーザを○○市○○町の中野内科クリニックまで適切に送り届けることが可能になる。
さらに、上記の第5の対話例において、2回目ユーザ音声が否定的な内容である場合には、第1実施形態と同様に、2番目に高い確率の候補地を2回目応答音声で提案してもよい。また、2回目ユーザ音声が否定的な内容である場合において、例えば、2番目以降の複数の候補地(例えば、2〜3番目の候補地)が存在するときには、それらの候補地を操作端末7に表示し、ユーザが希望する目的地をタッチ操作で選択したり、ユーザが音声で指示したりするように構成してもよい。
また、第6対話例は、以下に示すように実施される。
・1回目ユーザ音声:「フリーマーケットに行きたいんだけど。」
・1回目応答音声 :「本日、○○町公民館にて、地域住民主催、××マーケットが開催されています。こちらでよろしいでしょうか?」
・2回目ユーザ音声:「はい」
・2回目応答音声 :「○○町公民館に向かいます。」
この場合、データベースの関連情報として、名詞「フリーマーケット」、その類似名詞「ふりま」、「オークション」、「市場」、「青空市」及び「バザー」などが取得されるとともに、現在位置の付近でのイベント情報として、公共施設予約状況、地域イベント情報、SNS情報、近接する道の駅情報などが取得される。それにより、上記の対話をユーザとの間で実行することができ、自動運転車両4によって、ユーザを○○町公民館まで適切に送り届けることが可能になる。
また、第7対話例は、以下に示すように実施される。
・1回目ユーザ音声:「……(無言)」
・1回目応答音声 :「どちらに行かれますか?」
・2回目ユーザ音声:「×○△□(意味不明)」
・2回目応答音声 :「お客様、どちらに行かれます?」
・3回目ユーザ音声:「ごめん、えっと、東大寺へ?」
・3回目応答音声 :「えっ、東大寺ですか。ここからですと500km以上あります。参考までにですが、金額も35万円程度になりますが、本当に東大寺まで行かれますか?」
・4回目ユーザ音声:「うん。」
・4回目応答音声 :「わかりました。長旅になると思いますので、途中で休憩したくなったら言ってくださいね。」
この場合、最初のユーザの回答が無言であったので、行き先を確認する音声が操作端末7から再度出力される。さらに、その回答が不明であったので、行き先を確認する音声が操作端末7から再々度出力される。そして、ユーザの目的地を認識したものの、極めて遠距離の場所であったため、その旨を伝え、金額が参考としてユーザに伝えられる。それにより、ユーザが極めて遠距離の目的地まで行く意思があるか否かを適切に判定でき、その目的地までユーザを適切に送り届けることが可能になる。
なお、上記の4回目ユーザ音声の内容が否定的であった場合には、行き先確認の対話が実施される。さらに、上記の第7対話例の実施後、自動運転車両4の走行中において、ユーザより降車の意図を示す音声(例えば、「やっぱ、降ろして。」)が操作端末7に入力された場合、それまでの走行距離と運賃をユーザに報知し、ユーザの同意を得た後、自動運転車両4を停止することにより、ユーザを降車させる。
さらに、第2実施形態の車両管理システム1Aを会員登録制とした場合、言語処理サーバ2内には、ユーザの登録内容及び利用履歴などが会員用データベースとして記憶される。それにより、ユーザを乗車時に確認した以降の対話は、例えば、以下に示すように実施される。
・1回目ユーザ音声:「自宅に戻りたいのだけれど。」
・1回目応答音声 :「了解致しました。いつものルートですと、本日16時からお祭りがあり、この時間ですと、環8が混雑しそうです。甲州街道でご自宅まで戻られる方が良さそうですが、どうされますか?」
・2回目ユーザ音声:「じゃあ、甲州街道で。」
・2回目応答音声 :「承知致しました。それでは、本日は甲州街道でご自宅に向かいます。」
この場合、会員用データベースを参照することにより、環8経由のルートが検索されたものの、前述したデータベースにおける目的地の関連情報として、お祭りの開催が検索された結果、他の代替ルートを検索し、お祭りの開催と代替ルートがユーザに伝えられる。それにより、ユーザが混雑に起因して時間がかかるのを承知で帰宅する意思があるか否かを適切に確認することが可能になる。
なお、上記の対話例において、2回目ユーザ音声が否定的な内容である場合には、「判りました。いつもの環8経由のルートで帰宅します」という内容の2回目応答音声が、操作端末7から出力される。それにより、会員用データベースにおいて、「自宅」に対する「環8経由のルート」のリンク付けの確率がより高められることになる。
次に、本実施形態の車両管理システム1Aにおいて、自動運転車両4の走行中における対話について説明する。この場合の対話は、例えば、以下に示すように実施される。
・1回目ユーザ音声:「ここを真っ直ぐ行ってください。」
・1回目応答音声 :「はい。」
・2回目ユーザ音声:「その角を左に曲がってください。」
・2回目応答音声 :「はい。」
・3回目ユーザ音声:「次の信号を右に曲がって、すぐに左にお願いします。」
・3回目応答音声 :「次の信号を右ですね。」
・4回目ユーザ音声:「はい。そうです。」
・5回目ユーザ音声:「そこ、左。」
・5回目応答音声 :「はい。」
・6回目ユーザ音声:「あのコンビニの前で止めてください。」
・6回目応答音声 :「はい。判りました」
以上のように、本実施形態の車両管理システム1Aによれば、ユーザが目的地を具体的に告げていない場合でも、ユーザの指示内容に従って自動運転車両4を走行させ、最終的な目的地に到達することができる。この場合、ユーザの指示内容がユーザの要望事項に相当する。
さらに、本実施形態の車両管理システム1Aにおいて、ユーザが後払い方式の自動運転車両4に乗車した以降の対話の例について説明する。この場合の対話例は、以下に示すように実施される。
・1回目ユーザ音声:「前の車を追いかけて。」
・1回目応答音声 :「判りました。前の車を追跡致します。」
(前の車が停車する)
・2回目ユーザ音声:「ここで降ろして。」
・2回目応答音声 :「はい。料金は○○円です。」
以上のように、本実施形態の車両管理システム1Aによれば、ユーザから目的地が具体的に告げられない場合でも、ユーザの指示音声に従い、先行車に追従しながら自動運転車両4を走行させることができる。
なお、第2実施形態の車両管理システム1Aは、運賃支払いをICカード決済とした例であるが、この場合の運賃支払いは、先払いでも後払いでもよい。また、ICカードのチャージ装置を自動運転車両4内に配置し、ICカードのチャージを車内で実行できるように構成してもよい。
さらに、QR決済コードリーダを自動運転車両4内に配置し、携帯端末に表示されたPayPay(登録商標)などのQR決済コードを、QR決済コードリーダで読み取ることにより、運賃支払いを実施してもよい。また、マイナンバーカードのマイナンバーをカードリーダで読み取り、運賃を後精算としてもよい。
また、自動運転車両4の走行中の目的地変更の場合には、運賃を再計算し、その運賃が支払われたか否かで、それ以降の乗車の可否を決定すればよい。さらに、乗客が自動運転車両4を途中下車し、行方不明になる場合などに対処するため、運賃は先払いが望ましい。
さらに、第2実施形態の車両管理システム1Aにおいて、例えば、自動運転車両4の運行領域が狭い領域(例えば、地方都市圏)に限定されている場合には、言語処理サーバ2を省略し、言語学習モデルを自動運転車両4の車載コントローラ6内の記憶部(図示せず)に記憶するように構成してもよい。
また、第2実施形態の車両管理システム1Aにおいて、例えば、自動運転車両4の運行領域が狭い領域(例えば、地方都市圏)に限定されている場合には、前述したSTEP1〜2を省略し、STEP3において、言語学習モデルとして、その運行領域内の方言及び共通語を学習したものを用いてもよい。