JP2015230384A

JP2015230384A - 意図推定装置、及び、モデルの学習方法

Info

Publication number: JP2015230384A
Application number: JP2014116506A
Authority: JP
Inventors: 本間　健; Takeshi Honma; 健本間; 和明嶋; Kazuaki Shima; 康成大淵; Yasunari Obuchi
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2014-06-05
Filing date: 2014-06-05
Publication date: 2015-12-21
Anticipated expiration: 2034-06-05
Also published as: JP6475426B2

Abstract

【課題】意図の推定に利用するモデルの精度を向上する。
【解決手段】中継サーバー１０は、ユーザーが発話した音声に基づくテキストと、テキストに基づいて出力するラベルとの関係をモデリングしたモデルを備えており、中継サーバー１０による意図推定モデルＭＤの学習に使用される学習テキストは、誤りのないテキストである第１テキスト、及び、一部に誤りを有するテキストである第２テキストを含む。
【選択図】図２

Description

本発明は、意図推定装置、及び、モデルの学習方法に関する。

従来、ユーザーにより発話された音声を認識してテキスト化し、テキストを分析して、ユーザーの意図を推定する意図推定装置（音声認識装置）が知られている（例えば、特許文献１参照）。
一般に、意図推定装置は、テキストと、ユーザーの意図の種類を示すラベルとの関係をモデリングしたモデルを備え、モデルを利用して、ユーザー意図の推定を実行する。

特開平１１−１４３４９３号公報

上述した意図推定装置のように、モデルを利用して意図の推定を行うものでは、モデルの精度を向上し、高い精度で意図の推定を行えるようにしたいとするニーズがある。
本発明は、上述した事情に鑑みてなされたものであり、意図推定装置、及び、モデルの生成方法について、意図の推定に利用するモデルの精度を向上することを目的とする。

上記目的を達成するために、意図推定装置は、テキストに基づいて、ユーザーの意図の種類を示すラベルを出力する意図推定装置であって、前記テキストと、前記テキストに基づいて出力する前記ラベルとの関係をモデリングしたモデルを備え、前記モデルの学習に使用される学習テキストは、誤りのないテキストである第１テキスト、及び、一部に誤りを有するテキストである第２テキストを含む、ことを特徴とする。

本発明によれば、意図の推定に利用するモデルの精度を向上できる。

意図推定システムの構成を示す図。意図推定システムが有する各装置の機能的構成を示すブロック図。意図推定システムの各装置の動作を示すフローチャート。ラベルの一例を示す図。素性一覧を示す図。

以下、図面を参照して本発明の実施形態について説明する。
図１は、本実施形態に係る意図推定システム１の構成を示す図である。
図１に示すように、意図推定システム１は、中継サーバー１０（意図推定装置）を備える。中継サーバー１０は、後述するように、ユーザーが発話した音声に基づいて生成されたテキストを解析し、ユーザーの意図を推定する機能を有するサーバーである。
中継サーバー１０には、インターネットや、電話網等を含んで構成されたネットワークＮを介して、音声認識サーバー１１、及び、施設検索サーバー１２が通信可能に接続される。音声認識サーバー１１は、後述するように、ユーザーが発話した音声に基づいて生成された音声データに基づいて、テキストを生成する機能を有するサーバーである。施設検索サーバー１２は、施設の名称等の施設に関する情報に基づいて、施設の位置を検索する機能を有するサーバーである。
また、中継サーバー１０には、ネットワークＮを介して、車両Ｓに搭載された車載装置１３が通信可能に接続される。

図２は、意図推定システム１が備える各装置の機能的構成を示すブロック図である。
車載装置１３は、車両Ｓに搭載された装置であり、少なくとも、地図を表示すると共に、地図における車両Ｓの位置を表示する自車両表示機能、及び、地図上で出発地から目的地までの経路を案内する経路案内機能を有する。
図２に示すように、車載装置１３は、車載装置制御部２０と、タッチパネル２１と、音声処理部２２と、ＧＰＳユニット２３と、車両情報取得部２４と、環境情報取得部２５と、車載装置記憶部２６と、車載装置通信部２７と、を備える。
車載装置制御部２０は、ＣＰＵや、ＲＯＭ、ＲＡＭ等を備え、車載装置１３の各部を制御する。例えば、車載装置制御部２０は、ＲＯＭに記憶された制御プログラムを、ＣＰＵにより読み出して実行することにより、車載装置１３の各部を制御する。
タッチパネル２１は、表示装置２１ａと、位置入力装置２１ｂと、を備える。
表示装置２１ａは、液晶表示パネルや、有機ＥＬパネル等の表示パネルを備え、車載装置制御部２０の制御で、表示パネルに画像を表示する。
位置入力装置２１ｂは、表示パネルに重ねて配置されたタッチセンサーを備え、ユーザーによるタッチ操作を検出し、タッチ操作された位置を示すタッチ位置情報を、車載装置制御部２０に出力する。
音声処理部２２は、スピーカー２２ａと接続され、車載装置制御部２０から入力された音声信号をデジタル／アナログ変換して、スピーカー２２ａに出力し、スピーカー２２ａにより音声信号に基づく音声を放音する。
また、音声処理部２２は、マイク２２ｂと接続され、マイク２２ｂによって収音された音声に基づく信号をアナログ／デジタル変換し、音声データとして車載装置制御部２０に出力する。

ＧＰＳユニット２３は、ＧＰＳアンテナを介してＧＰＳ衛星からのＧＰＳ電波を受信し、ＧＰＳ電波に重畳されたＧＰＳ信号に基づいて、車両Ｓの現在位置及び進行方向を算出し、現在位置及び進行方向を示す情報を車載装置制御部２０に出力する。
車両情報取得部２４は、車両Ｓの状態を示す情報を取得し、車載装置制御部２０に出力する。車両Ｓの状態とは、例えば、ジャイロセンサーの検出値に基づいて取得可能な車両Ｓの相対的な方位や、車速パルスに基づいて取得可能な車速等である。
環境情報取得部２５は、車両Ｓの環境に関する情報を取得し、車載装置制御部２０に出力する。車両Ｓの環境は、車両Ｓ内でユーザーが発話した場合に、発話に基づく音声のマイクによる集音に影響を与えるような環境のことである。本実施形態では、環境情報取得部２５は、車両Ｓの環境に関する情報として、車両Ｓが所定の閾値を超えた速度で走行している第１状態、車両Ｓが所定の閾値を下回る速度で走行している第２状態、車両Ｓがエンジンを駆動しつつ停車している第３状態、又は、車両Ｓがエンジンを停止して停車している第４状態のいずれの状態であるかを示す情報を取得し、出力する。車両Ｓの環境は、例示したものに限らず、車両Ｓ内でユーザーが発話した場合に、発話に基づく音声のマイクによる集音に影響を与えるような環境であれば、どのようなものであってもよい。例えば、環境として、天気の状態や、エアコンのオン／オフの状態、車両Ｓに設けられた窓の開閉の状態、車両Ｓが走行する路面の状態、オーディオやラジオ、テレビのオン／オフの状態等に係る環境を適用できる。

車載装置記憶部２６は、ハードディスクや、ＥＥＰＲＯＭ等の不揮発性メモリーを備え、データを記憶する。車載装置記憶部２６は、地図データ２６ａを記憶する。地図データ２６ａは、道路に対応するリンクに関する情報、リンクとリンクの接点であるノードに関する情報、地図上に存在する施設に関する情報等の地図に関する情報を含むデータである。
車載装置制御部２０は、車載装置記憶部２６が記憶する地図データ２６ａに基づいて、表示装置２１ａに地図を表示する。また、車載装置制御部２０は、地図データ２６ａに含まれる情報、ＧＰＳユニット２３から入力された情報、及び、車両情報取得部２４から入力された情報に基づいて、地図上に車両Ｓの位置を表示し、また、地図上に出発地から目的地までの経路を表示する。
車載装置通信部２７は、車載装置制御部２０の制御に従って、ネットワークＮに接続された外部機器（中継サーバー１０を含む）との間で、所定の通信規格に従って通信する。

中継サーバー１０は、車載装置１３をクライアントとするサーバーである。すなわち、中継サーバー１０は、クライアントたる車載装置１３からの要求に応じて、車載装置１３にサービスを提供する。中継サーバー１０は、必ずしも、単体のサーバー装置である必要はなく、複数のサーバー装置が連携した構成であってもよく、また、所定のシステムの一部であってもよい。すなわち、中継サーバー１０は、以下で説明する機能を有していればよく、その形態はどのようなものであってもよい。
図２に示すように、中継サーバー１０は、サーバー制御部４０と、音声認識部４１と、施設検索部４２と、サーバー記憶部４３と、サーバー通信部４４と、を備える。
サーバー制御部４０は、ＣＰＵや、ＲＯＭ、ＲＡＭ等を備え、中継サーバー１０の各部を制御する。例えば、サーバー制御部４０は、ＲＯＭに記憶された制御プログラムを、ＣＰＵにより読み出して実行することにより、中継サーバー１０の各部を制御する。サーバー制御部４０は、機能ブロックとして、ＨＭＩ状態管理部４０ａと、モデル選定部４０ｂと、意図推定部４０ｄと、を備える。これら機能ブロックについては後述する。
音声認識部４１は、詳細は後述するが、音声認識サーバー１１の機能を利用して、音声データに基づいて、テキストデータを生成する。
施設検索部４２は、詳細は後述するが、施設検索サーバー１２の機能を利用して、施設の位置を検索する。

サーバー記憶部４３は、ハードディスク等の不揮発性メモリーを備え、データを記憶する。サーバー記憶部４３は、ＨＭＩ遷移ルールデータ４３ａと、４個の第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４と、を記憶する。これらデータについては、後述する。以下の説明で、第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４を区別せずに表現する場合、「意図推定モデルＭＤ」と表現する。
サーバー通信部４４は、サーバー制御部４０の制御に従って、ネットワークＮに接続された外部機器（車載装置１３、音声認識サーバー１１、及び、施設検索サーバー１２を含む）との間で、所定の通信規格に従って通信する。

なお、図２は、本願発明を理解容易にするために、意図推定システム１の各装置の機能構成を主な処理内容に応じて分類して示した概略図であり、各装置の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。
また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、各構成要素の処理は、１つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
また、各構成要素の処理は、１つのプログラムで実現されてもよいし。複数のプログラムで実現されてもよい。
また、中継サーバー１０のサーバー制御部４０が備える各機能ブロックは、例えば、サーバー記憶部４３に記憶されている所定のプログラムをＲＡＭ等にロードして、サーバー制御部４０が備えるＣＰＵで実行することで実現可能である。

以上のような構成の下、意図推定システム１は、各装置が協働して、車両Ｓに搭乗するユーザーが発話した音声を認識し、認識結果に基づいてユーザーの意図を推定し、推定したユーザーの意図に応じた処理を実行する。
以下、ユーザーが発話した後の意図推定システム１の各装置の基本的な処理について説明する。
図３は、意図推定システム１の各装置の処理を示すフローチャートであり、（Ａ）は車載装置１３の処理を示し、（Ｂ）は中継サーバー１０の処理を示し、（Ｃ）は音声認識サーバー１１の処理を示し、（Ｄ）は施設検索サーバー１２の処理を示す。

図３（Ａ）に示すように、車載装置１３の車載装置制御部２０は、音声処理部２２から音声データの入力があったか否かを判別する（ステップＳＡ１）。
上述したように、ユーザーが発話した場合、マイク２２ｂにより発話に基づく音声が集音される。そして、音声処理部２２は、集音された音声に基づいて音声データを生成し、生成した音声データを車載装置制御部２０に出力する。
音声処理部２２から音声データの入力があった場合（ステップＳＡ１：ＹＥＳ）、車載装置制御部２０は、環境情報取得部２５からの入力に状態に基づいて、車両Ｓが、第１状態〜第４状態のいずれの状態であるかを示す情報（以下、「車両環境情報」という。）を取得する（ステップＳＡ２）。

次いで、車載装置制御部２０は、表示装置２１ａを介してユーザーに提供されているユーザーインターフェースの状態を示す情報（以下、「ＵＩ状態情報」という。）を取得する（ステップＳＡ３）。車載装置制御部２０は、経路案内を伴わず地図を表示する自車両表示画面を伴うユーザーインターフェースや、経路を明示した地図を表示する経路案内画面を伴うユーザーインターフェース、各種設定を行うための設定画面を伴うユーザーインターフェース等の各種ユーザーインターフェースを提供可能である。そして、ステップＳＡ３において、車載装置制御部２０は、ユーザーインターフェースの状態を示す情報として、現時点で提供されているユーザーインターフェースが何であるかを示す情報や、ユーザーインターフェースに対して行われたユーザーの入力を示す情報等を取得する。
次いで、車載装置制御部２０は、車載装置通信部２７を制御して、音声データ、車両環境情報、及び、ＵＩ状態情報を、中継サーバー１０に送信する。なお、車載装置制御部２０は、中継サーバー１０のアドレス等、中継サーバー１０と通信をするために必要な情報を管理しており、中継サーバー１０にデータを送信する場合、中継サーバー１０との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して中継サーバー１０にデータを送信する。

図３（Ｂ）に示すように、中継サーバー１０のサーバー制御部４０は、サーバー通信部４４を制御して、車載装置１３が送信した音声データ、車両環境情報、及び、ＵＩ状態情報を受信し、取得する（ステップＳＢ１）。
次いで、サーバー制御部４０は、音声データを音声認識部４１に出力する（ステップＳＢ２）。
音声認識部４１は、入力された音声データに基づいて、当該音声データを含み、当該音声データに係る音声をテキスト化することを要求するテキスト化要求データを生成し、サーバー通信部４４を制御して、当該テキスト化要求データを、音声認識サーバー１１に送信する（ステップＳＢ３）。なお、音声認識部４１は、音声認識サーバー１１のアドレス等、音声認識サーバー１１と通信をするために必要な情報を管理しており、音声認識サーバー１１にデータを送信する場合、音声認識サーバー１１との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して音声認識サーバー１１にデータを送信する。

図３（Ｃ）に示すように、音声認識サーバー１１は、中継サーバー１０が送信したテキスト化要求データを受信する（ステップＳＣ１）。
次いで、音声認識サーバー１１は、テキスト化要求データに含まれる音声データに基づいて、音声データに係る音声をテキスト化し、音声を示すテキストが記述されたテキストデータ（以下、「音声テキストデータ」という。）を生成する（ステップＳＣ２）。音声データに係る音声のテキスト化は、既存の全ての技術を利用可能であり、どのような方法で行われてもよい。
次いで、音声認識サーバー１１は、生成した音声テキストデータを中継サーバー１０に送信する（ステップＳＣ３）。
なお、本実施形態では、音声データから音声テキストデータへの変換を、中継サーバー１０の音声認識部４１と音声認識サーバー１１とが協働して実行する構成である。しかしながら、音声認識部４１に当該変換を実行する機能を設け、音声認識部４１が、単独で、当該変換を実行する構成であってもよい。

図３（Ｂ）に示すように、中継サーバー１０の音声認識部４１は、サーバー通信部４４を制御して、音声認識サーバー１１が送信した音声テキストデータを受信し、取得する（ステップＳＢ４）。
次いで、音声認識部４１は、取得した音声テキストデータを、サーバー制御部４０に出力する（ステップＳＢ５）。
サーバー制御部４０のモデル選定部４０ｂは、車載装置１３から受信した車両環境情報、及び、音声認識部４１から入力された音声テキストデータに基づいて、第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４から、後述するステップＳＢ７で行われる意図推定処理で利用する１の意図推定モデルＭＤを選定する処理（モデル選定処理）を実行する（ステップＳＢ６）。
詳述すると、後述するように、第１意図推定モデルＭＤ１は、第１状態で発話された音声に係る音声テキストデータに基づいて、ユーザーの意図を推定する場合に利用するモデルとして、最適化されている。第２意図推定モデルＭＤ２〜第４意図推定モデルＭＤ４と、第２状態〜第４状態との関係についても同様である。
そして、ステップＳＢ６のモデル選定処理において、モデル選定部４０ｂは、車両環境情報に基づいて、車両Ｓが、第１状態〜第４状態のうち、いずれの状態であるかを検出する。次いで、モデル選定部４０ｂは、第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４の中から、車両Ｓの状態に対応する１の意図推定モデルＭＤを選定する。

なお、本実施形態では、車載装置１３から、車両Ｓの環境を示す情報が中継サーバー１０に送信され、中継サーバー１０のサーバー制御部４０は、当該情報に基づいて、車両Ｓの環境を取得する構成である。しかしながら、車両Ｓの環境を取得する方法は、例示したものに限らない。例えば、車両Ｓの環境が、「車両Ｓにおける雑音（ノイズ）の状態」であるとする。この場合、雑音の状態に対応して、意図推定モデルＭＤが複数設けられる。そして、この場合において、サーバー制御部４０は、音声データのＳＮ比等を分析して、雑音の状態（車両Ｓの環境）を取得してもよい。

次いで、サーバー制御部４０の意図推定部４０ｃは、ステップＳＢ６のモデル選定処理で選定された意図推定モデルＭＤを利用して、音声テキストデータに記述されたテキストに対応するユーザーの意図を推定する処理（意図推定処理）を実行する（ステップＳＢ７）。ステップＳＢ７の意図推定処理については後に詳述するが、簡単に説明すると、意図推定処理では、事前に複数種類用意されたユーザーの意図を示すラベルから、発話に対応するユーザーの意図に応じた適切な１のラベルを選定する処理が行われる。また、意図推定処理において、選定されたラベルが示すユーザーの意図が、特定の施設への経路案内を要求するものや、所定の領域に属する施設の検索を要求するもの等、所定の施設の位置の検索を必要とするものである場合、サーバー制御部４０は、音声テキストデータに含まれる施設に関する情報を取得する。例えば、サーバー制御部４０は、ラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、施設に関する情報として、特定の施設の名称を取得する。また例えば、サーバー制御部４０は、ラベルが示すユーザーの意図が、車両Ｓの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、施設に関する情報として施設の種類を取得する。
次いで、サーバー制御部４０は、所定の施設の位置を検索する必要があるか否かを判別する（ステップＳＢ８）。

所定の施設の位置を検索する必要がない場合（ステップＳＢ８：ＮＯ）、サーバー制御部４０は、処理手順をステップＳＢ１３へ移行する。
所定の施設の位置を検索する必要がある場合（ステップＳＢ８：ＹＥＳ）、サーバー制御部４０は、施設に関する情報、及び、対応する施設の検索に必要な情報を施設検索部４２に出力し、対応する施設の位置の検索を要求する（ステップＳＢ９）。
例えば、意図推定処理で選定されたラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、ステップＳＢ９で、サーバー制御部４０は、施設の名称（施設に関する情報）を施設検索部４２に出力し、当該名称の施設の位置の検索を要求する。
また例えば、意図推定処理で選定されたラベルが示すユーザーの意図が、車両Ｓの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、ステップＳＢ９で、サーバー制御部４０は、施設の種類（施設に関する情報）、及び、車両Ｓの現在位置を示す情報（対応する施設の検索に必要な情報）を施設検索部４２に出力し、当該種類の施設であって、車両Ｓの現在位置を中心として所定の距離内に存在する施設の位置の検索を要求する。
なお、車両Ｓの現在位置について、車載装置１３がステップＳＡ４において車両Ｓの現在位置を示す情報を他の情報と共に中継サーバー１０に送信する構成としてもよく、また、サーバー制御部４０が車載装置１３に必要に応じて問い合わせる構成としてもよい。

施設検索部４２は、サーバー制御部４０から入力された施設に関する情報、及び、対応する施設の検索に必要な情報を含み、対応する施設の位置の検索することを要求する施設検索要求データを生成し、サーバー通信部４４を制御して、当該施設検索要求データを、施設検索サーバー１２に送信する（ステップＳＢ１０）。なお、施設検索部４２は、施設検索サーバー１２のアドレス等、施設検索サーバー１２と通信をするために必要な情報を管理しており、施設検索サーバー１２にデータを送信する場合、施設検索サーバー１２との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して施設検索サーバー１２にデータを送信する。

図３（Ｄ）に示すように、施設検索サーバー１２は、中継サーバー１０が送信した施設検索要求データを受信する（ステップＳＤ１）。
次いで、施設検索サーバー１２は、施設検索要求データに含まれる情報に基づいて、対応する施設の位置を取得する（ステップＳＤ２）。
ここで、施設検索サーバー１２は、地図上の施設に対応するレコードが設けられたデータベースを備える。当該データベースの１件のレコードには、少なくとも、施設の名称を格納するフィールド、施設の種類を格納するフィールド、施設の位置を示す情報を格納するフィードが含まれる。ステップＳＤ２で、施設検索サーバー１２は、受信した施設検索要求データに含まれる情報、及び、当該データベースに基づいて、対応する施設の位置を取得する。
次いで、施設検索サーバー１２は、ステップＳＤ２で取得した施設の位置を示す情報を中継サーバー１０に送信する（ステップＳＤ３）。
なお、本実施形態では、施設の位置の検索を、中継サーバー１０の施設検索部４２と施設検索サーバー１２とが協働して実行する構成である。しかしながら、施設検索部４２に当該検索を実行する機能を設け、音声認識部４１が、単独で、当該検索を実行する構成であってもよい。

図３（Ｂ）に示すように、中継サーバー１０の施設検索部４２は、サーバー通信部４４を制御して、施設検索サーバー１２が送信した施設の位置を示す情報を受信し、取得する（ステップＳＢ１１）。
次いで、施設検索部４２は取得した施設の位置を示す情報をサーバー制御部４０に出力する（ステップＳＢ１２）。

ここで、サーバー記憶部４３が記憶するＨＭＩ遷移ルールデータ４３ａは、車載装置１３の車載装置制御部２０が提供可能な各ユーザーインターフェースの遷移のルールを示す情報を含むデータである。
ステップＳＢ１３において、サーバー制御部４０のＨＭＩ状態管理部４０ａは、意図推定処理により選定されたラベルが示すユーザーの意図、ＨＭＩ遷移ルールデータ４３ａの内容、及び、施設検索部４２から入力された施設の位置を示す情報に基づいて、対応する所定の処理を実行することを要求する情報（ユーザーインターフェースの遷移が必要な場合は、当該遷移を要求する情報を含む。）、及び、当該処理を実行するために必要な情報を生成する。

例えば、ステップＳＢ１３において、ラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、ＨＭＩ状態管理部４０ａは、経路案内を実行することを要求する情報（ユーザーインターフェースの遷移が必要な場合は、当該遷移を実行した上で、経路案内を実行することを要求する情報）を生成すると共に、経路案内に必要な情報（特定の施設の位置を示す情報等）を生成する。
また例えば、ステップＳＢ１３において、ラベルが示すユーザーの意図が、車両Ｓの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、ＨＭＩ状態管理部４０ａは、地図上に対応する施設の位置を表示することを要求する情報（ユーザーインターフェースの遷移が必要な場合は、当該遷移を実行した上で、当該表示を実行することを要求する情報）を生成すると共に、当該表示に必要な情報（対応する施設の位置を示す情報等）を生成する。
次いで、サーバー制御部４０は、サーバー通信部４４を制御して、ステップＳＢ１３でＨＭＩ状態管理部４０ａが生成した情報を、車載装置１３に送信する（ステップＳＢ１４）。

図３（Ａ）に示すように、車載装置１３の車載装置制御部２０は、車載装置通信部２７を制御して、中継サーバー１０が送信した情報を受信し、取得する（ステップＳＡ５）。
次いで、車載装置制御部２０は、取得した情報に基づいて、対応する所定の処理を実行する（ステップＳＡ６）。例えば、ステップＳＡ６において、車載装置制御部２０は、取得した情報が、経路案内を実行することを要求する情報を含む場合、経路案内を実行する。

なお、図３のフローチャートの処理単位は、各装置の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本願発明が制限されることはない。各装置の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、１つの処理単位がさらに多くの処理を含むように分割することもできる。また、処理の順番も、図示した例に限られるものではない。

以上説明したように、中継サーバー１０のサーバー制御部４０の意図推定部４０ｃは、意図推定モデルＭＤを利用して、ユーザーの意図を推定する。
本実施形態では、意図推定モデルＭＤを所定の方法で学習させることによって、意図推定モデルＭＤの精度を向上し、ユーザーの意図の推定の精度を向上している。
以下、意図推定モデルＭＤの学習方法について説明し、さらに、図３（Ｂ）のフローチャートにおけるステップＳＢ７の意図推定処理について詳述する。

以下、まず、意図推定モデルＭＤの学習方法について説明する。本実施形態では、意図推定モデルＭＤの生成に係る処理を、中継サーバー１０が実行する。意図推定モデルＭＤの生成に係る処理は、必ずしも、中継サーバー１０が実行する必要はなく、中継サーバー１０とは異なる専用の装置が行ってもよく、複数の装置が協働して行ってもよい。

まず、意図推定モデルＭＤの生成にあたって、ユーザーの意図の種類ごとに、ラベルが用意される。
ユーザーの意図とは、ユーザーが車載装置１３に実行させようと考える処理のことであり、車載装置１３がユーザーの発話による指示に応じて実行可能な処理ごとに存在する。これに応じて、ラベルは、車載装置１３がユーザーの発話による指示に応じて実行可能な処理ごとに、用意される。例えば、車載装置１３がユーザーの発話による指示に応じて実行可能な処理がｍ個存在する場合、ラベルは処理ごとに、ｍ個、事前に用意される。
以下、車載装置１３がユーザーの発話による指示に応じて実行可能な処理のことを「車載装置処理」という。

図４は、ラベルと、ラベルが示すユーザーの意図との対応関係の一部の一例を示す図である。
図４において、ラベルＬ１は、ユーザーの意図として、近辺施設検索を示すラベルである。近辺施設検索とは、車両Ｓの現在位置の近辺に存在する所定の種類の施設を検索し、地図上に表示する処理である。
ラベルＬ２は、ユーザーの意図として、特定施設検索を示すラベルである。特定施設検索とは、車両Ｓの現在位置に関係なく、特定の施設を検索し、地図上に表示する処理である。
ラベルＬ３は、ユーザーの意図として、目的地経路案内を示すラベルである。目的地経路案内とは、所定の目的地までの経路を案内する処理である。
ラベルＬ４は、ユーザーの意図として、自宅経路案内を示すラベルである。自宅経路案内とは、車両Ｓを所有するユーザーの自宅までの経路を案内する処理である。自宅の位置は、所定の手段によって事前に登録される。
ラベルＬ５は、ユーザーの意図として、音量設定を示すラベルである。音量設定とは、スピーカー２２ａから出力される音声の音量を調整する処理である。
ラベルＬ６は、ユーザーの意図として、燃費表示を示すラベルである。燃費表示とは、車両Ｓの燃費を示す情報を表示装置２１ａに表示する処理である。
図４で例示したユーザーの意図は、あくまで一例である。例えば、ユーザーの意図は、車載装置１３がオーディオ装置に接続され、又は、車載装置１３がオーディオ装置に対応する機能部を有する場合において、楽曲の再生を示すものであってもよい。また例えば、車載装置１３がラジオやテレビに接続され、又は、車載装置１３がラジオやテレビに対応する機能部を有する場合において、所定のチャンネルの放送の受信を示すものや、チャンネルの変更を示すものであってもよい。

次に、用意されたラベルごとに、ラベルが示すユーザーの意図を、ユーザーが文章によって表現する場合、どのような文章で表現するかが、インタビューや、アンケート等の手段によって、収集される。
例えば、ユーザーの意図が車両Ｓの近辺に位置する「道の駅」の検索に係る近辺施設検索である場合、換言すれば、ユーザーが車載装置１３に車両Ｓの近辺に位置する「道の駅」の検索に係る近辺施設検索を実行させようとする場合、ユーザーが、どのような文章で表現するかが収集される。この場合、例えば、「近辺の道の駅」や、「近くにある道の駅を探して」、「近くの道の駅を検索」、「道の駅は近くにあるか」といった文章が収集される。
また例えば、ユーザーの意図が自宅経路案内である場合、換言すれば、ユーザーが車載装置１３に自宅経路案内を実行させようとする場合、ユーザーが、どのような文章で表現するかが収集される。この場合、例えば、「自宅へ帰る」や、「自宅へ帰りたい」、「そろそろ拙宅に帰りたい」「自宅へ」といった文章が収集される。
以下、インタビューや、アンケート等の手段によって収集された文章を、「収集文章」という。

次に、中継サーバー１０のサーバー制御部４０は、収集文章ごとに、第１テキストと、第２テキストを生成する。なお、収集文章は、所定の手段によって、中継サーバー１０に入力され、サーバー制御部４０が読み書き可能な態様で、サーバー記憶部４３に記憶される。
以下、収集文章が「近辺の道の駅」である場合を例にして、第１テキスト、及び、第２テキストについて説明する。
第１テキストは、収集文章を示す正しい文章（テキスト）のことである。従って、本例では、「近辺の道の駅」が、第１テキストに該当する。
第２テキストは、収集文章の一部に誤りを含めた文章のことである。本例の場合、例えば、「近辺の道の駅あ」や、「金生の道の駅」、「勤勉の道の駅」、「金目の道の駅」等である。

第２テキストは、以下の方法で生成される。
第２テキストを生成する第１の方法は、第１テキストを人間が実際に発話し、中継サーバー１０のサーバー制御部４０が、発話された音声に基づく音声認識を行い、音声認識の結果に基づいてテキストを生成する方法である。この第１の方法によれば、音声認識の認識誤りが反映された第２テキストが生成される。発話に基づく音声認識は、複数回行われてもよく、複数回行われた場合は、異なる態様の誤りを含む第２テキストが複数生成される場合がある。

第１の方法では、特に、以下の方法で第２テキストが生成される。
上述したように、本実施形態では、車両Ｓの環境として、車両Ｓが所定の閾値を超えた速度で走行している第１状態、車両Ｓが所定の閾値を下回る速度で走行している第２状態、車両Ｓがエンジンを駆動しつつ停車している第３状態、及び、車両Ｓがエンジンを停止して停車している第４状態の４つの状態を想定している。
そして、第１の方法で第２テキストを生成する場合、第１状態〜第４状態のそれぞれの状態下で第１テキストが発話され、中継サーバー１０のサーバー制御部４０は、それぞれの状態で発話された音声の音声認識の結果に基づいて、第２テキストを生成する。この結果、中継サーバー１０のサーバー制御部４０により、第１状態に対応する１又は複数の第２テキスト、第２状態に対応する１又は複数の第２テキスト、第３状態に対応する１又は複数の第２テキスト、及び、第４状態に対応する１又は複数の第２テキストが生成される。
なお、本実施形態は、必ずしも、車両Ｓの環境を上述の４状態に分けて判別しなくてもよい。たとえば、４状態のうち、音声認識の誤りの特性が互いに似ている状態が存在すれば、それらの複数の状態を１個の状態に統合してもよい。または、音声認識の誤りの特性が、より細分化される場合には、４状態より多い状態に環境を分類してもよい。さらに、上述の状態の分類基準に限らず、音声認識の誤りの特性を分類する別の分類基準に従って、状態を判別してもよい。

第１の方法において、以上のようにして第２テキストを生成する理由は、以下である。すなわち、中継サーバー１０のサーバー制御部４０によって、第１状態下で発話された音声の音声認識の結果に基づいて第２テキストを生成することにより、第２テキストを、第１状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキストとすることができる。後述するように、第１状態に対応する１又は複数の第２テキストは、第１意図推定モデルＭＤ１の学習に利用されるが、上記方法で第２テキストを生成することにより、第１意図推定モデルＭＤ１について、第１状態下で発話された音声に係るユーザーの意図を推定するためのモデルとしての適格性を向上できる。第２状態に対応する第２テキストは第２意図推定モデルＭＤ２の学習に利用され、第３状態に対応する第３テキストは第３意図推定モデルＭＤ３の学習に利用され、第４状態に対応する第４テキストは第４意図推定モデルＭＤ４の学習に利用されるが、上記のことは、それぞれの意図推定モデルＭＤについても同様である。
なお、第１状態下で音声を集音する場合に、必ずしも、所定の閾値を上回る速度で走行する車両Ｓの中で発話を行う必要はなく、所定の閾値を上回る速度で車両Ｓが走行した場合に想定される雑音、振動等の音声に影響を与える要因を反映した環境で、音声の集音が行われればよい。このことは、第２状態〜第３状態についても同様である。

次に、第２テキストを生成する第２の方法について説明する。
第２の方法では、まず、専用のスタジオ等の、発話された音声に対する影響が極力無い環境下で、第１テキストを人間が実際に発話し、発話された音声の集音が行われる。次いで、中継サーバー１０のサーバー制御部４０は、所定の手段によって、集音された音声に基づいて生成される音声信号に対して、所定の信号処理を施し、当該所定の信号処理を施した音声信号に基づく音声認識を行い、音声認識の結果に基づいて第２テキストを生成する。
ここで、中継サーバー１０のサーバー制御部４０は、音声信号に対して、第１状態を反映した信号処理を施し、信号処理を施した音声信号に基づいて、第１状態に対応する第２テキストを生成する。なお、中継サーバー１０のサーバー制御部４０は、音声信号に対して、第１状態を反映した信号処理として、異なる複数の信号処理を施し、複数の第１状態に対応する第２テキストを生成してもよい。第１状態を反映した信号処理とは、第１状態下で発話された音声を集音した場合に、集音される音声に与える影響を反映した信号処理である。このような方法で、第１状態に対応する第２テキストを生成することにより、第１状態に対応する第２テキストを、第１状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキストとすることができる。
同様に、中継サーバー１０のサーバー制御部４０は、音声信号に対して、第２状態を反映した信号処理を施し、第２状態に対応する１又は複数の第２テキストを生成する。また、中継サーバー１０のサーバー制御部４０は、音声信号に対して、第３状態を反映した信号処理を施し、第３状態に対応する１又は複数の第２テキストを生成する。また、中継サーバー１０のサーバー制御部４０は、音声信号に対して、第４状態を反映した信号処理を施し、第４状態に対応する１又は複数の第２テキストを生成する。
なお、信号処理について、車室空間特性の畳み込みを反映したり、音声を集音するマイクの特性の畳み込みを反映したりしてもよい。

次に、第２テキストを生成する第３の方法について説明する。
第３の方法では、中継サーバー１０のサーバー制御部４０は、第１テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて、第２テキストを生成する。
以下、第３の方法について、第１テキストが、「自宅へ帰る」である場合を例にして説明する。
第３の方法では、中継サーバー１０のサーバー制御部４０は、まず、第１テキストを単語列に分解する。本例では、「自宅へ帰る」について、「自宅／へ／帰る」というように、単語列に分解される。次いで、中継サーバー１０のサーバー制御部４０は、分解された単語のうち、いずれかの単語（複数であってもよい。）について、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を行って第２テキストを生成する。

＜単語の同音異義語への変換＞
単語の同音異義語への変換とは、第１テキストを構成する単語のうちのいずれかの単語について、同音異義語の他の単語に変換することをいう。本例では、中継サーバー１０のサーバー制御部４０により、例えば、「自宅／へ／帰る」について、単語の「帰る」が同音異義語の「買える」へと変換され、「自宅／へ／買える」という第２テキストが生成される。
＜単語の脱落＞
単語の脱落とは、第１テキストを構成する単語のうちのいずれかの単語について、単語を削除することをいう。本例では、中継サーバー１０のサーバー制御部４０により、例えば、「自宅／へ／帰る」について、単語の「へ」が削除され、「自宅／帰る」という第２テキストが生成される。
＜単語の沸き出し＞
単語の沸き出しとは、第１テキストに存在しない単語を挿入することをいう。本例では、中継サーバー１０のサーバー制御部４０により、例えば、「自宅／へ／帰る」について、単語の「あ」が末尾に挿入され、「自宅／へ／帰る／あ」という第２テキストが生成される。
＜単語の置換＞
単語の置換とは、第１テキストを構成する単語のうちのいずれかの単語について、別の異なる単語へと変換することをいう。本例では、中継サーバー１０のサーバー制御部４０により、例えば、「自宅／へ／帰る」について、単語の「自宅」が、「北区」へと置換され、「北区／へ／帰る」という第２テキストが生成される。

なお、単語の同音異義語への変換、単語の脱落、単語の沸き出し、及び、単語の置換（以下、これらを総称して「テキスト修正」という。）について、中継サーバー１０のサーバー制御部４０により、１つの第１テキストに対して異なる複数の種類のテキスト修正を行って第２テキストを生成してもよく、また、１つの第１テキストに対して同一のテキスト修正を複数回行って第２テキストを生成してもよい。
ここで、本実施形態では、中継サーバー１０のサーバー制御部４０は、第３の方法によって第２テキストを生成する際に、第１状態〜第４状態のそれぞれに対応するテキスト修正を行うことによって、第１状態に対応する１又は複数の第２テキスト、第２状態に対応する１又は複数の第２テキスト、第３状態に対応する１又は複数の第２テキスト、及び、第４状態に対応する１又は複数の第２テキストを生成する。
第１状態に対応する第２テキストを生成する場合、中継サーバー１０のサーバー制御部４０は、第１状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキスト修正を行う。第１状態に係る誤り傾向は、例えば、第１状態で実際に発話された音声の音声認識結果を分析することによって算出される。
第１状態に係る音声認識の誤り傾向として、末尾に、単語「あ」の挿入（単語の沸き出し）が発生する傾向がある場合、第１状態に対応する第２テキストの生成に際して行われるテキスト修正は、当該傾向を反映したものとされる。このことは、第２状態〜第４状態に対応する第２テキストについても同様である。

中継サーバー１０のサーバー制御部４０は、第１〜第３の方法によって、第２テキストを生成した後、収集文章ごとに、対応する意図推定モデルＭＤの学習に使用する第２テキストの選別を行う。
なお、第２テキストは、第１状態〜第４状態に対応するものがそれぞれ生成される。これを踏まえ、第２テキストの選別は、それぞれの状態に対応するものごとに行われる。すなわち、サーバー制御部４０は、第１状態〜第４状態のそれぞれの状態について、収集文章ごとに、第２テキストの選別を実行する。
以下、第１テキストが「近辺の道の駅」であり、第１〜第３の方法のいずれかによって生成された第２テキストが「近辺の道の駅あ」、「簡便の道の駅」、及び、「コロ助の道の駅」である場合を例にして、中継サーバー１０のサーバー制御部４０により行われる第２テキストの選別に係る処理を説明する。

まず、サーバー制御部４０は、第１テキスト「近辺の道の駅」について、発音記号列に変換する。具体的には、サーバー制御部４０は、第１テキスト「近辺の道の駅」を、「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉ」（ただし、「Ｎ」は、「ん」に対応する発音記号。以下も同様。）と変換する。
次いで、サーバー制御部４０は、第２テキストのそれぞれについて、発音記号列に変換する。具体的には、サーバー制御部４０は、第２テキスト「近辺の道の駅あ」を、「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉａ」と変換する。サーバー制御部４０は、第２テキスト「簡便の道の駅」を、「ｋａＮｂｅＮｎｏｍｉｃｈｉｎｏｅｋｉ」と変換する。サーバー制御部４０は、第２テキスト「コロ助の道の駅」を、「ｋｏｒｏｓｕｋｅｎｏｍｉｃｈｉｎｏｅｋｉ」と変換する。

次いで、サーバー制御部４０は、第１テキストに係る発音記号列と、第２テキストに係る発音記号列のそれぞれとの比較に基づいて、第１テキストと、第２テキストのそれぞれとの編集距離を算出する。
編集距離とは、２つの発音記号列（文字列）の距離を算出する手法の１つである。一方の発音記号列を構成する「音素」に対して最小の削除、挿入、置換を行って、他方の発音記号列と同一の発音記号列とする場合に、行われる削除、挿入、置換の回数が、編集距離である。なお、編集距離の算出に関し、発音記号列を構成するアルファベットのそれぞれが「音素」に該当し、例えば、「ｋｉＮｎｏ」という発音記号列については、「ｋ」「ｉ」「Ｎ」「ｎ」、及び、「ｏ」のそれぞれが「音素」である。

例えば、第１テキスト「近辺の道の駅」に基づく発音記号列「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉ」と、第２テキスト「近辺の道の駅あ」に基づく発音記号列「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉａ」との比較に基づく編集距離の算出は、以下のようにして行われる。すなわち、第１テキストに係る発音記号列の末尾に音素「ａ」を挿入することにより、第１テキストに係る発音記号列を、第２テキストに係る発音記号列とすることができる。従って、対応する第１テキストと、第２テキストとの編集距離は、「１」である。
また例えば、第１テキスト「近辺の道の駅」に基づく発音記号列「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉ」と、第２テキスト「簡便の道の駅」に基づく発音記号列「ｋａＮｂｅＮｎｏｍｉｃｈｉｎｏｅｋｉ」との比較に基づく編集距離の算出は、以下のようにして行われる。すなわち、第１テキスト「近辺の道の駅」に基づく発音記号列「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉ」について、２番目の音素「ｉ」を音素「ａ」へと置換し、４番目の音素「ｐ」を音素「ｂ」へと置換することにより、第１テキストに係る発音記号列を、第２テキストに係る発音記号列とすることができる。従って、対応する第１テキストと、第２テキストとの編集距離は、「２」である。

なお、編集距離の算出に際し、認識誤りの発生しやすさを反映した補正を行ってもよい。
詳述すると、音声認識を行う処理部（音声認識エンジン）には、似ている音の音素を誤認識しやすいという特性等の各種特性がある。これを踏まえ、誤認識しやすい音素のペアが編集距離に与える影響等を小さくし、これにより、音声認識エンジンの特性を反映して編集距離を算出する。
例えば、誤認識しやすい音素のペアとして、音素「ｍ」と音素「ｎ」とがあり、また、音素「ｔ」と音素「ｃｈ」とがある。これを踏まえ、第１テキストに係る発音記号列と、第２テキストに係る発音記号列との比較時に、音素「ｍ」と音素「ｎ」とを置換する場合、及び、音素「ｔ」と音素「ｃｈ」とを変換する場合は、サーバー制御部４０は、増加させる編集距離の値を「０．５」とする。
また例えば、誤認識による脱落が起こりやすい音素として、音素「ｑ」（促音）や、音素「ｔ」、音素「ｇ」等がある。これを踏まえ、第１テキストに係る発音記号列と、第２テキストに係る発音記号列との比較時に、これら音素を削除する場合は、サーバー制御部４０は、増加させる編集距離の値を「０．５」とする。
また例えば、誤認識による挿入が起こりやすい音素として、音素「ｐ」や、音素「ｋ」、音素「ｔ」等がある。これを踏まえ、第１テキストに係る発音記号列と、第２テキストに係る発音記号列との比較時に、これら音素を挿入する場合は、サーバー制御部４０は、増加させる編集距離の値を「０．５」とする。

以上のようにして、第２テキストのそれぞれに対応して編集距離を算出した後、サーバー制御部４０は、編集距離のそれぞれを対応する第２テキストに係る発音記号列の音素の数で割った値を算出する。算出された値は、「発音記号列の距離」に相当する。つまり、「発音記号列の距離」は、編集距離に基づいて算出される。
例えば、本例の第１テキストに係る発音記号列と、第２テキスト「近辺の道の駅あ」に基づく発音記号列「ｋｉＮｐｅＮｎｏｍｉｃｈｉｎｏｅｋｉａ」（音素の数＝１９）との比較結果に基づいて算出される編集距離は、「１」であり、サーバー制御部４０は、編集距離「１」を、音素の数「１９」で割り、発音記号列の距離「０．０５」（≒１／１９）を算出する。
同様にして、サーバー制御部４０は、第２テキスト「簡便の道の駅」に関し、編集距離「２」を、対応する発音記号列の音素の数「１８」で割り、発音記号列の距離「０．１１」（≒２／１８）を算出する。
同様にして、サーバー制御部４０は、第２テキスト「コロ助の道の駅」に関し、編集距離「７」を、対応する発音記号列の音素の数「２０」で割り、発音記号列の距離「０．３５」（＝７／２０）を算出する。

次いで、サーバー制御部４０は、算出した発音記号列の距離と、予め定められた閾値とを比較し、対応する発音記号列の距離が閾値以下である第２テキストを、意図推定モデルＭＤの学習に利用する学習テキストとして選別し、一方、対応する発音記号列の距離が閾値を上回る第２テキストを、意図推定モデルＭＤの学習に利用する学習テキストから排除する。
本例において、閾値が「０．３」であるとすると、サーバー制御部４０は、対応する発音記号列の距離が「０．０５」である第２テキスト「近辺の道の駅あ」、及び、対応する発音記号列の距離が「０．１１」である第２テキスト「簡便の道の駅」を、意図推定モデルＭＤの学習に利用する学習テキストとして選別する。一方、サーバー制御部４０は、第２テキスト「コロ助の道の駅」を、意図推定モデルＭＤの学習に利用する学習テキストから排除する。

以上のように、本実施形態では、サーバー制御部４０は、第２テキストのうち、対応する第１テキストとの発音記号列の距離が閾値を下回る第２テキストのみ、換言すれば、第１テキストと音声認識の際の誤認識により生成される可能性が十分にあると判定できる第２テキストのみ、意図推定モデルＭＤの学習に利用する。
このような構成のため、第１テキストに基づく音声と乖離した音声に係る第２テキストが、意図推定モデルＭＤの学習に利用されることを防止でき、これにより、意図推定モデルＭＤの精度の劣化を効果的に防止できる。
ユーザーが実際に発話する環境は、第２テキストの作成に使用した音響環境と、厳密には一致しないことがある。そのような場合、第２テキストのうち、第１テキストと大きく発音が異なるテキストは、ユーザーの環境の音声認識では再現しない可能性が出てくる。そのため、そのようなテキストを意図推定モデルＭＤの学習に使用すると、ユーザーの発話に対する理解の成功率を下げる可能性がある。本実施形態による第２テキストの選定方法制限を使用すれば、このような成功率の低下を抑えることができる。
以下、意図推定モデルＭＤの学習に利用する学習テキストとして選別された第２テキストを、「学習用第２テキスト」という。
この結果、所定の例外を除き、基本的には、第１状態〜第４状態のそれぞれの状態に対応して、収集文章ごとに、１又は複数の学習用第２テキストが選別される。

次いで、サーバー制御部４０は、収集文章ごとに、学習テキストとして利用する第１テキストの数を設定する。学習テキストとして利用する第１テキストの数は、学習用第２テキストとの関係で設定される。
なお、意図推定モデルＭＤは、後述する方法で学習を行うため、学習テキストして使用する第１テキストの数と、学習用第２テキストの数との関係によって、意図推定の精度が変化する。従って、学習用第２テキストの数との関係で、第１テキストの数を最適化する必要がある。
詳述すると、本実施形態では、サーバー制御部４０は、収集文章のそれぞれについて、対応する学習用第２テキストの数よりも「１」多い値の数を、学習テキストとして使用する第１テキストの数とする。
例えば、１の収集文章について、学習用第２テキストの数が、「３」であったとする。この場合、対応する第１テキストの数は、「４」とされる。

本実施形態では、第１テキストの数は、上記の方法で設定されるが、第１テキストの数の設定の方法は、上記の方法に限らない。すなわち、学習テキストに使用する第１テキストの数は、学習させる意図推定モデルＭＤの精度を向上するという観点から、学習用第２テキストの数との関係で適切に設定される。
以下、変数ｒについて、「変数ｒ＝（学習用第２テキストの数）／（第１テキストの数）」として、変数ｒを最適化する方法について、例を挙げて説明する。

＜開発データを利用する方法＞
（１）まず、収集文章に基づいて作成した学習テキストとは、別に、開発用テキストを用意する。
（２）次いで、サーバー制御部４０は、収集文章ごとの学習テキスト（第１テキスト及び学習用第２テキスト）を利用して、変数ｒをさまざまに変えて、複数の意図推定モデルＭＤを生成する。
（３）次いで、サーバー制御部４０は、開発用テキストを利用して、意図推定モデルＭＤのそれぞれについて、意図推定の正解率を算出する。
（４）次いで、サーバー制御部４０は、意図推定の正解率が最高となった意図推定モデルＭＤに適用した変数ｒの値を設定する。

＜クロスバリデーションによる方法＞
（１）まず、サーバー制御部４０は、複数ある収集文章ごとの学習テキストを２つのグループに分ける。２つのグループをグループＡ、グループＢとする。
（２）次いで、サーバー制御部４０は、グループＡに属する学習テキストを利用して、変数ｒをさまざまに変えて、複数の意図推定モデルＭＤ（以下、「グループＡモデル」という。）を生成する。
（３）次いで、サーバー制御部４０は、グループＢに属する学習テキストを利用して、グループＡモデルのそれぞれについて、意図推定の正解率を算出する。
（４）次いで、サーバー制御部４０は、グループＢに属する学習テキストを利用して、変数ｒをさまざまに変えて、複数の意図推定モデルＭＤ（以下、「グループＢモデル」という。）を生成する。
（５）次いで、サーバー制御部４０は、グループＡに属する学習テキストを利用して、グループＢモデルのそれぞれについて、意図推定の正解率を算出する。
（６）次いで、サーバー制御部４０は、同じｒで求めたグループＡに属する学習テキストの正解率とグループＢに属する学習テキストの正解率を平均する。さらに、求めた平均値が最大となったときの変数ｒの値を設定する。

以上のようにして、サーバー制御部４０は、第１状態〜第４状態のそれぞれに状態に対応して、収集文章ごとに、学習テキストを生成する。学習テキストは、「１又は複数の第１テキスト」と、「１又は複数の学習用第２テキスト」との組合せにより構成される。なお、収集文章によっては、学習用第２テキストが生成されない場合もあり得る。
以下、第１テキスト、及び、学習用第２テキストのそれぞれを総称して、「学習使用テキスト」と表現する。

次に、意図推定モデルＭＤの学習について説明する。
なお、上述したように、本実施形態では、サーバー記憶部４３に、第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４の４つの意図推定モデルＭＤが記憶される。第１意図推定モデルＭＤ１は、第１状態に対応する意図推定モデルＭＤである。第１意図推定モデルＭＤ１と、第１状態とが対応するとは、第１意図推定モデルＭＤ１が、第１状態下で発話された音声に基づく音声テキストデータの意図推定に用いられることを意味する。また、第２意図推定モデルＭＤ２は、第２状態に対応する意図推定モデルＭＤである。また、第３意図推定モデルＭＤ３は、第３状態に対応する意図推定モデルＭＤである。また、第４意図推定モデルＭＤ４は、第４状態に対応する意図推定モデルＭＤである。
上述したように、学習テキストは、第１状態〜第４状態のそれぞれに対応して、収集文章ごとに生成される。従って、第１状態に対応して、収集分章ごとに、学習テキスト（「１又は複数の第１テキスト」と、「１又は複数の学習用第２テキスト」との組合せ）が存在する。第２状態〜第３状態についても同様である。
そして、サーバー制御部４０は、第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４の学習を、それぞれ、第１状態〜第４状態に対応する学習テキストを使用して実行する。例えば、サーバー制御部４０は、第１状態に対応する収集文章ごとの学習テキストを使用して、以下の方法で、第１意図推定モデルＭＤ１の学習を実行する。
このような方法で第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４のそれぞれの学習を実行するため、第１意図推定モデルＭＤ１を、第１状態下で発話された音声に基づく音声テキストデータの意図推定に利用するモデルとして適したものとすることができる。第２意図推定モデルＭＤ２〜第４意図推定モデルＭＤ４についても同様である。

意図推定モデルＭＤの学習に際し、まず、サーバー制御部４０は、学習使用テキストごとに、素性ベクトルと、対応する車載装置処理との組合せを作成する。以下、詳述する。
素性ベクトルについては、後述する。
「車載装置処理」とは、上述したように、車載装置１３がユーザーの発話による指示に応じて実行可能な処理のことであり、ラベルは、車載装置処理ごとに存在することになる。
１の学習使用テキストに対応する車載装置処理とは、当該１の学習使用テキストの元となった収集文章が示すユーザーの意図のことである。例えば、車載装置１３に処理ＳＲ１を実行させることを示す収集文章に基づいて生成された学習使用テキストに対応する車載装置処理は、処理ＳＲ１である。

以下の説明では、学習使用テキストは、Ｌ（Ｌは正の整数。）個あるものとし、学習使用テキストのそれぞれを、Ｔ₁、Ｔ₂、・・・Ｔ_L、と表す。
また以下の説明では、車載装置処理はｍ（ｍは正の整数。）個あるものとし、車載装置処理のそれぞれを、Ｏ₁、Ｏ₂、・・・、Ｏ_mと表す。
また以下の説明では、ユーザーの意図（＝ユーザーが車載装置１３に実行させようとする車載装置処理。以下、「ユーザー意図」と表現する。）を変数であるＹによって表す。ユーザー意図Ｙには、車載装置処理Ｏ₁、Ｏ₂、・・・、Ｏ_mのいずれかが格納される。
また以下の説明では、学習使用テキストＴ_Lに対応する車載装置処理をＹ_Lと表す。すなわち、学習使用テキストＴ１、Ｔ₂、・・・Ｔ_Lに対応して、車載装置処理Ｙ₁、Ｙ₂・・・Ｙ_Lが存在する。

素性ベクトルとは、以下である。
図５は、素性ベクトルの説明に利用する素性一覧ＳＱを示す図である。
中継サーバー１０のサーバー記憶部４３には、図５に示す素性一覧ＳＱに対応するデータが事前に記憶される。
図５に示すように、素性一覧ＳＱでは、収集文章に基づく第１テキスト、第２テキストの内容や、事前のテスト、シミュレーションに基づいて、ユーザーが発話した音声に基づいて生成される音声テキストデータに記述されるテキストに含まれ得る素性が一覧的に設けられる。なお、素性は、第２テキストの誤りも反映したものとされる。
図５の例では、素性として、「自宅」や、「へ」、「帰る」、「する」、「目的地」等が設けられている。

サーバー制御部４０は、素性一覧ＳＱを利用して、学習使用テキストごとに、素性ベクトルを算出する。
なお、本実施形態では、素性には、文の単語の１−ｇｒａｍと２−ｇｒａｍを使用する。以下で説明するとおり、素性ベクトルのそれぞれの要素は、異なるＮ−ｇｒａｍ要素に対応しており、文の中に素性が存在すれば、当該素性に「１」、存在しなければ「０」に設定される。素性の作成方法には、本実施形態の方法に限らず、単語の品詞を使う方法、単語の文法的な要素情報を使う方法など、他の方法を使用してもよい。
以下、図５（Ａ）に示すように、学習使用テキストが「自宅へ帰る」である場合を例にして、素性ベクトル、及び、素性ベクトルの算出方法について説明する。
まず、サーバー制御部４０は、「自宅へ帰る」を素性化し、素性を抽出する。本例では、素性として「自宅」「へ」「帰る」「自宅／へ」、及び、「へ／帰る」が抽出される。
次いで、図５（Ａ）に示すように、サーバー制御部４０は、素性一覧ＳＱに設けられた素性のうち、抽出された素性に値「１」を付与し、それ以外の素性に値「０」を付与する。次いで、サーバー制御部４０は、素性一覧ＳＱに設けられた素性のそれぞれに付与された値に基づいて、ベクトルを算出する。このようにして算出されたベクトルが素性ベクトルである。
また、図５（Ｂ）に示すように、学習使用テキストが「帰宅する」である場合を例にして、素性ベクトル、及び、素性ベクトルの算出方法について説明する。
まず、サーバー制御部４０は、「帰宅する」を素性化し、素性を抽出する。本例では、素性として「帰宅」「する」、及び、「帰宅／する」が抽出される。
次いで、図５（Ｂ）に示すように、サーバー制御部４０は、素性一覧ＳＱに設けられた素性のうち、抽出された素性に値「１」を付与し、それ以外の素性に値「０」を付与する。次いで、サーバー制御部４０は、素性一覧ＳＱに設けられた素性のそれぞれに付与された値に基づいて、素性ベクトルを算出する。
以下の説明では、学習使用テキストＴ_Lに基づいて生成される素性ベクトルをＸ_Lと表す。すなわち、学習使用テキストＴ１、Ｔ₂、・・・Ｔ_Lに対応して、素性ベクトルＸ₁、Ｘ₂、・・・Ｘ_Lが存在する。

上述したように、サーバー制御部４０は、学習使用テキストごとに、素性ベクトルと、対応する車載装置処理との組合せを生成する。つまり、サーバー制御部４０は、学習使用テキストＴ₁、Ｔ₂、・・・Ｔ_Lごとに、｛（素性ベクトルＸ₁、車載装置処理Ｙ₁）、（素性ベクトルＸ₂、車載装置処理Ｙ₂）、・・・、（素性ベクトルＸ_L、車載装置処理Ｙ_L）｝を生成する。
次いで、サーバー制御部４０は、ユーザー意図Ｙ（Ｙ＝Ｏ₁、Ｏ₂、・・・、Ｏ_m）と、素性ベクトルの各要素の関連の大きさを示す重みベクトルであるλ_Yについて、車載装置処理Ｏ₁、Ｏ₂、・・・、Ｏ_mに対応させて、重みベクトルλ_O1、λ_O2、・・・、λ_Omを定義し、さらに、重みベクトルλ_O1、λ_O2、・・・、λ_Omを合体させたλを、重みベクトルとして再定義する（式（１）参照）。
なお、意図推定モデルＭＤの学習は、重みベクトルλ_O1、λ_O2、・・・、λ_Omを求めることを目的の１つとする。

次いで、サーバー制御部４０は、評価関数Ｌ（λ）を計算する（式（２）参照）。この評価関数は、重みベクトルλを使用したときに、より正しく推定ができている場合に、値が大きくなる関数である。

次いで、サーバー制御部４０は、評価関数Ｌ（λ）が最大となるようなλを求める。具体的には、Ｌ（λ）のλに対する偏微分を求めて、偏微分が正の方向にλの値を変更していく（式（３）、式（４）参照）。

ただし、式（３）において、εは、学習率を示す。式（４）において、ｍは、素性一覧ＳＱにおける素性の数を示す。
以上説明した方法を利用して、サーバー制御部４０は、重みベクトルλ_O1、λ_O2、・・・、λ_Omを求める。この重みベクトルλ_O1、λ_O2、・・・、λ_Omの算出が、意図推定モデルＭＤの学習に相当する。

次に、図３（Ｂ）のフローチャートのステップＳＢ７の意図推定処理について説明する。
意図推定処理において、中継サーバー１０のサーバー制御部４０の意図推定部４０ｃは、ステップＳＢ６のモデル選定部４０ｂで選定された意図推定モデルＭＤ（以下、単に「意図推定モデルＭＤ」という。）を利用して、事前に複数種類用意されたユーザーの意図を示すラベルから、発話に対応するユーザーの意図に応じた適切な１のラベルを選定する。
詳述すると、意図推定部４０ｃは、音声テキストデータに記述されたテキスト（＝ユーザーが発話した音声をテキスト化した文章）の素性ベクトルを算出する。以下、音声テキストデータのテキストの素性ベクトルを、変数であるＸによって表す。
次いで、意図推定部４０ｃは、音声テキストデータに記述されたテキストが、ユーザー意図Ｙである確立Ｐ（Ｙ｜Ｘ）を、以下の式（５）に基づいて算出する。

上述したように、λ_Yは、ユーザー意図Ｙと、素性ベクトルＸの各要素の関連の大きさを示す重みベクトルである。
また、Ｚは、全ての車載装置処理で合計すると「１」になるようにする正規化係数である（式（６）参照）。

上述したように、Ｏ₁、Ｏ₂、・・・、Ｏ_mは、車載処理装置のそれぞれを示す。
サーバー制御部４０は、式（５）において、Ｐ（Ｙ｜Ｘ）の値が最大となったユーザー意図Ｙ（車載処理装置Ｏ₁、Ｏ₂、・・・、Ｏ_mのいずれか）を、ユーザーの意図であると推定する。例えば、「ユーザー意図Ｙ＝車載処理装置Ｏ₁」のときに、Ｐ（Ｙ｜Ｘ）の値が最大となる場合、サーバー制御部４０は、車載処理装置Ｏ₁を、ユーザーの意図と推定する。
上述したように、ラベルは、車載処理装置Ｏ₁、Ｏ₂、・・・、Ｏ_mごとに用意されている。サーバー制御部４０は、ラベルの中から、推定したユーザーの意図（車載処理装置）に対応する１のラベルを選定する。
さらに、意図推定処理において、意図推定部４０ｃは、選定されたラベルが示すユーザーの意図が、特定の施設への経路案内を要求するものや、所定の領域に属する施設の検索を要求するもの等、所定の施設の位置の検索を必要とするものである場合、所定の手段により、音声テキストデータに記述されたテキストから、施設に関する情報を示す文字列を取得する。施設に関する情報とは、例えば、施設の名称や、施設の種類である。上述したように、施設に関する情報は、施設検索部４２に出力され、施設検索部４２と、施設検索サーバー１２との協働により、対応する施設の位置を示す情報に変換される。

以上説明したように、本実施形態に係る中継サーバー１０（意図推定装置）は、ユーザーが発話した音声に基づくテキストと、テキストに基づいて出力するラベルとの関係をモデリングしたモデル（意図推定モデルＭＤ）を備える。そして、中継サーバー１０による意図推定モデルＭＤの学習に使用される学習テキストは、誤りのないテキストである第１テキスト、及び、一部に誤りを有するテキストである第２テキストを含む。
この構成によれば、意図推定モデルＭＤの学習について、音声認識の誤りを反映した学習を実行でき、従って、音声認識の結果から生成されるテキストに基づいてユーザーの意図を推定する際に使用する意図推定モデルＭＤの精度を向上でき、これに伴って、意図推定の精度を向上できる。

また、本実施形態では、第２テキストを、第１テキストを発話した音声を、音声認識して得られたテキストとすることができる。
この構成によれば、第２テキストを、音声認識に際して実際に発生した誤りを反映したテキストとすることができ、これに伴って、第２テキストを利用して学習が行われる意図推定モデルＭＤを、実際に発生し得る音声認識の誤りを反映したモデルとすることができる。

また、本実施形態では、第２テキストを、第１テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストとすることができる。
この構成によれば、実際に音声認識に係る処理、作業を行うことなく、第１テキストに基づいて第２テキストを生成することができる。

また、本実施形態では、第２テキストを、第１テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成する場合において、音声認識の誤り傾向を反映したテキスト修正を行って、第２テキストを作成することができる。
この構成によれば、第１テキストに基づいて生成する第２テキストについて、音声認識の誤り傾向を反映したテキストとすることができる。

また、本実施形態では、学習テキストとして使用する第２テキストは、第１テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストである。
この構成によれば、第１テキストに基づく音声と乖離した音声に係る第２テキストが、意図推定モデルＭＤの学習に利用されることを防止でき、これにより、意図推定モデルＭＤの精度の劣化を効果的に防止できる。

また、本実施形態では、発音記号列の距離は、編集距離に基づいて算出される。
この構成によれば、編集距離を利用して、発音記号列の距離を適切に算出できる。

また、本実施形態では、編集距離は、認識誤りの発生しやすさを反映した補正を行って算出される。
この構成によれば、編集距離に基づく発音記号列の距離の算出の際し、編集距離を認識誤りの発生しやすさを反映した補正を行って算出するため、発音記号列の距離を、認識誤りの発生しやすさを反映した適切な値とすることができる。

また、本実施形態では、学習テキストにおける第１テキストの数と、第２テキスト（学習用第２テキスト）の数との関係を、所定の関係とする。
この構成によれば、学習テキストにおいて、第１テキストに対する第２テキストの割合が、意図推定モデルＭＤの精度の劣化を生じさせるほどに大きくなること等を防止でき、意図推定モデルＭＤの精度の劣化を効果的に防止できる。

また、本実施形態では、中継サーバー１０は、第１意図推定モデルＭＤ１〜第４意図推定モデルＭＤ４の複数の意図推定モデルＭＤを備える。中継サーバー１０は、音声データ（音声情報）、又は、環境情報（車両環境情報）に基づいて、意図推定に使用する意図推定モデルＭＤを選定するモデル選定部４０ｂを備える。
この構成によれば、中継サーバー１０は、車両Ｓの環境に対応した意図推定モデルＭＤを使用して、ユーザーの意図を推定することができる。

なお、上述した実施の形態は、あくまでも本発明の一態様を示すものであり、本発明の範囲内で任意に変形および応用が可能である。
例えば、上述した実施形態では、モデルの学習方法について、使用する数式を明示しつつ、具体例を示して説明したが、当該学習方法は、例示された方法に限定されるものではない。

１０中継サーバー１０（意図推定装置）
１３車載装置
４０ｂモデル選定部
ＭＤ意図推定モデル（モデル）

Claims

テキストに基づいて、ユーザーの意図の種類を示すラベルを出力する意図推定装置であって、
前記テキストと、前記テキストに基づいて出力する前記ラベルとの関係をモデリングしたモデルを備え、
前記モデルの学習に使用される学習テキストは、誤りのないテキストである第１テキスト、及び、一部に誤りを有するテキストである第２テキストを含む、
ことを特徴とする意図推定装置。
前記第２テキストは、
前記第１テキストを発話した音声を、音声認識して得られたテキストであることを特徴とする請求項１に記載の意図推定装置。
前記第２テキストは、
前記第１テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストであることを特徴とする請求項１に記載の意図推定装置。
前記第２テキストは、音声認識の誤り傾向を反映して作成されることを特徴とする請求項３に記載の意図推定装置。
前記第２テキストは、
前記第１テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストであることを特徴とする請求項１から４のいずれか１項に記載の意図推定装置。
前記発音記号列の距離は、編集距離に基づいて算出されることを特徴とする請求項５に記載の意図推定装置。
前記編集距離は、認識誤りの発生しやすさを反映した補正を行って算出されることを特徴とする請求項６に記載の意図推定装置。
前記学習テキストにおける前記第１テキストの数と前記第２テキストの数との関係を、所定の関係とすることを特徴とする請求項１から７のいずれか１項に記載の意図推定装置。
異なる複数の前記第２テキストから学習した複数の前記モデルと、
入力された音声情報、又は、環境情報に基づいて、複数の前記モデルから、意図推定に使用する前記モデルを選定するモデル選定部と、
を備えることを特徴とする請求項１から８のいずれか１項に記載の意図推定装置。
テキストと、前記テキストに基づいて出力するユーザーの意図の種類を示すラベルとの関係をモデリングしたモデルの
前記モデルの学習に使用される学習テキストとして、誤りのないテキストである第１テキスト、及び、一部に誤りを有するテキストである第２テキストを生成し、生成した前記第１テキスト、及び、前記第２テキストに基づいて前記モデルの学習を行うことを特徴とするモデルの学習方法。
前記第２テキストは、
前記第１テキストを発話した音声を、音声認識して得られたテキストであることを特徴とする請求項１０に記載のモデルの学習方法。
前記第２テキストは、
前記第１テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストであることを特徴とする請求項１０に記載のモデルの学習方法。
前記第２テキストは、音声認識の誤り傾向を反映して作成されることを特徴とする請求項１２に記載のモデルの学習方法。
前記第２テキストは、
前記第１テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストであることを特徴とする請求項１０から１３のいずれか１項に記載のモデルの学習方法。
前記発音記号列の距離は、編集距離に基づいて算出されることを特徴とする請求項１４に記載のモデルの学習方法。
前記編集距離は、認識誤りの発生しやすさを反映した補正を行って算出されることを特徴とする請求項１５に記載のモデルの学習方法。
前記学習テキストにおける前記第１テキストの数と前記第２テキストの数との関係を、所定の関係とすることを特徴とする請求項１０から１６のいずれか１項に記載のモデルの学習方法。