JP6475426B2 - 意図推定装置、及び、モデルの学習方法 - Google Patents

意図推定装置、及び、モデルの学習方法 Download PDF

Info

Publication number
JP6475426B2
JP6475426B2 JP2014116506A JP2014116506A JP6475426B2 JP 6475426 B2 JP6475426 B2 JP 6475426B2 JP 2014116506 A JP2014116506 A JP 2014116506A JP 2014116506 A JP2014116506 A JP 2014116506A JP 6475426 B2 JP6475426 B2 JP 6475426B2
Authority
JP
Japan
Prior art keywords
text
intention
intention estimation
user
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014116506A
Other languages
English (en)
Other versions
JP2015230384A (ja
Inventor
本間 健
健 本間
和明 嶋
和明 嶋
康成 大淵
康成 大淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2014116506A priority Critical patent/JP6475426B2/ja
Publication of JP2015230384A publication Critical patent/JP2015230384A/ja
Application granted granted Critical
Publication of JP6475426B2 publication Critical patent/JP6475426B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、意図推定装置、及び、モデルの学習方法に関する。
従来、ユーザーにより発話された音声を認識してテキスト化し、テキストを分析して、ユーザーの意図を推定する意図推定装置(音声認識装置)が知られている(例えば、特許文献1参照)。
一般に、意図推定装置は、テキストと、ユーザーの意図の種類を示すラベルとの関係をモデリングしたモデルを備え、モデルを利用して、ユーザー意図の推定を実行する。
特開平11−143493号公報
上述した意図推定装置のように、モデルを利用して意図の推定を行うものでは、モデルの精度を向上し、高い精度で意図の推定を行えるようにしたいとするニーズがある。
本発明は、上述した事情に鑑みてなされたものであり、意図推定装置、及び、モデルの生成方法について、意図の推定に利用するモデルの精度を向上することを目的とする。
上記目的を達成するために、複数の指示のいずれかをユーザーが意図して発話した音声の音声データを音声認識によってテキスト化した音声テキストデータに基づいて、当該ユーザーの意図を推定する制御部を有した意図推定装置であって、前記ユーザーの意図を前記音声テキストデータに基づいて推定するための意図推定モデルを記憶している記憶部を備え、前記意図推定モデルは、前記記憶部に記憶している第1テキスト及び第2テキストを利用して学習されるものであり、前記第1テキストとは、前記意図を示す予め用意されたテキストであり、前記第2テキストとは、発話された前記第1テキストの音声を音声認識した場合に生じ得る誤りを含む、前記第1テキストとは一部が異なるテキストであり、前記第1テキストの数と前記第2テキストの数とは所定の関係で設定されており、前記制御部は、前記音声テキストデータから前記意図推定モデルに基づいて前記ユーザーの意図を推定し出力することを特徴とする。
本発明によれば、意図の推定に利用するモデルの精度を向上できる。
意図推定システムの構成を示す図。 意図推定システムが有する各装置の機能的構成を示すブロック図。 意図推定システムの各装置の動作を示すフローチャート。 ラベルの一例を示す図。 素性一覧を示す図。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本実施形態に係る意図推定システム1の構成を示す図である。
図1に示すように、意図推定システム1は、中継サーバー10(意図推定装置)を備える。中継サーバー10は、後述するように、ユーザーが発話した音声に基づいて生成されたテキストを解析し、ユーザーの意図を推定する機能を有するサーバーである。
中継サーバー10には、インターネットや、電話網等を含んで構成されたネットワークNを介して、音声認識サーバー11、及び、施設検索サーバー12が通信可能に接続される。音声認識サーバー11は、後述するように、ユーザーが発話した音声に基づいて生成された音声データに基づいて、テキストを生成する機能を有するサーバーである。施設検索サーバー12は、施設の名称等の施設に関する情報に基づいて、施設の位置を検索する機能を有するサーバーである。
また、中継サーバー10には、ネットワークNを介して、車両Sに搭載された車載装置13が通信可能に接続される。
図2は、意図推定システム1が備える各装置の機能的構成を示すブロック図である。
車載装置13は、車両Sに搭載された装置であり、少なくとも、地図を表示すると共に、地図における車両Sの位置を表示する自車両表示機能、及び、地図上で出発地から目的地までの経路を案内する経路案内機能を有する。
図2に示すように、車載装置13は、車載装置制御部20と、タッチパネル21と、音声処理部22と、GPSユニット23と、車両情報取得部24と、環境情報取得部25と、車載装置記憶部26と、車載装置通信部27と、を備える。
車載装置制御部20は、CPUや、ROM、RAM等を備え、車載装置13の各部を制御する。例えば、車載装置制御部20は、ROMに記憶された制御プログラムを、CPUにより読み出して実行することにより、車載装置13の各部を制御する。
タッチパネル21は、表示装置21aと、位置入力装置21bと、を備える。
表示装置21aは、液晶表示パネルや、有機ELパネル等の表示パネルを備え、車載装置制御部20の制御で、表示パネルに画像を表示する。
位置入力装置21bは、表示パネルに重ねて配置されたタッチセンサーを備え、ユーザーによるタッチ操作を検出し、タッチ操作された位置を示すタッチ位置情報を、車載装置制御部20に出力する。
音声処理部22は、スピーカー22aと接続され、車載装置制御部20から入力された音声信号をデジタル/アナログ変換して、スピーカー22aに出力し、スピーカー22aにより音声信号に基づく音声を放音する。
また、音声処理部22は、マイク22bと接続され、マイク22bによって収音された音声に基づく信号をアナログ/デジタル変換し、音声データとして車載装置制御部20に出力する。
GPSユニット23は、GPSアンテナを介してGPS衛星からのGPS電波を受信し、GPS電波に重畳されたGPS信号に基づいて、車両Sの現在位置及び進行方向を算出し、現在位置及び進行方向を示す情報を車載装置制御部20に出力する。
車両情報取得部24は、車両Sの状態を示す情報を取得し、車載装置制御部20に出力する。車両Sの状態とは、例えば、ジャイロセンサーの検出値に基づいて取得可能な車両Sの相対的な方位や、車速パルスに基づいて取得可能な車速等である。
環境情報取得部25は、車両Sの環境に関する情報を取得し、車載装置制御部20に出力する。車両Sの環境は、車両S内でユーザーが発話した場合に、発話に基づく音声のマイクによる集音に影響を与えるような環境のことである。本実施形態では、環境情報取得部25は、車両Sの環境に関する情報として、車両Sが所定の閾値を超えた速度で走行している第1状態、車両Sが所定の閾値を下回る速度で走行している第2状態、車両Sがエンジンを駆動しつつ停車している第3状態、又は、車両Sがエンジンを停止して停車している第4状態のいずれの状態であるかを示す情報を取得し、出力する。車両Sの環境は、例示したものに限らず、車両S内でユーザーが発話した場合に、発話に基づく音声のマイクによる集音に影響を与えるような環境であれば、どのようなものであってもよい。例えば、環境として、天気の状態や、エアコンのオン/オフの状態、車両Sに設けられた窓の開閉の状態、車両Sが走行する路面の状態、オーディオやラジオ、テレビのオン/オフの状態等に係る環境を適用できる。
車載装置記憶部26は、ハードディスクや、EEPROM等の不揮発性メモリーを備え、データを記憶する。車載装置記憶部26は、地図データ26aを記憶する。地図データ26aは、道路に対応するリンクに関する情報、リンクとリンクの接点であるノードに関する情報、地図上に存在する施設に関する情報等の地図に関する情報を含むデータである。
車載装置制御部20は、車載装置記憶部26が記憶する地図データ26aに基づいて、表示装置21aに地図を表示する。また、車載装置制御部20は、地図データ26aに含まれる情報、GPSユニット23から入力された情報、及び、車両情報取得部24から入力された情報に基づいて、地図上に車両Sの位置を表示し、また、地図上に出発地から目的地までの経路を表示する。
車載装置通信部27は、車載装置制御部20の制御に従って、ネットワークNに接続された外部機器(中継サーバー10を含む)との間で、所定の通信規格に従って通信する。
中継サーバー10は、車載装置13をクライアントとするサーバーである。すなわち、中継サーバー10は、クライアントたる車載装置13からの要求に応じて、車載装置13にサービスを提供する。中継サーバー10は、必ずしも、単体のサーバー装置である必要はなく、複数のサーバー装置が連携した構成であってもよく、また、所定のシステムの一部であってもよい。すなわち、中継サーバー10は、以下で説明する機能を有していればよく、その形態はどのようなものであってもよい。
図2に示すように、中継サーバー10は、サーバー制御部40と、音声認識部41と、施設検索部42と、サーバー記憶部43と、サーバー通信部44と、を備える。
サーバー制御部40は、CPUや、ROM、RAM等を備え、中継サーバー10の各部を制御する。例えば、サーバー制御部40は、ROMに記憶された制御プログラムを、CPUにより読み出して実行することにより、中継サーバー10の各部を制御する。サーバー制御部40は、機能ブロックとして、HMI状態管理部40aと、モデル選定部40bと、意図推定部40dと、を備える。これら機能ブロックについては後述する。
音声認識部41は、詳細は後述するが、音声認識サーバー11の機能を利用して、音声データに基づいて、テキストデータを生成する。
施設検索部42は、詳細は後述するが、施設検索サーバー12の機能を利用して、施設の位置を検索する。
サーバー記憶部43は、ハードディスク等の不揮発性メモリーを備え、データを記憶する。サーバー記憶部43は、HMI遷移ルールデータ43aと、4個の第1意図推定モデルMD1〜第4意図推定モデルMD4と、を記憶する。これらデータについては、後述する。以下の説明で、第1意図推定モデルMD1〜第4意図推定モデルMD4を区別せずに表現する場合、「意図推定モデルMD」と表現する。
サーバー通信部44は、サーバー制御部40の制御に従って、ネットワークNに接続された外部機器(車載装置13、音声認識サーバー11、及び、施設検索サーバー12を含む)との間で、所定の通信規格に従って通信する。
なお、図2は、本願発明を理解容易にするために、意図推定システム1の各装置の機能構成を主な処理内容に応じて分類して示した概略図であり、各装置の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。
また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、各構成要素の処理は、1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
また、各構成要素の処理は、1つのプログラムで実現されてもよいし。複数のプログラムで実現されてもよい。
また、中継サーバー10のサーバー制御部40が備える各機能ブロックは、例えば、サーバー記憶部43に記憶されている所定のプログラムをRAM等にロードして、サーバー制御部40が備えるCPUで実行することで実現可能である。
以上のような構成の下、意図推定システム1は、各装置が協働して、車両Sに搭乗するユーザーが発話した音声を認識し、認識結果に基づいてユーザーの意図を推定し、推定したユーザーの意図に応じた処理を実行する。
以下、ユーザーが発話した後の意図推定システム1の各装置の基本的な処理について説明する。
図3は、意図推定システム1の各装置の処理を示すフローチャートであり、(A)は車載装置13の処理を示し、(B)は中継サーバー10の処理を示し、(C)は音声認識サーバー11の処理を示し、(D)は施設検索サーバー12の処理を示す。
図3(A)に示すように、車載装置13の車載装置制御部20は、音声処理部22から音声データの入力があったか否かを判別する(ステップSA1)。
上述したように、ユーザーが発話した場合、マイク22bにより発話に基づく音声が集音される。そして、音声処理部22は、集音された音声に基づいて音声データを生成し、生成した音声データを車載装置制御部20に出力する。
音声処理部22から音声データの入力があった場合(ステップSA1:YES)、車載装置制御部20は、環境情報取得部25からの入力に状態に基づいて、車両Sが、第1状態〜第4状態のいずれの状態であるかを示す情報(以下、「車両環境情報」という。)を取得する(ステップSA2)。
次いで、車載装置制御部20は、表示装置21aを介してユーザーに提供されているユーザーインターフェースの状態を示す情報(以下、「UI状態情報」という。)を取得する(ステップSA3)。車載装置制御部20は、経路案内を伴わず地図を表示する自車両表示画面を伴うユーザーインターフェースや、経路を明示した地図を表示する経路案内画面を伴うユーザーインターフェース、各種設定を行うための設定画面を伴うユーザーインターフェース等の各種ユーザーインターフェースを提供可能である。そして、ステップSA3において、車載装置制御部20は、ユーザーインターフェースの状態を示す情報として、現時点で提供されているユーザーインターフェースが何であるかを示す情報や、ユーザーインターフェースに対して行われたユーザーの入力を示す情報等を取得する。
次いで、車載装置制御部20は、車載装置通信部27を制御して、音声データ、車両環境情報、及び、UI状態情報を、中継サーバー10に送信する。なお、車載装置制御部20は、中継サーバー10のアドレス等、中継サーバー10と通信をするために必要な情報を管理しており、中継サーバー10にデータを送信する場合、中継サーバー10との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して中継サーバー10にデータを送信する。
図3(B)に示すように、中継サーバー10のサーバー制御部40は、サーバー通信部44を制御して、車載装置13が送信した音声データ、車両環境情報、及び、UI状態情報を受信し、取得する(ステップSB1)。
次いで、サーバー制御部40は、音声データを音声認識部41に出力する(ステップSB2)。
音声認識部41は、入力された音声データに基づいて、当該音声データを含み、当該音声データに係る音声をテキスト化することを要求するテキスト化要求データを生成し、サーバー通信部44を制御して、当該テキスト化要求データを、音声認識サーバー11に送信する(ステップSB3)。なお、音声認識部41は、音声認識サーバー11のアドレス等、音声認識サーバー11と通信をするために必要な情報を管理しており、音声認識サーバー11にデータを送信する場合、音声認識サーバー11との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して音声認識サーバー11にデータを送信する。
図3(C)に示すように、音声認識サーバー11は、中継サーバー10が送信したテキスト化要求データを受信する(ステップSC1)。
次いで、音声認識サーバー11は、テキスト化要求データに含まれる音声データに基づいて、音声データに係る音声をテキスト化し、音声を示すテキストが記述されたテキストデータ(以下、「音声テキストデータ」という。)を生成する(ステップSC2)。音声データに係る音声のテキスト化は、既存の全ての技術を利用可能であり、どのような方法で行われてもよい。
次いで、音声認識サーバー11は、生成した音声テキストデータを中継サーバー10に送信する(ステップSC3)。
なお、本実施形態では、音声データから音声テキストデータへの変換を、中継サーバー10の音声認識部41と音声認識サーバー11とが協働して実行する構成である。しかしながら、音声認識部41に当該変換を実行する機能を設け、音声認識部41が、単独で、当該変換を実行する構成であってもよい。
図3(B)に示すように、中継サーバー10の音声認識部41は、サーバー通信部44を制御して、音声認識サーバー11が送信した音声テキストデータを受信し、取得する(ステップSB4)。
次いで、音声認識部41は、取得した音声テキストデータを、サーバー制御部40に出力する(ステップSB5)。
サーバー制御部40のモデル選定部40bは、車載装置13から受信した車両環境情報、及び、音声認識部41から入力された音声テキストデータに基づいて、第1意図推定モデルMD1〜第4意図推定モデルMD4から、後述するステップSB7で行われる意図推定処理で利用する1の意図推定モデルMDを選定する処理(モデル選定処理)を実行する(ステップSB6)。
詳述すると、後述するように、第1意図推定モデルMD1は、第1状態で発話された音声に係る音声テキストデータに基づいて、ユーザーの意図を推定する場合に利用するモデルとして、最適化されている。第2意図推定モデルMD2〜第4意図推定モデルMD4と、第2状態〜第4状態との関係についても同様である。
そして、ステップSB6のモデル選定処理において、モデル選定部40bは、車両環境情報に基づいて、車両Sが、第1状態〜第4状態のうち、いずれの状態であるかを検出する。次いで、モデル選定部40bは、第1意図推定モデルMD1〜第4意図推定モデルMD4の中から、車両Sの状態に対応する1の意図推定モデルMDを選定する。
なお、本実施形態では、車載装置13から、車両Sの環境を示す情報が中継サーバー10に送信され、中継サーバー10のサーバー制御部40は、当該情報に基づいて、車両Sの環境を取得する構成である。しかしながら、車両Sの環境を取得する方法は、例示したものに限らない。例えば、車両Sの環境が、「車両Sにおける雑音(ノイズ)の状態」であるとする。この場合、雑音の状態に対応して、意図推定モデルMDが複数設けられる。そして、この場合において、サーバー制御部40は、音声データのSN比等を分析して、雑音の状態(車両Sの環境)を取得してもよい。
次いで、サーバー制御部40の意図推定部40cは、ステップSB6のモデル選定処理で選定された意図推定モデルMDを利用して、音声テキストデータに記述されたテキストに対応するユーザーの意図を推定する処理(意図推定処理)を実行する(ステップSB7)。ステップSB7の意図推定処理については後に詳述するが、簡単に説明すると、意図推定処理では、事前に複数種類用意されたユーザーの意図を示すラベルから、発話に対応するユーザーの意図に応じた適切な1のラベルを選定する処理が行われる。また、意図推定処理において、選定されたラベルが示すユーザーの意図が、特定の施設への経路案内を要求するものや、所定の領域に属する施設の検索を要求するもの等、所定の施設の位置の検索を必要とするものである場合、サーバー制御部40は、音声テキストデータに含まれる施設に関する情報を取得する。例えば、サーバー制御部40は、ラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、施設に関する情報として、特定の施設の名称を取得する。また例えば、サーバー制御部40は、ラベルが示すユーザーの意図が、車両Sの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、施設に関する情報として施設の種類を取得する。
次いで、サーバー制御部40は、所定の施設の位置を検索する必要があるか否かを判別する(ステップSB8)。
所定の施設の位置を検索する必要がない場合(ステップSB8:NO)、サーバー制御部40は、処理手順をステップSB13へ移行する。
所定の施設の位置を検索する必要がある場合(ステップSB8:YES)、サーバー制御部40は、施設に関する情報、及び、対応する施設の検索に必要な情報を施設検索部42に出力し、対応する施設の位置の検索を要求する(ステップSB9)。
例えば、意図推定処理で選定されたラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、ステップSB9で、サーバー制御部40は、施設の名称(施設に関する情報)を施設検索部42に出力し、当該名称の施設の位置の検索を要求する。
また例えば、意図推定処理で選定されたラベルが示すユーザーの意図が、車両Sの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、ステップSB9で、サーバー制御部40は、施設の種類(施設に関する情報)、及び、車両Sの現在位置を示す情報(対応する施設の検索に必要な情報)を施設検索部42に出力し、当該種類の施設であって、車両Sの現在位置を中心として所定の距離内に存在する施設の位置の検索を要求する。
なお、車両Sの現在位置について、車載装置13がステップSA4において車両Sの現在位置を示す情報を他の情報と共に中継サーバー10に送信する構成としてもよく、また、サーバー制御部40が車載装置13に必要に応じて問い合わせる構成としてもよい。
施設検索部42は、サーバー制御部40から入力された施設に関する情報、及び、対応する施設の検索に必要な情報を含み、対応する施設の位置の検索することを要求する施設検索要求データを生成し、サーバー通信部44を制御して、当該施設検索要求データを、施設検索サーバー12に送信する(ステップSB10)。なお、施設検索部42は、施設検索サーバー12のアドレス等、施設検索サーバー12と通信をするために必要な情報を管理しており、施設検索サーバー12にデータを送信する場合、施設検索サーバー12との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して施設検索サーバー12にデータを送信する。
図3(D)に示すように、施設検索サーバー12は、中継サーバー10が送信した施設検索要求データを受信する(ステップSD1)。
次いで、施設検索サーバー12は、施設検索要求データに含まれる情報に基づいて、対応する施設の位置を取得する(ステップSD2)。
ここで、施設検索サーバー12は、地図上の施設に対応するレコードが設けられたデータベースを備える。当該データベースの1件のレコードには、少なくとも、施設の名称を格納するフィールド、施設の種類を格納するフィールド、施設の位置を示す情報を格納するフィードが含まれる。ステップSD2で、施設検索サーバー12は、受信した施設検索要求データに含まれる情報、及び、当該データベースに基づいて、対応する施設の位置を取得する。
次いで、施設検索サーバー12は、ステップSD2で取得した施設の位置を示す情報を中継サーバー10に送信する(ステップSD3)。
なお、本実施形態では、施設の位置の検索を、中継サーバー10の施設検索部42と施設検索サーバー12とが協働して実行する構成である。しかしながら、施設検索部42に当該検索を実行する機能を設け、音声認識部41が、単独で、当該検索を実行する構成であってもよい。
図3(B)に示すように、中継サーバー10の施設検索部42は、サーバー通信部44を制御して、施設検索サーバー12が送信した施設の位置を示す情報を受信し、取得する(ステップSB11)。
次いで、施設検索部42は取得した施設の位置を示す情報をサーバー制御部40に出力する(ステップSB12)。
ここで、サーバー記憶部43が記憶するHMI遷移ルールデータ43aは、車載装置13の車載装置制御部20が提供可能な各ユーザーインターフェースの遷移のルールを示す情報を含むデータである。
ステップSB13において、サーバー制御部40のHMI状態管理部40aは、意図推定処理により選定されたラベルが示すユーザーの意図、HMI遷移ルールデータ43aの内容、及び、施設検索部42から入力された施設の位置を示す情報に基づいて、対応する所定の処理を実行することを要求する情報(ユーザーインターフェースの遷移が必要な場合は、当該遷移を要求する情報を含む。)、及び、当該処理を実行するために必要な情報を生成する。
例えば、ステップSB13において、ラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、HMI状態管理部40aは、経路案内を実行することを要求する情報(ユーザーインターフェースの遷移が必要な場合は、当該遷移を実行した上で、経路案内を実行することを要求する情報)を生成すると共に、経路案内に必要な情報(特定の施設の位置を示す情報等)を生成する。
また例えば、ステップSB13において、ラベルが示すユーザーの意図が、車両Sの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、HMI状態管理部40aは、地図上に対応する施設の位置を表示することを要求する情報(ユーザーインターフェースの遷移が必要な場合は、当該遷移を実行した上で、当該表示を実行することを要求する情報)を生成すると共に、当該表示に必要な情報(対応する施設の位置を示す情報等)を生成する。
次いで、サーバー制御部40は、サーバー通信部44を制御して、ステップSB13でHMI状態管理部40aが生成した情報を、車載装置13に送信する(ステップSB14)。
図3(A)に示すように、車載装置13の車載装置制御部20は、車載装置通信部27を制御して、中継サーバー10が送信した情報を受信し、取得する(ステップSA5)。
次いで、車載装置制御部20は、取得した情報に基づいて、対応する所定の処理を実行する(ステップSA6)。例えば、ステップSA6において、車載装置制御部20は、取得した情報が、経路案内を実行することを要求する情報を含む場合、経路案内を実行する。
なお、図3のフローチャートの処理単位は、各装置の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本願発明が制限されることはない。各装置の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。また、処理の順番も、図示した例に限られるものではない。
以上説明したように、中継サーバー10のサーバー制御部40の意図推定部40cは、意図推定モデルMDを利用して、ユーザーの意図を推定する。
本実施形態では、意図推定モデルMDを所定の方法で学習させることによって、意図推定モデルMDの精度を向上し、ユーザーの意図の推定の精度を向上している。
以下、意図推定モデルMDの学習方法について説明し、さらに、図3(B)のフローチャートにおけるステップSB7の意図推定処理について詳述する。
以下、まず、意図推定モデルMDの学習方法について説明する。本実施形態では、意図推定モデルMDの生成に係る処理を、中継サーバー10が実行する。意図推定モデルMDの生成に係る処理は、必ずしも、中継サーバー10が実行する必要はなく、中継サーバー10とは異なる専用の装置が行ってもよく、複数の装置が協働して行ってもよい。
まず、意図推定モデルMDの生成にあたって、ユーザーの意図の種類ごとに、ラベルが用意される。
ユーザーの意図とは、ユーザーが車載装置13に実行させようと考える処理のことであり、車載装置13がユーザーの発話による指示に応じて実行可能な処理ごとに存在する。これに応じて、ラベルは、車載装置13がユーザーの発話による指示に応じて実行可能な処理ごとに、用意される。例えば、車載装置13がユーザーの発話による指示に応じて実行可能な処理がm個存在する場合、ラベルは処理ごとに、m個、事前に用意される。
以下、車載装置13がユーザーの発話による指示に応じて実行可能な処理のことを「車載装置処理」という。
図4は、ラベルと、ラベルが示すユーザーの意図との対応関係の一部の一例を示す図である。
図4において、ラベルL1は、ユーザーの意図として、近辺施設検索を示すラベルである。近辺施設検索とは、車両Sの現在位置の近辺に存在する所定の種類の施設を検索し、地図上に表示する処理である。
ラベルL2は、ユーザーの意図として、特定施設検索を示すラベルである。特定施設検索とは、車両Sの現在位置に関係なく、特定の施設を検索し、地図上に表示する処理である。
ラベルL3は、ユーザーの意図として、目的地経路案内を示すラベルである。目的地経路案内とは、所定の目的地までの経路を案内する処理である。
ラベルL4は、ユーザーの意図として、自宅経路案内を示すラベルである。自宅経路案内とは、車両Sを所有するユーザーの自宅までの経路を案内する処理である。自宅の位置は、所定の手段によって事前に登録される。
ラベルL5は、ユーザーの意図として、音量設定を示すラベルである。音量設定とは、スピーカー22aから出力される音声の音量を調整する処理である。
ラベルL6は、ユーザーの意図として、燃費表示を示すラベルである。燃費表示とは、車両Sの燃費を示す情報を表示装置21aに表示する処理である。
図4で例示したユーザーの意図は、あくまで一例である。例えば、ユーザーの意図は、車載装置13がオーディオ装置に接続され、又は、車載装置13がオーディオ装置に対応する機能部を有する場合において、楽曲の再生を示すものであってもよい。また例えば、車載装置13がラジオやテレビに接続され、又は、車載装置13がラジオやテレビに対応する機能部を有する場合において、所定のチャンネルの放送の受信を示すものや、チャンネルの変更を示すものであってもよい。
次に、用意されたラベルごとに、ラベルが示すユーザーの意図を、ユーザーが文章によって表現する場合、どのような文章で表現するかが、インタビューや、アンケート等の手段によって、収集される。
例えば、ユーザーの意図が車両Sの近辺に位置する「道の駅」の検索に係る近辺施設検索である場合、換言すれば、ユーザーが車載装置13に車両Sの近辺に位置する「道の駅」の検索に係る近辺施設検索を実行させようとする場合、ユーザーが、どのような文章で表現するかが収集される。この場合、例えば、「近辺の道の駅」や、「近くにある道の駅を探して」、「近くの道の駅を検索」、「道の駅は近くにあるか」といった文章が収集される。
また例えば、ユーザーの意図が自宅経路案内である場合、換言すれば、ユーザーが車載装置13に自宅経路案内を実行させようとする場合、ユーザーが、どのような文章で表現するかが収集される。この場合、例えば、「自宅へ帰る」や、「自宅へ帰りたい」、「そろそろ拙宅に帰りたい」「自宅へ」といった文章が収集される。
以下、インタビューや、アンケート等の手段によって収集された文章を、「収集文章」という。
次に、中継サーバー10のサーバー制御部40は、収集文章ごとに、第1テキストと、第2テキストを生成する。なお、収集文章は、所定の手段によって、中継サーバー10に入力され、サーバー制御部40が読み書き可能な態様で、サーバー記憶部43に記憶される。
以下、収集文章が「近辺の道の駅」である場合を例にして、第1テキスト、及び、第2テキストについて説明する。
第1テキストは、収集文章を示す正しい文章(テキスト)のことである。従って、本例では、「近辺の道の駅」が、第1テキストに該当する。
第2テキストは、収集文章の一部に誤りを含めた文章のことである。本例の場合、例えば、「近辺の道の駅あ」や、「金生の道の駅」、「勤勉の道の駅」、「金目の道の駅」等である。
第2テキストは、以下の方法で生成される。
第2テキストを生成する第1の方法は、第1テキストを人間が実際に発話し、中継サーバー10のサーバー制御部40が、発話された音声に基づく音声認識を行い、音声認識の結果に基づいてテキストを生成する方法である。この第1の方法によれば、音声認識の認識誤りが反映された第2テキストが生成される。発話に基づく音声認識は、複数回行われてもよく、複数回行われた場合は、異なる態様の誤りを含む第2テキストが複数生成される場合がある。
第1の方法では、特に、以下の方法で第2テキストが生成される。
上述したように、本実施形態では、車両Sの環境として、車両Sが所定の閾値を超えた速度で走行している第1状態、車両Sが所定の閾値を下回る速度で走行している第2状態、車両Sがエンジンを駆動しつつ停車している第3状態、及び、車両Sがエンジンを停止して停車している第4状態の4つの状態を想定している。
そして、第1の方法で第2テキストを生成する場合、第1状態〜第4状態のそれぞれの状態下で第1テキストが発話され、中継サーバー10のサーバー制御部40は、それぞれの状態で発話された音声の音声認識の結果に基づいて、第2テキストを生成する。この結果、中継サーバー10のサーバー制御部40により、第1状態に対応する1又は複数の第2テキスト、第2状態に対応する1又は複数の第2テキスト、第3状態に対応する1又は複数の第2テキスト、及び、第4状態に対応する1又は複数の第2テキストが生成される。
なお、本実施形態は、必ずしも、車両Sの環境を上述の4状態に分けて判別しなくてもよい。たとえば、4状態のうち、音声認識の誤りの特性が互いに似ている状態が存在すれば、それらの複数の状態を1個の状態に統合してもよい。または、音声認識の誤りの特性が、より細分化される場合には、4状態より多い状態に環境を分類してもよい。さらに、上述の状態の分類基準に限らず、音声認識の誤りの特性を分類する別の分類基準に従って、状態を判別してもよい。
第1の方法において、以上のようにして第2テキストを生成する理由は、以下である。すなわち、中継サーバー10のサーバー制御部40によって、第1状態下で発話された音声の音声認識の結果に基づいて第2テキストを生成することにより、第2テキストを、第1状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキストとすることができる。後述するように、第1状態に対応する1又は複数の第2テキストは、第1意図推定モデルMD1の学習に利用されるが、上記方法で第2テキストを生成することにより、第1意図推定モデルMD1について、第1状態下で発話された音声に係るユーザーの意図を推定するためのモデルとしての適格性を向上できる。第2状態に対応する第2テキストは第2意図推定モデルMD2の学習に利用され、第3状態に対応する第3テキストは第3意図推定モデルMD3の学習に利用され、第4状態に対応する第4テキストは第4意図推定モデルMD4の学習に利用されるが、上記のことは、それぞれの意図推定モデルMDについても同様である。
なお、第1状態下で音声を集音する場合に、必ずしも、所定の閾値を上回る速度で走行する車両Sの中で発話を行う必要はなく、所定の閾値を上回る速度で車両Sが走行した場合に想定される雑音、振動等の音声に影響を与える要因を反映した環境で、音声の集音が行われればよい。このことは、第2状態〜第3状態についても同様である。
次に、第2テキストを生成する第2の方法について説明する。
第2の方法では、まず、専用のスタジオ等の、発話された音声に対する影響が極力無い環境下で、第1テキストを人間が実際に発話し、発話された音声の集音が行われる。次いで、中継サーバー10のサーバー制御部40は、所定の手段によって、集音された音声に基づいて生成される音声信号に対して、所定の信号処理を施し、当該所定の信号処理を施した音声信号に基づく音声認識を行い、音声認識の結果に基づいて第2テキストを生成する。
ここで、中継サーバー10のサーバー制御部40は、音声信号に対して、第1状態を反映した信号処理を施し、信号処理を施した音声信号に基づいて、第1状態に対応する第2テキストを生成する。なお、中継サーバー10のサーバー制御部40は、音声信号に対して、第1状態を反映した信号処理として、異なる複数の信号処理を施し、複数の第1状態に対応する第2テキストを生成してもよい。第1状態を反映した信号処理とは、第1状態下で発話された音声を集音した場合に、集音される音声に与える影響を反映した信号処理である。このような方法で、第1状態に対応する第2テキストを生成することにより、第1状態に対応する第2テキストを、第1状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキストとすることができる。
同様に、中継サーバー10のサーバー制御部40は、音声信号に対して、第2状態を反映した信号処理を施し、第2状態に対応する1又は複数の第2テキストを生成する。また、中継サーバー10のサーバー制御部40は、音声信号に対して、第3状態を反映した信号処理を施し、第3状態に対応する1又は複数の第2テキストを生成する。また、中継サーバー10のサーバー制御部40は、音声信号に対して、第4状態を反映した信号処理を施し、第4状態に対応する1又は複数の第2テキストを生成する。
なお、信号処理について、車室空間特性の畳み込みを反映したり、音声を集音するマイクの特性の畳み込みを反映したりしてもよい。
次に、第2テキストを生成する第3の方法について説明する。
第3の方法では、中継サーバー10のサーバー制御部40は、第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて、第2テキストを生成する。
以下、第3の方法について、第1テキストが、「自宅へ帰る」である場合を例にして説明する。
第3の方法では、中継サーバー10のサーバー制御部40は、まず、第1テキストを単語列に分解する。本例では、「自宅へ帰る」について、「自宅/へ/帰る」というように、単語列に分解される。次いで、中継サーバー10のサーバー制御部40は、分解された単語のうち、いずれかの単語(複数であってもよい。)について、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を行って第2テキストを生成する。
<単語の同音異義語への変換>
単語の同音異義語への変換とは、第1テキストを構成する単語のうちのいずれかの単語について、同音異義語の他の単語に変換することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「帰る」が同音異義語の「買える」へと変換され、「自宅/へ/買える」という第2テキストが生成される。
<単語の脱落>
単語の脱落とは、第1テキストを構成する単語のうちのいずれかの単語について、単語を削除することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「へ」が削除され、「自宅/帰る」という第2テキストが生成される。
<単語の沸き出し>
単語の沸き出しとは、第1テキストに存在しない単語を挿入することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「あ」が末尾に挿入され、「自宅/へ/帰る/あ」という第2テキストが生成される。
<単語の置換>
単語の置換とは、第1テキストを構成する単語のうちのいずれかの単語について、別の異なる単語へと変換することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「自宅」が、「北区」へと置換され、「北区/へ/帰る」という第2テキストが生成される。
なお、単語の同音異義語への変換、単語の脱落、単語の沸き出し、及び、単語の置換(以下、これらを総称して「テキスト修正」という。)について、中継サーバー10のサーバー制御部40により、1つの第1テキストに対して異なる複数の種類のテキスト修正を行って第2テキストを生成してもよく、また、1つの第1テキストに対して同一のテキスト修正を複数回行って第2テキストを生成してもよい。
ここで、本実施形態では、中継サーバー10のサーバー制御部40は、第3の方法によって第2テキストを生成する際に、第1状態〜第4状態のそれぞれに対応するテキスト修正を行うことによって、第1状態に対応する1又は複数の第2テキスト、第2状態に対応する1又は複数の第2テキスト、第3状態に対応する1又は複数の第2テキスト、及び、第4状態に対応する1又は複数の第2テキストを生成する。
第1状態に対応する第2テキストを生成する場合、中継サーバー10のサーバー制御部40は、第1状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキスト修正を行う。第1状態に係る誤り傾向は、例えば、第1状態で実際に発話された音声の音声認識結果を分析することによって算出される。
第1状態に係る音声認識の誤り傾向として、末尾に、単語「あ」の挿入(単語の沸き出し)が発生する傾向がある場合、第1状態に対応する第2テキストの生成に際して行われるテキスト修正は、当該傾向を反映したものとされる。このことは、第2状態〜第4状態に対応する第2テキストについても同様である。
中継サーバー10のサーバー制御部40は、第1〜第3の方法によって、第2テキストを生成した後、収集文章ごとに、対応する意図推定モデルMDの学習に使用する第2テキストの選別を行う。
なお、第2テキストは、第1状態〜第4状態に対応するものがそれぞれ生成される。これを踏まえ、第2テキストの選別は、それぞれの状態に対応するものごとに行われる。すなわち、サーバー制御部40は、第1状態〜第4状態のそれぞれの状態について、収集文章ごとに、第2テキストの選別を実行する。
以下、第1テキストが「近辺の道の駅」であり、第1〜第3の方法のいずれかによって生成された第2テキストが「近辺の道の駅あ」、「簡便の道の駅」、及び、「コロ助の道の駅」である場合を例にして、中継サーバー10のサーバー制御部40により行われる第2テキストの選別に係る処理を説明する。
まず、サーバー制御部40は、第1テキスト「近辺の道の駅」について、発音記号列に変換する。具体的には、サーバー制御部40は、第1テキスト「近辺の道の駅」を、「kiNpeNnomichinoeki」(ただし、「N」は、「ん」に対応する発音記号。以下も同様。)と変換する。
次いで、サーバー制御部40は、第2テキストのそれぞれについて、発音記号列に変換する。具体的には、サーバー制御部40は、第2テキスト「近辺の道の駅あ」を、「kiNpeNnomichinoekia」と変換する。サーバー制御部40は、第2テキスト「簡便の道の駅」を、「kaNbeNnomichinoeki」と変換する。サーバー制御部40は、第2テキスト「コロ助の道の駅」を、「korosukenomichinoeki」と変換する。
次いで、サーバー制御部40は、第1テキストに係る発音記号列と、第2テキストに係る発音記号列のそれぞれとの比較に基づいて、第1テキストと、第2テキストのそれぞれとの編集距離を算出する。
編集距離とは、2つの発音記号列(文字列)の距離を算出する手法の1つである。一方の発音記号列を構成する「音素」に対して最小の削除、挿入、置換を行って、他方の発音記号列と同一の発音記号列とする場合に、行われる削除、挿入、置換の回数が、編集距離である。なお、編集距離の算出に関し、発音記号列を構成するアルファベットのそれぞれが「音素」に該当し、例えば、「kiNno」という発音記号列については、「k」「i」「N」「n」、及び、「o」のそれぞれが「音素」である。
例えば、第1テキスト「近辺の道の駅」に基づく発音記号列「kiNpeNnomichinoeki」と、第2テキスト「近辺の道の駅あ」に基づく発音記号列「kiNpeNnomichinoekia」との比較に基づく編集距離の算出は、以下のようにして行われる。すなわち、第1テキストに係る発音記号列の末尾に音素「a」を挿入することにより、第1テキストに係る発音記号列を、第2テキストに係る発音記号列とすることができる。従って、対応する第1テキストと、第2テキストとの編集距離は、「1」である。
また例えば、第1テキスト「近辺の道の駅」に基づく発音記号列「kiNpeNnomichinoeki」と、第2テキスト「簡便の道の駅」に基づく発音記号列「kaNbeNnomichinoeki」との比較に基づく編集距離の算出は、以下のようにして行われる。すなわち、第1テキスト「近辺の道の駅」に基づく発音記号列「kiNpeNnomichinoeki」について、2番目の音素「i」を音素「a」へと置換し、4番目の音素「p」を音素「b」へと置換することにより、第1テキストに係る発音記号列を、第2テキストに係る発音記号列とすることができる。従って、対応する第1テキストと、第2テキストとの編集距離は、「2」である。
なお、編集距離の算出に際し、認識誤りの発生しやすさを反映した補正を行ってもよい。
詳述すると、音声認識を行う処理部(音声認識エンジン)には、似ている音の音素を誤認識しやすいという特性等の各種特性がある。これを踏まえ、誤認識しやすい音素のペアが編集距離に与える影響等を小さくし、これにより、音声認識エンジンの特性を反映して編集距離を算出する。
例えば、誤認識しやすい音素のペアとして、音素「m」と音素「n」とがあり、また、音素「t」と音素「ch」とがある。これを踏まえ、第1テキストに係る発音記号列と、第2テキストに係る発音記号列との比較時に、音素「m」と音素「n」とを置換する場合、及び、音素「t」と音素「ch」とを変換する場合は、サーバー制御部40は、増加させる編集距離の値を「0.5」とする。
また例えば、誤認識による脱落が起こりやすい音素として、音素「q」(促音)や、音素「t」、音素「g」等がある。これを踏まえ、第1テキストに係る発音記号列と、第2テキストに係る発音記号列との比較時に、これら音素を削除する場合は、サーバー制御部40は、増加させる編集距離の値を「0.5」とする。
また例えば、誤認識による挿入が起こりやすい音素として、音素「p」や、音素「k」、音素「t」等がある。これを踏まえ、第1テキストに係る発音記号列と、第2テキストに係る発音記号列との比較時に、これら音素を挿入する場合は、サーバー制御部40は、増加させる編集距離の値を「0.5」とする。
以上のようにして、第2テキストのそれぞれに対応して編集距離を算出した後、サーバー制御部40は、編集距離のそれぞれを対応する第2テキストに係る発音記号列の音素の数で割った値を算出する。算出された値は、「発音記号列の距離」に相当する。つまり、「発音記号列の距離」は、編集距離に基づいて算出される。
例えば、本例の第1テキストに係る発音記号列と、第2テキスト「近辺の道の駅あ」に基づく発音記号列「kiNpeNnomichinoekia」(音素の数=19)との比較結果に基づいて算出される編集距離は、「1」であり、サーバー制御部40は、編集距離「1」を、音素の数「19」で割り、発音記号列の距離「0.05」(≒1/19)を算出する。
同様にして、サーバー制御部40は、第2テキスト「簡便の道の駅」に関し、編集距離「2」を、対応する発音記号列の音素の数「18」で割り、発音記号列の距離「0.11」(≒2/18)を算出する。
同様にして、サーバー制御部40は、第2テキスト「コロ助の道の駅」に関し、編集距離「7」を、対応する発音記号列の音素の数「20」で割り、発音記号列の距離「0.35」(=7/20)を算出する。
次いで、サーバー制御部40は、算出した発音記号列の距離と、予め定められた閾値とを比較し、対応する発音記号列の距離が閾値以下である第2テキストを、意図推定モデルMDの学習に利用する学習テキストとして選別し、一方、対応する発音記号列の距離が閾値を上回る第2テキストを、意図推定モデルMDの学習に利用する学習テキストから排除する。
本例において、閾値が「0.3」であるとすると、サーバー制御部40は、対応する発音記号列の距離が「0.05」である第2テキスト「近辺の道の駅あ」、及び、対応する発音記号列の距離が「0.11」である第2テキスト「簡便の道の駅」を、意図推定モデルMDの学習に利用する学習テキストとして選別する。一方、サーバー制御部40は、第2テキスト「コロ助の道の駅」を、意図推定モデルMDの学習に利用する学習テキストから排除する。
以上のように、本実施形態では、サーバー制御部40は、第2テキストのうち、対応する第1テキストとの発音記号列の距離が閾値を下回る第2テキストのみ、換言すれば、第1テキストと音声認識の際の誤認識により生成される可能性が十分にあると判定できる第2テキストのみ、意図推定モデルMDの学習に利用する。
このような構成のため、第1テキストに基づく音声と乖離した音声に係る第2テキストが、意図推定モデルMDの学習に利用されることを防止でき、これにより、意図推定モデルMDの精度の劣化を効果的に防止できる。
ユーザーが実際に発話する環境は、第2テキストの作成に使用した音響環境と、厳密には一致しないことがある。そのような場合、第2テキストのうち、第1テキストと大きく発音が異なるテキストは、ユーザーの環境の音声認識では再現しない可能性が出てくる。そのため、そのようなテキストを意図推定モデルMDの学習に使用すると、ユーザーの発話に対する理解の成功率を下げる可能性がある。本実施形態による第2テキストの選定方法制限を使用すれば、このような成功率の低下を抑えることができる。
以下、意図推定モデルMDの学習に利用する学習テキストとして選別された第2テキストを、「学習用第2テキスト」という。
この結果、所定の例外を除き、基本的には、第1状態〜第4状態のそれぞれの状態に対応して、収集文章ごとに、1又は複数の学習用第2テキストが選別される。
次いで、サーバー制御部40は、収集文章ごとに、学習テキストとして利用する第1テキストの数を設定する。学習テキストとして利用する第1テキストの数は、学習用第2テキストとの関係で設定される。
なお、意図推定モデルMDは、後述する方法で学習を行うため、学習テキストして使用する第1テキストの数と、学習用第2テキストの数との関係によって、意図推定の精度が変化する。従って、学習用第2テキストの数との関係で、第1テキストの数を最適化する必要がある。
詳述すると、本実施形態では、サーバー制御部40は、収集文章のそれぞれについて、対応する学習用第2テキストの数よりも「1」多い値の数を、学習テキストとして使用する第1テキストの数とする。
例えば、1の収集文章について、学習用第2テキストの数が、「3」であったとする。この場合、対応する第1テキストの数は、「4」とされる。
本実施形態では、第1テキストの数は、上記の方法で設定されるが、第1テキストの数の設定の方法は、上記の方法に限らない。すなわち、学習テキストに使用する第1テキストの数は、学習させる意図推定モデルMDの精度を向上するという観点から、学習用第2テキストの数との関係で適切に設定される。
以下、変数rについて、「変数r=(学習用第2テキストの数)/(第1テキストの数)」として、変数rを最適化する方法について、例を挙げて説明する。
<開発データを利用する方法>
(1)まず、収集文章に基づいて作成した学習テキストとは、別に、開発用テキストを用意する。
(2)次いで、サーバー制御部40は、収集文章ごとの学習テキスト(第1テキスト及び学習用第2テキスト)を利用して、変数rをさまざまに変えて、複数の意図推定モデルMDを生成する。
(3)次いで、サーバー制御部40は、開発用テキストを利用して、意図推定モデルMDのそれぞれについて、意図推定の正解率を算出する。
(4)次いで、サーバー制御部40は、意図推定の正解率が最高となった意図推定モデルMDに適用した変数rの値を設定する。
<クロスバリデーションによる方法>
(1)まず、サーバー制御部40は、複数ある収集文章ごとの学習テキストを2つのグループに分ける。2つのグループをグループA、グループBとする。
(2)次いで、サーバー制御部40は、グループAに属する学習テキストを利用して、変数rをさまざまに変えて、複数の意図推定モデルMD(以下、「グループAモデル」という。)を生成する。
(3)次いで、サーバー制御部40は、グループBに属する学習テキストを利用して、グループAモデルのそれぞれについて、意図推定の正解率を算出する。
(4)次いで、サーバー制御部40は、グループBに属する学習テキストを利用して、変数rをさまざまに変えて、複数の意図推定モデルMD(以下、「グループBモデル」という。)を生成する。
(5)次いで、サーバー制御部40は、グループAに属する学習テキストを利用して、グループBモデルのそれぞれについて、意図推定の正解率を算出する。
(6)次いで、サーバー制御部40は、同じrで求めたグループAに属する学習テキストの正解率とグループBに属する学習テキストの正解率を平均する。さらに、求めた平均値が最大となったときの変数rの値を設定する。
以上のようにして、サーバー制御部40は、第1状態〜第4状態のそれぞれに状態に対応して、収集文章ごとに、学習テキストを生成する。学習テキストは、「1又は複数の第1テキスト」と、「1又は複数の学習用第2テキスト」との組合せにより構成される。なお、収集文章によっては、学習用第2テキストが生成されない場合もあり得る。
以下、第1テキスト、及び、学習用第2テキストのそれぞれを総称して、「学習使用テキスト」と表現する。
次に、意図推定モデルMDの学習について説明する。
なお、上述したように、本実施形態では、サーバー記憶部43に、第1意図推定モデルMD1〜第4意図推定モデルMD4の4つの意図推定モデルMDが記憶される。第1意図推定モデルMD1は、第1状態に対応する意図推定モデルMDである。第1意図推定モデルMD1と、第1状態とが対応するとは、第1意図推定モデルMD1が、第1状態下で発話された音声に基づく音声テキストデータの意図推定に用いられることを意味する。また、第2意図推定モデルMD2は、第2状態に対応する意図推定モデルMDである。また、第3意図推定モデルMD3は、第3状態に対応する意図推定モデルMDである。また、第4意図推定モデルMD4は、第4状態に対応する意図推定モデルMDである。
上述したように、学習テキストは、第1状態〜第4状態のそれぞれに対応して、収集文章ごとに生成される。従って、第1状態に対応して、収集分章ごとに、学習テキスト(「1又は複数の第1テキスト」と、「1又は複数の学習用第2テキスト」との組合せ)が存在する。第2状態〜第3状態についても同様である。
そして、サーバー制御部40は、第1意図推定モデルMD1〜第4意図推定モデルMD4の学習を、それぞれ、第1状態〜第4状態に対応する学習テキストを使用して実行する。例えば、サーバー制御部40は、第1状態に対応する収集文章ごとの学習テキストを使用して、以下の方法で、第1意図推定モデルMD1の学習を実行する。
このような方法で第1意図推定モデルMD1〜第4意図推定モデルMD4のそれぞれの学習を実行するため、第1意図推定モデルMD1を、第1状態下で発話された音声に基づく音声テキストデータの意図推定に利用するモデルとして適したものとすることができる。第2意図推定モデルMD2〜第4意図推定モデルMD4についても同様である。
意図推定モデルMDの学習に際し、まず、サーバー制御部40は、学習使用テキストごとに、素性ベクトルと、対応する車載装置処理との組合せを作成する。以下、詳述する。
素性ベクトルについては、後述する。
「車載装置処理」とは、上述したように、車載装置13がユーザーの発話による指示に応じて実行可能な処理のことであり、ラベルは、車載装置処理ごとに存在することになる。
1の学習使用テキストに対応する車載装置処理とは、当該1の学習使用テキストの元となった収集文章が示すユーザーの意図のことである。例えば、車載装置13に処理SR1を実行させることを示す収集文章に基づいて生成された学習使用テキストに対応する車載装置処理は、処理SR1である。
以下の説明では、学習使用テキストは、L(Lは正の整数。)個あるものとし、学習使用テキストのそれぞれを、T1、T2、・・・TL、と表す。
また以下の説明では、車載装置処理はm(mは正の整数。)個あるものとし、車載装置処理のそれぞれを、O1、O2、・・・、Omと表す。
また以下の説明では、ユーザーの意図(=ユーザーが車載装置13に実行させようとする車載装置処理。以下、「ユーザー意図」と表現する。)を変数であるYによって表す。ユーザー意図Yには、車載装置処理O1、O2、・・・、Omのいずれかが格納される。
また以下の説明では、学習使用テキストTLに対応する車載装置処理をYLと表す。すなわち、学習使用テキストT1、T2、・・・TLに対応して、車載装置処理Y1、Y2・・・YLが存在する。
素性ベクトルとは、以下である。
図5は、素性ベクトルの説明に利用する素性一覧SQを示す図である。
中継サーバー10のサーバー記憶部43には、図5に示す素性一覧SQに対応するデータが事前に記憶される。
図5に示すように、素性一覧SQでは、収集文章に基づく第1テキスト、第2テキストの内容や、事前のテスト、シミュレーションに基づいて、ユーザーが発話した音声に基づいて生成される音声テキストデータに記述されるテキストに含まれ得る素性が一覧的に設けられる。なお、素性は、第2テキストの誤りも反映したものとされる。
図5の例では、素性として、「自宅」や、「へ」、「帰る」、「する」、「目的地」等が設けられている。
サーバー制御部40は、素性一覧SQを利用して、学習使用テキストごとに、素性ベクトルを算出する。
なお、本実施形態では、素性には、文の単語の1−gramと2−gramを使用する。以下で説明するとおり、素性ベクトルのそれぞれの要素は、異なるN−gram要素に対応しており、文の中に素性が存在すれば、当該素性に「1」、存在しなければ「0」に設定される。素性の作成方法には、本実施形態の方法に限らず、単語の品詞を使う方法、単語の文法的な要素情報を使う方法など、他の方法を使用してもよい。
以下、図5(A)に示すように、学習使用テキストが「自宅へ帰る」である場合を例にして、素性ベクトル、及び、素性ベクトルの算出方法について説明する。
まず、サーバー制御部40は、「自宅へ帰る」を素性化し、素性を抽出する。本例では、素性として「自宅」「へ」「帰る」「自宅/へ」、及び、「へ/帰る」が抽出される。
次いで、図5(A)に示すように、サーバー制御部40は、素性一覧SQに設けられた素性のうち、抽出された素性に値「1」を付与し、それ以外の素性に値「0」を付与する。次いで、サーバー制御部40は、素性一覧SQに設けられた素性のそれぞれに付与された値に基づいて、ベクトルを算出する。このようにして算出されたベクトルが素性ベクトルである。
また、図5(B)に示すように、学習使用テキストが「帰宅する」である場合を例にして、素性ベクトル、及び、素性ベクトルの算出方法について説明する。
まず、サーバー制御部40は、「帰宅する」を素性化し、素性を抽出する。本例では、素性として「帰宅」「する」、及び、「帰宅/する」が抽出される。
次いで、図5(B)に示すように、サーバー制御部40は、素性一覧SQに設けられた素性のうち、抽出された素性に値「1」を付与し、それ以外の素性に値「0」を付与する。次いで、サーバー制御部40は、素性一覧SQに設けられた素性のそれぞれに付与された値に基づいて、素性ベクトルを算出する。
以下の説明では、学習使用テキストTLに基づいて生成される素性ベクトルをXLと表す。すなわち、学習使用テキストT1、T2、・・・TLに対応して、素性ベクトルX1、X2、・・・XLが存在する。
上述したように、サーバー制御部40は、学習使用テキストごとに、素性ベクトルと、対応する車載装置処理との組合せを生成する。つまり、サーバー制御部40は、学習使用テキストT1、T2、・・・TLごとに、{(素性ベクトルX1、車載装置処理Y1)、(素性ベクトルX2、車載装置処理Y2)、・・・、(素性ベクトルXL、車載装置処理YL)}を生成する。
次いで、サーバー制御部40は、ユーザー意図Y(Y=O1、O2、・・・、Om)と、素性ベクトルの各要素の関連の大きさを示す重みベクトルであるλYについて、車載装置処理O1、O2、・・・、Omに対応させて、重みベクトルλO1、λO2、・・・、λOmを定義し、さらに、重みベクトルλO1、λO2、・・・、λOmを合体させたλを、重みベクトルとして再定義する(式(1)参照)。
なお、意図推定モデルMDの学習は、重みベクトルλO1、λO2、・・・、λOmを求めることを目的の1つとする。
Figure 0006475426
次いで、サーバー制御部40は、評価関数L(λ)を計算する(式(2)参照)。この評価関数は、重みベクトルλを使用したときに、より正しく推定ができている場合に、値が大きくなる関数である。
Figure 0006475426
次いで、サーバー制御部40は、評価関数L(λ)が最大となるようなλを求める。具体的には、L(λ)のλに対する偏微分を求めて、偏微分が正の方向にλの値を変更していく(式(3)、式(4)参照)。
Figure 0006475426
Figure 0006475426
ただし、式(3)において、εは、学習率を示す。式(4)において、mは、素性一覧SQにおける素性の数を示す。
以上説明した方法を利用して、サーバー制御部40は、重みベクトルλO1、λO2、・・・、λOmを求める。この重みベクトルλO1、λO2、・・・、λOmの算出が、意図推定モデルMDの学習に相当する。
次に、図3(B)のフローチャートのステップSB7の意図推定処理について説明する。
意図推定処理において、中継サーバー10のサーバー制御部40の意図推定部40cは、ステップSB6のモデル選定部40bで選定された意図推定モデルMD(以下、単に「意図推定モデルMD」という。)を利用して、事前に複数種類用意されたユーザーの意図を示すラベルから、発話に対応するユーザーの意図に応じた適切な1のラベルを選定する。
詳述すると、意図推定部40cは、音声テキストデータに記述されたテキスト(=ユーザーが発話した音声をテキスト化した文章)の素性ベクトルを算出する。以下、音声テキストデータのテキストの素性ベクトルを、変数であるXによって表す。
次いで、意図推定部40cは、音声テキストデータに記述されたテキストが、ユーザー意図Yである確立P(Y|X)を、以下の式(5)に基づいて算出する。
Figure 0006475426
上述したように、λYは、ユーザー意図Yと、素性ベクトルXの各要素の関連の大きさを示す重みベクトルである。
また、Zは、全ての車載装置処理で合計すると「1」になるようにする正規化係数である(式(6)参照)。
Figure 0006475426
上述したように、O1、O2、・・・、Omは、車載処理装置のそれぞれを示す。
サーバー制御部40は、式(5)において、P(Y|X)の値が最大となったユーザー意図Y(車載処理装置O1、O2、・・・、Omのいずれか)を、ユーザーの意図であると推定する。例えば、「ユーザー意図Y=車載処理装置O1」のときに、P(Y|X)の値が最大となる場合、サーバー制御部40は、車載処理装置O1を、ユーザーの意図と推定する。
上述したように、ラベルは、車載処理装置O1、O2、・・・、Omごとに用意されている。サーバー制御部40は、ラベルの中から、推定したユーザーの意図(車載処理装置)に対応する1のラベルを選定する。
さらに、意図推定処理において、意図推定部40cは、選定されたラベルが示すユーザーの意図が、特定の施設への経路案内を要求するものや、所定の領域に属する施設の検索を要求するもの等、所定の施設の位置の検索を必要とするものである場合、所定の手段により、音声テキストデータに記述されたテキストから、施設に関する情報を示す文字列を取得する。施設に関する情報とは、例えば、施設の名称や、施設の種類である。上述したように、施設に関する情報は、施設検索部42に出力され、施設検索部42と、施設検索サーバー12との協働により、対応する施設の位置を示す情報に変換される。
以上説明したように、本実施形態に係る中継サーバー10(意図推定装置)は、ユーザーが発話した音声に基づくテキストと、テキストに基づいて出力するラベルとの関係をモデリングしたモデル(意図推定モデルMD)を備える。そして、中継サーバー10による意図推定モデルMDの学習に使用される学習テキストは、誤りのないテキストである第1テキスト、及び、一部に誤りを有するテキストである第2テキストを含む。
この構成によれば、意図推定モデルMDの学習について、音声認識の誤りを反映した学習を実行でき、従って、音声認識の結果から生成されるテキストに基づいてユーザーの意図を推定する際に使用する意図推定モデルMDの精度を向上でき、これに伴って、意図推定の精度を向上できる。
また、本実施形態では、第2テキストを、第1テキストを発話した音声を、音声認識して得られたテキストとすることができる。
この構成によれば、第2テキストを、音声認識に際して実際に発生した誤りを反映したテキストとすることができ、これに伴って、第2テキストを利用して学習が行われる意図推定モデルMDを、実際に発生し得る音声認識の誤りを反映したモデルとすることができる。
また、本実施形態では、第2テキストを、第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストとすることができる。
この構成によれば、実際に音声認識に係る処理、作業を行うことなく、第1テキストに基づいて第2テキストを生成することができる。
また、本実施形態では、第2テキストを、第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成する場合において、音声認識の誤り傾向を反映したテキスト修正を行って、第2テキストを作成することができる。
この構成によれば、第1テキストに基づいて生成する第2テキストについて、音声認識の誤り傾向を反映したテキストとすることができる。
また、本実施形態では、学習テキストとして使用する第2テキストは、第1テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストである。
この構成によれば、第1テキストに基づく音声と乖離した音声に係る第2テキストが、意図推定モデルMDの学習に利用されることを防止でき、これにより、意図推定モデルMDの精度の劣化を効果的に防止できる。
また、本実施形態では、発音記号列の距離は、編集距離に基づいて算出される。
この構成によれば、編集距離を利用して、発音記号列の距離を適切に算出できる。
また、本実施形態では、編集距離は、認識誤りの発生しやすさを反映した補正を行って算出される。
この構成によれば、編集距離に基づく発音記号列の距離の算出の際し、編集距離を認識誤りの発生しやすさを反映した補正を行って算出するため、発音記号列の距離を、認識誤りの発生しやすさを反映した適切な値とすることができる。
また、本実施形態では、学習テキストにおける第1テキストの数と、第2テキスト(学習用第2テキスト)の数との関係を、所定の関係とする。
この構成によれば、学習テキストにおいて、第1テキストに対する第2テキストの割合が、意図推定モデルMDの精度の劣化を生じさせるほどに大きくなること等を防止でき、意図推定モデルMDの精度の劣化を効果的に防止できる。
また、本実施形態では、中継サーバー10は、第1意図推定モデルMD1〜第4意図推定モデルMD4の複数の意図推定モデルMDを備える。中継サーバー10は、音声データ(音声情報)、又は、環境情報(車両環境情報)に基づいて、意図推定に使用する意図推定モデルMDを選定するモデル選定部40bを備える。
この構成によれば、中継サーバー10は、車両Sの環境に対応した意図推定モデルMDを使用して、ユーザーの意図を推定することができる。
なお、上述した実施の形態は、あくまでも本発明の一態様を示すものであり、本発明の範囲内で任意に変形および応用が可能である。
例えば、上述した実施形態では、モデルの学習方法について、使用する数式を明示しつつ、具体例を示して説明したが、当該学習方法は、例示された方法に限定されるものではない。
10 中継サーバー10(意図推定装置)
13 車載装置
40b モデル選定部
MD 意図推定モデル(モデル)

Claims (15)

  1. 複数の指示のいずれかをユーザーが意図して発話した音声の音声データを音声認識によってテキスト化した音声テキストデータに基づいて、当該ユーザーの意図を推定する制御部を有した意図推定装置であって、
    前記ユーザーの意図を前記音声テキストデータに基づいて推定するための意図推定モデルを記憶している記憶部を備え、
    前記意図推定モデルは、前記記憶部に記憶している第1テキスト及び第2テキストを利用して学習されるものであり、
    前記第1テキストとは、
    前記意図を示す予め用意されたテキストであり、
    前記第2テキストとは、
    発話された前記第1テキストの音声を音声認識した場合に生じ得る誤りを含む、前記第1テキストとは一部が異なるテキストであり、
    前記第1テキストの数と前記第2テキストの数とは所定の関係で設定されており、
    前記制御部は、
    前記音声テキストデータから前記意図推定モデルに基づいて前記ユーザーの意図を推定し出力する
    ことを特徴とする意図推定装置。
  2. 前記第1テキストは、
    前記指示を意図して発話された文章を収集して得られたテキストである
    ことを特徴とする請求項1に記載の意図推定装置。
  3. 前記第2テキストは、
    前記第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストであることを特徴とする請求項1に記載の意図推定装置。
  4. 前記第2テキストは、音声認識によって生じ得る違いの傾向を反映して作成されることを特徴とする請求項3に記載の意図推定装置。
  5. 前記第2テキストは、
    前記第1テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストであることを特徴とする請求項1から4のいずれか1項に記載の意図推定装置。
  6. 前記発音記号列の距離は、編集した回数である編集距離に基づいて算出されることを特徴とする請求項5に記載の意図推定装置。
  7. 前記編集距離は、音声認識誤りの発生しやすさを反映した補正を行って算出されることを特徴とする請求項6に記載の意図推定装置。
  8. 音声に与える影響が異なる環境ごとに設けられ、対応する前記環境に合わせて生成された前記第2テキストを用いて予め学習された複数の前記意図推定モデルと、
    前記ユーザーが発話した環境の環境情報に基づいて、複数の前記意図推定モデルから、意図推定に使用する前記意図推定モデルを選定するモデル選定部と、
    を備えることを特徴とする請求項1からのいずれか1項に記載の意図推定装置。
  9. 複数の指示のいずれかをユーザーが意図して発話した音声の音声データを音声認識によってテキスト化した音声テキストデータに基づいて、当該ユーザー意図した指示を推定するために用いられるモデルの学習方法において、
    コンピュータが、
    前記モデルを第1テキスト及び第2テキストを利用して学習し、
    前記第1テキストとは、
    前記意図を示す予め用意されたテキストであり、
    前記第2テキストとは、
    発話された前記第1テキストの音声を音声認識した場合に生じ得る誤りを含む、前記第1テキストとは一部が異なるテキストであり、
    前記第1テキストの数と前記第2テキストの数とは所定の関係で設定されている、
    ことを特徴とするモデルの学習方法。
  10. 前記第1テキストは、
    前記指示を意図して発話された文章を予め収集して得られたテキストである
    ことを特徴とする請求項に記載のモデルの学習方法。
  11. 前記第2テキストは、
    前記第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストであることを特徴とする請求項に記載のモデルの学習方法。
  12. 前記第2テキストは、音声認識によって生じ得る違いの傾向を反映して作成されることを特徴とする請求項11に記載のモデルの学習方法。
  13. 前記第2テキストは、
    前記第1テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストであることを特徴とする請求項から12のいずれか1項に記載のモデルの学習方法。
  14. 前記発音記号列の距離は、編集距離に基づいて算出されることを特徴とする請求項13に記載のモデルの学習方法。
  15. 前記編集距離は、音声認識誤りの発生しやすさを反映した補正を行って算出されることを特徴とする請求項14に記載のモデルの学習方法。
JP2014116506A 2014-06-05 2014-06-05 意図推定装置、及び、モデルの学習方法 Active JP6475426B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014116506A JP6475426B2 (ja) 2014-06-05 2014-06-05 意図推定装置、及び、モデルの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014116506A JP6475426B2 (ja) 2014-06-05 2014-06-05 意図推定装置、及び、モデルの学習方法

Publications (2)

Publication Number Publication Date
JP2015230384A JP2015230384A (ja) 2015-12-21
JP6475426B2 true JP6475426B2 (ja) 2019-02-27

Family

ID=54887176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014116506A Active JP6475426B2 (ja) 2014-06-05 2014-06-05 意図推定装置、及び、モデルの学習方法

Country Status (1)

Country Link
JP (1) JP6475426B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102447513B1 (ko) 2016-01-22 2022-09-27 한국전자통신연구원 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
JP6696803B2 (ja) * 2016-03-15 2020-05-20 本田技研工業株式会社 音声処理装置および音声処理方法
KR20180052347A (ko) 2016-11-10 2018-05-18 삼성전자주식회사 음성 인식 장치 및 방법
CN108268442A (zh) * 2017-12-19 2018-07-10 芋头科技(杭州)有限公司 一种语句意图预测方法及系统
JP7190283B2 (ja) * 2018-08-24 2022-12-15 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP7211103B2 (ja) * 2019-01-24 2023-01-24 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
KR20210042707A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 음성 처리 방법 및 장치
WO2023073887A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123470A (ja) * 1994-10-25 1996-05-17 Nippon Hoso Kyokai <Nhk> 音声認識装置
JP2003242147A (ja) * 2002-02-18 2003-08-29 Seiko Epson Corp ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置
JP5263875B2 (ja) * 2008-09-16 2013-08-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5637888B2 (ja) * 2011-02-09 2014-12-10 三菱電機株式会社 同一意図テキスト生成装置、意図推定装置および同一意図テキスト生成方法
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system

Also Published As

Publication number Publication date
JP2015230384A (ja) 2015-12-21

Similar Documents

Publication Publication Date Title
JP6475426B2 (ja) 意図推定装置、及び、モデルの学習方法
KR102117574B1 (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
EP3218901B1 (en) Prediction-based sequence recognition
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
KR102414456B1 (ko) 대화 시스템, 이를 포함하는 차량 및 유고 정보 처리 방법
US8275615B2 (en) Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP5916054B2 (ja) 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
CN104123936A (zh) 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN106537492B (zh) 具有用于语音识别的校正策略的机动车操作装置
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
US20200027459A1 (en) Artificial intelligence apparatus and method for recognizing speech of user
CN103810995A (zh) 用于语音系统的调节方法和系统
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP6597527B2 (ja) 音声認識装置および音声認識方法
US20200219487A1 (en) Information processing apparatus and information processing method
JPWO2012105231A1 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
JPWO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
KR20200098079A (ko) 대화 시스템 및 대화 처리 방법
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
CN112420020A (zh) 信息处理装置及信息处理方法
US20210049324A1 (en) Apparatus, method, and program for utilizing language model
KR101840363B1 (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190201

R150 Certificate of patent or registration of utility model

Ref document number: 6475426

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150