JP2015230384A - 意図推定装置、及び、モデルの学習方法 - Google Patents
意図推定装置、及び、モデルの学習方法 Download PDFInfo
- Publication number
- JP2015230384A JP2015230384A JP2014116506A JP2014116506A JP2015230384A JP 2015230384 A JP2015230384 A JP 2015230384A JP 2014116506 A JP2014116506 A JP 2014116506A JP 2014116506 A JP2014116506 A JP 2014116506A JP 2015230384 A JP2015230384 A JP 2015230384A
- Authority
- JP
- Japan
- Prior art keywords
- text
- intention estimation
- learning
- intention
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】中継サーバー10は、ユーザーが発話した音声に基づくテキストと、テキストに基づいて出力するラベルとの関係をモデリングしたモデルを備えており、中継サーバー10による意図推定モデルMDの学習に使用される学習テキストは、誤りのないテキストである第1テキスト、及び、一部に誤りを有するテキストである第2テキストを含む。
【選択図】図2
Description
一般に、意図推定装置は、テキストと、ユーザーの意図の種類を示すラベルとの関係をモデリングしたモデルを備え、モデルを利用して、ユーザー意図の推定を実行する。
本発明は、上述した事情に鑑みてなされたものであり、意図推定装置、及び、モデルの生成方法について、意図の推定に利用するモデルの精度を向上することを目的とする。
図1は、本実施形態に係る意図推定システム1の構成を示す図である。
図1に示すように、意図推定システム1は、中継サーバー10(意図推定装置)を備える。中継サーバー10は、後述するように、ユーザーが発話した音声に基づいて生成されたテキストを解析し、ユーザーの意図を推定する機能を有するサーバーである。
中継サーバー10には、インターネットや、電話網等を含んで構成されたネットワークNを介して、音声認識サーバー11、及び、施設検索サーバー12が通信可能に接続される。音声認識サーバー11は、後述するように、ユーザーが発話した音声に基づいて生成された音声データに基づいて、テキストを生成する機能を有するサーバーである。施設検索サーバー12は、施設の名称等の施設に関する情報に基づいて、施設の位置を検索する機能を有するサーバーである。
また、中継サーバー10には、ネットワークNを介して、車両Sに搭載された車載装置13が通信可能に接続される。
車載装置13は、車両Sに搭載された装置であり、少なくとも、地図を表示すると共に、地図における車両Sの位置を表示する自車両表示機能、及び、地図上で出発地から目的地までの経路を案内する経路案内機能を有する。
図2に示すように、車載装置13は、車載装置制御部20と、タッチパネル21と、音声処理部22と、GPSユニット23と、車両情報取得部24と、環境情報取得部25と、車載装置記憶部26と、車載装置通信部27と、を備える。
車載装置制御部20は、CPUや、ROM、RAM等を備え、車載装置13の各部を制御する。例えば、車載装置制御部20は、ROMに記憶された制御プログラムを、CPUにより読み出して実行することにより、車載装置13の各部を制御する。
タッチパネル21は、表示装置21aと、位置入力装置21bと、を備える。
表示装置21aは、液晶表示パネルや、有機ELパネル等の表示パネルを備え、車載装置制御部20の制御で、表示パネルに画像を表示する。
位置入力装置21bは、表示パネルに重ねて配置されたタッチセンサーを備え、ユーザーによるタッチ操作を検出し、タッチ操作された位置を示すタッチ位置情報を、車載装置制御部20に出力する。
音声処理部22は、スピーカー22aと接続され、車載装置制御部20から入力された音声信号をデジタル/アナログ変換して、スピーカー22aに出力し、スピーカー22aにより音声信号に基づく音声を放音する。
また、音声処理部22は、マイク22bと接続され、マイク22bによって収音された音声に基づく信号をアナログ/デジタル変換し、音声データとして車載装置制御部20に出力する。
車両情報取得部24は、車両Sの状態を示す情報を取得し、車載装置制御部20に出力する。車両Sの状態とは、例えば、ジャイロセンサーの検出値に基づいて取得可能な車両Sの相対的な方位や、車速パルスに基づいて取得可能な車速等である。
環境情報取得部25は、車両Sの環境に関する情報を取得し、車載装置制御部20に出力する。車両Sの環境は、車両S内でユーザーが発話した場合に、発話に基づく音声のマイクによる集音に影響を与えるような環境のことである。本実施形態では、環境情報取得部25は、車両Sの環境に関する情報として、車両Sが所定の閾値を超えた速度で走行している第1状態、車両Sが所定の閾値を下回る速度で走行している第2状態、車両Sがエンジンを駆動しつつ停車している第3状態、又は、車両Sがエンジンを停止して停車している第4状態のいずれの状態であるかを示す情報を取得し、出力する。車両Sの環境は、例示したものに限らず、車両S内でユーザーが発話した場合に、発話に基づく音声のマイクによる集音に影響を与えるような環境であれば、どのようなものであってもよい。例えば、環境として、天気の状態や、エアコンのオン/オフの状態、車両Sに設けられた窓の開閉の状態、車両Sが走行する路面の状態、オーディオやラジオ、テレビのオン/オフの状態等に係る環境を適用できる。
車載装置制御部20は、車載装置記憶部26が記憶する地図データ26aに基づいて、表示装置21aに地図を表示する。また、車載装置制御部20は、地図データ26aに含まれる情報、GPSユニット23から入力された情報、及び、車両情報取得部24から入力された情報に基づいて、地図上に車両Sの位置を表示し、また、地図上に出発地から目的地までの経路を表示する。
車載装置通信部27は、車載装置制御部20の制御に従って、ネットワークNに接続された外部機器(中継サーバー10を含む)との間で、所定の通信規格に従って通信する。
図2に示すように、中継サーバー10は、サーバー制御部40と、音声認識部41と、施設検索部42と、サーバー記憶部43と、サーバー通信部44と、を備える。
サーバー制御部40は、CPUや、ROM、RAM等を備え、中継サーバー10の各部を制御する。例えば、サーバー制御部40は、ROMに記憶された制御プログラムを、CPUにより読み出して実行することにより、中継サーバー10の各部を制御する。サーバー制御部40は、機能ブロックとして、HMI状態管理部40aと、モデル選定部40bと、意図推定部40dと、を備える。これら機能ブロックについては後述する。
音声認識部41は、詳細は後述するが、音声認識サーバー11の機能を利用して、音声データに基づいて、テキストデータを生成する。
施設検索部42は、詳細は後述するが、施設検索サーバー12の機能を利用して、施設の位置を検索する。
サーバー通信部44は、サーバー制御部40の制御に従って、ネットワークNに接続された外部機器(車載装置13、音声認識サーバー11、及び、施設検索サーバー12を含む)との間で、所定の通信規格に従って通信する。
また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、各構成要素の処理は、1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
また、各構成要素の処理は、1つのプログラムで実現されてもよいし。複数のプログラムで実現されてもよい。
また、中継サーバー10のサーバー制御部40が備える各機能ブロックは、例えば、サーバー記憶部43に記憶されている所定のプログラムをRAM等にロードして、サーバー制御部40が備えるCPUで実行することで実現可能である。
以下、ユーザーが発話した後の意図推定システム1の各装置の基本的な処理について説明する。
図3は、意図推定システム1の各装置の処理を示すフローチャートであり、(A)は車載装置13の処理を示し、(B)は中継サーバー10の処理を示し、(C)は音声認識サーバー11の処理を示し、(D)は施設検索サーバー12の処理を示す。
上述したように、ユーザーが発話した場合、マイク22bにより発話に基づく音声が集音される。そして、音声処理部22は、集音された音声に基づいて音声データを生成し、生成した音声データを車載装置制御部20に出力する。
音声処理部22から音声データの入力があった場合(ステップSA1:YES)、車載装置制御部20は、環境情報取得部25からの入力に状態に基づいて、車両Sが、第1状態〜第4状態のいずれの状態であるかを示す情報(以下、「車両環境情報」という。)を取得する(ステップSA2)。
次いで、車載装置制御部20は、車載装置通信部27を制御して、音声データ、車両環境情報、及び、UI状態情報を、中継サーバー10に送信する。なお、車載装置制御部20は、中継サーバー10のアドレス等、中継サーバー10と通信をするために必要な情報を管理しており、中継サーバー10にデータを送信する場合、中継サーバー10との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して中継サーバー10にデータを送信する。
次いで、サーバー制御部40は、音声データを音声認識部41に出力する(ステップSB2)。
音声認識部41は、入力された音声データに基づいて、当該音声データを含み、当該音声データに係る音声をテキスト化することを要求するテキスト化要求データを生成し、サーバー通信部44を制御して、当該テキスト化要求データを、音声認識サーバー11に送信する(ステップSB3)。なお、音声認識部41は、音声認識サーバー11のアドレス等、音声認識サーバー11と通信をするために必要な情報を管理しており、音声認識サーバー11にデータを送信する場合、音声認識サーバー11との間で所定の通信規格に従ってコネクションを確立し、コネクションを介して音声認識サーバー11にデータを送信する。
次いで、音声認識サーバー11は、テキスト化要求データに含まれる音声データに基づいて、音声データに係る音声をテキスト化し、音声を示すテキストが記述されたテキストデータ(以下、「音声テキストデータ」という。)を生成する(ステップSC2)。音声データに係る音声のテキスト化は、既存の全ての技術を利用可能であり、どのような方法で行われてもよい。
次いで、音声認識サーバー11は、生成した音声テキストデータを中継サーバー10に送信する(ステップSC3)。
なお、本実施形態では、音声データから音声テキストデータへの変換を、中継サーバー10の音声認識部41と音声認識サーバー11とが協働して実行する構成である。しかしながら、音声認識部41に当該変換を実行する機能を設け、音声認識部41が、単独で、当該変換を実行する構成であってもよい。
次いで、音声認識部41は、取得した音声テキストデータを、サーバー制御部40に出力する(ステップSB5)。
サーバー制御部40のモデル選定部40bは、車載装置13から受信した車両環境情報、及び、音声認識部41から入力された音声テキストデータに基づいて、第1意図推定モデルMD1〜第4意図推定モデルMD4から、後述するステップSB7で行われる意図推定処理で利用する1の意図推定モデルMDを選定する処理(モデル選定処理)を実行する(ステップSB6)。
詳述すると、後述するように、第1意図推定モデルMD1は、第1状態で発話された音声に係る音声テキストデータに基づいて、ユーザーの意図を推定する場合に利用するモデルとして、最適化されている。第2意図推定モデルMD2〜第4意図推定モデルMD4と、第2状態〜第4状態との関係についても同様である。
そして、ステップSB6のモデル選定処理において、モデル選定部40bは、車両環境情報に基づいて、車両Sが、第1状態〜第4状態のうち、いずれの状態であるかを検出する。次いで、モデル選定部40bは、第1意図推定モデルMD1〜第4意図推定モデルMD4の中から、車両Sの状態に対応する1の意図推定モデルMDを選定する。
次いで、サーバー制御部40は、所定の施設の位置を検索する必要があるか否かを判別する(ステップSB8)。
所定の施設の位置を検索する必要がある場合(ステップSB8:YES)、サーバー制御部40は、施設に関する情報、及び、対応する施設の検索に必要な情報を施設検索部42に出力し、対応する施設の位置の検索を要求する(ステップSB9)。
例えば、意図推定処理で選定されたラベルが示すユーザーの意図が、特定の施設までの経路案内を要求するものである場合、ステップSB9で、サーバー制御部40は、施設の名称(施設に関する情報)を施設検索部42に出力し、当該名称の施設の位置の検索を要求する。
また例えば、意図推定処理で選定されたラベルが示すユーザーの意図が、車両Sの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、ステップSB9で、サーバー制御部40は、施設の種類(施設に関する情報)、及び、車両Sの現在位置を示す情報(対応する施設の検索に必要な情報)を施設検索部42に出力し、当該種類の施設であって、車両Sの現在位置を中心として所定の距離内に存在する施設の位置の検索を要求する。
なお、車両Sの現在位置について、車載装置13がステップSA4において車両Sの現在位置を示す情報を他の情報と共に中継サーバー10に送信する構成としてもよく、また、サーバー制御部40が車載装置13に必要に応じて問い合わせる構成としてもよい。
次いで、施設検索サーバー12は、施設検索要求データに含まれる情報に基づいて、対応する施設の位置を取得する(ステップSD2)。
ここで、施設検索サーバー12は、地図上の施設に対応するレコードが設けられたデータベースを備える。当該データベースの1件のレコードには、少なくとも、施設の名称を格納するフィールド、施設の種類を格納するフィールド、施設の位置を示す情報を格納するフィードが含まれる。ステップSD2で、施設検索サーバー12は、受信した施設検索要求データに含まれる情報、及び、当該データベースに基づいて、対応する施設の位置を取得する。
次いで、施設検索サーバー12は、ステップSD2で取得した施設の位置を示す情報を中継サーバー10に送信する(ステップSD3)。
なお、本実施形態では、施設の位置の検索を、中継サーバー10の施設検索部42と施設検索サーバー12とが協働して実行する構成である。しかしながら、施設検索部42に当該検索を実行する機能を設け、音声認識部41が、単独で、当該検索を実行する構成であってもよい。
次いで、施設検索部42は取得した施設の位置を示す情報をサーバー制御部40に出力する(ステップSB12)。
ステップSB13において、サーバー制御部40のHMI状態管理部40aは、意図推定処理により選定されたラベルが示すユーザーの意図、HMI遷移ルールデータ43aの内容、及び、施設検索部42から入力された施設の位置を示す情報に基づいて、対応する所定の処理を実行することを要求する情報(ユーザーインターフェースの遷移が必要な場合は、当該遷移を要求する情報を含む。)、及び、当該処理を実行するために必要な情報を生成する。
また例えば、ステップSB13において、ラベルが示すユーザーの意図が、車両Sの現在位置の近隣に存在する特定の種類の施設の検索を要求するものである場合、HMI状態管理部40aは、地図上に対応する施設の位置を表示することを要求する情報(ユーザーインターフェースの遷移が必要な場合は、当該遷移を実行した上で、当該表示を実行することを要求する情報)を生成すると共に、当該表示に必要な情報(対応する施設の位置を示す情報等)を生成する。
次いで、サーバー制御部40は、サーバー通信部44を制御して、ステップSB13でHMI状態管理部40aが生成した情報を、車載装置13に送信する(ステップSB14)。
次いで、車載装置制御部20は、取得した情報に基づいて、対応する所定の処理を実行する(ステップSA6)。例えば、ステップSA6において、車載装置制御部20は、取得した情報が、経路案内を実行することを要求する情報を含む場合、経路案内を実行する。
本実施形態では、意図推定モデルMDを所定の方法で学習させることによって、意図推定モデルMDの精度を向上し、ユーザーの意図の推定の精度を向上している。
以下、意図推定モデルMDの学習方法について説明し、さらに、図3(B)のフローチャートにおけるステップSB7の意図推定処理について詳述する。
ユーザーの意図とは、ユーザーが車載装置13に実行させようと考える処理のことであり、車載装置13がユーザーの発話による指示に応じて実行可能な処理ごとに存在する。これに応じて、ラベルは、車載装置13がユーザーの発話による指示に応じて実行可能な処理ごとに、用意される。例えば、車載装置13がユーザーの発話による指示に応じて実行可能な処理がm個存在する場合、ラベルは処理ごとに、m個、事前に用意される。
以下、車載装置13がユーザーの発話による指示に応じて実行可能な処理のことを「車載装置処理」という。
図4において、ラベルL1は、ユーザーの意図として、近辺施設検索を示すラベルである。近辺施設検索とは、車両Sの現在位置の近辺に存在する所定の種類の施設を検索し、地図上に表示する処理である。
ラベルL2は、ユーザーの意図として、特定施設検索を示すラベルである。特定施設検索とは、車両Sの現在位置に関係なく、特定の施設を検索し、地図上に表示する処理である。
ラベルL3は、ユーザーの意図として、目的地経路案内を示すラベルである。目的地経路案内とは、所定の目的地までの経路を案内する処理である。
ラベルL4は、ユーザーの意図として、自宅経路案内を示すラベルである。自宅経路案内とは、車両Sを所有するユーザーの自宅までの経路を案内する処理である。自宅の位置は、所定の手段によって事前に登録される。
ラベルL5は、ユーザーの意図として、音量設定を示すラベルである。音量設定とは、スピーカー22aから出力される音声の音量を調整する処理である。
ラベルL6は、ユーザーの意図として、燃費表示を示すラベルである。燃費表示とは、車両Sの燃費を示す情報を表示装置21aに表示する処理である。
図4で例示したユーザーの意図は、あくまで一例である。例えば、ユーザーの意図は、車載装置13がオーディオ装置に接続され、又は、車載装置13がオーディオ装置に対応する機能部を有する場合において、楽曲の再生を示すものであってもよい。また例えば、車載装置13がラジオやテレビに接続され、又は、車載装置13がラジオやテレビに対応する機能部を有する場合において、所定のチャンネルの放送の受信を示すものや、チャンネルの変更を示すものであってもよい。
例えば、ユーザーの意図が車両Sの近辺に位置する「道の駅」の検索に係る近辺施設検索である場合、換言すれば、ユーザーが車載装置13に車両Sの近辺に位置する「道の駅」の検索に係る近辺施設検索を実行させようとする場合、ユーザーが、どのような文章で表現するかが収集される。この場合、例えば、「近辺の道の駅」や、「近くにある道の駅を探して」、「近くの道の駅を検索」、「道の駅は近くにあるか」といった文章が収集される。
また例えば、ユーザーの意図が自宅経路案内である場合、換言すれば、ユーザーが車載装置13に自宅経路案内を実行させようとする場合、ユーザーが、どのような文章で表現するかが収集される。この場合、例えば、「自宅へ帰る」や、「自宅へ帰りたい」、「そろそろ拙宅に帰りたい」「自宅へ」といった文章が収集される。
以下、インタビューや、アンケート等の手段によって収集された文章を、「収集文章」という。
以下、収集文章が「近辺の道の駅」である場合を例にして、第1テキスト、及び、第2テキストについて説明する。
第1テキストは、収集文章を示す正しい文章(テキスト)のことである。従って、本例では、「近辺の道の駅」が、第1テキストに該当する。
第2テキストは、収集文章の一部に誤りを含めた文章のことである。本例の場合、例えば、「近辺の道の駅あ」や、「金生の道の駅」、「勤勉の道の駅」、「金目の道の駅」等である。
第2テキストを生成する第1の方法は、第1テキストを人間が実際に発話し、中継サーバー10のサーバー制御部40が、発話された音声に基づく音声認識を行い、音声認識の結果に基づいてテキストを生成する方法である。この第1の方法によれば、音声認識の認識誤りが反映された第2テキストが生成される。発話に基づく音声認識は、複数回行われてもよく、複数回行われた場合は、異なる態様の誤りを含む第2テキストが複数生成される場合がある。
上述したように、本実施形態では、車両Sの環境として、車両Sが所定の閾値を超えた速度で走行している第1状態、車両Sが所定の閾値を下回る速度で走行している第2状態、車両Sがエンジンを駆動しつつ停車している第3状態、及び、車両Sがエンジンを停止して停車している第4状態の4つの状態を想定している。
そして、第1の方法で第2テキストを生成する場合、第1状態〜第4状態のそれぞれの状態下で第1テキストが発話され、中継サーバー10のサーバー制御部40は、それぞれの状態で発話された音声の音声認識の結果に基づいて、第2テキストを生成する。この結果、中継サーバー10のサーバー制御部40により、第1状態に対応する1又は複数の第2テキスト、第2状態に対応する1又は複数の第2テキスト、第3状態に対応する1又は複数の第2テキスト、及び、第4状態に対応する1又は複数の第2テキストが生成される。
なお、本実施形態は、必ずしも、車両Sの環境を上述の4状態に分けて判別しなくてもよい。たとえば、4状態のうち、音声認識の誤りの特性が互いに似ている状態が存在すれば、それらの複数の状態を1個の状態に統合してもよい。または、音声認識の誤りの特性が、より細分化される場合には、4状態より多い状態に環境を分類してもよい。さらに、上述の状態の分類基準に限らず、音声認識の誤りの特性を分類する別の分類基準に従って、状態を判別してもよい。
なお、第1状態下で音声を集音する場合に、必ずしも、所定の閾値を上回る速度で走行する車両Sの中で発話を行う必要はなく、所定の閾値を上回る速度で車両Sが走行した場合に想定される雑音、振動等の音声に影響を与える要因を反映した環境で、音声の集音が行われればよい。このことは、第2状態〜第3状態についても同様である。
第2の方法では、まず、専用のスタジオ等の、発話された音声に対する影響が極力無い環境下で、第1テキストを人間が実際に発話し、発話された音声の集音が行われる。次いで、中継サーバー10のサーバー制御部40は、所定の手段によって、集音された音声に基づいて生成される音声信号に対して、所定の信号処理を施し、当該所定の信号処理を施した音声信号に基づく音声認識を行い、音声認識の結果に基づいて第2テキストを生成する。
ここで、中継サーバー10のサーバー制御部40は、音声信号に対して、第1状態を反映した信号処理を施し、信号処理を施した音声信号に基づいて、第1状態に対応する第2テキストを生成する。なお、中継サーバー10のサーバー制御部40は、音声信号に対して、第1状態を反映した信号処理として、異なる複数の信号処理を施し、複数の第1状態に対応する第2テキストを生成してもよい。第1状態を反映した信号処理とは、第1状態下で発話された音声を集音した場合に、集音される音声に与える影響を反映した信号処理である。このような方法で、第1状態に対応する第2テキストを生成することにより、第1状態に対応する第2テキストを、第1状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキストとすることができる。
同様に、中継サーバー10のサーバー制御部40は、音声信号に対して、第2状態を反映した信号処理を施し、第2状態に対応する1又は複数の第2テキストを生成する。また、中継サーバー10のサーバー制御部40は、音声信号に対して、第3状態を反映した信号処理を施し、第3状態に対応する1又は複数の第2テキストを生成する。また、中継サーバー10のサーバー制御部40は、音声信号に対して、第4状態を反映した信号処理を施し、第4状態に対応する1又は複数の第2テキストを生成する。
なお、信号処理について、車室空間特性の畳み込みを反映したり、音声を集音するマイクの特性の畳み込みを反映したりしてもよい。
第3の方法では、中継サーバー10のサーバー制御部40は、第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて、第2テキストを生成する。
以下、第3の方法について、第1テキストが、「自宅へ帰る」である場合を例にして説明する。
第3の方法では、中継サーバー10のサーバー制御部40は、まず、第1テキストを単語列に分解する。本例では、「自宅へ帰る」について、「自宅/へ/帰る」というように、単語列に分解される。次いで、中継サーバー10のサーバー制御部40は、分解された単語のうち、いずれかの単語(複数であってもよい。)について、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を行って第2テキストを生成する。
単語の同音異義語への変換とは、第1テキストを構成する単語のうちのいずれかの単語について、同音異義語の他の単語に変換することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「帰る」が同音異義語の「買える」へと変換され、「自宅/へ/買える」という第2テキストが生成される。
<単語の脱落>
単語の脱落とは、第1テキストを構成する単語のうちのいずれかの単語について、単語を削除することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「へ」が削除され、「自宅/帰る」という第2テキストが生成される。
<単語の沸き出し>
単語の沸き出しとは、第1テキストに存在しない単語を挿入することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「あ」が末尾に挿入され、「自宅/へ/帰る/あ」という第2テキストが生成される。
<単語の置換>
単語の置換とは、第1テキストを構成する単語のうちのいずれかの単語について、別の異なる単語へと変換することをいう。本例では、中継サーバー10のサーバー制御部40により、例えば、「自宅/へ/帰る」について、単語の「自宅」が、「北区」へと置換され、「北区/へ/帰る」という第2テキストが生成される。
ここで、本実施形態では、中継サーバー10のサーバー制御部40は、第3の方法によって第2テキストを生成する際に、第1状態〜第4状態のそれぞれに対応するテキスト修正を行うことによって、第1状態に対応する1又は複数の第2テキスト、第2状態に対応する1又は複数の第2テキスト、第3状態に対応する1又は複数の第2テキスト、及び、第4状態に対応する1又は複数の第2テキストを生成する。
第1状態に対応する第2テキストを生成する場合、中継サーバー10のサーバー制御部40は、第1状態で発話された音声を音声認識した場合に発生し得る特有の誤り傾向を反映したテキスト修正を行う。第1状態に係る誤り傾向は、例えば、第1状態で実際に発話された音声の音声認識結果を分析することによって算出される。
第1状態に係る音声認識の誤り傾向として、末尾に、単語「あ」の挿入(単語の沸き出し)が発生する傾向がある場合、第1状態に対応する第2テキストの生成に際して行われるテキスト修正は、当該傾向を反映したものとされる。このことは、第2状態〜第4状態に対応する第2テキストについても同様である。
なお、第2テキストは、第1状態〜第4状態に対応するものがそれぞれ生成される。これを踏まえ、第2テキストの選別は、それぞれの状態に対応するものごとに行われる。すなわち、サーバー制御部40は、第1状態〜第4状態のそれぞれの状態について、収集文章ごとに、第2テキストの選別を実行する。
以下、第1テキストが「近辺の道の駅」であり、第1〜第3の方法のいずれかによって生成された第2テキストが「近辺の道の駅あ」、「簡便の道の駅」、及び、「コロ助の道の駅」である場合を例にして、中継サーバー10のサーバー制御部40により行われる第2テキストの選別に係る処理を説明する。
次いで、サーバー制御部40は、第2テキストのそれぞれについて、発音記号列に変換する。具体的には、サーバー制御部40は、第2テキスト「近辺の道の駅あ」を、「kiNpeNnomichinoekia」と変換する。サーバー制御部40は、第2テキスト「簡便の道の駅」を、「kaNbeNnomichinoeki」と変換する。サーバー制御部40は、第2テキスト「コロ助の道の駅」を、「korosukenomichinoeki」と変換する。
編集距離とは、2つの発音記号列(文字列)の距離を算出する手法の1つである。一方の発音記号列を構成する「音素」に対して最小の削除、挿入、置換を行って、他方の発音記号列と同一の発音記号列とする場合に、行われる削除、挿入、置換の回数が、編集距離である。なお、編集距離の算出に関し、発音記号列を構成するアルファベットのそれぞれが「音素」に該当し、例えば、「kiNno」という発音記号列については、「k」「i」「N」「n」、及び、「o」のそれぞれが「音素」である。
また例えば、第1テキスト「近辺の道の駅」に基づく発音記号列「kiNpeNnomichinoeki」と、第2テキスト「簡便の道の駅」に基づく発音記号列「kaNbeNnomichinoeki」との比較に基づく編集距離の算出は、以下のようにして行われる。すなわち、第1テキスト「近辺の道の駅」に基づく発音記号列「kiNpeNnomichinoeki」について、2番目の音素「i」を音素「a」へと置換し、4番目の音素「p」を音素「b」へと置換することにより、第1テキストに係る発音記号列を、第2テキストに係る発音記号列とすることができる。従って、対応する第1テキストと、第2テキストとの編集距離は、「2」である。
詳述すると、音声認識を行う処理部(音声認識エンジン)には、似ている音の音素を誤認識しやすいという特性等の各種特性がある。これを踏まえ、誤認識しやすい音素のペアが編集距離に与える影響等を小さくし、これにより、音声認識エンジンの特性を反映して編集距離を算出する。
例えば、誤認識しやすい音素のペアとして、音素「m」と音素「n」とがあり、また、音素「t」と音素「ch」とがある。これを踏まえ、第1テキストに係る発音記号列と、第2テキストに係る発音記号列との比較時に、音素「m」と音素「n」とを置換する場合、及び、音素「t」と音素「ch」とを変換する場合は、サーバー制御部40は、増加させる編集距離の値を「0.5」とする。
また例えば、誤認識による脱落が起こりやすい音素として、音素「q」(促音)や、音素「t」、音素「g」等がある。これを踏まえ、第1テキストに係る発音記号列と、第2テキストに係る発音記号列との比較時に、これら音素を削除する場合は、サーバー制御部40は、増加させる編集距離の値を「0.5」とする。
また例えば、誤認識による挿入が起こりやすい音素として、音素「p」や、音素「k」、音素「t」等がある。これを踏まえ、第1テキストに係る発音記号列と、第2テキストに係る発音記号列との比較時に、これら音素を挿入する場合は、サーバー制御部40は、増加させる編集距離の値を「0.5」とする。
例えば、本例の第1テキストに係る発音記号列と、第2テキスト「近辺の道の駅あ」に基づく発音記号列「kiNpeNnomichinoekia」(音素の数=19)との比較結果に基づいて算出される編集距離は、「1」であり、サーバー制御部40は、編集距離「1」を、音素の数「19」で割り、発音記号列の距離「0.05」(≒1/19)を算出する。
同様にして、サーバー制御部40は、第2テキスト「簡便の道の駅」に関し、編集距離「2」を、対応する発音記号列の音素の数「18」で割り、発音記号列の距離「0.11」(≒2/18)を算出する。
同様にして、サーバー制御部40は、第2テキスト「コロ助の道の駅」に関し、編集距離「7」を、対応する発音記号列の音素の数「20」で割り、発音記号列の距離「0.35」(=7/20)を算出する。
本例において、閾値が「0.3」であるとすると、サーバー制御部40は、対応する発音記号列の距離が「0.05」である第2テキスト「近辺の道の駅あ」、及び、対応する発音記号列の距離が「0.11」である第2テキスト「簡便の道の駅」を、意図推定モデルMDの学習に利用する学習テキストとして選別する。一方、サーバー制御部40は、第2テキスト「コロ助の道の駅」を、意図推定モデルMDの学習に利用する学習テキストから排除する。
このような構成のため、第1テキストに基づく音声と乖離した音声に係る第2テキストが、意図推定モデルMDの学習に利用されることを防止でき、これにより、意図推定モデルMDの精度の劣化を効果的に防止できる。
ユーザーが実際に発話する環境は、第2テキストの作成に使用した音響環境と、厳密には一致しないことがある。そのような場合、第2テキストのうち、第1テキストと大きく発音が異なるテキストは、ユーザーの環境の音声認識では再現しない可能性が出てくる。そのため、そのようなテキストを意図推定モデルMDの学習に使用すると、ユーザーの発話に対する理解の成功率を下げる可能性がある。本実施形態による第2テキストの選定方法制限を使用すれば、このような成功率の低下を抑えることができる。
以下、意図推定モデルMDの学習に利用する学習テキストとして選別された第2テキストを、「学習用第2テキスト」という。
この結果、所定の例外を除き、基本的には、第1状態〜第4状態のそれぞれの状態に対応して、収集文章ごとに、1又は複数の学習用第2テキストが選別される。
なお、意図推定モデルMDは、後述する方法で学習を行うため、学習テキストして使用する第1テキストの数と、学習用第2テキストの数との関係によって、意図推定の精度が変化する。従って、学習用第2テキストの数との関係で、第1テキストの数を最適化する必要がある。
詳述すると、本実施形態では、サーバー制御部40は、収集文章のそれぞれについて、対応する学習用第2テキストの数よりも「1」多い値の数を、学習テキストとして使用する第1テキストの数とする。
例えば、1の収集文章について、学習用第2テキストの数が、「3」であったとする。この場合、対応する第1テキストの数は、「4」とされる。
以下、変数rについて、「変数r=(学習用第2テキストの数)/(第1テキストの数)」として、変数rを最適化する方法について、例を挙げて説明する。
(1)まず、収集文章に基づいて作成した学習テキストとは、別に、開発用テキストを用意する。
(2)次いで、サーバー制御部40は、収集文章ごとの学習テキスト(第1テキスト及び学習用第2テキスト)を利用して、変数rをさまざまに変えて、複数の意図推定モデルMDを生成する。
(3)次いで、サーバー制御部40は、開発用テキストを利用して、意図推定モデルMDのそれぞれについて、意図推定の正解率を算出する。
(4)次いで、サーバー制御部40は、意図推定の正解率が最高となった意図推定モデルMDに適用した変数rの値を設定する。
(1)まず、サーバー制御部40は、複数ある収集文章ごとの学習テキストを2つのグループに分ける。2つのグループをグループA、グループBとする。
(2)次いで、サーバー制御部40は、グループAに属する学習テキストを利用して、変数rをさまざまに変えて、複数の意図推定モデルMD(以下、「グループAモデル」という。)を生成する。
(3)次いで、サーバー制御部40は、グループBに属する学習テキストを利用して、グループAモデルのそれぞれについて、意図推定の正解率を算出する。
(4)次いで、サーバー制御部40は、グループBに属する学習テキストを利用して、変数rをさまざまに変えて、複数の意図推定モデルMD(以下、「グループBモデル」という。)を生成する。
(5)次いで、サーバー制御部40は、グループAに属する学習テキストを利用して、グループBモデルのそれぞれについて、意図推定の正解率を算出する。
(6)次いで、サーバー制御部40は、同じrで求めたグループAに属する学習テキストの正解率とグループBに属する学習テキストの正解率を平均する。さらに、求めた平均値が最大となったときの変数rの値を設定する。
以下、第1テキスト、及び、学習用第2テキストのそれぞれを総称して、「学習使用テキスト」と表現する。
なお、上述したように、本実施形態では、サーバー記憶部43に、第1意図推定モデルMD1〜第4意図推定モデルMD4の4つの意図推定モデルMDが記憶される。第1意図推定モデルMD1は、第1状態に対応する意図推定モデルMDである。第1意図推定モデルMD1と、第1状態とが対応するとは、第1意図推定モデルMD1が、第1状態下で発話された音声に基づく音声テキストデータの意図推定に用いられることを意味する。また、第2意図推定モデルMD2は、第2状態に対応する意図推定モデルMDである。また、第3意図推定モデルMD3は、第3状態に対応する意図推定モデルMDである。また、第4意図推定モデルMD4は、第4状態に対応する意図推定モデルMDである。
上述したように、学習テキストは、第1状態〜第4状態のそれぞれに対応して、収集文章ごとに生成される。従って、第1状態に対応して、収集分章ごとに、学習テキスト(「1又は複数の第1テキスト」と、「1又は複数の学習用第2テキスト」との組合せ)が存在する。第2状態〜第3状態についても同様である。
そして、サーバー制御部40は、第1意図推定モデルMD1〜第4意図推定モデルMD4の学習を、それぞれ、第1状態〜第4状態に対応する学習テキストを使用して実行する。例えば、サーバー制御部40は、第1状態に対応する収集文章ごとの学習テキストを使用して、以下の方法で、第1意図推定モデルMD1の学習を実行する。
このような方法で第1意図推定モデルMD1〜第4意図推定モデルMD4のそれぞれの学習を実行するため、第1意図推定モデルMD1を、第1状態下で発話された音声に基づく音声テキストデータの意図推定に利用するモデルとして適したものとすることができる。第2意図推定モデルMD2〜第4意図推定モデルMD4についても同様である。
素性ベクトルについては、後述する。
「車載装置処理」とは、上述したように、車載装置13がユーザーの発話による指示に応じて実行可能な処理のことであり、ラベルは、車載装置処理ごとに存在することになる。
1の学習使用テキストに対応する車載装置処理とは、当該1の学習使用テキストの元となった収集文章が示すユーザーの意図のことである。例えば、車載装置13に処理SR1を実行させることを示す収集文章に基づいて生成された学習使用テキストに対応する車載装置処理は、処理SR1である。
また以下の説明では、車載装置処理はm(mは正の整数。)個あるものとし、車載装置処理のそれぞれを、O1、O2、・・・、Omと表す。
また以下の説明では、ユーザーの意図(=ユーザーが車載装置13に実行させようとする車載装置処理。以下、「ユーザー意図」と表現する。)を変数であるYによって表す。ユーザー意図Yには、車載装置処理O1、O2、・・・、Omのいずれかが格納される。
また以下の説明では、学習使用テキストTLに対応する車載装置処理をYLと表す。すなわち、学習使用テキストT1、T2、・・・TLに対応して、車載装置処理Y1、Y2・・・YLが存在する。
図5は、素性ベクトルの説明に利用する素性一覧SQを示す図である。
中継サーバー10のサーバー記憶部43には、図5に示す素性一覧SQに対応するデータが事前に記憶される。
図5に示すように、素性一覧SQでは、収集文章に基づく第1テキスト、第2テキストの内容や、事前のテスト、シミュレーションに基づいて、ユーザーが発話した音声に基づいて生成される音声テキストデータに記述されるテキストに含まれ得る素性が一覧的に設けられる。なお、素性は、第2テキストの誤りも反映したものとされる。
図5の例では、素性として、「自宅」や、「へ」、「帰る」、「する」、「目的地」等が設けられている。
なお、本実施形態では、素性には、文の単語の1−gramと2−gramを使用する。以下で説明するとおり、素性ベクトルのそれぞれの要素は、異なるN−gram要素に対応しており、文の中に素性が存在すれば、当該素性に「1」、存在しなければ「0」に設定される。素性の作成方法には、本実施形態の方法に限らず、単語の品詞を使う方法、単語の文法的な要素情報を使う方法など、他の方法を使用してもよい。
以下、図5(A)に示すように、学習使用テキストが「自宅へ帰る」である場合を例にして、素性ベクトル、及び、素性ベクトルの算出方法について説明する。
まず、サーバー制御部40は、「自宅へ帰る」を素性化し、素性を抽出する。本例では、素性として「自宅」「へ」「帰る」「自宅/へ」、及び、「へ/帰る」が抽出される。
次いで、図5(A)に示すように、サーバー制御部40は、素性一覧SQに設けられた素性のうち、抽出された素性に値「1」を付与し、それ以外の素性に値「0」を付与する。次いで、サーバー制御部40は、素性一覧SQに設けられた素性のそれぞれに付与された値に基づいて、ベクトルを算出する。このようにして算出されたベクトルが素性ベクトルである。
また、図5(B)に示すように、学習使用テキストが「帰宅する」である場合を例にして、素性ベクトル、及び、素性ベクトルの算出方法について説明する。
まず、サーバー制御部40は、「帰宅する」を素性化し、素性を抽出する。本例では、素性として「帰宅」「する」、及び、「帰宅/する」が抽出される。
次いで、図5(B)に示すように、サーバー制御部40は、素性一覧SQに設けられた素性のうち、抽出された素性に値「1」を付与し、それ以外の素性に値「0」を付与する。次いで、サーバー制御部40は、素性一覧SQに設けられた素性のそれぞれに付与された値に基づいて、素性ベクトルを算出する。
以下の説明では、学習使用テキストTLに基づいて生成される素性ベクトルをXLと表す。すなわち、学習使用テキストT1、T2、・・・TLに対応して、素性ベクトルX1、X2、・・・XLが存在する。
次いで、サーバー制御部40は、ユーザー意図Y(Y=O1、O2、・・・、Om)と、素性ベクトルの各要素の関連の大きさを示す重みベクトルであるλYについて、車載装置処理O1、O2、・・・、Omに対応させて、重みベクトルλO1、λO2、・・・、λOmを定義し、さらに、重みベクトルλO1、λO2、・・・、λOmを合体させたλを、重みベクトルとして再定義する(式(1)参照)。
なお、意図推定モデルMDの学習は、重みベクトルλO1、λO2、・・・、λOmを求めることを目的の1つとする。
以上説明した方法を利用して、サーバー制御部40は、重みベクトルλO1、λO2、・・・、λOmを求める。この重みベクトルλO1、λO2、・・・、λOmの算出が、意図推定モデルMDの学習に相当する。
意図推定処理において、中継サーバー10のサーバー制御部40の意図推定部40cは、ステップSB6のモデル選定部40bで選定された意図推定モデルMD(以下、単に「意図推定モデルMD」という。)を利用して、事前に複数種類用意されたユーザーの意図を示すラベルから、発話に対応するユーザーの意図に応じた適切な1のラベルを選定する。
詳述すると、意図推定部40cは、音声テキストデータに記述されたテキスト(=ユーザーが発話した音声をテキスト化した文章)の素性ベクトルを算出する。以下、音声テキストデータのテキストの素性ベクトルを、変数であるXによって表す。
次いで、意図推定部40cは、音声テキストデータに記述されたテキストが、ユーザー意図Yである確立P(Y|X)を、以下の式(5)に基づいて算出する。
また、Zは、全ての車載装置処理で合計すると「1」になるようにする正規化係数である(式(6)参照)。
サーバー制御部40は、式(5)において、P(Y|X)の値が最大となったユーザー意図Y(車載処理装置O1、O2、・・・、Omのいずれか)を、ユーザーの意図であると推定する。例えば、「ユーザー意図Y=車載処理装置O1」のときに、P(Y|X)の値が最大となる場合、サーバー制御部40は、車載処理装置O1を、ユーザーの意図と推定する。
上述したように、ラベルは、車載処理装置O1、O2、・・・、Omごとに用意されている。サーバー制御部40は、ラベルの中から、推定したユーザーの意図(車載処理装置)に対応する1のラベルを選定する。
さらに、意図推定処理において、意図推定部40cは、選定されたラベルが示すユーザーの意図が、特定の施設への経路案内を要求するものや、所定の領域に属する施設の検索を要求するもの等、所定の施設の位置の検索を必要とするものである場合、所定の手段により、音声テキストデータに記述されたテキストから、施設に関する情報を示す文字列を取得する。施設に関する情報とは、例えば、施設の名称や、施設の種類である。上述したように、施設に関する情報は、施設検索部42に出力され、施設検索部42と、施設検索サーバー12との協働により、対応する施設の位置を示す情報に変換される。
この構成によれば、意図推定モデルMDの学習について、音声認識の誤りを反映した学習を実行でき、従って、音声認識の結果から生成されるテキストに基づいてユーザーの意図を推定する際に使用する意図推定モデルMDの精度を向上でき、これに伴って、意図推定の精度を向上できる。
この構成によれば、第2テキストを、音声認識に際して実際に発生した誤りを反映したテキストとすることができ、これに伴って、第2テキストを利用して学習が行われる意図推定モデルMDを、実際に発生し得る音声認識の誤りを反映したモデルとすることができる。
この構成によれば、実際に音声認識に係る処理、作業を行うことなく、第1テキストに基づいて第2テキストを生成することができる。
この構成によれば、第1テキストに基づいて生成する第2テキストについて、音声認識の誤り傾向を反映したテキストとすることができる。
この構成によれば、第1テキストに基づく音声と乖離した音声に係る第2テキストが、意図推定モデルMDの学習に利用されることを防止でき、これにより、意図推定モデルMDの精度の劣化を効果的に防止できる。
この構成によれば、編集距離を利用して、発音記号列の距離を適切に算出できる。
この構成によれば、編集距離に基づく発音記号列の距離の算出の際し、編集距離を認識誤りの発生しやすさを反映した補正を行って算出するため、発音記号列の距離を、認識誤りの発生しやすさを反映した適切な値とすることができる。
この構成によれば、学習テキストにおいて、第1テキストに対する第2テキストの割合が、意図推定モデルMDの精度の劣化を生じさせるほどに大きくなること等を防止でき、意図推定モデルMDの精度の劣化を効果的に防止できる。
この構成によれば、中継サーバー10は、車両Sの環境に対応した意図推定モデルMDを使用して、ユーザーの意図を推定することができる。
例えば、上述した実施形態では、モデルの学習方法について、使用する数式を明示しつつ、具体例を示して説明したが、当該学習方法は、例示された方法に限定されるものではない。
13 車載装置
40b モデル選定部
MD 意図推定モデル(モデル)
Claims (17)
- テキストに基づいて、ユーザーの意図の種類を示すラベルを出力する意図推定装置であって、
前記テキストと、前記テキストに基づいて出力する前記ラベルとの関係をモデリングしたモデルを備え、
前記モデルの学習に使用される学習テキストは、誤りのないテキストである第1テキスト、及び、一部に誤りを有するテキストである第2テキストを含む、
ことを特徴とする意図推定装置。 - 前記第2テキストは、
前記第1テキストを発話した音声を、音声認識して得られたテキストであることを特徴とする請求項1に記載の意図推定装置。 - 前記第2テキストは、
前記第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストであることを特徴とする請求項1に記載の意図推定装置。 - 前記第2テキストは、音声認識の誤り傾向を反映して作成されることを特徴とする請求項3に記載の意図推定装置。
- 前記第2テキストは、
前記第1テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストであることを特徴とする請求項1から4のいずれか1項に記載の意図推定装置。 - 前記発音記号列の距離は、編集距離に基づいて算出されることを特徴とする請求項5に記載の意図推定装置。
- 前記編集距離は、認識誤りの発生しやすさを反映した補正を行って算出されることを特徴とする請求項6に記載の意図推定装置。
- 前記学習テキストにおける前記第1テキストの数と前記第2テキストの数との関係を、所定の関係とすることを特徴とする請求項1から7のいずれか1項に記載の意図推定装置。
- 異なる複数の前記第2テキストから学習した複数の前記モデルと、
入力された音声情報、又は、環境情報に基づいて、複数の前記モデルから、意図推定に使用する前記モデルを選定するモデル選定部と、
を備えることを特徴とする請求項1から8のいずれか1項に記載の意図推定装置。 - テキストと、前記テキストに基づいて出力するユーザーの意図の種類を示すラベルとの関係をモデリングしたモデルの
前記モデルの学習に使用される学習テキストとして、誤りのないテキストである第1テキスト、及び、一部に誤りを有するテキストである第2テキストを生成し、生成した前記第1テキスト、及び、前記第2テキストに基づいて前記モデルの学習を行うことを特徴とするモデルの学習方法。 - 前記第2テキストは、
前記第1テキストを発話した音声を、音声認識して得られたテキストであることを特徴とする請求項10に記載のモデルの学習方法。 - 前記第2テキストは、
前記第1テキストに対して、単語の同音異義語への変換、単語の脱落、単語の沸き出し、単語の置換を発生させて作成されたテキストであることを特徴とする請求項10に記載のモデルの学習方法。 - 前記第2テキストは、音声認識の誤り傾向を反映して作成されることを特徴とする請求項12に記載のモデルの学習方法。
- 前記第2テキストは、
前記第1テキストと比較し、発音記号列の距離が、所定の閾値以下のテキストであることを特徴とする請求項10から13のいずれか1項に記載のモデルの学習方法。 - 前記発音記号列の距離は、編集距離に基づいて算出されることを特徴とする請求項14に記載のモデルの学習方法。
- 前記編集距離は、認識誤りの発生しやすさを反映した補正を行って算出されることを特徴とする請求項15に記載のモデルの学習方法。
- 前記学習テキストにおける前記第1テキストの数と前記第2テキストの数との関係を、所定の関係とすることを特徴とする請求項10から16のいずれか1項に記載のモデルの学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014116506A JP6475426B2 (ja) | 2014-06-05 | 2014-06-05 | 意図推定装置、及び、モデルの学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014116506A JP6475426B2 (ja) | 2014-06-05 | 2014-06-05 | 意図推定装置、及び、モデルの学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015230384A true JP2015230384A (ja) | 2015-12-21 |
JP6475426B2 JP6475426B2 (ja) | 2019-02-27 |
Family
ID=54887176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014116506A Active JP6475426B2 (ja) | 2014-06-05 | 2014-06-05 | 意図推定装置、及び、モデルの学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6475426B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167270A (ja) * | 2016-03-15 | 2017-09-21 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
CN108268442A (zh) * | 2017-12-19 | 2018-07-10 | 芋头科技(杭州)有限公司 | 一种语句意图预测方法及系统 |
US10332033B2 (en) | 2016-01-22 | 2019-06-25 | Electronics And Telecommunications Research Institute | Self-learning based dialogue apparatus and method for incremental dialogue knowledge |
US10490184B2 (en) | 2016-11-10 | 2019-11-26 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and method |
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
WO2020153159A1 (ja) * | 2019-01-24 | 2020-07-30 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
US20210110820A1 (en) * | 2019-10-10 | 2021-04-15 | Samsung Electronics Co., Ltd. | Method and apparatus with speech processing |
WO2023073887A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123470A (ja) * | 1994-10-25 | 1996-05-17 | Nippon Hoso Kyokai <Nhk> | 音声認識装置 |
JP2003242147A (ja) * | 2002-02-18 | 2003-08-29 | Seiko Epson Corp | ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置 |
JP2010072098A (ja) * | 2008-09-16 | 2010-04-02 | Internatl Business Mach Corp <Ibm> | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2012164267A (ja) * | 2011-02-09 | 2012-08-30 | Mitsubishi Electric Corp | 同一意図テキスト生成装置、意図推定装置および同一意図テキスト生成方法 |
US20130159000A1 (en) * | 2011-12-15 | 2013-06-20 | Microsoft Corporation | Spoken Utterance Classification Training for a Speech Recognition System |
-
2014
- 2014-06-05 JP JP2014116506A patent/JP6475426B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123470A (ja) * | 1994-10-25 | 1996-05-17 | Nippon Hoso Kyokai <Nhk> | 音声認識装置 |
JP2003242147A (ja) * | 2002-02-18 | 2003-08-29 | Seiko Epson Corp | ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置 |
JP2010072098A (ja) * | 2008-09-16 | 2010-04-02 | Internatl Business Mach Corp <Ibm> | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2012164267A (ja) * | 2011-02-09 | 2012-08-30 | Mitsubishi Electric Corp | 同一意図テキスト生成装置、意図推定装置および同一意図テキスト生成方法 |
US20130159000A1 (en) * | 2011-12-15 | 2013-06-20 | Microsoft Corporation | Spoken Utterance Classification Training for a Speech Recognition System |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10332033B2 (en) | 2016-01-22 | 2019-06-25 | Electronics And Telecommunications Research Institute | Self-learning based dialogue apparatus and method for incremental dialogue knowledge |
JP2017167270A (ja) * | 2016-03-15 | 2017-09-21 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
US10490184B2 (en) | 2016-11-10 | 2019-11-26 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and method |
CN108268442A (zh) * | 2017-12-19 | 2018-07-10 | 芋头科技(杭州)有限公司 | 一种语句意图预测方法及系统 |
JP7190283B2 (ja) | 2018-08-24 | 2022-12-15 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
WO2020153159A1 (ja) * | 2019-01-24 | 2020-07-30 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
JP2020119271A (ja) * | 2019-01-24 | 2020-08-06 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
JP7211103B2 (ja) | 2019-01-24 | 2023-01-24 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
US20210110820A1 (en) * | 2019-10-10 | 2021-04-15 | Samsung Electronics Co., Ltd. | Method and apparatus with speech processing |
US11508369B2 (en) | 2019-10-10 | 2022-11-22 | Samsung Electronics Co., Ltd. | Method and apparatus with speech processing |
US11830493B2 (en) | 2019-10-10 | 2023-11-28 | Samsung Electronics Co., Ltd. | Method and apparatus with speech processing |
WO2023073887A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6475426B2 (ja) | 2019-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6475426B2 (ja) | 意図推定装置、及び、モデルの学習方法 | |
KR102117574B1 (ko) | 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템 | |
EP3218901B1 (en) | Prediction-based sequence recognition | |
JP5334178B2 (ja) | 音声認識装置およびデータ更新方法 | |
CN111143535B (zh) | 用于生成对话模型的方法和装置 | |
KR102414456B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 유고 정보 처리 방법 | |
US8275615B2 (en) | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation | |
JP5916054B2 (ja) | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム | |
CN104123936A (zh) | 对话系统自动训练方法、对话系统及用于车辆的控制装置 | |
US11443747B2 (en) | Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency | |
US20200027459A1 (en) | Artificial intelligence apparatus and method for recognizing speech of user | |
CN103810995A (zh) | 用于语音系统的调节方法和系统 | |
JP6597527B2 (ja) | 音声認識装置および音声認識方法 | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
US11508367B2 (en) | Dialogue system and dialogue processing method | |
JPWO2007108500A1 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JPWO2012105231A1 (ja) | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム | |
JP2004054298A (ja) | 音声認識の方法および音声信号を復号化する方法 | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
KR20210155401A (ko) | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
CN112420020A (zh) | 信息处理装置及信息处理方法 | |
US20210049324A1 (en) | Apparatus, method, and program for utilizing language model | |
US20030055642A1 (en) | Voice recognition apparatus and method | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170508 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180403 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6475426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |