JP2019095606A - 学習データ生成方法、学習データ生成プログラム、サーバ - Google Patents

学習データ生成方法、学習データ生成プログラム、サーバ Download PDF

Info

Publication number
JP2019095606A
JP2019095606A JP2017225111A JP2017225111A JP2019095606A JP 2019095606 A JP2019095606 A JP 2019095606A JP 2017225111 A JP2017225111 A JP 2017225111A JP 2017225111 A JP2017225111 A JP 2017225111A JP 2019095606 A JP2019095606 A JP 2019095606A
Authority
JP
Japan
Prior art keywords
corpus
data
learning data
intention
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017225111A
Other languages
English (en)
Inventor
和明 嶋
Kazuaki Shima
和明 嶋
本間 健
Takeshi Honma
健 本間
松本 卓也
Takuya Matsumoto
卓也 松本
睿 張
Toru Cho
睿 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2017225111A priority Critical patent/JP2019095606A/ja
Publication of JP2019095606A publication Critical patent/JP2019095606A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】異なる言語に対応する複数のコーパスを混合した言語モデルの学習を実現する。【解決手段】サーバ200は、学習データ274を生成する学習データ生成部250と、学習データ生成部250により生成された学習データ274を用いて言語モデル275の学習を行う言語モデル学習部260とを備える。学習データ生成部250による学習データ274の生成方法は、第1コーパス272から第1のデータを抽出し、第2コーパス273から第2のデータを抽出する。そして、これらのデータを学習データ274にそれぞれ登録することで、第1のデータと第2のデータとを混合して学習データ274を生成する。好ましくは、第2コーパス273は、第1コーパス272が対応する言語と文法的に共通の言語に対応する。【選択図】図1

Description

本発明は、学習データ生成方法、学習データ生成プログラムおよびサーバに関する。
従来、ユーザから入力された音声信号をテキストに変換し、意図推定器によりテキストからユーザの意図を推定することで、ユーザの意図に応じた操作を実現する音声認識システムが知られている。こうした意図推定器では一般に、ユーザの使用言語に応じた言語データベースであるコーパスを利用して作成および学習された言語モデルを用いて、テキストに対応する意図推定が行われる。
上記のような意図推定器に関して、下記の特許文献1には、認識精度の高い音声認識システムの提供を目的として、複数のコーパスを混合して言語モデルの学習を行う言語モデル学習システムが開示されている。
特開2005−106853号公報
特許文献1に開示された言語モデル学習システムでは、たとえば日本語など、同一言語に対応して用途の異なる複数のコーパスを混合することを前提としている。そのため、異なる言語に対応する複数のコーパスを混合して言語モデルの学習を行うことはできない。
本発明による学習データ生成方法は、第1のコーパスと、前記第1のコーパスと言語的に類似する第2のコーパスとを用いて、言語モデルの学習を行うための学習データを生成する方法であって、前記第1のコーパスから第1のデータを抽出し、前記第2のコーパスから第2のデータを抽出し、前記第1のデータと前記第2のデータとを混合して前記学習データを生成する。
本発明による学習データ生成プログラムは、第1のコーパスと、前記第1のコーパスと言語的に類似する第2のコーパスとを用いて、言語モデルの学習を行うための学習データをコンピュータに生成させるプログラムであって、前記第1のコーパスから第1のデータを抽出させる処理と、前記第2のコーパスから第2のデータを抽出させる処理と、前記第1のデータと前記第2のデータとを混合して前記学習データを生成させる処理と、を前記コンピュータに実行させる。
本発明によるサーバは、端末装置と通信可能なものであって、上記の学習データ生成方法により生成された前記学習データを用いて、前記言語モデルの学習を行う言語モデル学習部と、前記端末装置から送信された音声情報を受信する通信制御部と、前記音声情報に基づく音声認識処理を実行する音声認識部と、前記音声認識部による前記音声認識処理の結果に基づき、前記言語モデル学習部による学習が行われた前記言語モデルを用いてユーザの意図を推定する意図推定部と、を備え、前記通信制御部は、前記意図推定部による前記ユーザの意図推定結果を示す意図推定情報を前記端末装置に送信する。
本発明によれば、異なる言語に対応する複数のコーパスを混合した言語モデルの学習を実現できる。
本発明の一実施形態に係る音声認識システムの構成を示す図 第1コーパスおよび第2コーパスの例を示す図 本発明の第1の実施形態に係る学習データの生成方法を示すフローチャート 本発明の第1の実施形態に係る学習データ生成部が生成した学習データの例を示す図 本発明の第2の実施形態に係る学習データの生成方法を示すフローチャート 本発明の第2の実施形態に係る学習データ生成部が生成した学習データの例を示す図 本発明の第3の実施形態に係る学習データの生成方法を示すフローチャート 本発明の第4の実施形態に係る学習データの生成方法を示すフローチャート 本発明の第5の実施形態に係る学習データの生成方法を示すフローチャート 本発明の第6の実施形態に係る学習データの生成方法を示すフローチャート
以下、本発明の実施形態を図面に基づいて説明する。なお、以下で説明する実施形態では、カーナビゲーションシステムに代表される車載端末を音声により操作するシステムを例として、本発明に係る音声認識システムを説明する。ただし、本発明は音声入力機能を有する他の装置やシステム、たとえば携帯電話、スマートフォン、ロボットなどにも適用できる。
図1は、本発明の一実施形態に係る音声認識システム1の構成を示す図である。図1に示す音声認識システム1は、端末装置100とサーバ200とが、通信端末300および通信ネットワーク400を介して接続されることで構成されている。通信端末300は、携帯電話網やインターネット等の公衆通信回線を用いて構成された通信ネットワーク400と接続可能であり、通信ネットワーク400を介してサーバ200との間で通信を行う。通信端末300には、たとえば携帯電話やスマートフォンが用いられる。
端末装置100は、たとえば車両に搭載されており、その機能として、音声区間検出部110、音声符号化部120、通信制御部130、演算部140および表示制御部150の各機能ブロックを備える。なお、端末装置100は、たとえば不図示のCPUやメモリ、記録媒体等を備えており、メモリや記録媒体に記憶された所定のプログラムをCPUにおいて実行することで、これらの機能ブロックを実現することができる。
音声区間検出部110は、マイク10を通してユーザから入力された音声を検出する。音声区間検出部110は、たとえばマイク10から入力される音声信号から実際にユーザが発話している部分を抽出し、その部分の信号波形をサンプリングして音声データ化することで、ユーザの音声を検出する。
音声符号化部120は、音声区間検出部110で検出されたユーザの音声を、サーバ200に送信するためのデータ形式に変換する。音声符号化部120は、たとえば音声区間検出部110から出力される音声データに対して所定の圧縮処理を行うことでデータ量を削減し、サーバ200への送信に適した音声情報を生成する。
通信制御部130は、音声区間検出部110で検出されたユーザの音声に基づく音声情報、すなわち音声符号化部120で生成された音声情報を通信端末300に出力し、通信端末300および通信ネットワーク400を介してサーバ200に送信する。端末装置100から音声情報が送信されると、サーバ200はこれを用いてユーザの意図推定を行い、ユーザの意図推定結果を示す意図推定情報を送信する。サーバ200から送信された意図推定情報は、通信ネットワーク400を介して通信端末300により受信され、通信端末300から通信制御部130に出力される。通信制御部130は、サーバ200から通信ネットワーク400および通信端末300を介して受信した意図推定情報を演算部140に出力する。
演算部140は、サーバ200から受信した意図推定情報に基づき、ユーザの意図に応じた処理や演算を実行する。演算部140による処理や演算の実行結果は、表示制御部150を介してディスプレイ20に表示され、ユーザに提示される。たとえば、ユーザの意図が特定の施設の検索であれば、演算部140が不図示の地図データを用いて当該施設の検索処理を行い、得られた検索結果を表示制御部150に出力する。表示制御部150は、演算部140から入力された検索結果に基づいて、ディスプレイ20に表示された地図上に当該施設の位置を示すなどの方法により、当該施設の検索結果をユーザに提示する。これ以外にも、ユーザの意図に応じた様々な処理や演算を演算部140において実行し、ユーザに提示することができる。
サーバ200は、端末装置100から離れた場所に設置されており、通信制御部210、音声復号化部220、音声認識部230、意図推定部240、学習データ生成部250および言語モデル学習部260の各機能ブロックと、辞書データベース271、第1コーパス272、第2コーパス273、学習データ274および言語モデル275の各データベースとを備える。なお、サーバ200は、たとえば不図示のCPUやメモリ、記録媒体等を備えており、メモリや記録媒体に記憶された所定のプログラムをCPUにおいて実行することで、上記の各機能ブロックを実現することができる。また、記録媒体内の所定の記憶領域を用いて、上記の各データベースを実現することができる。
通信制御部210は、端末装置100から送信された音声情報を通信ネットワーク400を介して受信する。また、受信した音声情報に基づいて意図推定部240が意図推定処理を実行し、その結果に基づく意図推定情報が意図推定部240から入力されると、通信ネットワーク400を介して端末装置100に送信する。通信制御部210は、通信ネットワーク400と接続可能であり、通信ネットワーク400および通信端末300を介して端末装置100との間で通信を行う。
音声復号化部220は、端末装置100から送信された音声情報に基づき、ユーザの音声を復元する。音声復号化部220は、たとえば端末装置100の音声符号化部120において圧縮された音声データを解凍することで、マイク10を介して端末装置100に入力されたユーザの音声を復元する。
音声認識部230は、サーバ200に備えられている音声認識エンジンであり、端末装置100から受信した音声情報に基づくユーザの音声を認識するための音声認識処理を実行する。音声認識部230が実行する音声認識処理では、辞書データベース271が用いられる。音声認識部230は、辞書データベース271を用いて、音声復号化部220から入力された音声データに対応するテキストを検索することで、ユーザの音声に対応するテキストを特定する。なお、辞書データベース271において予め複数の辞書データを登録しておき、この複数の辞書データのいずれかを用いて、音声認識部230がユーザの音声に対応するテキストを特定するようにしてもよい。具体的には、たとえば音声認識部230は、端末装置100を用いてユーザに提供されるコンテンツの内容(たとえばナビゲーション情報、音楽再生等)や、端末装置100が搭載されている車両の状態などに応じて、辞書データベース271に登録されている複数の辞書データの中から、ユーザが発する可能性の高い音声の種類に対応する辞書データを選択する。そして、選択した辞書データを用いて入力された音声データに対応するテキストを検索することで、ユーザの音声に対応するテキストを特定してもよい。音声認識部230による音声認識結果、すなわち音声認識部230で特定されたユーザの音声に対応するテキストは、意図推定部240に出力される。
意図推定部240は、音声認識部230で得られた音声認識結果に基づき、言語モデル275を用いて、マイク10から入力された音声に対するユーザの意図を推定するための意図推定処理を実行する。言語モデル275は、ユーザの使用言語における様々な発話文と意図との関係を示したデータベースであり、言語モデル学習部260が学習データ274を統計処理することによって作成されたものである。意図推定部240は、音声認識結果が示すテキストに対応する発話文を言語モデル275から検索することで、その発話文に対応するユーザの意図を推定することができる。たとえば、音声認識結果として得られたテキストが施設の検索を示唆するものであれば、ユーザの意図が「施設検索」であると推定する。同様にして、たとえば「電話発信」、「オーディオ再生」などのユーザの意図を推定することができる。意図推定部240によるユーザの意図推定結果を示す意図推定情報は、意図推定部240から通信制御部210に出力され、通信制御部210によって端末装置100に送信されると共に、言語モデル学習部260にも出力される。
学習データ生成部250は、第1コーパス272および第2コーパス273を用いて学習データ274を生成する。第1コーパス272および第2コーパス273は、ユーザの使用言語に応じて予め収集された様々な発話文と意図との関係を示した多数のサンプリングデータによってそれぞれ構成されたデータベースである。学習データ生成部250は、第1コーパス272および第2コーパス273からそれぞれ所定の条件を満たすサンプリングデータを抽出して学習データ274に登録することで、第1コーパス272と第2コーパス273を組み合わせて学習データ274を生成することができる。なお、学習データ生成部250による学習データ274の生成方法の詳細については、後で説明する。
言語モデル学習部260は、学習データ274に基づいて言語モデル275を生成すると共に、意図推定部240から入力された意図推定情報に基づいて言語モデル275の学習を行う。言語モデル275の学習では、言語モデル学習部260は、意図推定部240から入力された意図推定情報が示すユーザの意図推定結果を反映して学習データ274を統計処理し、その処理結果に基づいて既存の言語モデル275を更新する。これにより、ユーザの発話履歴に応じて言語モデル275の内容を逐次更新し、意図推定部240によるユーザ意図の推定精度を向上させるようにする。
図2は、学習データ生成部250が行う学習データ274の生成において用いられる第1コーパス272および第2コーパス273の例を示す図である。図2に示すように、たとえば第1コーパス272および第2コーパス273は、不特定多数者への聞き取り調査等によって予め収集された複数のサンプルデータを示す複数のレコードによりそれぞれ構成されており、データID281、発話文282、意図283、スロット284の各フィールドをそれぞれ有する。
データID281は、第1コーパス272、第2コーパス273の各レコードを識別するためのID番号である。データID281には、レコードごとに固有の値が格納されている。発話文282には、各サンプルデータにおける具体的な発話文の内容を示すテキスト(文字列)が格納される。なお、発話文282に格納されるテキストは一般に、第1コーパス272や第2コーパス273がそれぞれ対応する言語の特徴を強く反映したものである。意図283には、各サンプルデータの発話文に対する発話者の意図を示す情報が格納される。スロット284には、意図283が示す発話者の意図を補完する情報が必要に応じて格納される。
第1コーパス272、第2コーパス273は、以上説明した各フィールドの情報を有するレコードをそれぞれ多数保有している。これにより、対応する言語での様々な発話文に対して、発話者がどのような意図で発話したものであるかを示している。たとえば、データID281の値がID=001のレコードは、発話者が「スキー場に行きたい」という発話文を発話した場合、その発話者は「スキー場の検索」という意図で当該発話を行ったことを示している。
次に、学習データ生成部250による学習データ274の生成方法の詳細について説明する。本実施形態の音声認識システム1は、それぞれ異なる言語に対応する第1コーパス272と第2コーパス273を様々な方法で組み合わせることにより、言語モデル275の学習に用いられる学習データ274を生成することを特徴としている。以下では、学習データ生成部250による第1コーパス272と第2コーパス273の様々な組み合わせ方法を、第1〜第6の実施形態としてそれぞれ説明する。
なお、以下の各実施形態では、第1コーパス272が対応する言語を「言語A」、第2コーパス273が対応する言語を「言語B」として説明する。すなわち、第1コーパス272が有する各サンプルデータは、言語Aでの発話文と意図の関係を表しており、第2コーパス273が有する各サンプルデータは、言語Bでの発話文と意図の関係を表している。ここで、上記の言語Aと言語Bとは、言語的に互いに類似しているものとする。言語的な類似とは、たとえば、両言語間で使用される単語には差異があるものの、文法的には言語Aと言語Bが共通であることを意味する。こうした言語Aと言語Bの具体例としては、たとえばアメリカ英語とイギリス英語や、スペイン語とメキシコスペイン語などが該当する。また、同じ言語に属する方言や、発話者の年代に応じた言い回しの差異などを含めてもよい。
(第1の実施形態)
本実施形態では、第1コーパス272と第2コーパス273をそのまま組み合わせて、学習データ274を生成する例を説明する。
図3は、本発明の第1の実施形態に係る学習データ274の生成方法を示すフローチャートである。サーバ200の学習データ生成部250は、たとえばCPUにおいて所定のプログラムを実行することにより、図3のフローチャートに従って学習データ274の生成処理を行う。
ステップS101において、学習データ生成部250は、第1コーパス272に含まれる複数のサンプルデータのうちいずれかを抽出することで、言語Aのサンプルデータを第1コーパス272から抽出する。ステップS102において、学習データ生成部250は、ステップS101で抽出した言語Aのサンプルデータを学習データ274に登録する。
ステップS103において、学習データ生成部250は、ステップS101で第1コーパス272に含まれる全てのサンプルデータを抽出済みであるか否かを判定する。第1コーパス272において未抽出のサンプルデータが残っている場合は、ステップS101に戻ってサンプルデータの抽出を続ける。一方、全てのサンプルデータを第1コーパス272から抽出済みである場合は、処理をステップS104に進める。
ステップS104において、学習データ生成部250は、第2コーパス273に含まれる複数のサンプルデータのうちいずれかを抽出することで、言語Bのサンプルデータを第2コーパス273から抽出する。ステップS105において、学習データ生成部250は、ステップS104で抽出した言語Bのサンプルデータを学習データ274に登録する。
ステップS106において、学習データ生成部250は、ステップS104で第2コーパス273に含まれる全てのサンプルデータを抽出済みであるか否かを判定する。第2コーパス273において未抽出のサンプルデータが残っている場合は、ステップS104に戻ってサンプルデータの抽出を続ける。一方、全てのサンプルデータを第2コーパス273から抽出済みである場合は、図3の処理フローを終了する。
学習データ生成部250は、以上説明した処理を実行することにより、第1コーパス272から抽出したサンプルデータと、第2コーパス273から抽出したサンプルデータとを混合して、学習データ274を生成することができる。
図4は、本発明の第1の実施形態に係る学習データ生成部250が生成した学習データ274の例を示す図である。図4に示すように、たとえば学習データ274は、データID291、発話文292、意図293、スロット294の各フィールドをそれぞれ有する。これらの各フィールドに格納される情報は、図2に例示した第1コーパス272および第2コーパス273におけるデータID281、発話文282、意図283、スロット284の各フィールドに格納される情報とそれぞれ対応している。
図4の学習データ274の例では、第1コーパス272から抽出したサンプルデータに対応する各レコードについては、発話文292の内容を「Ta1」〜「Ta7」、意図293の内容を「Ia1」〜「Ia7」、スロット294の内容を「Sa1」〜「Sa7」でそれぞれ示している。すなわち、データID291の値がID=001〜007のレコードは、第1コーパス272から抽出したサンプルデータに相当する。一方、第2コーパス273から抽出したサンプルデータに対応する各レコードについては、発話文292の内容を「Tb1」〜「Tb7」、意図293の内容を「Ib1」〜「Ib7」、スロット294の内容を「Sb1」〜「Sb7」でそれぞれ示している。すなわち、データID291の値がID=008〜014のレコードは、第2コーパス273から抽出したサンプルデータに相当する。
以上説明した本発明の第1の実施形態によれば、以下の作用効果を奏する。
(1)学習データ生成部250による学習データ274の生成方法は、第1コーパス272から第1のデータを抽出し(ステップS101)、第2コーパス273から第2のデータを抽出する(ステップS104)。そして、これらのデータを学習データ274にそれぞれ登録することで(ステップS102、S105)、第1のデータと第2のデータとを混合して学習データ274を生成する。このようにしたので、異なる言語に対応する複数のコーパスを混合した言語モデルの学習を実現できる。
(2)第2コーパス273は、第1コーパス272が対応する言語と文法的に共通の言語に対応する。このようにしたので、言語的に類似する二つのコーパスを利用して学習データ274を充実させることができ、その結果、第1コーパス272のサンプルデータ数が少ない場合でも、ユーザ意図の推定精度を向上させる言語モデルの学習に寄与する学習データ274を生成することが可能となる。
(3)端末装置100と通信可能なサーバ200は、学習データ生成部250により生成された学習データ274を用いて言語モデル275の学習を行う言語モデル学習部260と、端末装置100から送信された音声情報を受信する通信制御部210と、この音声情報に基づく音声認識処理を実行する音声認識部230と、音声認識部230による音声認識処理の結果に基づき、言語モデル学習部260による学習が行われた言語モデル275を用いてユーザの意図を推定する意図推定部240とを備える。通信制御部210は、意図推定部240によるユーザの意図推定結果を示す意図推定情報を端末装置100に送信する。このようにしたので、異なる言語に対応する複数のコーパスを混合して学習された言語モデル275を用いてユーザの意図を高精度で推定し、その推定結果を端末装置100において利用することができる。
(第2の実施形態)
本実施形態では、特定の意図分類に属するサンプルデータを第2コーパス273から抽出し、第1コーパス272と組み合わせて学習データ274を生成する例を説明する。
図5は、本発明の第2の実施形態に係る学習データ274の生成方法を示すフローチャートである。サーバ200の学習データ生成部250は、たとえばCPUにおいて所定のプログラムを実行することにより、図5のフローチャートに従って学習データ274の生成処理を行う。なお、図5のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと共通する部分には同一のステップ番号を付している。以下では、この図3と共通の部分については、特に必要のない限り説明を省略する。
ステップS104の実行後、学習データ生成部250はステップS104Aの処理を実行する。ステップS104Aにおいて、学習データ生成部250は、ステップS104で第2コーパス273から抽出した言語Bのサンプルデータにおける意図が特定の意図分類に属するか否かを判定する。ここでは、抽出したサンプルデータの意図283を参照し、意図283で示された発話者の意図が、特定の意図分類として予め設定された意図のグループに含まれているか否かを判定する。その結果、特定の意図分類に属すると判定した場合は処理をステップS105に進め、当該サンプルデータを学習データ274に登録する。一方、特定の意図分類に属しないと判定した場合は処理をステップS106に進め、当該サンプルデータを学習データ274から除外して登録しないようにする。
学習データ生成部250は、以上説明した処理を実行することにより、第1コーパス272から抽出したサンプルデータと、第2コーパス273から抽出したサンプルデータのうち所定の登録条件、すなわち当該サンプルデータにおける意図が特定の意図分類に属するという条件を満たすものとを混合して、学習データ274を生成することができる。
図6は、本発明の第2の実施形態に係る学習データ生成部250が生成した学習データ274の例を示す図である。図6に示す学習データ274では、図4に示した第1の実施形態における学習データ274と比較して、発話文292が「Tb3」、意図293が「Ib3」、スロット294が「Sb3」であるレコードと、発話文292が「Tb5」、意図293が「Ib5」、スロット294が「Sb5」であるレコードとが含まれていない。すなわち、これらのレコードに対応する言語Bのサンプルデータは、特定の意図分類に属するという本実施形態の登録条件を満たさないと判断されたため、図6の学習データ274から除外されている。
以上説明した本発明の第2の実施形態によれば、第1の実施形態で説明した(1)〜(3)に加えて、さらに以下の作用効果を奏する。
(4)学習データ生成部250による学習データ274の生成方法は、第2コーパス273から抽出した第2のデータが所定の登録条件を満たすか否かを判定し(ステップS104A)、登録条件を満たさないと判定した第2のデータを除外して学習データ274を生成する。すなわち、第2コーパス273から抽出した第2のデータは、発話文のテキストを示す発話文282のフィールドと、発話文に対応する発話者の意図を示す意図283のフィールドとを含み、登録条件は、第2のデータにおける意図が特定の意図分類に属することを含む。このようにしたので、第2コーパス273のうち特定の意図分類に属するデータのみを第1コーパス272と混合して学習データ274を生成することができる。
一般に、類似する言語間であっても発話者の意図によっては、言語ごとに発話文が大きく異なることがある。たとえば、使用される地域が異なる言語において地域ごとに特有の施設を検索する意図で行われる発話では、発話文の中に施設名が含まれるため、類似する言語間でも発話文の内容が異なることが多い。そこで、このように言語間で発話文の表現に多様性が生じやすい意図については登録条件から除外し、そうではない意図、すなわち発話文の表現に多様性が少ない意図を登録条件として設定しておくことにより、第2コーパス273のうちで適切なデータのみを第1コーパス272と混合して学習データ274を生成することができる。その結果、ユーザ意図の推定精度をさらに向上させる言語モデルの学習に寄与する学習データ274を生成することが可能となる。
(第3の実施形態)
本実施形態では、第1コーパス272で同じ意図のデータが少ないサンプルデータを第2コーパス273から抽出し、第1コーパス272と組み合わせて学習データ274を生成する例を説明する。
図7は、本発明の第3の実施形態に係る学習データ274の生成方法を示すフローチャートである。サーバ200の学習データ生成部250は、たとえばCPUにおいて所定のプログラムを実行することにより、図7のフローチャートに従って学習データ274の生成処理を行う。なお、図7のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと共通する部分には同一のステップ番号を付している。以下では、この図3と共通の部分については、特に必要のない限り説明を省略する。
ステップS104の実行後、学習データ生成部250はステップS104B、S104Cの処理を実行する。ステップS104Bにおいて、学習データ生成部250は、ステップS104で第2コーパス273から抽出した言語Bのサンプルデータにおける意図に対して、第1コーパス272で同じ意図を示すサンプルデータの数を算出する。ここでは、抽出したサンプルデータの意図283を参照し、意図283で示された発話者の意図と同じ内容が意図283に格納されているサンプルデータを第1コーパス272において特定する。そして、特定したサンプルデータの数を数えることにより、第2コーパス273から抽出した当該サンプルデータに対して第1コーパス272で同じ意図を示すサンプルデータの数を算出する。ステップS104Cにおいて、学習データ生成部250は、ステップS104Bで算出したサンプルデータ数が所定値未満であるか否かを判定する。その結果、所定値未満であると判定した場合は処理をステップS105に進め、当該サンプルデータを学習データ274に登録する。一方、所定値以上であると判定した場合は処理をステップS106に進め、当該サンプルデータを学習データ274から除外して登録しないようにする。
学習データ生成部250は、以上説明した処理を実行することにより、第1コーパス272から抽出したサンプルデータと、第2コーパス273から抽出したサンプルデータのうち所定の登録条件、すなわち当該サンプルデータにおける意図と同じ意図を示す第1コーパス272のデータ数が所定値未満であるという条件を満たすものとを混合して、学習データ274を生成することができる。
以上説明した本発明の第3の実施形態によれば、第1の実施形態で説明した(1)〜(3)に加えて、さらに以下の作用効果を奏する。
(5)学習データ生成部250による学習データ274の生成方法は、第2コーパス273から抽出した第2のデータが所定の登録条件を満たすか否かを判定し(ステップS104B、S104C)、登録条件を満たさないと判定した第2のデータを除外して学習データ274を生成する。すなわち、第2コーパス273から抽出した第2のデータは、発話文のテキストを示す発話文282のフィールドと、発話文に対応する発話者の意図を示す意図283のフィールドとを含み、登録条件は、第2のデータにおける意図と同じ意図を示す第1コーパス272のデータ数が所定値未満であることを含む。このようにしたので、第2コーパス273のうち第1コーパス272で同じ意図のデータが少ないデータのみを第1コーパス272と混合して学習データ274を生成することができる。
一般に、コーパスは不特定多数者への聞き取り調査等によって収集された情報により構成されるため、意図によっては必要な数の発話文が事前に収集できず、第1コーパス272において十分な数のサンプルデータが存在しないことがある。そこで、第1コーパス272で同じ意図のデータ数が所定値未満であることを登録条件として設定しておくことにより、第2コーパス273のうちで適切なデータのみを第1コーパス272と混合して学習データ274を生成することができる。その結果、ユーザ意図の推定精度をさらに向上させる言語モデルの学習に寄与する学習データ274を生成することが可能となる。
(第4の実施形態)
本実施形態では、発話文が短いサンプルデータを第2コーパス273から抽出し、第1コーパス272と組み合わせて学習データ274を生成する例を説明する。
図8は、本発明の第4の実施形態に係る学習データ274の生成方法を示すフローチャートである。サーバ200の学習データ生成部250は、たとえばCPUにおいて所定のプログラムを実行することにより、図8のフローチャートに従って学習データ274の生成処理を行う。なお、図8のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと共通する部分には同一のステップ番号を付している。以下では、この図3と共通の部分については、特に必要のない限り説明を省略する。
ステップS104の実行後、学習データ生成部250はステップS104D、S104Eの処理を実行する。ステップS104Dにおいて、学習データ生成部250は、ステップS104で第2コーパス273から抽出した言語Bのサンプルデータにおける発話文の形態素数を算出する。ここでは、抽出したサンプルデータの発話文282を参照し、発話文282で示されたテキストを一つまたは複数の形態素(意味を持つ表現要素の最小単位)に分解して、その数を算出する。なお、各サンプルデータにおける発話文の形態素数の情報を第2コーパス273に予め記憶させておき、その情報を取得することでステップS104Dの処理を実行してもよい。ステップS104Eにおいて、学習データ生成部250は、ステップS104Dで算出した形態素数が所定値未満であるか否かを判定する。その結果、所定値未満であると判定した場合は処理をステップS105に進め、当該サンプルデータを学習データ274に登録する。一方、所定値以上であると判定した場合は処理をステップS106に進め、当該サンプルデータを学習データ274から除外して登録しないようにする。
学習データ生成部250は、以上説明した処理を実行することにより、第1コーパス272から抽出したサンプルデータと、第2コーパス273から抽出したサンプルデータのうち所定の登録条件、すなわち当該サンプルデータにおける発話文のテキストの形態素数が所定値未満であるという条件を満たすものとを混合して、学習データ274を生成することができる。
以上説明した本発明の第4の実施形態によれば、第1の実施形態で説明した(1)〜(3)に加えて、さらに以下の作用効果を奏する。
(6)学習データ生成部250による学習データ274の生成方法は、第2コーパス273から抽出した第2のデータが所定の登録条件を満たすか否かを判定し(ステップS104D、S104E)、登録条件を満たさないと判定した第2のデータを除外して学習データ274を生成する。すなわち、第2コーパス273から抽出した第2のデータは、発話文のテキストを示す発話文282のフィールドと、発話文に対応する発話者の意図を示す意図283のフィールドとを含み、登録条件は、第2のデータにおける発話文のテキストの形態素数が所定値未満であることを含む。このようにしたので、第2コーパス273のうち発話文が短いデータのみを第1コーパス272と混合して学習データ274を生成することができる。
一般に、発話文が長ければ長いほど、発話文の表現に多様性が生じやすくなる。そこで、発話文の長さをテキストの形態素数で規定し、テキストの形態素数が所定値未満であることを登録条件として設定しておくことにより、第2コーパス273のうちで適切なデータのみを第1コーパス272と混合して学習データ274を生成することができる。その結果、ユーザ意図の推定精度をさらに向上させる言語モデルの学習に寄与する学習データ274を生成することが可能となる。
(第5の実施形態)
本実施形態では、第1コーパス272で同じ意味を表す発話文の種類が少ないサンプルデータを第2コーパス273から抽出し、第1コーパス272と組み合わせて学習データ274を生成する例を説明する。
図9は、本発明の第5の実施形態に係る学習データ274の生成方法を示すフローチャートである。サーバ200の学習データ生成部250は、たとえばCPUにおいて所定のプログラムを実行することにより、図9のフローチャートに従って学習データ274の生成処理を行う。なお、図9のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと共通する部分には同一のステップ番号を付している。以下では、この図3と共通の部分については、特に必要のない限り説明を省略する。
ステップS104の実行後、学習データ生成部250はステップS104F、S104G、S104Hの処理を実行する。ステップS104Fにおいて、学習データ生成部250は、ステップS104で第2コーパス273から抽出した言語Bのサンプルデータにおける発話文の形態素を抽出する。ここでは、抽出したサンプルデータの発話文282を参照し、発話文282で示されたテキストを一つまたは複数の形態素に分解する。ステップS104Gにおいて、学習データ生成部250は、ステップS104Fで抽出した各形態素に対して、第1コーパス272で同じ意味の形態素の種類数を算出する。ここでは、抽出した各形態素と同じ意味を持つ形態素を含むテキストが発話文282に格納されているサンプルデータを第1コーパス272において特定する。そして、特定したサンプルデータにおける形態素の種類数、すなわち同じ意味を持つ形態素が何種類あるかを数えることにより、第2コーパス273から抽出した当該サンプルデータに対して第1コーパス272で同じ意味を持つ形態素の種類数を算出する。ステップS104Hにおいて、学習データ生成部250は、ステップS104Gで算出した形態素の種類数が所定値未満であるか否かを判定する。その結果、所定値未満であると判定した場合は処理をステップS105に進め、当該サンプルデータを学習データ274に登録する。一方、所定値以上であると判定した場合は処理をステップS106に進め、当該サンプルデータを学習データ274から除外して登録しないようにする。
学習データ生成部250は、以上説明した処理を実行することにより、第1コーパス272から抽出したサンプルデータと、第2コーパス273から抽出したサンプルデータのうち所定の登録条件、すなわち当該サンプルデータにおける発話文のテキストの形態素と同じ意味を示す第1コーパス272の形態素の種類数が所定値未満であるという条件を満たすものとを混合して、学習データ274を生成することができる。
以上説明した本発明の第5の実施形態によれば、第1の実施形態で説明した(1)〜(3)に加えて、さらに以下の作用効果を奏する。
(7)学習データ生成部250による学習データ274の生成方法は、第2コーパス273から抽出した第2のデータが所定の登録条件を満たすか否かを判定し(ステップS104F、S104G、S104H)、登録条件を満たさないと判定した第2のデータを除外して学習データ274を生成する。すなわち、第2コーパス273から抽出した第2のデータは、発話文のテキストを示す発話文282のフィールドと、発話文に対応する発話者の意図を示す意図283のフィールドとを含み、登録条件は、第2のデータにおける発話文のテキストの形態素と同じ意味を示す第1コーパス272の形態素の種類数が所定値未満であることを含む。このようにしたので、第2コーパス273のうち第1コーパス272で同じ意味を表す発話文の種類が少ないデータのみを第1コーパス272と混合して学習データ274を生成することができる。
一般に、コーパスは不特定多数者への聞き取り調査等によって収集された情報により構成されるため、発話文の内容によっては多様な表現の発話文が事前に収集できず、第1コーパス272において十分な種類数の発話文が存在しないことがある。そこで、発話文の表現の多様性をテキストの形態素の種類数で規定し、第1コーパス272で同じ意味を持つ形態素の種類数が所定値未満であることを登録条件として設定しておくことにより、第2コーパス273のうちで適切なデータのみを第1コーパス272と混合して学習データ274を生成することができる。その結果、ユーザ意図の推定精度をさらに向上させる言語モデルの学習に寄与する学習データ274を生成することが可能となる。
(第6の実施形態)
本実施形態では、第1コーパス272と発話文の発音が近いサンプルデータを第2コーパス273から抽出し、第1コーパス272と組み合わせて学習データ274を生成する例を説明する。
図10は、本発明の第6の実施形態に係る学習データ274の生成方法を示すフローチャートである。サーバ200の学習データ生成部250は、たとえばCPUにおいて所定のプログラムを実行することにより、図10のフローチャートに従って学習データ274の生成処理を行う。なお、図10のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと共通する部分には同一のステップ番号を付している。以下では、この図3と共通の部分については、特に必要のない限り説明を省略する。
ステップS104の実行後、学習データ生成部250はステップS104I、S104J、S104Kの処理を実行する。ステップS104Iにおいて、学習データ生成部250は、ステップS104で第2コーパス273から抽出した言語Bのサンプルデータにおける発話文の発音記号列を抽出する。ここでは、抽出したサンプルデータの発話文282を参照し、発話文282で示されたテキストを発音記号列に変換する。ステップS104Jにおいて、学習データ生成部250は、ステップS104Iで抽出した発音記号列に対して、第1コーパス272の発音記号列の最小編集距離を算出する。ここでは、抽出したサンプルデータの意図283の内容と第1コーパス272の各サンプルデータの意図283の内容とを比較し、これらが一致するサンプルデータを第1コーパス272において特定する。そして、特定した各サンプルデータの発話文282を参照し、発話文282で示されたテキストを発音記号列に変換して、ステップS104Iで抽出した発音記号列に対する編集距離をそれぞれ算出する。ここでいう編集距離とは、二つの発音記号列間の類似度を表す指標であり、たとえば一方の発音記号列を発音記号単位で何回変化させると他方の発音記号列に一致するかの回数で表される。こうして第1コーパス272で特定した各サンプルデータについて、第2コーパス273から抽出したサンプルデータに対する編集距離を算出したら、その中で最も値が小さい編集距離を第1コーパス272の発音記号列の最小編集距離として決定する。ステップS104Kにおいて、学習データ生成部250は、ステップS104Jで算出した最小編集距離が所定値未満であるか否かを判定する。その結果、所定値未満であると判定した場合は処理をステップS105に進め、当該サンプルデータを学習データ274に登録する。一方、所定値以上であると判定した場合は処理をステップS106に進め、当該サンプルデータを学習データ274から除外して登録しないようにする。
学習データ生成部250は、以上説明した処理を実行することにより、第1コーパス272から抽出したサンプルデータと、第2コーパス273から抽出したサンプルデータのうち所定の登録条件、すなわち当該サンプルデータにおける発話文のテキストの発音記号列に対する第1コーパス272の発音記号列の最小編集距離が所定値未満であるという条件を満たすものとを混合して、学習データ274を生成することができる。
以上説明した本発明の第6の実施形態によれば、第1の実施形態で説明した(1)〜(3)に加えて、さらに以下の作用効果を奏する。
(8)学習データ生成部250による学習データ274の生成方法は、第2コーパス273から抽出した第2のデータが所定の登録条件を満たすか否かを判定し(ステップS104I、S104J、S104K)、登録条件を満たさないと判定した第2のデータを除外して学習データ274を生成する。すなわち、第2コーパス273から抽出した第2のデータは、発話文のテキストを示す発話文282のフィールドと、発話文に対応する発話者の意図を示す意図283のフィールドとを含み、登録条件は、第2のデータにおける発話文のテキストの発音記号列に対する第1コーパス272の発音記号列の最小編集距離が所定値未満であることを含む。このようにしたので、第2コーパス273のうち第1コーパス272と発話文の発音が近いデータのみを第1コーパス272と混合して学習データ274を生成することができる。
言語によっては、同じ意味の発話文であっても語尾や助詞の組み合わせが多数存在し、そのため発音の多様性が高いことがある。そこで、発話文の発音の多様性を発音記号列の編集距離で規定し、第1コーパス272の発音記号列の最小編集距離が所定値未満であることを登録条件として設定しておくことにより、第2コーパス273のうちで適切なデータのみを第1コーパス272と混合して学習データ274を生成することができる。その結果、ユーザ意図の推定精度をさらに向上させる言語モデルの学習に寄与する学習データ274を生成することが可能となる。
なお、以上説明した第3〜第6の各実施形態では、ステップS104C、S104E、S104H、S104Kの各判定における閾値としての所定値を、第2コーパス273から抽出したサンプルデータに応じて変化させてもよい。たとえば、第4の実施形態におけるステップS104Eの閾値を、ステップS104で抽出したサンプルデータの意図283で示された意図に応じて変化させることができる。このようにすれば、第2コーパス273から抽出したサンプルデータの登録条件を柔軟に設定することが可能となる。
また、以上説明した第2〜第6の各実施形態は、それぞれ任意に組み合わせて適用することも可能である。たとえば、第4の実施形態と第5の実施形態とを組み合わせて、発話文の形態素の数だけでなく、形態素の種類についても考慮して、第2コーパス273のうちで第1コーパス272と混合するサンプルデータを選択してもよい。
以上説明した実施形態や変形例はあくまで一例である。本発明の特徴を損なわない限り、本発明は上記実施の形態に限定されるものではなく、本発明の技術的思想の範囲内で考えられるその他の形態についても、本発明の範囲内に含まれる。
1:音声認識システム、10:マイク、20:ディスプレイ、100:端末装置、110:音声区間検出部、120:音声符号化部、130:通信制御部、140:演算部、150:表示制御部、200:サーバ、210:通信制御部、220:音声復号化部、230:音声認識部、240:意図推定部、250:学習データ生成部、260:言語モデル学習部、271:辞書データベース、272:第1コーパス、273:第2コーパス、274:学習データ、275:言語モデル、300:通信端末、400:通信ネットワーク

Claims (10)

  1. 第1のコーパスと、前記第1のコーパスと言語的に類似する第2のコーパスとを用いて、言語モデルの学習を行うための学習データを生成する方法であって、
    前記第1のコーパスから第1のデータを抽出し、
    前記第2のコーパスから第2のデータを抽出し、
    前記第1のデータと前記第2のデータとを混合して前記学習データを生成する、学習データ生成方法。
  2. 請求項1に記載の学習データ生成方法において、
    前記第2のコーパスは、前記第1のコーパスが対応する言語と文法的に共通の言語に対応する学習データ生成方法。
  3. 請求項1または請求項2に記載の学習データ生成方法において、
    前記第2のコーパスから抽出した前記第2のデータが所定の登録条件を満たすか否かを判定し、
    前記登録条件を満たさないと判定した前記第2のデータを除外して前記学習データを生成する学習データ生成方法。
  4. 請求項3に記載の学習データ生成方法において、
    前記第2のデータは、発話文のテキストと、前記発話文に対応する発話者の意図とを含み、
    前記登録条件は、前記第2のデータにおける前記意図が特定の意図分類に属することを含む学習データ生成方法。
  5. 請求項3または請求項4に記載の学習データ生成方法において、
    前記第2のデータは、発話文のテキストと、前記発話文に対応する発話者の意図とをそれぞれ含み、
    前記登録条件は、前記第2のデータにおける前記意図と同じ意図を示す前記第1のコーパスのデータ数が所定値未満であることを含む学習データ生成方法。
  6. 請求項3から請求項5までのいずれか一項に記載の学習データ生成方法において、
    前記第2のデータは、発話文のテキストと、前記発話文に対応する発話者の意図とをそれぞれ含み、
    前記登録条件は、前記第2のデータにおける前記テキストの形態素数が所定値未満であることを含む学習データ生成方法。
  7. 請求項3から請求項6までのいずれか一項に記載の学習データ生成方法において、
    前記第2のデータは、発話文のテキストと、前記発話文に対応する発話者の意図とをそれぞれ含み、
    前記登録条件は、前記第2のデータにおける前記テキストの形態素と同じ意味を示す前記第1のコーパスの形態素の種類数が所定値未満であることを含む学習データ生成方法。
  8. 請求項3から請求項6までのいずれか一項に記載の学習データ生成方法において、
    前記第2のデータは、発話文のテキストと、前記発話文に対応する発話者の意図とをそれぞれ含み、
    前記登録条件は、前記第2のデータにおける前記テキストの発音記号列に対する前記第1のコーパスの発音記号列の最小編集距離が所定値未満であることを含む学習データ生成方法。
  9. 第1のコーパスと、前記第1のコーパスと言語的に類似する第2のコーパスとを用いて、言語モデルの学習を行うための学習データをコンピュータに生成させるプログラムであって、
    前記第1のコーパスから第1のデータを抽出させる処理と、
    前記第2のコーパスから第2のデータを抽出させる処理と、
    前記第1のデータと前記第2のデータとを混合して前記学習データを生成させる処理と、を前記コンピュータに実行させる学習データ生成プログラム。
  10. 端末装置と通信可能なサーバであって、
    請求項1から請求項8までのいずれか一項に記載の学習データ生成方法により生成された前記学習データを用いて、前記言語モデルの学習を行う言語モデル学習部と、
    前記端末装置から送信された音声情報を受信する通信制御部と、
    前記音声情報に基づく音声認識処理を実行する音声認識部と、
    前記音声認識部による前記音声認識処理の結果に基づき、前記言語モデル学習部による学習が行われた前記言語モデルを用いてユーザの意図を推定する意図推定部と、を備え、
    前記通信制御部は、前記意図推定部による前記ユーザの意図推定結果を示す意図推定情報を前記端末装置に送信するサーバ。
JP2017225111A 2017-11-22 2017-11-22 学習データ生成方法、学習データ生成プログラム、サーバ Pending JP2019095606A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017225111A JP2019095606A (ja) 2017-11-22 2017-11-22 学習データ生成方法、学習データ生成プログラム、サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017225111A JP2019095606A (ja) 2017-11-22 2017-11-22 学習データ生成方法、学習データ生成プログラム、サーバ

Publications (1)

Publication Number Publication Date
JP2019095606A true JP2019095606A (ja) 2019-06-20

Family

ID=66972990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017225111A Pending JP2019095606A (ja) 2017-11-22 2017-11-22 学習データ生成方法、学習データ生成プログラム、サーバ

Country Status (1)

Country Link
JP (1) JP2019095606A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
JP2009169113A (ja) * 2008-01-16 2009-07-30 Nec Corp 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
JP2009169113A (ja) * 2008-01-16 2009-07-30 Nec Corp 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置

Similar Documents

Publication Publication Date Title
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
KR102117574B1 (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
US11817101B2 (en) Speech recognition using phoneme matching
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
CN107016994B (zh) 语音识别的方法及装置
JP3967952B2 (ja) 文法更新システム及び方法
JP5957269B2 (ja) 音声認識サーバ統合装置および音声認識サーバ統合方法
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
EP2252995B1 (en) Method and apparatus for voice searching for stored content using uniterm discovery
JP2002091477A (ja) 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN112017642B (zh) 语音识别的方法、装置、设备及计算机可读存储介质
US20150081294A1 (en) Speech recognition for user specific language
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
JP2011232619A (ja) 音声認識装置および音声認識方法
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN104199825A (zh) 一种信息查询方法和系统
JP2018040904A (ja) 音声認識装置および音声認識方法
WO2023272616A1 (zh) 一种文本理解方法、系统、终端设备和存储介质
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
JP2012063537A (ja) 通信端末、音声認識方法、および音声認識プログラム
JP5050175B2 (ja) 音声認識機能付情報処理端末
JP2013050742A (ja) 音声認識装置および音声認識方法
CN113724698B (zh) 语音识别模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220208